● 단일 서버 환경
- 엔지니어 방문/장애 복구 완료 시까지 업무정지
- 정확한 절차에 따라 수동 복구 조치가 필요
- 비즈니스 기회 상실
- 기업 신용도 하락
● NEC EXPRESSCLUSTER X 환경
- 다른 서버에 자동으로 업무(서비스)를 인계
- 장애 발생 시, 사전 준비한 절차에 따라 자동복구
- 비즈니스 기회 상실의 최소화
- 도입한 기업은 안심하고 비즈니스에 집중
다양한 장애를 감지하여 자동으로 Failover
OS 장애, DB 장애 등 다양한 장애를 감지하여 Failover 실시
● 다양한 장애를 감지
- 커스터마이징 모니터링
- 애플리케이션 서비스 장애 감시
- EXPRESSCLUSTER X 자체 장애 감시
- 전원 장애 감시
- OS HangUp 감시
- 디스크 장애 감시
- NIC 장애 감시
- 업무용 네트워크 장애 감시
장애 발생 시 RPO 및 RTO를 최소화
RPO·RTO를 최소화하는 HA 클러스터 시스템
▶ 장애 발생 직전의 최신 버전의 데이터로 신속한 업무 재개 (데이터 손실 최소화)
▶ 자동 장애 감지 및 Failover에 의한 신속한 업무 재개 (서비스 다운타임 최소화)
RPO(Recovery Point Objective) : 복구 목표 시점
RTO(Recovery Time Objective) : 복구 목표 시간
신속한 장애 조치에 의한 업무(서비스) 가용성 확보
1분 이내에 업무 서비스 Failover 완료
● Failover Group 단위로 서버 절체
클러스터 시스템에서 인계할 대상이 되는 구성요소(가상 IP 어드레스, 애플리케이션 등)를 페일오버 그룹으로 정의하고, 페일오버 그룹 단위로 서버 Failover가 이루어집니다.
① 장애 감지
② 애플리케이션 서비스 중지
③ 공유 디스크(미러 디스크) 비활성화
④ 가상(Floating) IP 어드레스 비활성화
⑤ 가상(Floating) IP 어드레스 활성화
⑥ 공유 디스크(미러 디스크) 활성화
⑦ 애플리케이션 서비스 시작
시스템 운영 시의 문제점 해결
장애 대응, 재해 대책 및 계획된 유지보수 작업의 원활한 대응
● 시스템 운영의 당면 과제
- 신속한 장애 대응 및 업무 서비스 연속성 보장
- 업무 시간 확대에 의한 서비스 효율의 향상
- 장애 발생 시, 신속한 업무 복구 및 업무 재개
- 장애 발생 시, 데이터 정합성을 보장하는 장애 복구 및 신속한 업무 재개
- 가상화 환경에서 높은 수준의 가용성 확보
- 클라우드 환경에서 높은 수준의 가용성 확보
● NEC EXPRESSCLUSTER X로 해결
- 시스템 장애를 감지하고, 자동으로 Failover
- 원활한 절체에 의한 업무 운영 지속
- 계획된 유지보수 작업 시에도 업무 운영 지속
- 장애 발생 시에도 RPO 및 RTO의 최소화
- 원격지 클러스터 구성으로 재해 대책
- 장애 시, 자동으로 원격지에서 업무를 재개
- 가상화 환경에서의 HA 클러스터 기능 강화
- 다양한 클라우드 환경에서 동작 확인 완료
- 가상 머신 및 SW 장애에 대한 고가용성 실현
계획된 유지보수 작업 시에도 업무 계속
스탠바이 서버에서의 유지보수 작업으로 업무(서비스) 중단 시간을 최소화
● 시스템 중단 요인
▶ 장애 발생에 의한 중지 24%
- 9% : OS/드라이버 패닉 발생
- 6% : 애플리케이션 에러 발생
- 5% : 하드웨어 장애 발생
- 4% : 그 외의 장애
▶ 계획된 유지보수 76%
- 37% : OS 업그레이드 / 서비스팩 및 핫픽스 적용에 의한 OS 재 시작
- 13% : 애플리케이션 인스톨 / 애플리케이션 보수
- 12% : OS 설정 변경을 반영하기 위한 OS 재 시작
- 7% : 새로운 하드웨어 설치 및 설정을 위한 OS 재 시작
- 7% : 그 외의 OS 재 시작
유지보수 작업으로 발생되는 업무 서비스의 다운타임을 최소화
● 유지보수 작업
- OS 보안 패치 적용 및 설정 변경
- APP 보안 & 기능 패치 적용
- 하드웨어 부품 교체
원격지 클러스터 구성에 의한 재해 대책
지진, 홍수, 화재, 정전 등의 재해 발생시에도 업무(서비스)를 지속
①하드웨어 / 소프트웨어 장애는 메인 사이트 내에서 Failover 처리
②메인 사이트 전체 장애 발생 시, 백업 사이트로 Failover 처리
클라우드 환경에서 높은 수준의 가용성 확보
클라우드 환경도 NEC EXPRESSCLUSTER X로 구성하여 가용성 향상
● 클라우드 환경의 과제
(A) 클라우드 환경에서 완벽한 업무(서비스) 가용성을 유지하기 위한 방법은 유저가 구현해야 한다.(데이터 공유 / Failover 절차 등)
(B) 애플리케이션(업무 서비스)의 가용성은 사용자 책임하에 설정이 필요
(C) 클라우드 벤더 자체적으로 발생되는 장애 도 고려해야 한다.
● NEC EXPRESSCLUSTER X로 해결
(A) 장애 발생 시, 업무(서비스)를 자동으로 Failover하여, Availability Zone간의 데이터 공유를 쉽게 구현한다.
(B) 애플리케이션의 세부 모니터링을 통해 장애 발생에 의한 영향을 최소화한다.
(C) 클라우드 벤더의 자체 장애 발생 시의 영향을 최소화한다.
가상화 환경에서 높은 수준의 가용성 확보
가상화 자체의 HA 기능으로 감지할 수 없는 소프트웨어 장애 감지 및 Failover
▶ 신속하고 정확하게 애플리케이션 및 하드웨어의 장애를 감지하고, 자동으로 복구 작업(Failover)을 실시하여 업무를 지속
▶ 가상화의 자체 HA 기능보다 더욱 빠르게 Failover 실시
▶ 가상화 기반의 Live Migration 기능과 연계한 동작이 가능
유연한 백업(스냅샷) 시스템 운영
백업 실행 시에 업무 서비스에 미치는 영향을 최소화
● 단일 구성
- 백업 실행 시 업무 중단
- 백업(스냅샷)을 위해 데이터 I/O 중지 필요
- 디스크 및 차분 데이터 용량이 클수록 백업(스냅샷)에 걸리는 시간 증가 = 업무 중단 시간의 증가
● NEC EXPRESSCLUSTER 구성
- 백업 중에도 업무 서비스 계속
- 운영서버는 백업을 위해 미러링 일시 중단
- 대기서버에서 백업을 실시하여, 백업으로 인한 업무 서비스 영향을 최소화
- 백업 완료 후, 다시 미러링을 실행하여 차분 데이터만 동기화