카카오 서비스 장애 피해 규모 10만5000건...유료피해는 1.5만건 불과
지난 10월 판교 데이터센터 화재로 야기된 '카카오 먹통' 사태에 대한 과학기술정보통신부 조사결과 SK㈜ C&C와 카카오 모두 대형 재난 상황에 준하는 모의훈련 등 대비가 미흡했던 것으로 나타났다.
카카오 서비스 장애로 인한 피해 접수 건은 10만5116건으로 집계됐다. 이 중 유료 서비스에 대한 피해는 1만4918건, 금전적 피해를 언급한 무료 서비스는 1만3198건이다. 네이버는 데이터센터간 이중화 조치로 서비스 중단은 없었다. 그러나 쇼핑몰 내 상품 리뷰 미노출, 뉴스 일부 댓글 이용불가, 파파고 발음듣기 기능 오류 등이 일부 발생했다.
화재상황 반영한 모의 훈련 없었다
6일 정부는 '판교 데이터센터 화재' 사고 원인 조사 결과 브리핑을 통해 카카오서비스 장애로 인한 피해접수 건수가 10만5000여건에 달한다고 밝혔다. 향후 정부는 SK㈜ C&C, 카카오, 네이버 등 3사에 한 달내에 주요 사고원인에 대한 개선조치와 계획을 수립해 보고할 것을 요청했다.
이날 과기정통부, 방송통신위원회, 소방청은 공동 브리핑을 통해 SK㈜ C&C 판교 데이터센터 화재 및 카카오, 네이버 등 부가통신서비스 장애에 대한 조사결과를 발표했다.
지난 10월 15일 SK㈜ C&C 판교 데이터센터 화재로 카카오와 네이버 등 입주기업이 제공하는 서비스에서 장애가 발생했다. 조사결과에 따르면 카카오는 10월 20일 23시경 정상화돼 장애복구에 127시간 33분이 걸렸다. 네이버는 일부 기능 오류(기사 댓글 이용불가 현상 등)가 발생했고, 주요 서비스와 대부분 기능은 약 20분에서 12시간 내 정상화됐다. 당시 정부는 이종호 과기정통부 장관을 본부장으로 하는 '방송통신재난 대책본부'를 꾸리고 전반적 사태 진압에 나선 바 있다.
이번 조사 결과에 따르면 화재는 당일 23시 45분에 진화됐다. 전력의 경우 19일 새벽 5시경 정상공급됐다. 화재 발생 경위를 살펴보면 SK㈜ C&C 판교 데이터센터의 경우 배터리 온도 등을 모니터링하는 'BMS' 시스템을 갖춘 것으로 나타났다. 다만 화재 징후가 없던 도중 지하 3층 내 배터리실에서 발화가 시작됐다. 이후 배터리실 상부에 위치한 전력선과 천장공간이 미분리된 격벽 공간에 있던 일부 무정전전원공급장치(UPS)가 화재로 인한 열(추정) 등으로 손상됐고, 작동이 중지됐다. 화재 진압을 위해 살수를 결정한 이후 누전 및 감전 등 2차 피해 방지를 위해 전력 차단 조치가 결정됐다.
화재 발생 후 가스 소화 장비가 작동하지 않은 것은 아니다. 그러나 가스 소화가 어려운 리튬이온 배터리 화재 특성상 초기 진압에 한계가 있었던 것으로 분석됐다. 리튬이온 배터리가 일부 UPS와 물리적으로 완벽히 분리되지 않은 탓에 열기 등으로 UPS 작동이 중지됐으며, 일부 전원공급도 중단됐다. 화재 대비 매뉴얼은 있었으나 실제 화재상황 수준까지 반영한 세부 대응 계획과 모의훈련은 준비되지 않았던 것으로 파악됐다.
카카오 이중화 체계 작동 안해
카카오는 서비스 기능을 애플리케이션, 서비스 플랫폼, 운영 및 관리도구, 데이터베이스, 인프라 설비 레이어 등 5개 레이어로 구분하고 판교 데이터센터와 타 센터간 '액티브-스탠바이' 체계로 이중화를 구현했다. 그러나 이번 사고에서는 대기 시스템이 제대로 작동하지 않은 것으로 나타났다.
대기 서버를 '동작' 상태로 만들기 위한 권한관리 기능인 '운영 및 관리도구'가 판교 데이터센터 내에서만 이중화돼있고, 타 데이터센터에는 돼있지 않아 서버 작동 불능시 서비스 장애 복구가 지연된 것으로 나타났다. 또한 애플리케이션, 서비스 플랫폼 레이어에서도 이미지, 동영상 송수신 시스템 등 일부 서비스 구성 요소가 데이터센터 간 이중화돼있지 않아 복구에 상당한 시간이 소요됐다.
뿐만 아니라 카카오톡, 다음 등 주요 서비스 대부분의 핵심기능이 판교 데이터센터에 집중돼있어 피해규모를 키웠다는 지적이다. 특히 여러 서비스의 근간을 이루는 '카카오 인증' 등 기능도 판교 센터에 집중돼있는 것으로 나타났다.
카카오는 장애 탐지, 전파, 복구 전반에 걸쳐 기본 프로세스를 정의하고 있으나 각 단계별 체게화 및 자동화가 미흡한 것으로 조사됐다. 일부 서버, 네트워크 등 오류에 대비한 재난 대비 훈련 등 조치는 했으나, 데이터센터 전체가 일시에 불능이 되는 대형 재난 상황에 대한 대비가 부족했던 것으로 파악됐다.
2023년 1분기 종합 개선방안 마련한다
과기정통부는 한 달간 3사가 제출한 조치결과와 향후 조치게획, 재난관리체계 강화를 위한 전문가 및 사업자 으기ㅕㄴ 수렴 과정 등을 거쳐 디지털 서비스 안정성 확볼르 위한 종합 개선방안을 내년 1분기까지 수립할 ㅔ정이다.
방통위는 카카오 등에 대해 피해접수 전담 창구 개설과 피해보상 협의체를 마련해 실질적 피해 구제방안을 수립 이행하도록 했다. 향후 통신 장애 발생 시 이용자 고지와 실효성 있는 피해 구제를 위한 법령 및 이용약관 등 개선방안을 마련할 게획이다.
먼저 과기정통부는 3사가 단기적으로 조치 가능한 사항은 각 사가 선제적으로 조치하도록 하고, 중장기적 조치가 필요하거 구체적 방안 마련 등이 필요한 사안은 향후 한 달내 조치계획을 보고하도록 할 예정이다. 이후 각사가 제출한 조치 결과와 계획, 재난 예방 및 복구에 대한 의견 등을 정책방안 마련에 반영할 계획이다.
우선 과기정통부는 SK㈜ C&C에 배터리모니터링시스템 계측정보 등 관리 강화 방안 및 현 시스템 외 다양한 화재감지 시스템을 갖추도록 촉구했다. 또 리튬 읻온배터리 화재 발생 시 필요한 소화설비 등 구축이 불가능할 경우 대안 마련을 요구했다.
뿐만 아니라 데이터센터 전력공급을 위해 배터리와 기타 전기설비 간 물리적 공간을 부리하고, 배터리실 내에 위치한 전력선을 재배치해 구조적 안정성을 확보하거나 대안 조치를 강구하라고 요구했다. 또한 화재 등 재난 발생 구역 전력을 개별 차단하고, 재난 현장 직접 진입없이도 구역 전력 차단이 가능한 환경을 마련할 것을 주문했다. 끝으로 재난 대응 시나리오 개발과 세부 훈련 계획을 수립하는 한편, 결과도 보고하라고 지적했다.
카카오의 경우 서비스 다중화를 요구했다. 장애 복구 지연 핵심 원인인 '운영 및 관리도구'를 데이터센터 간 높은 수준의 다중화를 적용하도록 하는 점이 골자다. 인증 등 주요 기능에는 현재 수준보다 높은 분산 및 다중화 적용 방안 수립을 촉구한다. 이어 서비스 장애 발생 시 다양한 방식으로 신속하게 이용자에게 고지할 수 있는 체계를 구축하고, 국민 피해 구제 원칙과 기준 설정, 보상 계획을 수립하라고 말했다.
네이버에는 서비스별 복구 목표, 장애 시나리오별 복구 방안등을 재점검해 개선방안을 마련하고 주 데이터센터 전소 등 상황을 가정해 모의 훈련을 실시할 것을 요구했다.
이종호 과기정통부 장관은 "정부는 이번 사고를 계기로 주요 디지털 서비스에 대한 재난 대응체계를 원점에서 재검토하고 각 사업자별 개선방안, 점검결과, 제도 개선 등을 종합해 디지털 시대에 맞는 안정성 강화방안을 마련하겠다"며 "이로써 끊김없는 디지털 서비스를 제공할 수 있는 확고한 디지털 위기관리 체계를 구축해나가겠다"고 말했다.
김가은 기자 7rsilver@techm.kr