유용하 회원플랫폼사업실 실장 /사진=카카오 제공
유용하 회원플랫폼사업실 실장 /사진=카카오 제공

 

카카오가 지난 10월 SK C&C 판교 데이터센터 화재로 인한 서비스 먹통 사태의 원인으로 '운영 및 관리도구' 다중화가 미흡했다는 점을 꼽았다.

8일 카카오 연례 개발자 컨퍼런스 '이프 카카오(if kakao)'의 '1015 장애회고' 세션에서 유용하 회원플랫폼사업실 실장은 이같이 내용을 골자로 발표했다. 유 실장은 카카오의 서비스를 위한 레이어를 인프라 설비, 데이터, 운영 및 관리도구, 서비스 플랫폼, 앱(애플리케이션) 등 총 5가지로 꼽았다.

유 실장은 "각각의 레이어는 각각의 역할에 따른 다중화 설계가 돼야한다"면서 "이번 장애의 경우 이 중 '운영 및 관리도구' 레이어에서 데이터센터 다중화 구성이 완벽하지 못해 전체적인 서비스 복구 시간이 지연되는 가장 큰 원인이 됐다"고 설명했다.

운영 및 관리도구 레이어는 서비스의 운영에 필요한 기술적 도구들이 속한 부분이다. 운영상 배포에 관련된 도구들과, 문서, 모니터링에 관련된 도구들 그리고 이런 툴을 사용하기 위한 사내 권한 관리를 하는 서비스 등을 포함하고 있다는 게 회사 측 설명이다.

카카오는 2022년 현재 판교 SK C&C 데이터센터를 포함해 현재 4개의 주요 데이터센터를 이용하고 있다. 이번 화재가 발생한 판교 SK C&C 데이터센터에 3.2만 대의 서버가 있으며 중요한 역할을 하는 서버가 많이 위치해 있었다고 설명했다. 

유 실장은 "카카오 개발자들은 장애 이후 많은 논의를 이어가며 문제에 대한 개선 사항이나 계획을 수립하고 있다"고 강조했다.

이영아 기자 twenty_ah@techm.kr

관련기사