|
카카오가 지난 10월 서비스 먹통 사태 원인에 대해 데이터센터, 운영도구 등 이중화 미흡과 컨트롤타워 부재 당 위기대응 과정이 부족했기 때문이라고 밝혔다.
이확영 카카오 비상대책위원회 원인조사 소위원장(그렙 CEO)은 7일 온라인으로 열린 연례 개발자 콘퍼런스 ‘이프 카카오 데브 2022′(이프 카카오)에서 지난 10월 15일 판교 SK C&C 데이터센터 화재로 발생한 서비스 장애의 구체적 원인을 진단했다.
이 소위원장은 “데이터센터 간 이중화와 위기대응 과정이 미흡했다”며 “하나의 데이터센터에서 장애가 발생하면 다른 데이터 센터로 자동 전환해주는 시스템이 작동해야 하는데 이 시스템도 판교데이터 센터에만 있었다. 이로 인해 수동으로 전환 작업을 진행하면서 복구가 늦어졌다”고 설명했다.
이어 “카카오는 서비스 개발과 관리를 위한 운영도구들의 이중성과 안정성 확보에도 소홀했다”며 “전체 시스템의 이중화 수준은 가장 약한 시스템 이중화 수준으로 장애를 초래했다. 체계적인 이중화를 준비했어야 했다”고 진단했다.
또 다른 원인으로 재해 초기 컨트롤 타워 부재도 지적했다. 이 소위원장은 “재해 초기에 카카오 공동체 개별 조직이 동시 다발적으로 개별 대응했지만, 전체적인 조율과 협업을 지원하는 전사 조직이 사전에 준비돼있지 않았다”고 말했다.
또한 이 위원장은 “이중화 전환 후 가용 자원이 부족했다”며 “운영 관리 도구의 복구 인력도 부족했고 장애 대응을 위한 커뮤니케이션 채널에도 혼선이 있었다”고 했다. 카카오는 사내 커뮤니케이션과 모니터링 채널로 카카오톡과 카카오워크를 사용하고 있는데 해당 채널을 쓸 수 없을 때 중요 사항 전파 및 의사결정을 위한 커뮤니케이션 채널이 준비되지 않았다는 것이다.
댓글 많은 뉴스