사전테스트 체계 강화, 통신재난 매뉴얼 구체화 등 3개월 내 이행해야
과학기술정보통신부가 31일 카카오에 최근 연속으로 발생한 카카오톡 서비스 장애 관련 시정조치를 내렸다.
과기정통부는 최근 세 차례 발생한 카카오톡 서비스 장애의 원인과 대응, 복구현황에 대한 카카오의 통신재난관리계획 이행 여부를 지난 21일과 23일에 점검하고, 통신재난관리심의위원회를 개최해 카카오의 미흡사항에 대한 시정조치 요구사항을 심의·의결했다고 이날 밝혔다.
이에 따라 이날 과기정통부는 카카오의 재난대응 총괄 책임자와 만나 시정 요구사항을 전달하면서 1개월 이내 개선 조치계획을 수립해 제출하고 3개월 이내에 시정결과를 제출하도록 했다.
시정 요구사항은 ▲주요 작업 전 사전테스트 체계 강화 ▲작업관리 통제 강화 ▲통신재난 관련 매뉴얼 및 지침 보완 ▲모니터링 시스템 고도화를 통한 장애 탐지 강화 ▲장애 원인분석, 사후관리 체계화 ▲장애 사실 이용자 고지 개선 등 총 6가지다.
우선 소프트웨어 업데이트, 시스템 교체 등 주요 작업 전 발생할 수 있는 오류를 사전 검증하기 위한 사전테스트 실시 대상 작업, 수행해야 할 테스트 범위 등에 대한 구체적인 내부지침을 보완하고, 사전테스트 환경을 실제 운영환경과 유사하게 구성하는 등 사전테스트 체계 강화 계획을 3개월 이내에 마련하고 계획대로 추진해야 한다.
또한 주요 작업에 대한 승인·통제가 가능하도록 작업의 성격이나 작업 규모 등을 고려한 작업관리 프로세스를 정립해 작업관리 전반을 체계화하고, 카카오가 당초 ‘2024년 통신재난관리계획’에 반영한 작업관리시스템의 도입을 계획대로 차질 없이 추진해야 한다.
아울러 재난·장애 발생 시 신속한 대응과 의사결정을 할 수 있도록 장애유형별·부서별 역할(전사 전파, 복구물자·인력투입, 이용자 고지 등)을 반영해 매뉴얼을 보완해야 한다. 또 기술적 오류방지 조치, 트래픽 집중·증가 대비 조치 등을 위해 형식적인 ‘서비스 안정성 자체지침’을 구체적으로 보완해야 한다.
모니터링 시스템 고도화를 통한 장애 탐지 강화도 요구사항에 포함됐다. 현재 서버, 네트워크, 서비스 등 개별 운영 중인 모니터링 체계를 보완해 재난총괄부서에서 재난·장애 시 개발부서와 협업해 전파하고 총괄 대응할 수 있도록 3개월 이내에 통합 모니터링 시스템 구축 계획을 수립해야 한다.
뿐만 아니라 유사한 장애가 재발하지 않도록 카카오가 운영 중인 ‘장애 회고 프로세스’를 표준화·공식화해야 한다. 또한 이번 장애의 복구·재발 방지방안을 포함한 전사 차원의 중·장기적 장애 재발 방지대책을 마련해야 한다.
마지막으로 장애 탐지 및 기업 내에 전파 후 이용자 고지 담당부서에서 즉시 대응 조치할 수 있도록 장애 고지 기준 및 시점에 대한 지침을 마련해야 한다. 또한 이용자가 보다 더 빠르고 쉽게 장애사실, 장애복구 여부 등을 인지할 수 있도록 카카오 고객센터 홈페이지 외에도 SNS 등 다양한 채널을 활용해 고지 채널 및 고지 방법을 보다 실효성 있게 개선할 것을 요구 받았다.
이종호 과기정통부 장관은 “국민 생활에 큰 영향을 주는 디지털 서비스 장애가 다시는 반복되지 않아야 한다”며 “디지털서비스 장애는 국민 일상의 불편을 넘어 사회·경제 전반에 지대한 영향을 끼치는 만큼 재발방지를 위해 사업자의 관리체계를 면밀히 점검하겠다”고 말했다.
이어 “카카오도 국민들의 관심으로 성장한 기업인 만큼 재난·장애 관리를 위한 조직문화 개선과 함께 이용자에게 편리하고 안정적인 서비스를 제공하도록 책임을 다할 필요가 있다”고 덧붙였다.
한편 과기정통부에 따르면 카카오톡 장애는 지난 13일 6분, 20일 6분, 21일 54분간 발생했다. 첫 번째 장애는 카카오톡 서비스가 운영되고 있는 데이터센터 서버의 파일을 업데이트하는 작업 중 기존 파일을 삭제하는 과정에서 발생했다.
두 번째 장애는 네트워크 부하 분산을 위한 내부 시스템 기능개선 작업 중 발생한 오류가 원인이다. 마지막 장애는 두 번째 장애를 일으킨 서버의 오류를 미해결한 상태에서 동일 데이터센터에 있는 다른 서버에 자바 프로그램 업데이트를 진행한 것이 원인이었다.
댓글0