이중화 미흡… 화재로 각종 서비스 중단
자체 데이터센터 건립·장애 대응 정비
카카오 ‘일상의 당연한 연결’ 원칙 세워
정부도 장애 고지 기준 확대 등 개선책
카카오톡, 2023년에만 2번 서비스 장애
ICT 고도화로 예상 못한 재난 가능성
AI 등 확산으로 사이버공격 위험 커져
자율주행 등은 사람에 직접 위협 우려
SK C&C 판교 데이터센터 화재와 그로 인한 대규모 카카오톡 먹통 사태가 15일로 1년을 맞았다. 지난해 10월15일 화재로 전원 공급이 끊기면서 카카오의 주요 서비스인 카카오톡을 포함해 카카오페이, 카카오맵 등이 먹통이 됐다. 상당수 일상이 마비되면서 시민들은 큰 불편을 겪었다. 플랫폼 초연결사회의 취약점이 드러난 사례였다. 지난 1년 정부와 카카오 등은 잇따라 대책을 내놓으며 중단없는 서비스 제공을 위한 시스템 구축에 나섰다.
◆화재로 서비스 중단…이중화 미흡 탓
업계에 따르면 SK C&C 데이터센터 화재는 지하 3층 배터리실에서 시작됐다. 화재 원인은 아직 결론이 나지 않았다. 국립과학수사연구원은 배터리 내부에서 발화가 일어났을 가능성이 있다는 감정 결과를 내놨다. 오작동한 것인지, 어떤 요인이 작용했는지 등은 조사 중이다.
판교 데이터센터에 서버를 두고 있는 카카오와 네이버 등의 서비스는 줄줄이 차질을 빚었다. 네이버는 쇼핑 검색 등 일부 서비스가 발생했고, 당일 오후 9시30분 복구됐다.
카카오 서비스 장애는 완전복구까지 127시간30분이 걸렸다. 데이터센터 화재로 전원 공급이 차단됐는데, 백업 시스템이 제대로 작동되지 않으면서 서비스 장애 시간이 길어졌다.
외부전문가로 구성된 카카오 원인조사 소위원회는 △데이터센터 간 이중화 미흡 △운영관리도구 이중화 미흡 △가용 자원 부족을 원인으로 분석했다. 데이터센터 전체에 문제가 생기더라도 다른 데이터센터에 모든 시스템이 이중화돼 있었다면 빠른 복구가 가능했지만, 일부 시스템은 판교 데이터센터 내에서만 이중화돼 있었다. 다른 센터로 자동 전환하는 시스템도 판교 데이터센터에만 설치돼 수동으로 전환 작업을 해야 했다. 장애복구를 위한 인력과 판교 데이터센터 전체를 대신할 만큼의 다른 자원도 부족했다.
카카오는 카카오톡 먹통으로 인한 서비스 장애에 대해 이용자와 비즈니스 파트너 등을 대상으로 275억원의 피해 보상금을 집행했다. 이를 포함해 화재로 인한 카카오의 피해는 SK C&C와 보상 협의를 할 것으로 알려졌다.
◆디지털 재난관리체계 재정비
데이터센터 화재와 카카오 먹통은 당시 디지털 재난 대비 체계가 부족했음을 보여줬다. 카카오와 정부는 재난관리시스템을 재정비했다.
큰 비판을 받은 카카오는 ‘일상의 당연한 연결’을 원칙으로 재정립했다. 이를 위해 카카오는 대시보드를 통해 40종의 클라우드 서비스 상황을 신속하게 파악하고, 장애가 발생하면 카카오톡·메일·카카오워크·사내게시판을 통해 담당자에게 알림을 발송하고 있다. 장애 대응 매뉴얼도 정비했다. 연 1회 2.5개월간의 대규모 정기 훈련과 날짜·공지를 하지 않고 불시에 실시하는 연 2회 비정기훈련 외 데이터센터 장애 모의훈련도 진행하기로 했다. 데이터센터 장애 훈련에서는 메시지 수·발신 등 핵심 기능 정상 작동을 점검한다.
데이터센터, 데이터센터와 서비스, 플랫폼과 운영도구 등 시스템 전체의 철저한 이중화도 진행했다.
카카오는 자체 데이터센터도 운영한다. 지난 9월 ‘카카오 데이터센터 안산’이 경기 안산시 한양대 에리카(ERICA) 캠퍼스에 준공됐다. 총 12만 대 이상의 서버를 보관할 수 있는 규모로, 각종 재난 재해 설비를 완비했다. 내년 1월 정상 운영에 들어갈 예정이다. 카카오는 2026년까지 서울대 시흥캠퍼스에 제2 데이터센터도 건립할 계획이다.
정부는 디지털서비스 연속성 유지를 위한 법 개정을 신속하게 진행했다. 과학기술정보통신부는 부가통신사업자와 데이터센터에도 기존 통신서비스와 마찬가지로 재난관리 의무를 부과했다. 네이버와 카카오, 구글, SK C&C 등 15개사가 새로 추가됐다. 이들은 통신 지연이 10분 이상 지속하면 정부에 신고해야 하고, 디지털 장애를 막기 위한 분산 및 다중화 체계를 필수로 둬야 한다.
화재 예방과 화재 발생 시 피해 최소화를 위해 데이터센터가 해야 할 보호조치도 강화했다. 10분 단위까지 다양하게 운영되던 배터리 계측 주기를 10초 이하로 단축하는 등 배터리 모니터링 시스템을 개선하도록 했다. 배터리실 내 무정전전원장치(UPS) 등 다른 전기설비를 설치하지 않고, 배터리 랙 간 거리를 0.8~1m 이상 확보해 화재가 발생했을 때 확산을 방지하는 방안도 마련했다.
관련 내용으로 법이 개정돼 지난 7월 시행됐으며, 구체적인 고시 개정안 시행·적용은 내년 1월이다.
이와 함께 방송통신위원회는 현재 ‘4시간 이상 유료서비스 중단’으로 돼 있는 부가통신사업자들의 장애 고지 기준을 ‘2시간 이상의 유·무료 서비스 중단’으로 확대하는 내용으로 전기통신사업법 시행령 개정을 추진하기로 했다. 또 ‘중대한 과실인 경우’에만 기업이 이용자에게 손해 배상하게 돼 있는 서비스 약관을 ‘과실이 있는 경우’ 배상하는 것으로 개선하도록 플랫폼사업자들에 권고할 방침이다.
이성엽 고려대 기술경영전문대학원 교수는 “기존에는 네트워크 안정성이나 품질에 대한 책임은 네트워크를 운영하는 통신사업자에 있었으나 카카오톡 사태는 부가통신사업자들도 네트워크와 서비스를 안정적으로 운영할 책임이 있다는 점을 인식하게 만든 계기”라고 평가했다.
◆AI·자율주행 등 새로운 재난 대비해야
SK C&C 판교 데이터센터 화재와 이로 인한 카카오톡 먹통 사태 이후 대책을 마련해 보완하긴 했지만 챙겨야 할 부분은 남아 있다. 지난해 10월 이후 카카오톡은 지난 1월과 5월에도 서비스 장애를 일으켰다. 신뢰가 흔들린 만큼 서비스 안정성을 위한 노력을 지속해야 하는 이유다.
데이터센터에 적용되는 강화된 시설기준은 내년 적용된다. 그러나 이미 지어진 시설의 경우 보완을 하기 위해선 대대적인 공사가 필요한 경우도 있어 업계에선 일부 완화 요구가 나오는 상황이다.
정보통신기술(ICT) 업계 사고를 지켜봤음에도 전산 서비스를 제공하는 다른 분야는 여전히 재해 대비가 미흡하다는 지적도 나온다. 금융감독원이 올해 금융사들을 점검한 결과 재해복구센터를 구축하지 않은 금융회사가 118곳에 이르는 것으로 나타났다. 구축 의무는 없으나 사고 발생 시 서비스 장애가 예상된다.
무엇보다 전문가들은 데이터센터·카카오톡 장애는 ICT 고도화에 따라 나타나는 재난의 일부일 뿐, 앞으로도 이전에 겪지 못한 새로운 디지털 재난이 나타날 수 있기에 대비해야 한다고 강조한다.
당면한 과제가 인공지능(AI)이다. 챗GPT와 같은 생성성 AI가 확산함에 따라 일반인들도 쉽게 악성코드를 만들 수 있게 되면서 AI 이용한 사이버공격이 많아질 위험이 커졌다. 통신·인터넷서비스가 사이버공격에서 자유로울 수 없다.
또 자율주행 자동차와 사물인터넷(IoT)은 디바이스 간 통신에서 장애가 발생하면 직접적으로 사람의 신체에 위협이 되기에 신경 써야 하는 부분이다.
이상엽 교수는 ”최근 논의되는 AI 등 새로운 보안 위협들에 대해서는 충분히 대비해야 한다”며 “사이버 공격·방어는 창과 방패와 같아서 새로운 창이 나온다고 방패를 먼저 만드는 게 쉽지는 않다. 그럼에도 새로운 창에 뚫려 사고가 터지면 이후라도 만반의 준비를 해야 한다”고 말했다. 그는 “안전하고 신뢰할 수 있는 디지털 사회로 가는 데 개인정보보호와 보안이 가장 중요하다”고 덧붙였다.
[ⓒ 세계일보 & Segye.com, 무단전재 및 재배포 금지]