세계일보

검색

‘10년전 불통’ 사고에도… 백업·재난대응 부실이 화 키워 [카카오 먹통 대란]

입력 : 2022-10-16 18:42:12 수정 : 2022-10-16 18:42:11

인쇄 메일 글씨 크기 선택 가장 작은 크기 글자 한 단계 작은 크기 글자 기본 크기 글자 한 단계 큰 크기 글자 가장 큰 크기 글자

화재 한 번에 멈춰선 ‘국민 메신저’

서버 3만2000여대 구축된 메인센터서
카카오 “화재 예상못한 시나리오” 해명
“이중화 했지만 전원 차단돼 복구 지연”

같은 건물 쓰는 네이버 빠른 복구와 비교
IT전문가들도 “장시간 오류 납득 안 가”
백업 정상 작동여부·서버 분산 등 논란

카카오 사상 최악의 서비스 중단 사태가 발생하면서 카카오는 실시간 데이터 백업체계와 재난 장애 대응에 문제가 있다는 비판을 피하기 어렵게 됐다. 수천만명이 쓰는 서비스가 화재 한번으로 수 시간 동안 멈추는 상황은 납득하기 어렵기 때문이다. 특히 화재가 발생한 건물에는 네이버도 일부 서비스에 오류가 생겼지만, 카카오와는 대조적으로 빠르게 복구됐다.

카카오톡 등에서 15일 오후부터 동시다발적으로 발생한 장애가 장기화하면서 불편이 이어지는 가운데 16일 오후 경기 과천의 한 카카오T 주차 사전무인정산기에 시스템 장애를 알리는 안내문이 붙어 있다. 연합뉴스

16일 카카오 등에 따르면 전날 화재가 발생한 SK 주식회사 C&C 판교 데이터센터에 있는 서버 가운데 절반가량이 복구됐거나 복구 작업을 진행 중이다.

양현서 카카오 부사장은 이날 화재 현장에서 기자들과 만나 화재로 인한 데이터센터의 전체 전원차단으로 예상치 못한 장애가 발생했다며 향후 이에 대비한 조치를 취하겠다는 입장을 밝혔다.

양 부사장은 “카카오는 안양 등에도 데이터센터가 있지만, 이곳에 서버를 약 3만2000대 정도 두면서 메인 센터로 삼았다”면서 “현재 1만2000개 정도의 서버가 복구됐고 2000∼3000대는 복구 작업이 진행 중”이라고 말했다. 이어 “본래 사고 발생 시 20분 내 복구가 매뉴얼이지만, 서버 손실량이 워낙에 크다”면서 “이중화 조치에도 전원 공급이 차단된 상황이어서 서버를 증설해 트래픽을 전환하는 데 시간이 많이 걸리고 있다”며 서비스가 완전 복귀되기까지 시간이 얼마나 더 걸릴지 정확히 말하기 어렵다고 부연했다.

양 부사장은 “서버 3만2000대가 전부 다운되는 것은 IT 업계에서 유례를 찾기 어려운 상황”이라며 “저희가 예상하는 리스크 대응 시나리오가 있었지만, 화재는 워낙 예상을 못 한 시나리오였기 때문에 대비책이 부족하지 않았나 본다. 대비책을 마련하겠다”고 덧붙였다.

그러나 전문가들은 하나의 데이터센터 전기실에서 난 불로 카카오의 대다수 서비스가 18시간 넘게 오류를 빚는 것은 쉽게 납득하기 어려운 상황이라고 지적했다. 일반적으로 많은 사용자가 이용하는 IT 서비스는 여러 데이터센터에 서버를 분산하는 이중화 작업을 통해 비상사태에 대비한다. 한 곳이 화재나 지진, 테러 등으로 작동을 멈춰도 다른 센터에 백업된 데이터로 서비스를 즉각 재개할 수 있도록 해야 하는데 카카오가 이 같은 상황에 대한 준비가 미흡했던 것 아니냐는 분석이다.

IT 업계 한 관계자는 “막대한 유지 비용이 드는 미러사이트까지는 아니더라도, 핫사이트가 제대로 갖춰졌으면 몇 시간 안에는 복구됐을 것”이라고 말했다.

‘미러사이트’는 한 서버가 가진 데이터를 그대로 복사해 보유한 서버를 가리키고, ‘핫사이트’는 시스템 장애를 대비해 서버와 데이터 등을 미리 설치해둔 백업 사이트를 뜻한다.

현장 찾은 과기부 장관 16일 경기 성남 분당구 SK C&C 데이터센터 화재 현장을 찾은 이종화 과학기술정보통신부 장관이 화재가 난 데이터센터 건물로 들어서고 있다. 성남=남제현 선임기자

이와 관련해 카카오 관계자는 “이중화·백업 시스템 마련돼 있지 않다는 말은 맞지 않다. 이중화, 백업 조치 이미 마련돼 있었음에도 다른 서버로 즉각 적용할 수 있는 것이 아니라 시간이 필요하다”며 “화재 발생 직후 이중화된 데이터와 시스템을 기반으로 서비스 복구 작업을 시작했지만 판교 데이터센터가 메인이고 센터 전체 전원이 차단되는 이례적 상황이다 보니 예상보다 오랜 기간이 소요되는 것”이라고 말했다. 이어 “저희 자체 데이터센터를 만드는 상황이고 복구가 어느 정도 마무리가 되면 이 같은 일이 반복되지 않도록 다양한 기술적 조치를 마련하겠다”고 덧붙였다.

화재 직후 데이터센터의 전원 공급을 차단하는 과정에서 문제가 커졌을 것이라는 지적도 나온다. 화재 발생 3분 뒤인 15일 오후 3시22분 SK C&C 데이터센터 서버 서비스 전원이 차단된 것이 먹통 사태로 이어졌다.

김승주 고려대 교수(정보보호대학원)는 “일차적으로 SK C&C가 왜 모든 서버에 연결된 전원을 다 꺼버렸는가를 봐야 한다. SK에서 예비전원시설부터 시작해서 모든 전기를 전부 다 차단시켰다. 보통은 입주 기업한테 동의를 구하고 준비할 시간을 주는 등 사전 조율된 상태서 전원을 차단한다. 준비할 시간이 충분히 갖춰진 상태에서 전원을 끈 건지, 무턱대고 끈 것인지부터 우선 체크해야 될 것 같다”고 말했다.

16일 오전 경기 성남시 분당구 SK C&C 판교캠퍼스 카카오 데이터센터 화재현장에서 소방과 경찰 관계자들이 1차 감식을 위해 이동하고 있다. 뉴스1

카카오의 이같은 장시간 오류 사태는 같은 건물에 서버를 두고 있는 네이버와 비교되면서 더 큰 비판을 받고 있다. 네이버에서도 일부 서비스 장애가 있었지만, 카카오처럼 전방위적으로 발생하지는 않았고 15일 밤까지 대부분 복구가 완료됐다. 주요 서비스의 이중화와 서비스 컴포넌트 분산 배치·백업 덕에 영향이 적었다는 것이 네이버 측 설명이다.

일각에서는 카카오가 10년 전에도 전력 공급 장애로 카카오톡을 서비스하지 못했던 사례를 들며 대책 마련에 소홀했다는 지적도 나온다.

 

한 업계 관계자는 “10년 전에도 카카오톡 서비스가 LG CNS 인터넷 데이터센터에 전력 공급이 끊기며 4시간가량 불통되는 상황이 발생했고, 4년 전에는 KT 통신 장애가 발생한 적이 있다”며 “과거 사례를 교훈 삼아 기업들이 데이터 분산 시스템을 운영해야 한다는 지적이 나왔지만 이번 사태로 제자리걸음인 것이 드러난 만큼 주요 기업들이 재난 상황에 대비할 수 있는 체계적인 대응 시스템 마련에 적극 동참해야 한다”고 강조했다.


남혜정 기자 hjnam@segye.com

[ⓒ 세계일보 & Segye.com, 무단전재 및 재배포 금지]

오피니언

포토

권은비 '반가운 손인사'
  • 권은비 '반가운 손인사'
  • 이주명 '완벽한 미모'
  • 수지 '우아한 매력'
  • 송혜교 '반가운 손인사'