2022년 카카오 서비스 마비사건

일부 복구된 Daum 메인 화면

2022년 SK C&C 판교캠퍼스 A동 화재는 2022년 10월 15일 15시 30분경 배터리에서 발화된 화재로, 약 9시간만에 화재를 진압했다. 상주 인력은 전원 대피에 성공하여 인명피해는 없었다.

1 개요[편집]

2022년 10월 15일 오후 3시 30분 무렵부터 경기도 성남시 분당구에 위치한 SK C&C의 판교 데이터센터의 배터리실에서 화재가 발생, 이에 따른 안전조치로 데이터센터에 연결된 전원을 차단하면서 해당 데이터센터에 입주해 있던 서버 전체가 셧다운 된 것이 주요 원인이다.

여기까지만 보면 단순한 IDC 화재사건으로 끝날 수도 있는 일이었으나 이 SK 판교 데이터센터에는 카카오의 전체 서버가 몰빵되어 입주해 있었으며, IDC의 전원차단으로 카카오톡을 비롯한 카카오 연계 서비스 전체가 한꺼번에 마비되어 버리면서 대한민국 사회 전체에 상당한 혼란을 야기하는 대형 사건으로 이어지게 되었다.

2 사고 경과[편집]

2.1 10월 15일[편집]

  • 오후 3시 19분 화재 발화
  • 오후 3시 22분 IDC내 전체 노드 셧다운
  • 오후 3시 30분경부터 카카오 계열 서비스 장애 발생 시작
  • 오후 3시 33분 화재신고 접수
  • 오후 3시 40분 무렵 서비스 장애 관련 뉴스 보도 시작
  • 오후 5시 46분 주 불길 초진 성공
  • 오후 6시 20분 무렵 판교 데이터센터 화재 뉴스 보도 확인
  • 오후 6시 50분 카카오측에서 전원 공급시 2시간이면 전체 서비스가 복구 가능할 것이라고 밝힘[1]
  • 오후 9시 40분 카카오 대표의 사과문 발표[2]
  • 오후 10시 과학기술정보통신부 실장급 주관 방송통신재난대응상황실 설치
  • 오후 10시 40분 SK C&C 대표이사 명의 사과문 발표
  • 오후 11시 30분 다음 메인페이지와 뉴스 페이지 접속 가능[3]

2.2 10월 16일[편집]

  • 오전 0시 40분 : 전체 화재 완진, 전력복구작업 시작
  • 오전 1시 30분 : 카카오톡 채팅 기능 일부 복구. 사진전송 및 카톡 인증은 여전히 먹통
  • 오전 8시 : 다음 카페, 맵, 페이, 모빌리티 등 일부 정상화
  • 오전 10시 25분: 카카오톡 PC버전 서비스 개시
  • 오전 11시 15분 : 과학기술정보통신부 장관 주관 방송통신재난대책본부 격상
  • 오후 2시 30분 : 티스토리 모바일 페이지 접속 가능, 단 관리자 페이지와 글쓰기는 불가능한 상태
  • 오후 5시 : 선물하기, 웹툰, 스타일 결제 등 복구
  • 오후 6시 20분 : 카톡 이미지, 문서, 파일발송 복구
  • 오후 9시 30분 : 주요 서비스가 상당 부분 정상화되었다고 공지. 그러나 일부 서비스의 자잘한 장애는 여전히 계속되는 중
  • 오후 11시 30분 : 티스토리 관리자 페이지 일부 복구, 관리자 주소를 직접 타고 들어갈 경우 글쓰기는 가능하지만 간헐적인 불안정 상태 유지. PC접속할 경우 자동으로 모바일 페이지로 넘어간다.

2.3 10월 17일[편집]

  • 티스토리의 간헐적 접속 장애 지속. 티스토리는 반응형 스킨 사용시 PC접속시 모바일 페이지로 강제 리다이렉트 되는 문제점 해결이 되지 않고 있다. 참고로 티스토리 블로그는 웹브라우저의 모바일 모드에서는 글쓰기가 불가능하다.
  • 다음메일과 한메일도 업무일이 되었음에도 접속이 불가능하다.
  • 다음의 검색포털 기능이 제대로 작동하지 않고 있는 것이 확인된다. 특히 통합웹검색은 15일 이후 검색엔진 자체가 복구가 되지 않았는지 갱신 자체가 되지 않고 있다.

2.4 10월 18일[편집]

  • 17일에 발생한 것으로 확인된 문제가 여전히 고쳐지지 않은 것으로 확인되었다.
  • 저녁시간대부터 다음의 웹페이지 수집용 검색엔진이 다시 기능하기 시작하였다. 다만 사이트 등록은 여전히 막힌 상태

2.5 10월 19일[편집]

  • 오전 6시 : 한메일, 카카오메일, 다음메일의 메일서비스와 톡채널 서비스 복구 다만 톡채널의 메세지 발송기능은 아직 제외, 카카오 페이 기능도 함께 복구 완료
  • 오전 5시 : 판교 데이터센터의 전원공급률이 100%를 기록(속보는 오전 7시 이후에 보도)
  • 오후 2시 30분 : 티스토리 블로그의 모바일 리다이렉션 문제와 사용자 편집 스킨 사용불가 문제 해결. 블로그 내부 검색기능 이외 티스토리 기능 정상화

2.6 10월 20일[편집]

  • 오후 11시 전체 서비스와 기능 복구 완료 선언. 사건 발생 이후 약 127시간 30분만에 상황 종료

3 중단 서비스 목록[편집]

  • 카카오 계열 서비스
    • 카카오톡 : 채팅 기능만 마비된 것이 아니라 카카오톡 인증까지 먹통이 되면서 여기에 연동된 로그인이나 본인인증, 금융, 송금 등이 모조리 먹통이 되어버렸다.
    • 카카오T
    • 카카오페이
    • 카카오버스
    • 카카오게임즈
    • 업비트 : 카카오 인증 로그인 기능이 마비되었다.
    • 멜론 (카카오엔터테인먼트)
  • 다음 계열 서비스
    • 다음 : 16일 오전 1시 무렵에 되어서 메인페이지와 뉴스 페이지만 겨우 복구. 그러나 로그인 기능 제한과 뉴스사 기사 연결은 이 시점까지 복구되지 않았고 메인페이지가 돌아온 시점 기준 약 12시간 이전에 올라와 있던 기사가 마지막이었다. 뉴스와 로그인 기능이 돌아온 이후에도 검색엔진 기능은 제대로 작동하지 않고 있어 18일 오전 기준으로도 사건 이전 시점까지 자체 검색엔진에 잡힌 웹페이지 이후로는 갱신이 제대로 되지 않고 으며, 검색에 직결되는 사이트 등록 페이지도 여전히 먹통 상태이다.
    • 티스토리 : 평소 카카오에서도 내놓은 자식 취급하는 티스토리인지라 가장 복구가 늦어질 가능성이 있다. 국민적 관심사가 높은 카카오 관련 서비스와 얼굴마담이라 할 수 있는 다음은 빠르게 복구가 진행되는 반면, 같은 시점(10/17 오전 무렵) 티스토리는 상대적으로 늦은 복구속도에 모바일 페이지가 접속가능하게 바뀐 뒤에도 간헐적인 장애로 제대로 된 접속은 불가능한 상태이다.
    • 카카오맵(구. 다음 맵)
    • 다음 메일 및 카카오 메일 : 업무일인 월요일이 되어도 복구되지 않았다. 화재 발생 후 4일이 지난 10월 19일 오전이 되어서야 메일 기능이 정상화되었다.
  • 비 카카오 계열 서비스
    • SK C&C 판교 입주 서비스: 일부 SK계열 서비스(엔카[4], 케이카 등), 네이버(쇼핑, 블로그·카페, 시리즈온 등)[5], IBM 클라우드 서울 리전[6]
    • 카카오 API 활용 서비스: 카카오i 음성인식(현대자동차 블루링크 등), 카카오맵 및 도로명주소 검색API(중소 사이트들)
    • 카카오계정 로그인 연동 서비스: 다음, 티스토리 등 카카오 계열 서비스 및 카카오 간편로그인을 연결하는 사이트들
    • 카카오뱅크: 카카오톡 연동 부문 장애. 카뱅은 상암의 LG CNS 데이터센터에 코어 서비스가 있고, 금융권 규제 상 DR 계획을 의무로 가지고 있어야 하기 때문에 화를 면했다.
    • 네이버 일부 서비스 : 뉴스, 쇼핑, 카페, 블로그, 시리즈온, 오픈톡, 스마트스토어센터, 라이브커머스 등에서 접속 지연이 발생하는 등 일부 서비스 장애가 있었으나 사건 당일 오후 7시 이전에 전부 복구되었다.(가장 늦게 복구된 라이브 커머스가 오후 6시 30분 이전에 복구되었다)

4 문제점[편집]

가장 큰 문제점은 거의 전 국민이 사용하는 IT 기업의 서비스임에도 불구하고 단 한 곳의 마비로 전체 서비스가 중단되었다는 점이다. 카카오측에서는 이원화 조치가 되어있다고 하지만 정황상 단일 사이트의 고가용성만 확보하고 원격지 사이트에서 Active-Active 구성으로 서비스를 분산처리해오거나 Hot Standby로 실시간 대기시키지 않고, Cold Standby로 띄엄띄엄 동기화하여 대기시키거나 단순 백업 소산만 하여 단시간 내 복구할 능력이 없었던 것으로 보인다.

즉, 평소라면 고가용성 설계를 통해 주 서버가 죽어도 같은 장소의 대기 서버가 앞으로 나오면서 처리할 수 있었던 것이 전체 서버가 동시에 사망하면서 서비스가 죽은 것으로 볼 수 있다. 실제로 카카오 대표의 사과문에서도 "이원화 조치는 취하고 있지만 이번 사건처럼 데이터센터 한 곳 전체가 영향을 받는 것은 이례적인 상황"이라고 밝혀 실질적인 DR 대비(재난복구 계획)가 없었다는 것을 암시하는 내용이라고도 볼 소지가 있다.

기업은 아주 잘 쪼개면서[7] 서버는 한 곳에 아주 잘 합쳐놓았다.

물론 DR을 제대로 갖추면 막대한 유휴 리소스가 발생하여 비용상으로는 나쁜 영향을 끼치지만, 카카오의 코어 서비스인 카카오톡이 대한민국에서 가지는 위상[8]과 각종 플랫폼에 연동된 코어 서비스임 등을 고려했을 때 당연히 갖춰야 한다고 볼 수 있으며, 같은 시간대에 피해를 입은 네이버가 전방위적인 장애를 겪지 않고 빠른 시간 내에 복구해냈다는 점에서 대비된다. 네이버는 춘천에 소재한 직영 IDC "각"을 중심으로 전국 주요 지역에 데이터센터가 분산되어 있으며, 코어 서비스를 분산처리해왔거나 운 좋게 코어 서비스의 다운을 피한 것으로 해석할 수 있다. 반면 카카오는 코어 서비스가 죽으면서 전방위적인 장애를 야기했다.

이외에 이번 사건 이전인 10월 4일에도 카카오톡 메신저와 다음, 티스토리 사이트의 장애가 있었으며, 2020년 3월 17일에도 30분에도 카톡 서비스 장애가 발생한 사례가 있었음에도 전혀 대비나 개선이 되지 않고 있다가 불의의 사고에 제대로 된 헤드샷을 맞는 결과가 된 것이라 할 수 있다.

실제 카카오 대표의 언급을 통해 판교 데이터센터에 카카오 서버 3만2천여대가 몰빵되어 있는 것이 드러났으며, 이와 관련해 이미 정부에서는 2021년에 예비 서버 장치를 확보하고, 자체 대응 지침을 마련하고, 서버를 분산할 것을 권고하였는데 이를 하나도 지키지 않았다는 정황증거가 속속들이 드러나고 있다.

5 향후 영향[편집]

  • 카카오의 지속적인 분할 상장으로 인한 투자자 피해, 골목상권 침해 등으로 국민적 관심과 영향이 큰 상황에서, 국정감사 기간에 걸려서 정치권에서 바로 이슈를 물어버렸다. 사고 후 수습기간이 마침 2022년 국정감사 기간중이어서 국회 정보통신위원회에서 이슈의 중심에 선 카카오와 서버 제공업체인 SK C&C의 대표이사를 증인으로 소환하려는 움직임이 발빠르게 이루어지고 있다.
  • 사고 직후 증권가에서는 카카오의 목표주가를 모두 일제히 하향켰다. 사고 발생 전날인 14일 지속된 분할 상장으로 주가가 폭락하던 것이 잠시 멈추고 살짝 반등하는 것으로 장을 마감하였었으나 이번 사건으로 단기적 폭락은 불가피할 전망이다. 실제 사건 이후 첫 개장일인 10월 17일 월요일 증권시장 개장과 10분만에 9% 이상 하락하는것으로 시작하였으며, 카카오뱅크 -7.7%, 카카오게임즈 -8.1%, 카카오페이 -9.4%로 쪼개기 상장했던 계열사 주식이 모두 하락세를 면치 못하고 있다.
  • 이 사건으로 플랫폼 제공 사업자에게도 금융권에 준하는 수준의 DR계획을 의무화 할 것으로 보인다. 정치권에서는 여야 할것 없이 관련 법안을 앞다투어 발의하고 있으며, 정부에서는 카카오의 독과점 문제를 들여다보겠다고 나서는 상황이다. 다만 이 사건이 장기화된 이유는 독과점 문제가 아니라 평소 사고 발생에 대한 대비를 하지 않고 있던 카카오의 안이한 재난 대응 투자가 문제의 본질이었다는 점에서 정부와 공정위의 태도는 약간은 번지수가 틀린 일이라 할 수 있다.

6 기타[편집]

  • 카카오톡 복구 과정에서 멀티프로필이 무작위로 노출되었다는 이야기도 있었다. 카카오는 공식적으로 부인하지만 불륜카페(...) 등지에서는 멀티가 걸려서 다 들통나게 생겼다는 이야기가 속출하였다. 이외에 성소수자들도 멀티프로필의 노출로 인한 아웃팅 우려로 발칵 뒤집히는 일이 발생하기도 하였다.
  • 카카오의 복구상황 공식 공지는 모두 트위터를 통해 이루어졌다. 국민 SNS 트위터
  • 카카오 서버가 터진 것을 여태 모르는 사람들은 아싸라는 우스갯소리가 나왔다.

7 각주