리브레 위키 2016년 2월 서버 대란

Pika (토론 | 기여)님의 2020년 12월 1일 (화) 22:45 판

리브레 위키 2016년 2월 서버 대란리브레 위키에서 2016년 2월 들어 서버가 폭발한 사건이다. 본격적인 문제는 2월 19일에 시작되었으며 2016년 2월의 마지막 날인 2월 29일까지도 서버의 폭발은 이어졌으며, 결국 달을 넘기고도 하루가 더 지난 3월 2일 밤 늦게서야 복구가 완료되었다.

배경

리브레 위키는 이미 리브레 위키 6·10 예비군 사태 때부터 위키 및 게시판 서버의 폭발이 자주 일어나는 위키였다. 이 서버 문제는 리브레 위키 12.10 서버 사태를 거치면서 수면 위로 떠올랐으며 결국 2015년 12월 22일에는 서버를 이전하기에 이르렀다.

경과

2월 19일 이전

리브레 위키 서버에 본격적으로 이상이 발생한 것은 2월 19일부터지만 이미 2월 초순부터 크고작은 서버 이상이 일어났다. 특히 2월 15일에는 502 에러가 새벽 4시부터 아침 10시까지 이어지는데 아직 이 오류가 그 후의 오류와 연관이 있는지는 밝혀지지 않았다.

2월 19일

2016년 2월 19일 12시 46분경에 서버 대란의 시작을 알리는 폭발이 일어났다. 오류 코드는 502였던 것으로 추정되며 위키방에서 여러 사용자들이 원인을 추측하는 가운데 서버 폭발이 간헐적으로 이어졌다. 그런데 특이한 점은 서버 폭발 상태가 장시간 이어지는 게 아니고 간헐적으로 일어났다는 점인데 이런 점으로 인해 위키 사용자들은 일종의 희망고문을 받아야 했다. 서버 폭발은 4시 경까지 이어졌으며 이 폭발로 인해 서버 설치와 관련된 광고가 뜨기 시작했다는 사람들도 있다.(...) 자세한 내용은 위키방:109308위키방:109786 참고.

2월 21일, 2월 24일

2월 21일 오전 11시 47분경에 간헐적으로 연결이 끊어지는 502 오류가 재발생했다. 오류는 약 15분간 이어졌고 오후에도 비슷한 오류가 재발생해 위키방 공지가 떴다.

2월 24일에도 또다시 오류가 떴지만 2분만에 다시 정상화되었다.

2월 28일

2월 24일 후로 잠잠하나 싶었지만 2월 28일 새벽에 오류가 발생했다. 이번에는 502(Bad gateway) 오류가 아닌 522(Connection timed out) 오류였으며 간헐적으로 끊어졌다 복구되었다를 반복하는 증상은 2월 19일과 비슷했다. 오전 1시 28분에 시작된 오류는 간헐적으로 이어지다가 오전 2시 6분에 멈췄고 같은날 오전 7시까지는 잠잠했다.

하지만 오전 7시 15분에 위키는 다시 오류 상태로 들어갔으며 7시 22분에 잠깐 돌아왔다가 오전 8시 39분에 간헐적인 오류가 다시 시작된다.

오전 8시 39분에 시작된 오류는 오후 6시 22분까지 이어졌고 오후 9시부터 서버 긴급점검으로 인해 위키에 접속할 수 없는 상태가 되었다.

2월 29일

어제 시작된 긴급점검이 오전 1시 11분 경에 끝났지만 서버 상태는 별로,,, 오전 6시경부터 (혹은 그 시간 이전부터) 서버는 다시 맛이 갔으며 아예 미디어위키를 재설치하려는 시도도 시행되었다.

3월 1일 이후

임시 서버를 구축해 3월 1일 오후 7시를 조금 지난 시각에 다시 서버가 복구되었다. 긴급점검을 마치고 임시 서버가 돌아가기 시작했다. 이미지 파일은 임시 서버로 옮겨지지 않아 모든 이미지가 표시되지 않았다. 덕분에 현관의 이미지 부분이 전부 개발살 났다. 그리고 위키 본진에서 이미지 업로드 기능이 임시로 중지되었다. 이에 따라 이 시기에 진행되고 있던 리브레 위키:제1회 공인캐릭터 공모전 역시 잠시 중단되었었다. 또한 게시판과 위키 본진간의 로그인 연동도 당장은 되지 않는 상태였으며 로그인이 된 상태가 아니던 위키러들은 로그인이 되지 않았다.

다행히 3월 2일 오후 10시 37분에 서버가 완전히 복구되며 해결되었다. 이후에는 사이트 안정화를 위해 개발진이 작업을 진행했다. 임시서버 상태일 때의 리브레 위키 현관 누가 이거 아카이브 떠놨어 스샷 떠놨는데 벌써 어카이브가...

개발진측에서 3월 3일 점검을 위하여 10분간 서버 다운이 있을 것이 전날 공지하였다. 이후 3일 오후 16:45분경 서버가 다운되면서 점검이 시작된 것으로 파악되었다. 그런데 10분이 아니라 1시간 정도 점검이 있었다는게 함정. 이 때 1001오류라는 처음 보는 오류도 떴었다.

이후에는 외부에서의 DDoS[1] 공격이 시작되면서 다시 서버가 다운되었다. 해당 상황은 리브레 위키 2016년 3월 DDoS 공격 사태 참고.

발생 원인

1차적으로는 대만의 지진과 일본의 화산 분화로 인한 해저 케이블의 손상으로 대한민국의 해외망 중 80%가 날아간 것이 원인으로 지목되었다. 클라우드 플레어로 들어가는 데이터가 제대로 들어가지 않으면서 여기서 타임아웃이 발생하여 에러를 띄운 것으로 추정된 것이다.

각주

  1. 정확히는 "SYN Flooding" 방식의 공격이며 디도스와는 다른 점이 있다.