시리즈:지식을 지키는 웹 보존하기

Text-Justify (토론 | 기여)님의 2018년 5월 10일 (목) 08:52 판 (이미지 추가)
이 문서에는 독자적으로 연구한 내용이 들어갑니다. 다른 사람의 의견을 존중하면서 무례하지 않도록 작성해 주시고, 의견 충돌 시 토론 문서에서 토론해 주세요.

기록해 두었거나 찾으려는 정보가 있는 웹 사이트가 사라진 경험이 있으신가요?

웹은 영원하지 않습니다. 게시자의 변심으로 인한 삭제나 비공개, 계정 삭제는 물론이고 사이트의 호스팅이 만료되거나 아예 서비스가 종료되기도 합니다. 심지어는 서버랜섬웨어에 걸리거나 화재가 일어나는 등 재난이 발생할 수도 있습니다. 나중에 확인하기 위해 캡처를 하는 방법도 있지만, 캡처는 공유 시 얼마든지 위조될 수 있고 정리되거나 검색되기도 힘듭니다.

그래서 필요한 것이 웹 아카이빙입니다. 웹 사이트를 웹 아카이빙 서비스로 저장하면 사이트가 삭제되더라도 URL을 검색해 내용을 확인할 수 있습니다. 더군다나 사이트에서 받을 수 있는 파일까지도 다운로드 링크를 통해 보존이 가능합니다.

웹 아카이빙 서비스

Internet Archive Wayback Machine

Screenshot-2018-5-10 Internet Archive Wayback Machine.png

Wayback Machine

Wayback Machine(웨이백 머신)은 비영리 도서관 단체인 Internet Archive(인터넷 아카이브)에서 운영하는 사실상 최대의 웹 아카이빙 서비스입니다. 우측 하단 입력란에 보존하려는 사이트 주소를 넣어 'SAVE PAGE'를 누르면 사이트를 즉시 보존할 수 있고, 상단 입력란에 주소를 넣어 'BROWSE HISTORY'를 누르면 보존된 웹을 확인할 수 있습니다.

웹 교타쿠

Screenshot-2018-5-10 ウェブ魚拓.png

웹 교타쿠

웹 교타쿠(ウェブ魚拓, 웹 어탁)는 유료 서비스를 추가로 제공합니다. 유료 서비스에 가입하면 사이트를 비공개로 보존하거나 대량 보존 대행을 요청할 수 있습니다. 윗부분의 입력란에 주소를 넣고 '検索と確認'(검색과 확인)를 누르면 웹 교타쿠와 타 아카이빙 사이트에서의 보존 내역을 알려주며, '取得'(취득)을 눌러 보존하거나 'スマホ向け取得'(스마트폰용 취득)을 눌러 모바일 페이지를 보존할 수 있습니다.

WebCite

Screenshot-2018-5-10 WebCite archive page.png

WebCite

WebCite는 학술적 참고 문헌의 보존에 중심을 둔 아카이빙 서비스입니다. 상단 메뉴에서 'ARCHIVE'를 눌러 보존하려는 사이트와 보존된 링크를 받을 이메일을, 더해 필요할 경우 기타 정보를 적고 'Submit'을 누르면 보존됩니다. 매번 이메일 주소를 적을 필요 없이 이메일 주소가 입력된 북마클릿을 추가해 북마크를 눌러 사용할 수도 있습니다.

archive.is

Screenshot-2018-5-10 Archive is.png

archive.is

archive.is(아카이브.is)는 사용자의 명령으로만 웹 페이지를 보존한다는 점에서 robots.txt 로봇 배제 표준을 무시합니다. 검색 로봇의 수집이 거부된 사이트에서 필요할 경우 사용할 수도 있지만, archive.is를 통해 보존된 웹은 로봇 배제 표준이 무시된 채 검색 엔진에 노출된다는 점에서 사이트 소유자 및 컨텐츠 생성자의 데이터 통제권이 무시되는 문제가 있기도 합니다. 상단 입력란에 주소를 입력하고 '문서 저장하기'를 누르면 웹을 즉시 보존할 수 있고 하단 입력란에서는 보존된 내용을 찾을 수 있습니다.

알맞은 URL 보존하기

완벽하게 같은 내용의 사이트일지라도 그 사이트의 주소, 즉 URL이 다를 때가 있기도 합니다. 이는 대개 원래의 URL 뒤에 붙으며 사이트의 방문자가 어떤 경로를 통해 왔는지, 이를테면 어떤 OS에서나 어떤 소셜 미디어에서의 공유를 통해 왔는지를 확인하기 위해 사용됩니다. 그 예로 트위터의 경우 iOS 공식 앱에서 트윗을 공유하면 twitter.com/계정명/status/고유 번호와 같은 각 주소의 뒤에 ?s=12가, 안드로이드 공식 앱에서 공유하면 ?s=09가 붙고 SBS 뉴스 사이트에서는 사이트 내 공유 버튼으로 공유한 서비스에 따라 고유 주소 뒤에 &plink=SHARE&cooper=공유 서비스 이름이 붙습니다. 문제는 원래의 URL로 넘어가지 않는 다른 주소가 별개로 취급되어 보존된 웹을 찾는 데 어려움을 주기도 한다는 점입니다. 따라서 웹 아카이빙에 사용되는 주소는 가능하면 이런 트래킹 태그가 붙지 않은 원래의 주소를 사용하거나, 필요하다면 트래킹 태그가 붙은 주소를 이와 함께 모두 아카이빙하는 것이 좋습니다. 트래킹 태그가 어디까지인지는 URL의 구조로 어렵지 않게 추측할 수 있기 때문에 뒤에 붙은 의심가는 URL을 적당히 지우고 확인해 보면 됩니다.

모바일용 웹 페이지도 마찬가지입니다. 반응형 웹이 아닌 모바일용 페이지가 따로 있는 사이트의 주소 역시도 별개로 취급되어 찾는 데 어려움을 겪을 수 있고, 작은 크기의 이미지가 표시되는 등 생략되는 요소가 있기도 합니다. 모바일 기기에서 웹을 보존해야 한다면 웹 브라우저에서 사이트를 데스크탑 버전으로 표시되도록 한 뒤 m.이나 mobile.과 같은 모바일 페이지용 주소를 지워 보존하는 것이 좋습니다.

한편 사이트는 원래 크기의 큰 이미지 주소와 같은 특정한 URL을 숨겨 놓기도 합니다. 너무 커다란 이미지를 사용하면 불러오는 데 시간이 오래 걸리니 적당한 크기의 이미지 링크를 따로 마련해 불러오도록 하기 위해서입니다. 이를 파악하면 원래 크기의 큰 이미지를 함께 보존할 수 있습니다. 트위터의 경우 이미지를 우클릭해 복사할 수 있는 pbs.twimg.com/media/고유 이름.확장자와 같은 이미지 주소 뒤에 :orig를 붙이면 원래 크기의 이미지를 볼 수 있습니다. 텀블러는 마찬가지로 우클릭으로 복사할 수 있는 이미지 주소 뒤의 _숫자.확장자에서 숫자 부분을 1280으로 바꾸면 텀블러에서 지원하는 최대 크기로 업로드된 이미지를 볼 수 있습니다. 더불어 이미지를 클릭하면 나타나곤 하는 사용자 이름.tumblr.com/image/고유 번호 형식의 이미지 페이지가 별도로 있습니다.

편리하게 보존하기

보존하려는 사이트마다 웹 아카이빙 사이트를 열어 주소를 입력하기는 번거로운 일입니다. 주요 웹 브라우저의 확장 프로그램을 사용하면 버튼이나 우클릭 메뉴를 선택하는 것만으로 웹 아카이빙 서비스를 통해 웹을 보존할 수 있습니다. 파이어폭스크롬, 사파리 모두에서 확장 프로그램을 사용할 수 있습니다. 사이트에 따라 마련된 북마클릿을 북마크로 추가하여 사용하는 방법도 있습니다.

혹은 웹 브라우저의 검색 엔진에 사이트를 바로 보존하도록 하는 주소와 단축키를 추가해 사용할 수도 있습니다. 단축키로 'sa'를 지정했다면 사이트의 주소 앞에 'sa'를 입력하고 스페이스 바나 Tab 키를 눌러 Enter로 이동해 사이트를 보존하는 식입니다. 크롬 기반의 웹 브라우저라면 검색 엔진 설정에서 https://web.archive.org/save/%s를 추가하면 되고 파이어폭스 기반이라면 이곳에서 설치하면 됩니다. macOS라면 Alfredhttps://web.archive.org/save/{query}를 추가해서 사용할 수도 있습니다.

iOS에서는 Workflow 앱에 Internet Archive 액션을 추가하는 방법이 있습니다. 보존하려는 웹 사이트를 데스크탑 버전으로 전환한 뒤 공유 익스텐션에서 Workflow를 열고 Internet Archive 액션을 눌러 Wayback Machine으로 웹을 보존할 수 있습니다.

Wayback Machine은 API가 공개되어 있으며 워드프레스에서 '깨진 링크'를 자동으로 확인해 주는 Broken Link Checker 플러그인이 있습니다.

가장 중요한 것

하지만 이런 웹 아카이빙도 완벽하지는 않습니다. 온라인의 모든 자료가 보존되는 것은 아니고, 보존된다 하더라도 항상 필요한 사람에게 쉽게 발견되거나 완벽하게 보존되는 것은 아닙니다. 중요한 것은 컨텐츠의 생산자와 편집자, 관리자가 데이터의 중요성을 깨닫는 것입니다. 중요한 데이터는 거창한 것만이 아닙니다. 짤막하게 쓴 정보도, 뜬금없이 올린 아이디어도 누군가에게는 소중한 정보가 될 수 있습니다. '트윗 청소기'를 돌리거나 블로그를 초기화하기 전에는 한번쯤 생각해 보는 게 어떨까요? 쉽게 색인될 수 있는 안정적인 블로그를 갖는 것도 방법입니다.

각주