시리즈:지식을 지키는 웹 보존하기

이 문서에는 독자적으로 연구한 내용이 들어갑니다. 다른 사람의 의견을 존중하면서 무례하지 않도록 작성해 주시고, 의견 충돌 시 토론 문서에서 토론해 주세요.

기록해 두었거나 찾으려는 정보가 있는 웹 사이트가 사라진 경험이 있으신가요?

웹은 영원하지 않습니다. 게시자의 변심으로 인한 삭제나 비공개, 계정 삭제는 물론이고 사이트의 호스팅이 만료되거나 서비스가 종료되기도 합니다. 심지어는 서버랜섬웨어에 걸리거나 화재가 일어나는 등 재난이 발생할 수도 있습니다. 나중에 확인하기 위해 캡처를 하는 방법도 있지만, 캡처는 공유 시 얼마든지 위조될 수 있고 정리되거나 검색되기도 힘듭니다.

그래서 필요한 것이 웹 아카이빙입니다. 웹사이트를 웹 아카이빙 서비스로 저장하면 사이트가 삭제되더라도 기록된 URL을 검색해 내용을 확인할 수 있습니다. 더군다나 사이트에서 받을 수 있는 파일까지도 다운로드 링크를 통해 보존이 가능합니다.

1 웹 아카이빙 서비스[편집]

1.1 Internet Archive Wayback Machine[편집]

Screenshot-2018-5-10 Internet Archive Wayback Machine.png

Wayback Machine

Wayback Machine(웨이백 머신)은 비영리 도서관 단체인 Internet Archive(인터넷 아카이브)에서 운영하는 사실상 최대의 웹 아카이빙 서비스입니다. 사이트에 따라서는 수동으로 보존을 명령하지 않더라도 크롤링을 통해 자동으로 보존하기도 합니다.

우측 하단 입력란에 보존하려는 사이트 주소를 넣어 'SAVE PAGE'를 누르면 사이트를 즉시 보존할 수 있고, 상단 입력란에 주소를 넣어 'BROWSE HISTORY'를 누르면 보존된 웹을 확인할 수 있으며 로그인시 추가 기능을 사용할 수 있습니다. 필요할 경우 가입형 보존 서비스인 Archive-It에 가입할 수 있습니다.

1.1.1 웨이백 머신에서 웹페이지 보존하기[편집]

Screenshot-2018-5-10 Internet Archive Wayback Machine.png


오른쪽 아래의 Save Page Now에 보존할 URL을 붙여넣고 SAVE PAGE를 클릭합니다.


20201204WaybackMachine2.JPG

SAVE PAGE를 다시 한번 클릭합니다. 로그인 상태에서는 링크된 외부 페이지 보존과 스크린샷, 이메일로 결과 받기 등 더 많은 기능을 사용할 수 있습니다.


20201204WaybackMachine3.JPG


초록색 Done! 표시가 나오면 성공적으로 보존된 것입니다. 파란색 링크를 클릭하면 아카이브 페이지로 이동됩니다.

1.1.2 웨이백 머신에 파일 보존하기[편집]

영구 보존을 하기 위해 웨이백 머신에 파일을 올릴 수도 있습니다.

웹 아카이브의 파일 호스팅 사이트로써의 장점
  • 무료입니다.[1]
  • 기본적으로 영구 보존됩니다.
  • 용량 제한이 없습니다.
유의사항
  • 올린 파일은 무조건 공개됩니다.
  • 저작권상 문제가 있을 경우 삭제될 수 있습니다.

자, 그러면 파일을 올리는 법을 알려 드리겠습니다.


파일 올리기 버튼.png

  1. 웨이백 머신에 로그인을 하고 파일 업로드 버튼을 누릅니다.


    웹 아카이브 파일 올리기1.png
  2. 또 파일 올리기 버튼을 누릅니다.


    웹 아카이브 파일 올리기2.png
  3. 상세 정보를 작성해야 합니다. Page title은 이름을, Description에는 설명을 적어 주시고 태그에는 붙이고 싶은 태그를 붙입니다. 저작자도 잘 적어 주시고, 분류도 웬만해서는 자동 분류되지만 분류되지 않았다면 해 줍니다. 마지막으로 Licence에 라이선스를 선택해 주시고 Upload 버튼을 누르면 끝.

1.2 웹 교타쿠[편집]

Screenshot-2018-5-10 ウェブ魚拓.png

웹 교타쿠

웹 교타쿠(ウェブ魚拓, 웹 어탁)는 유료 서비스를 추가로 제공합니다. 유료 서비스에 가입하면 사이트를 비공개로 보존하거나 대량 보존 대행을 요청할 수 있습니다. 윗부분의 입력란에 주소를 넣고 '検索と確認'(검색과 확인)를 누르면 웹 교타쿠와 타 아카이빙 사이트에서의 보존 내역을 알려주며, '取得'(취득)을 눌러 보존하거나 'スマホ向け取得'(스마트폰용 취득)을 눌러 모바일 페이지를 보존할 수 있습니다.

1.3 WebCite[편집]

Screenshot-2018-5-10 WebCite archive page.png

WebCite

WebCite는 학술적 참고 문헌의 보존에 중심을 둔 아카이빙 서비스입니다. 상단 메뉴에서 'ARCHIVE'를 눌러 보존하려는 사이트와 보존된 링크를 받을 이메일을, 더해 필요할 경우 기타 정보를 적고 'Submit'을 누르면 보존됩니다. 매번 이메일 주소를 적을 필요 없이 이메일 주소가 입력된 북마클릿을 추가해 북마크를 눌러 사용할 수도 있습니다.

1.4 archive.is[편집]

Screenshot-2018-5-10 Archive is.png

archive.is

archive.is(아카이브.is)는 사용자의 명령으로만 웹 페이지를 보존한다는 점에서 robots.txt 로봇 배제 표준을 무시하며 수집된 웹은 검색에 노출됩니다. 검색 로봇의 수집이 거부된 사이트에서 필요할 경우 사용할 수도 있지만, 로봇 배제 표준이 무시된 채 검색 엔진에 노출된다는 점에서 사이트 소유자 및 컨텐츠 생성자의 데이터 통제권이 무시되는 문제가 있기도 합니다. 더불어 Cloudflare에서 제공하는 DNS1.1.1.1에서의 접속이 불가능합니다. 상단 입력란에 주소를 입력하고 '문서 저장하기'를 누르면 웹을 즉시 보존할 수 있고 하단 입력란에서는 보존된 내용을 찾을 수 있습니다.

2 검색 엔진 캐시[편집]

이미 웹 페이지가 사라지거나 바뀌었지만 저장된 버전이 없다면 검색 엔진의 캐시를 사용할 수도 있습니다. 검색 엔진은 웹 페이지를 수집하며 임시 저장본인 캐시를 만들어 두곤 합니다. 구글의 경우 검색에서 cache:사이트 주소를 입력하거나 데스크탑 버전의 검색 결과에서 사이트 주소 끝부분의 녹색 아래쪽 화살표를 눌러 저장된 페이지를 확인할 수 있고, 네이버과 같은 다른 검색 엔진에서도 같은 기능을 제공합니다. 검색 엔진이 페이지를 다시 수집하면 바뀌거나 삭제될 수 있기 때문에 해당 캐시 페이지를 보존해야 합니다.

3 알맞은 URL 보존하기[편집]

반응형 웹이 아닌 모바일용 페이지가 따로 있는 사이트의 경우 작은 크기의 이미지가 표시되는 등 생략되는 요소가 있기도 합니다. 더불어 모바일 페이지의 주소가 원래의 URL과 별개로 취급되어 찾는 데 어려움을 줄 수도 있습니다. 따라서 m.이나 mobile.과 같은 모바일 페이지용 주소가 붙은 경우 이를 지워 함께 보존하는 것이 좋습니다. 모바일 기기에서 웹을 보존해야 한다면 웹 브라우저에서 사이트를 데스크탑 버전으로 표시되도록 해 보존할 수 있습니다.

완벽하게 같은 내용의 사이트라도 URL이 다른 경우도 있습니다. 이는 대개 원래의 URL 뒤에 붙으며 사이트의 방문자가 어떤 경로를 통해 왔는지, 이를테면 어떤 OS에서나 어떤 소셜 미디어에서의 공유를 통해 왔는지를 확인하기 위해 사용됩니다. 그 예로 트위터의 경우 iOS 공식 앱에서 트윗을 공유하면 twitter.com/계정명/status/고유 번호와 같은 각 주소의 뒤에 ?s=12가, 안드로이드 공식 앱에서 공유하면 ?s=09가 붙고 SBS 뉴스 사이트에서는 사이트 내 공유 버튼으로 공유한 서비스에 따라 고유 주소 뒤에 &plink=SHARE&cooper=공유 서비스 이름이 붙습니다. 이 역시도 원래의 주소와 별개로 취급되어 보존된 웹을 찾는 데 어려움을 주기도 합니다. 따라서 웹 아카이빙에 사용되는 주소는 가능하면 이런 트래킹 태그가 붙지 않은 원래의 주소를 사용하거나, 필요하다면 트래킹 태그가 붙은 주소를 이와 함께 모두 아카이빙하는 것이 좋습니다. 트래킹 태그가 어디까지인지는 URL의 구조로 어렵지 않게 추측할 수 있기 때문에 뒤에 붙은 의심 가는 URL을 적당히 지우며 확인할 수 있습니다.

4 원본 크기의 이미지 보존하기[편집]

사이트는 원래 크기의 큰 이미지를 별도의 URL로 숨겨 놓기도 합니다. 너무 큰 원본 이미지를 사용하면 불러오는 데 시간이 오래 걸리니 적당한 크기의 이미지 링크를 따로 마련해 불러오도록 하기 위해서입니다. 이를 파악하면 원본 크기의 이미지를 함께 보존할 수 있습니다.

트위터에서는 이미지를 우클릭해 복사할 수 있는 pbs.twimg.com/media/고유 이름?format=확장자&name=medium과 같은 이미지 주소를 pbs.twimg.com/media/고유 이름.확장자:orig 형태로 바꾸면 원본 크기의 이미지를, pbs.twimg.com/media/고유 이름.확장자:large 형태로 바꾸면 이미지를 클릭했을 때 나타나는 이미지를 확인할 수 있습니다.[2] 텀블러는 마찬가지로 우클릭으로 복사할 수 있는 이미지 주소 뒤의 _숫자.확장자에서 숫자 부분을 1280으로 바꾸면 텀블러에서 지원하는 최대 크기로 업로드된 이미지를 볼 수 있습니다. 더불어 이미지를 클릭하면 나타나곤 하는 사용자 이름.tumblr.com/image/고유 번호 형식의 이미지 페이지가 별도로 있습니다. 이외 사이트에서는 웨이백 머신에서 로그인 후 외부 페이지를 함께 보존하는 기능을 활용하면 이와 비슷하게 보존이 가능한 경우도 있습니다.

5 편리하게 보존하기[편집]

보존하려는 사이트마다 웹 아카이빙 사이트를 열어 주소를 입력하기는 번거로운 일입니다. 주요 웹 브라우저의 확장 프로그램을 사용하면 버튼이나 우클릭 메뉴를 선택하는 것만으로 웹 아카이빙 서비스를 통해 웹을 보존할 수 있습니다. 파이어폭스크롬, 사파리 모두에서 확장 프로그램을 사용할 수 있습니다. 사이트에 따라 마련된 북마클릿을 북마크로 추가하여 사용하는 방법도 있습니다.

혹은 웹 브라우저의 검색 엔진에 사이트를 바로 보존하도록 하는 주소와 단축키를 추가해 사용할 수도 있습니다. 단축키로 'sa'를 지정했다면 사이트의 주소 앞에 'sa'를 입력하고 스페이스 바나 Tab 키를 눌러 Enter로 이동해 사이트를 보존하는 식입니다. Wayback Machine을 기준으로 크롬 기반의 웹 브라우저라면 검색 엔진 설정에서 https://web.archive.org/save/%s를 추가하면 되고 파이어폭스 기반이라면 이곳에서 설치하면 됩니다. macOS라면 Alfredhttps://web.archive.org/save/{query}를 추가해서 사용할 수도 있습니다.

iOS에서는 단축어 앱에 Internet Archive 액션을 추가하는 방법이 있습니다. 보존하려는 웹 사이트를 데스크탑 버전으로 전환한 뒤 공유 익스텐션에서 Workflow를 열고 Internet Archive 액션을 눌러 Wayback Machine으로 웹을 보존할 수 있습니다.

다만 이 방법들을 사용할 경우 인터넷 아카이브 웨이백 머신에서는 로그인시 선택할 수 있는 연결되는 링크 링크 보존, 스크린샷, 개인 계정 저장 등의 기능을 사용할 수 없어 웨이백 머신 사이트에 직접 접속해 저장할 것을 권장합니다.

Wayback Machine은 API가 공개되어 있으며 워드프레스에서 '깨진 링크'를 자동으로 확인해 주는 Broken Link Checker 플러그인이 있습니다.


6 가장 중요한 것[편집]

하지만 이런 웹 아카이빙도 완벽하지는 않습니다. 온라인의 모든 자료가 보존되는 것은 아니고, 보존된다 하더라도 항상 완벽하게 보존되거나 필요한 사람에게 쉽게 발견되는 것은 아닙니다. 중요한 것은 컨텐츠의 생산자와 편집자, 관리자가 데이터의 중요성을 깨닫는 것입니다. 자료를 가볍게 지우지 않도록 하고, 사이트를 호스팅한다면 기간이 만료되는 등의 문제가 생기지 않도록 안전하게 관리하며 백업하는 한편 사망이나 장기 의식 불명과 같은 일에도 대비해야 합니다. 중요한 데이터는 거창한 것만이 아닙니다. 짤막하게 쓴 정보도, 뜬금없이 올린 그림이나 아이디어도 누군가에게는 가치 있는 자료가 될 수 있습니다. '트윗 청소기'를 돌리거나 블로그를 초기화하기 전에는 한번쯤 생각해 보는 게 어떨까요? 쉽게 색인될 수 있는 안정적인 블로그를 갖는 것도 방법입니다.

7 각주

  1. 대신 기부금을 받습니다.
  2. 사이트 개편 전 기준으로는 pbs.twimg.com/media/고유 이름.확장자와 같은 이미지 주소 뒤에 :orig를 붙여 바꾸는 형태입니다.