유니코드: 두 판 사이의 차이

잔글 (추적용 분류 강제 갱신 겸 이름 변경 반영)
7번째 줄: 7번째 줄:
==유니코드의 인코딩==
==유니코드의 인코딩==
===UTF-8===
===UTF-8===
{{참조|UTF-8}}
{{참고|UTF-8}}


===UTF-16===
===UTF-16===

2022년 5월 25일 (수) 19:21 판

어떤 플랫폼, 어떤 프로그램, 어떤 언어에도 상관없이 유니코드는 모든 문자에 대해 고유 번호를 제공합니다.
— Unicode.org, What is Unicode? 한국어판에서

유니코드(영어: Unicode)는 지구상에 존재하는 모든 문자컴퓨터 상에서 처리할 수 있도록 제작된 문자의 전산 처리 방식의 일종이다. 표준안은 유니코드 연합체(Unicode Consortium)에서 제정·관리하고 있으며, 최신 버전은 유니코드 8.0이다.

유니코드 블록 목록

유니코드의 인코딩

UTF-8

UTF-16

BMP에 할당된 문자는 2바이트로, 다른 문자는 4바이트로 처리되는 고정 바이트 형식 인코딩. 대표적인 사용 예로 NT 4.0 버전 이상의 Windows 운영 체제가 있다.

유니코드와 한글

유니코드에는 완성형 한글 자모조합 11,172자와 조합형 한글 낱자가 모두 수록되어 있다. 하지만 조합형은 데이터 크기가 커지기 때문에 옛한글 표기 등 특수한 목적을 위해서만 사용하고, 보통의 한글 인코딩에는 완성형을 사용한다.

본래 유니코드가 도입되기 전 대한민국에서는 KS X 1001 완성형 문자표에 기반한 EUC-KR 인코딩을 사용하였다. 그러나 이 문자표에 수록된 한글 자모조합은 2,350자에 불과하여 표준어조차 온전히 표기할 수 없었다. MS에서는 CP949(통합 완성형)이라는 코드로 한글의 나머지 글자들을 배열했지만 KS X 1001과 별개의 영역에 글자들을 우겨넣었기 때문에 코드가 다소 난잡했다.

한글은 유니코드 1.0 버전부터 지원하였다. 그러나 1.0때 KS X 1001의 2,350자, 1.1때 기타 4,306자를 추가해 6,656자밖에 표현이 불가능하였다. 이에 대한민국 대표는 유니코드 2.0 제정시 현대 한글 자모조합 11,172자를 다시 추가해줄 것을 요청하였고, 이에 2.0 버전에서 오늘날과 같은 완성형 자모조합이 코드표상에 제대로 배당되게 되었다.

각주