로그인하고 있지 않습니다. 편집하면 당신의 IP 주소가 공개적으로 기록됩니다. 계정을 만들고 로그인하면 편집 시 사용자 이름만 보이며, 위키 이용에 여러 가지 편의가 주어집니다.스팸 방지 검사입니다. 이것을 입력하지 마세요!'''UTF-16'''은 [[유니코드]] [[문자 인코딩]] 방법 중 하나로, [[UTF-8]]과 함께 주로 쓰이는 포맷이다. 명칭은 ''Unicode Transformation Format – 16-bit'' 또는 ''Universal Coded Character Set Transformation Format – 16-bit''의 약자이다. == 인코딩 방법 == 기본적으로 문자 인코딩은 16비트, 즉 2바이트로 표현된다. 이 경우 U+0000부터 U+FFFF까지 표현이 가능하다. 그런데 실제 [[유니코드]] 체계에서는 U+10000 이후 영역, 즉 기본 다국어 평면(BMP) 밖에 있는 문자들도 있기에 기본 규칙만으로는 한계가 있다. BMP 내에 있는 문자들과 구분하고자 32비트 표현 방식이 따로 주어져 있는데 그 방법은 아래와 같다. U+10000 이후의 문자는 <code>110110yy yyxxxxxx 110111xx xxxxxxxx</code>와 같이 표현된다. 여기서 y 표시 4개는 유니코드 평면 번호에서 1을 뺀 값을 나타내고, x 표시 16개는 유니코드 값 중 마지막 16비트, 즉 16진수 기준 마지막 네 자리를 의미한다. 첫째와 셋째 바이트의 <code>110110--, 110111--</code> 부분은 고정된 비트로 각각 32비트 인코딩의 앞·뒤 부분임을 표시한다. 변수 부분은 총 20비트이므로, 이 표현 방식으로 2<sup>20</sup>가지 문자를, 달리 말해 16개 유니코드 평면 내 문자들을 커버할 수 있다. 0번 평면(BMP) 부분은 상술한 16비트 표현으로 나타낼 수 있기에, 32비트 표현 영역에서는 0~15번 대신 1~16번 평면을 담당한다. 때문에 <code>yyyy</code> 부분은 유니코드 평면 번호에서 '''1을 뺀 값'''으로 표시한다. == 인코딩 예 == '리'(U+B9AC)를 UTF-16으로 표현하려고 할 때, 이 글자는 U+FFFF 이전 글자이므로 16비트 그대로 나타내면 된다. 즉 <code>B9 AC</code>가 인코딩 결과이다. 그렇다면 '𨭎'(U+28B4E)의 경우는? 이 한자는 2번 평면(SIP)에 속해 있으므로 32비트 방식을 따른다. 평면 번호에서 1을 빼면 <code>yyyy=0001</code>이 된다. 또, 16진수 표현 중 마지막 네 자리는 8B4E이므로, 이를 이진법으로 표현하면 <code>10001011 01001110</code>이며 이것이 x 표시 16개에 해당한다. 그러므로 위 문단의 틀에다 비트를 대입하면 <code>110110<u>00 01100010</u> 110111<u>11 01001110</u></code>이다. 앞의 밑줄은 y표시 4개와 x 표시 앞 6개가 붙어 있으며, 뒤의 밑줄은 x 표시 뒤 10개이다. 따라서 인코딩 결과는 <code>D8 62 DF 4E</code>이다. == UTF-8과의 차이== [[UTF-8]]에서는 BMP 영역 내 문자들이 1~3바이트로 갈라지는 반면 UTF-16은 2바이트로 일정하다. U+0800~U+FFFF 영역의 문자들은 UTF-80에서보다 인코딩 길이가 글자 당 1바이트씩 짧아진다. 하지만 반대로 U+0000~U+007F, 즉 [[ASCII]] 영역의 문자들은 반대로 글자당 1바이트씩 길어진다. 한글이나 한자, 가나와 같은 음절문자나 표의문자 위주로 이루어진 글을 인코딩할 때에는 UTF-16이 짧지만, 서구권에서 쓰는 [[라틴 문자]] 중심의 글은 UTF-8이 유리하다. == 서로게이트 == 앞서 소개한 <code>110110yy yyxxxxxx 110111xx xxxxxxxx</code> 방식의 인코딩만 보면 이것이 32비트 표현 하나인지 16비트 표현 둘인지 구분이 되지 않는다. 하지만 이 부분은 혼동의 여지가 없는 것이, <code>110110--</code>이나 <code>110111--</code>로 시작하는 16비트 유니코드 값은 '''문자가 배당되어 있지 않다.''' '''서로게이트'''(Surrogates) 또는 '''대체 영역'''은 UTF-16에서 32비트 인코딩을 제공할 수 있게 지정해둔 유니코드 블록이다. 모두 2048개 코드 포인트가 있으며, 이는 <code>110110--</code>으로 시작하는 1024개 및 <code>110111--</code>로 시작하는 1024개로 나뉜다. === High Surrogates === {{유니코드 블록 정보 |이름 = High Surrogates |뜻 = 상단 서로게이트 |평면 = BMP |범위 = <code>U+D800 ~ U+DB7F</code> |코드개수 = 896 |글자수 = 0 |미사용 = 896 |종류 = 서로게이트 |방향 = N/A |이전블록 = [[Hangul Jamo Extended-B]] |다음블록 = High Private Use Surrogates |관련블록 = 본문 참고 |버전 = 2.0 |비고 = }} '''High Surrogates'''는 UTF-16의 32비트 표현 중 앞의 16비트를 담당하는 영역이다. 범위는 2진수로 <code>110110<u>00 00</u>000000</code>부터 <code>110110<u>11 01</u>111111</code>까지인데, 앞서 언급한 y 표시 4개는 <code>0000</code>부터 <code>1101</code>까지에 해당한다. 이는 유니코드 평면 번호로 1번부터 14번까지를 담당한다. {{-}} === High Private Use Surrogates === {{유니코드 블록 정보 |이름 = High Private Use Surrogates |뜻 = 상단 사용자 정의 서로게이트 |평면 = BMP |범위 = <code>U+DB80 ~ U+DBFF</code> |코드개수 = 128 |글자수 = 0 |미사용 = 128 |종류 = 서로게이트 |방향 = N/A |이전블록 = High Surrogates |다음블록 = Low Surrogates |관련블록 = 본문 참고 |버전 = 2.0 |비고 = }} '''High Private Use Surrogates'''는 마찬가지로 앞의 16비트를 담당하는 영역이지만 이쪽은 유니코드 평면 15번과 16번을 맡는다. 이 두 평면은 [[사용자 정의 영역]] 평면, 즉 PUA-A와 PUA-B에 해당하기에 상단 서로게이트 중에서도 '상단 사용자 정의' 서로게이트로 분류한다. 코드 범위는 2진수로 <code>110110<u>11 10</u>000000</code>부터 <code>110110<u>11 11</u>111111</code>까지이며, y 표시 4개는 <code>1110, 1111</code> 둘 중 하나이다. {{-}} === Low Surrogates === {{유니코드 블록 정보 |이름 = Low Surrogates |뜻 = 하단 서로게이트 |평면 = BMP |범위 = <code>U+DC00 ~ U+DFFF</code> |코드개수 = 1024 |글자수 = 0 |미사용 = 1024 |종류 = 서로게이트 |방향 = N/A |이전블록 = High Private Use Surrogates |다음블록 = [[Private Use Area]] |관련블록 = 본문 참고 |버전 = 2.0 |비고 = }} '''Low Surrogates'''는 뒤의 16비트를 담는 영역으로, 해당 코드 범위는 2진수로 <code>110111xx xxxxxxxx</code> 형태이다. x 표시 10개 부분이 변수이며 1024개 코드 포인트를 차지한다. {{프로그래밍}} {{유니코드 블록}} [[분류:유니코드]] [[분류:표준]] {{각주}} 요약: 리브레 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 3.0 라이선스로 배포됩니다(자세한 내용에 대해서는 리브레 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 글이 직접 작성되었거나 호환되는 라이선스인지 확인해주세요. 리그베다 위키, 나무위키, 오리위키, 구스위키, 디시위키 및 CCL 미적용 사이트 등에서 글을 가져오실 때는 본인이 문서의 유일한 기여자여야 하고, 만약 본인이 문서의 유일한 기여자라는 증거가 없다면 그 문서는 불시에 삭제될 수 있습니다. 취소 편집 도움말 (새 창에서 열림) | () [] [[]] {{}} {{{}}} · <!-- --> · [[분류:]] · [[파일:]] · [[미디어:]] · #넘겨주기 [[]] · {{ㅊ|}} · <onlyinclude></onlyinclude> · <includeonly></includeonly> · <noinclude></noinclude> · <br /> · <ref></ref> · {{각주}} · {|class="wikitable" · |- · rowspan=""| · colspan=""| · |} {{lang|}} · {{llang||}} · {{인용문|}} · {{인용문2|}} · {{유튜브|}} · {{다음팟|}} · {{니코|}} · {{토막글}} {{삭제|}} · {{특정판삭제|}}(이유를 적지 않을 경우 기각될 가능성이 높습니다. 반드시 이유를 적어주세요.) {{#expr:}} · {{#if:}} · {{#ifeq:}} · {{#iferror:}} · {{#ifexist:}} · {{#switch:}} · {{#time:}} · {{#timel:}} · {{#titleparts:}} __NOTOC__ · __FORCETOC__ · __TOC__ · {{PAGENAME}} · {{SITENAME}} · {{localurl:}} · {{fullurl:}} · {{ns:}} –(대시) ‘’(작은따옴표) “”(큰따옴표) ·(가운뎃점) …(말줄임표) ‽(물음느낌표) 〈〉(홑화살괄호) 《》(겹화살괄호) ± − × ÷ ≈ ≠ ∓ ≤ ≥ ∞ ¬ ¹ ² ³ ⁿ ¼ ½ ¾ § € £ ₩ ¥ ¢ † ‡ • ← → ↔ ‰ °C µ(마이크로) Å °(도) ′(분) ″(초) Α α Β β Γ γ Δ δ Ε ε Ζ ζ Η η Θ θ Ι ι Κ κ Λ λ Μ μ(뮤) Ν ν Ξ ξ Ο ο Π π Ρ ρ Σ σ ς Τ τ Υ υ Φ φ Χ χ Ψ ψ Ω ω · Ά ά Έ έ Ή ή Ί ί Ό ό Ύ ύ Ώ ώ · Ϊ ϊ Ϋ ϋ · ΐ ΰ Æ æ Đ(D with stroke) đ Ð(eth) ð ı Ł ł Ø ø Œ œ ß Þ þ · Á á Ć ć É é Í í Ĺ ĺ Ḿ ḿ Ń ń Ó ó Ŕ ŕ Ś ś Ú ú Ý ý Ź ź · À à È è Ì ì Ǹ ǹ Ò ò Ù ù · İ Ż ż ·  â Ĉ ĉ Ê ê Ĝ ĝ Ĥ ĥ Î î Ĵ ĵ Ô ô Ŝ ŝ Û û · Ä ä Ë ë Ï ï Ö ö Ü ü Ÿ ÿ · ǘ ǜ ǚ ǖ · caron/háček: Ǎ ǎ Č č Ď ď Ě ě Ǐ ǐ Ľ ľ Ň ň Ǒ ǒ Ř ř Š š Ť ť Ǔ ǔ Ž ž · breve: Ă ă Ğ ğ Ŏ ŏ Ŭ ŭ · Ā ā Ē ē Ī ī Ō ō Ū ū · à ã Ñ ñ Õ õ · Å å Ů ů · Ą ą Ę ę · Ç ç Ş ş Ţ ţ · Ő ő Ű ű · Ș ș Ț ț 이 문서에서 사용한 틀: 틀:- (원본 보기) (준보호됨)틀:Skin (원본 보기) (준보호됨)틀:각주 (원본 보기) (준보호됨)틀:둘러보기 상자 (원본 보기) (보호됨)틀:둘러보기 상자/중첩 (원본 보기) (준보호됨)틀:둘러보기 상자/핵심 (원본 보기) (보호됨)틀:유니코드 블록 (편집) 틀:유니코드 블록 정보 (편집) 틀:정보상자 주제칸 (원본 보기) (준보호됨)틀:정보상자 칸 (원본 보기) (준보호됨)틀:정보상자 큰칸 (원본 보기) (준보호됨)틀:틀바 (원본 보기) (준보호됨)틀:프로그래밍 (편집)