Shift JIS: 두 판 사이의 차이

(새 문서: '''Shift_JIS'''는 일본어 문자 인코딩의 하나이다. == 탄생 배경 == 일본은 2바이트 문자 인코딩 그런 거 없었던 1969년ASCII(0x5...)
 
편집 요약 없음
4번째 줄: 4번째 줄:
[[일본]]은 2바이트 문자 인코딩 그런 거 없었던 [[1969년]]에 [[ASCII]](0x5C를 엔 기호(¥)로, 0x7E를 overline(‾)으로 바꿈)와 가타카나(0xA0부터 0xDF)만 담은 문자 집합인 [[JIS X 0201]](당시 JIS C 6220)을 제정해 사용한다.
[[일본]]은 2바이트 문자 인코딩 그런 거 없었던 [[1969년]]에 [[ASCII]](0x5C를 엔 기호(¥)로, 0x7E를 overline(‾)으로 바꿈)와 가타카나(0xA0부터 0xDF)만 담은 문자 집합인 [[JIS X 0201]](당시 JIS C 6220)을 제정해 사용한다.


[[1978년]]에는 히라가나, 가타카나, 한자, 기호를 모두 포함한 2바이트 94×94 문자 집합인 [[JIS X 0208]](당시 JIS C 6226)이 발표되는데, 이를 다른 EUC 문자 집합과 마찬가지로 0xA1A1부터 0xFEFE에 배당하면 JIS X 0201로 작성된 기존 문서들을 읽을 수가 없게 된다. 그래서 JIS X 0201과 JIS X 0208을 함께 쓰기 위해서 만들어진 문자 인코딩이 Shift_JIS이다.
[[1978년]]에는 [[히라가나]], [[가타카나]], [[한자]], 기호를 모두 포함한 2바이트 94×94 문자 집합인 [[JIS X 0208]](당시 JIS C 6226)이 발표되는데, 이를 다른 EUC 문자 집합과 마찬가지로 0xA1A1부터 0xFEFE에 배당하면 JIS X 0201로 작성된 기존 문서들을 읽을 수가 없게 된다. 그래서 JIS X 0201과 JIS X 0208을 함께 쓰기 위해서 만들어진 문자 인코딩이 Shift_JIS이다.


== 구조 ==
== 구조 ==
12번째 줄: 12번째 줄:


=== 0x5C 문제 ===
=== 0x5C 문제 ===
둘째 바이트에 0x5C가 들어갈 수 있기 때문에 여러 환경에서 문제가 일어난다. 예를 들어 表의 경우 둘째 바이트가 0x5C인데, 이러다 보니 print "表" 같은 것을 입력하면 두 번째 " 기호가 escape된 것으로 간주되어 에러가 날 수 있다.
둘째 바이트에 0x5C가 들어갈 수 있기 때문에 여러 환경에서 문제가 일어난다. 예를 들어 表의 경우 둘째 바이트가 0x5C인데, 이러다 보니 print "表" 같은 것을 입력하면 두 번째 " 기호가 escape된 것으로 간주되어 에러가 날 수 있다. ソ, 十, 申, 能, 表, 暴, 予 등이 여기에 해당된다.


== 확장 ==
== 확장 ==
Shift_JIS에는 여러 확장이 존재한다.
Shift_JIS에는 여러 확장이 존재한다. 이 확장 영역은 서로 호환되지 않기 때문에 사용 시 주의가 필요하다. 윈도의 Shift_JIS 환경에서 ①를 쓰면 맥의 Shift_JIS 환경에서는 ㈰으로 출력되는 이유가 여기에 있다.
* CP932: MS 윈도에서 사용하는 Shift_JIS의 확장이다. 13구에 원 문자 등을 배당했고, 89~92구에 추가 한자를 배당했다.
* CP932: MS 윈도에서 사용하는 Shift_JIS의 확장이다. 13구에 특수 문자를, 89~92구에 추가 한자를 배당했다.
* MacJapanese: 맥에서 사용하는 Shift_JIS의 확장이다. 9~15행에 특수 문자를, 85~89행에 세로쓰기용 문자를 배당했다.
* MacJapanese: 맥에서 사용하는 Shift_JIS의 확장이다. 9~15구에 특수 문자를, 85~89구에 세로쓰기용 문자를 배당했다.
* Shift_JIS-2004: [[JIS X 0213]]-2004를 지원하는 Shift_JIS이다.
* Shift_JIS-2004: [[JIS X 0213]]-2004를 지원하는 Shift_JIS이다.

2015년 4월 19일 (일) 16:51 판

Shift_JIS일본어 문자 인코딩의 하나이다.

탄생 배경

일본은 2바이트 문자 인코딩 그런 거 없었던 1969년ASCII(0x5C를 엔 기호(¥)로, 0x7E를 overline(‾)으로 바꿈)와 가타카나(0xA0부터 0xDF)만 담은 문자 집합인 JIS X 0201(당시 JIS C 6220)을 제정해 사용한다.

1978년에는 히라가나, 가타카나, 한자, 기호를 모두 포함한 2바이트 94×94 문자 집합인 JIS X 0208(당시 JIS C 6226)이 발표되는데, 이를 다른 EUC 문자 집합과 마찬가지로 0xA1A1부터 0xFEFE에 배당하면 JIS X 0201로 작성된 기존 문서들을 읽을 수가 없게 된다. 그래서 JIS X 0201과 JIS X 0208을 함께 쓰기 위해서 만들어진 문자 인코딩이 Shift_JIS이다.

구조

Shift_JIS는 47×188 구조이다.

  • 첫 바이트는 0x81부터 0x9F, 0xE0부터 0xEF를 사용한다.
  • 둘째 바이트는 0x40부터 0x7E, 0x80부터 0xFC를 사용한다.

0x5C 문제

둘째 바이트에 0x5C가 들어갈 수 있기 때문에 여러 환경에서 문제가 일어난다. 예를 들어 表의 경우 둘째 바이트가 0x5C인데, 이러다 보니 print "表" 같은 것을 입력하면 두 번째 " 기호가 escape된 것으로 간주되어 에러가 날 수 있다. ソ, 十, 申, 能, 表, 暴, 予 등이 여기에 해당된다.

확장

Shift_JIS에는 여러 확장이 존재한다. 이 확장 영역은 서로 호환되지 않기 때문에 사용 시 주의가 필요하다. 윈도의 Shift_JIS 환경에서 ①를 쓰면 맥의 Shift_JIS 환경에서는 ㈰으로 출력되는 이유가 여기에 있다.

  • CP932: MS 윈도에서 사용하는 Shift_JIS의 확장이다. 13구에 특수 문자를, 89~92구에 추가 한자를 배당했다.
  • MacJapanese: 맥에서 사용하는 Shift_JIS의 확장이다. 9~15구에 특수 문자를, 85~89구에 세로쓰기용 문자를 배당했다.
  • Shift_JIS-2004: JIS X 0213-2004를 지원하는 Shift_JIS이다.