최신판 |
당신의 편집 |
1번째 줄: |
1번째 줄: |
| '''텍스트 파일'''(Text file)은 제어 문자를 제외한, 단순히 출력 가능한 [[문자열]]로 이루어진 [[파일]]을 말한다. | | {{토막글}} |
| | '''텍스트 파일'''은 제어 문자를 제외한, 단순히 출력 가능한 [[문자열]]로 이루어진 [[파일]]을 말한다. |
|
| |
|
| == 서설 == | | == 설명 == |
| [[이진 파일]]과 구별되며, 줄 단위의 기록을 위한 개행·파일끝 [[부호]]를 가지고 있다. 개행 부호는 [[운영체제]]마다 다르게 기록된다. [[유니코드]]가 확산됨에 따라서 많은 파일들이 이에 기반을 두고서 만들어지고 있다. 텍스트 파일의 가장 유명한 확장자는 {{파일|.txt}}이지만, HTML이나 CSV, 프로그램의 소스 파일도 텍스트 파일로 기록된다.
| | 이진 파일과 구별되며, 줄 단위의 기록을 위한 개행 기호와 파일끝 기호를 가지고 있다. 개행 기호는 [[OS]]마다 다르게 기록된다. [[유니코드]]가 확산됨에 따라서 많은 파일들이 이에 기반을 두고서 만들어지고 있다. |
|
| |
|
| 텍스트 파일을 편집하는 소프트웨어를 [[문서 편집기]]라고 부르는데, [[Vi]], [[메모장]], [[LeafPad]] 등이 모두 여기에 속한다.
| | == 인코딩 변환 == |
| | | 텍스트편집기에서 저장한 형식과는 별개로 인코딩 변환이 필요할 경우가 있다. |
| == 줄바꿈 형식 ==
| |
| 줄바꿈 형식은 운영체제마다 달리 적용하며, 사용하는 부호가 다르다.
| |
| * LF(0x0A): *nix 계열, BeOS…
| |
| * CRF(0x0D): 맥 계열, 애플 계열…
| |
| * CR+LF(0x0D 0x0A): MS 계열, OS/2…
| |
| | |
| === ^M 부호 ===
| |
| 간혹 편집기로 텍스트 파일을 열었을 때, 끝부분에 저런 ^M 부호가 붙어있는 경우가 있다. 이는 [[마이크로소프트]] 계열의 운영체제에서 만든 파일을 *nix 계열의 프로그램에서 읽어오는 과정에서, LF는 개행 부호로 처리하고, CR은 개행으로 판단하지 않았기 때문에 제어 문자가 그대로 보이는 현상이다.
| |
|
| |
|
| Vim에서 제거할 수 있다:
| | === iconv 이용 === |
| :%s/\r//g | | iconv -f 들어오는형식 -t 나가는형식 원본파일 > 사본파일 |
|
| |
|
| 참고로 필요하다면, 역시 Vim에서 만들어 넣을 수도 있다.
| | === Vim 이용 === |
| Ctrl-q + Ctrl-M
| | vim -c "set fenc=나가는형식" -c x 텍스트파일 |
| | |
| == 제어 문자 == | |
| '^M'의 예 처럼 텍스트 파일이라 하더라도 내부적으론 제어 문자를 포함하는 경우가 있다. 제어 문자들은 다음 처럼 이스케이프 문자로 기술하기도 하는데, 텍스트 편집기의 찾기나 바꾸기, [[정규 표현식]] 등에서도 쓰인다.
| |
| * 널(NUL): \0.
| |
| * 라인 피트(LF): \n.
| |
| * 캐리지 리턴(CR): \r.
| |
| * 수평 탭(HT): \t.
| |
| | |
| == 텍스트 편집에 관한 팁 ==
| |
| === 개행 문자를 모두 제거 === | |
| 개행 문자를 모두 제거하여 한 줄로 만든다.
| |
| vim -c "%s/\n$//g" -c x 텍스트파일
| |
| | |
| === 인코딩 변환 ===
| |
| 텍스트편집기에서 저장한 형식과는 별개로 인코딩 변환이 필요할 경우가 있다.
| |
| iconv -f 들어오는문자열 -t 나가는문자열 원본파일 > 사본파일
| |
| vim -c "set fenc=나가는문자열" -c x 텍스트파일 | |
|
| |
|
| iconv의 경우 윈도우창에서는 잘 안 되는 면이 있으며, Vim은 읽고 쓰는 과정이 느릴 수 있다.
| |
|
| |
|
| [[분류:파일 형식]] | | [[분류:파일]] |
| [[분류:텍스트 파일| ]]
| |