티스토리 뷰

컴퓨터 관련

텍스트 문서의 code 문제

진리와 가치를 고루고루 2012. 3. 4. 01:31


○ 텍스트 문서에 사용하는 코드 때문에 여러 혼동이 일어난다.

KS-완성형. UTF-8 , UTF-8+BOM, UNICODE 가 주로 사용하는 코드인데,

텍스트 뷰어프로그램이나, 텍스트 편집프로그램 또는 검색 프로그램 들이각기 조금씩 특성이 달라서,
어떤 코드 문서는인식을 하기도 하고 어떤 경우는 인식을 잘 하지 못하기도 하고,
다양한 상황에 부딪히게 된다.


○ 며칠전텍스트를 책처럼 열어 보는 프로그램을 찾아 보았는데,
각 프로그램들이 모두텍스트에 사용된 코드 문제로어려움이 많다.

어떤 것은 열리고 어떤 것은 글자가 깨져 나오고 그런 식이다.

그외에도 현재 문서편집에 사용하는 웹에디터도 그렇고
텍스트문서들에서 낱글자 검색을 해볼 때도 그렇고
단순히 텍스트 뷰어로 텍스트 문서를 열람해 보는 과정에서도


텍스트 문서에 사용된서로 다른 코드 문제로 인해 어려움을 많이 겪게 된다.




○ 이런 불편을 종종 겪다보니. 이 문제의 해결방안의 하나로

일단,지금껏 저장해둔 텍스트 문서들을
코드를 통일 저장하는 방안을 생각하게 된다.

즉 여러 프로그램과 관련해이용가능성이 가장 높은 코드로
통일 저장하면 비교적 문제가 줄어들 수 있다.

여러 프로그램을 통해 테스트해보니,
비교적 utf-8+bom 형태로 저장하는 경우에 비교적 가장 에러가 적고 호환성이 좋은 것 같다..


한편, 기존의 텍스트문서들을일정한 코드로 통일 변환시킬 필요가 있을 때,
사용할 수 있는 프로그램이 있다.

코드 변환시키는 여러 프로그램이 있지만,
테스트해 본 결과 mojicoco 란 프로그램이 그 가운데 가장 신뢰할 만하다.

MOJICOCO 프로그램은 프리웨어이다.
다른 여러 프로그램들을 테스트해보면아주 조금씩 에러가 발생한다. 특히 한문이나 특수문자 들의 경우에서 그런 오류를 발견하게 된다. 그러나 글자는 때로는 매우 중요하므로, 그런 에러가 발생하면 신뢰할 수 없게 된다.

개인적으로 MOJICOCO 프로그램은 아직까지 특별한 에러 사항은 발견하지 못했다.




○ 한편 여러 코드로 된 텍스트 문서를 열람할 때는
기본적으로 전문적인 워드프로세서를 통해서 열어 볼 수 있다.

개인적으로 텍스트 문서인 경우에는 editplus로 열어보는 것을 선호한다.
다양한 코드로 된 파일을열어보기 쉽기 때문이다.


다만 편집 목적이 아니고 단순히 열람을 편하게 하고 싶을 때는
토털커맨더에 내장된 lister로열어 보는 것이 손쉽다.


lister는 토털커맨더에 내장되어 있기도 하지만, 토털커맨더 사이트에서 독립적으로 프리웨어로 제공해준다.
lister는비교적 가벼운 프로그램인데
자체적으로도 상당히 기능이 뛰어나고,
파일을 헥사코드 형태로도 열어볼 수 있으며 기본적으로 다양한 각국의 코드를 지원해준다.
또 별도의 다양한 플러그인과 결합하여 다양한 파일들을 볼 수 있다.


여러 파일을대하다보면, lister 로는 열어 보는데, 다른 문서편집기로는 열어 보지 못하는 경우도많다.
그동안 사용해본 여러 텍스트 뷰어 프로그램 가운데, 매우 신뢰할 만한 프로그램으로 생각한다.


그래서lister 플러그인까지 몇몇 개 함께 설치해서,
텍스트문서 이외에 htm 파일이나,
jpg 등의 그림파일, pdf 문서도 함께 열어 볼 수 있게 설정을 구성해 같이 넣어 봤다.



다만이들 플러그인을함께 사용하려면, 해당 내용이 설정된 ini 파일을 인식해 사용해야 한다.
lister.exe /i=[해당 ini 파일 경로]옵션을 통해 사용하면 설정파일을 인식해 사용할 수 있다.
좀 더 편하게 사용하려면 안에 들어 있는 bat 파일이나 오토핫키를 설치한 상태에서 lister2.ahk 또는 이를 컴파일한 lister2.exe를 실행해 사용할 수 있다.



○ 한편텍스트 문서의 낱글자 검색에도 그간어려움이 많았다.
ks 완성형 코드의 검색이나,
unicode 코드로 된 낱글자의 검색도 문제지만,
htm 문서는 utf-8 코드로 저장하는 경우가 많은데,
의외로 utf-8 코드로 된 낱글자를 잘 검색해주는 프로그램을 찾아내기가 힘들다.

다음과 같은 프로그램들이 비교적 정확한 검색결과를 보여주는 것같다.


- editplus 에서 여러문서에서 찾기 [alt+S+i] 를 통해 실행하면 utf-8 코드로 된 htm 문서도 검색을 잘 할 수 있다.

다만 htm 일부 문서에서 때로 검색결과의 줄 위치가 잘못표시 되어 검색되는 경우가 있는데 이는문의한 결과, 파일에 PC와 Unix줄바꿈이 뒤섞여 있는 경우라고 한다. 이 때는다음과 같이 설정을 하고 검색하면 된다.

설정=> '기본설정'->'파일'->'로드 시 발못된 CR/LF, null 문자 검사' 옵션을 선택하여 검색을 실행하면 된다.


- Replace Studio Pro 등의 검색 전문프로그램을통해서도 검색을 할 수 있다. 이는 상용프로그램이며 설치 후 1달이 지나면 시스템에서 재설치해 사용할 수 없게 된다. ^^
http://funduc.com/


- 또 토탈커맨더에서도 찾기 기능을 실행하면 utf-8 코드 문서도검색할 수 있다.



////


개인적으로 텍스트 문서를 선호하는 것은
파일이 디스크 상에 여러 폴더에 많이 저장되어 있더라도
이 안에서 낱글자를 검색해 원하는 파일을 찾기 쉽기 때문이다.

최근 unicode 코드로 한자나 특수문자들도 깨지지 않고 저장할 수 있게
되어텍스트 문서를 더 선호하게 바뀐것같다.

그리고 문서 안에 표나 그림이 필요할 때는
htm 형태로 저장하면,
기본 텍스트에 약간의 htm 태그가 덧붙여진 상태로,
저장할 수 있다.
그래서 검색의 편의성을 그대로 가질 수 있다.


더욱이 최근에는 웹 환경에서 작업을 많이 하다보니,
아예 문서 기본 포맷을htm 문서로 통일하기로정했다.



그런데, txt문서나 htm 문서상의 코드가 다양하게 사용되기에
열람하거나 검색해보거나또는 편집하려고 할 때,
아주 미세하게 조금씩 각 프로그램마다, 에러를 일으키는 것을 발견하게 되고,
이 문제로조금 고민을 하게 되었다.

그래서 일단, 되도록 기존 문서들의 코드를 내부적으로 통일해서 관리하기로 하고,
일단 디스크 상의 htm문서는 모두 utf-8 코드로 통일 변환하기로 하였다..

각종 다른 코드로 된 txt문서와 htm문서의 열람-편집-검색....의 어려움을 겪고 정리 및 보고 차원에서 ^^
글을 올린다.

/////









web: http://blog.paran.com/story007/46791524



댓글