2011년 5월 16일 월요일

일] character set, character encoding, code page, unicode

1 character set


  - 직역하면 문자 집합
  - 컴퓨터에서 문자를 표현하기 위해 각 문자를 정수 값에 대응 시켜 놓은 체계
    숫자 코드가 컴퓨터상에서 어떻게 표현되는 가는 정해지지 않은상태


  - 예를 들어 '가' 라는 문자를 '0xac00' 이라는 숫자값으로 매핑기켜 사용하도록 정의한것을 의미
  - character set 은 언어 종류만큼 다양함,  character set 에 따라 표현하고자 하는 문자의 값과 대응하는 
     숫자도 달라짐.  따라서 문자를 주고 받을때 서로간의 character set 을 일치 시켜야 함
  
  - 웹페이지 작성시 content-type 의 일부로 character set 을 명시하는 것은 웹브라우저 에게 사용하는 
     character set 을 알려주어 오해가 없도록 하기 위함


2. Enconding
  -  character set 이 문자에 대해 정수값을 지정한 것이라면, enconding 은 문자를 표현하는 정수값을
     어떤 bit 배열로 표현할 것인지를 의미해야 함.
     즉 encoding 은 character set 에서 더 나아가 컴퓨터 상에서 어떻게 표현되는 가까지 정해진 상태의 문자 집합
 - 완성형 한글인 KSC-5601 character set 은 UNIX 에서는 EUC-KR 이란 encoding 으로 표현되고 있으며
    윈도우즈에서는 cp949란 encoding 으로 표현됩니다.


 - character set 이 같다면 그 charset 을 지원하는 어떤 encoding 을 사용하든지 각문자에 대응하는
    논리적읜 정수값은 동일 하다고 볼수 있으나 encoding 이 다를수 있으니 encoding 도 맞춰라




* encoding = bit


3. EUC & codePage


  - EUC = Extended Unix Code 
  - Unix 가 세계화 되며 각국 언어 표기의 character set 을 개발함
  - codepage는 microsoft windows 가 각나라 문자 표기를 위해 개발된 character set ( cp949)


 4 Unicode
  - 모든글자 표현 체게를 하나로 통합하려고 개발된 character set
  - 

댓글 없음:

댓글 쓰기