1 character set
- 직역하면 문자 집합
- 컴퓨터에서 문자를 표현하기 위해 각 문자를 정수 값에 대응 시켜 놓은 체계
숫자 코드가 컴퓨터상에서 어떻게 표현되는 가는 정해지지 않은상태
- 예를 들어 '가' 라는 문자를 '0xac00' 이라는 숫자값으로 매핑기켜 사용하도록 정의한것을 의미
- character set 은 언어 종류만큼 다양함, character set 에 따라 표현하고자 하는 문자의 값과 대응하는
숫자도 달라짐. 따라서 문자를 주고 받을때 서로간의 character set 을 일치 시켜야 함
- 웹페이지 작성시 content-type 의 일부로 character set 을 명시하는 것은 웹브라우저 에게 사용하는
character set 을 알려주어 오해가 없도록 하기 위함
2. Enconding
- character set 이 문자에 대해 정수값을 지정한 것이라면, enconding 은 문자를 표현하는 정수값을
어떤 bit 배열로 표현할 것인지를 의미해야 함.
즉 encoding 은 character set 에서 더 나아가 컴퓨터 상에서 어떻게 표현되는 가까지 정해진 상태의 문자 집합
- 완성형 한글인 KSC-5601 character set 은 UNIX 에서는 EUC-KR 이란 encoding 으로 표현되고 있으며
윈도우즈에서는 cp949란 encoding 으로 표현됩니다.
- character set 이 같다면 그 charset 을 지원하는 어떤 encoding 을 사용하든지 각문자에 대응하는
논리적읜 정수값은 동일 하다고 볼수 있으나 encoding 이 다를수 있으니 encoding 도 맞춰라
* encoding = bit
3. EUC & codePage
- EUC = Extended Unix Code
- Unix 가 세계화 되며 각국 언어 표기의 character set 을 개발함
- codepage는 microsoft windows 가 각나라 문자 표기를 위해 개발된 character set ( cp949)
4 Unicode
- 모든글자 표현 체게를 하나로 통합하려고 개발된 character set
-
댓글 없음:
댓글 쓰기