본문 바로가기

유니코드

(2)
유니코드 정리 ASCII는 7비트로 구성된 문자 인코딩 체계로, 초기 컴퓨터 시스템에서 널리 사용되었다. ASCII는 총 128개의 문자를 나타낼 수 있고, 각 문자는 0~127까지의 숫자 코드로 표현된다. ASCII 코드 유니코드 : 컴퓨터에서 문자를 표현하는 국제 표준이다. 유니코드는 ASCII의 확장이고 각 문자마다 고유한 번호를 부여하는 방식으로 동작하는데, 이를 '코드 포인트' 라고 한다. 유니코드는 UTF-8,UTF-16, UTF-32 등의 인코딩 방식이 있다. UTF-8이 가장 널리 사용되는 유니코드 인코딩 방식인데 아스키 코드와의 호환성 및 가변 길이 문자 인코딩의 이점 때문에 인기가 있다. UTF - 8 : 유니코드를 8비트 단위로 나눠서 인코딩한다. ASCII 문자들은 1바이트로, 다른 문자들은 최대..
BOM (Byte Order Mark) - 바이트 순서 표시 BOM : 인코딩된 데이터의 바이트 순서를 나타내는데 사용되는 유니코드 문자이다. BOM의 유니코드 코드 포인트는 U+FEFF 이며, 이는 바이트 순서가 빅 엔디언인지 리틀 엔디언인지 판별하는데 사용된다. ● 빅 엔디언 : 높은 바이트가 먼저나오는 방식 ex) '가'는 AC00으로 표현됨 ● 리틀 엔디언 : 낮은 바이트가 먼저나오는 방식 ex) '가'는 00AC로 표현됨 바이트 순서는 시스템 아키텍처에 따라 다르므로, 인코딩된 데이터를 해석할 때는 해당 시스템의 바이트 순서를 알아야 한다. UTF-16 인코딩된 데이터 스트림에서는 BOM 사용하여 이를 나타낼 수 있습니다. 예를 들어, '가' 문자 (유니코드 코드 포인트 U+AC00)를 UTF-16으로 인코딩하고 바이트 순서를 표시하려면 1. 빅 엔디언(..