왜 문자 하나가 8비트인가요?

ASCII는 원래 7비트인데 1바이트에 맞추려고 8비트로 채워졌고, 바이트가 대부분 컴퓨터의 기본 단위가 됐습니다. 일반 ASCII에서는 최상위 비트가 0입니다. UTF-8은 바이트 단위를 유지하면서 비라틴 문자에는 2~4바이트를 씁니다.

이모지와 한자는 어떻게 인코딩되나요?

둘 다 UTF-8을 쓰며 문자당 여러 바이트를 차지합니다. 웃는 얼굴 이모지는 4바이트(32비트), 대부분의 한자는 3바이트(24비트)입니다. 8비트 그룹으로 보면 이 문자들은 여러 그룹에 걸쳐 나타납니다.

쉼표가 섞이거나 구분자가 전혀 없는 이진을 붙여넣어도 디코딩되나요?

됩니다. 디코더는 0과 1만 골라내고 나머지는 무시하므로 01001000,01101001처럼 쉼표가 있어도, 0100100001101001처럼 한 줄로 붙어 있어도 같은 결과가 나옵니다.

같은 텍스트를 16진, 10진, 8진으로도 볼 수 있나요?

네, 출력 진법을 16진·10진·8진으로 바꾸면 같은 문자가 그 진법으로 표시됩니다. 2진은 2진법으로 컴퓨터가 실제로 저장하는 비트를 그대로 보여 주고, 16진은 16진법으로 4비트를 한 글자로 묶으며, 8진은 8진법으로 Unix 파일 권한에 쓰는 표기입니다. 글자 A는 2진으로 01000001, 16진으로 41, 10진으로 65, 8진으로 101 — 같은 값, 네 가지 표기입니다.

디코딩할 때 대소문자가 구분되나요?

출력 텍스트에서는 구분되고, 입력 이진에서는 구분이 의미 없습니다. ASCII는 대문자와 소문자에 서로 다른 코드를 주므로(A는 65, a는 97), 01000001은 A로, 01100001은 a로 풀립니다.

텍스트를 이진수로 변환

텍스트를 이진 표현으로 변환

변환

인코딩

출력 진법

구분자

비트 길이

입력

2진수 출력6 문자 · 128 비트 · 16 바이트

11101100 10010101 10001000 11101011 10000101 10010101 11101101 10010101 10011000 11101100 10000100 10111000 11101100 10011010 10010100 00100001

바이트별 분석

11101100

10진 236

안

10010101

10진 149

안

10001000

10진 136

안

11101011

10진 235

녕

10000101

10진 133

녕

10010101

10진 149

녕

11101101

10진 237

하

10010101

10진 149

하

10011000

10진 152

하

11101100

10진 236

세

10000100

10진 132

세

10111000

10진 184

세

11101100

10진 236

요

10011010

10진 154

요

10010100

10진 148

요

00100001

10진 33

문자 → 2진 참조표

▾

모든 문자는 유니코드 코드 포인트, 즉 하나의 숫자에 대응합니다. 2진은 그 숫자를 0과 1만으로 2진법으로 적고, 1바이트에 8자리가 들어갑니다. 10진과 16진 열은 같은 값을 프로그래머가 가장 자주 쓰는 진법으로 보여 줍니다.

문자	10진	16진	2진	설명
A	65	41	01000001	대문자 A
Z	90	5A	01011010	대문자 Z
a	97	61	01100001	소문자 a
z	122	7A	01111010	소문자 z
0	48	30	00110000	숫자 영
9	57	39	00111001	숫자 구
	32	20	00100000	공백
!	33	21	00100001	느낌표
?	63	3F	00111111	물음표
\n	10	0A	00001010	줄바꿈 (LF)