2.1 编码的本质

在开始讲解具体的编码标准之前，我们需要先理解编码到底是什么，以及为什么我们需要字符编码。

信息的数字化表示

计算机的本质是一个电子设备，它只能理解和处理二进制数据（0和1）。而我们人类在日常交流中使用的是各种自然语言的字符（中文、英文、日文等）、符号、数字等信息。要让计算机能够处理这些人类可理解的信息，就需要建立一个从人类字符到二进制数字的映射关系，这个映射过程就是编码。

换句话说：

编码就是将信息从一种格式转换为另一种格式的规则集合。

对于字符编码来说：

字符 'A' → 编码 → 二进制 01000001 → 解码 → 字符 'A'

如果编码和解码使用的规则不一致，就会出现我们常说的乱码问题。

一个完整的字符编码标准通常包含三个核心要素：

规定了这个编码标准支持哪些字符，每个字符对应一个唯一的编号（码位，Code Point）。

规定了如何将字符的码位转换为实际的二进制字节序列。

对于多字节编码，需要规定字节的排列顺序（大端序/小端序）。

字符编码的发展历史其实就是计算机全球化的历史：

计算机最早是在美国发明的，早期只需要处理英文字符，所以最早的编码标准ASCII（美国信息交换标准代码）只包含了128个字符，完全可以满足英文处理的需求。

随着计算机在全球普及，各个国家都需要处理自己的语言文字，于是各个国家都制定了自己的编码标准：

这一时期的问题是：不同国家的编码标准互不兼容，同一个二进制数值在不同的编码标准中代表不同的字符，跨语言处理非常容易出现乱码。

随着互联网的发展，不同国家和地区之间的信息交流越来越频繁，编码不兼容的问题越来越突出。于是国际组织制定了Unicode统一字符集，目标是包含全世界所有语言的字符，从根本上解决编码不兼容的问题。

现在Unicode已经成为了全球通用的编码标准，UTF-8是目前使用最广泛的Unicode实现方式。

很多程序员觉得编码是个很底层的东西，平时开发用框架和库都帮我们处理好了，不需要理解。但实际上编码问题无处不在：

理解编码的本质，能够让你在遇到乱码问题时快速定位原因，而不是靠猜和试错来解决问题。