字符编码是怎么回事？

在计算机中我们所处理的字符信息，即文本信息（包括数字、字母、文字、标点符号等）是以一种特定编码格式来定义的。为了使世界各国的文本信息能够通用，就需要对字符编码做标准化。

我们现在最常用也最基本的字符编码系统是 ASCII 码（American Standard Code for Information Interchange，美国信息交换标准码）。ASCII 码定义每个字符仅占一个字节，可表示阿拉伯数字 0～9、26 个大小写英文字母，以及我们现在在标准键盘上能看到的所有标点符号、一些控制字符（比如换行、回车、换页、振铃等）。

ASCII 码最高位是奇偶校验位，用于通信校验，所以真正有编码意义的是低 7 个比特，因此只能用于表示 128 个字符（值从 0～127）。由于 ASCII 是美国国家标准，所以后来国际化标准组织将它进行国际标准化，定义为了 ISO/IEC 646 标准。两者所定义的内容是等价的。

ISO/IEC 646 对于英文系国家而言是基本够用了，但是对于拉丁语系、希腊等国家来说就不够用了。所以后来 ISO 组织就把原先 ISO/IEC 646 所定义字符的最高位也用上了，这样就又能增加 128 个不同的字符，发布了 ISO/IEC 8859 标准。

然而，欧洲大陆虽小，但国家却有数百个，128 种扩展字符仍然不够用。因此后来就在 8859 的基础上，引入了 8859-n，n 从 1～16，每一种都支持了一定数量的不同的字母，这样基本能满足欧美国家的文字表示需求。

当然，有些国家之间仍然需要切换编码格式，比如 ISO/IEC8859-1 的语言环境看 8859-2 的就可能显示乱码，所以，还得切换到 8859-2 的字符编码格式下才能正常显示。

而在中国大陆，我们自己也定义了一套用于显示简体中文的字符集——GB2312。它在 1981 年 5 月 1 日开始实施，是中国国家标准的简体中文字符集，全称为《信息交换用汉字编码字符集·基本集》。

GB2312 收录了 6763 个汉字，包括拉丁字母、希腊字母、日语假名、俄语和蒙古语用的西里尔字母在内的 682 个全角字符。

然后又出现了 GBK 字符集，GBK 1.0 收录了 21886 个符号，其中汉字就包含了 21003 个。GBK 字符集主要扩展了繁体中文字。

由于像 GB2312 与 GBK 能表示成千上万种字符，因此这已经远超 1 个字节所能表示的范围。它们所采用的是动态变长字节编码，并且与 ASCII 码兼容。

如果表示 ASCII 码部分，那么仅 1 个字节即可，并且该字节最高位为 0。
如果要表示汉字等扩展字符，那么头 1 个字节的最高位为 1，然后再增加一个字节（即用两个字节）进行表示。

所以，理论上，除了第 1 个字节的最高位不能动之外，其余比特都能表示具体的字符信息，因而最多可表示2⁷ + 2¹⁵ = 32896种字符。

当然，正由于 GB2312 与 GBK 主要用于亚洲国家，所以当欧美国家的人看到这些字符信息时显示的是乱码，他们必须切换到相应的汉字编码环境下看才能看到正确的文本信息。为了能真正将全球各国语言进行互换通信，出现了 Unicode（Universal Character Set，UCS）标准。它对应于编码标准 ISO/IEC 10646。

Unicode 前后也出现了多个版本。早先的 UCS-2 采用固定的双字节编码方式，理论上可表示 2¹⁶ = 65536 种字符，因此极大地涵盖了各种语言的文字符号。

不过后来，标准委员会意识到，对于像希伯来字母、拉丁字母等压根就不需要用两个字节表示，而且定长的双字节表示与原有的 ASCII 码又不兼容，因此后来出现了现在用得更多的 UTF-8 编码标准。

UTF-8 属于变长的编码方式，它最少可用 1 个字节表示 1 个字符，最多用 4 个字节表示 1 个字符，判别依据就是看第 1 个字节的最高位有多少个 1。

如果第 1 个字节的最高位是 0，那么该字符用 1 个字节表示；
最高 3 位是 110，那么用 2 个字节表示；
最高 4 位是 1110，那么用 3 个字节表示；
最高位是 11110，那么该字符由 4 个字节来表示。

所以 UTF-8 现在大量用于网络通信的字符编码格式，包括大多数网页用的默认字符编码也都是 UTF-8 编码。

尽管 UTF-8 更为灵活，而且也与 ASCII 码完全兼容，但不利于程序解析。所以现在很多编程语言的编译器以及运行时库用得更多的是 UTF-16 编码来处理源代码解析以及各类文本解析，它与之前的 UCS-2 编码完全兼容，但也是变长编码方式，可用双字节或四字节来表示一个字符。

如果用双字节表示 UTF-16 编码的话，范围从0x0000到0xD7FF，以及从0xE000到0xFFFF。这里留出0xD800到0xDFFF，不作为具体字符的编码表示，而是用于四字节编码时的编码替换。当UTF-16表示0x10000到0x10FFFF之间的字符时，先将该范围内的值减去0x10000，使得结果落在0x00000到0xFFFFF范围内。然后将结果划分为高10位与低10位两组。将低10位的值与0xDC00相加，获得低16位；高10位与0xD800相加，获得高16位。比如，一个Unicode定义的码点（code point）为0x10437的字符，用UTF-16编码表示的步骤如下。

1）先将它减去0x10000——0x10437-0x10000=0x0437。

2）将该结果分为低10位与高10位，0x0437用20位二进制表示为00000000010000110111，因此高10位是0000000001=0x01；低10位则是0000110111，即0x037。

3）将高10位与0xD800相加，得到0xD801；将低10位与0xDC00相加，获得0xDC37。因此最终UTF-16编码为0xD801DC37。

我们看到，尽管UTF-16也是变长编码表示，但是仅低16位就能表示很多字符符号，况且即便要表示更广范围的字符，也只是第二种四字节的表示方法，这远比UTF-8四种不同的编码方式要简洁很多。因此，UTF-16用在很多编程语言运行时系统字符编码的场合比较多。像现在的Java、Objective-C等编程语言环境内部系统所表示的字符都是UTF-16编码方式。

另外，现在还有UTF-32编码方式，这一开始也是Unicode标准搞出来的UCS-4标准，它与UCS-2一样，是定长编码方式，但每个字符用固定的4字节来表示。不过现在此格式用得很少，而且HTML5标准组织也公开声明开发者应当尽量避免在页面中使用UTF-32编码格式，因为在HTML5规范中所描述的编码侦测算法，故意不对它与UTF-16编码做区分。

本文标题：字符编码是怎么回事？

本文地址：https://www.hosteonscn.com/2568.html