汉字在计算机中的处理涉及输入、交换、存储和输出四个环节,对应不同的编码。 重点
常见编码类型
1. 输入码
用于将汉字输入计算机,如拼音码、五笔字型码、区位码。
- 区位码: 将汉字分为 94 个区,每个区 94 个位。每个汉字由 2 位区号 and 2 位位号组成。
2. 交换码 (国标码)
用于计算机之间交换汉字信息,标准为 GB2312-80。
- 计算公式: 重点
3. 机内码
汉字在计算机内部存储和处理时使用的编码。为了区分 ASCII 码,机内码的最高位通常置为 1。
- 计算公式: 重点
- 推导:
4. 字形码 (输出码)
用于汉字的显示和打印,通常采用点阵(如 , )或矢量方式存储。
转换实例 重点
以汉字“中”为例(假设区位码为 ):
- 区位码转十六进制: , ,即 。
- 求国标码: 。
- 求机内码: 。
现代标准
- Unicode: 统一码,为全球每种语言的每个字符设定唯一编码。
- UTF-8: Unicode 的变长实现,是目前互联网最主流的编码方式。
汉字编码是 非数值数据的编码表示 中较为复杂的部分,需注意与 ASCII 码的区分。