汉字在计算机中的处理涉及输入、交换、存储和输出四个环节,对应不同的编码。 重点

常见编码类型

1. 输入码

用于将汉字输入计算机,如拼音码、五笔字型码、区位码

  • 区位码: 将汉字分为 94 个区,每个区 94 个位。每个汉字由 2 位区号 and 2 位位号组成。

2. 交换码 (国标码)

用于计算机之间交换汉字信息,标准为 GB2312-80。

  • 计算公式: 重点

3. 机内码

汉字在计算机内部存储和处理时使用的编码。为了区分 ASCII 码,机内码的最高位通常置为 1。

  • 计算公式: 重点
  • 推导:

4. 字形码 (输出码)

用于汉字的显示和打印,通常采用点阵(如 , )或矢量方式存储。

转换实例 重点

以汉字“中”为例(假设区位码为 ):

  1. 区位码转十六进制: , ,即
  2. 求国标码:
  3. 求机内码:

现代标准

  • Unicode: 统一码,为全球每种语言的每个字符设定唯一编码。
  • UTF-8: Unicode 的变长实现,是目前互联网最主流的编码方式。

汉字编码是 非数值数据的编码表示 中较为复杂的部分,需注意与 ASCII 码的区分。