最新汉字码的转换讲课讲稿

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

汉字编码:国标码(交换码)、输入码(外码)、机内码(内码)和

输出码(字模或显示码)

汉字在机内的存储和表示称为内码,

供汉字输入(主要是通过键盘进行输入)的编码称为外码,

供计算机输出(主要是指显示和打印)的编码称为汉字字模。

首先介绍汉字的内码,计算机处理汉字信息使用的编码。计算机处理汉字信息的前提条件是对每个汉字进行编码,这些编码统称为汉字编码。汉字信息在系统内传送的过程就是汉字编码转换的过程。在这其中又有几种编码形式。

1)汉字交换码

ASCII码是针对英文的字母、数字和其他特殊字符进行编码的,它不能用于对汉字的编码。要想用计算机来处理汉字,就必须先对汉字进行适当的编码。这就是“汉字交换码”。

我国在1981年5月对6 000多个常用的汉字制定了交换码的国家标准,即:GB 2312-80,又称为“国标码”。该标准规定了汉字交换用的基本汉字字符和一些图形字符,它们共计7 445个,其中汉字有6 763个。其中,一级汉字(常用字)3 755个,按汉字拼音字母顺序排列,二级汉字3 008个,按部首笔画次序排列。该标准给定每个字符的二进制数编码,即国标码。

2)区位码

它是将GB 2312-80的全部字符集组成一个94×94的方阵,每一行称为一个“区”的编码方式。在这种编码中的编号为0l~94:每一列称为一个“位”,编号也为0l~94,这样得到GB 2312-80标准中汉字的区位图。用区位图的位置来表示的汉字编码,称为区位码。

3)机内码

为了避免ASCII码和国标码同时使用时

产生二义性问题,大部分汉字系统都采用将国

标码每个字节高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性,又使汉字机内码与国标码具有极简单的对应关系。

4)汉字机内码、国标码和区位码3者之间的关系

汉字机内码、国标码和区位码3者之间的关系为:

区位码(十进制数)的两个字节分别转换为十六进制数后加20H得到对应的国标码;

机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国标码)的两个字节分别加80H得到对应的机内码;

区位码(十进制数)的两个字节分别转换为十六进制数后加A0H得到对应的机内码。

接下来介绍汉字输入码(外码)。

目前,汉字输入法主要有键盘输入、文字识别和语音识别。键盘输入法是当前汉字输入的主要方法。它大体可以分为:

流水码:如区位码、电报码、通信密码,优点是重码少,缺点是难于记忆;

音码:以汉语拼音为基准输入汉字,优点是容易掌握,但重码率高;

形码:根据汉字的字型进行编码,优点是重码少,但不容易掌握;

音形码:将音码和形码结合起来,能减少重码率,并提高汉字输入速度。

最后,简单向大家介绍汉字字模。

供计算机输出汉字(显示和打印)用的二进制数信息叫汉字字形信息也称字模。通用汉字字模点阵规格有:16×16,24×24,32×32,48×48,64×64。每个点在存储器中用一个二进制数存储,如一个16×16点阵汉字需要32个字节的存储空间。

区位码、国标码与机内码的转换关系方法:

(1)区位码先转换成十六进制数表示

(2)(区位码的十六进制表示)+2020H =国标码;

(3)国标码+8080H=机内码

举例:以汉字“大”为例,“大”字的区内码为2083

1、区号为20,位号为83

2、将区位号2083转换为十六进制表示为1453H

3、1453H+2020H=3473H,得到国标码3473H

4、3473H+8080H=B4F3H,得到机内码为B4F3H

相关文档
最新文档