最新汉字码的转换讲课讲稿
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉字编码:国标码(交换码)、输入码(外码)、机内码(内码)和
输出码(字模或显示码)
汉字在机内的存储和表示称为内码,
供汉字输入(主要是通过键盘进行输入)的编码称为外码,
供计算机输出(主要是指显示和打印)的编码称为汉字字模。
首先介绍汉字的内码,计算机处理汉字信息使用的编码。计算机处理汉字信息的前提条件是对每个汉字进行编码,这些编码统称为汉字编码。汉字信息在系统内传送的过程就是汉字编码转换的过程。在这其中又有几种编码形式。
1)汉字交换码
ASCII码是针对英文的字母、数字和其他特殊字符进行编码的,它不能用于对汉字的编码。要想用计算机来处理汉字,就必须先对汉字进行适当的编码。这就是“汉字交换码”。
我国在1981年5月对6 000多个常用的汉字制定了交换码的国家标准,即:GB 2312-80,又称为“国标码”。该标准规定了汉字交换用的基本汉字字符和一些图形字符,它们共计7 445个,其中汉字有6 763个。其中,一级汉字(常用字)3 755个,按汉字拼音字母顺序排列,二级汉字3 008个,按部首笔画次序排列。该标准给定每个字符的二进制数编码,即国标码。
2)区位码
它是将GB 2312-80的全部字符集组成一个94×94的方阵,每一行称为一个“区”的编码方式。在这种编码中的编号为0l~94:每一列称为一个“位”,编号也为0l~94,这样得到GB 2312-80标准中汉字的区位图。用区位图的位置来表示的汉字编码,称为区位码。
3)机内码
为了避免ASCII码和国标码同时使用时
产生二义性问题,大部分汉字系统都采用将国
标码每个字节高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性,又使汉字机内码与国标码具有极简单的对应关系。
4)汉字机内码、国标码和区位码3者之间的关系
汉字机内码、国标码和区位码3者之间的关系为:
区位码(十进制数)的两个字节分别转换为十六进制数后加20H得到对应的国标码;
机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国标码)的两个字节分别加80H得到对应的机内码;
区位码(十进制数)的两个字节分别转换为十六进制数后加A0H得到对应的机内码。
接下来介绍汉字输入码(外码)。
目前,汉字输入法主要有键盘输入、文字识别和语音识别。键盘输入法是当前汉字输入的主要方法。它大体可以分为:
流水码:如区位码、电报码、通信密码,优点是重码少,缺点是难于记忆;
音码:以汉语拼音为基准输入汉字,优点是容易掌握,但重码率高;
形码:根据汉字的字型进行编码,优点是重码少,但不容易掌握;
音形码:将音码和形码结合起来,能减少重码率,并提高汉字输入速度。
最后,简单向大家介绍汉字字模。
供计算机输出汉字(显示和打印)用的二进制数信息叫汉字字形信息也称字模。通用汉字字模点阵规格有:16×16,24×24,32×32,48×48,64×64。每个点在存储器中用一个二进制数存储,如一个16×16点阵汉字需要32个字节的存储空间。
区位码、国标码与机内码的转换关系方法:
(1)区位码先转换成十六进制数表示
(2)(区位码的十六进制表示)+2020H =国标码;
(3)国标码+8080H=机内码
举例:以汉字“大”为例,“大”字的区内码为2083
1、区号为20,位号为83
2、将区位号2083转换为十六进制表示为1453H
3、1453H+2020H=3473H,得到国标码3473H
4、3473H+8080H=B4F3H,得到机内码为B4F3H