第二章 汉字信息在计算机内部的表示

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从而组成了一个ASCII编码 C
空间。
D
E
F
2.扩展ASCII码
由于ASCII码只能表示94个字符,因此若需要使计算 机还能够处理其他西文(如德文、法文、西班牙文等), 则必须对ASCII码进行扩充。
最简单的方式是采用8位二进制编码来表示一个扩展的 ASCII码字符集。
扩展ASCII码的编码空间如图所示。
这10个部分分别定义了ASCII码和其扩展字符集。不同 的扩展字符集用ISO8859后跟不同的数字表示。
扩展ASCII码采用高4位作列号,低4位作行号。
3.CJK-Roman
CJK-Roman是指在中日韩字符编码标准中开发的 ASCII码,分别是GB-Roman、CNS-Roman、JISRoman 和KS-Roman。CJK-Roman除下列字符与ASCII 码不一致之外,其他都与ASCII相同。
在GB2312-80中,交换码、区位码、处理码之间存在 着简单的转换,设交换码为JH(十六进制),区位码为 QW(十进制),处理码为CL(十六进制),则:
J=Q+32 ——再转换为十六进制 H=W+32 ——再转换为十六进制 C=J+80H L=H+80H
7.代码页

不同国家的人使用着不同语言的操作系统。然而,操
码元值
ASCII
GB-Roman CNS-Roman JIS-Roman KS-Roman
0x24





0x5C
\
\
\
¥
W
Βιβλιοθήκη Baidu
0x7E
~




2.2 中文信息在计算机中的表示

为了能使汉字能够在计算机中通行,亚洲国家和地区
除了制定CJK-Roman标准外。国际化标准组织(IS
O)、国际电气电子工程师协会(IEEE)以及各汉字
的属性,汉字的输入键盘码可以分为:音码、形码以及音
形组合码。根据汉字编码说用的字符类别,则可以分别采
用26个英文字母的大键盘编码和采用10个素质的小键盘
编码。汉字的输入码通过键盘转换程序转换成汉字的机内
码。
4.汉字字形码
汉字的字形码是表示汉字字形的字模数据,通常用点 阵、矢量函数等方式表示。用点阵表示时,汉字字形码就 是这个汉字字形点阵代码。
5.汉字地址码

汉字地址码是在一个汉字系统中,某一汉字字型信息
存放在汉字库中的逻辑地址的编码。
相对于GB2312中16*16点阵字库,地址码和汉字码之 间的关系:
地址码=[(内码第一字节—A1H)×94+(内码第二字节)] ×32
6.汉字区位码
汉字区位码既是一种输入码,也是汉字交换码的另一 种表示形式。
作系统厂商若要根据各个国家和地区使用不同语言文字的
人开发不同的操作系统,在成本、系统维护与升级等方面
的开销太大。为此,微软公司在开发MS-DOS和
Windows3.1的各种产品时,进一步将依赖于各具体平台
的各文种的字符集加以整理,并对各个具体的代码页都赋
予一个代号,称作“代码页ID”。
2.4汉字的排序
2.3 汉字代码体系
1.汉字交换码
汉字交换码是用于信息交换的汉字代码,也称汉字传 输码,在GB2312中用双字节表示。它用于汉字信息在计 算机之间的传输。与ASCII码不同,汉字的这种代码表示
一般不能直接用于信息处理。
2.汉字处理码
汉字处理码是用于信息处理的汉子代码,也称汉字内 码或汉字机内码。
第二章 汉字信息在计算机内部表示
主要内容: 英文字符在计算机内部的表示 中文信息在计算机中的表示 汉字代码体系 汉字的排序 汉字编码字符集
2.1 英文字符在计算机内部的表示
1.ASCII码
ASCII码(America Standard Codefor for Information Interchange)美国信息交换标准码,作 为数据传输的标准码。早期使用7 个位来表示英文字母、 数字0~9及其它符号,现在则使用8个位,最多可以给 256个字符(包括字母、数字、标点符号、控制字符及其他 符号)分配(或指定)数值。
若采用双字节的7位代码,则为了保持与ASCII系统的兼 容,通常采用高位置1的方法来区分汉字代码与ASCII代 码。若采用3字节的7位代码,则可以用一个字节作为汉字 代码,其余2个7位编码作为汉字代码。
参照ISO/IEC2022标准,中国大陆、中国台湾地区、日本 和韩国等在标准的框架下制定了相应的字符编码标准。
GL图形区用作ASCII码,GR图形字符区为其他一个西 方国家的语言文字编码。
0 1 2 3 4 5 6 7 8 9 ABCDE F
0 C0控制 1 字符区
GL图形字符区
C1控制 字符区
GR图形字符区
2
3
4
5
6
7
8
9
A
B
C
D
E
F
为了尽可能多地使得英文与其他西方语言文字系统兼 容,国际化组织在ISO8859的第1~10部分中定义了新增 128个码元的字符编码集。
01 2 3 4 5 6 7
ASCII码字符标准中用7位
0控 制
1
二进制数定义了128个字符, 2
字 符
其中94个为图形字符,32 3 区
图形字符区
个为控制字符,1个为空格 4
字符和一个Del键。
5
6
ASCII的编码空间如图所示, 7
图中把7位二进制数分为高 8
3位作为列号,低4位作为
9
行号,并用十六进制表示, A B
1.拼音序
按照拼音顺序对汉字进行排列。 为此首先要设计一张汉字与拼音的对照表,也要考虑到
汉字的内码在不同的汉字操作系统中的长度可以不同。 为了表示汉字的数量,同时考虑到汉字信息的存储和传输 效率等,通常中文操作系统用双字节长度表示汉字的内码, 并把每个字节的高位置1。这样系统中的ASCII码字符就 能够与汉字字符区分。
3.汉字输入码

汉字的输入码通常指汉字的键盘输入编码。根据汉字
使用国家和地区在计算机技术发展中,也制定了形式多样
的汉字编码字符集。其中最具有代表性的是ISO/IEC
2022标准。
该标准定义了7位代码和8位代码的空间及其代码空间 扩充技术。迄今为止,绝大多数计算机系统所采用的字符 集都是以此标准作为基础。
从ASCII码的扩展中我们可以得出,如果采用多个7位编 码,则除去控制字符区之外,可以获得94*94*94……个 编码空间。
相关文档
最新文档