汉字是如何编码的PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉字是如何编码的
以奇渠
.
1
存储和单位
01100001
位(bit)存储信息的最小单位
8个位组成一个字节(Byte,缩写位B)
字节是存储信息的基本单位
1B=8bit 1KB=1024B 1MB=1024KB
1GB=1024MB 1TB=1024GB
存储一个汉字需要两个字节。由于汉字有一万多个,
常用的也有六千多个,所以编码采用两字节的低7位
国标码=2020H+区位码
例:“学”的区位码为4907D 国标. 码=3107H+2020H=5127H
3
区位码表
01-09 区为特殊符号。 10-15 区未有编码。 16-55 区为一级汉字,按拼音排序。 56-87 区为二级汉字,按部首/笔画排序。 88-94 区则未有编码。
.
4
汉字编码——汉字机内码
汉字机内码:计算机系统内部标识汉字的编码。一个汉字由两个字节组 成,为了与ASCII码区别,最高位均为1。
机内码=区位码+A0A0H
机内码=国标码+8080H
例:“学”字的区位码为:3107H 国标码为:5127H
机内码 =3107H+A0A0H=D1A7H =5127H+8080H=D1A7H
8080H=10000000 10000000
共14个二进制位来表示。一般汉字的编码方案要解
决4种编码问题。
.
2
汉字的编码——汉字交换码
汉字交换码主要是用作汉字信息交换的。以国家标准局1980年颁布的 《信息交换用汉字编码字符集基本集》(代号GB2312-80)规定汉字交 换码作为国家标准汉字编码,简称国标码。
国标GB2312-80规定,所有的国际汉字和符号组成一个94*94的矩阵。 在该矩阵中,每一行称为一个“区”,每一列称为一个“位”,这样就 形成了94个区号(01~94)和94个位号(01~94)的汉字字符集。国标 码中有6763个汉字和628个其他基本图形字符,共计7445个字符。其中 规定一级汉字3755个,二级汉字3008个,图形符号682个。一个汉字所 在的区号与位号简单地组合在一起就构成了该汉字的“区位码”。在汉 字区位码中,高两位为区号,低两位为位号。因此,区位码与汉字或图 形符号之间是一一对应的。一个汉字由两个字节代码表示。
.
5
汉字编码——汉字输入码
输入码(各种输入码是不同的)
如输入“学”;拼音输xue
键盘处理
交换码 国标码高位改1
国标码:双字节,高位为0 得到“学”的国标码:
01010001 00100111
机内码
wk.baidu.com
得到学的机内码:11010001 10100111
.
6
汉字编码——汉字字形码
汉字在显示和打印输出时,是以汉字字形信息表示的,即以点阵的方式形成汉字图形。汉 字字形码是指确定一个汉字字形点阵的代码(汉字字形码)。一般采用点阵字形表示字符。
通常汉字显示使用16×16点阵,而汉字打印可选用24×24点阵、32×32点阵、64×64点阵 等。汉字字形点阵中的每个点对应一个二进制位,1字节又等于8个二进制位,所以16×16 点阵字形的字要使用32个字节(16×16÷8字节=32字节)存储,64×64点阵的字形要使用 512个字节。
在16×16点阵字库中的每一个汉字以32个字节存放,存储一、二级汉字及符号共8836个, 需要282.5KB磁盘空间。而用户的文档假定有10万个汉字,却只需要200KB的磁盘空间, 这是因为用户文档中存储的只是每个汉字(符号)在汉字库中的地址(内码)
.
7
谢谢观看!
. 窗棂趣分享 8
目前普遍使用的汉字字型码是用点阵方式表示的,称为“点阵字模码”。所谓“点阵字模 码”,就是将汉字像图像一样置于网状方格上,每格是存储器中的一个位,16×16点阵是 在纵向16点、横向16点的网状方格上写一个汉字,有笔画的格对应1,无笔画的格对应0。 这种用点阵形式存储的汉字字型信息的集合称为汉字字模库,简称汉字字库。
相关文档
最新文档