汉字是如何编码的
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉字编码——汉字输入码
输入码(各种输入码是不同的)
如输入“学”;拼音输xue 键盘处理 国标码:双字节,高位为0 得到“学”的国标码: 01010001 00100111
交换码 国标码高位改1
机内码
得到学的机内码:11010001 10100111
汉字编码——汉字字形码
汉字在显示和打印输出时,是以汉字字形信息表示的,即以点阵的方式形成汉字图形。汉 字字形码是指确定一个汉字字形点阵的代码(汉字字形码)。一般采用点阵字形表示字符。 目前普遍使用的汉字字型码是用点阵方式表示的,称为“点阵字模码”。所谓“点阵字模 码”,就是将汉字像图像一样置于网状方格上,每格是存储器中的一个位,16×16点阵是 在纵向16点、横向16点的网状方格上写一个汉字,有笔画的格对应1,无笔画的格对应0。 这种用点阵形式存储的汉字字型信息的集合称为汉字字模库,简称汉字字库。 通常汉字显示使用16×16点阵,而汉字打印可选用24×24点阵、32×32点阵、64×64点 阵等。汉字字形点阵中的每个点对应一个二进制位,1字节又等于8个二进制位,所以 16×16点阵字形的字要使用32个字节(16×16÷8字节=32字节)存储,64×64点阵的字 形要使用512个字节。 在16×16点阵字库中的每一个汉字以32个字节存放,存储一、二级汉字及符号共8836个, 需要282.5KB磁盘空间。而用户的文档假定有10万个汉字,却只需要200KB的磁盘空间, 这是因为用户文档中存储的只是每个汉字(符号)在汉字库中的地址(内码)
汉字的编码——汉字交换码
汉字交换码主要是用作汉字信息交换的。以国家标准局1980年颁布的 《信息交换用汉字编码字符集基本集》(代号GB2312-80)规定汉字交 换码作为国家标准汉字编码,简称国标码。 国标GB2312-80规定,所有的国际汉字和符号组成一个94*94的矩阵。 在该矩阵中,每一行称为一个“区”,每一列称为一个“位”,这样就 形成了94个区号(01~94)和94个位号(01~94)的汉字字符集。国标 码中有6763个汉字和628个其他基本图形字符,共计7445个字符。其中 规定一级汉字3755个,二级汉字3008个,图形符号682个。一个汉字所 在的区号与位号简单地组合在一起就构成了该汉字的“区位码”。在汉 字区位码中,高两位为区号,低两位为位号。因此,区位码与汉字或图 形符号之间是一一对应的。一个汉字由两个字节代码表示。
汉字机内码:计算机系统内部标识汉字的编码。一个汉字由两个字节组 成,为了与ASCII码区别,最高位均为1。
机内码=区位码+A0A0H 机内码=国标码+8080H
例:“学”字的区位码为:3107H 国标码为:5127H 机内码 =3107H+A0A0H=D1A7H =5127H+8080H=D1A7H 8080H=10000000 10000000
汉字是如何编码的
以奇渠
存储和单位
0 1 1 0 0 0 0 1
位(bit)存储信息的最小单位
8个位组成一个字节(Byte,缩写位B) 字节Leabharlann Baidu存储信息的基本单位
1B=8bit 1KB=1024B 1MB=1024KB 1GB=1024MB 1TB=1024GB 存储一个汉字需要两个字节。由于汉字有一万多个, 常用的也有六千多个,所以编码采用两字节的低7位 共14个二进制位来表示。一般汉字的编码方案要解 决4种编码问题。
谢谢观看!
窗棂趣分享
国标码=2020H+区位码
例:“学”的区位码为4907D 国标码=3107H+2020H=5127H
区位码表
01-09 区为特殊符号。 10-15 区未有编码。 16-55 区为一级汉字,按拼音排序。 56-87 区为二级汉字,按部首/笔画排序。 88-94 区则未有编码。
汉字编码——汉字机内码