3. 计算机是如何处理汉字的?

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

国标码(5)
国标码的编码容量为94×94=8836 国标码字符集收录了6763个常用汉字 和各种符号682个,合计7445个。 其 中一级汉字3755个,是最常用的,在 编码表中按汉语拼音字母顺序排列, 同音字按起笔横、竖、撇、捺、折的 顺序;二级汉字3008个,按偏旁部首 的笔画顺序排列
7
机内码
9
机内码与国标码之间的转换
已知“啊”的国标码是3021H,求它的 机内码。 1、将国标码分成两个字节G1和G2 G1=30H G2=21H 2、代入公式,求出机内码的两个字节J1 和J2 J1=G1+80H=30H+80H=B0H J2=G2+80H=21H+80H=A1H 3、排列J1和J2,写出机内码 机内码=J1J2=B0A1H
10
其他方式的字符编码(略)
CJK统一汉字编码字符集 BIG5 GBK GB 18030/2000 ANSI Unicode
11
其他方式的字符编码(略)
CJK统一汉字编码字符集 BIG5 GBK GB 18030/2000 ANSI Unicode
12
CJK统一汉字编码字符集(略)
国家标准 GB13000.1。 有 65536个码位空间中,定义了几乎 所有国家的语言文字和符号。 其中从 4E00H 到 9FA5H 的连续区域 包含了 20902 个来自中国(包括中国 台湾)、日本、韩国的汉字,称为 CJK (Chinese Japanese Korean) 汉 字。 CJK 是《GB2312-80》、《BIG5》等字 符集的超集。
13
其他方式的字符编码(略)
CJK统一汉字编码字符集 BIG5 GBK GB 18030/2000 ANSI Unicode
14
BIG5 (略)
BIG5是中国台湾计算机界实行的汉字 编码字符集 包含了 420 个图形符号和 13070 个 汉字(不包含简化汉字)。
ቤተ መጻሕፍቲ ባይዱ
15
其他方式的字符编码(略)
CJK统一汉字编码字符集 BIG5 GBK GB 18030/2000 ANSI Unicode
44
点阵字库的最大缺点
不能放大,一旦放大后就会发现文字 边缘的锯齿(失真) 解决方法:
矢量字库
45
矢量字库
矢量字库保存的是对每一个汉字的描述信 息,比如一个笔划的起始、终止坐标,半 径、弧度等等。 在显示、打印这一类字库时
经过一系列的数学运算 可以被无限地放大
Windows使用的字库也为以上两类
在FONTS目录下 扩展名为FON,图标为红色的“A”——点阵字 库 扩展名为TTF,图标是两个“T”——矢量字库46
补充——如何造生僻字?
参考实验02文档
47
计算机汉字处理总结
(1)通过某种汉字输入法,由输入设备输入 汉字的外码(汉字输入码); (2)由汉字输入系统将汉字外码转换为内码 并存储、处理; (3)如果要进行汉字通信,将内码转换为汉 字交换码实现不同汉字系统之间的传输; (4)将汉字内码转换为相应汉字字形码; (5)通过输出设备把汉字字形码输出为汉字。
20
其他方式的字符编码(略)
CJK统一汉字编码字符集 BIG5 GBK GB 18030/2000 ANSI Unicode
21
ANSI编码方式(略)
ASCII字符集定义了128个字符,扩展后的 ASCII字符集定义了256个字符,后来每个 国家定义了自己的MBCS(多字节字符系统), 被统称为ANSI字符集。 ANSI编码方式与操作系统默认的编码方式 一致。 中文Windows记事本的ANSI编码方式实际上 采用的GBK编码(代码页936),英文Windows 记事本的ANSI编码方式实际上采用的Latin 1(代码页1252)编码。
键盘输入方式 非键盘输入方式
28
键盘输入方式
音码 形码 音形码(形音码) 顺序码(流水码)
29
音码
按汉语拼音方案对汉字进行编码。 优点
简单易学
缺点
重码较多 输入速度较慢
典型编码:全拼、双拼等
30
形码
将汉字分解为一些笔画、部首或字根 进行编码,再由笔画、部首或字根组 成单个汉字 优点
重码率低 输入速度较快
中国传媒大学计算机与网络中心
3. 计算机是如何处理汉字的
1
其它系统的汉字编码
汉字 信息
输 入
交换码 (国标码)
汉字 信息
显 示 打 印
外码 (输入码) 信息
机内码
计算机内部
字形码
2
汉字编码
“汉字的表示”问题
机外表示 机内表示
3
几种常用的汉字编码
国标码 机内码 汉字输入码(外码) 汉字字形码
4
国标码(1)
22
其他方式的字符编码(略)
CJK统一汉字编码字符集 BIG5 GBK GB 18030/2000 ANSI Unicode
23
Unicode (略)
由统一编码组织于 20世纪90年代初制 定的一种16位字符编码标准 双字节码 理论编码空间65536个 39000个字符编码已经做出了规定 其中21000个编码用于表示汉字 Unicode编码中尚未定义的编码留待以 后使用
结论
每个字节相差20H
36
区位码与国标码之间转换关系
假设国标码的两个字节分别是G1,G2; 区位码的前后两组数字分别是Q1,Q2 ① 国标码——区位码 Q1=G1-20H Q2=G2-20H ② 区位码——国标码 请同学们自己总结
37
区位码与国标码之间转换关系
已知“啊”的国标码是3021H,求它的区位 码 首先,将国标码分成两个字节G1和G2 G1=30H G2=21H 代入公式,求出区位码的前后两组数字Q1 和Q2,并将它们分别转换为十进制数字 Q1=G1-20H=30H-20H=10H=16 Q2=G2-20H=21H-20H=01H=01 注意:要写成两位的形式 排列Q1和Q2,写出区位码 38 区位码=Q1Q2=1601
24
Unicode如何在网络上传输 (略)
UTF
Unicode transformation format
根据最小编码单位不同分为
1字节——UTF8 2字节——UTF16 4字节——UTF32
25
Unicode如何在网络上传输略)
给定一个字节流,如何判断是那种编码
1. 各种UTF编码之间如何区分?
缺点
要记的字根较多,所以比较难学 学会后,长时间不用,容易忘
典型编码:五笔字型
31
音形码(形音码)
采用音形结合方式进行编码 以音为主,形为辅的,叫做音形码 以形为主,以音为辅的,叫做形音码 特点
难易程度,重码率,输入速度与音码、形 码比较起来,比较适中 现在已经不流行
32
顺序码(流水码)
根据汉字在国标码中出现的顺序对汉 字进行编码,每个汉字对应一个唯一 的序号。 优点
GB18030的全称是GB18030-2000《信息 交换用汉字编码字符集基本集的扩 充》,是我国政府于2000年3月17日发 布的新的汉字编码国家标准 共收录27484个汉字,技术上是GBK的 超集,并与其兼容,最终将结束GBK历 史使命
19
GB 18030/2000 (略)
编码方法: GB 18030标准采用单字节、双字节和 四字节三种方式对字符编码。
字节数 编码形式 00 00 FE FF UTF-32, big-endian FF FE 00 00 UTF-32, littleendian FE FF UTF-16, big-endian FF FE UTF-16, littleendian EF BB BF UTF-8
26
big-endian与little-endian (略)
把两个字节国标码(二进制)的最高 位置“1”,即可得到该汉字的“机内 码” 机内码是用来存储和处理汉字时用到 的编码
8
机内码与国标码之间的关系
假设国标码的两个字节分别是G1,G2; 机内码的两个字节分别是J1,J2 ① 国标码——机内码 J1=G1+80H J2=G2+80H ② 机内码——国标码 G1=J1-80H G2=J2-80H 为什么这样转换?
16
GBK (略)
汉字扩充内码规范 一共收录了20902个汉字
GB2312-80的6763个常用汉字 中国台湾BIG5码(繁体中文)13000多个 汉字。
17
其他方式的字符编码(略)
CJK统一汉字编码字符集 BIG5 GBK GB 18030/2000 ANSI Unicode
18
GB 18030/2000 (略)
1980年,我国国家标准总局颁布了 《信息交换用汉字编码字符集——基 本集》(GB2312-80) 又称汉字交换码(汉字系统之间或与 通信系统之间进行信息传输时,对每 个汉字所规定的统一编码)的国家标 准,因此又称“国标码”
5
国标码(2)
国标码是一种双字节码 即表示一个汉字的编码由两个字节组 成
6
网上传递信息时有一个很重要的问题
对于数据高低位的解读方式
little-endian
低位先发送的方法 Intel架构
big-endian
高位先发送的方式
如何判断是LE还是BE?
在文本流的开始时向对方发送一个标志符
27
汉字输入码(外码)
为了将汉字输入计算机而编制的代码, 又称为外码 该码直接与汉字输入法相关,即每种 汉字输入法对应一种外码,因此,通 常情况下一个汉字的外码不唯一 分类
48
其它系统的汉字编码
汉字 信息
输 入
交换码 (国标码)
汉字 信息
显 示 打 印
外码 (输入码) 信息
机内码
字形码
49
34
区位码(2)
区位码与国标码是一种一一对应关系 注意
区位码的区号和位号都是两位的,即便实 际上一位数,也要写成两位数(一位数前 面补“0”) 例如,如果某个汉字的位号是3,我们在 书写时,也要写成“03”
35
区位码与国标码之间转换关系
区位码
1 94 = = 01H 5EH
国标码
21H对应区码或位码的1,即01H 7EH对应区码或位码的94,即5EH
无重码
缺点
最难记
典型编码:区位码
33
区位码(1)
国标码是以十六进制的形式来表示,共有两 个字节,高低字节的取值范围都是从21H到 7EH,共94种取值 用十进制的从1到94来表示这94种状态,就 形成了区位码。 区位码共四位十进制数字,前两位数字对应 国标码的高字节,取值为1~94,我们称之为 “区号(区码)”;后两位数字对应国标码 的低字节,取值为1~94,我们称之为“位号 (位码)”
总结:
1、区位码<国标码<机内码 2、国标码的高位、低位=区位码的高 位、低位各加32 (10) 3、机内码的高位、低位=国标码的高 位、低位各加128 (10)
39
非键盘输入方式
笔 语音 扫描 „„
40
汉字字形码(1)
汉字在屏幕上显示或在打印机上输出时, 为了能被人们理解和接受,必须以汉字 字形输出,这种编码称为汉字字形码。 汉字字形一般是以点阵方式表示汉字的
41
汉字字形码(2)
用点阵方式表示汉字,即每个汉字分解 成若干点,一个点对应一位(bit)。 点阵中的每个点可以有明、暗两种状态, 如果该处有笔划,则为亮,否则为暗
42
行序为主序 16×16 32字节 第一行
F800
第二行
8BFE
以列为主序? 还有其他规 模的字形
43
汉字点阵占存储空间计算
在100个汉字存储在32 ×32 的点阵中, 所需的存储空间是多少KB? 解:32*32/8=128 Byte 128*100/1024=12.5KB
相关文档
最新文档