汉字编码
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
据,然后很据字形数据显示和打印出汉字。
19
wenku.baidu.com
4.汉字字形码 点阵式:
20
4.汉字字形码 矢量式:
21
5.汉字地址码 ■ 是指汉字库中存储汉字字形信息的逻辑地址码。 需要向输出设备输出汉字时,必须通过地址码对 汉字库进行访问。
22
6.其他汉字内码 1)GBK码(扩充汉字内码规范):多达2万多简、繁汉字。 2)UCS码:包含字母、音节文字,中日韩的表意文字。
3)Unicode编码:65536个字符编码,主要用来解决多语言
的计算问题。 4)BIG5码:香港、台湾地区使用的一种繁体汉字编码。
23
作业
P38 选择题
14、15、16
24
重点:汉字编码类型及编码方式 难点:ASCII码
2
字符
西文字符
中文字符
字母、数字、 各种符号
3
1.西文字符的编码 ■ 计算机中的数据都是用二进制编码表示的,用以表示
字符的二进制编码称为字符编码。
■ 而,计算机最常用的就是ASCII。 ■ 美国信息交换标准码ASCII,7位码(128个字符) 扩展码ASCII,8位码(256个字符) 7位——国际通用
输入 输入码 国标码 机内码 地址码 字形码 输出
12
3.汉字的处理过程 ■ 汉字输入码(外码):为将汉字输入计算机而编制的 代码。
■ 一个好的输入编码:
编码短,重码少,好学好记
13
3.汉字的处理过程 ■ 汉字内码:是为在计算机内部对汉字进行存储、处理 的汉字编码。
■ 不同汉字系统使用的机内码可能不同。汉字内码的形
■ 区位码是一个4位十进制数
■ 国标码是一个4位十六进制数。
10
2.汉字的编码——区位码、国标码转换 汉字国标码=区位码+(2020)H 区号和位号: 转换为16进制数,分别加上(20)H
11
3.汉字的处理过程
由于汉字的特殊性(象形文字),汉字的处理过程
必须同时需要多种编码才能完成。
4
1.西文字符的编码 ASCII码对128个字符进行了编码,这其中包括大小写英文 字母、阿拉伯数字、标点符号以及控制字符等特殊字符。
ASCII码中共有34个非图形字符(控制字符),94个可打印
字符(图形字符)。 读表1-6可知,每个符号的ASCII编码为:高3位+低4位。
5
1.西文字符的编码 “a”字符编码为1100001(97),bcde…依次增加
“A”字符编码为1000001(65),BCDE…依次增加
“0”数字字符编码为0110000(48),1234依次增加 ■计 算 机 内 部 用 一 个 字 节 ( 8 个 二 进 制 位 ) 存 放 一 个 7 位 ASCII码,最高位置为0。
重点掌握字符的推算!!!
6
1.西文字符的编码 ASCII码中存在以下两个规律: (1)大小写英文字母和阿拉伯数字都是按其固有
■ 国标码
■ 最高位由0变1,即加8080H ■ 汉字内码
16
4.汉字字形码 ■ 又称汉字字模,用于汉字在显示屏或打印机输出。
■ 两种表示方式:点阵和矢量。
点阵规模越大,字形越清晰美观,所占存储空间也愈大。 矢量表示方式存储的是描述汉字字形的轮廓特征。
17
4.汉字字形码
点阵:有点的用“1”表示,没点的用“0”表示。一位 (1 bit)可以存储一个点的信息。 显示一个汉字需要多少个点,就需要有多少位(bit )的
顺序排列在表中的。
(2)在表中,阿拉伯数字排在大写英文字母前, 而大写英文字母排在小写英文字母前。
7
1.西文字符的编码(非图形字符/控制字符) SP(空格)的编码是 0100000
CR(回车)的编码是 0001101
DEL(删除)的编码是 1111111 BS(退格)的编码是 0001000
8
存储空间来存储它。
例:存储一个16×16点阵的汉字字形码,需要的存储空间 为:16×16 bit=256 bit,即256÷8=32B(字节)
18
4.汉字字形码
汉字的点阵字形编码,仅用于构造汉字的字库 字模点阵只能用来构成“字库”,而不能用于机内存储。
输出汉字时,先根据汉字内码从字库中提取汉字的字形数
式有多种。 ■ 对应国标码,一个汉字的内码用2个字节存储,每个汉 字的最高位置“1”作为汉字内码的标识。
14
3.汉字的处理过程 国标码 汉字内码
0 0
1位
1
7位 7位
1位
1
7位 7位
1位
1位
汉字内码=汉字国标码+(8080)H
15
3.汉字的处理过程 ■ 西文字符 7位ASCII 码 ■ 区位码分别加20H
2.汉字的编码——国标码
■ 汉字分成两级:
一级汉字3755个,按汉语拼音字母的次序排列;
二级汉字3008个,按偏旁部首排列。
■ 由于一个字节不足以表示6763个汉字,所以一个国标 码用两个字节来表示一个汉字,每个字节最高位为0。
0 0
1位
7位
1位
7位
9
2.汉字的编码——区位码 ■ GB2312-80将汉字分为94行、94列,代码表分为 94个区(行)、94个位(列)。
19
wenku.baidu.com
4.汉字字形码 点阵式:
20
4.汉字字形码 矢量式:
21
5.汉字地址码 ■ 是指汉字库中存储汉字字形信息的逻辑地址码。 需要向输出设备输出汉字时,必须通过地址码对 汉字库进行访问。
22
6.其他汉字内码 1)GBK码(扩充汉字内码规范):多达2万多简、繁汉字。 2)UCS码:包含字母、音节文字,中日韩的表意文字。
3)Unicode编码:65536个字符编码,主要用来解决多语言
的计算问题。 4)BIG5码:香港、台湾地区使用的一种繁体汉字编码。
23
作业
P38 选择题
14、15、16
24
重点:汉字编码类型及编码方式 难点:ASCII码
2
字符
西文字符
中文字符
字母、数字、 各种符号
3
1.西文字符的编码 ■ 计算机中的数据都是用二进制编码表示的,用以表示
字符的二进制编码称为字符编码。
■ 而,计算机最常用的就是ASCII。 ■ 美国信息交换标准码ASCII,7位码(128个字符) 扩展码ASCII,8位码(256个字符) 7位——国际通用
输入 输入码 国标码 机内码 地址码 字形码 输出
12
3.汉字的处理过程 ■ 汉字输入码(外码):为将汉字输入计算机而编制的 代码。
■ 一个好的输入编码:
编码短,重码少,好学好记
13
3.汉字的处理过程 ■ 汉字内码:是为在计算机内部对汉字进行存储、处理 的汉字编码。
■ 不同汉字系统使用的机内码可能不同。汉字内码的形
■ 区位码是一个4位十进制数
■ 国标码是一个4位十六进制数。
10
2.汉字的编码——区位码、国标码转换 汉字国标码=区位码+(2020)H 区号和位号: 转换为16进制数,分别加上(20)H
11
3.汉字的处理过程
由于汉字的特殊性(象形文字),汉字的处理过程
必须同时需要多种编码才能完成。
4
1.西文字符的编码 ASCII码对128个字符进行了编码,这其中包括大小写英文 字母、阿拉伯数字、标点符号以及控制字符等特殊字符。
ASCII码中共有34个非图形字符(控制字符),94个可打印
字符(图形字符)。 读表1-6可知,每个符号的ASCII编码为:高3位+低4位。
5
1.西文字符的编码 “a”字符编码为1100001(97),bcde…依次增加
“A”字符编码为1000001(65),BCDE…依次增加
“0”数字字符编码为0110000(48),1234依次增加 ■计 算 机 内 部 用 一 个 字 节 ( 8 个 二 进 制 位 ) 存 放 一 个 7 位 ASCII码,最高位置为0。
重点掌握字符的推算!!!
6
1.西文字符的编码 ASCII码中存在以下两个规律: (1)大小写英文字母和阿拉伯数字都是按其固有
■ 国标码
■ 最高位由0变1,即加8080H ■ 汉字内码
16
4.汉字字形码 ■ 又称汉字字模,用于汉字在显示屏或打印机输出。
■ 两种表示方式:点阵和矢量。
点阵规模越大,字形越清晰美观,所占存储空间也愈大。 矢量表示方式存储的是描述汉字字形的轮廓特征。
17
4.汉字字形码
点阵:有点的用“1”表示,没点的用“0”表示。一位 (1 bit)可以存储一个点的信息。 显示一个汉字需要多少个点,就需要有多少位(bit )的
顺序排列在表中的。
(2)在表中,阿拉伯数字排在大写英文字母前, 而大写英文字母排在小写英文字母前。
7
1.西文字符的编码(非图形字符/控制字符) SP(空格)的编码是 0100000
CR(回车)的编码是 0001101
DEL(删除)的编码是 1111111 BS(退格)的编码是 0001000
8
存储空间来存储它。
例:存储一个16×16点阵的汉字字形码,需要的存储空间 为:16×16 bit=256 bit,即256÷8=32B(字节)
18
4.汉字字形码
汉字的点阵字形编码,仅用于构造汉字的字库 字模点阵只能用来构成“字库”,而不能用于机内存储。
输出汉字时,先根据汉字内码从字库中提取汉字的字形数
式有多种。 ■ 对应国标码,一个汉字的内码用2个字节存储,每个汉 字的最高位置“1”作为汉字内码的标识。
14
3.汉字的处理过程 国标码 汉字内码
0 0
1位
1
7位 7位
1位
1
7位 7位
1位
1位
汉字内码=汉字国标码+(8080)H
15
3.汉字的处理过程 ■ 西文字符 7位ASCII 码 ■ 区位码分别加20H
2.汉字的编码——国标码
■ 汉字分成两级:
一级汉字3755个,按汉语拼音字母的次序排列;
二级汉字3008个,按偏旁部首排列。
■ 由于一个字节不足以表示6763个汉字,所以一个国标 码用两个字节来表示一个汉字,每个字节最高位为0。
0 0
1位
7位
1位
7位
9
2.汉字的编码——区位码 ■ GB2312-80将汉字分为94行、94列,代码表分为 94个区(行)、94个位(列)。