汉字编码原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章汉字编码原理
第三节 汉字编码原理
一、什么是汉字编码
• • • • • • 汉字外码:汉字的字母数字代码 计算机人机界面:键盘 字母 数字 控制符号 功能键位
二、汉字编码的历史发展
• 广义的汉字编码是从汉字字书的编撰算起的。 因为字典的编撰,离不开字的排序和检索。 • 字典是供人来 * 查阅,编码输入法是让机器到 字库中去查找。都是按照某种规则排列和检索 汉字*的。 • 可以说,早期的汉字排字检字法就是汉字编码 的早期形式。比如, • 笔画部首法、四角号码法、拼音查字法、笔形 查字法等。
• 十个数字如果转换为二进制表示,则只 需四位二进制单位。这样,用“嘀 —— 嗒” 两种状态就可以传输汉字了。 • 电报码的特点是“字”-“码”一一对 应,没有重码。 • 缺点是难以记忆,非经过专门训练无法 使用。
三、编码原理
• 1、确定编码对象 • 汉字的总字数有6万多,现代汉语常用的也有 1万左右。《信息交换用汉字编码字符集基本 集》根据各种统计数据确定收入汉字6763 个。这些汉字就是一个编码对象的数量级。 • “大字符集” 包括大陆、台湾、日本、韩国所 使用的全部汉字的集合。有20902字。 • 数量不同,有关参数也不同。
2、确定码元类型和数量
• 码元是用来作为汉字代码的元素。例如, • 电报码的码元就是0-9这十个阿拉伯数字。 • 码元的种类和数量与编码容量、以及码长、重 码数等指标直接相关。 • 比如电报码,采用十个数目字作码元,四位码 长的编码容量至多10000个汉字,从00 00到9999。超过1万字就是出现重码, 否则就必须增加码长。
什么是理想的编码
• 1、规则简单。 • 一般具有中等文化水平的人不需要经 过专门培训就可以通过“自学”完全掌 握。 • 如果能够利用人的常识和知识,如果这 种常识和知识中涉及或包括了关于汉字 的基本知识, • 编码规则应当简化到不需要特殊的规则 的地步。
2、码元数量少
• 一般不超过36个,即26个字母外加 10个数字键。最好只使用26个字母 键。 • 这样,对于人来说记忆量减少,对于机 器来说,在键盘管理方面较好处理。
7、服务功能
• 系统能提供方便周到的自学检索服务功 能。例如, • 对规则的训练指导、查询疑难字,容错 处理、允许模糊输入等等。
8、具有广泛的适应性
• 适合不同年龄层次、不同地域、不同文 化背景的人学习使用, • 同时,又能适应各种类型的输入,比如 • “照打”、“想打”、“听打”、“盲 打”等。
3、码长短
• 每个汉字的代码不超过四码。如果采用 简码和不等长码处理的话, • 平均码长应当在3码以下。
Baidu Nhomakorabea
4、编码容量具有可扩展性
• 汉字信息处理除了《基本集》的676 3个汉字外,随着实际应用的发展,不 可避免地出现繁体汉字的问题以及大字 符集的问题。 • 理想的汉字编码应当在不增加或少增加 规则的基础上,就能够使编码容量扩展 到繁体汉字或更大的范围。
第四节汉字编码类型
1、流水码
• 流水码的特点是: • ①码元只有10个阿拉伯数字; • ②一般多为等长四码,有效数字不足四 位的在前面加零补足四位; • ③字、码一一对应,没有重码; • ④字、码之间没有理据性,就是没经过 专门训练不能做到“见字识码”;
2、拼音码
• 是以汉字的读音属性为编码依据,采用 键盘上的拉丁字母做为码元的编码方法。 又分为 • “全拼音码”、 • “简化拼音码”、 • “双拼音码”三种。 • 一般不加声调。
4、编制码表
• 所谓码表就是“字”-“码”对照表。 • 按照确定的编码规则将《基本集》中的 全部汉字逐个给出正确的代码,形成一 个字码对照表。
5、编制软件、上机实现
• 这部分是软件人员的工作。软件人员根 据编码规则和码表, • 设计一个查字管理程序,经过调试,准 确无误,就可以投入使用。 • 至此,一个汉字编码系统就完成了从设 计到实现的整个过程。
四、汉字编码的技术参数指标
• 汉字编码是一个理论与实践性都很强的 课题,而最重要的是它的实践性,也即 在实际应用中的效果。 • 因为这是要解决汉字信息处理的第一个 “人机界面”,所以,几乎全部技术指 标都与“人”密切相关。
• 在“人服从机器”还是“机器服从人”这个问 题上,曾经有过一个认识过程。 • 开始为了使机器能够处理汉字,主要是从机器 出发的,重点考虑机器的特点和条件,较少考 虑人的特点和需要。 • 后来才将立脚点转移到“人”这方面来,将许 多困难都留给机器,使机器对人服务得友好、 周到,人的操作变得轻松、愉快。
• 一般的编码方案多采用26个英文字母 作码元, • 也有的在这个基础上再增加10个数目 字,使码元数增加到36个的方案, • 还有的把字母键盘区的其它功能键也利 用上的。 • 这种需要增加码元数的方案多数是形码 方案。
3、确定编码规则
• 理想的规则是“字码意义对应” 、规则简单, 好学易记,没有复杂的条件限制或特例情况。 • 实际上最难做到。 • 比如按形排序,同笔画数的字很多,同笔画的 字当中,起笔相同的也不少,甚至笔顺相同的 也有。究竟谁先谁后,难以给出一个标准。 • 按音排序也有个同音字的先后问题。同音、同 调、同笔画数的汉字再按什么条件排先后,都 是难题。 • 人为地增加许多规定,势必增加用户的学习量。
最早的汉字代码
• 1880年清政府创办电报局,由丹麦人设计 的汉字电报码。它的方法是将电报用的汉字按 照笔画顺序由少到多排列成一个字表。 • 使用的字数不到一万,就以字的顺序号作该字 的代码。第一个字的代码就是0001,第五 个字的代码就是0005,第385个字的代 码就是0385。 • 电报码一直使用到今天,经过不断的修订完善 成为《标准电码本》。
5、采用词语编码
• 应具有足够的词汇编码容量。词语码最 长不超过4码。 • 应该给用户提供足够的词库扩展空间和 扩展手段,使用户能够方便自如地根据 自己的需要增加用户词汇。
6、重码率低
• 一般用户可以实现“盲打”,即不用看 键盘(有一定的键盘基础的情况下)和 提示行就能够输入汉字。 • 只有能实现盲打,才能提高输入速度。
第三节 汉字编码原理
一、什么是汉字编码
• • • • • • 汉字外码:汉字的字母数字代码 计算机人机界面:键盘 字母 数字 控制符号 功能键位
二、汉字编码的历史发展
• 广义的汉字编码是从汉字字书的编撰算起的。 因为字典的编撰,离不开字的排序和检索。 • 字典是供人来 * 查阅,编码输入法是让机器到 字库中去查找。都是按照某种规则排列和检索 汉字*的。 • 可以说,早期的汉字排字检字法就是汉字编码 的早期形式。比如, • 笔画部首法、四角号码法、拼音查字法、笔形 查字法等。
• 十个数字如果转换为二进制表示,则只 需四位二进制单位。这样,用“嘀 —— 嗒” 两种状态就可以传输汉字了。 • 电报码的特点是“字”-“码”一一对 应,没有重码。 • 缺点是难以记忆,非经过专门训练无法 使用。
三、编码原理
• 1、确定编码对象 • 汉字的总字数有6万多,现代汉语常用的也有 1万左右。《信息交换用汉字编码字符集基本 集》根据各种统计数据确定收入汉字6763 个。这些汉字就是一个编码对象的数量级。 • “大字符集” 包括大陆、台湾、日本、韩国所 使用的全部汉字的集合。有20902字。 • 数量不同,有关参数也不同。
2、确定码元类型和数量
• 码元是用来作为汉字代码的元素。例如, • 电报码的码元就是0-9这十个阿拉伯数字。 • 码元的种类和数量与编码容量、以及码长、重 码数等指标直接相关。 • 比如电报码,采用十个数目字作码元,四位码 长的编码容量至多10000个汉字,从00 00到9999。超过1万字就是出现重码, 否则就必须增加码长。
什么是理想的编码
• 1、规则简单。 • 一般具有中等文化水平的人不需要经 过专门培训就可以通过“自学”完全掌 握。 • 如果能够利用人的常识和知识,如果这 种常识和知识中涉及或包括了关于汉字 的基本知识, • 编码规则应当简化到不需要特殊的规则 的地步。
2、码元数量少
• 一般不超过36个,即26个字母外加 10个数字键。最好只使用26个字母 键。 • 这样,对于人来说记忆量减少,对于机 器来说,在键盘管理方面较好处理。
7、服务功能
• 系统能提供方便周到的自学检索服务功 能。例如, • 对规则的训练指导、查询疑难字,容错 处理、允许模糊输入等等。
8、具有广泛的适应性
• 适合不同年龄层次、不同地域、不同文 化背景的人学习使用, • 同时,又能适应各种类型的输入,比如 • “照打”、“想打”、“听打”、“盲 打”等。
3、码长短
• 每个汉字的代码不超过四码。如果采用 简码和不等长码处理的话, • 平均码长应当在3码以下。
Baidu Nhomakorabea
4、编码容量具有可扩展性
• 汉字信息处理除了《基本集》的676 3个汉字外,随着实际应用的发展,不 可避免地出现繁体汉字的问题以及大字 符集的问题。 • 理想的汉字编码应当在不增加或少增加 规则的基础上,就能够使编码容量扩展 到繁体汉字或更大的范围。
第四节汉字编码类型
1、流水码
• 流水码的特点是: • ①码元只有10个阿拉伯数字; • ②一般多为等长四码,有效数字不足四 位的在前面加零补足四位; • ③字、码一一对应,没有重码; • ④字、码之间没有理据性,就是没经过 专门训练不能做到“见字识码”;
2、拼音码
• 是以汉字的读音属性为编码依据,采用 键盘上的拉丁字母做为码元的编码方法。 又分为 • “全拼音码”、 • “简化拼音码”、 • “双拼音码”三种。 • 一般不加声调。
4、编制码表
• 所谓码表就是“字”-“码”对照表。 • 按照确定的编码规则将《基本集》中的 全部汉字逐个给出正确的代码,形成一 个字码对照表。
5、编制软件、上机实现
• 这部分是软件人员的工作。软件人员根 据编码规则和码表, • 设计一个查字管理程序,经过调试,准 确无误,就可以投入使用。 • 至此,一个汉字编码系统就完成了从设 计到实现的整个过程。
四、汉字编码的技术参数指标
• 汉字编码是一个理论与实践性都很强的 课题,而最重要的是它的实践性,也即 在实际应用中的效果。 • 因为这是要解决汉字信息处理的第一个 “人机界面”,所以,几乎全部技术指 标都与“人”密切相关。
• 在“人服从机器”还是“机器服从人”这个问 题上,曾经有过一个认识过程。 • 开始为了使机器能够处理汉字,主要是从机器 出发的,重点考虑机器的特点和条件,较少考 虑人的特点和需要。 • 后来才将立脚点转移到“人”这方面来,将许 多困难都留给机器,使机器对人服务得友好、 周到,人的操作变得轻松、愉快。
• 一般的编码方案多采用26个英文字母 作码元, • 也有的在这个基础上再增加10个数目 字,使码元数增加到36个的方案, • 还有的把字母键盘区的其它功能键也利 用上的。 • 这种需要增加码元数的方案多数是形码 方案。
3、确定编码规则
• 理想的规则是“字码意义对应” 、规则简单, 好学易记,没有复杂的条件限制或特例情况。 • 实际上最难做到。 • 比如按形排序,同笔画数的字很多,同笔画的 字当中,起笔相同的也不少,甚至笔顺相同的 也有。究竟谁先谁后,难以给出一个标准。 • 按音排序也有个同音字的先后问题。同音、同 调、同笔画数的汉字再按什么条件排先后,都 是难题。 • 人为地增加许多规定,势必增加用户的学习量。
最早的汉字代码
• 1880年清政府创办电报局,由丹麦人设计 的汉字电报码。它的方法是将电报用的汉字按 照笔画顺序由少到多排列成一个字表。 • 使用的字数不到一万,就以字的顺序号作该字 的代码。第一个字的代码就是0001,第五 个字的代码就是0005,第385个字的代 码就是0385。 • 电报码一直使用到今天,经过不断的修订完善 成为《标准电码本》。
5、采用词语编码
• 应具有足够的词汇编码容量。词语码最 长不超过4码。 • 应该给用户提供足够的词库扩展空间和 扩展手段,使用户能够方便自如地根据 自己的需要增加用户词汇。
6、重码率低
• 一般用户可以实现“盲打”,即不用看 键盘(有一定的键盘基础的情况下)和 提示行就能够输入汉字。 • 只有能实现盲打,才能提高输入速度。