汉字编码技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
各种语言的字母的信息量
法文 意大利文 西班牙文 英文 德文 罗马尼亚文 俄文 中文
3.98比特 4.00比特 4.01比特 4.03比特 4.10比特 4.12比特 4.35比特 9.65比特
汉字的墒(2)——汉字墒的概率分布
假设给定一个汉字字符集HZ,其中汉字数 为n,则该字符集的熵为 H=-∑Pi㏒Pi (1≤i≤n)
汉字编码中的几个概念(1)
字符集/字汇和词汇
字符集/字汇 多/少 词汇 多/少
特指某个编码方案编码词组的集合
码元
组成输入码的字符集合称为码元。 如拼音码的
码元是“a”-“z”中的任意一个字母;纵横码 的码元是“0”-“9”中的任意一个数字 。
汉字编码中的几个概念(2)
码长
输入码的长度称为码长。如输入码“123”的
其中,Pi为单个汉字在汉语文本中出现的概
率,-㏒(Pi)是第i个汉字出现时的信息量,- ∑㏒(Pi)是所有汉字在不考虑前后相关性时所 给出的全部信息量。H是该集合中的每个汉字 的平均信息量。
汉字的墒(3)——汉字墒的意义
平均信息量(信息熵)表示存储或表示该汉字字符集 所需要的二进制位数(中文约为9.65bit)。根据每个 汉字的平均熵,通过采用不等长编码可以提高汉字存 储和传输效率。 信息量(信息熵)与字的使用频度成反比。即频度下 降一半,其信息量增加1位。 对汉字编码而言,采用多于2个码元时,汉字的平均熵 也会下降。如: 当m=2时, Lmin (3,4) 当m=47时 Lmin (1.73,2.73) 不同领域,字的使用频度不同,因此,对大系统内的 汉字信息熵的意义不大。
汉字键盘编码的依据——汉字部件 汉字的字形分为三级:笔画、汉字部件(如 偏旁部首)和整字。由笔画构成汉字部件, 由汉字部件构成整字。 绝大多数根据汉字字形的编码方案基本上是 基于部件的编码,如“五笔”、“表形码” 等。 基于部件的汉字编码需要解决的问题是:汉 字如何拆分? 用汉字部件编码的最大问题是部件的规范问 题。
汉字编码的分类——流水码
将汉字按照一定顺序排列后,给每个汉字以 一个特定的顺序号,形成的汉字编码称为流 水码,也称无理码或顺序码。一个现成的顺 序就是汉字内码的排列顺序,区位码和内码 就是其中的两个实例。 流水码的好处在于编码与汉字一一对应,绝 无重码。 缺点是编码无规律,记忆难度大,不易掌握。
汉字编码的分类——音码
码长为3 等长编码,如区位码等 不等长编码,如拼音码、纵横码等
单码和重码
一个编码可能对应多个汉字和词组,那么这
些汉字或词组称为重码。一个编码对应的汉字 和词组只有一个时,称该汉字和词组为单码。
汉字编码中的几个概念(3)
编码空间和编码效率 所有可能的输入码集合,称为编码空间。
编码空间的大小依赖于码元集合和码长。
汉字键盘编码的依据——心理依据
从心理学角度来看,根据汉字音信息的汉字编码, 人在大脑中无需进行任何的思考,就可以输入汉 字,所以说是最为直接的输入方式。根据汉字形 信息的汉字编码,用户在输入时,大脑需要把语 言转换为字形,然后才能输入,所以说是一种间 接的输入方式。 汉字心理学和模糊心理学的研究表明,人认字时 上半部优于下半部,外围优于中间。 从排列心理学角度来看,希望汉字的编码能尽量 唯一,并能尽量表达汉字的本身特征。
熵,在信息论里叫信息量。从控制论的角度来看,应叫不 确定性。 最简单的是只有两种可能性,非此即彼,我们以这种事物 的信息量为单位,叫1比特(bit)。如果可能性数目有2的 n次方(N=2n),那就是n比特,即信息量等于可能性数 目N的“以2为底的对数”:H=㏒2N=㏒N/㏒2。 信息量应按符号的可能性(数学上叫概率大小)来计算, 它是概率的负对数。平均信息量就是它们的加权平均 H=-∑pi㏒pi(1≤i≤n) 文字信号的信息量H是信号个数n的以2为底的对数: H= ㏒n/ ㏒2。英文有 26个字母,每个字母的信息量H=㏒26/ ㏒2=4.700。
如某个编码方案的码元共有K个,编码采用等
长码,长度为i,则编码空间大小为:C=Ki, 如区位码的编码空间大小为:C=104,即10000 个。
编码效率简单而言是指编码的字汇/词汇除以
编码空间的大小。
如区位码,它的字汇大小为6763,则编码效率
为6773/10000=67.73%。
汉字的墒(1)——信息量的概念
汉字键盘编码的依据——汉语拼音
汉语拼音的语言形式有三个要素:声母、韵母和 声调。三者构成一个音节。其中声母有21个,韵 母有35个。声调有五种:阴平、阳平、上声、去 声和轻声。声韵结合起来有417个基本音节,如 果考虑声调,总共有1330个左右的音节。 所有的计算机用汉字的发音都在这些音节范围内。 这就是汉字同音字/词多的根本所在。如在GBK中, 拼音“yi”有个460多个对应的汉字。 同样也存在大量的同音词。这就造成重码多和输 入不方便。这是以音作为编码要素存在的主要问 题。
第三讲 汉字编码技术
苏州大学计算机科学与技术学院
计算机科学与技术学院
汉字编码的概念
从广义角度看
字典/词典编码方法,用于在字典和词典中的快速 定位 ,常见的方法:部首、笔画、拼音和四角号 码等
从狭义角度看
汉字键盘编码,用计算机键盘上的按键为汉字编 码
汉字编码的发展
Biblioteka Baidu
20世纪70年代 起步阶段,拼音编码、五笔字形、自然码等,效率 较低 20世纪80年代中期 轰轰烈烈的“大跃进”式编码活动,但没有什么发 展 20世纪90年代 萧条期 进入21世纪后 将是又一个发展期,数字编码方案将占主导
汉字键盘编码的依据——笔画/笔顺
笔画/笔顺编码是选取汉字的基本笔画(如 五种或八种),把笔画定义到汉字的数字 键和字母键上,然后依笔顺或汉字的笔顺 来给汉字编码。 笔画输入近年来受到了特别的重视,主要 是手机迅速普及所致。 笔画输入的优势在于简单,无需学习和记 忆。笔画输入的困难在于单字输入重码多、 词组输入效率低、句子输入则困难。