汉字编码技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
笔画输入近年来受到了特别的重视,主要 是手机迅速普及所致。
笔画输入的优势在于简单,无需学习和记 忆。笔画输入的困难在于单字输入重码多、 词组输入效率低、句子输入则困难。
汉字编码的分类——流水码
将汉字按照一定顺序排列后,给每个汉字以 一个特定的顺序号,形成的汉字编码称为流 水码,也称无理码或顺序码。一个现成的顺 序就是汉字内码的排列顺序,区位码和内码 就是其中的两个实例。
20世纪90年代 萧条期
进入21世纪后 将是又一个发展期,数字编码方案将占主导
汉字编码中的几个概念(1)
字符集/字汇和词汇
字符集/字汇 多/少 词汇 多/少
特指某个编码方案编码词组的集合
码元
组成输入码的字符集合称为码元。 如拼音码的 码元是“a”-“z”中的任意一个字母;纵横码 的码元是“0”-“9”中的任意一个数字 。
汉字编码中的几个概念(2)
码长
输入码的长度称为码长。如输入码“123”的 码长为3
等长编码,如区位码等 不等长编码,如拼音码、纵横码等
单码和重码
一个编码可能对应多个汉字和词组,那么这 些汉字或词组称为重码。一个编码对应的汉字 和词组只有一个时,称该汉字和词组为单码。
汉字编码中的几个概念(3)
绝大多数根据汉字字形的编码方案基本上是 基于部件的编码,如“五笔”、“表形码” 等。
基于部件的汉字编码需要解决的问题是:汉 字如何拆分?
用汉字部件编码的最大问题是部件的规范问 题。
汉字键盘编码的依据——笔画/笔顺
笔画/笔顺编码是选取汉字的基本笔画(如 五种或八种),把笔画定义到汉字的数字 键和字母键上,然后依笔顺或汉字的笔顺 来给汉字编码。
信息量应按符号的可能性(数学上叫概率大小)来计算, 它是概率的负对数。平均信息量就是它们的加权平均 H=-∑pi㏒pi(1≤i≤n)
文字信号的信息量H是信号个数n的以2为底的对数: H= ㏒n/ ㏒2。英文有 26个字母,每个字母的信息量H=㏒26/ ㏒2=4.700。
各种语言的字母的信息量
所有的计算机用汉字的发音都在这些音节范围内。 这就是汉字同音字/词多的根本所在。如在GBK中, 拼音“yi”有个460多个对应的汉字。
同样也存在大量的同音词。这就造成重码多和输 入不方便。这是以音作为编码要素存在的主要问 题。
汉字键盘编码的依据——汉字部件
汉字的字形分为三级:笔画、汉字部件(如 偏旁部首)和整字。由笔画构成汉字部件, 由汉字部件构成整字。
其中,Pi为单个汉字在汉语文本中出现的概 率,-㏒(Pi)是第i个汉字出现时的信息量,- ∑㏒(Pi)是所有汉字在不考虑前后相关性时所 给出的全部信息量。H是该集合中的每个汉字 的平均信息量。
汉字的墒(3)——汉字墒的意义
平均信息量(信息熵)表示存储或表示该汉字字符集 所需要的二进制位数(中文约为9.65bit)。根据每个 汉字的平均熵,通过采用不等长编码可以提高汉字存 储和传输效率。
流水码的好处在于编码与汉字一一对应,绝 无重码。
缺点是编码无规律,记忆难度大,不易掌握。
汉字编码的分类——音码
音码是以汉字的发音为基础的一种汉字编码, 一般以《汉语拼音方案》为蓝本进行设计。
如区位码,它的字汇大小为6763,则编码效率 为6773/10000=67.73%。
汉字的墒(1)——信息量的概念
熵,在信息论里叫信息量。从控制论的角度来看,应叫不 确定性。
最简单的是只有两种可能性,非此即彼,我们以这种事物 的信息量为单位,叫1比特(bit)。如果可能性数目有2的 n次方(N=2n),那就是n比特,即信息量等于可能性数 目N的“以2为底的对数”:H=㏒2N=㏒N/㏒2。
法文 意大利文 西班牙文 英文 德文 罗马尼亚文 俄文 中文
3.98比特 4.00比特 4.01比特 4.03比特 4.10比特 4.12比特 4.35比特 9.65比特
Βιβλιοθήκη Baidu
汉字的墒(2)——汉字墒的概率分布
假设给定一个汉字字符集HZ,其中汉字数 为n,则该字符集的熵为 H=-∑Pi㏒Pi (1≤i≤n)
汉字键盘编码的依据——心理依据
从心理学角度来看,根据汉字音信息的汉字编码, 人在大脑中无需进行任何的思考,就可以输入汉 字,所以说是最为直接的输入方式。根据汉字形 信息的汉字编码,用户在输入时,大脑需要把语 言转换为字形,然后才能输入,所以说是一种间 接的输入方式。
汉字心理学和模糊心理学的研究表明,人认字时 上半部优于下半部,外围优于中间。
信息量(信息熵)与字的使用频度成反比。即频度下 降一半,其信息量增加1位。
对汉字编码而言,采用多于2个码元时,汉字的平均熵 也会下降。如: 当m=2时, Lmin (3,4) 当m=47时 Lmin (1.73,2.73)
不同领域,字的使用频度不同,因此,对大系统内的 汉字信息熵的意义不大。
从排列心理学角度来看,希望汉字的编码能尽量 唯一,并能尽量表达汉字的本身特征。
汉字键盘编码的依据——汉语拼音
汉语拼音的语言形式有三个要素:声母、韵母和 声调。三者构成一个音节。其中声母有21个,韵 母有35个。声调有五种:阴平、阳平、上声、去 声和轻声。声韵结合起来有417个基本音节,如 果考虑声调,总共有1330个左右的音节。
汉字编码的概念
从广义角度看
字典/词典编码方法,用于在字典和词典中的快速 定位 ,常见的方法:部首、笔画、拼音和四角号 码等
从狭义角度看
汉字键盘编码,用计算机键盘上的按键为汉字编 码
汉字编码的发展
20世纪70年代 起步阶段,拼音编码、五笔字形、自然码等,效率 较低
20世纪80年代中期 轰轰烈烈的“大跃进”式编码活动,但没有什么发 展
编码空间和编码效率 所有可能的输入码集合,称为编码空间。
编码空间的大小依赖于码元集合和码长。
如某个编码方案的码元共有K个,编码采用等 长码,长度为i,则编码空间大小为:C=Ki,
如区位码的编码空间大小为:C=104,即10000 个。
编码效率简单而言是指编码的字汇/词汇除以 编码空间的大小。
相关文档
最新文档