4汉字输入编码
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉字键盘编码的依据——汉字部件 汉字的字形分为三级:笔画、汉字部件(如 偏旁部首)和整字。由笔画构成汉字部件, 由汉字部件构成整字。 绝大多数根据汉字字形的编码方案基本上是 基于部件的编码,如“五笔”、“表形码” 等。 基于部件的汉字编码需要解决的问题是:汉 字如何拆分? 用汉字部件编码的最大问题是部件的规范问 题。
第四章 汉字编码技术
延边大学计算机科学与技术系
从广义角度看 字典/词典编码方法,用于在字典和词典中的快速定位 , 常见的方法:部首、笔画、拼音和四角号码等 从狭义角度看 汉字键盘编码,用计算机键盘上的按键为汉字编码
汉语词典常用检字方法之一,用最多5个阿 拉伯数字来对汉字进行归类。四角号码检字 法由王云五发明,他并在1925年5月著《号 汉字编码的概念 码检字法》由商务印书馆出版。四角号码检 字法用数字0到9表示一个汉字四角的十种笔 形,有时在最后增加一位补码。
各种语言的字母的信息量 法文 意大利文 西班牙文 英文 德文 罗马尼亚文 俄文 中文 3.98比特 4.00比特 4.01比特 4.03比特 4.10比特 4.12比特 4.35比特 9.65比特 27个字母 21+5个字母 27个字母 27个字母 26+4个字母 37个字母
汉字的墒(2)——汉字墒的概率分布 假设给定一个汉字字符集HZ,其中汉字数 为n,则该字符集的熵为 H=-∑Pi㏒Pi (1≤i≤n)
编码空间和编码效率 所有可能的输入码集合,称为编码空间。
编码空间的大小依赖于码元集合和码长。
如某个编码方案的码元共有K个,编码采用等 长码,长度为i,则编码空间大小为:C=Ki, 如区位码的编码空间大小为:C=104,即10000 个。
编码效率简单而言是指编码的字汇/词汇除以 编码空间的大小。
如区位码,它的字汇大小为6763,则编码效率 为6773/10000=67.73%。
四角号码取角方法
取角方法 (1)一笔可以分角取号。例:以 左边是一笔,上取为2,下取为7。 (2)一笔的上下两段和别笔构成两种笔形的,分两角取号。例:水 左边,上取1, 下取9。 (3)下角笔形偏在一角的,按实际位置取号,缺角作0。例:妒 右下角缺,取为 0。 (4)凡外围是“口、门(门)”的三类字,左右两下角改取里面的笔形。例:田 =6040。 (5)一个笔形,前角已经用过,后角作0。例:王 左上角为一横,取1,右上角 因为前面已经用过,所以取0。 附号 (1)四角号码字较多时,再取靠近右下角(第四角)上方一个笔形作“附号”, 如果这一笔形已被右上角用过,则作0。 (2)四角和“附号”相同的字,照各字所含横笔数目,顺序排列。 取角注意项 (1)角形有两单笔或一单笔一复笔的,不论高低,一律取最左或最右的笔形。 (2)有两复笔可取的,在上角取较高的的复笔,在下取较低的复笔。 (3)当中起笔的撇,下角有他笔的,取他笔作下角,但左边起笔的撇,取撇笔作 角。
汉字编码中的几个概念(2) 码长
输入码的长度称为码长。如输入码“123”的 码长为3 等长编码,如区位码等 不等长编码,如拼音码、纵横码等
单码和重码
一个编码可能对应多个汉字和词组,那么这 些汉字或词组称为重码。一个编码对应的汉字 和词组只有一个时,称该汉字和词组为单码。
汉字编码中的几个概念(3)
汉字编码的分类——音码
音码是以汉字的发音为基础的一种汉字编码, 一般以《汉语拼音方案》为蓝本进行设计。
如智能ABC、全拼、双拼、微软拼音、紫光拼音等。
音码的最大好处是简单易学。 音码的缺点:汉字同音字太多,检索同音字使 汉字输入速度大大减慢。 目前音码仍然是使用最广泛的编码,几乎96% 以上的用户采用音码。值得一提的是:音码本 身也在扬长避短,作了许多有益的改进。
汉字编码的分类——流水码 将汉字按照一定顺序排列后,给每个汉字以 一个特定的顺序号,形成的汉字编码称为流 水码,也称无理码或顺序码。一个现成的顺 序就是汉字内码的排列顺序,区位码和内码 就是其中的两个实例。 流水码的好处在于编码与汉字一一对应,绝 无重码。 缺点是编码无规律,记忆难度大,不易掌握。
键盘分区图
大 键 盘 区
功能按键区
小键盘区
大键盘编码 如果一种编码的码元集合为“a”-“z”这26 个字母或它的子集,那么我们称这种码元的 键盘映射方式为大键盘编码。如全拼和智能 ABC等拼音编码、五笔、郑码等等。 各种拼音编码一般都是采用大键盘编码。 形码也有采用大键盘的,如五笔就是一个典 型的例子。 一般采用大键盘的码长在3-4之间,平均码 长一般不能超过4。
汉字编码的发展
20世纪70年代 起步阶段,拼音编码、五笔字形、自然码等,效率 较低 20世纪80年代中期 轰轰烈烈的“大跃进”式编码活动,但没有什么发 展 20世纪90年代 萧条期 进入21世纪后 将是又一个发展期,数字编码方案将占主导
汉字编码中的几个概念(1) 字符集/字汇和词汇
字符集/字汇 多/少 词汇 多/少 特指某个编码方案编码词组的集合
汉字编码的分类——形码 形码是依汉字的字形来编码的。
如五笔字型、笔形码、大众码等。
形码有效地避免了按发音输入的缺陷,重 码率也相对较低,为实现汉字的盲打提供 了可能,成为专业人员的首选汉字输入码。 形码的部件多,分布广,记忆起来较难, 同时须经过较长时间的学习训练才能熟练 掌握。
汉字编码的分类——音形码/形音码 音形码/形音码兼顾汉字的读音、字形两方 面的特点进行混合编码。 音形码在兼有音码和形码二者之长的同时, 也兼有二者的一些弱点。 音形码在输入时既考虑汉字的读音又考虑 汉字的写法,人需要思考的时间也会增多, 造成输入时的瓶颈。
其中 Pi为单个汉字在汉语文本中出现的概率, -㏒(Pi)是第i个汉字出现时的信息量, -∑㏒(Pi)是所有汉字在不考虑前后相关性时 所给出的全部信息量。 H是该集合中的每个汉字的平均信息量。
汉字的墒(3)——汉字墒的意义
平均信息量(信息熵)表示存储或表示该汉字字符集 所需要的二进制位数(中文约为9.65bit)。根据每个 汉字的平均熵,通过采用不等长编码可以提高汉字存 储和传输效率。 信息量(信息熵)与字的使用频度成反比。即频度下 降一半,其信息量增加1位。 对汉字编码而言,采用多于2个码元时,汉字的平均熵 也会下降。如: 当m=2时, Lmin ∈(3,4) 当m=47时 Lmin ∈ (1.73,2.73) 不同领域,字的使用频度不同,因此,对大系统内的 汉字信息熵的意义不大。
汉字的墒(1)——信息量的概念
熵,在信息论里叫信息量。从控制论的角度来看,应叫不 确定性。 最简单的是只有两种可能性,非此即彼,我们以这种事物 的信息量为单位,叫1比特(bit)。如果可能性数目有2的 n次方(N=2n),那就是n比特,即信息量等于可能性数 目N的“以2为底的对数”:H=㏒2N=㏒N/㏒2。 信息量应按符号的可能性(数学上叫概率大小)来计算, 它是概率的负对数。平均信息量就是它们的加权平均 H=-∑pi㏒pi(1≤i≤n)( pi表示第i个字母的概率) 文字信号的信息量H是信号个数n的以2为底的对数: H= ㏒n/ ㏒2。英文有 26个字母,每个字母的信息量H=㏒26/ ㏒2=4.700。
海曼(Hyman)公式与汉字编码时间
海曼公式的一般形式为:T=a十bH(K)
其中,T为平均选择反应时间,K是选择信号 的个数,H(K)为每一个信号的平均信息量,a 和b是系数。
汉字编码时间的公式:T=a十blog2K十C
a为大脑发出指令冲动到肌肉动作所需时间, 即击键时间;blog2K理解为“选择时间与信 息量成正比”的适用条件下,选择等概率键 位所需时间的一种可采用的表达方式;C代表 一个码元的平均“编码时间”,反应了思维 时间和检索时间的长短。
汉字键盘编码的依据——笔画/笔顺 笔画/笔顺编码是选取汉字的基本笔画(如 五种或八种),把笔画定义到汉字的数字 键和字母键上,然后依笔顺或汉字的笔顺 来给汉字编码。 笔画输入近年来受到了特别的重视,主要 是手机迅速普及所致。 笔画输入的优势在于简单,无需学习和记 忆。笔画输入的困难在于单字输入重码多、 词组输入效率低、句子输入则困难。
汉字键盘编码的依据——心理依据
从心理学角度来看,根据汉字音信息的汉字编码, 人在大脑中无需进行任何的思考,就可以输入汉 字,所以说是最为直接的输入方式。根据汉字形 信息的汉字编码,用户在输入时,大脑需要把语 言转换为字形,然后才能输入,所以说是一种间 接的输入方式。 汉字心理学和模糊心理学的研究表明,人认字时 上半部优于下半部,外围优于中间。 从排列心理学角度来看,希望汉字的编码能尽量 唯一,并能尽量表达汉字的本身特征。
绿色拼形编码的键位分布图
小小键盘编码 小小键盘编码是指只用5个数字来编码,也 就是码元数只有5个。 小小键盘编码方案主要是应用在手机等数 码设备上,几乎所有的手机笔形编码均是 采用小小键盘编码。
Nokia 笔画输入法小小键盘图
数码键盘方案 所谓的汉字数码是指用“0”到“9”十个数字 对汉字的单字和词组进行编码,使得只用 小键盘就可以完成汉字的输入,并可移植 到手机以及各类PDA产品上使用。
纵横码的键位图
字母Байду номын сангаас字映射图
大大键盘编码 大大键盘编码是指编码的码元不仅是大键 盘上的26个字母,还包括10个数字和部分 的其它符号。这种编码方案早期很多,如 字元编码、钱码、陆码、绿色拼形等。 早期出现这样的编码方法主要是可以增加 编码空间,从而降低重码率,实现快速输 入。 这种编码方案已经很少了,主要是因为这 种方案具有不易学和难记等缺陷。
汉字编码的概念
计算机通信技术领域对所处理信息的字符集符号序列的排 序原则和低吗赋值方式,简称“机内码”,包括存储码、 处理码、传输码等 2. 计算机键盘输入汉字的代码设计与实现,简称“外码”或 “人机界面编码”,用一套字母数字代码输入汉字
1.
四角号码编码方法 横一垂二三点捺 叉四插五方框六 七角八八九是小 点下有横变零头 举例:端 先取左上角0,其次取右上角2再取左下角1, 最后取右下角 2,端=0212。
小键盘编码 采用键盘右边的数字区的“0”-“9”这10 个数字进行编码的方法称为小键盘编码。 如区位、纵横、字原、五笔数码等均是小 键盘编码。 采用小键盘编码的以形码居多,音码也有 但不多。形码一般都采用笔画编码。 音码在计算机小键盘上应用很少,主要是 用在数码产品上,如手机、电话、遥控器 等。实现时一般把26个英文字母映射到10 个数字按键上。
汉字键盘编码的依据——汉语拼音
汉语拼音的语言形式有三个要素:声母、韵母和 声调。三者构成一个音节。其中声母有21个,韵 母有35个。声调有五种:阴平、阳平、上声、去 声和轻声。声韵结合起来有417个基本音节,如 果考虑声调,总共有1330个左右的音节。 所有的计算机用汉字的发音都在这些音节范围内。 这就是汉字同音字/词多的根本所在。如在GBK中, 拼音“yi”有个460多个对应的汉字。 同样也存在大量的同音词。这就造成重码多和输 入不方便。这是以音作为编码要素存在的主要问 题。
码元
组成输入码的字符集合称为码元。 如拼音码的 码元是“a”-“z”中的任意一个字母;纵横码 的码元是“0”-“9”中的任意一个数字 。
纵横码的使用方法
由香港殷商周忠继先生发明、推广的一套以0-9十个数字进行编码的小键盘输入法,它 以片语/词组作为主要输入方式。 一横二竖三点捺,叉四插五方块六,七角八八九是小,撇与左钩都是零。 单字取码 1. 取码次序:左上角、右上角、左下角、右下角 2. 取大不取小 3. 有重复笔形不取 4. 有边取边 5. 有角高优先 词组取码 1. 33规则:对二字词组,取每字的头3码,若不足3码,则有几码取几码,取完按数字键 的9上面的“﹡” 2. 222规则:对三字词组,取每字的头2码,若不足2码,则有几码取几码,同上。 3. 2112规则:对四字词组,词首尾字各取头2码,中间每字各只取头1码,同上。 4. 21111规则:对多字词组,第一字取头2码,第二至第五字各取头1码,余下若字不用取 码,同上。