汉语拼音的短韵母编码与汉字输入
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第21卷 第1期2007年1月
中文信息学报
J OU RNAL OF CH IN ESE IN FORMA TION PROCESSIN G
Vol.21,No.1J an.,2007
文章编号:100320077(2007)0120074205
汉语拼音的短韵母编码与汉字输入
方贵明1,2
(1.中国科学院软件研究所多媒体通信中心,北京100080;2.中国科学院研究生院,北京100049)
摘 要:《汉语拼音方案》在中文信息处理中具有重要地位,拼音输入法更是电脑汉字输入的大众化方法。
由于韵母采用1~4个字母,显得长短不齐。
本文提出短韵母编码方案,除原来单字母韵母外,其他韵母用{aoeiuv}中的两个字母来表示,使得拼音编码变短。
由于韵母采用的字母与声母采用的20个字母不同,在键盘输入汉字时可以采用“声韵声”方式输入词组。
此方案可用于字母键盘,在数字键盘更有优势。
声调的4个键与短韵母编码的6个键互不相同,拼音串输入时容易切分各字拼音,即使省略了韵母。
每对模糊音设有3个数字键盘编码,以方便部分字音需要模糊的用户。
关键词:计算机应用;中文信息处理;汉语拼音方案;声母韵母;数字键盘的汉字输入;拼音输入法中图分类号:TP391 文献标识码:A
Shortened Finals of Chinese Syllables and Application for H anzi Input
FAN G Gui 2ming
1,2
(1.Multimedia Telecom Center ,Institute of Software ,Chinese Academy of Sciences ,Beijing 100080,China.
2.Graduate School ,Chinese Academy of Sciences ,Beijing 100049,China )
Abstract :The scheme of Chinese phonetic alphabet plays an important role in Chinese information processing.Hanzi input by Pinyin is one of popular Methods in China..The number of characters in the final of Chinese syllable is from 1to 4.A compressed scheme to shorten the finals is proposed.The finals with 2to 4characters originally is coded by only 2characters in the set of {a ,o ,e ,i ,u ,v}in order to make them short.For the characters in the finals are different from the 20characters in the initials of Chinese syllable.Hanzi input with keyboard for Chinese phrase can be done by the combination of “initial ,final ,initial ”.This scheme can be used in alphabet keyboard and even better in numeric keypad.4keys for tones of pinyin are different with the 6keys for the finals ,so the boundary of each syllable is clear even the finals are omitted.Each pair of f uzzy initials or finals has 3codes in numeric keypad ,in order to help these users who need the fuzzy code for partial Chinese characters.
K ey w ords :computer application ;Chinese information processing ;The scheme of Chinese phonetic alphabet ;Initial/Final ;Hanzi input for numeric keypad ;pinyin input.
收稿日期:2006202217 定稿日期:2006209229基金项目:国家自然科学基金面上项目资助(60373049)
作者简介:方贵明(1966—),男,研究员,研究方向为网络通信、嵌入式系统和信息处理。
1958年公布推行的《汉语拼音方案》,包括字母表、声母表、韵母表、声调符号四个部分。
根据文献[1],汉语普通话有21个声母(不算yw )和35个韵母,不包括zicisi 的韵母(舌尖前音2i )、zhichishiri 的韵母(舌尖后音2i )、er 和ê等。
由于零声韵母的存在,文献[2]将声母扩展为27个,便于语音识别。
G B2312标准规定的字库包括6763个字。
如果多
音字算多个字,有7809个汉字。
经过对G B2312字
库读音表的统计,带音调拼音有1302个,平均每音6个字,最多的音y ǐ有60个字。
对应唯一汉字的带
音调拼音有260个,约占总拼音数的1/5,约占总字数的1/30,其中有些是多音字,如这zh èi ,也读zh è。
双拼输入法以两个字母表示所有拼音,编码利用率约60%。
针对不同字库容量。
统计出的拼音个数略有差别。
国标G B2312字库统计出无调拼音401个,文献[3]统计出无调拼音408个,根据文献[1]可
1期方贵明:汉语拼音的短韵母编码与汉字输入
统计出417个。
以带调拼音输入汉字,可明显降低重码率。
依据英文字母顺序编排的手机键盘,输入一个拼音平均需要按键4.01次,而汉语拼音的平均码长只有3.04个字母[3]。
用户输入一个数字串可能对应多个拼音候选项,例如输入“zhao”这个拼音,需要依次按键9426,同时它还对应“zhan”、“xian”和“xiao”等多个拼音,需要再次按键选择。
根据文献[3],经过手机键盘布局优化后,拼音输入平均码长变为3.36键。
目前手机中文汉字输入法主要有三种,即T9、i TA P和字能输入法。
评测认为T9以拼音输入为好,字能以笔画输入见长。
三种流行输入法中,字、词混合输入平均码长,均大于4键/字。
用户满意度不高而市场需求旺盛,手机汉字输入法近来成为研究热点[4]。
韵母长度为1~4字母,有些实在太长,并且包含了声母中用到的n和g等容易引起二义性。
比如:拼音串fangan,到底是“方案fang’an”还是“反感fan’gan”?这种二义性增加了汉字输入后处理的负担[5],在语句输入中更麻烦[6,7]。
往往要加上撇号才能分开。
本文希望通过适当编码实现两个目标:
1)韵母至多两个字母,只用到元音字母aoeiuv;
2)声母与韵母连续写,易于自动区分。
6个元音aoeiuv组成的1~2字母编码,共有42种可能。
韵母号称有35个(不算er),实际上有1个从来就没有声母的ueng,用作拼音时写为weng;有两个做韵母van和vn时形成拼音时,与另外两个韵母uan和un采用相同字母。
总之,需要编码的韵母(含er)有33个。
1 编码规则描述
参见表1,短韵母编码规则1和2与原来的汉语拼音韵母相同,因为本来就够短了。
规则3,4,5, 6,7不难记忆,但8,9,10相对困难一些。
以ua开头和ng结尾的韵母比较多,定义了头ua2=v2和尾2ng=2v的规则。
对ian编码采用oi,因为o起始的韵母偏少,而且两键靠近,容易键入。
对jue和lve 中üe的写法不同,使ue和ve都对应到üe,该韵母使用了两个编码。
表1 短韵母编码规则
规 则编 码说 明
1.单个韵母6个,不变编a o e i u v6
2.双元音韵母11个,不变(略)12üe占两个编码ve+ue
3.零声韵母以o开头3剔出oa,oo,oe
4.对an,en,in,un,首字母重复编aa,ee,ii,uu,4
5.对ang,eng,ing,ong,首字母加v编av,ev,iv,ov42v=2ng
6.对uang/iang和uai编vv,vi2v2=ua2,2v=2ng
7.对uan和van,按uan编码编vu1v2=ua2,首字母重复
8.对iao,类似iou删去中间字母编io1
9.对ian特编oi1与iao编码相反
10.对er,零声母,与iu重码特编iu0参照双拼
11.对iong,声母jqx,同ong编ov0以上共34个
12.其他ae,ea,au,eu,eo,uv,va,vo842个编码剩下8个
2 编码说明
如果两个韵母不会配合相同声母,就可以采用相同的编码,这是双拼编码方案的典型做法。
紫光拼音输入法中,33个韵母编码的双拼方案只用了26个字母。
由于需要记忆的规则太多,双拼方案虽然比五笔字型易学,但仍然不适合那些边输入边思考
57
中文信息学报2007年
的作者类用户。
全拼方式用的人更多一些。
紫光双拼方案所用的七个重码是yghjnox,对应韵母为iang=uang,ong=iong,er=iu,in=uai, uei=ue/ve,o=uo,ia=ua
上述七个双拼重码中,前3个重码本方案都用到了。
没有采用in=uai,两者差别太远而不利于记忆。
后3个已经是短韵母,没有必要更改编码。
根据《新华字典》中的韵母表和以上编码规则,可以得到韵母到编码对照表,如表2所示。
所有42个编码到韵母对照,除去没有变化的双字母韵母,列于表3。
较难记忆的编码有
oi=ian,io=iao,vi=uai,vv=uang/iang, vu=uan,iu=er
若希望简化记忆,可采用三元音韵母编码方案。
除了纯元音汉语拼音韵母采用原形外,其它韵母可按照至多3元音字母的定义,制定3条规则:2V= 2ng;对er特别编码为i(适合数字键盘)或者iu(适合字母键盘);所有以n结尾的韵母,将韵母靠近n 的元音字母重复,如AA=an,EE=en,II=in, UU=un,UAA=uan,VAA=van,IAA=ian等。
表2 韵母到编码对照表(35个)
i.yi u.wu v.yu
a ia ua
o uo
e ie ve+ue
ai uai=vi
ei uei=ui
ao iao=io
ou iou=iu
an=aa ian=oi uan=vu van=vu en=ee in=ii un=uu vn=uu ang=av iang=vv uang=vv
eng=ev ing=iv ueng.wev
ong=ov iong=ov
“=”等号含义,如ong=ov,表示韵母ong与简化编码ov的对应关系;“.”圆点含义,如i.yi,表示无声母元音的拼音方法;“+”加号含义,如ve+ue,表示这两个编码表示相同的韵母。
表3 编码到韵母对照表
a o e i u v aa=an ao-ai-av=ang
oi=ian ou ov=ong/iong --ee=en ei-ev=eng
ia io=iao ie ii=in iu/er iv=ing
ua uo ue ui uu=un-
--ve vi=uai vu=uan vv=uang/iang “=”等号,如aa=an,表示编码aa对应的韵母是an;“-”短杠表示无效编码;空白位置是为零声母拼音所保留。
3 试验验证
短韵母编码方案需要进行试验验证。
紫光拼音输入法有可以自定义的双拼定义文件。
按照紫光双拼中ini配置文件的格式,填写为短韵母编码即可使用。
具体方法(以紫光华宇拼音输入法V5为例):右键点击紫光图标左边框(“中”字械侧纵向四小点处),选择菜单中第4行“设置…”,进入“紫光华宇拼音输入法—设置”对话框中,点击”双拼编码“,修改为图1所示的设置内容,点击“另存为…”,保存配置文件为dym.ini即可。
借用紫光拼音输入汉软件进行了有效性试验,几经修正,形成此编码方案。
经过数万字的输入测试,认为能够进行边思考边输入(即“想打”模式),适合专业打字员之外的普通人。
尽可能以词组输入,能有效降低汉字输入的重码。
拼音输入法单字重码率很高,依然能够得到广泛应用,就在于词组输入的比例远远多于单字输入。
紫光双拼针对双字词组的规则是“声声韵”,头字的韵母不能加入,即“声韵声”则得不到结果。
例如,输入“中国”,紫光双拼编码为:ugo(即zhguo),用uhg (即zhongg)则不行。
短韵母编码后:“声韵声”zhovg和“声声韵”zhguo都可以。
任意选择省略前韵母还是后韵母,是短韵母编码的一个优势。
双拼编码中大多数字母既用于声母也用于韵
67
1期方贵明:
汉语拼音的短韵母编码与汉字输入
图1 紫光双拼中设置的文件内容
母,省略韵母会引起二义性问题。
全拼编码中,韵母和声母共用的字符有n、g和r等,且共用频率较高。
短韵母编码中,没有与声母共用的字母。
零声韵母的前缀以字母o表示,而短韵母编码中的留出oa, oo,oe编码,避开二义性。
上述试验中,省略韵母时双字母声母有二义性问题,如z’he不能省略分隔符变为zhe。
4 数字键盘的用法
由于简单易学,汉语拼音输入法累计使用人数超过五笔字型[8]。
信息设备的小键盘汉字输入法近年来受到重视[4]。
短韵母编码方案除了用于字母键盘外,用于数字键盘更为有效。
在手机上输入英文时,如果连着输入在同一个数字键上的字母AB,输入A后不能接着就输入B 需要等待超时,即“2-22”。
这是操作者难以忍受的,也是英文输入研究的重点[911],甚至考虑设计专用手握按键输入装置[12]。
既然是专用的,使用者就要经过训练才能顺手[13]。
虚拟键盘也是英文输入重要方案,受到研究者的重视[14]。
短韵母编码,由于韵母采用的字母分布在不同的键上(V改用1键),输入时没有超时等待的烦恼。
紫光拼音输入法中有模糊音选项,但明显增加了重码率。
对于部分字音不能分辩的人,模糊音应该专门设一个编码,即每对模糊音设三个编码。
在以下数字键盘拼音输入法中,6对声母和5对韵母模糊音共设立了33个编码。
例如:声母F编码35,声母H编码47,而F H的模糊音编码定为39,仅当遇到无法辨别的声母时才用39输入。
数字键盘的拼音输入分为声部和韵部输入两个部分,每个单字的拼音编码长度为3~5键。
声部定
长为2键,指双键声母,或零声母拼音时的韵母首字母,或单键声母加一个韵母;韵部为其余1~3键,主要指韵母和声调,也可能只有声调,或部分韵母加声调。
汉语拼音声部首字母有27个,包括汉语拼音表所有声母21个,加上两个声母yw,以及零声母拼音的首字母aoe,还有为er特别编码的i.三个双字母声母zh ch sh分别看成单字母z^c^s^。
见图2左边是标准的电话机数字键盘,右边键盘作了一些修改,用于本输入法,列在各个数字键开头的声母,直接采用该数字键编码,这9个声母称为单键声母。
例如B对应2,D对应3等等。
其余18个声部首字母要两位数字表示。
前一位数字采用键上标有该字母的数字,后一位采用位置键“7”表示位于中间,“5”表示位于末尾。
例如,C对应27,而A对应25等等。
由于韵母首字母为元音,只会使用数字键123468,而不会用到5和7键。
因此,双键方式的声部首字母,不会与单键声母加一个韵母的编码混淆。
表4用字母数字串来表示汉语拼音声母与数字键的对应关系。
6
对模糊音声母设有专门编码。
图2 数字键盘定义的更改
表4 拼音声母编码表
单键声母
Zh1,B2,D3,G4,J5,M6,P7,
T8,X9
9个双键声母
Ch17,Sh15,C27,A25,E37,F35,
H47,I45,K57,L55,N67,O65,
Q77,R75,W87,S85,Y97,Z95
18个模糊音
F H39,GK49,L N59,ZZh99,CCh29,
SSh89
6个 韵部包括韵母和声调。
声调分别采用{5,7,0, 9}表示1234声(阴平、阳平、上声、去声),即“-/∨\”,而轻声采用0键表示,与上声用相同的数字。
数字键盘输入拼音时,键入的第3个数字如果是{1,2,3,4,6,8}之一,表示韵母编码;如果是{5, 7,0,9}之一,表示是声调,如bǐ=240。
声调是韵
77
中文信息学报2007年
部的末位键,兼作一个拼音的结束标志,若声调前面无韵母,表示省略了韵母,如词组“参加”省略“参”的韵母可表示为c ˉjia =275542。
由于6个元音字母键和4个声调键互相不重叠,以此判定音调的位置,便于切分词组拼音中各字拼音的界限,不会出现二义性。
韵母模糊音只能选42个编码中的8个无效编码之一。
定义an/ang =AU ,en/eng =EU ,即首字母加U ;定义in/ing =V I ,ian/iang =VO ,即V 加in 和ian 的短韵母编码首字母;定义uan/uang =VA ,这是V 开头的最后一个无效编码了。
注意到uai 也使用V I 编码,但它与in/ing 不会使用相同声
母,可以共用相同编码。
使用“#”键作为拼音输入结束标志,此后就转入选字状态。
可以在声调输入结束后直接加0键表示选择候选字中的头一个,而无须在0前面加结束符号“#”键。
例如,字频最高的汉字“的”,采用de0=3300表示。
拼音输入法一般分字母输入和选字两个状态。
本文所述数字键盘的短韵母输入法可用有限自动机来描述。
定义以下状态:S0初始状态;S1拼音输入结束状态(候选字显示);S2音调输入结束状态;S3声部中间态;S4韵部中间态。
状态图中的事件Y5=0表示韵母键待输入的个数已经递减为0,将进入声调输入状态S2。
从S3进入S4时设定Y5的数值。
如果刚刚键入的数字属于{1,2,3,4,6,8},则Y5=1,否则Y5=2。
在状态S4,每键入一个键,Y5递减。
图3 数字键盘拼音输入状态图
该状态图用于三元音韵母方案,只需将进入S4
时设定的Y5初值分别改为2和3。
本文提出了短韵母编码方案,通过紫光拼音输入软件的电脑键盘试验验证了有效性,给出了数字键盘拼音输入方案的状态转换图。
参考文献:
[1] 《新华字典》(1979年修订重排本)—汉语拼音字母音
序排列[M ],北京:商务印书馆,1980.
[2] 李净,郑方,张继勇,吴文虎.汉语连续语音识别中上
下文相关的声韵母建模[J ].清华大学学报(自然科学版)2004,44(1):61264.
[3] 马毅,刘秉权,徐志明.基于最短平均输入码长的手机
键盘布局优化[A ],全国计算语言学会议(J SCL 22005)
[C],南京,2005.8.
[4] 倪小东,李人厚,余克艰,庞宣明.适用于信息设备的
汉字输入法研究[J ].中文信息学报,2001,15(5):
58264.
[5] 陈一凡,朱亮.键盘输入智能处理软件综述[J ].中文
信息学报,2003,17(2):60265.
[6] 王晓龙,王幼龙.语句级汉字输入技术[J ].中文信息
学报,1996,10(4):50259.
[7] 章森,宗成庆,陈肇雄,黄河燕.语句拼音—汉字转换
的智能处理机制分析[J ].中文信息学报,1998,12(2):
37243.
[8] Wang ,J.,Zhai ,S.,and Su ,H.Chinese input with
keyboard and eye tracking 2An anatomical study [A ].In :Proceedings of ACM [C].
[9] Butts ,L.and Cockburn ,A.,An evaluation of mobile
phone text input methods.[A ]In :Proceedings of the Australsian User Interfaces Conference ,2002.[10] J ames ,C.L.and Reischel ,K.M.,Text input for
mobile devices :comparing model prediction to actual performance [C ].In :Proceedings of the SIGCHI conference on Human factors in computing systems ,pp.3652371,ACM Press ,2001.
[11] Mac Kenzie ,I.S.and Soukoreff ,R.W.(2002).
Text entry for mobile computing :Models and
methods ,theory and practice [J ].Human 2Computer
Interaction ,17(2&3),1472198.
[12] L yons ,K.,Starner ,T.,Plaisted ,et al ,“Twiddler
typing :One 2handed chording text entry for mobile
phones [A ].In :Proceedings of the SIGCHI
conference on Human factors in computing systems ,ACM Press ,2004.
[13] Isokoski ,P.(1999).A minimal device 2independent
text input method (M.Sc.Thesis )[D ].University of Tampere ,Tampere Finland.
[14] Zhai ,S.,Hunter ,M.,and Smith ,B. A.(2002).
Performance Optimization of Virtual Keyboards [J ].Human 2Computer Interaction ,17(2&3),2292270.
8
7。