嵌入式中文输入法解决方案

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1)根据输入数字键获取拼音组合功能· 该功能主要依据DU部分的第一张表 来实现.以下给出拼音组合种类及对应键 码组台的示例,比如输人24健的时候就会 输出ai,bi.bin等拼音组合。
a,ao,
2。ຫໍສະໝຸດ Baidu6。
为了节约空间,对上述拼音组合按双 字节数进行编码,即16bit,前12个为拼音编 码,13~14bit为音调,最后2个bit为系统保 留且默认为OO.
集》.中华人民共和国国家标准总局 1981年5月
86
科技创新导报Science and Technology Innovation Herald
万方数据
(2)拼音汉字编码表。该编码表主要根据 拼音组合匹配出对应的汉字编码列表,必要 时需要把一些方言的发音考虑进去,以提高 汉字输入效率。如拼音组合bei配的汉字 有“被”。。北”,。背”等.但根据匹配列表产生 输出时需要考虑到汉字排列的优先级。
(3)笔画组合分类表.五个最基本笔匾 的定义分别为横竖撇点折,该分类表主要 是根据输入的五个数字键(对应五个最基 本笔划)若干种组合,进而列出该组合下所 有可能的复杂笔画组合。
分别为UI、EU和DU,其中UI单元是和用户 界面交互的部分,可以根据不同手机平台 进行相关界面参数调整和移植;EU和DU部 分为正确获得输入法相关数据提供了底层 数据和函数接口方面的支持,EU作为输入 法的核心单元一般需要封装为Lib库。这样 可以保护知识产权。
2 DU部分设计 DU部分主要是为输入法引擎EU部分
说明:l、2、3、4、5分别代表横竖擞点 折,实际设计时可将最后一个字的笔画单 独列出来给拼笔字组和笔画词组共用。以 节约空间.
4 UI部分设计 UI部分第一版本的设计基于smart
phone平台上实现,编程语言确定为EVC4. 0。输入法类型以长按·键切换ll,2,3,4,5 键分别对应笔画横竖撇点折-2、3、4、5、6、 7.8、9S1分别对应英文字母(或拼音)abc。 clef。ghi,jⅪ。mno.pqrs.tuv,wxyz。
l,2、3、4、5分别代表横竖撇点折,该编
码表由部首编号、部首、键码组合等构成.
示例如下:
部首编码部首键码
0x1061
¨
52
(4)根据笔画和部首组合获取汉字功能, 该编码表由汉字、笔画部首列表。考虑 到汉字笔画组合的多样性。该编码表以汉 字笔划为索引,并按顺序排列,示例如下: 笔画部首列表 汉字 l— 12丁
镌手机上。但由于时阿仓促.还有掘多地方迸有来得厦进一步完●和走进。希置在3G时戎捌来之际.■产中文■入法可以真正太妃摸进八
3G和其它嵌入式垮葛赣域。
关键词:嵌入式廿人诲 3G手机 智鼍匈扭蕾人
中圈分类号:T P 3
文献标识码:A
文章编号:l●7l—098x(2¨9)oT(t)一008B—Ol
1系统结构 下图将输入法划分为3个不同的层次,
(2)根据拼音组合获取汉字功能- 该编码表由拼音编码(这里拼音编码 与前面的拼音编码是一致的,只是以16进 制表示而已)、拼音.汉字列表(按字拼排 列),示例如下t 拼音编码拼音键码汉字列表 ox0040 ba 22把.八,吧,爸,拔。 罢.跋。巴。……
洼:设计时要将s和sh等发音容错考虑
进去。
(3)根据输入数字键获取部首功能·
3 EU部分设计 EU部分是实现输入法各种功能的核
心,是根据用户输入的键值和参数,查找 DU部分的备类码表,然后获取相应查询结 果提供给UI层进行处理.为了方便以后在 不同的嵌入式平台上移植,拟采用c语言实
现其全部算法。为了减少UI编程对引擎功 能的调用复杂度,该部分对外只提供一个 算法接口,该接口既可以实现智能英文输 入·也可以实现双字节字符输入。内部调用 的各类算法接口对UI层屏蔽,实现方莹和 具体编程有关,不在这里具体描述。可以将 EU部分划分为以下功能模块:
(5)根据当前输入的汉字编码获取联想
汉字功能t

(6)词组输入功能
1)拼音+笔画输入词组
词组中的所有字首字母(或声母)+第一 个字垒笔画,以数字0或长按笔画键闻隔,数
字0或长按笔画输人后就开始出现词组· 2)笔画输入词组
参考文献 【1】《汉字内码扩展规范》.中华人民共和国
全国信息技术标准化技术委员会1995 年12月 【2】《信息交换用汉字编码字符集 基本
输入法类型分为拼音、笔画.基本英 文、智能英文、数字、符号五个基本类型。其 中拼音输入法包含拼笔词组输入法,通过 长按最后一个宇首笔或短按间隔符0来实 现自动切换。笔画输入法包含笔画词组输 入法。也是通过长按最后一个字首笔或短 按间隔符0来实现自动切换.
S结语 本中文输入法的特点就是汉字联想和
词组输入功能强,这个比较符合汉字输入 的习惯和特点,一般用户不需要经过特别 训练即可快速掌握其输入方法。由于时间 仓促,笔者只对基本的输入功能进行了验 证,拼音、笔划和词组输入已基本可用,但 还需要进一步测试和验证.另外需要说明 的是,本文中用到的检索算法均为2分法, 还有进一步优化的空间.
词组中的所有字前1个(或2个)笔画+最后 一个字全笔画,以数字。或长按笔画键间隔.数 字0或长按笔画输入后就开始出现词组t
3)拼笔和笔划词组编码表 词组编码表是快速、正确获取相应词 组的关键。该编码表的结构由词组编号,词 组汉字列表、拼笔词组元素表,笔画词组元 素表、词频(0~255)构成,示例如下: 编号词组列表拼笔元素表笔画 元素表词频 0x01 A0一气呵成9742013554
的算法提供数据支持,把输入法算法引擎 部分Eu和数据部分DU分开也是为了便于 输入法在具有不同存储结构和操作系统的 平台上移植。Du部分根据现有引擎的要求 可大致分为拼音组合分类表、拼音汉字编 码表、笔画组合分类表、笔画汉字编码表, 联想词组编码表等。以下分别加以说明:
(I)拼音组合分类表。该分类表主要根 据数字键2,3。4,5,6,7,8,9的不同组合匹配 出所有可能的拼音组合列表,如数字键组 合2,3.-f以匹配出ce,ben.bei,ceng等拼音.
堡婴鲨竺坐业::业::竺 工程技术 嵌入式中文输入法解决方案
黄德强 丁伟 (解放军理工大学理学院电子信息基础教研宣 江苏南京 2'”0”
擒要:当前主流的嵌入式中文督八法一麓耒用盼是嗣外的并凌方案.如eZI.T9、iTap乎,■产簟八汝目酋置蒜乞有|I多种,但由于
用户使用习惯和技术不成南f屎因.很少有真正移植到手机上的,本文蛤出7一种中文簟八法杆决方童.井已^功特其移植纠一苁t
(4)笔画汉字编码表。根据不同笔画组 合匹配出所有可能的汉字编码.匹配列表 输出时需要考虑到汉字排列的优先级。
(5)联想词组编码表。该编码表提供所 有常用汉字词组的编码组合列表,另外还 要提供声母组合和前2个笔划组合这两种 索引方法.以方便快速检索词组。
(6)汉字优先级编码表。对常用的I 500 个左右的汉字根据使用频率由高到低进行 排列,构造相应的编码表,方便匹配汉字时 根据此编码表依次取字。
相关文档
最新文档