手写识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
识别手写
2001年 22期
曾经红极一时万码奔腾的输入时代而今已落花流水春去也,取而代之的是赏心悦目的手写输入,惬意非凡的语音输入以及风驰电掣的OCR扫描输入。然而对大多数人而言,手写识别技术依然笼罩着一层神秘的面纱,让我们感觉无比亲近的手写因为科技的融入而显得有些陌生。为什么计算机能够识别手写?汉字手写识别技术的起源和发展历史究竟是怎样的呢?让我们一同在下面寻找答案!
#1 文字识别技术概述
汉字已有数千年的历史,也是世界上使用人数最多的文字,对于中华民族灿烂文化的形成和发展有着不可磨灭的功勋。目前,汉字输入主要分为人工键盘输入和机器自动识别输入两种。人工键盘输入是指用手工击键方式按照一定的规则把汉字输入到计算机,目前已有数百种键入方案。但是当计算机袖珍到容不下键盘的程度(如个人数字助理PDA),编码输入就没有用武之地了。
手写输入方法,是完全以平常的习惯,把要输入的汉字写在一块叫书写板的设备上(实际上是一种数字化仪,现在有的与屏幕结合起来,可以显示笔迹)。这种设备将笔尖走过的轨迹按时间采样后发送到计算机中,由计算机软件自动完成识别,并用机器内部的方式保存、显示。
汉字识别的方法基本上分为统计识别、结构识别以及神经网络方法等几大类。大量的联机手写识别系统采用的都是结构识别方法。所谓结构识别方法,其出发点是汉字的组成结构,从汉字的构成上讲,汉字是由笔划(点、横、竖、撇、捺等)、偏旁、部首构成,通过把复杂的汉字模式分解为简单的子模式直至基本模式元素,对子模式的判定,以及基于符号运算的匹配算法,达到对复杂模式的识别。结构识别法的优点是区分相似字的能力强,缺点是抗干扰能力差。统计识别方法是将汉字看为一个整体,其所有的特征是从这个整体上经过大量的统计而得到的,然后按照一定准则所确定的决策函数进行分类判决。统计识别的特点是抗干扰性强,缺点是细分能力较弱。
#1 手写识别的发展历程
联机手写字符识别的发展历史可以追溯到本世纪50年代,伴随着手写板硬件(一种捕捉笔尖轨迹的数字化仪)的出现,人们开始研究联机手写字符识别技术。随着半导体和计算机技术的发展以及模式识别领域理论和方法研究的不断深入和完善,到80年代后期,联机手写字符识别技术的研究已经朝着实用的方向努力,特别是英文,已经开始研究完全无限制的整句识别技术。
联机
手写汉字识别技术相对起步较晚。1981年
,IBM公司E.F.Yhap等推出了第一套较为成熟的联机手写汉字识别系统。该系统是基于对汉字进行笔划、字根编码的思想进行识别的。系统中每个汉字用72种字根拼成,而每个字根又可分解为42 种笔划的组合,通过对笔划和字根的判定识别所输入的汉字。而对字根进行的编码树表示又使得系统对通常的笔顺变化具有一定容错能力。当时对920个汉字的实验结果时正确率91.1%,对2260个测试,识别率为79.9%(第一次使用)。书写者要求使用工整楷书。
国内蒙恬科技公司是最早从事汉字识别技术研究、开发、生产的公司之一,早在1991年,就正式推出手写汉字识别系统。蒙恬的手写汉字识别技术的发展可分4个阶段:1.识别规整书写的、具有固定笔顺的楷体阶段。2.识别带有某些连笔、常见笔顺变化的楷体阶段。3.识别带有某些连笔、笔顺自由变化的楷体阶段。4.识别自由连笔、无笔顺限制的行书汉字。
而中科院在1988年提出利用笔段为基元的联机手写汉字识别技术。该方法把汉字分为笔段、笔划、字根、单字和词组五个层次,分别用模糊属性文法进行描述,以启发式模板引导匹配。该系统采用了对笔段进行基于位置关系的排序方法,摆脱了对笔顺的依赖。由于对整个字形进行采样后分析,在识别速度上不如按笔顺采样计算识别快。
值得注意的是,国外一些大公司也开始注意联机手写汉字识别这一领域。Motolora、Microsoft、Apple等大公司均已经投资于该方向的研究。由于资金雄厚,并且具有很强的软、硬件优势,其势头不可小视。国内研究人员应该奋起努力,把这一具有浓厚文化特色的核心技术掌握在中国人自己手中。
#1 影响识别率的因素
识别率是手写汉字识别研究中最重要的环节,影响识别率的因素也是手写识别技术研究中的难点,目前影响识别率的因素主要有以下几个方面:
#2 1.笔顺问题
由于不同人具有不同的书写习惯,笔划的书写顺序经常发生变化,因此,单纯通过串匹配进行识别难以达到理想效果。对汉字进行描述时,仅仅采用一维串也就显得不够,必须利用一些二维方法来描述,从而又极大地增加了匹配的难度。
#2 2.连笔问题
一般人写字时都不会一笔一划地书写,为了节省时间,连笔字是自然而然的事情,一些行书连笔甚至完全脱离了楷书的框架。从实用角度讲,连笔问题比笔顺问题具有更重要的意义。对于结构识别而言,连笔一方面使笔划种类大大增加,甚至达到难以归纳的
程度;另一方面,连笔又使得笔段抽取难度大增,因为连笔会增加一些冗余笔
段,连笔造成的畸变又会使笔段方向严重离散。总之,连笔不论对于基于哪种基元的结构识别都是严峻的挑战。
#2 3.相似字区分
汉字种类繁多,很多汉字彼此之间非常相似,例如“己、已、巳”三个字相差只在细微之间。手写汉字的变形十分严重,怎样能使识别系统抓住微小的差别,目前还是一个非常值得研究的问题。
#2 4.对抗干扰能力的要求
抗干扰能力,也称为鲁棒性,对于联机手写识别系统的性能是非常重要的。书写时候,笔划的畸变、丢失,多余笔段(如笔锋)的插入,字的倾斜,部件间相对位置、大小的变化,这些都是经常发生的现象。对于结构识别来说,会造成基元提取和识别的错误。传统的结构识别方法恰好在鲁棒性上是薄弱环节。因此,要想取得好的性能,必须对传统识别方法进行改进,增强其鲁棒性,从而增加实用性。
后PC时代,各式各样新奇、小巧的PDA、手机、电子书(E-book)、信息家电(IA)等等信息产品被创造出来,但是这些产品几乎都有面板过小、输入不易的问题。就是PC的键盘输入,对大多数人来说也不是那么方便容易。手写输入必然会受到瞩目,因此,将手写识别技术移植并嵌入其他行业领域,将是手写识别技术未来发展的重要方向之一。