手写数字识别技术的应用

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

手写数字识别技术的应用

林晓帆丁晓青吴佑寿

手写数字识别（handwritten numeral recognition）是光学字符识别

技术（optical character recognition，简称ocr）的一个分支，它研究的

对象是：如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。

在整个ocr领域中，最为困难的就是脱机手写字符的识别。到目前为止，尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就，但距实用还有一定距离。而在手写数字识别这个方向上，经过多年研究，研究工作者已经开始把它向各种实际应用推广，为手写数据的高速自动输入提供了一种解决方案。

一、研究的实际背景

字符识别处理的信息可分为两大类：一类是文字信息，处理的主要是用各国家、各民族的文字（如：汉字，英文等）书写或印刷的文本信息，目前在印刷体和联机手写方面技术已趋向成熟，并推出了很多应用系统；另一类是数据信息，主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据，如：邮政编码、统计报表、财务报表、银行票据等等，处理这类信息的核心技术是手写数字识别。这几年来我国开始大力推广的“三金”工程在很大程度上要依赖数据信息的输入，如果能通过手写数字识别技术实现信息的自动录入，无疑会促进这一事业的进展。因此，手写数字的识别研究有着重大的现实意义，一旦研究成功并投入应用，将产生巨大的社会和经济效益。

二、研究的理论意义

手写数字识别作为模式识别领域的一个重要问题，也有着重要的理论价值：

1．阿拉伯数字是唯一的被世界各国通用的符号，对手写数字识别的研究基本上与文化背景无关，这样就为各国，各地区的研究工作者提供了一个施展才智的大舞台。在这一领域大家可以探讨，比较各种研究方法。

2．由于数字识别的类别数较小，有助于做深入分析及验证一些新的理论。这方面最明显的例子就是人工神经网络（ann）———相当一部分的ann模型和算法都以手写数字识别作为具体的实验平台，验证理论的有效性，评价各种方法的优缺点。

3．尽管人们对手写数字的识别已从事了很长时间的研究，并已取得了很多成果，但到目前为止机器的识别本领还无法与人的认知能力相比，这仍是一个有难度的开放问题（openproblem）。

4．手写数字的识别方法很容易推广到其它一些相关问题———一个直接的应用是对英文这样的拼音文字的识别。事实上，很多学者就是把数字和英文字母的识别放在一块儿研究的。

三、研究的难度

数字的类别只有十种，笔划又简单，其识别问题似乎不是很困难。但事实上，一些测试结果表明，数字的正确识别率并不如印刷体汉字识别正确率高，甚至也不如联机手写体汉字识别率高，而只仅仅优于脱机手写体

汉字识别。这其中主要原因是：第—，数字的字形信息量很小，不同数字写法和字形相差不大，使得准确区分某些数字相当困难；第二，数字虽然只有十种，而且笔划简单，但同一数字写法千差万别，全世界各个国家各个地区的人都用，其书写上带有明显的区域特性，很难完全做到兼顾世界各种写法的极高识别率的通用性数字识别系统。另外，在实际应用中，对数字识别单字识别正确率的要求要比文字要苛刻得多。这是因为，数字没有上下文关系，每个单字的识别都事关重要，而且数字识别经常涉及的财会、金融领域其严格性更是不言而喻的。因此，用户的要求不是单纯的高正确率，更重要的是极低的、千分之一甚至万分之一以下的误识率。此外，大批量数据处理对系统速度又有相当的要求，许多理论上很完美但速度过低的方法是行不通的。因此，研究高性能的手写数字识别算法是一个有相当的挑战性的任务。

四、学习和测试样本库的选择

正如前一部分提到的，手写数字的写法带有明显的地区性和民族性，因而选择一个可供系统训练和测试使用的样本库是手写数字识别研究的重要基础之一，对识别系统的性能也有重要的影响。研究者对所需的样本库有两种选择：一是自己根据需要建立专门的样本库，二是选用其它机构做好的现成的样本库。前者的优点是帖近自己的应用，缺点也是明显的：要费相当的精力且代表性很难保证，与其它人的结果不好比较。因此，现在的趋势是使用有权威性的通用样本库。目前，比较有代表性的、样本数量较大的手写数字样本库有：（1）．nist数据库，由美国国家标准与技术

局收集；（2）．cedar数据库，是由纽约州立大学buffalo分校计算机科

学系文本分析与识别中完成的邮政编码的样本库；（3）．etl数据库，由

日本电工技术研究所收集；（4）．itpt数据库，由日本邮电通信政策研

究所收集。

五、识别系统性能的评价

作为一个识别系统，我们最终要用某些参数来评价其性能的高低，手写数字识别也不例外。评价的指标除了借用一般文字识别里的通常做法外，还要根据数字识别的特点进行修改和补充。

对一个手写数字识别系统，可以用三方面的指标表征系统的性能：

正确识别率aΚ正确识别样本数／全部样本数＊100％

替代率（误识率）sΚ误识样本数／全部样本数＊100％

拒识率rΚ拒识样本数／全部样本数＊100％

三者的关系是：a＋s＋rΚ100％

数字识别的应用中，人们往往很关心的一个指标是“识别精度”，即

：在所有识别的字符中，除去拒识字符，正确识别的比例有多大，我们定义：

识别精度pΚa／（a＋s）＊100％。

一个理想的系统应是r，s尽量小，而p，a尽可能大。而在一个实际系统中，s，r是相互制约的，拒识率r的提高总伴随着误识率s的下降，与此同时识别率a和识别精度p的提高。因此，在评价手写数字识别系统系统时，我们必须综合考虑这几个指标。另外，由于手写数字的书写风格、工整

程度可以有相当大的差别，因此必须弄清一个指标在怎样的样本集合下获得的。

以上多种因素使得不同系统的性能很难做绝对比较，根据作者从文献中所看到的和在科研实践中的体会，可以认为目前手写数字识别研究的较高水平是：对自由书写的数字，在不拒识时达到96％以上的识别率；在拒识少于15％的样本时，误识率能降到0．1％以下。

六、手写数字的识别方法

手写数字识别在学科上属于模式识别和人工智能的范畴。在过去的四十年中，人们想出了很多办法获取手写字符的关键特征。这些手段分两大类：全局分析和结构分析。对前者，我们可以使用模板匹配、象素密度、矩、特征点、数学变换等技术。这类的特征常常和统计分类方法一起使用。对后者，多半需要从字符的轮廓或骨架上提取字符形状的基本特征，包括：圈、端点、节点、弧、突起、凹陷、笔画等等。与这些结构特征配合使用的往往是句法的分类方法。

多年的研究实践表明，对于完全没有限制的手写数字，几乎可以肯定：没有一种简单的方案能达到很高的识别率和识别精度。因此，最近这方面的努力向着更为成熟、复杂、综合的方向发展。一方面，研究工作者努力把新的知识运用到预处理，特征提取，分类当中，如：神经网络、数学形态学等。作者认为，在手写数字识别的研究中，神经网络技术和多种方法的综合是值得重视的方向。