手写数字识别的过程

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

手写数字识别的流程：

1．对所给出的图像进行预处理使得方面后面的数字识别操作，包括图像的二值化等2．对图像进行图像的形态学操作，让数字变得闭合，方便进行数学形态学的计算3．用鼠标提取每个数字的图像，并对每个数字图像作出包含连通区域的矩阵

4．根据数字的欧拉数和每个数字的其他不同特征识别数字

5．最后把识别的数字保存起来

下面分别进行论述：

1．数字图像的二值化

原图如下：

二值化处理结果如下：

2．图像的形态学操作，让数字中未闭合的数字6、8、9闭合

处理后的图像如下：

3．用鼠标提取每个数字的图像，并对每个数字图像作出包含连通区域的矩阵

在提取图像时要注意，尽量用最小的矩形包括这个数字，并且不要遗漏数字的任何部分在外面，这一步对后面的识别至关重要，会非常影响数字的识别。提取出来二值图像后，并把它变换成一个数字矩阵，这个矩阵会对图像中不同的连通区域作出不同的标记，这样方便下面进行数字矩阵的特征提取。

4．根据数字的欧拉数和每个数字的其他不同特征识别数字

a.识别数字8，只有8的欧拉数为2

b.识别数字1，其离心率最大（>0.9）,并且它的最小外包矩形的长度大于宽度的两倍

c.对数字6，其欧拉数为1，用一条水平扫描线从上半部分进行扫描，有两个交点

d.对数字4，其欧拉数为1，用距离右边框几个象素的垂直线与它相交，有两个象素，即可识别

e.对数字0，其欧拉数为1，用一条水平扫描线从中间与它相交，有两个交点，用一条垂直扫描线从中间与它相交，也有两个交点，即可识别

f.对数字9，其欧拉数为1，用一条水平扫描线从下半部分进行扫描，有两个交点，与6相反

g.对数字2，其欧拉数为0，用距上边框十几个象素的水平线与它相交，有4个交点

h.对3，用距中间位置的垂直线与它相交，有3个交点，且欧拉数为0

i.对数字7，其欧拉数为0，从中间位置垂直扫描，有两个交点

j.剩下的就是数字5了

试验结果分析：

总共进行了五组的试验，试验结果如下：

b ＝1234567895

b ＝1534567890

b ＝5534567855

b ＝1535557895

b ＝1555565895

从以上的试验结果可以看出：

如果用鼠标提取图像时，仔细小心的提取，会取得不错的试验效果，但是对于数字2和数字0，往往会有一定的误差。

后三组试验，在提取数字时有意的将数字区域扩大或者缩小，可以看出这样对试验结果的影响很大，会造成很大的误差，这种识别方法的识别率大大降低。

一、引言

手写数字识别是“光学字符识别技术”（简称OCR）的一个分支，它研究的对象是：如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。

在整个OCR领域中，最为困难的就是脱机手写字符的识别。到目前为止，尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就，但距实用还有一定距离。而在手写数字识别这个方向上，经过多年研究，研究工作者已经开始把它向各种实际应用推广，为手写数据的高速自动输入提供了一种解决方案。

二、研究的实际背景

字符识别处理的信息可分为两大类：一类是文字信息，处理的主要是用各国家、各民族的文字（如：汉字、英文等）书写或印刷的文本信息，目前在印刷体和联机手写方面技术已趋向成熟，并推出了很多应用系统；另一类是数据信息，主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据，如：邮政编码、统计报表、财务报表、银行票据等等，处理这类信息的核心技术是手写数字识别。这几年来我国开始大力推广的“三金”工程在很大程度上要依赖数据信息的输入，如果能通过手写数字识别技术实现信息的自动录入，无疑会促进这一事业的进展。因此，手写数字的识别研究有着重大的现实意义，一旦研究成功并投入应用，将产生巨大的社会和经济效益。

三、研究的理论意义

手写数字识别作为模式识别领域的一个重要问题，也有着重要的理论价值：

1、阿拉伯数字是唯一的被世界各国通用的符号，对手写数字识别的研究基本上与文化背景无关，这样就为各国、各地区的研究工作者提供了一个施展才智的大舞台。在这一领域大家可以探讨，比较各种研究方法。

2、由于数字识别的类别数较小，有助于做深入分析及验证一些新的理论。这方面最明显的例子就是人工神经网络，相当一部分的人工神经网络模型都以手写数字识别作为具体的实验平台，验证理论的有效性，评价各种方法的优缺点。

3、尽管人们对手写数字的识别已从事了很长时间的研究，并已取得了很多成果，但到目前为止机器的

识别本领还无法与人的认知能力相比，这仍是一个有难度的开放问题。

4、手写数字的识别方法很容易推广到其它一些相关问题，一个直接的应用是对英文这样的拼音文字的识别。事实上，很多学者就是把数字和英文字母的识别放在一块儿研究的。

四、基于手写数字识别的典型应用

手写数字识别有着极为广泛的应用前景，这也正是它受到世界各国的研究工作者重视的一个主要原因。下面我们将介绍基于手写数字识别的应用系统的特殊要求，以及一些以手写数字识别技术为基础的典型应用。

（一）手写数字识别在大规模数据统计中的应用

在大规模的数据统计（如：行业年鉴、人口普查等）中，需要输入大量的数据，以前完全要手工输入，则需要耗费大量的人力和物力。近年来在这类工作中采用OCR技术已成为一种趋势。

因为在这种应用中，数据的录入是集中组织的，所以往往可以通过专门设计表格和对书写施加限制以便于机器的自动识别。目前国内的大多数实用系统都要求用户按指定规范在方格内填写。另外，这些系统往往采用合适的用户界面对识别结果做全面的检查，最终保证结果正确无误。可以看出，这是一类相对容易的应用，对识别核心算法的要求比较低，是目前国内很多单位应用开发的热点。

（二）手写数字识别在财务、税务、金融领域中的应用

财务、税务、金融是手写数字识别大有可为的又一领域。随着我国经济的迅速发展，每天等待处理的财务、税务报表、支票、付款单等越来越多。如果能把它们用计算机自动处理，无疑可以节约大量的时间、金钱和劳力。与上面提到的统计报表处理相比，在这个领域的应用难度更大，原因有：1、对识别的精度要求更高；2、处理的表格往往不止一种，一个系统应能智能地同时处理若干种表格；3、由于处理贯穿于整个日常工作之中，书写应尽量按一般习惯（如：不对书写者的写法做限定，书写时允许写连续的字串，而不是在固定的方格内书写），这样对识别及预处理的核心算法要求也提高了。

（三）手写数字识别在邮件分拣中的应用

随着人们生活水平的提高，经济活动的发展，通信联系的需求使信函的互换量大幅度增加，我国函件业务量也在不断增长，预计到2000年，一些大城市的中心邮局每天处理量将高达几百万件，业务量的急剧上升使得邮件的分拣自动化成为大势所趋。在邮件的自动分拣中，手写数字识别（OCR）往往与光学条码识别、人工辅助识别等手段相结合，完成邮政编码的阅读。目前使用量最大的OVCS分拣机的性能指标：OCR 拒分率30%，OCR分拣差错率1.1%.

五、手写数字识别技术展望

随着国家信息化进程的加快，手写数字识别的应用需求将越来越广泛，因此应当加强这方面的研究工作。作者认为，应用系统的性能的关键与瓶颈仍然在于手写数字识别核心算法性能上，最终目标是研究零误识率和低拒识率的高速识别算法。此外，尽早建立反映中国人书写习惯的、具有国家标准性质的手写数字样本库也是当务之急。