开题报告-基于SVM的手写数字识别的应用与实现

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

毕业设计开题报告

计算机科学与技术

基于SVM的手写数字识别的应用与实现

一、综述本课题国内外研究动态，说明选题的依据和意义

阿拉伯数字作为唯一被世界各国通用的符号，是人类文明发展的标志之一，也是人类交流沟通的主要媒介。在人们日常生活当中，离不开数字的使用，我们每天都要进行大量的数字工作处理，比如邮政编码、统计报表、财务报表、银行汇款转账等等，如此繁琐的数字工作处理占去了我们很大一部分时间，空间。而对于，计算机大范围普及，人工智能高度发展的当今社会，利用手写数字识别系统代替人们进行这样繁重的手工劳动，备受国内外人士的高度重视。

由于手写数字识别本身的一些特点，对它的研究有及其重要的理论价值：

⑴阿拉伯数字是唯一被世界各国通用的符号，对手写体数字识别的研究基本上与文化背景无关，各地的研究工作者基于同一平台开展工作，有利于研究的比较和探讨。

⑵手写数字识别应用广泛，如邮政编码自动识别，税表系统和银行支票自动处理等。这些工作以前需要大量的手工录入，投入的人力物力较多，劳动强度较大。手写数字识别的研究适应了无纸化办公的需要，能大大提高工作效率。

⑶由于数字类别只有10个，较其他字符识别率较高，可用于验证新的理论和做深入的分析研究。许多机器学习和模式识别领域的新理论和算法都是先用手写数字识别进行检验，验证理论的有效性，然后才应用到更复杂的领域当中。这方面的典型例子就是人工神经网络和支持向量机(Support Vector Machine)。

⑷手写数字的识别方法很容易推广到其它一些相关问题，如对英文之类拼音文字的识别。事实上，很多学者就是把数字和英文字母的识别放在一起研究的。

手写数字识别的一般原理为：首先把数字图像经过预处理，然后得到的数据进行特征提取或不用进行特征提取就可以直接输入识别器进行识别得到结果。手写数字识别的预处理通常包括数字图像的二值化处理、细化处理等步骤。数字图像的二值化处理是将上一步骤所得到的灰度数字图像转化为二值数字图像，即在数字图像中区分出字符和背景。二值化处理方法很多，但考虑到大量数字识别的需要，一般只能采用一维的阈值分割算法进行处理以获得二值化数字图像，预处理技术在当前比较成熟。

基于SVM的手写数字识别系统主要是利用支持向量机在识别领域良好的识别性能。对于一个完整的识别系统应包括从图像采集到得出识别结果的过程，由于本系统主要是用来检验支持向量机在手写数字识别系统中的应用，所以在本系统中图像采集、样本预处理等就不在

提及，主要是在特征提取方法和识别器设计上下功夫。

手写数字识别一共有10类样本，是属于一个多分类问题。那么对于像手写数字识别这样的多类分别问题，支持向量机又怎样处理呢？实验中可以将多个支持向量机的二类分类器组合起来构成一个多类分类器。构造一个多类分类器的原理是这样的：对于一个N类分类问题，我们需要构造N个基于支持向量机的二类分类器，每一个二类分类器将N类中的每一类与其它N-1类区分开来，识别的时候，只要把输入样本依次输入到N个分类器，比较N个分类器的识别结果，就会得到最终的识别结果。在本系统中有10类，那就要设计10个二类分类器，比如分类器0将0与1、2、3、4、5、6、7、8、9数字分开。实验时将输入向量输入到10个分类器中进行分类，比较10个分类器的分类参数性能判断输入样本是属于哪个数字.

在数字识别领域研究重点是特征提取和识别器设计。在特征提取方面，过去的40年中，人们想出了很多办法获取手写字符的关键特征。这些手段分两大类：全局分析和结构分析。对前者，我们可以使用模板匹配、像素密度、矩、特征点、数学变换等技术。这类的特征常常和统计分类方法一起使用。对后者，多半需要从字符的轮廓或骨架上提取字符形状的基本特征，包括圈、端点、节点、弧、突起、凹陷、笔画等。经过多年的研究研究者提出了各种各样识别的方法，比如有一种基于轮廓信息进行结构分析的手写体数字识别方法，实验中取得了较好的识别结果。

数字的类别只有十种，笔划比较简单，其识别问题似乎不是很困难。但事实上，一些测试结果表明，数字的正确识别率并不如印刷体汉字识别正确率高，甚至也不如联机手写体汉字识别率高，而只仅仅优于脱机手写体汉字识别。这其中主要原因有:

第一，手写数字字形相差不大，比如“1”和“7”，“3”和“8”，由于个人书写习惯不同，书写出来很容易变得很相似，在数字识别系统中，要准确区分开来，就变得很困单;

第二，数字虽然只有十种，而且笔划简单，但也正是因为数字的笔画非常简单，同一数字的写法千差万别，世界各国，各地区的书写习惯、书写方式都有很大不同，很难做到兼顾到各地区各种写法的数字识别系统的高识别率。

第三，在实际应用中，手写数字识别的精确度要求也比汉字识别要严格的多。因为，数字识别常被用到的领域是财会、金融等，这方面的严格性要求不言而喻，往往一字之差，带来的差别与损失是无法估量的。但是数字识别系统的要求并不仅仅是识别率，需要处理的数据一般都是大批量的，所以，即使有了高的识别率，没有相当的速度也是行不通的。

近年来支持向量机已经成为模式识别领域的研究热点因此一些学者也开始把支持向量机技术应用到手写数字识别中，例如有研究者把支持向量机技术与神经网络技术结合，构成一个复合的识别器来识别手写体数字，在实验中该系统取得了很好的识别效果。

但是，支持向量机应用到手写数字识别中也出现了很多有待解决的问题，例如训练时间过长、识别速度慢等问题，解决这些问题还有待进一步研究。

二、研究的基本内容，拟解决的主要问题：

研究基本内容：利用Matlab语言编程实现算法功能。

拟解决的主要问题：

1、SVM（支持向量机）

2、算法的设计与实现。

三、研究步骤、方法及措施：

研究步骤： 1.查阅相关资料，做好笔记；仔细阅读研究文献资料；

2.理清整个课题的思路，撰写开题报告和文献综述；翻译英文资料；

3.根据需求分析，编写算法，实现算法功能；

4.撰写论文；上交论文初稿；

5.反复修改论文；论文定稿。

方法、措施：充分利用好学校和网络资源，搜集与SVM相关的资料，仔细阅读、分析、总结。在老师指导下，与同组同学研究讨论，解决设计中所碰到的问题。

四、参考文献

[1]蒙庚祥,方景龙.基于支持向量机的手写体数字识别系统设计.计算机工程与设计,2005(26).6

[2]刘宏兵,熊盛武.用于手写数字识别的改进模糊支持向量机.小型微型计算机系统,2008(29).05

[3]柳回春,马树元,吴平东,李晓梅.手写体数字识别技术的研究.计算机工程,2003(29).4

[4]张学工.关于统计学习理论与支持向量机.自动化学报,2000(26).01

[5]吴今培.基于核函数的主成分分析及应用.系统工程,2005(23).02

[6]汪同庆,居琰,任莉.基于神经网络及多层次信息整合的手写数字识别.小型微型计算机系统,2003(24).12

[7]卜富清，王茂芝,于庆刚.基于BP神经网络的数字识别.长江大学学报（自然科学版）2009（6）.6

[8]张晓龙，任芳.支持向量机与Adaboost的结合算法研究.计算机应用研究,2009(26).01

[9]谭旭，孔梦荣.基于层次分解决策树的手写体数字识别.微电子学与计算机，2004.11

[10]Nello Cristianini，John Shawe-Taylor.支持向量机导论.北京工业出版社，2004（3）.1