手写数字识别的实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

手写数字识别的实现

摘要:

手写数字识别是模式识别的应用之一。文中介绍了手写数字的一些主要特征,具体识别方法是通过主成分分析(PCA)和最近邻方法应用matlab等计算机软件来实现。

关键词:手写数字、主成分分析(PCA)、最近邻方法

1. 手写数字的特征分析

数字类别不但少,而且笔划简单,尤其是手写数字个个差异大。数字识别的关键在于能否找到有效的特征,[2] 就给出了数字的多个特征,选取的特征应具有可分辨能力并尽可能的少,分辨能力在应用中而言就是特征能够使得不同类别的个体在特征值上相差大,同类别特征值相差小。特征值小一方面是为了减少计算量,另一方面也减少了信息冗余。目前研究的手写数字特征主要有笔画密度特征、粗网格特征、重心以及重心距特征、首个黑点位置特征、投影特征以及空间域变换特征等,除了以上特征,也不断的有新的特征[1]被提出。

1.1 数字的特征

1.1.1 单个数字的特征

单个数字特征是指特定数字普遍具有的特征。例如如果数字竖直长度比上横向宽度大于某个值比如 4 ,那么很有可能是数字 1 ,如果数字内有两个封闭的区域则很可能是字8 ,如果只有一个封闭的区域,且封闭区域的重心偏上则很可能是数字9 (同理可判断数字 6 ),以上都是这些数字普遍具有的特征,但因为数字手写的原因,也包含了大量不规则的例子,如图 1 ,则需要进一步

借助其他特征进行识别。

单个数字特征可以辨别出那些具有典型数字特征的手写数字,但计算复杂并且在手写数字识别中误差大,但是作为正式识别过程前的预识别可减少运算量和时间。

1.1.2 笔画密度特征

笔画密度特征是指不同数字在水平方向、竖直方向以及其他角度方向上笔画密度特征。如图 2 数字 1 在竖直方向上笔画密度大,而在水平方向上笔画密度小,而数字8 在倾斜方向上笔画密度大。找到这样的特征我们可以间隔一定行

数对样本进行横向和纵向进行扫描,记录下单行黑色像素点个数为特征值,笔画密度特征对数字畸变和抗噪声能力一般。

1.2 手写数据集介绍

手写数字数据库THE MNIST DATABASE ,有60000个训练样本数据集和10000个测试用例。它是NIST 数据库的一个子集。这些数字图像已经被规范化,将数字置于图像中心,并使图像大小一致。这对于要尝试自己的学习技术和模式识别方法在真实世界中的效果的人来说,是一个好的数据库,它节省了大量处理和格式化的时间。

2. 数据预处理(PCA )

2.1 主成分分析法的基本思想

主成分分析(Principal Component Analysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,

且所含的信息互不重叠。[2]

采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。

2.2 主成分分析法代数模型

假设用p 个变量来描述研究对象,分别用p X X X ,,,21 来表示,这p 个变量构成的p 维随机向量为()T

p X X X X ,,,21 =。设随机向量X 的均值为μ,协方差矩阵为Σ。对X 进行线性变化,考虑原始变量的线性组合:

⎪⎪⎩⎪⎪⎨⎧++=⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯++=++=p

pp p p p p p p p X X X Z X X X Z X X X Z μμμμμμμμμ 22112222121212121111 主成分是不相关的线性组合p Z Z Z , ,,21,并且1Z 是p X X X ,,,21 的线性组合中方差最大者,2Z 是与1Z 不相关的线性组合中方差最大者,……,p Z 是与

1-21,,p Z Z Z , 都不相关的线性组合中方差最大者。

2.3 主成分分析法基本步骤

第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵()p m ij x X ⨯=,其中ij x 表示第i 家上市公司的第j 项财务指标数据。

第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。

第三步:根据标准化数据矩阵建立协方差矩阵R ,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。其中,()p j i R ij ,,2,1, =为原始变量i X 与j X 的相关系数。R 为实对称矩阵(即

ji ij R R =)

,只需计算其上三角元素或下三角元素即可,其计算公式为: 2211

)()()()(j kj n

k i kj

j kj n k i kj ij X X X X X X X X R -=--=-=∑∑ 第四步:根据协方差矩阵R 求出特征值、主成分贡献率和累计方差贡献率,确定主成分个数。解特征方程0=-R E λ,求出特征值()p i i ,,2,1 =λ。因为R 是正定矩阵,所以其特征值i λ都为正数,将其按大小顺序排列,即021≥≥≥≥i λλλ 。特征值是各主成分的方差,它的大小反映了各个主成分的影响力。主成分i Z 的贡献率

∑==p j j j i W 1λλ,累计贡献率为∑∑==p j j m j j 1

1λλ。根据选取主成分个数的原则,特征值要求大于1且累计贡献率达80%-95%的特征值m λλλ,,,21 所对应的1,2,…,m (p m ≤),其中整数m 即为主成分的个数。

第五步:建立初始因子载荷矩阵,解释主成分。因子载荷量是主成分1Z 与原始指标1X 的相关系数()11,X Z R ,揭示了主成分与各财务比率之间的相关程度,

相关文档
最新文档