1什么是模式识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
312012*********—计科三班—张建
1什么是模式识别?
就是通过计算机用数学技术方法来研究模式的自动处理和判读。
我们把环境与客体统称为“模式”。
随着计算机技术的发展,人类有可能研究复杂的信息处理过程。
信息处理过程的一个重要形式是生命体对环境及客体的识别。
对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别。
这是模式识别的两个重要方面。
市场上可见到的代表性产品有光学字符识别等。
2三大核心问题
(1)特征降维
在进行图像的特征提取的过程中,提取的特征维数太多经常会导致特征匹配时过于复杂,消耗系统资源,不得不采用特征降维的方法。
所谓特征降维,即采用一个低纬度的特征来表示高纬度。
特征降维一般有两类方法:特征选择和特征抽取。
特征提取 (extraction):用映射(或变换)的方法把原始特征变换为较少的新特征
特征选择(selection) :从原始特征中挑选出一些最有代表性,分类性能最好的特征。
(2)分类识别
分类判别的前提是已知若干个样品的类别以及每个样品的特征,在此基础上才能对待测样品进行分类判别。
对分类问题需要建立样品库。
根据这些样品库建立判别分类函数,这一过程是由机器来实现的,称为学习过程,然后对一个未知的新对象分析它的特征,决定它属于哪一类。
主要的分类器模板匹配分类器、Bayes分类器、几何分类器、神经网络分类器。
(3)聚类
聚类分析前提是已知若干对象和它们的特征,但是不知道每个对象属于哪一类,而且事先并不知道究竟分成多少类,在此基础上用某种相似性度量的方法,把特征相似的归为一类。
主要的聚类算法:顺序聚类、分层聚类、模型聚类。
3几大算法
(1)主成分分析 ( PCA )
PCA)就是基于K-L变换的提取图像特征的一种最优正交线性变换,可以有效去掉一个随机向量中各元素间的相关性。
PCA的目的:寻找能够表示采样数据的最好的投影子空间.
PCA的求解:特征向量常被叫做“主分量”,每个样本被它在前几个主分量上的投影近似表示,U张成的空间称为原空间的子空间,PCA实际上就是在子空间上的投影。
(2) 线性判别分析(LDA)
LDA的思想: 寻找最能把两类样本分开的投影直线.
LDA的目标: 使投影后两类样本的均值之差与投影样本的总类散布的比值最大 .
LDA的求解: 经过推导把原问题转化为关于样本集总类内散布矩阵和总类间散布矩阵的广义特征值(3)K近邻算法(KNN)
待分类对象的类别可以通过在它附近的训练数据的类别来确定,所以采取的策略就是找到离待分类对象最近的 K 个邻居进行分析。
在 KNN 的设计过程中,有四个要点需要注意:1用来对待分类对象所属类别进行评估的数据集合(不一定需要用到整个训练集);用来计算对象之间相似度的距离或者相似度矩阵(比如,欧式距离,马氏距离等);K 值的选取;用来确定待分类对象所属类别的方法(比如,距离加权与否)。
(4)K均值算法(K-means)
K-means算法是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。
其步骤如下:1为每一个聚类确定一个初始的聚类中心,这样就有K个聚类中心2将样本集中的样本按照最小距离准则分配到最临近聚3使用每个聚类中的样本均值作为新的聚类中4重复步骤2,3直到聚类中心不再变化。
5结束,得到K个聚类.。