模式识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模式识别
摘要:本文简单介绍了模式识别,主要讲述了模式识别常用的方法:神经网络、模糊诊断、支持向量机、聚类分析的定义及各自有缺点。
关键字:模式识别;神经网络;模糊诊;、支持向量机;聚类分析ABSTRACT:This paper briefly introduced the pattern recognition, mainly tells the story of pattern recognition commonly used method: neural network and fuzzy diagnosis, support vector machine, clustering analysis of the definition and have their own shortcomings.
Key words: Pattern recognition; Neural network; Fuzzy diagnosis; And support vector machine (SVM); Clustering analysis
一、模式识别
我们知道,被识对象都具有一些属性、状态或者特征。
而对象之间的差异也就表现在这些特征的差异上。
因此可以用对象的特征来表征对象。
另一方面,从结构来看,有些被识对象可以看作是由若干基本成分按一定的规则组合而成。
因此,可以用一些基本元素的某种组合来刻画对象。
广义地说,存在于时间和空间中可观察的物体,如果我们可以区别它们是否相似,都可以称之为模式。
模式所指的不是事物本身,而是从事物获得的信息,能够表征或刻画被识对象类属特征的信息模型成为对象的模式。
有了模式,对实体对象的识别就转化为对其模式的识别。
识别其实就是分类,即辨识或判别被识对象的类属。
模式识别就是确定一个样本的类别属性(模式类)的过程,即把某一样本归属于多个类型中的某个类型。
模式识别的三大任务:模式采集、特征提取和特征选择、类型判别。
模式识别系统的主要环节:特征提取、特征选择、学习和训练、分类识别。
模式识别的应用如下:
生物学:自动细胞学、染色体特性研究、遗传研究;天文学:天文望远镜图像分析、自动光谱学;经济学:股票交易预测、企业行为分析;医学:心电图分析、脑电图分析、医学图像分析;工程:产品缺陷检测、特征识别、语音识别、自动导航系统、污染分析;军事:航空设想分析、雷达和声纳信号检测和分类、自动目标识别;安全:指纹识别、人脸识别、监视和报警系统。
模式识别常用的方法:神经网络、模糊诊断、支持向量机、聚类分析。
二、模式识别常用的方法
1、聚类分析
聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。
聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法。
聚类分析概述:例如,我们可以根据各个银行网点的储蓄量、人力资源状况、营业面积、特色功能、网点级别、所处功能区域等因素情况,将网点分为几个等级,再比较各银行之间不同等级网点数量对比状况。
聚类分析的基本思想:相似的归为一类、模式相似性的度量和聚类算法、无监督分类。
即我们所研究的样品(网点)或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。
于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。
把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或
指标)聚合完毕,这就是分类的基本思想。
选择什么特征、选择多少个特征、选择什么样的量纲、选择什么样的距离测度对分类结果都会产生极大影响。
聚类过程遵循的基本步骤:特征选择、近邻测度、聚类准则、聚类算法、结果验证、结果判定。
聚类分析法的主要流程包括:数据预处理、为衡量数据点间的相似度定义一个距离函数、聚类或分组和评估输出,用流程图描述如下图:
在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。
R型聚类分析是对变量进行分类处理,Q型聚类分析是对样本进行分类处理。
R型聚类分析的主要作用是:1、不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。
2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。
Q型聚类分析的优点是:1、可以综合利用多个变量的信息对样本进行分类;
2、分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;
3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。
为了进行聚类分析,首先我们需要定义样品间的距离。
常见的距离有:①绝对值距离②欧氏距离③明科夫斯基距离④切比雪夫距离
聚类的几种方法:
(1)直接聚类法
先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。
如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。
每一次归并,都划去该对象所在的列与列序相同的行。
经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。
(2)最短距离聚类法
最短距离聚类法,是在原来的m×m距离矩阵的非对角元素中找出,把分
类对象Gp和Gq归并为一新类Gr,然后按计算公式计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。
(3)最远距离聚类法
最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。
最远距离聚类法所用的是最远距离来衡量样本之间的距离。
目标:用某种相似性度量的方法将原始数据组织成有意义的和有用的各种数据集。
聚类应用的四个基本方向:减少数据、假说生成、假说检验、基于分组的预测。
聚类分析是一种非监督学习的方法,解决方案是数据驱动的。
模糊聚类分析技术广泛应用于故障诊断、识别等场合。
例如应用在了汽车变速箱齿轮故障诊断中,液体火箭发动机故障仿真数据的聚类识别,得到了该方法应用于该型号液体火箭发动机故障诊断中时的精度并据此说明了其应用与液体火箭发动机故障诊断中的应用价值。
2、神经网络
2.1 神经网络介绍
模式描述方法:以不同活跃度表示的输入节点集(神经元)
模式判定:是一个非线性动态系统。
通过对样本的学习建立起记忆,然后将未知模式判决为其最接近的记忆。
理论基础:神经生理学,心理学
主要方法:BP模型、HOP模型、高阶网
主要优点:可处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题。
允许样本有较大的缺损、畸变。
主要缺点:模型在不断丰富与完善中,目前能识别的模式类还不够多。
神经网络是受人脑组织的生理学启发而创立的。
由一系列互相联系的、相同的单元(神经元)组成。
相互间的联系可以在不同的神经元之间传递增强或抑制信号。
增强或抑制是通过调整神经元相互间联系的权重系数来实现的。
神经网络可以实现监督和非监督学习条件下的分类。
神经网络具有并行处理能力、自学习能力、自适应能力和以任意精度逼近任意非线性函数的特点,是解决非线性、多变量、不确定等复杂控制问题的一条十分有效的途径,它在模式识别、系统辨识、控制等领域都得到了广泛的应用。
神经网络的类型多种多样,它们是从不同角度对生物神经系统不同层次的抽象和模拟。
从功能特性和学习特性来分,典型的神经网络模型主要包括感知器神经网络、线性神经网络、BP神经网络、径向基函数神经网络(RBF神经网络)、自组织映射神经网络和反馈神经网络等。
BP神经网络和RBF神经网络在解决非线性系统辨识中蕴藏着巨大的潜力。
而RBF神经网络是以函数逼近理论为基础而构造的一类前向网络,且每个隐含层神经元传递函数都构成了拟合平面的一个基函数,它是一种局部逼近网络(即对于输入空间的某一个局部区域只存在少数的神经元用于决定网络的输出),且径向基函数神经网络的学习速度要较BP网络快,这类网络的学习等价于在多维空间中寻找训练数据的最佳似合面。
径向基函数神经网络在逼近能力和学习速度等方面均优于BP神经网络。
2.2 神经网络模式识别原理
模式识别主要是研究对象的特征或属性,利用以计算机为中心的机器系统运用一定的分析算法认定对象的类别,系统应使分类识别的结果尽可能地与真实情况相符合。
模式识别方法最大的实用性在于“智能”仿真,可以说在平常生活中随处可见,如医疗诊断系统、地球资源探测系统、机器人辅助生产线、公安人员用于破案的指纹识别系统等。
模式识别包含由特征和属性所描述的对象的数学模型,这里所提到的特征和属性是指通常意义上的系统的输入/输出数据对。
模式识别系统主要由两个过程组成,即设计过程和实现过程。
设计过程是指用一定数量的样本(也称训练集或学习集)进行分类器的设计:实现过程是指用所设计的分类器对待识别的样本进行分类决策。
神经网络以其强大的非线性映射能力,已经在模式识别领域中得到了广泛的应用,能够实现网络仿真,达到很好的识别分类效果,而且运用也是很广泛的。
针对不同模型需要我们仔细考虑如何进行特征选择,建立相应的神经网络模型,并对网络优化设计训练,提高网络性能,最终实现识别分类的效果。
模式识别的神经网络方法和传统的方法相比,具有下面几个明显的优点:(1)具有较强的容错性,能够识别带有噪声或变形的输入模式;
(2)具有很强的自适应学习能力;
(3)并行分布式信息存储与处理,识别速度快;
(4)能把识别处理和若干与处理融为一体进行。
神经网络在尾水管故障诊断,柴油机故障诊断,大型回转机械故障诊断,模拟电路故障诊断,核电厂故障诊断,电气故障诊断等等都已经得到广泛的应用。
3、支持向量机
根据统计学习理论,学习机器的实际风险由经验风险值和置信范围值两部分组成。
而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差,没有最小化置信范围值,因此其推广能力较差。
Vapnik 提出的支持向量机(Support Vector Machine, SVM)以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。
支持向量机是在统计学习理论的基础上发展起来的一种新的机器学习方法,它是建立在统计学习理论的VC维理论和结构风险最小化原则上的,避免了局部极小点(支持向量机算法是一个凸二次优化问题,能够保证找到的极值解就是全局最优解),并能有效地解决过学习问题,具有良好的推广性能和较好的分类精确性(由有限训练样本得到的决策规则对独立的测试集仍能够得到小的误差)。
由于SVM 的求解最后转化成二次规划问题的求解,因此SVM 的解是全局唯一的最优解
SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中
Joachims 最近采用SVM在Reuters-21578来进行文本分类,并声称它比当前发表的其他方法都好
先考虑二维情况下的线性可分的两类样本(○,×),如图所示,存在很多条可能的分类线能够将训练样本分开。
显然分类线a最好,因为它更远离每一类样本,风险小。
而其他的分类线离样本较近,只要样本有较小的变化,将会导致错误的分类结果。
因此分类线a是代表一个最优的线性分类器。
所谓最优分类线就是要求分类线不但能将两类无误地分开,而且要使两类的分类间隔最大。
图中H是最优分类线,H1和H2分别为过各类样本中离分类线最近的点且平行于分类线的直线,H1和H2之间的距离叫做两类的分类空隙或者分类间隔(margin)。
将二维推广到高维,最优分类线就成为最优分类超平面。
设线性可分样本集为(xi,yi),i=1,2,…n,x∈Rd,y∈{+1,-1}是类别号。
d维空间中线性判别函数的一般形式为g(x)=w•x+b,则分类超平面方程为:
w•x+b=0
其中,w为分类超平面的法线,是可调的权值向量;b为偏置,决定相对原点的位置。
当两类样本是线性可分时,满足条件:
(w•xi)+b≥+1 yi=+1
(w•xi)+b≤-1 yi=-1
超平面(w•xi)+b=+1距离原点的垂直距离为|1|
||||
b
w
-
,而超平面
(w•xi)+b=-1距离原点的垂直距离为|1|
||||
b
w
--
,因此分类间隔就等于
|11|2_||||||||b b w w -++ ,所以使间隔最大等价于使 |||w (或 2|||w )最小。
若要求分类线对所有样本正确分类,则要求它满足:
yi[(w •xi)+b]-1≥0,i=1,2,…,n
因此满足该条件且使 2|||w 最小的分类超平面就是最优分类超平面。
过两类样本中离分类超平面最近点且平行于最优分类面的超平面的训练样本就是使等号成立的哪些样本,它们叫做支持向量(Support Vectors)。
最优分类超平面问题可以表示成如下约束优化问题
2,,11min ()min ||||min ()22w b w b w w w w Φ==⋅ 其约束条件为
yi[(w •xi)+b]-1≥0,i=1,2,…,n
定义Lagrange 函数:
[]{}11(,,)()()12n i i i i L w b w w y w x b αα==⋅-⋅+-∑
其中,αi>0为Lagrange 系数。
分别对w 和b 求偏微分并令它们等于0,
得 11
11(,,)0(,,)00n n i i i i i i i i n
n i i i i i i L w b w y x w y x w L w b y y b αααααα====∂=-=⇒=∂∂==⇒=∂∑∑∑∑
带入原始Lagrange 函数,得
1,11()()2n n
i i j i j i j i i j Q y y x x αααα===-⋅∑∑
因此,原问题转换为对偶问题:
在约束条件:
10
0,1,2,,n i
i i i y i n αα==≥=∧∑
之下对αi 求解下列函数的最大值:
1,11()()2n n
i i j i j i j i i j Q y y x x αααα===-⋅∑∑
对偶问题完全是根据训练数据来表达的。
所得到的解αi 只有一部分(通常是少部分)不为零,对应的样本就是支持向量。
若 i α+ 为最优解,则
1n i i i i w y x α+
+==∑, 1s s b w x y ++=-⋅
其中s x 为任一支持向量。
最后得到的最优分类函数为:
1()sgn ()sgn ()n i i i i f x w x b y x x b α++
++=⎡⎤⎡⎤=⋅+=⋅+⎢⎥⎣⎦⎣⎦∑ 支持向量机的学习算法:
① 给出一组输入样本xi,i=1,2,…,n 及其对应的期望输出yi ∈{+1,-1};
② 在约束条件:10
0,1,2,,n i
i i i y i n αα==≥=∧∑
下求解下面函数的最大值,得到 i α+ ;
1,11()()2n n
i i j i j i j i i j Q y y K x x αααα===-⋅∑∑
③ 计算:
1n i i i i w y x α+
+==∑, 1s s b w x y ++=-⋅ 其中s x 为一个特定的支持向量;
④ 对于待分类向量x ,选择某一特定类型的核函数K(x,xi),计算:
1()sgn ()sgn ()n i i i i f x w x b y K x x b α++
++=⎡⎤⎡⎤=⋅+=⋅+⎢⎥⎣⎦⎣⎦∑ 为+1或-1,决定x 属于哪一类。
SVM 方法的特点
① 非线性映射是SVM 方法的理论基础,SVM 利用内积核函数代替向高维空间的非线性映射;
② 对特征空间划分的最优超平面是SVM 的目标,最大化分类边际的思想是SVM 方法的核心;
③ 支持向量是SVM 的训练结果,在SVM 分类决策中起决定作用的是支持向量。
SVM 是一种有坚实理论基础的新颖的小样本学习方法。
它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。
从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”(transductive inference) ,大大简化了通常的分类和回归等问题。
SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。
少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。
这种
“鲁棒”性主要体现在:
①增、删非支持向量样本对模型没有影响;
②支持向量样本集具有一定的鲁棒性;
③有些成功的应用中,SVM 方法对核的选取不敏感。
SVM 应用
近年来SVM 方法已经在图像识别、信号处理和基因图谱识别等方面得到了成功的应用,显示了它的优势。
SVM 通过核函数实现到高维空间的非线性映射,所以适合于解决本质上非线性的分类、回归和密度函数估计等问题。
支持向量方法也为样本分析、因子筛选、信息压缩、知识挖掘和数据修复等提供了新工具。
支持向量机的研究:对支持向量机的研究主要集中在对SVM本身性质的研究以及加大支持向量机应用研究的深度和广度两方面。
SVM训练算法:传统的利用标准二次型优化技术解决对偶问题的方法,是SVM训练算法慢及受到训练样本集规模制约的主要原因。
目前已提出了许多解决方法和改进算法,主要是从如何处理大规模样本集的训练问题、提高训练算法收敛速度等方面改进。
主要有:分解方法、修改优化问题法、增量学习法、几何方法等分别讨论。
SVM分类算法:训练好SVM分类器后,得到的支持向量被用来构成决策分类面。
对于大规模样本集问题,SVM训练得到的支持向量数目很大,则进行分类决策时的计算代价就是一个值得考虑的问题。
解决方法如:缩减集(Reduced Set) SVM方法,采用缩减集代替支持向量集,缩减集中的向量不是支持向量,数目比支持向量少,但它们在分类决策函数中的形式与支持向量相同。
支持向量机针对小样本情况所表现出来的优良性能引起了众多故障诊断领域研究人员的注意,Poyhonen等对SVM在电机故障诊断方面进行了应用研究,Gao等将SVM用于往复式泵故障诊断;Worden等运用SVM进行球轴承故障分类。
Jack将SVM用于滚动轴承的状态检测,并采用遗传算法优化SVM的参数,取得比较好的推广性能。
Samanta分别用轴承和齿轮故障诊断比较神经网络和SVM的性能,并采用遗传算法优化各自的参数。
Chu等运用SVM进行故障检测和运行模式识别,还有许多的例子,在这里不再详细的进行介绍。
这些针对不同故障现象的诊断研究表明:将支持向量机应用在故障诊断方面,其性能优于许多已有的方法。
对于小样本,诊断精度高于神经网络方法,对于高维样本,诊断速度比神经网络快。
众所周知,故障诊断的瓶颈之一就是故障样本的缺乏,由此可见SVM在机械故障诊断中有很好的应用前景。
但是目前大多数还处在实验阶段,真正应用到实际中还需要进一步的研究和现场实践。
4、模糊诊断
人类对模式识别过程的机理目前仍然不是很清楚。
对具体事物的识别主要是心理现象,对抽象事物的识别主要是思维现象。
当一个人对于具体事物的认识,涉及人与客观事物在人类感官中所引起的刺激之间的关系。
当一个人感受到一个模式时,他把此感觉与他从自己过去的经验中得来的一般概念或线索结合起来,并作出归纳性的推理判断。
由于客观事物的特征存在不同程度的模糊性,使得经典的识别方法越来越不适应客观实际的要求,模糊识别正是为了满足这一要求而产生起来的。
模式描述方法:模糊集合 A={(μa,a), (μb,b),... (μn,n)}
模式判定:是一种集合运算。
用隶属度将模糊集合划分为若干子集, m 类就有m 个子集,然后根据择近原则分类。
理论基础:模糊数学
主要方法:模糊统计法、二元对比排序法、推理法、模糊集运算规则、模糊矩阵
主要优点:由于隶属度函数作为样本与模板间相似程度的度量,故往往能反映整体的与主体的特征,从而允许样本有相当程度的干扰与畸变。
主要缺点:准确合理的隶属度函数往往难以建立,故限制了它的应用。
模糊模式识别已实际应用在选煤厂工序失控原因诊断系统、内燃机失火故障的研究中。
...1m x c x kx k t T ++=÷。