模式识别综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模式识别综述
摘要:介绍了模式识别系统的组成及各组成部分包含的内容。就统计模式识别、结构模式识别、模糊模式识别、神经网络模式识别等模式识别的基本方法进行简单介绍,并分析了其优缺点。最后列举了模式识别在各领域的应用,针对其应用前景作了相应分析。
关键字:模式识别系统、统计模式识别、结构模式识别、模糊模式识别、神经网络模式识别
背景
随着现代科学技术的发展,特别是计算机技术的发展,对事物认识的要求越来越高,根据实际需求,形成了一种模拟人的各种识别能力(主要是视觉和听觉)和认识方法的学科,这个就是模式识别,它是属于一种自动判别和分类的理论。这一理论孕育于20世纪60年代,随着科学技术的发展,特别是20世纪70年代遥感技术的发展和地球资源卫星的发射,人们通过遥感从卫星取得的巨量信息,需要进行空前规模的处理、识别和应用,在此推动下,模式识别技术便得以迅速发展[1]。发展到现在,应用领域已经非常广阔,包括文本分类、语音识别、视频识别、信息检索和数据挖掘等。模式识别技术在生物医学、航空航天、工业生产、交通安全等许多领域发挥着重要的作用[2]。
基本概念
什么是模式呢?广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是否相同或是否相似,都可以称之为模式。但模式所指的不是事物本身,而是我们从事物获取的信息。因此模式往往表现为具有时间或空间分布的信息[3]。
人们在观察各种事物的时候,一般是从一些具体的个别事物或者很小一部分开始的,然后经过长期的积累,随着对观察到的事物或者现象的数量不断增加,就开始在人的大脑中形成一些概念,而这些概念是反映事物或者现象之间的不同或者相似之处,这些特征或者属性使人们对事物自然而然的进行分类。从而窥豹一斑,对于一些事物或者现象,不需要了解全过程,只需要根据事物或者现象的一些特征就能对事物进行认识。人脑的这种思维能力视为“模式”的概念。
模式识别就是识别出特定事物,然后得出这些事物的特征。识别能力是人类和其他生物的一种基本属性,根据被识别的客体的性质可以将识别活动分为具体的客体与抽象的客体两类。诸如字符、图像、音乐、声音等是具体的客体,他们刺激感官,从而被识别。而思想、信仰、言论等则是抽象的客体,这些属于政治、哲学的范畴。我们研究的主要是一些具体客体的识别,而且仅限于研究用机器完
成识别任务有关的基本理论和实用技术[4]。
模式识别的目的就是利用计算机实现人的类识别能力,是对两个不同层次的识别能力的模拟。对信息的理解往往含有推理过程,需要专家系统,知识工程等相关学科的支持。
模式识别系统
一个典型的模式识别系统如图1所示,由数据获取、预处理、特征提取、分类决策及分类器设计五部分组成。一般分为上下两部分:上部分完成未知类别模式的分类;下半部分属于分类器设计的训练过程,利用样品进行训练,确定分类器的具体参数,完成分类器的设计。而分类决策在识别过程中起作用,对待识别的样品进行分类决策[5]。数据获取预处理特征提取分类决策分类结果未知类别模式的分类
图1模式识别系统及识别过程
训练样本输入预处理特征选择确定判别函数
改进判别函数分类器设计
误差检验
模式识别系统组成单元功能如下。
(1)数据获取
用计算机可以运算的符号来表示所研究的对象,一般获取的数据类型有一下几种。
1
二维图像:文字、指纹、地图、照片等。2
一维波形:脑电图、心电图、季节震动波形等。3物理参量和逻辑值:体温、化验数据、参量正常与否的描述。
(2)预处理
对输入测量仪器或其他因素所造成的退化现象进行复原、去噪声,提取有用信息。
(3)特征提取和选择
对原始数据进行变换,得到最能反映分类本质的特征。将维数较高的测量空间(原始数据组成的空间)转变为维数较低的特征空间(分类识别赖以进行的空
间)。
(4)分类决策
在特征空间中用模式识别方法把被识别对象归为某一类别。
(5)分类器设计
基本做法是在样品训练基础上确定判别函数,改进判别函数和误差检验。模式识别的方法
1.统计模式识别
统计模式识别是对模式的统计分类方法,即结合统计概率论的贝叶斯决策系统进行模式识别的技术,又称为决策理论识别方法。识别是从模式中提取一组特性的度量,构成特征向量来表示,然后通过划分特征空间的方式进行分类。利用模式与子模式分层结构的树状信息所完成的模式识别工作,就是结构模式识别或句法模式识别。
统计模式识别主要是利用贝叶斯决策规则解决最优分类器问题。统计决策理论的基本思想就是在不同的模式类中建立一个决策边界,利用决策函数把一个给定的模式归入相应的模式类中。
在统计模式识别中,贝叶斯决策规则从理论上解决了分类器的设计问题,但贝叶斯方法计算条件概率函数是非常困难的,因为在实际中条件概率一般是未知的,必须从数据样本中估计出来,然而在估算条件概率的时候,受制于样本的数量。样本太少,不能够表征要研究的某类问题,样本太多,给数据采集会造成一定的麻烦,而且计算量也增大了。为此人们提出了各种解决方法:
1.1最大似然估计和贝叶斯估计
这两种方法的前提条件是各类别的条件概率密度的形式已知,而参数类未知。在此情况下,对现有的样本进行参数估计。参数估计在统计学中是很经典的算法,而最大似然估计和贝叶斯估计也是参数估计中常用的方法。最大似然估计是把待估参数看作确定性的量,只是其取值未知,最大似然估计方法所寻找的是能最好解释训练样本的那个参数值;贝叶斯估计把待估参数看作是符合某种先验概率分布的随机变量,而训练样本的作用就是把先验概率转化为后验概率[6]。实际生活中,用的更多的还是最大似然估计,因为此方法更容易实现,而且样本数据充足的情况下,得到的分类器效果比较好。
1.2监督参数统计法
1)KNN法及其衍生法
KNN法也成为K最近领域法,是模式识别的标准算法之一。其基本原理是先将已经分好类别的训练样本点记入到多维空间,然后将待分类的未知样本也记入空间。考察未知样本的K个近邻,弱近邻中某一个类样本最多,则可以将未