统计模式识别方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计模式识别方法
在嗅觉模拟技术领域中,模式识别问题就是由气敏传感器阵列的测量空间向被测对象的的分类或分级空间转化的问题。由于这种模式空间的变化对识别或鉴别结果有着较大的影响,因此模式识别算法的研究和讨论始终较为活跃,各种模式识别方法层出不穷,有力推动了嗅觉模拟技术的应用进程。下面介绍几种常用的统计模式识别方法。
1统计模式识别概述
统计方法,是发展较早也比较成熟的一种方法。被识别对象首先数字化,变换为适于计算机处理的数字信息。一个模式常常要用很大的信息量来表示。许多模式识别系统在数字化环节之后还进行预处理,用于除去混入的干扰信息并减少某些变形和失真。随后是进行特征抽取,即从数字化后或预处理后的输入模式中抽取一组特征。所谓特征是选定的一种度量,它对于一般的变形和失真保持不变或几乎不变,并且只含尽可能少的冗余信息。特征抽取过程将输入模式从对象空间映射到特征空间。这时,模式可用特征空间中的一个点或一个特征矢量表示。这种映射不仅压缩了信息量,而且易于分类。在决策理论方法中,特征抽取占有重要的地位,但尚无通用的理论指导,只能通过分析具体识别对象决定选取何种特征。特征抽取后可进行分类,即从特征空间再映射到决策空间。为此而引入鉴别函数,由特征矢量计算出相应于各类别的鉴别函数值,通过鉴别函数值的比较实行分类。
统计模式识别的技术理论较完善,方法也很多,通常较为有效,现已形成了一个完整的体系。尽管方法很多,但从根本上讲,都是利用各类的分布特征,即直接利用各类的概率密度函数、后验概率等,或隐含地利用上述概念进行识别。其中基本的技术为聚类分析法、判别类域代数界面法、统计决策法、最邻近法等。在聚类分析中,利用待分类模式之间的“相似性”进行分类,较相似的作为一类,较不相似的作为另外一类。在分类过程中不断地计算所划分的各类的中心,一个待分类模式与各类中心的距离作为对其分类的依据。这实际上在某些设定下隐含地利用了概率分布概念,因常见的概率密度函数中,距期望值较近的点概密值较大。该类方法的另一种技术是根据待分类模式和已指判出类别的模式的距离来确定其判别,这实际上也是在一定程度上利用了有关的概念。判别类域界面法中,用已知类别的训练样本产生判别函数,这相当于学习或训练。根据待分类模式
代入判别函数后所得值的正负来确定其类别。判别函数提供了相邻两类判别域的界面,其也相应于在一些设定下两类概密函数之差。在统计判决中,在一些分类识别准则下严格地按照概率统计理论导出各种判决规则,这些判决规则可以产生某种意义上的最优分类识别结果。这些判决规则要用到各类的概率密度函数、先验概率或后验概率。这可以通过训练样本对未知概率密度函数中的参数进行估计,或对未知的概密函数等进行逼近而估计他们。 在最邻近法中,是根据待分类模式的一个或k 个近邻样本的类别而确定其类别。
2 主成分分析方法
主成分分析是一种掌握事物主要矛盾的统计分析方法,也是一种古老的多元统计分析技术。它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定 n 个变量的m 个观察值,形成一个 n x m 的数据矩阵,n 通常比较大。对于一个由多个变量描述的复杂事物,人们难以认识,那么是否可以抓住事物主要方面进行重点分析呢?如果事物的主要方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。但是,在一般情况下,并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面,PCA 就是这样一种分析方法。
PCA 的目标是寻找 r (r PCA 的算法步骤 设相关矩阵为Rp×p ,求特征方程0=-i R λ,其解为特征根λi 将解由小到大进行排序为: 1. 求样本数据矩阵X 的协方差矩阵 。 2. 求协方差矩阵 的特征值,并按降序排列, 如 3. 求对应于各特征值的单位特征向量 , ,…, 并作相应的主 轴。 120 p λλλ≥≥≥>∑∑120p λλλ≥≥≥>2u 1u 4. 按下式计算某个特征值的贡献率 : 5. 根据各特征值贡献率的大小,依次选取所需要的第一主轴,第二主轴, 直至第m 主轴。 6. 利用下式计算样本数据矩阵X 的第i 主成分Yi : 在应用时,一般取累计贡献率为80%以上比较好。 3 近邻法 KNN 法也称K 最近邻法,是模式识别的标准算法之一,属于有监督(或称有导师)的模式识别方法。其基本思想是,先将已知类别或等级的样本点在多维空间中描述出来,然后将待分类的未知样本点也用同样的多维空间加以描述。考察未知样本点的K 个近邻(K 为奇正数,如1,3,5,7等)。若近邻中某一类或某一等级的样本点最多,则可将未知样本点判为此类获此等级中的点。在多维空间中,各样本点的距离通常用欧氏距离来描述: 21 12 )(),(∑=-=n i i i y x y x d 式中,),(y x d 是未知类别(或等级)样本点x 到已知类别(或等级)样本点y 的欧氏距离;n 是多维空间的维数;i x 是x 的第i 维分量;i y 是y 的第i 维分量。 有时为了计算方便,也采用绝对距离来描述: ∑=-=n i i i y x y x d 1),( 当然,也可用其他距离或度量来描述多维空间中两样本点的距离(如马氏距离等)。 KNN 法的好处是,它对数据结构没有特定的要求,如不要求线性可分性,只需用每个每个未知样本点的近邻类别或等级属性来判别即可。这种方法的缺点是没有对样本点进行信息压缩。因此,每当判别一个新样本点时都要对已知样本点的距离全部计算一遍,计算量较大。 一种简化的算法称为类重心法:将已知类别或等级的样本点重心求出,然后判别未知样本点与各重心点的距离。未知样本点与哪一个重心距离最近,即可将未知样本点归属于哪一类或哪一等级。 i ν1100%i p j j λλ=⨯∑m i X u i T i ,...,2,1,Y ==