特征提取与选择

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

T
X
(i ) k
X l( j )
(6-7)
分别用 mi 和 m 表示第 i 类样本的均值向量与总体样本的均值向量，有
mi
1 ni
c
X
k 1
ni
(i) k
(6-8)
m Pm i i
i 1
(6-9)
将式（6-8）和式（6-9）代入式(6-6)，得
c 1 J d ( X ) Pi i 1 ni
第6章
特征提取与选择
模式识别的主要任务是设计分类器，将样本划分为相应的类别，获得好的分类性能。而前面章节讨论的分类器设计方法，都是认为样本的特征已经确定，各类样本都分布在由该特征所决定的空间内。因此分类器设计问题是一个使用什么方法，将已确定的特征空间合理划分的问题。分类器设计方法固然重要，但样本的特征选择与提取也是模式识别系统的一个关键的问题。好的特征可以使同类样本的分布更具加紧密，不同类别样本则在该特征空间中更加分开，这就为分类器设计奠定了良好的基础。反之，如果不同类别的样本在该特征空间中混杂在一起，再好的设计方法也无法提高分类器的准确性。本章要讨论的问题就是给定训练样本集，如何设计特征空间的问题。
, X d ) J ij ( X1, X 2 ,
, X d , X d 1 )
在实际应用，有些判据并不一定同时能满足上述四个条件，但并不影响其使用。
6.2.基于距离的可分性判据
基于距离的可分性判据的实质是 Fisher 准则的延伸，即同时考虑样本的类内聚集程度与类间的离散程度这两个因素。这种判据对特征空间优化的结果较好地体现类内密集、类间分离的目的，也就是说，一些不能体现类间分隔开的特征在对特征空间进行优化的过程中很可能被剔除了。基于距离度量在几何上具有直观性，因为一般情况下同类样本在特征空间呈聚类状态，即从总体上说同类样本由于具有共性，因此类内样本间距离应比类间样本间距离小。Fisher 准则正是以使类间距离尽可能大同时又保持类内距离较小这一思想设计的。同样在特征选择与特征提取中也使用类似的思想，称为基于距离的可分性判据。为了度量类内、类间的距离，也可用另一种描述方法，即描述样本的离散程度的方法。在讨论 Fisher 准则时曾用过两个描述离散度的矩阵。一个是类间离散矩阵 S b ，即
J1 ( X ) tr( S w Sb )
(6-5)
其中， “ tr ”表示矩阵的迹。式(6-5)实际上是从计算特征向量间总平均距离的公式推导得到的，该式可写成
Jd ( X )
c 1 c 1 P i Pj 2 i 1 j 1 ni n j
X
k 1 l 1
Sb m1 m2 m1 m2
另一个是类内离散度矩阵 S w ，有
T
(6-1)
Sw S1 S2
其中， S w
X
(6-2)
X m X m
i i
T
, i 1, 2
以上式子是针对两类别情况的，如果推广至 c 类情况，同时考虑各类的先验概率 Pi 不相等，则可将上列各式表示成
J ij ( X 1 , X 2 ,
, X d ) J ij ( X k )
k 1
d
（3）判据具有距离的某些特性，即
J ij 0, i j J ij 0, i j J J ji ij
（4）对特征数目是单调不减的，即
Jij ( X1 , X 2 ,
i 1
c
T
mi m Pi Pj mi m j mi m j 2
6.1 类别可分性判据
特征选择与提取的实质是要对原始特征空间进行优化，这就需要对优化的结果进行评价，在实际应用中经常采用的评价方法，是对分类系统的性能进行测试，最直接的测试指标当然是识别率，其它指标还有识别计算速度、存储容量等。本章讨论的评价方法目的在于找出对特征空间进行优化的具体算法。对特征空间进行优化的任务是求出一组对分类最有效的特征，所谓有效是指在特征维数减少到同等水平时，其分类性能达到最优。因此需要设计出定量分析方法，判断所得到的特征或所选取的特征维数是否对分类最有利，这种用以定量检验分类性能的准则称为类别可分离性判据。一般说来分类器最基本的性能评估是其分类的错误率，如果能用反映错误率大小的准则，在理论上是最合适的。但是正如在前述章节讨论中提到的，对错误率的计算是极其复杂的，以至于很难构筑直接基于错误率的判据。为此人们设法从另一些更直观的方法出发，设计出一些类别可分离性判据的准则，用来检验不同的特征组合对分类性能好坏的影响，进而导出特征选择与特征提取的方法。通常希望所构造的可分性判据满足下列要求：（1）与误判概率有单调关系。（2）当模式的特征独立时，判据有可加性，即
ni
nj
(i ) k
, X l( j )
(6-6)
其中，Pi 、Pj 分别表示各类的先验概率 ni 、n j 分别是第 i 与 j 类的样本个数， X k , X l
(i )

( j 类第 l 个样本之间的距离度量，在欧氏距离情况下有
X k(i ) , X l( j ) X k(i ) X l( j )
X
k 1
ni
(i) k
mi
T
X
(i) k
T mi mi m mi m
(6-10)
式(6-10)中右边括弧里的第一项为类内各特征向量之间的平方距离，第二项为第 i 类的均值向量与总体均值向量之羊的平方距离，第二项可表示为
Pi mi m
c
Sb Pi mi m mi m
i 1 c
T
(6-3)
T S w PE i i X mi X mi i 1
(6-4)
其中， m 为所有样本的总均值向量， Ei 表示 i 类的期望符号。利用(6-3)与(6-4)式可以将基于距离的可分性判据表示如下几种形式。（1）特征向量间平均距离的判据