特征空间

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

的特征向量。因为
−1
−1
S w Sb w = S w (m1 − m2 ){(m1 − m2 )T S w (m1 − m2 )} = λS w (m1 − m2 ) = λw
−1 −1 −1
−1
10.1 特征提取－LDA

推广：

LDA可以从相同协方差矩阵的正态分布假设和最小错误率准则推出，是Campbell在1984 年指出的。可以做两方面的推广：
10.1 特征提取－PCA
PCA的例子：
x2
y2
λ1
φ2
φ1
y1
λ2
b1
b2
x1
10.1 特征提取－LDA

线性判别分析：Linear Discriminant Analysis (LDA) Fisher(1936), Rao(1965)

在线性判别函数一章，我们讲过Fisher线性判别函数。它的思想是，找一个方向作投影，使得投影后的数据类间距尽可能大，类内距尽可能小。这实际上是两类数据的特征提取，提取的特征数是１。这一思想可以推广到任意类数据，提取任意多个特征。
x1 − x2
2
=
∑ y ξ −∑ y
i =1 1i i i =1
n
n
2 2i i
ξ
≈
∑ y ξ −∑ y
i =1 1i i i =1
m
m
2 2i i
ξ
10.1 特征提取－PCA

PCA的问题：由于用样本协方差矩阵代替协方差矩阵，主分量与训练数据有着很大关系，用一批训练数据得到的主成分，可能不反映其另外一批数据的特征。

10.1 特征提取－PCA

特征向量常被叫做“主分量”，每个样本被它在前几个主分量上的投影近似表示
x = ∑ yiξ i ≈ ∑ yiξ i = ∑ ( x ξ i )ξ i .
T i =1 i =1 i =1

n
m
m
特征值标记着相应特征向量上的能量 ξ1 , ξ 2 , L, ξ m 张成的空间称为原空间的子空间， PCA实际上是在子空间上的投影，并且

希望通过变换，用较少的特征 ( y1, y2 ,L, ym )T T x = ( x , x , L , x ) 可以近似表示原来的对象 n ， 1 2 而且误差尽量的小。 m << n 在所有正交线性变换中，这种最优的变换是Karhunen-Loeve (KL)变换，相应的特征提取方法被称为Principle Component Analysis (PCA)。

10.2 特征选择

一种Filter算法: FOCUS 该算法致力于寻找一个能够正确区分所有类别的最小特征集合。例如，若区分每个人的特征有：姓名、性别、籍贯、工作单位、身份证号…… 则该算法会选择：身份证号搜索时先看一个特征能否正确区分样本，若不能，则考察两个特征……以此类推
10.2 特征选择

用Lagrange 乘子法：
min ( ∑ φ Σφi −
i = m +1 T i
n
i = m +1
∑λ
n
i
φi )
2
得到
Σφi = λiφi
的特征向量， λi 是特征根。
i = m +1 T φ ∑ i Σφi = n i = m +1
φi 是 Σ
2
eφ (m) =
∑λ
n
i
10.1 特征提取－PCA
指纹验证

把一个现场采集到的指纹与一个已经登记的指纹进行一对一的比对来确认身份。
指纹验证
10.0 引言

模式识别中处理特征空间的方法可分为两类：

特征提取(Feature Extraction)：用映射（或变换）的方法把原始特征变换为新特征，称为特征提取

傅立叶变换小波变换 PCA变换 ICA变换 Gabor变换。。。
10.1 特征提取－LDA
准则：源自n x ∈ ℜ , 用原来的特征表示的数据记作

提取的特征表示的数据记作 y = Wx ∈ ℜ m , W是的矩阵。 m× n 沿用Fisher判别函数中的记号，假设共有类： k k 1 T

类间散度矩阵
Sb =
类内总散度矩阵
1 S w = (∑1 + ∑ 2 + L + ∑ k ). k
10.1 特征提取－LDA

求： W
∂W
令 ∂J (W ) = 0.
~ −1 ~ ( S S )W = W ( S w Sb ). 得到：
−1 w b T T
~ −1 ~ 小技巧：对角化 ( S w S b ).
（见习题１）
~ −1 ~ −1 AS w Sb A = Λ1. 为对角阵 A( m×m ) 存在矩阵，使得：
k N

10.2 特征选择

特征选择的方法大体可分两大类：
Filter方法：不考虑所使用的学习算法。通常给出一个独立于分类器的指标μ来评价所选择的特征子集S，然后在所有可能的特征子集中搜索出使得 μ最大的特征子集作为最优特征子集。 Wrapper方法：将特征选择和分类器结合在一起，即特征子集的好坏标准是由分类器决定的，在学习过程中表现优异的的特征子集会被选中。

10.2 特征选择

许多特征选择算法力求解决搜索问题，经典算法有：

10.1 特征提取－PCA

选择协方差矩阵的特征向量 ξ1 , ξ 2 ,L, ξ n 作为正交基，可以使得均方误差最小
10.1 特征提取－PCA

总结：

向量在协方差矩阵的特征向量上的展开称为 Karhunen-Loeve(KL)展开，诱导的线性变换叫做Karhunen-Loeve变换；实际应用中，协方差矩阵是未知的，用样本协方差矩阵代替；
10.0 引言

特征选择(Feature Selection)：从原始特征中挑选出一些最有代表性、可分性能最好的特征来，称为特征选择
10.1 特征提取
10.1 特征提取

特征提取的目的是希望通过变换把原来的特征变换到新的特征空间，使得特征的可分性更好。

PCA LDA
10.1 特征提取－PCA

假设各类服从协方差矩阵不同的正态分布，称为 Heteroscedastic Discriminant Analysis (HDA). 假设各类服从协方差矩阵相同的Gauss混合分布。
10.2 特征选择
10.2 特征选择

特征选择是从原始特征中挑选出一些最有代表性，分类性能最好的特征来。每个特征的状态是离散的 — 选与不选从N个特征中选取k个,共 C 种组合。若不限定个数，则共2N种。－NP 问题这是一个典型的组合优化问题
回忆Bayes决策理论一章的习题，两类问题，正态分布且相同协方差矩阵的假设下，决策面是超平面： T
w x = const.
−1
特征： w = S w ( m1 − m2 )
10.1 特征提取－LDA
w = S w (m1 − m2 )
就是矩阵
−1
S w Sb = S w (m1 − m2 )(m1 − m2 )T
10.0 引言

如何提取特征与具体问题有很大关系，特征是对象的表达，根据知识来考虑

特征的稳定性特征的可分性白细胞的浓度指纹的细节特征

例：

指纹细节特征
指纹特征

指纹的总体特征——纹形
指纹特征

指纹的总体特征——模式区
指纹特征

指纹的总体特征——核心点
指纹特征

指纹的总体特征——三角点
10.0 引言

原始特征数量可能很大，不利于学习。比如 1024*768的灰度图像，256灰度级。直接表示，每幅需要786,432 bytes。进行训练识别所需空间、时间、计算量都无法承受！很少的样本分布会在如此高维的特征空间中显得十分稀疏，因而产生过学习的现象。特征空间有很大的冗余。完全可以用很小的空间相当好地近似表示图像，这一点与压缩的思想类似。
对所有的 x求期望。
10.1 特征提取－PCA

对于一个固定的m
2
min eφ (m) = min E
s.t.
2
i = m +1
∑φ
n
T i
xx φi = min
T
i = m +1
∑φ
n
T i
Σφi
φi = 1, i = m + 1, m + 2,L n
Σ = E ( xxT ).
协方差矩阵。
10.1 特征提取－PCA
指纹特征

指纹的总体特征——纹数
指纹特征

指纹的局部特征——特征点类型1
指纹特征

指纹的局部特征——特征点类型2
指纹特征

指纹局部特征

方向（Orientation）节点可以朝着一定的方向。曲率（Curvature）描述纹路方向改变的速度。位置（Position）节点的位置通过（x,y）坐标来描述，可以是绝对的，也可以是相对于三角点或特征点的。
(m − m )(m − m ) ∑ k
i j i j i, j
10.1 特征提取－LDA

用提取的个特征表示的数据的类内、类间散 m 度矩阵记作：
~ Sb = WSbW T , ~ S w = WS wW T .

准则：求W，希望类内距小、类间距大。
~ −1 ~ J (W ) = tr ( S w Sb ) = tr ((WS wW T ) −1 (WSbW T )).
第十章特征空间

10.0 引言 10.1 特征提取 10.2 特征选择

10.0 引言

模式识别中把每个对象都量化为一组特征来描述，构建特征空间是所有模式识别问题的第一步通过直接测量得到的特征称为原始特征

比如人体的各种生理指标（描述其健康状况）数字图象中的每点灰度值（以描述图像内容）
10.1 特征提取－PCA

正交变换

给定n维空间中的一组标准正交基 φ1 , φ 2 , L , φ n ，它诱导了一个线性变换：
L:x → y yi = x T φ i .
L( x) = y = ( y1 , y2 , L, yn )
T
x = ∑ yiφi .
i =1

n
i = 1,2,L, n.
一种Wrapper算法：OBLIVION 该方法与最近邻法结合，根据特征子集的分类表现来选择特征用顺序后退法搜索特征子集：从全体特征开始，每次剔除一个特征，使得所保留的特征集合有最大的分类识别率（基于最近邻法)。依次迭代，直至识别率开始下降为止用leave-one-out 方法估计平均识别率：用N-1个样本判断余下一个的类别，N次取平均
10.1 特征提取－LDA
−1 T T −1 于是： ( S w S b )W = W AΛ1 A −1 (Sw S b )W T A = W T AΛ1.
m 这说明 W A 是 ( S S ) 的个特征向量！
T
−1 w b
特征向量的求解就用前面的对角化方法：
B S S Bn×n = Λ 2
−1 Sw S b Bn×n = Bn×n Λ 2 .

协方差矩阵的所有特征根是实数，特征向量也是实的，所有n个特征向量构成一组标准正交基，记作 ξ1 , ξ 2 ,L, ξ n ，分别对应特征根 λ1 ≥ λ2 ≥ L ≥ λn .
T λ1 ξ 1 T λ2 ξ 2 Σ = (ξ1 , ξ 2 ,...ξ n ) M O T λn ξ n
−1 n× n
−1 w b
10.1 特征提取－LDA

m维空间中的任何非奇异变换矩阵A都不改变J(W)的值，因此可以忽略A。(请自己证明） −1 设矩阵 ( S w S b ) 的特征值为：
λ1 ≥ λ 2 ≥ L ≥ λ n

则选取前m个特征值对应的特征向量作为 m W，则 J (W ) = λ
正交展开
反之，任何一个正交变换也确定了一组正交基。
10.1 特征提取－PCA

误差

用m个分量表示带来的误差：
∆x(m) = x − ∑ yiφi =
i =1

m
i = m +1
∑ yφ .
i i n 2 i
n
希望误差平方的期望最小：
e (m) = E ∆x(m) = E
2
2
i = m +1
∑y
.
∑
i =1
i
10.1 特征提取－LDA

关于LDA的几点说明：

对于k类问题，选出的特征个数最多只有k-1， Sb 这是因为的秩最多为 k-1。因此，对应非零特征根的特征向量最多有k-1个，那些零特征根对应的特征向量对判据 J 的值没有任何影响。
10.1 特征提取－LDA

LDA可以从另一个角度很容易的推出：假设 Sw 每类数据服从不同均值，相同协方差均阵的正态分布。从最小错误率准则出发就可以得到相同的结果。