特征空间

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

10.1 特征提取-LDA

准则:

n x ∈ ℜ , 用原来的特征表示的数据记作

提取的特征表示的数据记作 y = Wx ∈ ℜ m , W是 的矩阵。 m× n 沿用Fisher判别函数中的记号,假设共有 类: k k 1 T

类间散度矩阵
Sb =
类内总散度矩阵
1 S w = (∑1 + ∑ 2 + L + ∑ k ). k
−1 n× n
−1 w b
10.1 特征提取-LDA


m维空间中的任何非奇异变换矩阵A都不 改变J(W)的值,因此可以忽略A。(请自 己证明) −1 设矩阵 ( S w S b ) 的特征值为:
λ1 ≥ λ 2 ≥ L ≥ λ n

则选取前m个特征值对应的特征向量作为 m W,则 J (W ) = λ
(m − m )(m − m ) ∑ k
i j i j i, j
10.1 特征提取-LDA

用提取的 个特征表示的数据的类内、类间散 m 度矩阵记作:
~ Sb = WSbW T , ~ S w = WS wW T .

准则:求W,希望类内距小、类间距大。
~ −1 ~ J (W ) = tr ( S w Sb ) = tr ((WS wW T ) −1 (WSbW T )).

10.2 特征选择



一种Filter算法: FOCUS 该算法致力于寻找一个能够正确区分所 有类别的最小特征集合。 例如,若区分每个人的特征有:姓名、 性别、籍贯、工作单位、身份证号…… 则该算法会选择:身份证号 搜索时先看一个特征能否正确区分样本, 若不能,则考察两个特征……以此类推
10.2 特征选择


希望通过变换,用较少的特征 ( y1, y2 ,L, ym )T T x = ( x , x , L , x ) 可以近似表示原来的对象 n , 1 2 而且误差尽量的小。 m << n 在所有正交线性变换中,这种最优的变 换是Karhunen-Loeve (KL)变换,相应的 特征提取方法被称为Principle Component Analysis (PCA)。
10.1 特征提来自百度文库-PCA

选择协方差矩阵的特征向量 ξ1 , ξ 2 ,L, ξ n 作 为正交基,可以使得均方误差最小
10.1 特征提取-PCA

总结:

向量在协方差矩阵的特征向量上的展开称为 Karhunen-Loeve(KL)展开,诱导的线性变换 叫做Karhunen-Loeve变换; 实际应用中,协方差矩阵是未知的,用样本 协方差矩阵代替;

协方差矩阵的所有特征根是实数,特征 向量也是实的,所有n个特征向量构成一 组标准正交基,记作 ξ1 , ξ 2 ,L, ξ n ,分别对 应特征根 λ1 ≥ λ2 ≥ L ≥ λn .
T λ1 ξ 1 T λ2 ξ 2 Σ = (ξ1 , ξ 2 ,...ξ n ) M O T λn ξ n
对所有的 x求期望。
10.1 特征提取-PCA

对于一个固定的m
2
min eφ (m) = min E
s.t.
2
i = m +1
∑φ
n
T i
xx φi = min
T
i = m +1
∑φ
n
T i
Σφi
φi = 1, i = m + 1, m + 2,L n
Σ = E ( xxT ).
协方差矩阵。
10.1 特征提取-PCA
的特征向量。因为
−1
−1
S w Sb w = S w (m1 − m2 ){(m1 − m2 )T S w (m1 − m2 )} = λS w (m1 − m2 ) = λw
−1 −1 −1
−1
10.1 特征提取-LDA

推广:


LDA可以从相同协方差矩阵的正态分布假设 和最小错误率准则推出,是Campbell在1984 年指出的。 可以做两方面的推广:
x1 − x2
2
=
∑ y ξ −∑ y
i =1 1i i i =1
n
n
2 2i i
ξ

∑ y ξ −∑ y
i =1 1i i i =1
m
m
2 2i i
ξ
10.1 特征提取-PCA

PCA的问题:由于用样本协方差矩阵代 替协方差矩阵,主分量与训练数据有着 很大关系,用一批训练数据得到的主成 分,可能不反映其另外一批数据的特征。

10.2 特征选择

许多特征选择算法力求解决搜索问题, 经典算法有 :

10.0 引言

如何提取特征与具体问题有很大关系, 特征是对象的表达,根据知识来考虑

特征的稳定性 特征的可分性 白细胞的浓度 指纹的细节特征

例:

指纹细节特征
指纹特征

指纹的总体特征——纹形
指纹特征

指纹的总体特征——模式区
指纹特征

指纹的总体特征——核心点
指纹特征

指纹的总体特征——三角点
一种Wrapper算法:OBLIVION 该方法与最近邻法结合,根据特征子集的分类 表现来选择特征 用顺序后退法搜索特征子集: 从全体特征开始,每次剔除一个特征,使得所 保留的特征集合有最大的分类识别率(基于最 近邻法)。依次迭代,直至识别率开始下降为止 用leave-one-out 方法估计平均识别率: 用N-1个样本判断余下一个的类别,N次取平均
10.1 特征提取-LDA

求 : W
∂W
令 ∂J (W ) = 0.
~ −1 ~ ( S S )W = W ( S w Sb ). 得到:
−1 w b T T
~ −1 ~ 小技巧:对角化 ( S w S b ).
(见习题1)
~ −1 ~ −1 AS w Sb A = Λ1. 为对角阵 A( m×m ) 存在矩阵 ,使得:
指纹验证

把一个现场采集到的指纹与一个已经登 记的指纹进行一对一的比对来确认身份。
指纹验证
10.0 引言

模式识别中处理特征空间的方法可分为两类:

特征提取(Feature Extraction):用映射(或变换) 的方法把原始特征变换为新特征,称为特征提取

傅立叶变换 小波变换 PCA变换 ICA变换 Gabor变换 。。。
10.1 特征提取-PCA
PCA的例子:
x2
y2
λ1
φ2
φ1
y1
λ2
b1
b2
x1
10.1 特征提取-LDA

线性判别分析:Linear Discriminant Analysis (LDA) Fisher(1936), Rao(1965)

在线性判别函数一章,我们讲过Fisher线性 判别函数。它的思想是,找一个方向作投影, 使得投影后的数据类间距尽可能大,类内距 尽可能小。这实际上是两类数据的特征提取, 提取的特征数是1。这一思想可以推广到任 意类数据,提取任意多个特征。

用Lagrange 乘子法:
min ( ∑ φ Σφi −
i = m +1 T i
n
i = m +1
∑λ
n
i
φi )
2
得到
Σφi = λiφi
的特征向量, λi 是特征根。
i = m +1 T φ ∑ i Σφi = n i = m +1
φi 是 Σ
2
eφ (m) =
∑λ
n
i
10.1 特征提取-PCA

10.1 特征提取-PCA

特征向量常被叫做“主分量”,每个样本被它 在前几个主分量上的投影近似表示
x = ∑ yiξ i ≈ ∑ yiξ i = ∑ ( x ξ i )ξ i .
T i =1 i =1 i =1

n
m
m
特征值标记着相应特征向量上的能量 ξ1 , ξ 2 , L, ξ m 张成的空间称为原空间的子空间, PCA实际上是在子空间上的投影,并且
指纹特征

指纹的总体特征——纹数
指纹特征

指纹的局部特征——特征点类型1
指纹特征

指纹的局部特征——特征点类型2
指纹特征

指纹局部特征



方向(Orientation) 节点可以朝着一定的方向。 曲率(Curvature) 描述纹路方向改变的速度。 位置(Position) 节点的位置通过(x,y)坐标来描述, 可以是绝对的,也可以是相对于三角点或特 征点的。


假设各类服从协方差矩阵不同的正态分布,称为 Heteroscedastic Discriminant Analysis (HDA). 假设各类服从协方差矩阵相同的Gauss混合分布。
10.2 特征选择
10.2 特征选择

特征选择是从原始特征中挑选出一些最有代表 性,分类性能最好的特征来。 每个特征的状态是离散的 — 选与不选 从N个特征中选取k个,共 C 种组合。若不限 定个数,则共2N种。-NP 问题 这是一个典型的组合优化问题
回忆Bayes决策理论一章的习题,两类问题,正 态分布且相同协方差矩阵的假设下,决策面是 超平面: T
w x = const.
−1
特征: w = S w ( m1 − m2 )
10.1 特征提取-LDA
w = S w (m1 − m2 )
就是矩阵
−1
S w Sb = S w (m1 − m2 )(m1 − m2 )T
第十章 特征空间

10.0 引言 10.1 特征提取 10.2 特征选择


10.0 引言


模式识别中把每个对象都量化为一组特 征来描述,构建特征空间是所有模式识 别问题的第一步 通过直接测量得到的特征称为原始特征

比如人体的各种生理指标(描述其健康状况) 数字图象中的每点灰度值(以描述图像内容)
10.1 特征提取-LDA
−1 T T −1 于是: ( S w S b )W = W AΛ1 A −1 (Sw S b )W T A = W T AΛ1.
m 这说明 W A 是 ( S S ) 的 个特征向量!
T
−1 w b
特征向量的求解就用前面的对角化方法:
B S S Bn×n = Λ 2
−1 Sw S b Bn×n = Bn×n Λ 2 .
k N



10.2 特征选择


特征选择的方法大体可分两大类:
Filter方法:不考虑所使用的学习算法。通常给出 一个独立于分类器的指标μ来评价所选择的特征 子集S,然后在所有可能的特征子集中搜索出使得 μ最大的特征子集作为最优特征子集。 Wrapper方法:将特征选择和分类器结合在一起, 即特征子集的好坏标准是由分类器决定的,在学 习过程中表现优异的的特征子集会被选中。

i =1
i
10.1 特征提取-LDA

关于LDA的几点说明:

对于k类问题,选出的特征个数最多只有k-1, Sb 这是因为 的秩最多为 k-1。因此,对应 非零特征根的特征向量最多有k-1个,那些 零特征根对应的特征向量对判据 J 的值没有 任何影响。
10.1 特征提取-LDA

LDA可以从另一个角度很容易的推出:假设 Sw 每类数据服从不同均值,相同协方差均阵 的正态分布。从最小错误率准则出发就可以 得到相同的结果。
正交展开
反之,任何一个正交变换也确定了一组正交基。
10.1 特征提取-PCA

误差

用m个分量表示带来的误差:
∆x(m) = x − ∑ yiφi =
i =1

m
i = m +1
∑ yφ .
i i n 2 i
n
希望误差平方的期望最小:
e (m) = E ∆x(m) = E
2
2
i = m +1
∑y
.
10.1 特征提取-PCA

正交变换

给定n维空间中的一组标准正交基 φ1 , φ 2 , L , φ n , 它诱导了一个线性变换:
L:x → y yi = x T φ i .
L( x) = y = ( y1 , y2 , L, yn )
T
x = ∑ yiφi .
i =1

n
i = 1,2,L, n.
10.0 引言

原始特征数量可能很大,不利于学习。 比如 1024*768的灰度图像,256灰度级。 直接表示,每幅需要786,432 bytes。进行训 练识别所需空间、时间、计算量都无法承受! 很少的样本分布会在如此高维的特征空间中 显得十分稀疏,因而产生过学习的现象。 特征空间有很大的冗余。完全可以用很小的 空间相当好地近似表示图像,这一点与压缩 的思想类似。
10.0 引言

特征选择(Feature Selection):从原始特征中 挑选出一些最有代表性、可分性能最好的特 征来,称为特征选择
10.1 特征提取
10.1 特征提取

特征提取的目的是希望通过变换把原来 的特征变换到新的特征空间,使得特征 的可分性更好。

PCA LDA
10.1 特征提取-PCA
相关文档
最新文档