KL变换

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

的本征值的下降次序选择 1 9 . 5 9 .5 例:设一样本集的协方差矩阵是:C = 9 .5 7 .5 求最优2x1特征提取器U 解答:计算特征值及特征向量[V, D]=eig(C); 0 .8 7 5 .4 特征值D=[24.736, 2.263]T,特征向量: V = 0 .4 8 2 −00.8 7852 由于λ1>λ2,故最优2x1特征提取器 U = [u ] = 0 .8 7 5 0 .4 8 2 此时的K-L变换式为:
y ju
j
y
j
= u Tj x
ˆ ˆ ε = E (x − x )T (x − x )
2 j
j = d +1


y = E
∑+ 1 u x x u j j=d
∞ T j T
R = ri j = E ( x i x j ) = E x x T
λ2

0 λd
K-L变换图解 变换图解
x2
二次 曲线方程
特征 提取
u2
f (x1, x2,⋯ xn) , = ∑rij xxj i
i, j=1 n
u1 x1
= x' Rx = y'(U' RU)y = y' Λy = λ y +λ y +⋯ y λ
2 1 1 2 2 2
标准二次 曲线方程
j =1 d
矩阵形式:
X = Ua
(5-49)
a = [a1 , a2 ,⋯, ad ]T ,U n×d = [u1 ,⋯, u j ,⋯, ud ] 。 式中, T 其中:u j = [u j1 , u j 2 , ⋯ , u jn ]
T u1 T u 2 [ u u ⋯ u ] = I T U U = 1 2 d ⋯ T ud
[W,R] = FEATSELB(A,CRIT,K,T,FID) Backward selection of K features using the dataset A. CRIT sets the criterion used by the feature evaluation routine FEATEVAL.
K-L变换的不足之处 1)对两类问题容易得到较满意的结果。类别愈多,效 果愈差。 2)需要通过足够多的样本估计样本集的协方差矩阵或 其它类型的散布矩阵。当样本数不足时,矩阵的估计 会变得十分粗略,变换的优越性也就不能充分的地显 示出来。 3)计算矩阵的本征值和本征向量缺乏统一的快速算法, 给计算 带来困难。
顺序后退法Sequential backw. 顺序后退法 selection
特征 选择
该方法根据特征子集的分类表现来选择特征 搜索特征子集:从全体特征开始,每次剔除 一个特征,使得所保留的特征集合有最大的 分类识别率 依次迭代,直至识别率开始下降为止 用“leave-one-out”方法估计平均识别率:用 N-1个样本判断余下一个的类别,N次取平均。
x=Uy
2 n n
K-L变换的数据压缩图解 变换的数据压缩图解
取2x1变换矩阵U=[u1],则x的K-L变换y为: 为
特征 提取
y = UTx = u1T x = y1
变换的能量损失为
λ 12 + λ 22 λ 22
1 = 2 = 5. 9 % 2 4 +1
K-L变换的产生矩阵 变换的产生矩阵
特征 提取
特征提取与K-L变换 变换 特征提取与
特征提取:用映射(或变换)的方法把原始 特征变换为较少的新特征 J ( x * ) = a r g m a x J ( x ) PCA (Principle Component Analysis)方法: 进行特征降维变换,不能完全地表示原有的 对象,能量总会有损失。希望找到一种能量 最为集中的的变换方法使损失最小。 K-L (Karhunen-Loeve)变换:最优正交线性变 换,相应的特征提取方法被称为PCA方法
[W,R] = FEATSELI(A,CRIT,K,T)
特征 选择
顺序前进法Sequential forward 顺序前进法 selection
特征 选择
自下而上搜索方法。 每次从未入选的特征中选择一个特征,使得 它与已入选的特征组合在一起时所得的J值 为最大,直至特征数增加到d为止。 该方法考虑了所选特征与已入选特征之间的 相关性。
1
y = U
T
x = u x = [ 0 .8 7 5
T
x1 0 .4 8 2 ] x2
采用大特征值对应的特征向量组成变换矩阵, 采用大特征值对应的特征向量组成变换矩阵,能够保留 模式原有分布的主要结构 利用K-L变换进行特征提取的优点: 1)变换在均方误差最小的意义下使新样本集{X *}逼 近原样本集{X}的分布,既压缩了维数又保留了类别鉴 别信息 2)变换后的新模式向量各分量相对总体均值的方差等 于原样本集总体自相关矩阵的大特征值,表明变换突 出了模式类之间的差异性。 3)C*为对角矩阵说明了变换后样本各分量互不相关, 亦即消除了原来特征之间的相关性,便于进一步进行 特征的选择
Fra Baidu bibliotek
J ij ( x1 , x2 ,..., xd ) = ∑ J ij ( xk ) J D (x ) = (µi − µ j )T Σ −1 (µi − µ j )
k =1
d
INPUT A Training dataset CRIT Name of the criterion or untrained mapping (default: 'NN', i.e. the 1-Nearest Neighbor error) K Number of features to select (default: sort all features) T Tuning dataset (optional) OUTPUT W Feature selection mapping R Matrix with criterion values DESCRIPTION Individual selection of K features using the dataset A. CRIT sets the criterion used by the feature evaluation routine FEATEVAL. If the dataset T is given, it is used as test set for FEATEVAL. For K = 0 all features are selected, but reordered according to the criterion. The result W can be used for selecting features using B*W.
ε =
j = d +1


λ
j
K-L变换:当取矩阵R的d个最大本征值对应的本征 R 向量来展开x时,其截断均方误差最小。这d个本 x 征向量组成的正交坐标系称作x所在的D维空间的d x 维K-L变换坐标系, x在K-L坐标系上的展开系数向 量y称作x的K-L变换 y x
K-L变换的表示 变换的表示
x
K-L变换 变换
特征 提取
离散K-L变换:对向量x用确定的完备正交归一向量 系uj展开
x =

j

j =1
y ju
j
u u
T i
= δ ij
x → y
y
j
= u x
T j
变换的 离散K-L变换的均方误差
用有限项估计x : 该估计的均方误差:
ε = E
特征 提取
ˆ x =

d
j =1
K-L变换的向量展开表示:
d
特征 提取
x =

j =1
y ju
j
y
j
= u x
T j
K-L变换的矩阵表示:
x = [ u 1 , u 2 , ..., u d ] y = U y
y = U x
T
K-L变换方法: 对R的特征值由大到小进行排队: 1 ≥ λ2 ≥ ⋯ ≥ λd ≥ λd +1 ≥ ⋯ λ 均方误差最小的X的近似式: X = ∑ a j u j —— K-L展开式
6.4 特征的选择
特征选择:=从原始特征中挑选出一些最有代表性、分类 性能最好的特征进行分类。 从D个特征中选取d个,共CdD种组合。若不限定特征选 d CD 择个数,则共2D种组合 - 典型的组合优化问题 特征选择的方法:
是否直接考虑分类器性能
Filter方法:根据独立于分类器的指标J来评价所选择的特征子集S, 在所有可能的特征子集中搜索出使得J最大的特征子集作为最优特 征子集。不考虑所使用的学习算法。 Wrapper方法:将特征选择和分类器结合在一起,在分类过程中表 现优异的的特征子集会被选中。
Pi Σ i , Σ i = E ( x − µ i ) ( x − µ i ) T , x ∈ ω i
未知类别样本的K-L变换 变换 未知类别样本的
用总体样本的协方差矩阵C=E[(x-µ) (x-µ)T] 进行K-L变换,K-L坐标系U=[u1,u2,...,ud]按照C
特征 提取
数据集KN={xi}的K-L变换的产生矩阵由数据 的二阶统计量决定,即K-L坐标系的基向量 为某种基于数据x的二阶统计量的产生矩阵 的本征向量 K-L变换的产生矩阵可以有多种选择:
x的相关函数矩阵R=E[xxT] x的协方差矩阵C=E[(x-µ) (x-µ)T] 样本总类内离散度矩阵:
Sw =

c
i =1
ε =
j = d +1


u Tj E x x T u
j
=
j= d +1


u Tj R u
j
求解最小均方误差正交基
用Lagrange乘子法:
if R u
j ∞
特征 提取
= λ ju
j
th e n ε =
j= d +1

u Tj R u j 取 得 极 值
结论:以相关矩阵R的d个本征向量为 R 基向量来展开x时,其均方误差为: x
j
E y y = E U x x U T = U RU = Λ
T T T
K-L变换的性质 变换的性质
特征 提取
K-L坐标系把矩阵R对角化,即通过K-L R 变换消除原有向量x的各分量间的相关 性,从而有可能去掉那些带有较少信息 的分量以达到降低特征维数的目的
λ1 Λ = 0
1, j = i u uj = 0, j ≠ i
T i
对式(5-49)两边左乘U t :a = U T X 系数向量a就是变换后的模式向量。
—— K-L变换
K-L变换的性质 变换的性质
y的相关矩阵是对角矩阵:
特征 提取
E yi y j = E u T xx T u j = u T E xx T u i i = u T R u j = u T λ j u j = λ i δ ij i i
基于K 基于K-L变换的多类模式特征提取
特征提取的目的: 对一类模式:维数压缩。 对多类模式:维数压缩,突出类别的可分性。 卡洛南-洛伊(Karhunen-Loeve)变换(K-L变换): * 一种常用的特征提取方法; * 最小均方误差意义下的最优正交变换; * 适用于任意的概率密度函数; * 在消除模式特征之间的相关性、突出差异性方面 有最优的效果。 分为: 连续K-L变换 离散K-L变换
模拟退火法 Tabu搜索法 遗传算法
单独最优特征组合
计算各特征单独使用时的可分性判据J并加 以排队,取前d个作为选择结果 不一定是最优结果 当可分性判据对各特征具有(广义)可加性, 该方法可以选出一组最优的特征来,例:
各类具有正态分布 各特征统计独立 可分性判据基于Mahalanobis距离
特征 选择
选择特征的顺序:
自下而上:特征数从零逐步增加到d。 自上而下:特征数从D开始逐步减少到d。
经典特征选择算法 经典特征选择算法
特征 选择
许多特征选择算法力求解决搜索问题,经典 算法有:฀
分支定界法: 最优搜索,效率比盲目穷举法高。 次优搜索:
单独最优特征组合法: 顺序前进法 顺序后退法
其他组合优化方法:
[W,R] = FEATSELF(A,CRIT,K,T,FID)
Forward selection of K features using the dataset A. CRIT sets the criterion used by the feature evaluation routine FEATEVAL.
相关文档
最新文档