KL变换

相关主题

kl变换

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于K-L变换的多类模式特征提取
特征提取的目的：对一类模式：维数压缩。对多类模式：维数压缩，突出类别的可分性。
卡洛南-洛伊（Karhunen-Loeve）变换（K-L变换）： * 一种常用的特征提取方法； * 最小均方误差意义下的最优正交变换； * 适用于任意的概率密度函数；
* 在消除模式特征之间的相关性、突出差异性方面有最优的效果。
d
特征提取
x
y ju j
j 1
yj u x
T j
K-L变换的矩阵表示：
x [u1, u2 ,..., ud ]y Uy
yU x
T
K-L变换方法：对R的特征值由大到小进行排队： λ1 λ2 λd λd 1
均方误差最小的X的近似式： X a j u j —— K-L展开式
[W,R] = FEATSELB(A,CRIT,K,T,FID) Backward selection of K features using the dataset A. CRIT sets the criterion used by the feature evaluation routine FEATEVAL.
[W,R] = FEATSELI(A,CRIT,K,T)
特征选择
顺序前进法Sequential forward selection
自下而上搜索方法。
特征选择
每次从未入选的特征中选择一个特征，使得
它与已入选的特征组合在一起时所得的J值为最大，直至特征数增加到d为止。该方法考虑了所选特征与已入选特征之间的相关性。
T T T
K-L变换的性质
特征提取
K-L坐标系把矩阵R对角化，即通过K-L
变换消除原有向量x的各分量间的相关性，从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的
1 Λ 0
2
0 d
K-L变换图解
x2
二次曲线方程
特征提取
u2
f ( x1, x2 , , xn ) rij xi x j

特征提取
数据集KN={xi}的K-L变换的产生矩阵由数据
Sw
T P , E ( x μ )( x μ ) i i i i i , x i i 1
c
未知类别样本的K-L变换
用总体样本的协方差矩阵C=E[(x-μ)
特征提取
(x-μ)T]
模拟退火法 Tabu搜索法遗传算法

单独最优特征组合
计算各特征单独使用时的可分性判据J并加
特征选择
以排队，取前d个作为选择结果不一定是最优结果当可分性判据对各特征具有(广义)可加性，该方法可以选出一组最优的特征来，例：
各类具有正态分布各特征统计独立可分性判据基于Mahalanobis距离

自下而上：特征数从零逐步增加到d。自上而下：特征数从D开始逐步减少到d。
经典特征选择算法
算法有：��
特征选择
许多特征选择算法力求解决搜索问题，经典
分支定界法: 最优搜索，效率比盲目穷举法高。次优搜索：

单独最优特征组合法：顺序前进法顺序后退法

其他组合优化方法：
1
y U x u x 0.875
T T
x1 0.482 x2
采用大特征值对应的特征向量组成变换矩阵，能够保留模式原有分布的主要结构

利用K-L变换进行特征提取的优点：

1）变换在均方误差最小的意义下使新样本集{X *}逼近原样本集{X}的分布，既压缩了维数又保留了类别鉴别信息
[W,R] = FEATSELF(A,CRIT,K,T,FID)
Forward selection of K features using the dataset A. CRIT sets the criterion used by the feature evaluation routine FEATEVAL.
分为：连续K-L变换离散K-L变换
特征提取与K-L变换
特征提取：用映射（或变换）的方法把原始
特征变换为较少的新特征 J (x*) argmax J ( x) PCA (Principle Component Analysis)方法：进行特征降维变换，不能完全地表示原有的对象，能量总会有损失。希望找到一种能量最为集中的的变换方法使损失最小。 K-L (Karhunen-Loeve)变换：最优正交线性变换，相应的特征提取方法被称为PCA方法
x
K-L变换
系uj展开
特征提取
离散K-L变换：对向量x用确定的完备正交归一向量
x
T i
y
j 1

j
uj
u u j ij
xy
yj u x
T j
离散K-L变换的均方误差
用有限项估计
特征提取
x：
ˆ x
y ju j
j 1
d
y j uT jx

该估计的均方误差：

是否直接考虑分类器性能

Filter方法：根据独立于分类器的指标J来评价所选择的特征子集S，在所有可能的特征子集中搜索出使得J最大的特征子集作为最优特征子集。不考虑所使用的学习算法。 Wrapper方法：将特征选择和分类器结合在一起，在分类过程中表现优异的的特征子集会被选中。
பைடு நூலகம்

选择特征的顺序：
模拟退火法
特征选择

3）计算矩阵的本征值和本征向量缺乏统一的快速算法，给计算带来困难。

6.4 特征的选择
特征选择:=从原始特征中挑选出一些最有代表性、分类性能最好的特征进行分类。从D个特征中选取d个,共CdD种组合。若不限定特征选 d CD 择个数，则共2D种组合－典型的组合优化问题特征选择的方法：
系数向量a就是变换后的模式向量。
K-L变换的性质
y的相关矩阵是对角矩阵：
特征提取
T T T T E yi y j E ui xx u j ui E xx uj T uT R u u i j i j u j i ij
E yy E U xx U T U RU Λ

J ij ( x1 , x2 ,..., xd ) J ij ( xk ) J D (x) (μi μ j )T 1 (μi μ j )
k 1
d
INPUT A Training dataset CRIT Name of the criterion or untrained mapping (default: 'NN', i.e. the 1-Nearest Neighbor error) K Number of features to select (default: sort all features) T Tuning dataset (optional) OUTPUT W Feature selection mapping R Matrix with criterion values DESCRIPTION Individual selection of K features using the dataset A. CRIT sets the criterion used by the feature evaluation routine FEATEVAL. If the dataset T is given, it is used as test set for FEATEVAL. For K = 0 all features are selected, but reordered according to the criterion. The result W can be used for selecting features using B*W.
i , j 1 n
u1 x1
x ' Rx y '(U ' RU) y y ' Λy y 2 y2 n yn
2 1 1 2
标准二次曲线方程
x U y
2
K-L变换的数据压缩图解
取2x1变换矩阵U=[u1]，则x的K-L变换y为：
特征提取
y = UTx = u1T x = y1
变换的能量损失为
2 12 2 2 2
1 2 5.9% 2 4 1
K-L变换的产生矩阵
的二阶统计量决定，即K-L坐标系的基向量为某种基于数据x的二阶统计量的产生矩阵的本征向量 K-L变换的产生矩阵可以有多种选择：
x的相关函数矩阵R=E[xxT] x的协方差矩阵C=E[(x-μ) (x-μ)T] 样本总类内离散度矩阵：
2）变换后的新模式向量各分量相对总体均值的方差等于原样本集总体自相关矩阵的大特征值，表明变换突出了模式类之间的差异性。 3）C*为对角矩阵说明了变换后样本各分量互不相关，亦即消除了原来特征之间的相关性，便于进一步进行

特征的选择
K-L变换的不足之处

1）对两类问题容易得到较满意的结果。类别愈多，效果愈差。 2）需要通过足够多的样本估计样本集的协方差矩阵或其它类型的散布矩阵。当样本数不足时，矩阵的估计会变得十分粗略，变换的优越性也就不能充分的地显示出来。
T ˆ ˆ ) E ( x x ) (x x
2 T T E y j E u j xx u j j d 1 j d 1
T R r E( x x ) E xx i j ij
进行K-L变换，K-L坐标系U=[u1,u2,...,ud]按照C
的本征值的下降次序选择 19.5 9.5 例：设一样本集的协方差矩阵是：C 9.5 7.5 求最优2x1特征提取器U 解答：计算特征值及特征向量[V, D]=eig(C); 0.875 0.482 特征值D=[24.736, 2.263]T,特征向量: V 0.482 0.875 0.875 由于λ 1>λ 2，故最优2x1特征提取器 U u 0.482 此时的K-L变换式为：
j 1
d
矩阵形式：
X Ua
（5-49）
T a [ a , a , , a ] 式中，，U nd [u1 ,, u j ,, ud ] 。 1 2 d T u [ u , u , , u ] 其中： j j1 j2 jn
T u1 T 1, j i T u2 T ui u j U U [u1 u2 ud ] I 0, j i T u d T —— K-L变换对式(5-49)两边左乘U t ：a U X

j d 1

T uT E xx j uj
j d 1

uT j Ru j
求解最小均方误差正交基
用Lagrange乘子法：

特征提取
if Ru j j u j then

j d 1

uT j Ru j 取得极值
结论：以相关矩阵R的d个本征向量为基向量来展开x时，其均方误差为：

j d 1

j

K-L变换：当取矩阵R的d个最大本征值对应的本征向量来展开x时，其截断均方误差最小。这d个本征向量组成的正交坐标系称作x所在的D维空间的d 维K-L变换坐标系， x在K-L坐标系上的展开系数向量y称作x的K-L变换
K-L变换的表示
K-L变换的向量展开表示：
顺序后退法Sequential backw. selection
特征选择
该方法根据特征子集的分类表现来选择特征
搜索特征子集：从全体特征开始，每次剔除
一个特征，使得所保留的特征集合有最大的分类识别率依次迭代，直至识别率开始下降为止用“leave-one-out”方法估计平均识别率：用 N-1个样本判断余下一个的类别，N次取平均。