KL变换

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于K-L变换的多类模式特征提取
特征提取的目的: 对一类模式:维数压缩。 对多类模式:维数压缩,突出类别的可分性。
卡洛南-洛伊(Karhunen-Loeve)变换(K-L变换): * 一种常用的特征提取方法; * 最小均方误差意义下的最优正交变换; * 适用于任意的概率密度函数;
* 在消除模式特征之间的相关性、突出差异性方面 有最优的效果。
d
特征 提取
x
y ju j
j 1
yj u x
T j
K-L变换的矩阵表示:
x [u1, u2 ,..., ud ]y Uy
yU x
T
K-L变换方法: 对R的特征值由大到小进行排队: λ1 λ2 λd λd 1
均方误差最小的X的近似式: X a j u j —— K-L展开式
[W,R] = FEATSELB(A,CRIT,K,T,FID) Backward selection of K features using the dataset A. CRIT sets the criterion used by the feature evaluation routine FEATEVAL.
[W,R] = FEATSELI(A,CRIT,K,T)
特征 选择
顺序前进法Sequential forward selection
自下而上搜索方法。
特征 选择
每次从未入选的特征中选择一个特征,使得
它与已入选的特征组合在一起时所得的J值 为最大,直至特征数增加到d为止。 该方法考虑了所选特征与已入选特征之间的 相关性。
T T T
K-L变换的性质
特征 提取
K-L坐标系把矩阵R对角化,即通过K-L
变换消除原有向量x的各分量间的相关 性,从而有可能去掉那些带有较少信息 的分量以达到降低特征维数的目的
1 Λ 0
2
0 d
K-L变换图解
x2
二次 曲线方程
特征 提取
u2
f ( x1, x2 , , xn ) rij xi x j

特征 提取
数据集KN={xi}的K-L变换的产生矩阵由数据
Sw
T P , E ( x μ )( x μ ) i i i i i , x i i 1
c
未知类别样本的K-L变换
用总体样本的协方差矩阵C=E[(x-μ)
特征 提取
(x-μ)T]
模拟退火法 Tabu搜索法 遗传算法

单独最优特征组合
计算各特征单独使用时的可分性判据J并加
特征 选择
以排队,取前d个作为选择结果 不一定是最优结果 当可分性判据对各特征具有(广义)可加性, 该方法可以选出一组最优的特征来,例:
各类具有正态分布 各特征统计独立 可分性判据基于Mahalanobis距离

自下而上:特征数从零逐步增加到d。 自上而下:特征数从D开始逐步减少到d。
经典特征选择算法
算法有:������
特征 选择
许多特征选择算法力求解决搜索问题,经典
分支定界法: 最优搜索,效率比盲目穷举法高。 次优搜索:

单独最优特征组合法: 顺序前进法 顺序后退法


其他组合优化方法:
1
y U x u x 0.875
T T
x1 0.482 x2
采用大特征值对应的特征向量组成变换矩阵,能够保留 模式原有分布的主要结构

利用K-L变换进行特征提取的优点:

1)变换在均方误差最小的意义下使新样本集{X *}逼 近原样本集{X}的分布,既压缩了维数又保留了类别鉴 别信息
[W,R] = FEATSELF(A,CRIT,K,T,FID)
Forward selection of K features using the dataset A. CRIT sets the criterion used by the feature evaluation routine FEATEVAL.
分为: 连续K-L变换 离散K-L变换
特征提取与K-L变换
特征提取:用映射(或变换)的方法把原始
特征变换为较少的新特征 J (x*) argmax J ( x) PCA (Principle Component Analysis)方法: 进行特征降维变换,不能完全地表示原有的 对象,能量总会有损失。希望找到一种能量 最为集中的的变换方法使损失最小。 K-L (Karhunen-Loeve)变换:最优正交线性变 换,相应的特征提取方法被称为PCA方法
x
K-L变换
系uj展开
特征 提取
离散K-L变换:对向量x用确定的完备正交归一向量
x
T i
y
j 1

j
uj
u u j ij
xy
yj u x
T j
离散K-L变换的均方误差
用有限项估计
特征 提取
x:
ˆ x
y ju j
j 1
d
y j uT jx

该估计的均方误差:


是否直接考虑分类器性能


Filter方法:根据独立于分类器的指标J来评价所选择的特征子集S, 在所有可能的特征子集中搜索出使得J最大的特征子集作为最优特 征子集。不考虑所使用的学习算法。 Wrapper方法:将特征选择和分类器结合在一起,在分类过程中表 现优异的的特征子集会被选中。
பைடு நூலகம்

选择特征的顺序:
模拟退火法
特征 选择


3)计算矩阵的本征值和本征向量缺乏统一的快速算法, 给计算 带来困难。

6.4 特征的选择
特征选择:=从原始特征中挑选出一些最有代表性、分类 性能最好的特征进行分类。 从D个特征中选取d个,共CdD种组合。若不限定特征选 d CD 择个数,则共2D种组合 - 典型的组合优化问题 特征选择的方法:
系数向量a就是变换后的模式向量。
K-L变换的性质
y的相关矩阵是对角矩阵:
特征 提取
T T T T E yi y j E ui xx u j ui E xx uj T uT R u u i j i j u j i ij
E yy E U xx U T U RU Λ

J ij ( x1 , x2 ,..., xd ) J ij ( xk ) J D (x) (μi μ j )T 1 (μi μ j )
k 1
d
INPUT A Training dataset CRIT Name of the criterion or untrained mapping (default: 'NN', i.e. the 1-Nearest Neighbor error) K Number of features to select (default: sort all features) T Tuning dataset (optional) OUTPUT W Feature selection mapping R Matrix with criterion values DESCRIPTION Individual selection of K features using the dataset A. CRIT sets the criterion used by the feature evaluation routine FEATEVAL. If the dataset T is given, it is used as test set for FEATEVAL. For K = 0 all features are selected, but reordered according to the criterion. The result W can be used for selecting features using B*W.
i , j 1 n
u1 x1
x ' Rx y '(U ' RU) y y ' Λy y 2 y2 n yn
2 1 1 2
标准二次 曲线方程
x U y
2
K-L变换的数据压缩图解
取2x1变换矩阵U=[u1],则x的K-L变换y为:
特征 提取
y = UTx = u1T x = y1
变换的能量损失为
2 12 2 2 2
1 2 5.9% 2 4 1
K-L变换的产生矩阵
的二阶统计量决定,即K-L坐标系的基向量 为某种基于数据x的二阶统计量的产生矩阵 的本征向量 K-L变换的产生矩阵可以有多种选择:
x的相关函数矩阵R=E[xxT] x的协方差矩阵C=E[(x-μ) (x-μ)T] 样本总类内离散度矩阵:
2)变换后的新模式向量各分量相对总体均值的方差等 于原样本集总体自相关矩阵的大特征值,表明变换突 出了模式类之间的差异性。 3)C*为对角矩阵说明了变换后样本各分量互不相关, 亦即消除了原来特征之间的相关性,便于进一步进行


特征的选择
K-L变换的不足之处

1)对两类问题容易得到较满意的结果。类别愈多,效 果愈差。 2)需要通过足够多的样本估计样本集的协方差矩阵或 其它类型的散布矩阵。当样本数不足时,矩阵的估计 会变得十分粗略,变换的优越性也就不能充分的地显 示出来。
T ˆ ˆ ) E ( x x ) (x x
2 T T E y j E u j xx u j j d 1 j d 1
T R r E( x x ) E xx i j ij
进行K-L变换,K-L坐标系U=[u1,u2,...,ud]按照C
的本征值的下降次序选择 19.5 9.5 例:设一样本集的协方差矩阵是:C 9.5 7.5 求最优2x1特征提取器U 解答:计算特征值及特征向量[V, D]=eig(C); 0.875 0.482 特征值D=[24.736, 2.263]T,特征向量: V 0.482 0.875 0.875 由于λ 1>λ 2,故最优2x1特征提取器 U u 0.482 此时的K-L变换式为:
j 1
d
矩阵形式:
X Ua
(5-49)
T a [ a , a , , a ] 式中, ,U nd [u1 ,, u j ,, ud ] 。 1 2 d T u [ u , u , , u ] 其中: j j1 j2 jn
T u1 T 1, j i T u2 T ui u j U U [u1 u2 ud ] I 0, j i T u d T —— K-L变换 对式(5-49)两边左乘U t :a U X

j d 1


T uT E xx j uj
j d 1


uT j Ru j
求解最小均方误差正交基
用Lagrange乘子法:

特征 提取
if Ru j j u j then

j d 1

uT j Ru j 取得极值
结论:以相关矩阵R的d个本征向量为 基向量来展开x时,其均方误差为:

j d 1


j

K-L变换:当取矩阵R的d个最大本征值对应的本征 向量来展开x时,其截断均方误差最小。这d个本 征向量组成的正交坐标系称作x所在的D维空间的d 维K-L变换坐标系, x在K-L坐标系上的展开系数向 量y称作x的K-L变换
K-L变换的表示
K-L变换的向量展开表示:
顺序后退法Sequential backw. selection
特征 选择
该方法根据特征子集的分类表现来选择特征
搜索特征子集:从全体特征开始,每次剔除
一个特征,使得所保留的特征集合有最大的 分类识别率 依次迭代,直至识别率开始下降为止 用“leave-one-out”方法估计平均识别率:用 N-1个样本判断余下一个的类别,N次取平均。
相关文档
最新文档