KL变换特征提取

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

性质三：总体熵
一般说来，各类均值向量通常包含有较多的判别信息。选择这样一些特征量，使当用同一类的这些特征量的均值所组成的向量代表该类的样本用来进行分类时，所引起的分类不确定性度量最小。可以用总体熵来度量这种分类的不确定性。

H p E log p( x)

总体熵可以作为类均值向量代表同类各样本的不确定性的一种度量。
j d 1

uTj ψu j
j d 1

j [uTj u j 1]
d g (u j ) 0, du j (ψ j I)u j 0,
j d 1, , j d 1, ,
令d 0可得结论：以矩阵Ψ的本征向量作为坐标轴来展开x时，其截断均方误差具有极值性质，且当取d 个u j , j 1, 2, , d 来逼近x时，

j d 1

j
式中 j 是矩阵Ψ的相应本征值。
结论
当取d 个与矩阵Ψ的d 个最大本征值对应的本征向量来展开x时，其截断的均方误差和在所有其他正交坐标系情况下用d 个坐标展开x时所引起的均方误差相比为最小。这d 个本征向量所组成的正交坐标系称作x所在的D 维空间的d 维K-L变换坐标系，x在K-L坐标系上的展开系数向量称作x的K-L变换。
9.4 K-L坐标系的生成
数据集合{x}的K-L坐标系是由二阶统计量来确定的。可以使用以下几种方法来生成K-L 坐标系：样本所属类别未知时： 1、可以使用样本的自相关矩阵 Ψ E[xxT ] 2、对于无类别标签的样本集，均值向量无意义，也常使用协方差矩阵

Σ E[(x μ)(x μ)T ]
j 1
假使只用有限项来估计x，即 ˆ x c ju j
j 1 d
由此引起的均方误差是 ˆ ˆ E[(x x)T (x x)] 1, T 因u i u j 0,

2 j i E cj ji j d 1
j d 1
由于本征值表示K-L展开式中展开系数的方差，可以用本征值来代替熵函数中的概率值。令 j
j
i
i 1 D
D
,
j 1, 2, , D 0 j 1，

j
D
1
j
1
j 和概率有类似的性质，熵函数可表示为：
H R j log j
j 1
说明： 1 如果所有的特征值相等，即同等重要，则 HR取最大值。 2 如果熵值=0，则表示x的所有信息仅由一个展开项表示即可。 3 熵函数叫做表示熵，可以用来估计信息压缩的程度。 4 对同一特征向量集{x}，K-L坐标系下的表示熵为最小。
T
相应的相关函数是一个D D阶矩阵，它只有D个线性独立的本征向量，因此，x的展开式为： x c j j
j 1 D
也可用最小均方误差准则来讨论离散情况下的K-L变换。
假使对向量集合 xi ，i 1, 2,中的每一个x用确定的完备正交归一向量系u j，j 1, 2, , 展开，可得： x c ju j
系数ci的方差就是矩阵 E[xxT ]的第i个本征值，因此，系数向量c [c1 , c2 , , cD ]T 的二阶矩矩阵可写成为： E[ccT ] UT ΨU Λ，式中U [u1 , u 2 , , u D ], Λ是矩阵Ψ的本征值对角矩阵，即 1 2 Λ D
T T T
特征向量为u2，此时的变换矩阵为 UT u1T 1

2， 2 1

在新坐标系中的样本点为: y UT x y1 2, y2 2 2, y3 2, y4 2 2 此时，K-L准则函数即第二项的均方误差为
2 2 0
也就是说，当样本数从D 2压缩到d 1维时没有产生误差，这里旋转成新坐标u1 ,u2为主轴时与原坐标成45角, 4个样本点都落在u1轴上，显然它的均方误差 2 0最小。
1 5，2 0,
1 u1 1
1 2 2 ，u2 2 1 2
K-L变换矩阵为： 1 2 1 2 1 2 1 2 U [u1 u2 ] 1 2 1 2 1 2 1 2 如果把样本维数压缩为d 1，则显然去掉2 0，对应的
b *
变换系数互不相关

1, n m E[ x x ] 0, n m
* n m
称式 x(t ) n xnn (t ), a t b
n 1
（9.6）
为x(t)的 K-L 展开，其逆过程为K-L变换。其中n是为使得自相关系数单位化引入的实或复的系数

计算相关函数
（4）协方差矩阵已知
2、每次使用一个类别样本集合来建立K-L坐标系，
该K-L变换常用于信息压缩，很少用于分类。
一组具有零均值的样本：例：
x1 (1,1)T , x 2 (2, 2)T , x3 (1, 1)T , x 4 (2, 2)T
首先计算样本协方差矩阵： 1 4 1 4 T xi μ xi μ xi xiT 4 i 1 4 i 1 1 1 2 1 2 1,1 2, 2 1, 1 2, 2 4 1 2 1 2 10 4 10 4 10 4 10 4 计算的特征值和特征向量：
2 b 2 n a 2
n 是上述积分方程的本征值，k (t )是相应的本征函数，
它们可通过解积分方程求得。因此，可以对一个具有连续相关函数的随机过程，在任一给定区间a t b，用式（9.6）进行正交展开。
在离散情况下
若对x(t )在区间T1 t T2中均匀采样，可以用下列向量的形式表示x : x x(t1 ), x(t2 ), , x(t D )
* n m N n N
x
N
n
exp( jn0t )
1 T T E[ x x ] 2 E x(t ) x* ( s ) exp( jn0t ) exp( jm0 s )dsdt 0 0 T

平稳随机过程：自相关函数等于其数学期望的2阶原点矩。
说明：
因为 Ψ E[xxT ] 来自样本，K-L坐标系将其作了对角化，消除了原向量x各分量之间的相关性。从而可能消去带有较少信息的坐标轴，降低空间的维数。例如，简化坐标：

性质二：表示熵
信息熵是对于不确定性的度量。K-L变换的实质是使矩阵的D个特征值中，只有几个是较大的，其余较小，因此，K-L坐标系可以有效地进行信息压缩。
9.5 K-L变换的应用
一、类均值向量的坐标压缩
类条件均值向量包含有大量的分类信息。可以应用 K-L变换来降低研究问题的维数，以便有效地分类。步骤： 1、使用总类内离散度生成K-L坐标系
S w P i i ,
i 1 c
i E[(x μi )(x μi )T ], (协方差矩阵)
* * * R(t , s) E[ x(t ) x ( s)] E n xnn (t ) k xkk ( s) k n
*
n n (t )n ( s)
2 n

b
a
R(t , s )k ( s )ds n n (t ) k ( s )n ( s )ds k k (t )
R(t , s) E[ x(t ) x* ( s)] 1 T T E[ x(t ) x ( s)] 2 E x(t ) x* (s) exp( jn0t ) exp( jm0 s)dsdt 0 0 T
*
由于x(t )是周期性的，所以，R( ) R t s）也是周期（性的，因此，可以用傅里叶级数表示为 R( )
总体熵的意义
1 样本分布为 p ( x) ( x )。这时样本均值向量完全代表该类，H p 。 2 p ( x) 1 v。v是样本集合所占据的特征空间的体积。这时样本均值向量不能很好地代表该类，H p log v。目标是要找到一个线性变换矩阵W（D d 维），使从D维空间变换到d 维空间后，同一类样本占据的体积最小。更确切地说，是要找到一个使总体熵为最小的变换矩阵W。
因c j uTj x E[ uTj xxT u j ]
由于u j 是确定性向量，因此有

j d 1

uTj E[xxT ]u j
令ψ E[xxT ]
j d 1

uTj ψu j
用拉格朗日乘子法，可以求出在满足正交条件下，取极值的坐标系统： g (u j )
j
,
表征变换后的特征x j uTj x的分类性能。
ቤተ መጻሕፍቲ ባይዱ
Sb是类条件均值向量的离散度矩阵（类间离散度矩阵） Sb P i (μi μ)(μi μ)T
第9章基于K-L变换特征提取
线性变换法特征提取
9.1 傅立叶级数展开式

周期随机过程的傅立叶级数（三角级数）
x(t )
n
x

n
exp( jn0t )
其中，0 2 T ，T 是随机过程x(t )的周期。系数xn也是随机过程，且 1 T xn x(t ) exp( jn0t )dt T 0 可以证明： x(t ) lim
* n m
k
b

k
exp( jk0 )
bn , n m E[ x x ] 0, n m

公式说明：
周期信号x(t )，当时n m，傅里叶系数xn和xm是互不相关的，且R( )的第n个傅里叶系数等于x(t )的第n个傅里叶系数的方差。反之，为了使xn和xm互不相关，随机过程必须是周期性的。假使给定的随机过程是非周期性的，其相关函数就不能简单地用x(t )的傅里叶系数的方差表示出来。
9.2 K-L展开
非周期随机过程：正弦函数族不能使其傅立叶系数不相关，但是可以寻找一个新的正交函数族ϕn(t)，使得其变换系数互不相关。 K-L变换定义

假设一个非周期随机过程，在区间[a, b]展开式为
x(t ) n xnn (t ), a t b
n 1

1, n m 函数族ϕn(t)是正交的 n (t )m (t ) a 0, n m
样本所属类别已知时：
可以使用各种二阶矩，得到不同的K-L坐标系 1、使用总类内离散度矩阵
S w Pi i
i 1 c
i E[(x i )(x i )T ], x i (协方差矩阵)
使用条件：（1）样本集合{x}有类别标签（2）各类的先验概率已知（3）均值向量已知
9.3 K-L展开式的性质
基于这些性质，K-L变换适用于特征提取。性质一：展开系数互不相关 K-L展开式的第一个重要性质是展开系数彼此无关的，即任意两个系数乘积的期望为
E[ci c j ] E[uT xxT u j ] i uT u j i ij i i
其中：ij为Kronecker积。
2、计算Sw的特征值矩阵与变换矩阵U，
UT S w U Λ, U (u1 u 2 u d ) Λ diag (1 2 d ), S wu j j u j 利用K-L坐标系进行变换以消除原有各分量的相关性。
3、计算各个分量的分类性能J(xj)
考虑到S w的本征值 j 表示第j个分量的平均方差，可以用 J (x j ) u j T Sbu j j 1, , d