KL变换和主成分分析

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(1) 如何作主成分分析? 当分析中所选择的变量具有不同的量纲，变
量水平差异很大，应该选择基于相关系数矩阵的主成分分析。
各个变量之间差异很大
（2）如何选择几个主成分。
主成分分析的目的是简化变量，一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分，应该权衡主成分个数和保留的信息。
• 主成分分析原理: 是把原来多个变量化为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。
• 主成分分析方法就是综合处理这种问题的一种强有力的方法。
2. 问题的提出
在力求数据信息丢失最少的原则下，对高维的变量空间降维，即研究指标体系的少数几个线性组合，并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是：
3.2 PCA: 进一步解释
• 椭圆有一个长轴和一个短轴。在短轴方向上，数据变化很少；在极端的情况，短轴如果退化成一点，那只有在长轴的方向才能够解释这些点的变化了；这样，由二维到一维的降维就自然完成了。
-4
-2
0
2
4
-4
-2
0
2
4
• 当坐标轴和椭圆的长短轴平行，那么代表长轴的变量就描述了数据的主要变化，而代表短轴的变量就描述了数据的次要变化。
其中：u j[uj1,uj2, ,ujn ]T
U TU
uu12TT
[u1
u2 ud ] I
udT
对式(5-49)两边左乘U t ：aUTX —— K-L变换
系数向量a就是变换后的模式向量。
2．利用自相关矩阵的K-L变换进行特征提取
设 X 是 n 维模式向量，{X}是来自 M 个模式类的样本集，
因此，当用X的正交展开式中前d项估计X时，展开式中
的uj应当是前d个较大的特征值对应的特征向量。
K-L变换方法：
对R的特征值由大到小进行排队：λ 1 λ 2 λ d λ d 1
d
均方误差最小的X的近似式： X a juj —— K-L展开式
j 1
矩阵形式：
XUa
（5-49）
式中，a[a1,a2, ,ad]T，U n d [u 1 , ,u j, ,u d]。
• 正如二维椭圆有两个主轴，三维椭球有三个主轴一样，有几个变量，就有几个主成分。
• 选择越少的主成分，降维就越好。什么是标准呢？那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议，所选的主轴总长度占所有主轴长度之和的大约 85%即可，其实，这只是一个大体的说法；具体选几个，要看实际情况而定。
2）变换后的新模式向量各分量相对总体均值的方差等于原样本
集总体自相关矩阵的大特征值，表明变换突出了模式类之间
的差异性。
1
0
C*E{(X*M*)(X*M*)T}
2
0
d
3）C*为对角矩阵说明了变换后样本各分量互不相关，亦即消
除了原来特征之间的相关性，便于进一步进行特征的选择。
K-L变换的不足之处： 1）对两类问题容易得到较满意的结果。类别愈多，效果愈差。
不同的{u j } 对应不同的均方误差， u j 的选择应使 ξ 最小。
利用拉格朗日乘数法求使 ξ 最小的正交系{u j } ，令
g(uj) uT jR uj j(uT juj1)
jd1
jd1
λ j ：拉格朗日乘数
g(uj) uT jR uj j(uT juj1)
jd1
jd1
用函数 g(u j ) 对 u j 求导，并令导数为零，得
• 对于多维变量的情况和二维类似，也有高维的椭球，只不过无法直观地看见罢了。
• 首先把高维椭球的主轴找出来，再用代表大多数数据信息的最长的几个轴作为新变量；这样，主成分分析就基本完成了。
• 注意，和二维情况类似，高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合，叫做主成分(principal component)。
u1
1 [1, 1.14]T [0.66, 0.75]T 2.3
变换矩阵为
0.66 U [u1] 0.75
u1[0.6,60.7]5T
第四步：利用 U 对样本集中每个样本进行 K-L 变换。
X 1*
U T X1
[0.66
2 0.75]2 2.82
……
x2
变换结果为：
3 2
X2
X3
ω1
• 主成分分析PCA
– Principle Component Analysis
• 通过K-L变换实现主成分分析
PCA的变换矩阵是协方差矩阵，K-L变换的变换矩阵可以有很多种（二阶矩阵、协方差矩阵、总类内离散度矩阵等等）。当K-L变换矩阵为协方差矩阵时，等同于PCA。
• K-L变换特征提取思想
3.1 PCA: 二维数据分析
• 例中的的数据点是六维的；也就是说，每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。
• 先假定数据只有二维，即只有两个变量，它们由横坐标和纵坐标所代表；因此每个观测值都有相应于这两个坐标轴的两个坐标值；
• 如果这些数据形成一个椭圆形状的点阵（这在变量的二维正态的假定下是可能的）.
：
X
* 1
2.82
，
X
* 2
3.57
，
X
* 3
4.23
1
X1
ω2
：
X
* 4
2.82
，
X
* 5
3.57
，
X
* 6
4.23
x1 -3 -2 -1 0 1 2 3
-1
X4 -2
X6
X5 -3
X
6*X
* 5
X
* 4
X
* 1
X
பைடு நூலகம்
* 2
X
* 3
X*
-5 -4 -3 -2 -1 0 1 2 3 4 5
5.2 主成分分析
3.3. 均值和协方差特征值和特征向量
设有n个样本，每个样本观测p个指标（变量）： X1，X2，…，Xn, 得到原始数据矩阵：
x11 x12
X
x21
x 22
xp1 xp2
xpn
xpn
xpn
pn
X1 X2
Xn
4
2
1. 样本均值
5.1 基于K-L变换的多类模式特征提取
特征提取的目的：对一类模式：维数压缩。对多类模式：维数压缩，突出类别的可分性。
卡洛南-洛伊（Karhunen-Loeve）变换（K-L变换）： * 一种常用的特征提取方法； * 最小均方误差意义下的最优正交变换； * 适用于任意的概率密度函数； * 在消除模式特征之间的相关性、突出差异性方面有最优的效果。
(RjI)uj 0 jd 1 , ,
——正是矩阵 R 与其特征值和对应特征向量的关系式。
说明：当用X的自相关矩阵R的特征值对应的特征向量展开X
时，截断误差最小。
选前d项估计X时引起的均方误差为
uT jR uj tru[jR uT j] λj
jd1
jd1
jd1
λ j 决定截断的均方误差， λ j 的值小，那么 ξ 也小。
2）需要通过足够多的样本估计样本集的协方差矩阵或其它类型的散布矩阵。当样本数不足时，矩阵的估计会变得十分粗略，变换的优越性也就不能充分的地显示出来。
例5.3 两个模式类的样本分别为
ω1 ： X1 [2, 2]T ， X 2 [2, 3]T ， X3 [3, 3]T
ω2 ： X 4 [2, 2]T ， X5 [2, 3]T ， X 6 [3, 3]T 利用自相关矩阵R作K-L变换，把原样本集压缩成一维样本集。
• 但是，坐标轴通常并不和椭圆的长短轴平行。因此，需要寻找椭圆的长短轴，并进行变换，使得新变量和椭圆的长短轴平行。
• 如果长轴变量代表了数据包含的大部分信息，就用该变量代替原先的两个变量（舍去次要的一维），降维就完成了。
• 椭圆（球）的长短轴相差得越大，降维也越有道理。
进一步解释PCA(续)
代入X、Xˆ ，利用 uiTuj 10,,
j i j i
ξ E[
a
2 j
]
jd 1
ξ E[
a
2 j
]
jd 1
由X
a juj两边
左乘
u
T j
得
aj
uTj X 。
j 1
E[ uTj XXTuj]
jd1
utjE[XXT]uj
uj为确定性向量
jd1
uTj Ruj
R：自相关矩阵。
jd 1
– 用映射（或变换）的方法把原始特征变换为较少的新特征
– 降维
• 主成分分析(PCA)基本思想
– 进行特征降维变换，不能完全地表示原有的对象，能量总会有损失。
– 希望找到一种能量最为集中的的变换方法使损失最小
内容
一、前言
二、问题的提出
三、主成分分析
• 1. 二维数据的例子 • 2. PCA的几何意义 • 3. 均值和协方差、特征值和特征向量 • 4. PCA的性质
在进行主成分分析后，竟以97.4％的精度，用三个新变量就取代了原17个变量。
根据经济学知识，斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是，这三个变量其实都是可以直接测量的。
主成分分析就是试图在力保数据信息丢失最少的原则下，对这种多变量的数据表进行最佳综合简化，也就是说，对高维变量空间进行降维处理。
总样本数目为 N。将 X 变换为 d 维 (d n) 向量的方法：
第一步：求样本集{X}的总体自相关矩阵R。
RE[XX T]N 1 jN 1XjXT j
第二步：求 R 的特征值 λ j ， j 1,2,, n 。对特征值由大到小
进行排队，选择前 d 个较大的特征值。第三步：计算 d 个特征值对应的特征向量 u j ， j 1,2,, d ，
解：第一步：计算总体自相关矩阵R。
R E {XT X }1 6j6 1X jX T j 5 6..7 37 6..3 3
第二步：计算R的本征值，并选择较大者。由|RI|0得
1 12.85 ， 2 0.15 ，选择 λ1 。
第三步：根据 Ru1 1u1 计算 λ1 对应的特征向量 u1 ，归一化后为
分为：连续K-L变换离散K-L变换
1．K-L展开式设{X}是 n 维随机模式向量 X 的集合，对每一个 X 可以
用确定的完备归一化正交向量系{u j } 中的正交向量展开：
X a juj j 1
aj：随机系数；
d
用有限项估计X时：Xˆ a juj j 1
引起的均方误差：E [X (X ˆ)T(XX ˆ)]
很显然，识辨系统在一个低维空间要比在一个高维空间容易得多。
实例2: 成绩数据
• 100个学生的数学、物理、化学、语文、历史、英语的成绩如下表（部分）。
从本例可能提出的问题
• 目前的问题是，能不能把这个数据的 6个变量用一两个综合变量来表示呢？
• 这一两个综合变量包含有多少原来的信息呢？
• 能不能利用找到的综合变量来对学生排序呢？这一类数据所涉及的问题可以推广到对企业，对学校进行分析、排序、判别和分类等问题。
归一化后构成变换矩阵 U。 U [u 1,u 2, ,u d]
第四步：对{X}中的每个 X 进行 K-L 变换，得变换后向量 X * ： X* UTX
d 维向量 X * 就是代替 n 维向量 X 进行分类的模式向量。
利用K-L变换进行特征提取的优点：
1）变换在均方误差最小的意义下使新样本集{X *}逼近原样本集 {X}的分布，既压缩了维数又保留了类别鉴别信息。
（3）如何解释主成分所包含的几何意义或经济意义或其它。
实例1: 经济分析
美国的统计学家斯通(Stone)在1947年关于国民经济的研究是一项十分著名的工作。他曾利用美国 1929一1938年各年的数据，得到了17个反映国民收入与支出的变量要素，例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息、外贸平衡等等。
• 当然不能 • 你必须要把各个方面作出高度概括，用一两个指标简
单明了地把情况说清楚。
PCA
• 多变量问题是经常会遇到的。变量太多，无疑会增加分析问题的难度与复杂性.
• 在许多实际问题中，多个变量之间是具有一定的相关关系的。因此，能否在各个变量之间相关关系研究的基础上，用较少的新变量代替原来较多的变量，而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息？事实上，这种想法是可以实现的.
四、主成分分析的算法
五、具体实例六、结论
七、练习
1. 前言
• 假定你是一个公司的财务经理，掌握了公司的所有数据，比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。
• 如果让你介绍公司状况，你能够把这些指标和数字都原封不动地摆出去吗？