KL变换和主成分分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

归一化后构成变换矩阵 U。
U [u1, u2 , , ud ]
第四步:对{X}中的每个 X 进行 K-L 变换,得变换后向量 X * : X* UTX
d 维向量 X * 就是代替 n 维向量 X 进行分类的模式向量。
利用K-L变换进行特征提取的优点:
1)变换在均方误差最小的意义下使新样本集{X *}逼近原样本集 {X}的分布,既压缩了维数又保留了类别鉴别信息。
很显然,识辨系统在一个低维空间要比 在一个高维空间容易得多。
实例2: 成绩数据
• 100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
从本例可能提出的问题
• 目前的问题是,能不能把这个数据的 6个变量用一两个综合变量来表示呢?
• 这一两个综合变量包含有多少原来的 信息呢?
• 能不能利用找到的综合变量来对学生 排序呢?这一类数据所涉及的问题可 以推广到对企业,对学校进行分析、 排序、判别和分类等问题。
u1 [0.66, 0.75]T
第四步:利用 U 对样本集中每个样本进行 K-L 变换。
X 1*
U T X1
[0.66
2 0.75]2 2.82
……
x2
变换结果为:
3 2
X2
X3
ω1

X
* 1

2.82

X
* 2

3.57

X
* 3

4.23
1
X1
ω2

X
* 4

2.82
在进行主成分分析后,竟以97.4%的精度,用 三个新变量就取代了原17个变量。
根据经济学知识,斯通给这三个新 变量分别命名为总收入F1、总收入变化 率F2和经济发展或衰退的趋势F3。更有 意思的是,这三个变量其实都是可以直 接测量的。
主成分分析就是试图在力保数据信息丢 失最少的原则下,对这种多变量的数据表进 行最佳综合简化,也就是说,对高维变量空 间进行降维处理。
(3)如何解释主成分所包含的几何意义或 经济意义或其它。
实例1: 经济分析
美国的统计学家斯通(Stone)在1947年关于国民 经济的研究是一项十分著名的工作。他曾利用美国 1929一1938年各年的数据,得到了17个反映国民收 入与支出的变量要素,例如雇主补贴、消费资料和 生产资料、纯公共支出、净增库存、股息、利息、 外贸平衡等等。
• 如果这些数据形成一个椭圆形状的 点阵(这在变量的二维正态的假定下 是可能的).
3.2 PCA: 进一步解释
• 椭圆有一个长轴和一 个短轴。在短轴方向上, 数据变化很少;在极端的 情况,短轴如果退化成一 点,那只有在长轴的方向 才能够解释这些点的变化 了;这样,由二维到一维 的降维就自然完成了。
5.1 基于K-L变换的多类模式特征提取
特征提取的目的: 对一类模式:维数压缩。 对多类模式:维数压缩,突出类别的可分性。
卡洛南-洛伊(Karhunen-Loeve)变换(K-L变换): * 一种常用的特征提取方法; * 最小均方误差意义下的最优正交变换; * 适用于任意的概率密度函数; * 在消除模式特征之间的相关性、突出差异性方面 有最优的效果。
K-L变换的不足之处: 1)对两类问题容易得到较满意的结果。类别愈多,效果愈差。
2)需要通过足够多的样本估计样本集的协方差矩阵或其它类 型的散布矩阵。当样本数不足时,矩阵的估计会变得十分粗略, 变换的优越性也就不能充分的地显示出来。
例5.3 两个模式类的样本分别为
ω1 : X1 [2, 2]T , X 2 [2, 3]T , X3 [3, 3]T
-4
-2
0
2
4
-4
-2
0
2
4
• 当坐标轴和椭圆的长短轴平行,那么代表长轴 的变量就描述了数据的主要变化,而代表短轴 的变量就描述了数据的次要变化。
• 但是,坐标轴通常并不和椭圆的长短轴平行。 因此,需要寻找椭圆的长短轴,并进行变换, 使得新变量和椭圆的长短轴平行。
• 如果长轴变量代表了数据包含的大部分信息, 就用该变量代替原先的两个变量(舍去次要的 一维),降维就完成了。
第二步:计算R的本征值,并选择较大者。由| R I | 0 得
1 12.85 , 2 0.15 ,选择 λ1 。
第三步:根据 Ru1 1u1 计算 λ1 对应的特征向量 u1 ,归一化后为
u1
1 [1, 1.14]T [0.66, 0.75]T 2.3
变换矩阵为
0.66 U [u1] 0.75
五、具体实例 六、 结论
七、练习
1. 前 言
• 假定你是一个公司的财务经理,掌握了公司的所有数 据,比如固定资产、流动资金、每一笔借贷的数额和 期限、各种税费、工资支出、原料消耗、产值、利润、 折旧、职工人数、职工的分工和教育程度等等。
• 如果让你介绍公司状况,你能够把这些指标和数字都 原封不动地摆出去吗?
2)变换后的新模式向量各分量相对总体均值的方差等于原样本
集总体自相关矩阵的大特征值,表明变换突出了模式类之间
的差异性。
1
0
C* E{(X * M *)(X * M *)T}
2




0
d

3)C*为对角矩阵说明了变换后样本各分量互不相关,亦即消
除了原来特征之间的相关性,便于进一步进行特征的选择。
3.1 PCA: 二维数据分析
• 例中的的数据点是六维的;也就是说,每个观测值 是6维空间中的一个点。我们希望把6维空间用低维 空间表示。
单科平均 成绩
74.1
74
平均成绩
73.7 69.8 61.3 72.5 77.2 72.3 63 72.3 70
70 66.4 73.6 63.3
• 先假定数据只有二维,即只有两个 变量,它们由横坐标和纵坐标所代表; 因此每个观测值都有相应于这两个坐 标轴的两个坐标值;
总样本数目为 N。将 X 变换为 d 维 (d n) 向量的方法:
第一步:求样本集{X}的总体自相关矩阵R。
R E[ XX T ] 1
N
N
X
j
X
T j
j 1
第二步:求 R 的特征值 λ j , j 1,2, , n 。对特征值由大到小
进行排队,选择前 d 个较大的特征值。
第三步:计算 d 个特征值对应的特征向量 u j , j 1,2, , d ,

X
* 5

3.57

X
* 6

4.23
x1 -3 -2 -1 0 1 2 3
-1
X4 -2
X6
X5 -3
X
6*X
* 5
X
* 4
X
* 1
X
* 2
X
* 3
X*
-5 -4 -3 -2 -1 0 1 2 3 4 5
5.2 主成分分析
• 主成分分析PCA
– Principle Component Analysis
代入X、Xˆ
,利用
uiT u j

1, 0,
j i ji

ξ E[
a
2 j
]
jd 1

ξ E[
a
2 j
]
jd 1
由 X a juj两边 左乘 uTj 得 a j uTj X 。 j 1

E[ uTj XX Tuj ]
jd 1

utj E[XX T ]uj
• 当然不能 • 你必须要把各个方面作出高度概括,用一两个指标简
单明了地把情况说清楚。
PCA
• 多变量问题是经常会遇到的。变量太多,无疑会增加分析问 题的难度与复杂性.
• 在许多实际问题中,多个变量之间是具有一定的相关关系的。 因此,能否在各个变量之间相关关系研究的基础上,用较少 的新变量代替原来较多的变量,而且使这些较少的新变量尽 可能多地保留原来较多的变量所反映的信息?事实上,这种 想法是可以实现的.
(1) 如何作主成分分析? 当分析中所选择的变量具有不同的量纲,变
量水平差异很大,应该选择基于相关系数矩阵 的主成分分析。
各个变量之间差异很大
(2) 如何选择几个主成分。
主成分分析的目的是简化变量,一般情况 下主成分的个数应该小于原始变量的个数。 关于保留几个主成分,应该权衡主成分个数 和保留的信息。
– 进行特征降维变换,不能完全地表示原有的 对象,能量总会有损失。
– 希望找到一种能量最为集中的的变换方法使 损失最小
内容
一、前 言
二、问题的提出
三、主成分分析
• 1. 二维数据的例子 • 2. PCA的几何意义 • 3. 均值和协方差、 特征值和特征向量 • 4. PCA的性质
四、主成分分析的算法
uj为确定 性向量
jd 1

uTj Ruj
R:自相关矩阵。
jd 1
不同的{u j } 对应不同的均方误差, u j 的选择应使 ξ 最小。
利用拉格朗日乘数法求使 ξ 最小的正交系{u j } ,令


g(uj )
u
T j
R
u
j

j (uTj u j 1)
jd 1
U TU
wk.baidu.com
uu12TT
[u1
u2
ud ] I
udT
对式(5-49)两边左乘U t :a U T X —— K-L变换
系数向量a就是变换后的模式向量。
2.利用自相关矩阵的K-L变换进行特征提取
设 X 是 n 维模式向量,{X}是来自 M 个模式类的样本集,
说明:当用X的自相关矩阵R的特征值对应的特征向量展开X
时,截断误差最小。
选前d项估计X时引起的均方误差为




u
T j
R
u
j

tr[
u
j
R
u
T j
]

λj
jd 1
j d 1
j d 1
λ j 决定截断的均方误差, λ j 的值小,那么 ξ 也小。
因此,当用X的正交展开式中前d项估计X时,展开式中
• 主成分分析原理: 是把原来多个变量化为少数几个综合指标 的一种统计分析方法,从数学角度来看,这是一种降维处理 技术。
• 主成分分析方法就是综合处理这种问题的一种强有力的方法。
2. 问题的提出
在力求数据信息丢失最少的原则下,对高维的 变量空间降维,即研究指标体系的少数几个线性组 合,并且这几个线性组合所构成的综合指标将尽可 能多地保留原来指标变异方面的信息。这些综合指 标就称为主成分。要讨论的问题是:
分为: 连续K-L变换 离散K-L变换
1.K-L展开式 设{X}是 n 维随机模式向量 X 的集合,对每一个 X 可以
用确定的完备归一化正交向量系{u j } 中的正交向量展开:

X a juj j 1
d
用有限项估计X时 :Xˆ a juj j 1
aj:随机系数;
引起的均方误差: E[( X Xˆ )T ( X Xˆ )]
ω2 : X 4 [2, 2]T , X5 [2, 3]T , X 6 [3, 3]T 利用自相关矩阵R作K-L变换,把原样本集压缩成一维样本集。
解:第一步:计算总体自相关矩阵R。
R
E{XX T}
1 6
6 j 1
X
j
X
T j
5.7 6.3
6.3 7.3
• 椭圆(球)的长短轴相差得越大,降维也越有 道理。
进一步解释PCA(续)
• 对于多维变量的情况和二维类似,也 有高维的椭球,只不过无法直观地看 见罢了。
• 首先把高维椭球的主轴找出来,再用 代表大多数数据信息的最长的几个轴 作为新变量;这样,主成分分析就基 本完成了。
的uj应当是前d个较大的特征值对应的特征向量。
K-L变换方法:
对R的特征值由大到小进行排队:λ1 λ2 λd λd1
d
均方误差最小的X的近似式: X ajuj —— K-L展开式
j 1
矩阵形式:
X Ua
(5-49)
式中,a [a1, a2 , , ad ]T ,U nd [u1, , u j , , ud ] 。 其中:uj [u j1,u j2, ,u jn ]T
jd 1
λ j :拉格朗日乘数


g(uj )
uTj Ru j

j
(u
T j
u
j
1)
jd 1
jd 1
用函数 g(u j ) 对 u j 求导,并令导数为零,得
(R j I )u j 0 j d 1, ,
——正是矩阵 R 与其特征值和对应特征向量的关系式。
• 通过K-L变换实现主成分分析
PCA的变换矩阵是协方差矩阵,K-L变换的变 换矩阵可以有很多种(二阶矩阵、协方差矩阵、 总类内离散度矩阵等等)。当K-L变换矩阵为 协方差矩阵时,等同于PCA。
• K-L变换特征提取思想
– 用映射(或变换)的方法把原始特征变换为 较少的新特征
– 降维
• 主成分分析(PCA)基本思想
相关文档
最新文档