主成分分析PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a a j1 0
a a j1 0
称 Y j aj X 为原始变量 X 的第 j 个主成分。
14
按 前面 的 步骤 依 次类 推, 可 得到
p
个主成分y1 ,
y2 ,
,
y
,
p
它
们
两
两
不 相关 , 且 方差 依 次减少 。
15
定理3.2.1 设 的 p 个顺序特征值为
1 p 0, 1 2 p ,
***********
**
*
*
X1
方差
10
假设原始的
p 个变量为: X1, X 2 ,
,
X
,记:
p
X1
X
X2
X p
D( X ) ( ij ) p p
令:新变量 Y aX
11
第一主成分
求 p 维常数向量 a1 ,使得
Da1X max DaX max a a
aa 1
aa 1
其中
j(
j
1,2,
,
p)是对应于
的标准
j
正交特征向量,则 I , X 的第 j 个
主成分Yj 表达式的系数向量a j j ,
即Y j
j X ,且D(Yj )
。
j
16
主成分的几何意义
X2
Y2
Y1
*
*
***
*
* * *
*
** *
* *
* *
*
* ************* **
*
X1
***
X2
21
22
X p p1 p2
1k Y1 X1
2k kp
Y2 Yk
X 2 X p
25
原始变量与主成分的函数关系(续)
k
k
DX i
2 ij
D
Y
j
j
2 ij
j 1
j 1
用 X i 代替X i时,X i 所失去的方差为:
k
p
ii
j
2 ij
27
第三节
基于总体相关矩阵的主成分分析
28
总体相关矩阵
1 12
D D 1 2
1
2
12
1
1 p 2 p
1 p
2 p
1
29
标准化原始变量
30
31
主要结果
1.
Yj j Z
j
D
1 2
X
1j
X1 1 11
pj
Xp p pp
2. D Yj j
a a1 0
称 Y2 a2 X 为原始变量 X 的第二主成分。
13
第 j 个主成分
求第 j 个新变量 aj X (aj a j 1),使其与
Y1 ,Y2 ,
,
Y
j
不
1
相关,且包含的信
息量尽
可能地大,即满足:
D aj X max DaX max a a
aa 1
aa 1
a a1 0
a a1 0
个k 变量是两两不相关,另一方面,在
尽可能保持原有信息的基础上,使得
尽可k 能的小。
7
第二节
基于总体协方差矩阵的主成分求法
8
需要解决的问题
新变量是原始变量的什么函数关系
——线性函数
用什么来表示一个变量所反映的信息量
9
X2
Y2
Y1
*
**
* **
** ** *
**
* *
* *
* *
* *
* *
i 1
21
原始变量与主成分的函数关系
Y1 1 X
Y X
Y
p
p
X
从而有:X Y,
22
原始变量与主成分的函数关系(续)
X 1 11 12
X2
21
22
X p p1 p2
1 p Y1 2 p Y2
pp Y p
的第 i 行反映了各主成分对X i 的影响, 的第 j 列反映了主成分Yj对各原始变量的影响。
X 2 ,
,
X
的能力越强,
p
也 就 是 说 对 原 始 变 量X 1 , X 2 , , X p
的解释能力越强。
20
原始变量与主成分的相关系数
因子负荷量
( Xi ,Yj )
cov Xi ,Yj
VarXi Var Yj
j ij ii j
1
2
j
ij
1
2 ii
p
2 (Xi , Yj ) ii j
称 Y1 a1X 为原始变量 X 的第一主成分 (a1a1 1)。
12
第二主成分
求 第 二 个 新 变 量a2 X (a2a2 1), 使 其 与Y1不 相 关 , 且 包 含 的 信 息量 尽 可 能 地大,即满足:
Da2 X max DaX max a a
aa 1
aa 1
a a1 0
ij 称为 X i 在 Y j上的载荷。
23
原始变量与主成分的函数关系(续)
ii DX i
p
2 ij
D
Yj
j 1
p
j
2 ij
j 1
24
原始变量与主成分的函数关系(续)
如果仅选择前 k(k p) 个主成分,则这 k 个主 成分便不能完全反映原始变量的信息,此时
X1 11 12
4
主成分分析的基本思想 基于总体协方差矩阵的主成分求法 基于总体相关矩阵的主成分分析 基于样本数据的主成分分析 实例分析
5
第一节
主成分分析的基本思想
6
主成分分析的基本思想
对于原先的 p(个2量) X 1 ,,X 2 , ,需X 要p 找 出 个新k变(量p) 来代替Y1原,Y始2 ,变,量Yk, 要求:一方面,这
17
“总方差” 的不变性
p
j
tr
p
ii
j 1
i 1
18
贡献率
p
定义3.2.1 称 j
j
为
主
成
分Y
的
j
j 1
k
p
贡献率, 称 j j 为前k个主成分
j 1
j 1
Y1 ,Y2 , ,Yk的 累 积 贡 献 率 。
19
贡献率的含义
主
成
分Y
的
j
贡
献
率
越
大
,
说
明
其
“ 综 合 ”X 1 ,
j
2 ij
j 1
jk 1
26
主成分对单个原始变量的贡献率
k
定义3.2.2 称 i
j
2 ij
ii 为
j 1
前k个主成分Y1 ,Y2 , ,Yk 对第i个原
始变量X i 的贡献率。
i说 明 前k个 主 成 分Y1 ,Y2 , ,Yk 提 取
了 第i个 原 始 变 量X i 的 多 少 信 息 , 即 反 映 对X i 的 解 释 能 力 。
第三章 主成分分析
1
问题的提出
根据某班学生的“高等数学”成绩对 全班学生进行排序。
如何根据某班学生的所有必修课成绩 对全班学生进行综合排序?
如何综合评价某行业各企业的经济效 益情况?
2
经济效益综合评价
成本费用利润率 全员劳动生产率 流动资金周转次
数 产品销售率
等等
3
在实际中,为了全面分析问题,往往 提出很多与此有关的变量(因素), 每个变量都反映了一定的信息,有些 变量之间有一定的相关性,即反映信 息有一定的重叠。由于变量太多,人 们自然希望利用较少的变量来反映足 够多的信息。
3.
p
Dzi
p
p
tr j
p
DY
j
i1
j 1
j 1
32
主要结果(续)