主成分分析在数学建模中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一讲 主成分分析在数学建模中的应用
1.学习目的
1、理解主成分分析的基本思想;
2、会用SAS 软件编写相关程序,对相关数据进行主成分分析;
3、会用SAS 软件编程结合主成分分析方法解决实际问题。
2.学习要求
1、理解主成分分析的基本原理,掌握主成分分析的基本步骤;
2、会用SAS 软件编写相关程序,对相关数据进行分析处理与假设检验;
3、撰写不少于3000字的小论文;
4、 精读一篇优秀论文。
3. 理论基础 3. 1基本思想
在实际问题的研究中,往往会涉及众多的变量。但就是,变量太多不但会增加
计算的复杂性,而且也给合理地分析问题与解释问题带来困难。一般来说,虽然每个变量提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数较少的互不相关的新变量来反映原来变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析就就是在这种降维的思想下产生的处理高维数据的方法。
3、2 基本原理
(1)、总体的主成分
定义1、设'12(,,)X X X =p …,X 为P 维随机向量,称'
i i Z a X =为X 的第i 主成分(i=1,2,…
P),如果:
(1) '
1(1,2,);i i a a i ==…,p
(2) 当i>1时,'
0(1,2,);i j
a a
j ==∑…i-1
(3) '''
1,0(1,)
()max ()j i a a a a j Var Z Var a X ====∑…i-1
定理1、设'
12(,,)X X X =p …,X 就是P 维随机向量,且()D X =∑,∑的特征值为
120p λλλ≥≥≥≥…,12,,p a a a …,为相应的单位正交特征向量,则X 的第i 主成分为
'i i Z a X = (1,2,).i =…,p
定义2、我们称1
/
p
k i
i λλ
=∑为主成分k Z 的贡献率;又称
1
1
/p
m k i
k i λλ
==∑∑为主成分
1,,()m Z Z m p <…的累计贡献率。记()ij σ∑=,12(,)p diag λλλΛ=…,其中
12p λλλ≥≥≥…为∑的特征值,12,,p a a a …,就是相应的单位正交特征向量,记正交矩阵
12(,,).p A a a a =…,主成分'1(,)p Z Z Z =…,其中'(1,2,).i i Z a i ==…,p 则总体主成分有如
下的性质:
性质1、 ()D Z =Λ,即P 个主成分的方差为:()(1,2,)i i Var Z i λ==…,p ,且它们就是互不相关的。
性质2、
1
1
p
p ii
i i i σ
λ===∑∑,通常称1
p
ii i σ=∑为原总体X 的总方差(或称总惯量)。
性质3、主成分k Z 与原始变量i X 的相关系数(,)k i Z X ρ为
(,)k i ik Z X ρ= (,1,2,)k i =…p
并把主成分k Z 与原始变量i X 的相关系数称为因子负荷量。
性质4、 2
2
11(,)1(1,2,)p
p
k ik
k i k k ii
a Z X i λρσ=====∑∑…,p 。
性质5、 21
(,)(1,2,).p
ii
k i k i Z X k σ
ρλ===∑…,p 若记2()()i i i i E X Var X μσ==,,即
令
*i i
i i
X X μσ-=
=
(1,2,)i =…,p
这时标准化后的随机向量***'12(,,)X X X =*p …X 的协方差阵*
∑就就是原随机向量X 的
相关阵R 。从相关阵R 出发求主成分,记主成分向量为***'1(,,)p Z Z Z =…,则*
Z 有与总体主成分相应的性质:
性质1、 *
*
*
*
*
12()(,,,)p D Z diag λλλ=Λ=…,其中*
*
*
12p λλλ≥≥…为相关矩阵R 的特征值。
性质2、
*1
p
i
i p λ
==∑、
性质3、主成分*
k Z 与标准化变量*i X 的相关系数**
(,)k k Z X ρ为
***(,)k k ik Z X ρ= (,1,2,)k i =…p ,
其中***'
1(,)k k pk a a a =…,就是R 对应于*
k λ的单位正交特征向量。
性质4、
2
*
***2
11(,)()1p
p
k
k
k ik k k Z X a ρ
λ====∑∑ (1,2,)i =…,p 性质5、
2
*
***2
*1
1
(,)()p
p
k
k
k ik k k k Z X a ρ
λλ====∑∑ (1,2,)k =…,p 。 2、样本的主成分
定义1、设变量12,,X X p …,X 的n 次观测数据阵X 已标准化,这时样本的协方差阵就就是样本相关阵R,且
'1
()1
ij p p R X X r n ⨯=
=- R 的特征值为120p λλλ≥≥≥≥…,其相应标准化特征向量为12,,p a a a …,,样本主成分为
'j j Z a X = (1,2,)j =…,p
类似总体主成分,样本主成分也具有如下的性质:
性质1、 '()11
1(,)0n
t t Z Z z n ====∑p …,
z (因为X =0),而 '0,,(1)i j i i j Z Z n i λ≠⎧=⎨-⎩L L L L 当当=j.
上式说明当i j ≠时,第i 个主成分得分向量i Z 与第j 个主成分得分向量j Z 就是相互正交的。
性质2、
1
p
i i p λ==∑。称
k p λ为样本主成分k Z 的贡献率;又称1m
λλ+…+p
为样本主成分1,,()m Z Z m p <…的累计贡献率。
性质3、样本主成分具有就是残差平方与最小的优良性。
3、3 基本步骤
⑴ 数据标准化)2,1;,,2,1(,
p j n i S x x x jj
j ij ij ΛΛ&==-=
其中,S 为第j 列的方差;