主成分分析法教案知识讲解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析法
一、主成分分析(principal components analysis )也称为主分量分析,是由Holtelling 于1933年首先提出的。主成分分析是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。
二、应用背景:对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,…,Xp ,它们都是相关的, 一时难以综合。这时就需要借助主成分分析 (principal component analysis)来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。
任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。
例1、考察对象股票业绩(这里单个股票为观察个体)。 (1)确定影响股票业绩主要因素:主营业务收入(X1),主营业务利润(X2)利润总额(X3),净利润(X4),总资产(X5),净资产(X6),净资产收益率(X7),每股权益(X8),每股收益(X9),每股公积金(X10),速动比率(X11)作为变量。
因此对单个股票来说,用11个随机变量综合刻化。但这些因素过多,各因素区别不明显,有交叉反映。通过主成分分析,可降为少数几个综合指标加以刻化。
(2)考察20支不同的股票。从数学角度看,每种影响因素是随机变量(X i ),观察一支股票便得到影响该股票的11个随机变量取值;观察20支股票,便得到了20×11的原始数据阵X20×11(略)。 三、问题:作为主成分?严格的数学定义?相应的性质有哪些?主成分取多少?
1、主成分的一般定义
设有随机变量X1,X2,…,Xp , 其样本均数记为1X ,2X ,…,p X
,样本标准差记为S1,S2,…,Sp 。首先作标准化变换
S
X X x -=
我们有如下的定义:
(1) 若Y1=a11x1+a12x2+ … +a1pxp ,1
21212211=+++p a a a ,且使 Var(Y1)最大,则称Y1为第一主成分;
(2) 若Y 2=a21x1+a22x2+…+a2pxp,122222221=+++p a a a ,(a21,a22,…,
a2p)垂直于(a11,a12,…,a1p),且使Var(Y2)最大,则称Y2为第二主成分;
(3) 类似地,可有第三、四、五…主成分,至多有p 个。
2、主成分的性质 :Y1,Y2,…,Yp 具有如下几个性质
(1) 主成分间互不相关,即对任意i 和j ,Yi 和Yj 的相关系数
Corr(Yi ,Yj)=0 i ≠ j
(2) 组合系数(ai1,ai2,…,aip)构成的向量为单位向量,
1
2
2221=+++ip i i a a a
(3) 各主成分的方差是依次递减的, 即
Var(Y1)≥Var(Y2)≥…≥Var(Yp)
(4) 总方差不增不减, 即
Var(Y1)+Var(Y 2)+ … +Var(Yp)
=Var(x1)+Var(x2)+ … +Var(xp)
这一性质说明:主成分是原变量的线性组合,是对原变量信息的一种改组,主成分不增加总信息量,也不减少总信息量。
(5) 主成分和原变量的相关系数 Corr(Yi ,
i λ
(6) 令X1,X2,…,Xp 的相关矩阵为R, (ai1,ai2,…,aip)则是相关矩阵R 的第i 个特征向量(eigenvector)。而且,特征值λi 就是第i 主成分的方差, 即
Var(Yi)= λi
其中λi 为相关矩阵R 的第i 个特征值(eigenvalue)
λ1≥λ2≥…≥λp ≥0
3、主成分的数目的选取
前已指出,设有p 个随机变量,便有p 个主成分。由于总方差不增不减,Y1,Y2等前几个综合变量的方差较大,而Yp ,Yp-1等后几个综合变量的方差较小, 严格说来,只有前几个综合变量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。实践中总是保留前几个,忽略后几个。
保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比(一般为80%)便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留。
四、主成分分析的一般步骤
1、设观察个体的变量指标为x 1,x 2,…,x p ,它们的综合指标——主成分为z 1,z 2,…,z m (m≤p ),则
111112211122
p p
m m m mp p z l x l x l x z l x l x l x
⎧=+++⎪⎨⎪=+++⎩
z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x 6的第一,第二,…,第m 主成分。
2观察个体 x
1 x 2
X p 个体1 个体2
个体n
设有随机变量x 1,x 2,…,x p , 其样本均数记为1x ,2x ,…,p x ,样本标准差记为S 1,S 2,…,S p 。首先作标准化变换
S
X X x -=
3、计算相关系数矩阵,对应的特征值1p λλ(按从大到小排列)及其对应的特
征向量
Matlab 命令:
(1)R= corrcoef(X) (2)[b,c]=eigs(R)
4.计算主成分贡献率及累计贡献率