系统工程-主成分分析共65页文档
主成分分析法精华讲义及实例
主成分分析类型:一种处理高维数据的方法。
降维思想:在实际问题的研究中,往往会涉及众多有关的变量。
但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。
一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。
因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。
一、总体主成分1.1 定义设 X 1,X 2,…,X p 为某实际问题所涉及的 p 个随机变量。
记 X=(X 1,X 2,…,Xp)T ,其协方差矩阵为()[(())(())],T ij p p E X E X X E X σ⨯∑==--它是一个 p 阶非负定矩阵。
设1111112212221122221122Tp p Tp pT pp p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X⎧==+++⎪==+++⎪⎨⎪⎪==+++⎩(1) 则有()(),1,2,...,,(,)(,),1,2,...,.T T i i i i TT T i j ijij Var Y Var l X l l i p Cov Y Y Cov l X l X l l j p ==∑===∑= (2)第 i 个主成分: 一般地,在约束条件1T i i l l =及(,)0,1,2,..., 1.T i k i k Cov Y Y l l k i =∑==-下,求 l i 使 Var(Y i )达到最大,由此 l i 所确定的T i i Y l X =称为 X 1,X 2,…,X p 的第 i 个主成分。
1.2 总体主成分的计算设 ∑是12(,,...,)T p X X X X =的协方差矩阵,∑的特征值及相应的正交单位化特征向量分别为120p λλλ≥≥≥≥及12,,...,,p e e e则 X 的第 i 个主成分为1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= (3)此时(),1,2,...,,(,)0,.Ti i i i Ti k i k Var Y e e i p Cov Y Y e e i k λ⎧=∑==⎪⎨=∑=≠⎪⎩ 1.3 总体主成分的性质1.3.1 主成分的协方差矩阵及总方差记 12(,,...,)T p Y Y Y Y = 为主成分向量,则 Y=P T X ,其中12(,,...,)p P e e e =,且12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ=由此得主成分的总方差为111()()()()(),p ppTTiii i i i Var Y tr P P tr PP tr Var X λ=====∑=∑=∑=∑∑∑即主成分分析是把 p 个原始变量 X 1,X 2,…,X p 的总方差1()pii Var X =∑分解成 p 个互不相关变量 Y 1,Y 2,…,Y p 的方差之和,即1()pii Var Y =∑而 ()k k Var Y λ=。
系统工程
主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。
综合指标即为主成分。
所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。
因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。
聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。
其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益。
二、基本思想的异同(一) 共同点主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。
并且新的变量彼此间互不相关,消除了多重共线性。
这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。
在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。
在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。
因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。
公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。
对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。
主成分分析法介绍.doc
主成分分析方法我们进行系统分析评估或医学上因子分析等时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
第一节主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有 n 样本,每个样本共有 p 个变量描述,这样就构成了一个 n×p阶的数据矩阵:x 11 x12 ...x1 px 21 x22 ...x2 pX... ... ... ⋯⋯⋯⋯(1) ...xn1 x n 2 ... x np如何从这么多变量的数据中抓住事物的内在规律性呢要解决这一问题, 自然要在 p 维空间中加以考察, 这是比较麻烦的。
为了克服这一困难, 就需要进行降维处理, 即用较少的几个综合指标来代替原来较多的变量指标, 而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息, 同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量 )应如何选取呢显然,其最简单的形式就是取原来变量指标的线性组合, 适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为x 1, x 2, xp ,它们的综合指标 —— 新变量指标为 z 1 , z 2 , z m ( m ≤p)。
则z 1 l 11x 1 l 12 x 2 l 1 p x pz 2l 21x1l 22x2l 2 pxp (2)z m l m1x 1 l m2 x 2l mp x p在( 2)式中,系数 l ij 由下列原则来决定:( 1)z i与 z j ( i ≠j;i ,j=1,2, , m)相互无关;( 2)z 1 是 x 1,x 2,⋯,x p 的一切线性组合中方差最大者;z 2 是与 z 1 不相关的 x 1, x 2,⋯,x p 的所有线性组合中方差最大者; ;z m 是与 z 1,z 2,⋯⋯z m-1 都不相关的 x 1,x 2, ⋯, x p 的所有线性组合中方差最大者。
(完整版)主成分分析法的原理应用及计算步骤...doc
zm
lm1x1
lm 2x2
lmpxp
系数lij的确定原 :
①zi与zj(i≠j;i,j=1,2,⋯,m)相互无关;
②z1是x1,x2,⋯,xP的一切 性 合中方差最大者,z2是与z1不相关的x1,x2,⋯,xP的所有 性 合中方差最大者;zm是与z1,z2,⋯⋯,zm-1都不相关的x1,x2,⋯xP, 的所有 性 合中方差最大者。
标准化后的变量的协方差矩阵就是原变量的相关系数矩阵 。 也就是说, 在标准化前后变量的相关系数矩阵不变化。
根据以上论述,为消除量纲的影响,将变量标准化后再计算其协方差矩阵,就是直接计算原变量的相关系数矩阵,所以主成分分析的实际常用计算步骤是:☆计算相关系数矩阵
☆求出相关系数矩阵的特征值i及相应的正交化单位特征向量ai
与原 量Xj之 的相互
关 程度:
( ,
xi
)
(
, 1,2,
L
, ;
1,2,
L
, )
P Zk
kakii
p k
m
三、主成分分析法的计算步骤
主成分分析的具体步 如下:
(1) 算 方差矩
算 品数据的 方差矩 :Σ=(sij)pp,其中
1
n
i,j=1,2,⋯,p
sij
( xki
xi)( xkj
xj)
n
1k 1
解特征方程
I
R 0
,常用雅可比法(Jacobi)求出特征 ,并使其按大
小 序排列1
2
p
0;
p
1,2, L , p)
2
e ( i
分 求出 于特征
i
的特征向量
《系统工程》主成分分析实验报告
《系统工程》主成分分析实验报告
在表二中,我们已经确定了主成分个数为两个,再从表四(旋转元件矩阵)中找到与F1相关性较大的指标有:铅球、跳远、铁饼、撑杆跳、标枪、110米栏,但110米栏是负相关性较强的指标,所以我们可以将F1命名为田赛指标。
与F2相关性较强的指标有:100米、400米、1500米、跳高,但跳高是负相关性较强,所以我们可以将F2命名为径赛指标。
F1、F2的表达式如下:
F1=0.02X1+0.236X2+0.274X3+0.018X4+0.177X5-0.107X6+0.207X7+0.220X8+0.256X9+0.193X10
F2=0.225X1+0.079X2+0.124X3-0.193X4+0.384X5+0.101X6+0.041X7+0.071X8+0.162X9+0.388X10
式中,X(1-10)分别对应100米、跳远、铅球、跳高、400米、110米栏、铁饼、撑杆跳、标枪和1500米。
以特征值为权,对两个主成分进行加权综合,得出每个人的综合得分,并可据此排序。
综合得分的计算公式为:
21506
.1456.6506.1506.1456.6456.6F F F
实验结果报告与实验总结:
F1为田赛指标,适合田赛运动员的得分计算。
F2为径赛指标,适合竞赛运动员的得分计算。
F 为田径赛的综合得分,综合得分越高,该人的综合成绩越好;综合得分越低,该人的综合成绩就较差。
教师评语与成绩:
注:图表数据可另附(注明在附件中即可),附件与实验报告一并递交。
第四讲 主成分分析
(2) 选择几个主成分。
主成分分析的目的是简化变量,一般情况 下主成分的个数应该小于原始变量的个数。 关于保留几个主成分,应该权衡主成分个数 和保留的信息。
(3)如何解释主成分所包含的经济意义。
§2 数学模型与几何解释
有p个指标,把这p个指标看作p个随机变量, 记为X1,X2,…,Xp,主成分分析就是要把这 p个指标的问题,转变为讨论p个指标的线性组 合的问题,而这些新的指标F1,F2,…, Fk(k≤p),按照保留主要信息量的原则充分反 映原指标的信息,并且相互独立。
130
定义:如果一个主成分仅仅对某一个原始 变量有作用,则称为特殊成分。如果一个主 成分所有的原始变量都起作用称为公共成分。
该题有无公共因子?有无特殊因子
六、载荷矩阵
u11 u12
u1m
u
2
1
u 22
u
2
m
u
p
1
u p2
u
p
m
§5 主成分分析的步骤
一、基于协方差矩阵
在实际问题中,X的协方差通常是未知的,样本有
u 1 V ar(x)u 1
u1Σu1 1u1u11
第一主成分的信息不够,则需要寻找第二主成分。
(二) 第二主成分
在约束条件 co F 1,v F 2)(0 下,寻找第二主成分
F 2 u 1 X 1 2 u p 2 X p
因为 c F 1 , F 2 ) o c u 1 x , u v 2 o x ) u 2 u 1 ( v 1 u 2 u 1 0 (
二、主成分的推导
(一) 第一主成分
设X的协方差阵为
12 12 1p
Σx
21
2 2
第2讲 主成分分析
§2 主成分分析2.1 主成分的基本思想主成分分析(principal component analysis )也称主分量分析,是1901年提出,再由霍特林(Hotelling1933)加以发展的一种统计方法.基本思想:主要目的利用降维的思想,在损失很少信息的前提下把多个变量(指标)转化为几个综合指标(变量)的多元统计方法.转化成的综合指标称为主成分,每个主成分是原始变量的线性组合且各个主成分之间互不相关,主成分保留原始变量的绝大部分信息问题:100名学生的六门课程的成绩:问:能否把6个变量X1,X2,…,X6(数学、物理等6科成绩),用一两个综合变量 Y1,Y2来表示?Y1,Y2包含有多少原来的信息呢?能否用综合变量对成绩排序或进行其他分析?例中每个观测值是6维空间(X1,X2,…,X6)中的点, 共100个。
希望把6维空间用低维空间(Y1,Y2)表示.2.2 主成分分析的几何意义设有两变量21,X X (数学、语文成绩),构成二维随机向量T X X ),(21=X ,0)(=X E .观测n 次数据),(21i i i x x =x ,),,2,1(n i =,1)()())((),(21221121≈⋅--=DX Var X Var EX X EX X E X X ρ,则样本点在坐标系21Ox x 下基本分布在一条直线l 上如图,在l 上分散性最大,而在与l 垂直的方向上变化很小.为了分析更清楚,做线性变换X U Y ⋅==TY Y ),(21⎩⎨⎧+-=+=θθθθcos sin sin cos 212211X X Y X X Y ⎪⎪⎭⎫⎝⎛-=θθθθcos sin sin cos U 是正交矩阵 相当于坐标系21Ox x 逆时针旋转θ角得新坐标系21Oy y ,原观测点在新坐标系下可表为⎪⎩⎪⎨⎧+-=+=θθθθcos sin sin cos 212211i i i i i i i i i i x x y x x y旋转后数据12111,,,n y y y 和22212,,,n y y y 分别反映了在垂直方向21,y y 上数据的分散性信息.由图知在轴1y 上数据值分散性最大(具最大样本方差∑=--=ni i y y n s 121121)(11),说明)(1Y Var 最大.而垂直方向2y 上数据分散性最小,)(2Y Var 最小.因此,1Y 的观测值12111,,,n y y y 基本反映了),(21X X =X 观测值变化的基本情况,可用一维随机变量1Y 代替二维随机变量),(21X X =X ,达到降维的目的.称1Y 为第一主成分,其系数向量)sin ,(cos ),(12111θθ==a a T a ,具有1221211=+a a .2Y 为第二主成分,其系数向量)cos ,sin -(),(22212θθ==a a T a ,1222212=+a a .图4-1 二维随机向量的第一、第二主成分示意图二维随机向量X 的100个点构成一个椭圆形状,见上图.主成分分析的目的:构造原变量的一系列线性组合,使其方差(或样本方差)达到最大.p 维随机向量X 的主成分其实就是p 个变量p X X X ,,,21 的一些特殊的线性组合,在几何上这些线性组合正好把p X X X ,,,21 构成的原坐标系统经过旋转后产生新坐标系统,这个新坐标系统的轴方向上具有最大的变异,同时提供了协方差阵的最简洁的表示(非对角 线上为0).2.3总体主成分 一.基本理论1设某一事物研究涉及p 个指标p X X X ,,,21 ,构成T p X X X ),,,(21 =X ---p 维随机向量,均值μ=X E ,协方差阵]))())(([)()()(T p p ij E E E D Cov X X X X ΣX X --====⨯σ非负定.考虑p X X X ,,,21 的一个线性组合(或称对X 线性变换形成新的综合变量Y ):p p T X a X a X a X Y 121211111+++== a 这里),,,(112111p Ta a a =a .对于综合变量1Y ,我们要确定),,,(112111p Ta a a =a ,使得1Y 的方差1111)(V )Var(Y Σa a a T T X ar ==达到最大.由于对任意给定的常数c ,1121)(V Σa a T T c X ca ar =,如果对1a 不加以限制,上述问题 就变得毫无意义.于是限制在111=a a T 下,求)(V 1X ar T a 的最大值. 如果第一主成分1Y 在1a 方向上的分散性还不足以反映原变量的分散性,再构造p X X X ,,,21 的线性组合:pp T X a X a X a Y 222212122+++== X a 这里),,,(222212p T a a a =a ,要求2Y 和1Y 不相关(信息不重叠),即 ,122=a a T 0),(1212==Σa a T Y Y Cov ,使)(V 2X ar T a 达最大. 0),(),(121211===Σa a X a X a TT T Cov Y Y Cov 转化为在约束条件022=a a T 和012=Σa a T 下,求2a 使得使)(V 2X ar Ta 达最大.一般,若121,,,-k X X X 还不足以反映原变量的信息,则进一步构造p X X X ,,,21 的线性组合p kp k k Tk k X a X a X a Y +++== 2211X a ,求),,2,1(p k k =a 满足:(1)系数向量单位化1=k T k a a ;(2)各主成分不相关,无重叠信息0),(==k Tj k j Y Y Cov Σa a ,k j ≠;(3)主成分方差由此递减0)(V )(V )(V 21≥≥≥≥p Y ar Y ar Y ar .二.总体主成分求法p 维随机变量T p X X X ),,,(21 =X ,X 的协方差矩阵Σ的p 个特征值021=≥≥≥p λλλ ,且特征值所对应的特征向量分别为m e e e ,,,21 ,则X 的第k 个主成分为p kp k k T k k X e X e X e X Y +++== 2211e ,p k ,,2,1=,T kp k k k e e e ),,,(21 =e且⎪⎩⎪⎨⎧≠=======k j e Y Y Cov p k Y Var k Tj k k T j k j k k Tk k k T k k 0),(,,2,1)(e e Σe e e Σe e λλλ 证明:(可略)Σ 非负对称,则存在正交矩阵),,,(21p e e e P =,使⎪⎪⎪⎪⎪⎭⎫⎝⎛==p T λλλ21ΛΣP P 为对角阵,且p e e e ,,,21 为标准正交化的特征向量. 证明:Σ 非负对称,则存在正交矩阵),,,(21p e e e P =,使⎪⎪⎪⎪⎪⎭⎫⎝⎛==p T λλλ21ΛΣP P 为对角阵,且p e e e ,,,21 为标准正交化的特征向量. (1)第一主成分为X e TY 11=选X a T Y 11=满足,111=a a T 使得)(V 1X ar T a 最大. 令 ,),,,(1112111a P z TT p z z z == 则11111111,1Pz a a a a PP a z z ====T T T T且1111111)(Λz z ΣPz P z Σa a TT T T Y Var ===11112121221112121222111)(λλλλλλ==+++≤+++=z z Tp p p z z z z z z当T )0,,0,1(1 =z 时,上式取等号,从而111e Pz a ==时,)(V 1X ar Ta 达最大,得第 一主成分X e TY 11=.(2)第二主成分为X Te Y 22=对第二主成分,X a TY 22=,满足,122=a a T0),(1212==Σa a TY Y Cov ,使)(V 2X ar Ta 达最大.令 ,),,,(2222212a P z TTp z z z == 则,12222==a a z z TT且由2112122211211212121121200z Tp p T T T T T T T T =+++===⇒===e e z e e z e e z e P z e a e a Σe a Σa a λ故 22222222112222222)(p p T T T T z z z Y Var λλλ+++==== Λz z ΣPz P z Σa a2222222222222222)(λλλλλ==++≤++=z z Tp p p z z z z当T )0,,1,0(2 =z 时,上式取等号,从而222e Pz a ==时,满足,122=a a T 0),(12112==e a T Y Y Cov λ,且使22)(V λ=X ar T a 达最大,得第二主成分X T e Y 22=.类似可证.三.总体主成分的性质(1)主成分协方差矩阵及总方差T p Y Y Y ),,,(21 =Y 为p 个主成分构成的随机向量,则X P Y T =,其中),,,(21p P e e e =为Σ的p 个正交单位化特征向量构成的正交矩阵,主成分向量Y 的协方差阵为 ⎪⎪⎪⎪⎪⎭⎫⎝⎛===p T T Cov Cov λλλ21)()(ΣP P X P Y 各主成分的总方差∑∑∑∑========pk k p k kk pk kp k kX Var tr Y Var 1111)()()(σλΣT p X X X ),,,(21 =X 的各变量总方差分解成不相关变量p Y Y Y ,,,21 的总方差.(2)主成分的贡献率与累计贡献率∑==pj j k k P 1/λλ——第k 个主成分的贡献率它反映了第k 个主成分提取全部信息的多少∑∑==pj jk j j 11/λλ——前k 个主成分的累积贡献率它反映了前k 个主成分共同提取全部信息的多少.说明:第k 个主成分与原始变量i X 的相关系数),(i k X Y ρ称为因子载荷.)(/),(i k ki i k X Var X Y λρe =1),(12=∑=pi i k X Y ρ四.主成分分析—PROC PRINCOMP 过程基本语句形式:PROC PRINCOMP <DATA =SAS 数据集1> <OUT=SAS 数据集2><OUTSTAT=SAS 数据集3> <COV> <N=n> <PREFIX=name>; /* 指出要进行分析的SAS 集名称、输出集等 */V AR 变量名称; /* V AR 后面列出数据集中参与主成分分析的变量名称,若省略此句,则数据集中所有数值变量均参与分析*/ RUN;例2.1 设随机向量TX X X ),,(321=X 协方差矩阵为⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=200052021Σ,求X 主成分.解:法一:直接计算(1)求⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=200052021Σ特征根求特征根并依大到小排列828.52231≈+=λ,22=λ172.022-31≈=λ (2)正交单位化的特征向量解0000100021-1321=⎪⎪⎪⎭⎫⎝⎛⎪⎪⎪⎪⎭⎫ ⎝⎛+x x x 得,21)21(x x -=,03=x 求出特征根⎪⎪⎪⎪⎭⎫ ⎝⎛-=01211α,单位化得⎪⎪⎪⎭⎫ ⎝⎛-≈09328.03876.01e⎪⎪⎪⎭⎫ ⎝⎛→⎪⎪⎪⎭⎫ ⎝⎛-=-000010001000032021)(2ΣI λ解0)(3212=⎪⎪⎪⎭⎫ ⎝⎛-x x x ΣI λ得021==x x ,3x 任意,求出⎪⎪⎪⎭⎫ ⎝⎛=1002e解0000100021-1321=⎪⎪⎪⎭⎫⎝⎛⎪⎪⎪⎪⎭⎫ ⎝⎛-x x x ,得21)21(x x +=,03=x 求出特征根⎪⎪⎪⎪⎭⎫ ⎝⎛+=01211α, 单位化得⎪⎪⎪⎭⎫ ⎝⎛≈03876.09328.03e特征向量对应的特征根不同,故互相正交. (3)求主成分21322113876.09328.09328.03876.0x x y x y x x y +≈=+-≈(4)贡献率第一、二三主成分的贡献率321λλλλ++i分别为0.7286,0.2500,0.0214.法二:程序实现data examp2_1 (type=cov); /* 建立数据集,数据集为协方差矩阵要加上(type=cov) */ _type_='cov'; /* 输入数据集为协方差矩阵要加上_type_=’cov ’ */ input _name_ $ x1-x3; /* 输入变量要加上_name_ $,取值可指定为输入的变量名 */ cards ; x1 1 -2 0 x2 -2 5 0 x3 0 0 2 ; run ;proc princomp data =examp2_1 cov outstat =bb; /* 调用主成分分析的princomp 过程,从协方差阵出发进行主成分分析,命令一个含变量均值、协方差阵、特征值、特征向量的输出SAS 集bb */ var x1-x3; /* 参与分析变量为x1-x3 */ run ;proc print data =bb; /* */ run ;SAS 系统 10:24 Sunday, November 2, 2008 1The PRINCOMP Procedure Observations 10000 Variables 3Total Variance 8协方差矩阵∑的特征值、各主成分的贡献率、累计贡献率Eigenvalues of the Covariance MatrixEigenvalue Difference Proportion Cumulative 特征值 贡献率 累计贡献率 1 5.82842712 3.82842712 0.7286 0.7286 2 2.00000000 1.82842712 0.2500 0.9786 3 0.17157288 0.0214 1.0000协方差矩阵∑特征值排序的正交化特征向量Eigenvectors第一主成分 第二主成分 第三主成分 Prin1 Prin2 Prin3 x1 -.382683 0.00000 0.923880 x2 0.923880 0.00000 0.382683 x3 0.000000 1.00000 0.000000输出数据集 含各变量均值、观测数据个数1000、协方差阵、特征值和特征向量等SAS 系统 10:24 Sunday, November 2, 2008 2 Obs _TYPE_ _NAME_ x1 x2 x3 1 MEAN 0.00 0.00 0.00 观测个数默认10000 2 N 10000.00 10000.00 10000.00 协方差矩阵 3 COV x1 1.00 -2.00 0.00 4 COV x2 -2.00 5.00 0.00 5 COV x3 0.00 0.00 2.00 特征值 6 EIGENVAL 5.83 2.00 0.17 主成分1Y 7 SCORE Prin1 -0.38 0.92 0.00 主成分2Y 8 SCORE Prin2 0.00 0.00 1.00 9 SCORE Prin3 0.92 0.38 0.00五.基于相关系数矩阵的主成分分析--标准化变量的主成分将T p X X X ),,,(21 =X 标准化 kkk kk X X σμ-=*,p k ,,2,1 =,则1)(*=k X Var .令),,,(**2*1*p X X X =X ,jjii j i j i ij X X Cov X X E σσρ),(),(**==,*X 的协方差矩阵)()(*X ρCov p p ij ==⨯ρ恰为X 的相关系数矩阵.主成分分析步骤:1) 求X 的相关系数矩阵ρ的特征值0**2*1≥≥≥≥p λλλ 2) 相应*k λ的正交化的特征向量Tkp k k k e e e ),,,(**2*1*=e3) ),,,(**2*1*p X X X =X 的第k 个主成分为**2*2*1*1***)(pkp k k T k k X e X e X e Y +++== X e ,p k ,,2,1 = 且有p X Var YVar pk k p k k pk k===∑∑∑===1*1*1*)()(λ4) pk pj j k//*1**λλλ=∑= —— 第k 个主成分的贡献率 p k pj j kj j//*1*1*λλλ=∑∑==——前k 个主成分的累积贡献率 例 2.2 TX X X ),,(321=X 协方差矩阵为⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=200052021Σ,从ρ出发进行主成分分析.解:程序如下data examp2_2 (type=cov); /* 建立数据集,数据集为协方差矩阵要加上(type=cov) */ _type_='cov'; /* 输入数据集为协方差矩阵要加上_type_=’cov ’ */ input _name_ $ x1-x3; /* 输入变量要加上_name_ $,取值可指定为输入的变量名 */ cards ; x1 1 -2 0 x2 -2 5 0 x3 0 0 2 ; run ;proc princomp data =examp2_2 outstat =bb; /* 调用主成分分析的princomp 过程,从相关系数矩阵出发进行主成分分析,命令一个含变量均值、协方差阵、特征值、特征向量的输出SAS 集bb */ var x1-x3; /* 参与分析变量为x1-x3 */ run ;从相关系数矩阵出发进行主成分分析The SAS System 20:59 Wednesday, July 14, 2013 4The PRINCOMP Procedure Observations 10000 Variables 3Eigenvalues of the Correlation Matrix相关系数矩阵ρ的特征值、各主成分的贡献率、累计贡献率Eigenvalue Difference Proportion Cumulative特征值 贡献率 累计贡献率1 1.89442719 0.89442719 0.6315 0.63152 1.00000000 0.89442719 0.3333 0.9648 3 0.10557281 0.0352 1.0000Eigenvectors相关系数矩阵ρ按特征值排序的正交化特征向量Prin1 Prin2 Prin3第一主成分*1e 第二主成分*2e *3ex1 0.707107 0.00000 0.707107 x2 -.707107 0.00000 0.707107 x3 0.000000 1.00000 0.000000从相关系数矩阵ρ出发做主成分分析,即求X 标准化向量*X 的主成分,ρ的特征值及正交单位化的特征向量分别为89.1*1=λ, T )0,707.0,707.0(*1-=e , *2*1**1*1707.0707.0X X Y T -==X e 1*2=λ, T )1,0,0(*2=e , 3*3X Y = 106.0*3=λT )0,707.0,707.0(*3=e *2*1**3*3707.0707.0X X Y T +==X e 第一主成分贡献率下降为%15.63*3*2*1*1=++λλλλ,前两个主成分贡献率97.89%. 由此看到,用相关系数矩阵求主成分,使得1X 的重要性得到了提升.2.4样本主成分T p X X X ),,,(21 =X 的协方差矩阵Σ(或相关系数矩阵ρ)未知,可以利用样本协方差矩阵S 或样本相关系数矩阵R 作为Σ或ρ的估计进行主成分分析.一.基于样本协方差矩阵的主成分分析来自于总体X 的容量为n 的样本观测数据 Tip i i i x x x ),,,(21 =x ,n i ,,2,1 = 样本协方差矩阵∑∑=⨯=⨯---=⎪⎭⎫⎝⎛---==n i T i i p p n i k ik j ij pp jk n x x x x n s 11)(11))((11)(x )(x x x S 其中 Tp x x x ),,,(21 =x , ∑==ni ij j x n x 11为j X ),,2,1(p j =的样本均值. 求主成分步骤:(1)求样本协方差矩阵S 特征值0ˆˆˆ21≥≥≥≥pλλλ ; (2)相应的正交单位化特征向量p e e eˆ,,ˆ,ˆ21 ,)ˆ,,ˆ,ˆ(ˆ21kp k k k e e e e =; (3)第k 个样本主成分pkp k k T k k x e x e x e y ˆˆˆˆ2211+++== x e , p k ,,2,1 =(4)pk pj j k /ˆˆ/ˆ1λλλ=∑= —— 第k 个样本主成分的贡献率p kj jp j jk j j/ˆˆ/ˆ111∑∑∑====λλλ——前k 个主成分的累积贡献率(5)第k 个样本主成分的n 个观测值称为第k 个样本主成分的得分,可以依据得分对各组样本观测数据进行排序ipkp i k i k i T k ik x e x e x e y ˆˆˆˆ2211+++== x e (n i ,,2,1 =) 样本主成分的观测数据(得分向量)),,2,1(),,,(21n i y y y T ip i i i ==y注意:样本主成分的观测数据(得分)的协方差矩阵⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎭⎫ ⎝⎛---==⨯=⨯∑p pp n i k ik j ij p p T k T j y y y y n λλλˆˆˆ))((11)ˆˆ(ˆ211 e S e S 样本总方差=.ˆ11∑∑===pk kpk kksλ 二.基于样本相关系数矩阵的主成分分析样本相关系数矩阵pp kk jj jkpp jk s s s r ⨯⨯⎪⎪⎭⎫⎝⎛==)(R 出发进行主成分分析,相当于从标准化样本 n i S x x S x x S x x pp pip i i i ,,2,1,,,22221111* =⎪⎪⎭⎫ ⎝⎛---=x的样本协方差矩阵出发进行主成分分析,求出R 的特征值和正交单位化的特征向量即可.样本总方差为p .步骤: 1)求R 的特征值0ˆˆˆ**2*1≥≥≥≥pλλλ 2)相应的正交单位化特征向量**2*1ˆ,,ˆ,ˆp e e e,)ˆ,,ˆ,ˆ(ˆ**2*1*kp k k k e e e =e 3)第k 个样本主成分***2*2*1*1**ˆˆˆˆpkp k k Tk k x e x e x e y +++== x e , p k ,,2,1 = 4)p kpj jk /ˆˆ/ˆ*1**λλλ=∑= ——第k 个样本主成分的贡献率 p kj j pj jkj j /ˆˆ/ˆ1*1*1*∑∑∑====λλλ——前k 个主成分的累积贡献率 5)第k 个样本主成分的得分***2*2*1*1***ˆˆˆˆip kp i k i k i k ik x e x e x e y +++== x e (n i ,,2,1 =)表2.1 p 个变量的原始数据及其主成分得分序号 原变量 主成分p X X X ,,,21 p Y Y Y ,,,211 p x x x 11211 p y y y 112112 p x x x 22221 p y y y 22221n np n n x x x 21 np n n y y y 21例2.3 为全面了解我国西北某省的十家上市公司的获利能力和经营发展能力,特选取公司如下六个指标进行分析:1X :每股净收益; 2X :净资产收益率; 3X :主营业务收益率;4X :主营业务增长率; 5X :净资产增长率; 6X :总资产增长率.其中前三个变量反映了上市公司的获利能力,后三个变量反映了公司的经营发展能力.表1.3给出了这10家公司关于六个指标在过去三年取值的加权平均,对其做主成分分析,并按第一主成分对这10家公司的综合能力进行排序.表2.2 10家上市公司的获利和发展能力数据公司编号 X1 X2 X3 X4 X5 X61 0.021 26.806 57.311 -39.819 -39.819 8.8192 -0.142 -7.179 16.335 -11.359 -4.766 -4.6263 -0.737 -62.417 7.359 -18.378 -19.165 12.2894 0.320 7.276 17.372 39.506 19.858 41.9395 0.160 4.820 38.323 37.113 23.744 34.0636 0.351 11.842 23.118 14.725 11.616 9.5167 0.243 5.173 17.515 14.435 123.101 79.4898 -0.190 -10.912 8.236 -2.746 -7.439 -10.502 9 0.173 7.543 23.978 17.122 21.318 25.701 10 0.367 9.352 16.048 55.621 27.861 18.918解:程序如下:data examp2_3; input id x1-x6; cards ;1 0.021 26.806 57.311 -39.819 -39.819 8.8192 -0.142 -7.179 16.335 -11.359 -4.766 -4.6263 -0.737 -62.417 7.359 -18.378 -19.165 12.2894 0.320 7.276 17.372 39.506 19.858 41.9395 0.160 4.820 38.323 37.113 23.744 34.0636 0.351 11.842 23.118 14.725 11.616 9.5167 0.243 5.173 17.515 14.435 123.101 79.4898 -0.190 -10.912 8.236 -2.746 -7.439 -10.5029 0.173 7.543 23.978 17.122 21.318 25.70110 0.367 9.352 16.048 55.621 27.861 18.918;run;proc corr cov nosimple data=examp2_3; /* 调用协方差分析的corr过程,计算协方差矩阵,不输出变量的简单统计量值*/var x1-x6;run;proc princomp data=examp2_3 out=bb; /* 调princomp过程,用相关系数阵进行主成分分析,输出集bb */var x1-x6;run;/*以下程序对各公司按第一主成分进行排名并打印结果*/data score1; /* 建立新数据集score1 */set bb; /* 调用数据集bb */keep id prin1; /* 保留id(编号)、print1(第一主成分得分) */proc sort data=score1; /* 对数据集数据集score1进行排序,按照prin1降序排列 */by descending prin1;run;proc print data=score1; /* 打印输出数据集score1 */run;(1)调用协方差分析的corr过程,计算协方差矩阵及相关系数矩阵The SAS System 19:53 Saturday, October 16, 2012 1CORR 过程6 变量: x1 x2 x3 x4 x5 x6样本协方差矩阵S,自由度 = 9x1 x2 x3 x4 x5 x6x1 0.115856 7.038086 1.469550 6.606916 7.176540 3.832540x2 7.038086 574.072521 227.762290 181.962655 202.129706 127.455392x3 1.469550 227.762290 225.355308 -112.974155 -161.181280 15.099194x4 6.606916 181.962655 -112.974155 853.528265 653.378961 323.896329x5 7.176540 202.129706 -161.181280 653.378961 1896.138991 972.852413x6 3.832540 127.455392 15.099194 323.896329 972.852413 673.171848 由样本协方差矩阵看出,各指标的样本方差差异很大,因此从样本相关系数矩阵出发进行主成分分析(即求标准化的样本主成分).由SAS proc printcomp 过程得样本相关系数矩阵如下:Pearson 样本相关系数矩阵R及检验对应的两个变量是否相关的检验p值Pearson 相关系数, N = 10当 H0: Rho=0 时,Prob > |r|x1 x2 x3 x4 x5 x6x1 1.00000 =12ρ 0.86300 0.28760 0.66440 0.48419 0.43397=12p 0.0013<0.05相关 0.4204 0.0361 0.1562 0.2102x2 0.86300 1.00000 0.63323 0.25995 0.19374 0.20503 0.0013 0.0494 0.4683 0.5918 0.5699x3 0.28760 0.63323 1.00000 -0.25759 -0.24657 0.03877 0.4204 0.0494 0.4724 0.4922 0.9153x4 0.66440 0.25995 -0.25759 1.00000 0.51360 0.42730 0.0361 0.4683 0.4724 0.1289 0.2181 x5 0.48419 0.19374 -0.24657 0.51360 1.00000 0.86109 0.1562 0.5918 0.4922 0.1289 0.0014 x6 0.43397 0.20503 0.03877 0.42730 0.86109 1.00000 0.2102 0.5699 0.9153 0.2181 0.0014(2)调用主成分分析的princomp过程,从相关系数矩阵出发进行主成分分析,输出集bb The SAS System 19:53 Saturday, October 16, 2012 2The PRINCOMP ProcedureObservations 10Variables 6Simple Statistics(简单统计量均值、标准差)x1 x2 x3 x4 x5 x6 Mean 0.0566000000 -0.76960000 22.55950000 10.62200000 15.63090000 21.56060000 StD 0.3403766541 23.95981054 15.01183892 29.21520605 43.54467810 25.94555545Correlation Matrix(样本相关系数矩阵R)x1 x2 x3 x4 x5 x6x1 1.0000 0.8630 0.2876 0.6644 0.4842 0.4340x2 0.8630 1.0000 0.6332 0.2600 0.1937 0.2050x3 0.2876 0.6332 1.0000 -.2576 -.2466 0.0388x4 0.6644 0.2600 -.2576 1.0000 0.5136 0.4273x5 0.4842 0.1937 -.2466 0.5136 1.0000 0.8611x6 0.4340 0.2050 0.0388 0.4273 0.8611 1.0000表2.3 样本相关系数矩阵R的特征值、各主成分贡献率及累计贡献率Eigenvalues of the Correlation MatrixEigenvalue Difference Proportion Cumulative特征值∧*iλ贡献率% 累计贡献率%1 3.01107972 1.20332547 0.5018 0.50182 1.80775425 0.97312513 0.3013 0.8031 前两个已达80.30% 3 0.83462912 0.55438892 0.1391 0.94224 0.28024020 0.22799377 0.0467 0.98905 0.05224643 0.03819614 0.0087 0.99776 0.01405029 0.0023 1.0000表2.4 样本相关系数矩阵R 特征值的正交化特征向量Eigenvectors (特征向量)Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 第一主成分*1e 第二主成分*2e *3e *4e *5e *6e x1 0.522844 0.213764 -.294754 -.196018 -.288537 -.687301 x2 0.396814 0.508698 -.103156 -.392312 -.066345 0.644060 x3 0.100256 0.655312 0.376261 0.489516 0.382587 -.181505 x4 0.416770 -.243670 -.569465 0.584037 0.227017 0.223608 x5 0.444032 -.376518 0.328673 -.370235 0.639571 -.083182 x6 0.433888 -.254864 0.573228 0.299781 -.552616 0.151465由表2.4知,前两个主成分的累计贡献率已达80.31%,因此,取前两个主成分做进一步分析即可.表4.5给出了对应于∧*1λ和∧*2λ的正交单位化特征向量∧*1e 和∧*2e ,由此得到标准化指标的前两个样本主成分为*6*5*4*3*2*1**1*14339.04440.04168.01003.03968.05528.0x x x x x x y T +++++==∧x e 为六指标加权平均,反映各公司在获利和发展能力的综合实力.*1y 值大,则各公司的获利能力和经营发展能力越强.*6*5*4*3*2*1**2*22549.03765.02437.06553.05087.02138.0x x x x x x y T ---++==∧x e 反映各公司获利能力与发展能力的对比,获利能力大且发展能力小,则*2y 值越大.反之,*2y 值越大,公司在获利能力和发展能力差异越大. (3)按第一主成分对各公司进行排序表2.5 各公司按第一主成分得分的排序结果The SAS System 19:53 Saturday, October 16, 2012 3 Obs id Prin1 排名 公司编号 第一样本主成分*1y 的得分 1 7 2.47008 第一,综合实力最强 2 10 1.32340 3 4 1.29914 4 5 1.02640 5 9 0.54590 6 6 0.48099 7 1 -0.86398 8 2 -1.41227 9 8 -1.6045610 3 -3.26510想画出第二主成分对第一主成分得分的散点图,以及按第一主成分得分排序后的主成分得分和原始数据,可以把程序改写如下:data examp2_3;input id x1-x6;cards;1 0.021 26.806 57.311 -39.819 -39.819 8.8192 -0.142 -7.179 16.335 -11.359 -4.766 -4.6263 -0.737 -62.417 7.359 -18.378 -19.165 12.2894 0.320 7.276 17.372 39.506 19.858 41.9395 0.160 4.820 38.323 37.113 23.744 34.0636 0.351 11.842 23.118 14.725 11.616 9.5167 0.243 5.173 17.515 14.435 123.101 79.4898 -0.190 -10.912 8.236 -2.746 -7.439 -10.5029 0.173 7.543 23.978 17.122 21.318 25.70110 0.367 9.352 16.048 55.621 27.861 18.918;run;proc princomp data=examp2_3 prefix=y out=bb; /* 调用主成分分析的princomp过程,从相关系数矩阵出发进行主成分分析,主成分名称y,输出集bb */var x1-x6;proc plot data=bb;plot y2*y1 $ id=’*’; /* 画散点图,横标y1,纵标y2 */proc sort data=bb;by descending y1; /* 对数据集数据集bb进行排序,按照第一主成分y1降序排列 */ run;proc print data=bb; /* 打印输出数据集bb */var id y1 y2 x1-x6; /* 输出一、二主成分及原始数据*/run;(4)第一、第二主成分散点图The SAS System 19:53 Saturday, October 16, 2012 4Plot of y2*y1$id. Symbol used is '*'.y2|4 +|||| * 13 +||||2 +||||1 +|| * 6| * 5|| * 2 * 90 +|| * 10| * 8 * 4||-1 +||| * 7 || * 3-2 +|----+---------+---------+---------+----------+---------+--------+-------+-4 -3 -2 -1 0 1 2 3 由此直观看出:第一主成分样本得分降序排列依次为(右到左):7 10 4 5 9 6 1 2 8 3;按第二主成分排序为(上到下):1 6 5 9 2 10 4 8 7 3分4类:1 单独一类,3单独一类,7一类,其余一类.(5)程序输出结果,含第一、第二主成分和原始数据,并按照第一主成分降序排序The SAS System 19:53 Saturday, October 16, 2012 5Obs id y1 y2 x1 x2 x3 x4 x5 x61 7 2.47008 -1.50707 0.243 5.173 17.515 14.435 123.101 79.4892 10 1.32340 -0.32952 0.367 9.352 16.048 55.621 27.861 18.9183 4 1.29914 -0.36785 0.320 7.276 17.372 39.506 19.858 41.9394 5 1.02640 0.45782 0.160 4.820 38.323 37.113 23.744 34.0635 9 0.54590 0.16745 0.173 7.543 23.978 17.122 21.318 25.7016 6 0.48099 0.59584 0.351 11.842 23.118 14.725 11.616 9.5167 1 -0.86398 3.10544 0.021 26.806 57.311 -39.819 -39.819 8.8198 2 -1.41227 0.08441 -0.142 -7.179 16.335 -11.359 -4.766 -4.6269 8 -1.60456 -0.36954 -0.190 -10.912 8.236 -2.746 -7.439 -10.50210 3 -3.26510 -1.83698 -0.737 -62.417 7.359 -18.378 -19.165 12.289方法二菜单操作方法可以用菜单系统“分析员应用”来完成主成分分析.具体步骤:(1)打开SAS,生成数据文件Examp2_3,临时在Work逻辑库中(或建立逻辑库引用名,建立永久数据集);或者先建立好Excel文件如例2.3,在SAS菜单点File—Import Date—选择Excel文件点击下一步,找到Excel文件例2.3,在Options选择第一行为变量名,起一个文件名Exam2, 点击完成。
主成分分析实验报告
《系统工程》主成分分析实验报告
1500米.448 -.
81
-.274 -.788 .612 .577 -.267 -.404 -.124 1.000
a. 行列式 = 3.15E-005
KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量。
.780
Bartlett 的球形度检验近似卡方153.735
df 45
Sig. .000
由表可知:巴特利特球度检验统计量的观测值为153.735,相应的概率p值接近0,小于显著性水平(取0.05),所以应拒绝原假设,认为相关系数矩阵与单位矩阵有显著差异。
同时,KMO值为0.780,可知原有变量可以进行因子分析。
3.旋转前的因子矩阵
(表四)
表四成份矩阵也即是因子载荷矩阵,根据该表可以写出因子分析模型:
110米栏=-0.948f1+0.017f2+0.020f3 跳远=0.918f1-0.062f2+0.074f3
旋转后的成分矩阵
采用最大方差法对成份矩阵(因子载荷矩阵)实施正交旋转以使因子具有命名解释性,指定按第一因子载荷降序的顺序输出旋转后的因子载荷矩阵如表六所示
(表六)。
第四讲主成分分析资料.
平移、旋转坐标轴
x2
F1
主 成
F2
•• • • •
分 分 析 的 几 何
主成分分析是把各变量之间互相关联的复杂 关系进行简化分析的方法。
在社会经济的研究中,为了全面系统的分析和 研究问题,必须考虑许多经济指标,这些指标能 从不同的侧面反映我们所研究的对象的特征,但 在某种程度上存在信息的重叠,具有一定的相关 性。
主成分分析试图在力保数据信息丢失最少 的原则下,对这种多变量的截面数据表进行 最佳综合简化,也就是说,对高维变量空间 进行降维处理。
•• • •
•• •
•
• •
•••
•
•
•
• •••
• •• •
•• •
• ••
x1
解
••
释
如果我们将xl 轴和x2轴先平移,再同时按 逆时针方向旋转角度,得到新坐标轴Fl和 F2。Fl和F2是两个新变量。
平移、旋转坐标轴
x2
F1
主 成 分 分 析 的 几 何
F2
•
•••
•••
• •
•
•••••••••••••••••••••••
这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分析通
常的做法是,寻求原指标的线性组合Fi。
F1 u11X1 u21X 2 u p1X p F2 u12 X1 u22 X 2 u p2 X p
第六章-主成分分析法精选全文
可编辑修改精选全文完整版第六章 主成分分析法主成分分析法是将高维空间变量指标转化为低维空间变量指标的一种统计方法。
由于评价对象往往具有多个属性指标,较多的变量对分析问题会带来一定的难度和复杂性。
然而,这些指标变量彼此之间常常又存在一定程度的相关性,这就使含在观测数据中的信息具有一定的重叠性。
正是这种指标间的相互影响和重叠,才使得变量的降维成为可能。
即在研究对象的多个变量指标中,用少数几个综合变量代替原高维变量以达到分析评价问题的目的。
当然,这少数指标应该综合原研究对象尽可能多的信息以减少信息的失真和损失,而且指标之间彼此相互独立。
第一节 引言主成分分析,也称主分量分析,由皮尔逊(Pearson )于1901年提出,后由霍特林(Hotelling )于1933年发展了,这也正是现在多元统计分析中的一种经典统计学观点。
经典统计学家认为主成分分析是确定一个多元正态分布等密度椭球面的主轴,这些主轴由样本来估计。
然而,现代越来越多的人从数据分析的角度出发,用一种不同的观点来考察主成分分析。
这时,不需要任何关于概率分布和基本统计模型的假定。
这种观点实际上是采用某种信息的概念,以某种代数或几何准则最优化技术对一个数据阵的结构进行描述和简化。
主成分分析方法的主要目的就是通过降维技术把多个变量化为少数几个主要成分进行分析的统计方法。
这些主要成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。
为了使这些主要成分所含的信息互不重迭,应要求它们互不相关。
当分析结束后,最后要对主成分做出解释。
当主成分用于回归或聚类时,就不需要对主成分做出解释。
另外,主成分还有简化变量系统的统计数字特征的作用。
对于任意p 个变量,描述它们自身及其相互关系的数字特征包括均值、方差、协方差等,共有)1(21-+p p p 个参数。
经过主成分分析后,每个新变量的均值和协方差都为零,所以,变量系统的数字特征减少了)1(21-+p p p 个。
主成分分析完整版
体重x3(kg)
38.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.5
对此进行主成分分析。
1. 求样本均值和样本协方差矩阵
x1 161.2 x2 77.3 x3 51.2
46.67
S 17.12 21.11
30.00 32.58 55.53
1、数据标准化 2、 求相关矩阵R
zij
xij si
xi
R 1 ZZT n1
Z (zij )
3、 计算R的特征值及累积贡献率,并计算相应的特征 向量
经过计算取2个主成分,信息的可靠程度超过85%
F1 0.445Z1 0.48Z2 0.45Z3 0.17Z4 0.58Z5 F2 0.45Z1 0.40Z2 0.436Z3 0.65Z4 0.16Z5
最大。
问对方题应差的的。答 单案 位特是征:向X的量协即方为差矩a11阵, aS2。1的并最且大特征就根是1 F11所的
同样,F2可以表示为 F2 a12 (x1 x1) a22 (x2 x2 )
寻找合适的单位向量 (a12, a22,) 使F2与F1独立,且 使F2的方差(除F1之外)最大。
在F1的表达式中,只有第三个指标Z3(万元产值流动资金占用 率)的系数为负值(-0.45),而Z5的系数最大,Z5与Z3是刻画 企业经营水平高低的。当Z3取值较小,Z5取值较大时,F1就较 大。于是F1在此突出地反映了一个企业经营水平的高低。
由计算结果可见,企业7的经营水平最高,企业2的经营水平最 低。
5. 主成分的含义 F1表示学生身材大小。 F2反映学生的体形特征
三个主成分的方差贡献率分别为:
1 3 i
98.15 98.15 23.60 1.56
主成分分析课件
μ 0 上式有如下展开形式:
1 1 2 X 1 1 22 X 1 1 X 2 2 X 2 2 2 d2
Y1 u11X1 u12X2 u1p Xp Y2 u21X1 u22X2 u2p Xp Yp up1X1 up2X2 uppXp
(5.1)
2019/11/20
7
目录 上页 下页 返回 结束
§1.2 主成分分析的基本理论
由于可以任意地对原始变量进行上述线性变换, 由不同的线性变换得到的综合变量 的统Y计特性也 不尽相同。因此为了取得较好的效果,我们总是希 望 Yi 的ui方'X差尽可能大且各 之间Y i 互相独立, 由于
主成分分析
•§1 主成分分析的基本思想与理论 •§2 主成分分析的几何意义 •§3 总体主成分及其性质 •§4 样本主成分的导出 •§5 有关问题的讨论 •§6 主成分分析步骤及框图 •§7 主成分分析的上机实现
2019/11/20
1
主成分分析
主成分分析(principal components analysis)也称主分量 分析,是由霍特林(Hotelling)于1933年首先提出的。主成 分分析是利用降维的思想,在损失很少信息的前提下把多个 指标转化为几个综合指标的多元统计方法。通常把转化生成 的综合指标称之为主成分,其中每个主成分都是原始变量的 线性组合,且各个主成分之间互不相关,这就使得主成分比 原始变量具有某些更优越的性能。这样在研究复杂问题时就 可以只考虑少数几个主成分而不至于损失太多信息,从而更 容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时 使问题得到简化,提高分析效率。本章主要介绍主成分分析 的基本理论和方法、主成分分析的计算步骤及主成分分析的 上机实现。
主成分分析完整版
在力求数据信息丢失最少的原则下,对高维的变量空间降 维,即研究指标体系的少数几个线性组合,并且这几个线性 组合所构成的综合指标将尽可能多地保留原来指标变异方面 的信息。这些综合指标就称为主成分。要讨论的问题是:
(1) 基于相关系数矩阵/协方差矩阵做主成分分析? (2) 选择几个主成分? (3) 如何解释主成分所包含的实际意义?
5. 主成分的含义 F1表示学生身材大小。 F2反映学生的体形特征
三个主成分的方差贡献率分别为:
31 i 9.8 1 592.8 1 .3 65 01.56 192 .8 .1 335 1 7.9 6%
i1
2 23.6019.1%
3
i
123.31
i1
3 3 i
1.56 1.3% 123.31
0.105 -0.84 0.33 -0.9931
在F1的表达式中,只有第三个指标Z3(万元产值流动资金占用 率)的系数为负值(-0.45),而Z5的系数最大,Z5与Z3是刻画 企业经营水平高低的。当Z3取值较小,Z5取值较大时,F1就较 大。于是F1在此突出地反映了一个企业经营水平的高低。
4. 写出主成分的表达式
F k a 1 k ( x 1 x 1 ) a 2 k ( x 2 x 2 ) . .a p .( x k p x p ) 或 F k a 1 k x 1 a 2 k x 2 . .a .px k p
主成分个数的选取原则
根据累积贡献率的大小取前面m 个(m<p)主成分
例1 下表是10位学生的身高 x1 、胸围x2、体重 x3
的数据。
身高x1(cm)
149.5 162.5 162.7 162.2 156.5 156.1 172.0 173.2 159.5 157.7
主成分分析
因此 使达到最大值,且 同理 而且
上述推导表明:的主成分就是以的特征向量为系数的线性组合,它
们互不相关,其方差为的特征根。 由于的特征根,所以有:。了解这一点也就可以明白为什么主成分
的名次是按特征根取值大小的顺序排列的。 在解决实际问题时,一般不是取个主成分,而是根据累计贡献率的
越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1 为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考 虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信 息就不需要再出现在F2中,用数学语言表达就是要求=0,称F2为第二主 成分,依此类推可以构造出第三,四,……,第p个主成分。不难想像 这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工 作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是 由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的 信息。因而在某些实际问题的研究中得益比损失大,这种既减少了变量 的数目又抓住了主要矛盾的做法有利于问题的分析和处理。
主成分分析用于系统评估系统评估是指对系统营运状态做出评估而评估一个系统的营运状态往往需要综合考察许多营运的指标例如对某一类企业经济效益作评估影响企业经济效益就有许多指标很难直接比较其优劣所以解决评估问题的焦点就是希望科学客观地将一个多指标问题综合成一个单指标的形式也就是说只有在一维空间中才能使排序评估成为可能因此产生了许许多多评估方法
1408
422.61
4797
1011.8
119
115.5
843.83
广 东
5381.72
2699
1639.83
主成分分析课件
2019/11/12
6
目录 上页 下页 返回 结束
§1.2 主成分分析的基本理论
设对某一事物的研究涉及个 p指标,分别用 X1,X2, ,XP 表 示,这个 p指标构成的 p维随机向量为 X(X1,X2, ,Xp)。' 设随
机向量X的均值为 μ,协方差矩阵为 Σ。
对 X进行线性变换,可以形成新的综合变量,用 Y表示, 也就是说,新的综合变量可以由原来的变量线性表示,即满 足下式:
§2 主成分分析的几何意义
设有 N个样品,每个样品有两个观测变量 X1, X2 ,这样, 在由变量X1, X2 组成的坐标空间中,N个样品点散布的情况如 带状,见图5-1。
2019/11/12
图5-1
12
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
由图可以看出这N个样品无论沿 X 1 轴方向还是沿 X 2 轴方向均 有较大的离散性,其离散程度可以分别用观测变量X 1 的方差和 X 2 的方差定量地表示,显然,若只考虑 X 1 和 X 2中的任何一个,原 始数据中的信息均会有较大的损失。我们的目的是考虑 X 1 和 X 2 的线性组合,使得原始样品数据可以由新的变量 Y 1 和Y2 来刻画。
在几何上表示就是将坐标轴按逆时针方向旋转角度,得到新坐
标轴 Y 1 和Y 2 ,坐标旋转公式如下:
YY12
X1cosX2sin X1sinX2cos
2019/11/12
13
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
其矩阵形式为: Y Y1 2 csoisn cso insX X1 2UX
征向量.
P(1,2)
则
P为正交阵,Λ
系统工程-主成分分析共67页文档
1、最灵繁的人也看不见自己的背脊。——非洲 2、最困难的事情就是认识自己。——希腊 3、有勇气承担命运这才是英雄好汉。——黑塞 4、与肝胆人共事,无字句处读书。——周恩来 5、阅读使人充实,会谈使人敏捷,写作使人精确。——培根
系统工程-主成分分析
36、“不可能”这个字(法语是一个字 ),只 在愚人 的字典 中找得 到。--拿 破仑。 37、不要生气要争气,不要看破要突 破,不 要嫉妒 要欣赏 ,不要 托延要 积极, 不要心 动要行 动。 38、勤奋,机会,乐观是成功的三要 素。(注 意:传 统观念 认为勤 奋和机 会是成 功的要 素,但 是经过 统计学 和成功 人士的 分析得 出,乐 观是成 功的第 三要素 。