北师大应用多元统计分析作业——主成分分析
多元统计的应用主成分分析完整PPT
主成分的数学推导
设 X (X1, , X p ) 为 p 维随机向量,并假定存在二阶矩,
其均值向量与协差阵分别记为:
μ E(X) , Σ D(X)
(3)
考虑如下的线性变换
Y1
t11 X1
t12 X 2
Y2
t21 X1
t22 X 2
t1p X p T1X t2 p X p T2X
Yp t p1 X1 t p2 X 2
t pp X p TpX
用矩阵表示为
Y TX
其中 Y (Y1,Y2, Yp ) , T (T1,T2, ,Tp ) 。
(4)
我们希望寻找一组新的变量 Y1, ,Ym ( m p ),这组新的变 量要求充分地反映原变量 X1, , X p 的信息,而且相互独立。 对于 Y1, ,Ym 有
妨设 1 2 p 0 。那么,协差阵 Σ 的最大特征值为 1 ,
其相应的单位化特征向量为 T1 。
在求第二主成分之前,首先明确:
由(6)知 Cov(Y2,Y1) T2ΣT1 T2T1 。
那么,如果 Y2 与 Y1 相互独立,即有 T2T1 0 或 T1T2 0 。这时,我 们可以构造求第二主成分的目标函数,即
(Σ I)T2 0
(11)
而且 T2ΣT2
(12)
这样说明,如果 X 的协差阵 Σ 的特征根为 1 2 p 0 。
由(12)知道 Y2 的最大方差值为第二大特征根 2 ,其相应的单位化
的特征向量为 T2 。
一般情形,第 k 主成分应该是在 TkTk 1且 TkTi 0 或 TiTk 0
求第一主成分,构造目标函数为:
1(T1,) T1ΣT1 (T1T1 1)
(5)
《多元统计实验》主成分分析实验报告二
《多元统计实验》主成分分析实验报告三、实验结果分析6.5人均粮食产量x5,经济作物占农作物播种面积x6,耕地占土地面积比x7,果园与林地面积之比x8,灌溉田占1耕地面积比例x9等五个指标有较强的相关性, 人口密度x1,人均耕地面积x2,森林覆盖率x3,农民人均收入x4相关性也很强,再作主成分分析,求样本相关矩阵的特征值和主成分载荷。
λ11/2=2.158962,λ21/2=1.4455076,λ31/2 =1.0212708,λ41/2 =0.71233588,λ51/2 =0.5614001,λ61/2 =0.43887788,λ71/2 =0.33821497,λ81/2 =0.212900230,λ91/2=0.177406876。
确定主成分分析,前两个主成分的累积方差贡献率为75.01%,前三个主成分的累积方差贡献率为86.59%,按照累积方差贡献率大于80%的原则,主成分的个数取为3,前三个主成分分别为:Z*1=0.3432x*1-0.446x*3+0.376x*5+0.379x*6+0.432x*7+0.446x*9Z*2=0.368x*1-0.614x*2-0.61x*4-0.307x*5-0.1224x*6Z*3=-0.122x*6+0.246x*7-0.950x*8第一主成分在x*7,x*9两个指标上取值为正且载荷较大,可视为反映耕地占比和灌溉田占耕地面积比例的主成分,第二主成分在x*2和x*4这两个指标的取值为负,绝对值载荷最大,不能作为人均耕地和人均收入的主成分。
第三主成分,x*8这个指标取值为负且,载荷绝对值最大,不能反映果园与林地面积之比的主成分。
根据该图结果可以认为选取前两个指标作为主成分分析的选择是正确的。
将八个指标按前两个主成分进行分类:由结果可以得出森林覆盖率为一类,人口密度、果园与林地面积之比、耕地占土地面积比、灌溉田占耕地面积比为一类,经济作物占农作物播种面积比例、人均粮食产量、农民人均收入、人均耕地面积为一类。
应用多元统计分析北大
8
第9页/共86页
第一章 绪 论
§1.1 引言--多元分析的研究 对象和内容
由于大量实际问题都涉及到多个变量,这些 变量又是随机变化,如学生的学习成绩随着被 抽取学生的不同成绩也有变化(我们往往需要 依据它们来推断全年级的学习情况)。所以要 讨论多维随机向量的统计规律性。
两组变量的相关分析
1
第2页/共86页
使用的教材
普通高等教育”十一五”国家级教材
北京大学数学教学系列丛书
本科生 数学基础课教材
应用多元统计分析
(北京大学出版社,高惠璇,2006.10)
2
第3页/共86页
参考书(一)
1. 实用多元统计分析(方开泰,1989,见参考文献[1]) 2. 多元统计分析引论(张尧庭,方开泰, 2003,见[2]) 3. 实用多元统计分析(王学仁,1990 ,见[6]) 4. 应用多元分析(王学民,1999 ,见[8]) 5. 实用统计方法与SAS系统(高惠璇,2001, 见[3]) 6. 多元统计分析(于秀林,1999 ,见[9]) 7. 多元统计方法(周光亚,1988 ,见[28]) 8. 多元分析(英 . M . 肯德 尔,1983 ,见[15]) 9. SAS系统使用手册等资料(1994-1998 ,见[17]-[21])
主成分分析方法为样品排序或多指标系 统评估提供可行的方法.
23
第24页/共86页
教育学--
主成分分析在学生学习成绩排序中的应用
这里把12门课的成绩看成12个变量,这些 变量是相关的,有的相关性强些,有的相关 性一般些。用主成分分析方法从12个相关的 变量中可以综合得出几个互不相关的主成分 --它们是原始变量的线性组合。其中第一 主成分综合原始变量的信息最多(一般在70 %以上),我们就用第一主成分(即单个综 合指标)替代原来的12个变量;然后计算第 一主成分的得分并进行排序。
(完整word版)应用多元统计分析习题解答主成分分析
主成分分析6.1 试述主成分分析的基本思想。
答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。
当第一个组合不能提取止。
这就是主成分分析的基本思想。
6.2 主成分分析的作用体现在何处?答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。
以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”6.3 简述主成分分析中累积贡献率的具体含义。
答:主成分分析把p 个原始变量12,,,p X X X 的总方差()tr Σ分解成了p 个相互独立的变量p 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。
这里我们()m p <个主成分,则称11pmm kkk k ψλλ===∑∑ 为主成分1,,m Y Y 的累计贡献率,累计贡献率表明1,,m Y Y 综合12,,,p X X X 的能力。
通常取m ,使得累计贡献率达到一个较高的百分数(如85%以上)。
答:这个说法是正确的。
即原变量方差之和等于新的变量的方差之和6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。
答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。
从协方差矩阵出发的,其结果受变量单位的影响。
主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。
实际表明,这种差异有时很大。
我6.6 已知X =()’的协差阵为 试进行主成分分析。
解:=0计算得当时,同理,计算得时,易知相互正交单位化向量得,,综上所述,第一主成分为第二主成分为第三主成分为6.7 设X=()’的协方差阵(p为, 0<p<1证明:为最大特征根,其对应的主成分为。
证明:==,为最大特征根当时,=所以,6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。
应用多元统计分析实验报告之主成分分析
应用多元统计分析实验报告一、研究目的下表1是2010年各地区6项重要指标的数据,这6项指标分别是:X1—城市用水普及率(%)X2—城市燃气普及率(%)X3—每万人拥有公共交通车辆(标台)X4—人均城市道路面积(平方米)X5—人均公园绿地面积(平方米)X6—每万人拥有公共厕所(座)表1 各地区城市设施水平指标本次实验的研究目的是根据这些指标用主成分分析法对各地区城市设施水平进行综合评价和排序,得出结论并提出建议。
二、研究过程从标准化数据出发,首先计算这些指标的主成分,然后通过主成分的大小进行排序。
1.利用SPSS进行因子分析表2和表3分别是特征根(方差贡献率)和因子载荷阵的信息。
表3 因子载荷阵2.利用因子分析结果进行主成分分析 ⑴.表4是特征向量的信息表4 特征向量矩阵 z1 z2 z3 z4 z5 z6 x1 0.52 0.35 (0.31) (0.00) 0.08 0.70 x2 0.58 0.09 (0.19) 0.45 (0.37) (0.53) x3 0.17 0.67 0.26 (0.36) 0.41 (0.39) x4 0.43 (0.32) 0.32 (0.66) (0.41) 0.03 x5 0.41 (0.51) 0.25 0.21 0.68 (0.01) x6 (0.01) 0.23 0.79 0.43 (0.24) 0.28⑵.利用主成分得分进行综合评价时,从特征向量可以写出所有6个主成分的具体形式:Y1=0.52X1+0.68X2+0.17X3+0.43X4+0.41X5-0.01X6Y2=0.35X1+0.09X2+0.67X3-0.32X4-0.51X5+0.23X6 Y3=-0.31X1-0.19X2+0.26X3+0.32X4+0.25X5+0.79X6 Y4=0.00X1+0.45X2-0.36X3-0.66X4+0.21X5+0.43X6 Y5=0.08X1-0.37X2+0.41X3-0.41X4+0.68X5-0.24X6 Y6=0.70X1-0.53X2-0.39X3+0.03X4-0.01X5+0.28X6⑶.以特征根为权,对6个主成分进行加权综合,得出各地区的综合得分及排序,具体数据见表5.综合得分的计算公式是6161Y Y Y ii ∑∑+⋯+=λλλλ三、结果说明从表5可以看出,北京、天津。
多元统计分析——主成分分析法
得到 a11,a12,...,a1p
C 1 a 1 1 x 1 a 1 2 x 2 ... a 1 P x P
VarC11
2021/10/10
20
表1
例1的相关矩阵
表2
例1的相关矩阵的主成分
2021/10只/10 有前几个才是名副其实的“主成分” 21
表4
例1 的特征向量
C 1 0 . 5 2 2 2 5 2 X 1 0 . 5 2 5 5 5 9 X 2 0 . 5 1 1 2 0 8 X 3 0 . 3 4 5 9 9 3 X 4 0 . 1 8 8 7 8 3 X 5 0 . 1 8 5 3 5 8 X 6 C 2 0 . 1 9 5 6 9 9 X 1 0 . 0 8 0 1 6 4 X 2 0 . 1 8 1 8 5 7 X 3 0 . 0 4 6 9 7 8 X 4 0 . 6 5 6 5 9 5 X 5 0 . 6 9 9 1 9 9 X 6 C 3 0 . 1 8 9 9 5 3 X 1 0 . 1 6 7 6 8 1 X 2 0 . 1 0 3 9 8 6 X 3 0 . 7 4 1 6 5 3 X 4 0 . 4 7 0 3 3 8 X 5 0 . 3 9 2 0 7 2 X 6
一般地, X1,X2,...XP
样本均数 X1,X2,...XP
样本标准差 S1,S2,...SP
标准化 xi
Xi Xi Si
i1,2,...,P
(1)在所有线性组合
C 1 a 1 1 x 1 a 1 2 x 2 ... a 1 P x P
中,限定 a2 11a2 12...a2 1P1 使得 VarC1 最大的便是第1主成分。
C3 C1,C2 C 3 a 3 1 x 1 a 3 2 x 2 ... a 3 6 x 6
多元统计分析第七章主成分分析习题答案
7.1 设随机变量12X(X ,X )'=的协差阵为21,12⎡⎤∑=⎢⎥⎣⎦试求X的特征根和特征向量,并写出主成分。
解:先求X的特征根λ,λ满足方程:21012-λ=-λ,即2(2)10-λ-=,因此两个特征根分别为123, 1.λ=λ=设13λ=对应的单位特征向量为()1121a ,a ',则()1121a ,a '满足:1121a 110a 110-⎛⎫⎡⎤⎛⎫= ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取1121a a ⎛⎛⎫ = ⎪ ⎝⎭ ⎝,其对应主成分为:112F X X 22=+;设21λ=对应的单位特征向量为()1222a ,a ',则()1222a ,a '满足:1222a 110a 110⎛⎫⎡⎤⎛⎫=⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取1222a a ⎛⎫⎛⎫ ⎪= ⎪ ⎝⎭- ⎝,其对应的主成分为:212F 22=-.7.2设随机变量123X (X ,X ,X )'=的协差阵为120250,002-⎡⎤⎢⎥∑=-⎢⎥⎢⎥⎣⎦试求X的主成分及主成分对变量X的贡献率。
解:先求X的特征根λ,λ满足方程:12025002-λ---λ=-λ,即()2(2)610-λλ-λ+=,因此三个特征根分别为1235.8284,2,0.1716λ=λ=λ=设1 5.8284λ=对应的单位特征向量为()112131a ,a ,a ',则它满足:1121314.828420a 020.82840a 000 3.8284a 0--⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥--=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取 112131a 10.38271a 2.41420.92392.6131a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪=-=- ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 112F 0.3827X 0.9239X =-,其贡献率为5.828472.86%5.828420.1716=++;设22λ=对应的单位特征向量为()122232a,a ,a ',则它满足:122232120a 0230a 0000a 0--⎡⎤⎛⎫⎛⎫ ⎪ ⎪⎢⎥-= ⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取122232a 0a 0a 1⎛⎫⎛⎫⎪ ⎪= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭,其对应主成分为: 23F X =,其贡献率为225%5.828420.1716=++;设30.1716λ=对应的单位特征向量为()132333a ,a ,a ',则它满足:1323330.828420a 02 4.82840a 000 1.8284a 0-⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥-=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取132333a 10.92391a 0.41420.38271.0824a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 312F 0.9239X 0.3827X =+,其贡献率为0.17162.14%5.828420.1716=++.7.3 设随机变量12X (X ,X )'=的协差阵为14,4100⎡⎤∑=⎢⎥⎣⎦试从∑和相关阵R出发求出总体主成分,并加以比较。
多元统计分析主成分分析
第主 成 分
二分 析 的
章基 本 概 念
定义与目的
定义
主成分分析是一种降维技术,通过线 性变换将多个具有相关性的变量转化 为少数几个互不相关的综合变量,这 些综合变量称为主成分。
目的
简化数据结构,降低维度,揭示隐藏在 数据中的模式和关系,同时保留原始数 据中的大部分变异信息。
原理与步骤
原理与步骤
02 03
碎石图(Scree Plot)
一种可视化工具,用于辅助确定主成分的数量。通过观察特征值 的变化趋势,可以判断哪些特征值对应的主成分具有较大的解释 力度,从而决定保留的主成分数量。
解释性原则
根据实际问题的需求和背景知识,选择能够解释数据变异性、反 映主要结构或关系的主成分。
第主 成 分
四分 析 的
转换数据
将原始数据转换为新的主成分坐 标系,得到主成分得分。
结果解释与讨论
结果解释
通过主成分分析,我们提取了三个主成分,这三个主成分分别代表了用户购买的商品类别、购买频率和购买金额。这 三个主成分解释了原始数据方差的80%。
结果讨论
通过主成分分析,我们可以更好地理解用户购买行为的特点和规律。例如,我们可以发现某些商品类别对用户购买行 为的影响较大,而有些商品类别的影响较小。此外,我们还可以发现购买频率和购买金额对用户购买行为的影响程度 不同。这些结果可以为电商平台的营销策略提供有价值的参考信息。
因子分析
识别潜在因子
主成分分析可以用于识别潜在的因子,这些因子可能对数据的解释有重要影响。通过主 成分分析,可以确定这些因子的数量和性质,从而更好地理解数据的内在结构。
解释变量间的关系
主成分分析可以帮助解释变量间的关系,通过将多个变量转化为少数几个主成分,可以 更好地理解变量间的相互作用和依赖关系。
多元统计分析之主成分分析(2016)
根据旋转变换的公式:
y1 y2
x1 cos x2 sin x1 sin x2 cos
y1 cos sin x1 Ux y2 sin cos x2
U为旋转变换矩阵,它是正交矩阵,即有
U U1,UU I
k
p
i i
i 1
i 1
来描述,称为累积贡献率。
我们进行主成分分析的目的之一是希望用尽可能少 的主成分F1,F2,…,Fk(k≤p)代替原来的P个指标。 到底应该选择多少个主成分,在实际工作中,主成分 个数的多少取决于能够反映原来变量80%以上的信息量 为依据,即当累积贡献率≥80%时的主成分的个数就足 够了。最常见的情况是主成分为2到3个。
所以 u2u1 0
则,对 p 维向量u2 ,有
V
(F2 )
u2 u2
ip1i u2u i ui u 2
p
i 1
i
(u2ui
)
2
2
p
(u2ui
)2
i2
2 ip1u2uiuiu2 2u2UUu2 2u2u2 2
所以如果取线性变换: F2 u12 X1 u22 X 2 u p2 X p 则 F2的方差次大。
up
)
u21
u22
u2
p
u p1
up2
u
pp
X ( X1, X 2 ,, X p )
§4 主成分的性质
一、均值 E(Ux) U
二、方差为所有特征根之和
p
北师大应用多元统计分析作业——主成分分析
应用多元统计分析作业(一)——主成分分析 8‐1:用主成分分析方法探讨城市工业主体结构。
解:执行SAS程序代码:data dxiti81;input number x1-x8;cards;1 90342 52455 101091 19272 82 16.1 197435 0.1722 4903 1973 2035 10313 34.2 7.1 592077 0.0033 6735 21139 3767 1780 36.1 8.2 726396 0.0034 49454 36241 81557 22504 98.1 25.9 348226 0.9855 139190 203505 215898 10609 93.2 12.6 139572 0.6286 12215 16219 10351 6382 62.5 8.7 145818 0.0667 2372 6572 8103 12329 184.4 22.2 20921 0.1528 11062 23078 54935 23804 370.4 41 65486 0.2639 17111 23907 52108 21796 221.5 21.5 63806 0.27610 1206 3930 6126 15586 330.4 29.5 1840 0.43711 2150 5704 6200 10870 184.2 12 8913 0.27412 5251 6155 10383 16875 146.4 27.5 78796 0.15113 14341 13203 19396 14691 94.6 17.8 6354 1.574;proc princomp data=dxiti81 out=oxiti81;var x1-x8;run;proc sort data=oxiti81;by prin1;proc print;id number;var prin1;run;proc sort data=oxiti81;by prin2;proc print;id number;var prin2;run;proc sort data=oxiti81;by prin3;proc print;id number;var prin3;run;proc plot;plot prin2*prin1=number;run;proc cluster data=oxiti81 method=ave pseudo ccc outtree=tr81;var x1-x8;id number;proc tree data=tr81 horizontal graphics;run;结果分析:◆我们使用原始数据的相关系数矩阵计算特征根矩阵。
《应用多元统计分析》各章作业题及部分参考答案
60.6
16.5
2 76
58.1
12.5
3 92
63.2
14.5
4 81
59.0
14.0
5 81
60.8
15.5
6 84
59.5
14.0
解:作如下假设 H0 : μ = μ0 , H1 : μ ≠ μ0
经计算,求的样本均值向量 x = (82.0, 60.2,14.5) ' ,x − μ0 = (−8, 2.2, −1.5) ' ,样本协差阵
x2
+
1 2
x3
+
1 2
x4 。
(2)第一主成分的贡献率为
λ1
+
λ2
λ1 +
λ3
+ λ4
= 1+ 3ρ 4
≥ 95% ,得 ρ
≥ 0.933 。
第 7 章 因子分析
1、设 x = (x1, x2 , x3 )′ 的相关系数矩阵通过因子分析分解为
⎛ ⎜
1
⎜
R
=
⎜ ⎜
−1 3
⎜ ⎜⎜⎝
2 3
−1 3 1
54.58
11.67
产品净值率 10.7
6.2
21.41
11.67
7.90
2、 设 G1, G2 , G3 三个组,欲判别某样品 x0 属于何组,已知 p1 = 0.05, p2 = 0.65, p3 = 0.3,
应用多元统计分析
pofeel@
3
f1 (x0 ) = 0.10, f2 (x0 ) = 0.63, f3 (x0 ) = 2.4 ,假定误判代价矩阵为:
⎢⎣ 4.5 ⎥⎦
应用多元统计分析章节后习题答案详解北大高惠璇八章节习题解答
第八章 因子分析
m1 lm 1 0 m 1 BB ( m1 lm1 ,, p l p ) p l 0 p p
故
j m 1
因
p
2 j
tr(BB BB ) tr(BB BB) tr[(E D)( E D)] tr[E E E D DE DD] Q(m) 0 0 ( i2 ) 2
(
i 1 2 2 2 2
p
2 2 i
)
2 2 3
Q(1) ( ) [( ) ( ) ( ) ] 2 2 0.6795 0.3672 [0.2331 0.3091 0.4943 ] 0.5966 0.3943 0.2023 2 2 2 2 2 Q(2) 3 [( 12 ) 2 ( 2 ) ( 3 ) ] 2 2 2 2 0.3672 [0.2007 0.1452 0.01131 ] 0.1348 0.06149 0.07331
18
(2) ( AA D) 1 D 1 D 1 A( I AD 1 A) 1 A1 D 1 ; (3) A( AA D) 1 ( I m AD 1 A) 1 AD 1. 解:利用分块矩阵求逆公式求以下分块矩阵的逆:
记B221 I m AD A,
1 1 1 21 A B112 B221 A D B
I m AB
A B
1 221
B
22
把B22· 1和B11· 2式代入以上各式,可得:
( D AA) 1 D 1 D 1 A( I m AD 1 A) 1 AD 1 A( D AA) 1 ( I m AD 1 A) 1 AD 1 I m A( D AA) 1 A ( I m AD 1 A) 1 (3) ( 2)
应用多元统计分析实验报告之主成分分析
应用多元统计分析实验报告一、研究目的下表1是2010年各地区6项重要指标的数据,这6项指标分别是:X1—城市用水普及率(%)X2—城市燃气普及率(%)X3—每万人拥有公共交通车辆(标台)X4—人均城市道路面积(平方米)X5—人均公园绿地面积(平方米)X6—每万人拥有公共厕所(座)表1 各地区城市设施水平指标本次实验的研究目的是根据这些指标用主成分分析法对各地区城市设施水平进行综合评价和排序,得出结论并提出建议。
二、研究过程从标准化数据出发,首先计算这些指标的主成分,然后通过主成分的大小进行排序。
1.利用SPSS进行因子分析表2和表3分别是特征根(方差贡献率)和因子载荷阵的信息。
表3 因子载荷阵2.利用因子分析结果进行主成分分析 ⑴.表4是特征向量的信息表4 特征向量矩阵 z1 z2 z3 z4 z5 z6 x1 0.52 0.35 (0.31) (0.00) 0.08 0.70 x2 0.58 0.09 (0.19) 0.45 (0.37) (0.53) x3 0.17 0.67 0.26 (0.36) 0.41 (0.39) x4 0.43 (0.32) 0.32 (0.66) (0.41) 0.03 x5 0.41 (0.51) 0.25 0.21 0.68 (0.01) x6 (0.01) 0.23 0.79 0.43 (0.24) 0.28⑵.利用主成分得分进行综合评价时,从特征向量可以写出所有6个主成分的具体形式:Y1=0.52X1+0.68X2+0.17X3+0.43X4+0.41X5-0.01X6Y2=0.35X1+0.09X2+0.67X3-0.32X4-0.51X5+0.23X6 Y3=-0.31X1-0.19X2+0.26X3+0.32X4+0.25X5+0.79X6 Y4=0.00X1+0.45X2-0.36X3-0.66X4+0.21X5+0.43X6 Y5=0.08X1-0.37X2+0.41X3-0.41X4+0.68X5-0.24X6 Y6=0.70X1-0.53X2-0.39X3+0.03X4-0.01X5+0.28X6⑶.以特征根为权,对6个主成分进行加权综合,得出各地区的综合得分及排序,具体数据见表5.综合得分的计算公式是6161Y Y Y ii ∑∑+⋯+=λλλλ三、结果说明从表5可以看出,北京、天津。
多元统计分析——主成分分析知识讲解
(二)第二主成分
在约束条件 cov( Y1 , Y2 ) 0 下, 寻找第二主成分:
Y2 12 X 1 22 X 2 p 2 X p
因为 cov( Y1 , Y2 ) cov( 1 ' X , 2 ' X ) 2 ' 1 1 2 ' 1 0 所以 2 ' 1 =0,
29
则,对 P 维向量 2 ,有
var( Y2 ) 2 ' 2 i 2 ' i i ' 2
i 1
p
i ( 2 ' i ) 2 ( 2 ' i ) 2 2 ' i i ' 2
2 2 i 1 i 2 i 1
i ( 1i , pi )' i=1,2,3
p
也就是说, 1, 2 , p 为矩阵∑各特征值对应的标准正交特征向量。 则第 i 个主成分就是: Yi 1i X 1 2i X 2 pi X p
下面我们来看,是否由P的第一列元素所构成的原 始变量的线性组合有最大的方差?
, X p 的一切满足原则 1 的线性组合中方差最大者; Y2 是与 Y1 不相 ,Y p 是与 Y1 , Y2 ,
, X p 所有的线性组合中方差最大者; , X p 的所有线性组合中方差最大者。
, Yp 1 都不相
11
主成分与原始变量之间有如下基本关系: 每一主成分都是各原始变量的线性组合 主成分的数目大大少于原始变量的数目 主成分保留了原始变量绝大多数的信息 各主成分之间互不相关
p
p
p
2 2 ' PP' 2 2 2 ' 2 2
多元应用分析 第七章 主成分分析报告
多元应用分析第七章主成分分析1.对全国30个省市自治区经济发展基本情况的八项指标作主成分分析。
Spss-分析-描述统计-描述对变量进行标准化如下图分析-降维-因子分析将标准化后的变量添加进变量框在描述中勾选相关矩阵—系数、球形度检验1.在抽取—勾选碎石图以及协方差矩阵2.在抽取—勾选碎石图以及相关性矩阵两个作对比在得分中勾选显示因子得分系数矩阵在选项中系数显示按大小排序其他保持默认状态,点击确定输出结果相关系数矩阵可以看出许多变量存在较强的相关关系,有必要进行因子分析,且相关系数的检验值多数较小。
球面结构检验结果KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。
.585Bartlett 的球形度检验近似卡方203.134 df 28 Sig. .000从下图看,除X2、X4外,如下变量共同度都大于0.8,即三个因子较好的解释了八个变量公因子方差初始提取Zscore<GDP_X1> 1.000 .954Zscore<居民消费水平X2> 1.000 .609Zscore<固定资产投入x3> 1.000 .912Zscore<职工平均工资x4> 1.000 .785Zscore<货物周转量x5> 1.000 .825Zscore<居民消费价格指数X6>1.000 .906Zscore<商品零售价格指数X7>1.000 .907Zscore<工业总产值X8> 1.000 .893提取方法:主成份分析。
提取的三个主成分是:固定资产投入X3、商品零售价格指数X7、居民消费价格Zscore<固定资产投入x3> .923 -.031 .243 .923 -.031 .243 Zscore<工业总产值X8> .868 .295 .228 .868 .295 .228 Zscore<货物周转量x5> .629 .618 -.217 .629 .618 -.217 Zscore<职工平均工资x4> .302 -.772 .314 .302 -.772 .314-.510 .737 .323 -.510 .737 .323 Zscore<商品零售价格指数X7>-.491 .392 .715 -.491 .392 .715 Zscore<居民消费价格指数X6>Zscore<居民消费水平X2> -.028 -.327 .708 -.028 -.327 .708 提取方法 :主成份。
《应用多元统计分析》第六章主成分分析实验报告
Total Variance Explained
Component
Initial Eigenvalues
Extraction Sums of Squared Loa
ings
Total
% of Varianc
Cumulative %
Total
% of Vari
nce
Cumulative %
《应用多元统计分析》第六章主成分分析实验报告
第六章主成分分析实验报告
实验项目
名称
主成分分析的上机实现
实验
目的及要求
目的:通过本次实验,培养学生如下几方面的能力:
1、使学生能够借助于SPSS的因子分析功能,实现主成分分析的方法。
2、使学生对主成分分析的基本原理有更深入的理解。
3、培养学生灵活运用所学知识的能力和分析问题、解决问题的能力。
0.427
-0.21
-0.154
Dodge
-0.706
-0.196
0.481
0.145
-0.154
Eagle
-0.614
1.218
-4.199
-0.21
-0.677
Ford
-0.706
-1.542
0.987
0.145
-1.724
Honda
-0.429
0.41
-0.007
0.027
0.369
Isuzu
实验步骤
1. (一)利用SPSS进行因子分析
将原始数据输入SPSS数据编辑窗口,将4个变量分别命名为X1~X4。在SPSS窗口中选择Analyze→Data Reduction→Factor菜单项,调出因子分析主对话框,并将变量X1~X4移入Variables框中,其他均保持系统默认选项,单击OK按钮,执行因子分析过程,得到如表1所示的特征根和方差贡献表以及表2所示的因子载荷阵。
应用多元统计分析-第七章 主成分和因子分析
因主 子成 分分 析分 析 和
44
如果考虑了特殊因子以 后,协方差阵为: AA' 1 e1' 12 0 ( 1 e1 , , m em ) 2 e ' 0 pp m m 当 未知,可用样本协差阵 去代替,要经过标准化 S 处理,则S与相关阵R相同,仍然可做上面类 似的表示。 ˆ ˆ ˆ 一般设 为样本相关阵 的特征根,相应 R
5
主成分分析和因子分析
本章就介绍两种把变量维数降低以便于描 述、理解和分析的方法:主成分分析 (principal component analysis)和因子 分析(factor analysis)。实际上主成分分 析可以说是因子分析的一个特例。在引进主 成分分析之前,先看下面的例子。
6
成绩数据(student.sav)
3
主成分与因子分析
结果统计学家成功了! 这两个不相关的指标就是上衣的型和号。 本章的教学目的就是教会学生如何建立和 使用降维模型。
4
主成分分析
每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社 会变量的数据;各个学校的研究、教学等各 种变量的数据等等。 这些数据的共同特点是变量很多,在如此 多的变量之中,有很多是相关的。人们希望 能够找出它们的少数“代表”来对它们进行 描述。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用多元统计分析作业(一)——主成分分析 8‐1:用主成分分析方法探讨城市工业主体结构。
解:执行SAS程序代码:data dxiti81;input number x1-x8;cards;1 90342 52455 101091 19272 82 16.1 197435 0.1722 4903 1973 2035 10313 34.2 7.1 592077 0.0033 6735 21139 3767 1780 36.1 8.2 726396 0.0034 49454 36241 81557 22504 98.1 25.9 348226 0.9855 139190 203505 215898 10609 93.2 12.6 139572 0.6286 12215 16219 10351 6382 62.5 8.7 145818 0.0667 2372 6572 8103 12329 184.4 22.2 20921 0.1528 11062 23078 54935 23804 370.4 41 65486 0.2639 17111 23907 52108 21796 221.5 21.5 63806 0.27610 1206 3930 6126 15586 330.4 29.5 1840 0.43711 2150 5704 6200 10870 184.2 12 8913 0.27412 5251 6155 10383 16875 146.4 27.5 78796 0.15113 14341 13203 19396 14691 94.6 17.8 6354 1.574;proc princomp data=dxiti81 out=oxiti81;var x1-x8;run;proc sort data=oxiti81;by prin1;proc print;id number;var prin1;run;proc sort data=oxiti81;by prin2;proc print;id number;var prin2;run;proc sort data=oxiti81;by prin3;proc print;id number;var prin3;run;proc plot;plot prin2*prin1=number;run;proc cluster data=oxiti81 method=ave pseudo ccc outtree=tr81;var x1-x8;id number;proc tree data=tr81 horizontal graphics;run;结果分析:◆我们使用原始数据的相关系数矩阵计算特征根矩阵。
通过观察这8个变量之间的两两相关系数矩阵(表1)表1:Correlation Matrixx1 x2 x3x4x5x6x7 x8 x1 1.0000 0.9196 0.96200.1089-.2886-.16630.0067 0.2140x2 0.9196 1.0000 0.9468-.0550-.1973-.1709-.0149 0.1855x3 0.9620 0.9468 1.00000.2329-.10360.0042-.0781 0.2467x4 0.1089 -.0550 0.2329 1.00000.55990.7809-.4497 0.3009x5 -.2886 -.1973 -.10360.5599 1.00000.8266-.6088 -.0295x6 -.1663 -.1709 0.00420.78090.8266 1.0000-.4922 0.1742x7 0.0067 -.0149 -.0781-.4497-.6088-.4922 1.0000 -.2999x8 0.2140 0.1855 0.24670.3009-.02950.1742-.2999 1.0000 我们看到,和这两组的三个指标之间内部的相关系数较大,说明后面进行主成分分析还是很有必要的。
而与,与,与,与其他所有指标之间的相关系数均较小,由此可以得到初步的分析结论:、和应该作为三组互相较为独立的指标,并由此得知后面应该至少选取三个主成分进行分析。
◆根据分析家系统画出的碎石图和特征根的累积方差贡献率(表2)表2 主成分 ProportionCumulative 10.3881 0.38812 0.3622 0.7503 3 0.1163 0.86664 0.0803 0.94685 0.0380 0.98486 0.0108 0.9957 7 0.0040 0.9997 80.00031.0000可以看到,取三个主成分的时候累积方差贡献率已达86%,故提取三个主成分即可代表原始数据的大部分信息。
◆ 根据特征向量(表3),可以写出上述确定的三个主成分的表达式如下(均为标准化后的变量):◆ 下面利用特征向量的值对选取的主成分进行解释: 对第一个主成分来说,其的特征向量系数均在0.4左右,且均为正值,而的特征向量系数均在0.3左右,且均为负值,结合和指标所代表的实际含义,我们可以看出,第一个主成分反映出了该地区工业的“发展规模”大小;对第二个主成分来说,只有一项指标对应的特征向量系数是负值,根据指标所代表的实际含义是标准燃料消耗量,我们看出,第二个主成分主要反映了该地区工业的能源消耗量,而能源消耗越多越不环保,故可将第二个主成分看做“环保指数”; 对第三个主成分来说,只有一项指标对应的特征向量系数的绝对值较大,根据指标所代表的实际含义是能源利用效果,我们看出,第三个主成分主要反映了该地区工业的“能源利用效益”(单位能源的产值)。
◆ 利用主成分得分对行业进行排序:表4按第一主成分排序 按第二主成分排序 按第三主成分排序 number Prin1 number Prin2 number Prin3 8 ‐2.19498 3 ‐3.22553 13 ‐2.8063 10 ‐2.03186 2 ‐2.59164 4 ‐0.99768 12 ‐1.20141 6 ‐1.77361 11 ‐0.12255 7 ‐1.1025 11 ‐0.75561 6 0.03114 9 ‐0.84117 7 ‐0.31793 2 0.22831 11 ‐0.71333 12 0.03034 10 0.23105 13 ‐0.26296 13 0.46431 7 0.28183 60.3299710.75863120.28702表3 Prin1Prin2Prin3x1 0.4766500.295991 0.104190 x2 0.4728080.277894 0.162983 x3 0.4238450.377951 0.156255 x4 ‐.2128930.451408 ‐.008544 x5 ‐.3884600.330945 0.321133 x6 ‐.3524270.402737 0.145144 x7 0.214835‐.377415 0.140459 x80.0550340.272736 ‐.8911624 0.45986 10 0.82516 9 0.352872 0.49821 9 0.895663 0.409413 1.05644 4 1.183645 0.467641 1.47524 8 2.24414 1 0.538045 4.52848 5 2.26244 8 1.09921对于第一个主成分来说:第8,10行业的得分较低,而第5行业的得分很高;对比原始指标可以看出,食品、缝纫工业的发展规模较小,而机械工业的发展规模较大;对于第二个主成分来说:第3行业的得分较低,而第8,5行业的得分很高;对比原始数据可以看出,煤炭工业的能源消耗量较大,环保指数较低,而食品、机械的能源消耗量较小,环保指数较高;对于第三个主成分来说:第13行业的得分较低,而第8行业的得分很高;对比原始数据可以看出,文教用品工业的能源利用效率较低,而食品工业的能源利用效率较高。
故对于13个工业产业发展规模的排序为:5、1、3、2、4、6、13、11、9、7、12、10、8, 相应的原始行业为:机械、冶金、煤炭、电力、化学、建材、文教用品、皮革、纺织、森工、造纸、缝纫、食品。
◆上图为主成分2对主成分3的分布图,可以看到对于第4、11、6、2、3行业来说,能源消耗量越大,能源利用效益越低,而对于其他行业则两者之间没有显著关系。
◆ 同时从第一主成分对第二主成分的增强型分量图中可以验证最初对于原始数据的分析:原始指标可以分为两类:与,分别反映生产规模和生产效益,而即能源消耗量和能源利用效益则与上述两组指标关系不大。
◆ 聚类分析信息表NCL Clusters Joined FREQ SPRSQ RSQ ERSQ CCC PSF PST2 Dist e 12 9 8 2 0.0000 1.00 . . 2628 . 0.0204 11 11 10 2 0.0001 1.00 . . 2346 . 0.0247 10 CL11 7 3 0.0002 1.00 . . 1088 4.4 0.0463 9 13 CL10 4 0.0004 .999 . . 715 2.9 0.0607 8 12 CL12 3 0.0022 .997 . . 247 63.3 0.1407 7 CL9 CL8 7 0.0105 .987 . . 73.5 18.3 0.2058 6 CL7 6 8 0.0146 .972 . . 48.6 6.5 0.3336 5 2 3 2 0.0123 .960 . . 47.7 . 0.3836 4 4 1 2 0.0166 .943 . . 49.7 . 0.4467 3 CL6 CL4 10 0.1272 .816 . . 22.2 22.8 0.7402 2 CL3 5 11 0.1002 .716 .706 0.13 27.7 5.2 0.8743 1 CL2 CL5 13 0.7157 .000 .000 0.00 . 27.7 1.6501综合上表的R 2、半偏R 2、伪F 、伪t 2统计量(RSQ 、SPRSQ 、PSF 、PST2),可以看到,将原始的13个工业行业分为2类或4类是比较合理的:分为两类的结果:{电力、煤炭},{冶金、化学、机械、建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品};分为四类的结果:{建材、森工、食品、纺织、缝纫、皮革、造纸、文教用品},{冶金、化学},{机械},{电力、煤炭}。
8‐2:分析上海各乡的经济发展数据。