应用多元统计分析习题解答主成分分析.doc

合集下载

应用多元统计分析:主成分分析共110页

应用多元统计分析:主成分分析共110页

谢谢!
应用多元统计分析:主成分 分析
26、机遇对于有准备的头脑有特别的 亲和力 。 27、自信是人格的核心。
28、目标的坚定是性格中最必要无定的 迷径中 ,徒劳 无功。- -查士 德斐尔 爵士。 29、困难就是机遇。--温斯顿.丘吉 尔。 30、我奋斗,所以我快乐。--格林斯 潘。
61、奢侈是舒适的,否则就不是奢侈 。——CocoCha nel 62、少而好学,如日出之阳;壮而好学 ,如日 中之光 ;志而 好学, 如炳烛 之光。 ——刘 向 63、三军可夺帅也,匹夫不可夺志也。 ——孔 丘 64、人生就是学校。在那里,与其说好 的教师 是幸福 ,不如 说好的 教师是 不幸。 ——海 贝尔 65、接受挑战,就可以享受胜利的喜悦 。——杰纳勒 尔·乔治·S·巴顿

应用多元统计分析实验报告之主成分分析

应用多元统计分析实验报告之主成分分析

应用多元统计分析实验报告一、研究目的下表1是2010年各地区6项重要指标的数据,这6项指标分别是:X1—城市用水普及率(%)X2—城市燃气普及率(%)X3—每万人拥有公共交通车辆(标台)X4—人均城市道路面积(平方米)X5—人均公园绿地面积(平方米)X6—每万人拥有公共厕所(座)表1 各地区城市设施水平指标本次实验的研究目的是根据这些指标用主成分分析法对各地区城市设施水平进行综合评价和排序,得出结论并提出建议。

二、研究过程从标准化数据出发,首先计算这些指标的主成分,然后通过主成分的大小进行排序。

1.利用SPSS进行因子分析表2和表3分别是特征根(方差贡献率)和因子载荷阵的信息。

表3 因子载荷阵2.利用因子分析结果进行主成分分析 ⑴.表4是特征向量的信息表4 特征向量矩阵 z1 z2 z3 z4 z5 z6 x1 0.52 0.35 (0.31) (0.00) 0.08 0.70 x2 0.58 0.09 (0.19) 0.45 (0.37) (0.53) x3 0.17 0.67 0.26 (0.36) 0.41 (0.39) x4 0.43 (0.32) 0.32 (0.66) (0.41) 0.03 x5 0.41 (0.51) 0.25 0.21 0.68 (0.01) x6 (0.01) 0.23 0.79 0.43 (0.24) 0.28⑵.利用主成分得分进行综合评价时,从特征向量可以写出所有6个主成分的具体形式:Y1=0.52X1+0.68X2+0.17X3+0.43X4+0.41X5-0.01X6Y2=0.35X1+0.09X2+0.67X3-0.32X4-0.51X5+0.23X6 Y3=-0.31X1-0.19X2+0.26X3+0.32X4+0.25X5+0.79X6 Y4=0.00X1+0.45X2-0.36X3-0.66X4+0.21X5+0.43X6 Y5=0.08X1-0.37X2+0.41X3-0.41X4+0.68X5-0.24X6 Y6=0.70X1-0.53X2-0.39X3+0.03X4-0.01X5+0.28X6⑶.以特征根为权,对6个主成分进行加权综合,得出各地区的综合得分及排序,具体数据见表5.综合得分的计算公式是6161Y Y Y ii ∑∑+⋯+=λλλλ三、结果说明从表5可以看出,北京、天津。

应用多元统计分析课后习题答案高惠璇第七章习题解答

应用多元统计分析课后习题答案高惠璇第七章习题解答

7-4 设总体X=(X1,…,Xp)′~Np(μ,Σ) (Σ>0),等概率密度
椭球为
(X-μ)′Σ-1(X-μ)=C2(C为常数).
试问椭球的主轴方成分分析
7-5 设3维总体X的协差阵为
试求总体主成分.
4 0 0
0 4 0
0 0 2
解:总体主成分为
Zi Xi(i1,2,3)
1
1
(2) 求X
(3) 试问当ρ取多大时才能使第一主成分的贡献率达95%以上.
解:
5
第七章 主成分分析
6
第七章 主成分分析
7-3 设p维总体X的协差阵为
21
1
1
(01).
(1)
Z1 1p(X1X2Xp);
(2) 试求第一主成分的贡献率.
7
第七章 主成分分析
解:
1
8
第七章 主成分分析
2
12
13 14
12 2
14 13
13 14 2
12
14
13
12 2
,
其中 1 21 31,421 4 21.3
试求X的主成分.
12
第七章 主成分分析
解:
13
第七章 主成分分析
7-8
14
第七章 主成分分析
15
第七章 主成分分析
7-9
16
第七章 主成分分析
主成分向量为
Z ( X 1 ,X 2 ,X 3 ) 或 Z ( X 2 ,X 1 ,X 3 )
三个主成分的方差分别为4,4,2.
10
第七章 主成分分析
7-6
设3维总体X的协差阵为
2 2
2 2

多元统计分析第七章主成分分析习题答案

多元统计分析第七章主成分分析习题答案

7.1 设随机变量12X(X ,X )'=的协差阵为21,12⎡⎤∑=⎢⎥⎣⎦试求X的特征根和特征向量,并写出主成分。

解:先求X的特征根λ,λ满足方程:21012-λ=-λ,即2(2)10-λ-=,因此两个特征根分别为123, 1.λ=λ=设13λ=对应的单位特征向量为()1121a ,a ',则()1121a ,a '满足:1121a 110a 110-⎛⎫⎡⎤⎛⎫= ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取1121a a ⎛⎛⎫ = ⎪ ⎝⎭ ⎝,其对应主成分为:112F X X 22=+;设21λ=对应的单位特征向量为()1222a ,a ',则()1222a ,a '满足:1222a 110a 110⎛⎫⎡⎤⎛⎫=⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取1222a a ⎛⎫⎛⎫ ⎪= ⎪ ⎝⎭- ⎝,其对应的主成分为:212F 22=-.7.2设随机变量123X (X ,X ,X )'=的协差阵为120250,002-⎡⎤⎢⎥∑=-⎢⎥⎢⎥⎣⎦试求X的主成分及主成分对变量X的贡献率。

解:先求X的特征根λ,λ满足方程:12025002-λ---λ=-λ,即()2(2)610-λλ-λ+=,因此三个特征根分别为1235.8284,2,0.1716λ=λ=λ=设1 5.8284λ=对应的单位特征向量为()112131a ,a ,a ',则它满足:1121314.828420a 020.82840a 000 3.8284a 0--⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥--=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取 112131a 10.38271a 2.41420.92392.6131a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪=-=- ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 112F 0.3827X 0.9239X =-,其贡献率为5.828472.86%5.828420.1716=++;设22λ=对应的单位特征向量为()122232a,a ,a ',则它满足:122232120a 0230a 0000a 0--⎡⎤⎛⎫⎛⎫ ⎪ ⎪⎢⎥-= ⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取122232a 0a 0a 1⎛⎫⎛⎫⎪ ⎪= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭,其对应主成分为: 23F X =,其贡献率为225%5.828420.1716=++;设30.1716λ=对应的单位特征向量为()132333a ,a ,a ',则它满足:1323330.828420a 02 4.82840a 000 1.8284a 0-⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥-=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取132333a 10.92391a 0.41420.38271.0824a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 312F 0.9239X 0.3827X =+,其贡献率为0.17162.14%5.828420.1716=++.7.3 设随机变量12X (X ,X )'=的协差阵为14,4100⎡⎤∑=⎢⎥⎣⎦试从∑和相关阵R出发求出总体主成分,并加以比较。

应用多元统计分析课后习题答案高惠璇第七章习题解答-20页PPT精选文档

应用多元统计分析课后习题答案高惠璇第七章习题解答-20页PPT精选文档

解:
9
第七章 主成分分析
7-5 设3维总体X的协差阵为

试求总体主成分.

4 0 0
0 4 0
0 0 2

解:总体主成分为
Zi Xi(i1,2,3)
主成分向量为
Z ( X 1 ,X 2 ,X 3 ) 或 Z ( X 2 ,X 1 ,X 3 )
三个主成分的方差分别为4,4,2.
(01).
(1)
Z1 1p(X1X2Xp);
(2) 试求第一主成分的贡献率.
7
第七章 主成分分析
解:
1
8
第七章 主成分分析
7-4 设总体X=(X1,…,Xp)′~Np(μ,Σ) (Σ>0),等概率密度
椭球为
(X-μ)′Σ-1(X-μ)=C2(C为常数).
试问椭球的主轴方向是什么?
14 13
13 14 2
12
14
13
12 2
,
其中 1 21 31,421 4 21.3
试求X的主成分.
12
第七章 主成分分析
解:
13
第七章 主成分分析
7-8
14
第七章 主成分分析
15
第七章 主成分分析
7-9
16
其中ρ为X1和X2的相关系数(ρ>0). (1) 试从Σ出发求X

1
1

(2) 求X
(3) 试问当ρ取多大时才能使第一主成分的贡献率达95%以上.
解:
5
第七章 主成分分析
6
第七章 主成分分析
7-3 设p维总体X的协差阵为
21

1

多元统计分析第三版课后练习题含答案

多元统计分析第三版课后练习题含答案

多元统计分析第三版课后练习题含答案1. 组间差异比较题目有两组数据,分别为A组和B组,经过检验发现两组数据的方差不相等,则应该使用那种方法进行比较?答案当两组数据的方差不相等时,应该使用Welch’s t检验方法进行比较,而不是常规的Student’s t检验方法。

2. 主成分分析题目主成分分析(PCA)是一种常用的数据降维方法。

在PCA分析中,如何选择主成分的个数?答案选择主成分的个数要根据实际情况而定。

一般来说,我们可以参考数据的累计方差贡献率,将累计贡献率大于80%的主成分选出来作为数据的主要特征,进而进行后续的数据分析处理。

3. 线性回归模型题目在线性回归模型中,如何衡量模型的拟合程度?答案模型的拟合程度可以通过R方(R-squared)值来衡量。

R方值越接近1,说明模型越拟合数据,反之则说明拟合程度不高。

但需要注意的是,仅仅使用R方值来衡量一个模型的好坏还不够,也需要考虑其它因素的影响,如是否存在共线性等问题。

4. 混淆矩阵题目什么是混淆矩阵(Confusion Matrix)?在分类问题中,混淆矩阵的作用是什么?答案混淆矩阵是用来评估分类模型的准确度,它可以将分类问题的结果与实际结果进行比较分析。

一般来说,混淆矩阵包含4个参数:真阳性(True Positive, TP)、假阳性(False Positive, FP)、真阴性(True Negative, TN)和假阴性(False Negative, FN)。

在分类问题中,混淆矩阵的作用主要有以下三个:1.衡量模型的质量。

通过混淆矩阵,我们可以计算出分类模型的准确率、精度、召回率等指标来评估模型的质量。

2.选择模型的阈值。

分类模型的阈值是指将不同的样本劃分到不同的分类中的界限值。

通过混淆矩阵,我们可以选择不同的阈值,以获得更好的模型表现。

3.确定模型需要改进的方面。

通过混淆矩阵,我们可以识别出模型中需要改进的方面,从而进一步优化模型。

朱建平-应用多元统计分析课后答案解析

朱建平-应用多元统计分析课后答案解析

第二章2.1.试叙述多元联合分布和边际分布之间的关系。

解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=的联合分布密度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=的子向量的概率分布,其概率密度函数的维数小于p 。

2.2设二维随机向量12()X X '服从二元正态分布,写出其联合分布。

解:设12()X X '的均值向量为()12μμ'=μ,协方差矩阵为21122212σσσσ⎛⎫ ⎪⎝⎭,则其联合分布密度函数为1/21222112112222122121()exp ()()2f σσσσσσσσ--⎧⎫⎛⎫⎛⎫⎪⎪'=---⎨⎬ ⎪⎪⎝⎭⎝⎭⎪⎪⎩⎭x x μx μ。

2.3已知随机向量12()X X '的联合密度函数为121212222[()()()()2()()](,)()()d c x a b a x c x a x c f x x b a d c --+-----=-- 其中1a x b ≤≤,2c x d ≤≤。

求(1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断1X 和2X 是否相互独立。

(1)解:随机变量1X 和2X 的边缘密度函数、均值和方差;112121222[()()()()2()()]()()()dx cd c x a b a x c x a x c f x dx b a d c --+-----=--⎰12212222222()()2[()()2()()]()()()()dd c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----⎰ 121222202()()2[()2()]()()()()dd c c d c x a x b a t x a t dt b a d c b a d c ------=+----⎰ 2212122222()()[()2()]1()()()()d cdc d c x a x b a t x a t b a d c b a d c b a------=+=----- 所以由于1X 服从均匀分布,则均值为2b a+,方差为()212b a -。

北师大应用多元统计分析作业——主成分分析

北师大应用多元统计分析作业——主成分分析

应用多元统计分析作业(一)——主成分分析 8‐1:用主成分分析方法探讨城市工业主体结构。

解:执行SAS程序代码:data dxiti81;input number x1-x8;cards;1 90342 52455 101091 19272 82 16.1 197435 0.1722 4903 1973 2035 10313 34.2 7.1 592077 0.0033 6735 21139 3767 1780 36.1 8.2 726396 0.0034 49454 36241 81557 22504 98.1 25.9 348226 0.9855 139190 203505 215898 10609 93.2 12.6 139572 0.6286 12215 16219 10351 6382 62.5 8.7 145818 0.0667 2372 6572 8103 12329 184.4 22.2 20921 0.1528 11062 23078 54935 23804 370.4 41 65486 0.2639 17111 23907 52108 21796 221.5 21.5 63806 0.27610 1206 3930 6126 15586 330.4 29.5 1840 0.43711 2150 5704 6200 10870 184.2 12 8913 0.27412 5251 6155 10383 16875 146.4 27.5 78796 0.15113 14341 13203 19396 14691 94.6 17.8 6354 1.574;proc princomp data=dxiti81 out=oxiti81;var x1-x8;run;proc sort data=oxiti81;by prin1;proc print;id number;var prin1;run;proc sort data=oxiti81;by prin2;proc print;id number;var prin2;run;proc sort data=oxiti81;by prin3;proc print;id number;var prin3;run;proc plot;plot prin2*prin1=number;run;proc cluster data=oxiti81 method=ave pseudo ccc outtree=tr81;var x1-x8;id number;proc tree data=tr81 horizontal graphics;run;结果分析:◆我们使用原始数据的相关系数矩阵计算特征根矩阵。

应用多元统计分析章节后习题答案详解北大高惠璇八章节习题解答

应用多元统计分析章节后习题答案详解北大高惠璇八章节习题解答
15
第八章 因子分析
m1 lm 1 0 m 1 BB ( m1 lm1 ,, p l p ) p l 0 p p

j m 1


p
2 j
tr(BB BB ) tr(BB BB) tr[(E D)( E D)] tr[E E E D DE DD] Q(m) 0 0 ( i2 ) 2
(
i 1 2 2 2 2
p
2 2 i
)
2 2 3
Q(1) ( ) [( ) ( ) ( ) ] 2 2 0.6795 0.3672 [0.2331 0.3091 0.4943 ] 0.5966 0.3943 0.2023 2 2 2 2 2 Q(2) 3 [( 12 ) 2 ( 2 ) ( 3 ) ] 2 2 2 2 0.3672 [0.2007 0.1452 0.01131 ] 0.1348 0.06149 0.07331
18
(2) ( AA D) 1 D 1 D 1 A( I AD 1 A) 1 A1 D 1 ; (3) A( AA D) 1 ( I m AD 1 A) 1 AD 1. 解:利用分块矩阵求逆公式求以下分块矩阵的逆:
记B221 I m AD A,
1 1 1 21 A B112 B221 A D B
I m AB
A B
1 221
B
22
把B22· 1和B11· 2式代入以上各式,可得:
( D AA) 1 D 1 D 1 A( I m AD 1 A) 1 AD 1 A( D AA) 1 ( I m AD 1 A) 1 AD 1 I m A( D AA) 1 A ( I m AD 1 A) 1 (3) ( 2)

应用多元统计分析实验报告之主成分分析

应用多元统计分析实验报告之主成分分析

应用多元统计分析实验报告一、研究目的下表1是2010年各地区6项重要指标的数据,这6项指标分别是:X1—城市用水普及率(%)X2—城市燃气普及率(%)X3—每万人拥有公共交通车辆(标台)X4—人均城市道路面积(平方米)X5—人均公园绿地面积(平方米)X6—每万人拥有公共厕所(座)表1 各地区城市设施水平指标本次实验的研究目的是根据这些指标用主成分分析法对各地区城市设施水平进行综合评价和排序,得出结论并提出建议。

二、研究过程从标准化数据出发,首先计算这些指标的主成分,然后通过主成分的大小进行排序。

1.利用SPSS进行因子分析表2和表3分别是特征根(方差贡献率)和因子载荷阵的信息。

表3 因子载荷阵2.利用因子分析结果进行主成分分析 ⑴.表4是特征向量的信息表4 特征向量矩阵 z1 z2 z3 z4 z5 z6 x1 0.52 0.35 (0.31) (0.00) 0.08 0.70 x2 0.58 0.09 (0.19) 0.45 (0.37) (0.53) x3 0.17 0.67 0.26 (0.36) 0.41 (0.39) x4 0.43 (0.32) 0.32 (0.66) (0.41) 0.03 x5 0.41 (0.51) 0.25 0.21 0.68 (0.01) x6 (0.01) 0.23 0.79 0.43 (0.24) 0.28⑵.利用主成分得分进行综合评价时,从特征向量可以写出所有6个主成分的具体形式:Y1=0.52X1+0.68X2+0.17X3+0.43X4+0.41X5-0.01X6Y2=0.35X1+0.09X2+0.67X3-0.32X4-0.51X5+0.23X6 Y3=-0.31X1-0.19X2+0.26X3+0.32X4+0.25X5+0.79X6 Y4=0.00X1+0.45X2-0.36X3-0.66X4+0.21X5+0.43X6 Y5=0.08X1-0.37X2+0.41X3-0.41X4+0.68X5-0.24X6 Y6=0.70X1-0.53X2-0.39X3+0.03X4-0.01X5+0.28X6⑶.以特征根为权,对6个主成分进行加权综合,得出各地区的综合得分及排序,具体数据见表5.综合得分的计算公式是6161Y Y Y ii ∑∑+⋯+=λλλλ三、结果说明从表5可以看出,北京、天津。

(完整版)多元统计分析试题及答案

(完整版)多元统计分析试题及答案

(完整版)多元统计分析试题及答案试题:1. 试解释多元统计分析的含义及其与单变量和双变量统计分析的区别。

2. 简述卡方检验方法及适用场景。

3. 请解释回归分析中的回归系数及其p值的含义及作用,简单说明如何进行回归模型的选择和评估。

4. 试解释主成分分析的原理及目的,如何进行主成分分析及如何解释因子载荷矩阵。

5. 请列举和简要解释聚类分析和判别分析的适用场景,并说明两种方法的区别。

答案:1. 多元统计分析是一种将多个变量进行综合分析的方法。

与单变量和双变量统计分析不同的是,多元统计分析可以处理多个自变量和因变量的组合关系,从而探究它们之间的综合关系。

该方法通常适用于探究多种变量在某个问题中的关系、探究影响某一结果变量的因素、探究各个变量相互作用的影响等。

2. 卡方检验是根据样本数据与期望值的差异来判断观察值与理论预期是否相符,以此来验证假设是否成立的方法。

它通常用于对某个现象进行分类的相关度检验。

适用场景包括:样本的数量大于等于40,且至少有一个期望值小于5;变量为分类变量,且分类类别数不超过10个。

卡方检验的原理是将观察值和期望值进行比较,并计算卡方值,然后根据卡方值与自由度的乘积查找p值,从而得出结论。

3. 回归系数是回归方程中自变量与因变量之间的关系,在线性回归中,回归系数表示每一个自变量单位变化与因变量单位变化的关系。

p值是评估回归系数是否具有显著性的指标。

回归模型的选择有两种方法:一种是逐步回归分析,根据不同的准则进行多个回归模型的比较,选择最优的模型;另一种是正则化回归,通过加入惩罚项来保证回归模型具有良好的泛化性能。

回归模型的评估有多种方法,包括:残差分析、R方值、方差齐性检验、变量的共线性检验等。

4. 主成分分析是一种将多维数据降维处理的方法,它的目的是通过数据的变换,将多个变量转化为一些综合指标,这些指标是原始变量的线性组合。

主成分分析的步骤包括:数据标准化、计算协方差矩阵或相关系数矩阵、计算特征值和特征向量、选取主成分。

应用多元统计分析课后习题答案高惠璇第七章习题解答共20页

应用多元统计分析课后习题答案高惠璇第七章习题解答共20页

第七章 主成分分析
17
第七章 主成分分析
7-10
18
第七章 主成分分析
77--1112
19
谢谢
解:
9
第七章 主成分分析
7-5 设3维总体X的协差阵为

试求总体主成分.

4 0 0
0 4 0
0 0 2

解:总体主成分为
Zi Xi(i1,2,3)
主成分向量为
Z ( X 1 ,X 2 ,X 3 ) 或 Z ( X 2 ,X 1 ,X 3 )
三个主成分的方差分别为4,4,2.
(01).
(1)
Z1 1p(X1X2Xp);
(2) 试求第一主成分的贡献率.
7
第七章 主成分分析
解:
1
8
第七章 主成分分析
7-4 设总体X=(X1,…,Xp)′~Np(μ,Σ) (Σ>0),等概率密度
椭球为
(X-μ)′Σ-1(X-μ)=C2(C为常数).
试问椭球的主轴方向是什么?
14 13
13 14 2
12
14
13
12 2
,
其中 1 21 31,421 4 21.3
试求X的主成分.
12
第七章 主成分分析
解:
13
第七章 主成分分析
7-8
14
第七章 主成分分析
15
第七章 主成分分析
7-9
16
10
第七章 主成分分析
7-6
设3维总体X的协差阵为



2 2
2 2
0
2

0 2 2

应用多元统计分析课后答案朱建平版(前9章).doc

应用多元统计分析课后答案朱建平版(前9章).doc

第二章2.1.试叙述多元联合分布和边际分布之间的关系。

解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=的联合分布密度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=的子向量的概率分布,其概率密度函数的维数小于p 。

2.2设二维随机向量12()X X '服从二元正态分布,写出其联合分布。

解:设12()X X '的均值向量为()12μμ'=μ,协方差矩阵为21122212σσσσ⎛⎫ ⎪⎝⎭,则其联合分布密度函数为1/21222112112222122121()exp ()()2f σσσσσσσσ--⎧⎫⎛⎫⎛⎫⎪⎪'=---⎨⎬ ⎪⎪⎝⎭⎝⎭⎪⎪⎩⎭x x μx μ。

2.3已知随机向量12()X X '的联合密度函数为121212222[()()()()2()()](,)()()d c x a b a x c x a x c f x x b a d c --+-----=-- 其中1a x b ≤≤,2c x d ≤≤。

求(1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断1X 和2X 是否相互独立。

(1)解:随机变量1X 和2X 的边缘密度函数、均值和方差;112121222[()()()()2()()]()()()dx cd c x a b a x c x a x c f x dx b a d c --+-----=--⎰12212222222()()2[()()2()()]()()()()ddcc d c x a x b a x c x a x c dx b a d c b a d c -------=+----⎰12122222()()2[()2()]()()()()dd cc d c x a x b a t x a t dt b a d c b a d c ------=+----⎰2212122222()()[()2()]1()()()()d cdcd c x a x b a t x a t b a d c b a d c b a------=+=----- 所以由于1X 服从均匀分布,则均值为2b a +,方差为()212b a -。

多元应用分析 第七章 主成分分析报告

多元应用分析 第七章 主成分分析报告

多元应用分析第七章主成分分析1.对全国30个省市自治区经济发展基本情况的八项指标作主成分分析。

Spss-分析-描述统计-描述对变量进行标准化如下图分析-降维-因子分析将标准化后的变量添加进变量框在描述中勾选相关矩阵—系数、球形度检验1.在抽取—勾选碎石图以及协方差矩阵2.在抽取—勾选碎石图以及相关性矩阵两个作对比在得分中勾选显示因子得分系数矩阵在选项中系数显示按大小排序其他保持默认状态,点击确定输出结果相关系数矩阵可以看出许多变量存在较强的相关关系,有必要进行因子分析,且相关系数的检验值多数较小。

球面结构检验结果KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。

.585Bartlett 的球形度检验近似卡方203.134 df 28 Sig. .000从下图看,除X2、X4外,如下变量共同度都大于0.8,即三个因子较好的解释了八个变量公因子方差初始提取Zscore<GDP_X1> 1.000 .954Zscore<居民消费水平X2> 1.000 .609Zscore<固定资产投入x3> 1.000 .912Zscore<职工平均工资x4> 1.000 .785Zscore<货物周转量x5> 1.000 .825Zscore<居民消费价格指数X6>1.000 .906Zscore<商品零售价格指数X7>1.000 .907Zscore<工业总产值X8> 1.000 .893提取方法:主成份分析。

提取的三个主成分是:固定资产投入X3、商品零售价格指数X7、居民消费价格Zscore<固定资产投入x3> .923 -.031 .243 .923 -.031 .243 Zscore<工业总产值X8> .868 .295 .228 .868 .295 .228 Zscore<货物周转量x5> .629 .618 -.217 .629 .618 -.217 Zscore<职工平均工资x4> .302 -.772 .314 .302 -.772 .314-.510 .737 .323 -.510 .737 .323 Zscore<商品零售价格指数X7>-.491 .392 .715 -.491 .392 .715 Zscore<居民消费价格指数X6>Zscore<居民消费水平X2> -.028 -.327 .708 -.028 -.327 .708 提取方法 :主成份。

《多元统计分析》第五章 主成分分析

《多元统计分析》第五章  主成分分析

盗窃罪 1881.9 3369.8 4467.4 1862.1 3499.8 3903.2 2620.7 3678.4 3840.5 2170.2 3920.4 2599.6 2828.5 2498.7 2685.1 2739.3

汽车犯罪 280.7 753.3 439.5 183.4 663.5 477.1 593.2 467 351.4 297.9 489.4 237.6 528.6 377.4 219.9 244.3 ┆
伤害罪 278.3 284 312.3 203.4 358 292.9 131.8 194.2 449.1 256.5 64.1 172.5 209 153.5 89.8 180.5

夜盗罪 1135.5 1331.7 2346.1 972.6 2139.4 1935.2 1346 1682.6 1859.9 1351.1 1911.5 1050.8 1085 1086.2 812.5 1270.4
v 线性组合含义的解释,从系数角度来说,取决于变量系数的符号和相对大小;从 相关系数角度来说,取决于线性组合与各变量相关系数的符号和相对大小。
11
原始变量方差差异大的情形
v 例2(书中例7.2.2 ) 设x=(x1,x2,x3)′的协方差矩阵为
16 2 30
Σ
2 30
1 4
4 100
经计算,Σ的特征值及特征向量为
需要给出这前几个主成分一个符合实际背景和意义的 解释。
(2)在更多的另一些应用中,主成分只是要达到目的 的一个中间结果 (或步骤),而非目的本身。
例如,主成分聚类、主成分回归、评估正态性、寻找 异常值,以及寻找原始变量间的多重共线性关系等。
此时的主成分可不必给出解释。

应用多元统计分析习题解答主成分分析.doc

应用多元统计分析习题解答主成分分析.doc

主成分分析6.1 试述主成分分析的基本思想。

答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。

当第一个组合不能提取止。

这就是主成分分析的基本思想。

6.2 主成分分析的作用体现在何处?答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。

以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”6.3 简述主成分分析中累积贡献率的具体含义。

答:主成分分析把p 个原始变量12,,,p X X X L 的总方差()tr Σ分解成了p 个相互独立的变量p 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。

这里我们()m p <个主成分,则称11pmm kkk k ψλλ===∑∑ 为主成分1,,m Y YL 的累计贡献率,累计贡献率表明1,,m Y Y L 综合12,,,p X X X L 的能力。

通常取m ,使得累计贡献率达到一个较高的百分数(如85%以上)。

答:这个说法是正确的。

即原变量方差之和等于新的变量的方差之和6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。

答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。

从协方差矩阵出发的,其结果受变量单位的影响。

主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。

实际表明,这种差异有时很大。

我6.6 已知X =()’的协差阵为试进行主成分分析。

解:=0计算得当时,同理,计算得时,易知相互正交单位化向量得,,综上所述,第一主成分为第二主成分为第三主成分为6.7 设X=()’的协方差阵(p为, 0<p<1证明:为最大特征根,其对应的主成分为。

证明:==,为最大特征根当时,=所以,6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。

多元统计分析课后练习答案.doc

多元统计分析课后练习答案.doc

第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z 标准化。

2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。

当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点:夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

主成分分析6.1 试述主成分分析的基本思想。

答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。

当第一个组合不能提取止。

这就是主成分分析的基本思想。

6.2 主成分分析的作用体现在何处?答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。

以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”6.3 简述主成分分析中累积贡献率的具体含义。

答:主成分分析把p 个原始变量12,,,p X X X L 的总方差()tr Σ分解成了p 个相互独立的变量p 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。

这里我们()m p <个主成分,则称11pmm kkk k ψλλ===∑∑ 为主成分1,,m Y YL 的累计贡献率,累计贡献率表明1,,m Y Y L 综合12,,,p X X X L 的能力。

通常取m ,使得累计贡献率达到一个较高的百分数(如85%以上)。

答:这个说法是正确的。

即原变量方差之和等于新的变量的方差之和6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。

答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。

从协方差矩阵出发的,其结果受变量单位的影响。

主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。

实际表明,这种差异有时很大。

我6.6 已知X =()’的协差阵为试进行主成分分析。

解:=0计算得当时,同理,计算得时,易知相互正交单位化向量得,,综上所述,第一主成分为第二主成分为第三主成分为6.7 设X=()’的协方差阵(p为, 0<p<1证明:为最大特征根,其对应的主成分为。

证明:==,为最大特征根当时,=所以,6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。

行业名称资产总计固定资产净值平均余额产品销售收入利润总额煤炭开采和选业6917.2 3032.7 683.3 61.6石油和天然气开采业 5675.9 3926.2 717.5 33877 黑色金属矿采选业 768.1 221.2 96.5 13.8 有色金属矿采选业 622.4 248 116.4 21.6 非金属矿采选业 699.9 291.5 84.9 6.2 其它采矿业 1.6 0.5 0.3 0解:令资产总计为X1,固定资产净值平均余额为X2,产品销售收入为X3,利润总额为X4,用SPSS 对这六个行业进行主成分分析的方法如下:1. 在SPSS 窗口中选择Analyze →Data Reduction →Factor 菜单项,调出因子分析主界面,并将变量15X X -移入Variables 框中,其他均保持系统默认选项,单击OK 按钮,执行因子分析过程(关于因子分子在SPSS 中实现的详细过程,参见7.7)。

得到如表6.1所示的特征根和方差贡献率表和表6.2所示的因子载荷阵。

第一个因子就可以解释86.5%表6.1 特征根和方差贡献率表表6.2 因子载荷阵2. 将表6.2中因子载荷阵中的数据输入SPSS 数据编辑窗口,命名为a 1。

点击菜单项中的Transform →Compute ,调出Compute variable 对话框,在对话框中输入等式: z 1=a 1 / SQRT (3.46),计算第一个特征向量。

点击OK 按钮,即可在数据编辑窗口中得到以z 1为变量名的第一特征向量。

z1 x1 0.509 x2 0.537 x3 0.530 x40.413根据表6.3得主成分的表达式:4413.03530.02537.01509.0Y1X X X X +++=3. 再次使用Compute 命令,调出Compute variable 对话框,在对话框中输入等式:4*413.03*53.02*537.01*509.0y1xxxx+++=根据六个工业行业计算所的y1的大小可得石油和天然气开采业的经济效益最好,煤炭开采和选业其次,接着依次是黑色金属、非金属、有色金属和其他采矿业。

6.9 下表是我国2003年各地区农村居民家庭平均每人主要食品消费量,试用主成分方法对地区粮食蔬菜食油猪牛羊肉家禽蛋类及其制品水产品食糠酒北京134.05 92.78 9.15 14.6 2.17 10.13 4.25 2.92 14.42天津150.2 69.99 10 11.07 0.84 10.8 8.35 0.72 10.14河北216.72 55.97 6.59 7.1 0.54 6.36 2.25 0.65 7.29山西218.91 80.87 5.72 5.36 0.24 6.15 0.47 1.15 2.59内蒙207.3 70.77 2.79 21.18 1.41 3.82 1.45 1.34 10.77辽宁194.39 178.59 5.9 16.45 2.51 9.59 4.49 0.73 10.8吉林255.99 115.2 6.27 11.42 3.23 8.64 3.6 0.75 13.64黑龙江195.08 111.7 7.62 7.85 2.61 6.26 3.35 0.9 15.09上海189.44 76.6 8.59 16.37 7.4 7.51 16.11 2.12 16.77江苏251.98 109.12 8.27 12.05 4.5 6.72 9.09 1.3 8.82浙江208.46 83.91 5.81 16.42 6.03 5.33 14.64 2.13 24.15安徽228.35 80.97 6.87 9.07 4.27 5.04 5.43 1.42 10.61福建198.27 99.92 5.19 16.51 5.14 3.55 13.3 2.35 16.84江西264.8 144.22 8.77 13.24 3.31 3.5 5.19 1.13 7.31山东229.06 118.19 6.96 8.09 2.7 11.61 4.01 1 10.81河南236.97 100.11 4.22 6.48 1.23 8.01 1.35 1.13 4.23湖南227.39 159.76 9.4 19.86 2.74 3.86 8.1 0.92 7.29湖北247.21 149.44 8.35 17.51 3.89 3.28 6.89 1.13 4.02广东233.75 130.22 6.73 22.27 10.4 2.83 13.3 2.16 3.33广西205.65 108.94 4.92 14.44 7.33 1.12 3.57 1.18 6.14海南236.31 86.61 5.7 15.4 9.77 1.31 14.75 1.24 3.88x6,水产品为x7,食糠为x8,酒为x9,用SPSS进行主成分分析的具体方法参见6.8,分析结果如下:表6.4 特征根和方差贡献率表表6.5 因子载荷阵表6.6 特征向量矩阵z1z2z3x1 0.001169 -0.55035 -0.00518 x2 0.054359 -0.32014 0.616746 x3 0.005261 0.185239 0.697829 x4 0.455914 -0.07584 0.167341 x5 0.509689 -0.14229 -0.05521 x6 -0.32908 0.408063 0.269126 x7 0.500921 0.118795 0.112136 x8 0.388112 0.332893 -0.13025 x90.140866 0.4933 -0.01984根据表6.6得主成分的表达式:9141.08388.07501.06329.0551.04456.03005.02054.01001.01X X X X X X X X X Y +++-++++=9493.08333.07119.06408.05142.04076.03185.0232.0155.02X X X X X X X X X Y ++++--+--=902.08130.07112.06269.05055.04167.03698.02617.01005.03X X X X X X X X X Y --++-+++-=分别计算出以上三项后,利用公式321321Y Y Y Y ∑∑∑++=λλλλλλ得到综合得分并排序如下表:地区y1 y2 y3 y 北京 14.92 -90.42 67.81 -10.16 天津 11.80 -93.48 54.76 -15.31 上海 24.39 -115.46 57.85 -16.51 福建 24.55 -129.93 68.56 -19.17 浙江 25.14 -126.00 59.51 -19.43 辽宁 19.55 -154.56 118.72 -19.47 黑龙江 13.27 -131.90 76.07 -23.38 湖南 23.53 -169.91 108.84 -24.97 广东 29.80 -167.06 88.93 -25.29 广西19.18-144.89 72.06 -25.99内蒙15.93 -130.47 48.84 -27.33海南24.93 -154.57 60.04 -29.19山东11.81 -152.64 81.06 -30.09湖北21.71 -179.61 100.93 -30.74安徽14.06 -143.12 56.46 -30.92江苏18.07 -164.93 76.08 -32.51河北7.10 -129.83 40.94 -32.73山西 6.20 -141.44 55.18 -34.15吉林14.54 -166.90 78.26 -34.32江西18.74 -185.62 97.04 -34.94河南8.32 -156.36 66.62 -35.93最后的分类可以根据最终得分Y的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。

6.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。

解:用SPSS进行主成分分析的具体方法参见6.8,分析结果如下:表6.7 特征根和方差贡献率表表6.8 因子载荷阵表6.6 特征向量矩阵z1 z2x1 0.29 0.47x2 0.28 0.48x3 0.14 -0.29x4 0.31 -0.37x5 0.40 -0.20x6 0.40 -0.27x7 0.31 0.39x8 0.39 0.12x9 0.39 -0.24青岛35237.27 14552.46 28597.44 大连31830.56 17629.53 27272.03 济南25149.73 16499.39 22372.97 福州22734.16 16326.97 20677.45 乌鲁木齐22284.54 15284.68 20037.59 沈阳23184.99 12310.22 19694.19 武汉23909.27 9770.56 19370.75 长春21524.95 14179.21 19166.96 成都33808.79 -17638.73 17294.14 太原19445.42 9809.99 16352.45 郑州18561.81 9822.90 15756.62 兰州16568.97 13769.80 15670.44 海口17666.70 11325.77 15631.26 昆明18494.34 8579.72 15311.75 呼和浩特16128.60 13359.10 15239.59 长沙18845.23 6252.54 14802.98 石家庄18229.33 7399.62 14752.99 西安16764.15 4871.97 12946.76。

相关文档
最新文档