多元统计分析模拟考题及答案

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、判断题
（对）112(,,
,)p X X X X '=的协差阵一定是对称的半正定阵
（对）2标准化随机向量的协差阵与原变量的相关系数阵相同。

（对）3典型相关分析是识别并量化两组变量间的关系，将两组变量的相关关系
的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。

（对）4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。

（错）5),(~),,,(21∑'=μp p N X X X X ，,X S 分别是样本均值和样本离差阵，则,
S
X n
分别是,μ∑的无偏估计。

（对）6),(~),,,(21∑'=μp p N X X X X ，X 作为样本均值μ的估计，是
无偏的、有效的、一致的。

（错）7 因子载荷经正交旋转后，各变量的共性方差和各因子的贡献都发生了变化
（对）8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。

（对）9 判别分析中，若两个总体的协差阵相等，则Fisher 判别与距离判别等价。

（对）10距离判别法要求两总体分布的协差阵相等，Fisher 判别法对总体的分布无特定的要求。

二、填空题
1、多元统计中常用的统计量有：样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵．
2、设∑是总体1(,
,)m X X X =的协方差阵，∑的特征根(1,
,)i i m λ=与相应的单
位正交化特征向量
12(,,,)i i i im a a a α=，则第一主成分的表达式是
11111221m m
y a X a X a X =+++，方差为
1λ。

3设∑是总体1234(,,,)X X X X X =的协方差阵，∑的特征根和标准正交特征向量分别
为：'
112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- '
221.024(0.9544,0.0984,0.2695,0.0824)U λ==-
'330.049(0.2516,0.7733,0.5589,0.1624)U λ==--
'440.007(0.0612,0.2519,0.5513,0.7930)U λ==--，则其第二个主成分的表达式是
212340.95440.09840.26950.0824y X X X X =-++，方差为1.024
4. 若),(~)(∑μαp N X ，（n ,,2,1 =α）且相互独立，则样本均值向量X 服
从的分布是(,)p N n
μ∑
．
5.设(,),1,2,
,16i p X N i μ∑=，X 和A 分别是正态总体的样本均值和样本离差
阵，则2115[4()][4()]T X A X μμ-'=--服从 2
15(15,)(,)16p T p F p n p p
--或
6设3(,),1,2,
,10i X N i μ∑=，则10
1
()()i i i W X X μμ='=--∑服从3(10,)W ∑
7.设随机向量123(,,)X X X X '=，且协差阵4
4
34
923216-⎛⎫ ⎪
∑=-- ⎪ ⎪-⎝
⎭
，则其相关矩阵R =
2313
8211363118
6
⎛
⎫-
⎪ ⎪ ⎪-- ⎪ ⎪ ⎪- ⎪⎝⎭
8. 设122(,)
(,),X X X N μ=∑，其中212(,),ρμμμσρ
⎛⎫
=∑=
⎪⎝⎭
1
1，则1212,)X X X X +-=Cov(0
9设X,Y 是来自均值向量为μ，协差阵为∑的总体G 的两个样品，则X ，Y 间的马氏平方距离2
(,)d X Y =1
()()X Y X Y -'-∑-
10设X,Y 是来自均值向量为μ，协差阵为∑的总体G 的两个样品，则X 与总体G 的马氏平方距离2
(,)d X G =1
()()X X μμ-'-∑-
11设随机向量123(,,)X X X X '=的相关系数矩阵通过因子分析分解为
121330.93400.1280.9340.4170.83511
00.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫
- ⎪⎛⎫⎛⎫ ⎪
-⎛⎫ ⎪ ⎪
⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭
则1X 的共性方差2
1h = 0.9342 =0.872 ，其统计意义是：描述了全部公因子对变量X1
的总方差所作的贡献，称为变量X1的共同度，反映了公共因子对变量X1的影响程度。

标准化变量X1的方差为1，公因子f1对X 的贡献2
1g =0.9342+0.4172+0.8352=1.743
12. 对应分析是将 Q 型因子分析和 R 型因子分析结合起来进行的统计分析方法
13 典型相关分析是研究两组变量间相关关系的一种多元统计方法
14. 聚类分析中，Q 型聚类是指对样本进行聚类，R 型聚类是指对指标进行聚类。

15 Spss for windows 中主成分分析由Data Reduction->Factor Analysis 过程实现。

16 设,k k U V 是第k 对典型变量则 ()1,()1
(1,2,,)k k D U D V k r ===
(,)0,
(,)0()i j i j Cov U U Cov V V i j ==≠
0(,1,2,,)
(,)0
()0()
i i j i j i r Cov U V i j j r λ≠==⎧⎪
=≠⎨⎪>⎩
17. 在多维标度分析中，当D 是欧几里得距离阵时，X 是D 的一个构图三、简答题（答案见平时习题）
1 简述多元统计的主要内容与方法（10分）
可对比一元统计列出多元统计的主要内容与方法（从随机变量及其分布、数字特征、四大分布（正态分布密度（1分）、)(2n χ与威沙特分布),(∑n W p （1分）、t 分布与Hoteling 2T 分布（1分）、F 分布与威尔克斯分布),,(21n n p Λ（1分））、抽样分布定理、参数估计和假设检验、统计方法（2分）
2. 请阐述距离判别法、贝叶斯判别法和费希尔判别法的基本思想和方法，比较其异同
3请阐述系统聚类法、K 均值聚类法、有序样品聚类法的基本思想和方法，比较其异同
4请阐述主成分分析和因子分析的基本思想、方法步骤和应用，比较其异同 5请阐述相应分析、多维标度法、典型相关分析和多变量的可视化分析的基本思想和应用
四、计算题
1设三维随机向量33(,2)
X
N I μ，已知
321000.510.510,010,,0.500.520001I A d μ⎛⎫⎛⎫
-⎛⎫⎛⎫ ⎪ ⎪
==== ⎪ ⎪ ⎪ ⎪--⎝⎭⎝⎭ ⎪ ⎪
⎝⎭⎝⎭
，求Y AX d =+的分布
解：正态分布的线性组合仍为正态，故只需求
112()()1210.50.512131()10101110.50.5E Y E AX d AEX d DY D AX d ADXA ⎛⎫⎛⎫⎛⎫
=+=+=+= ⎪ ⎪ ⎪
-⎝⎭⎝⎭⎝⎭
-⎛⎫
--⎛⎫⎛⎫
⎪'=+==-= ⎪ ⎪ ⎪---⎝⎭⎝
⎭ ⎪-⎝⎭
所以3((),())Y N E Y D Y
另解：
123131231312313123130.50.510.50.52(0.50.51)2(0.50.52)1(0.50.51)3(0.50.52)1
(0.50.51,0.50.52)1
X X X Y AX d X X E X X X E X X D X X X D X X COV X X X X X -++⎛⎫
=+= ⎪
--+⎝⎭
-++=--+=-++=--+=-++--+=-故3((),())Y
N E Y D Y
2. 设三维随机向量3(,)X
N μ∑，已知21113,1321122μ⎛⎫⎛⎫ ⎪ ⎪
=-∑= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭
，求
12332Y X X X =-+的分布
解：正态分布的任意线性组合仍正态，故Y 的分布是一维正态分布，只需求
12322123121332()3()2()()13
()3()2()()2(3,2)2(3,)2(,2)9E Y E X E X E X D Y E X E X E X Cov X X Cov X X Cov X X =-+==++-+-=故(13,9)Y
N
3设有两个二元总体
和
，从中分别抽取样本计算得到
,
,
假设，试用距离判别法建立判别函数
和判别规则。

样品X =（6，0）’应属于哪个总体？解：
=
，
=
， =
=
即样品X 属于总体
4设已知有两个正态总体12,G G ,且12122411,,6219μμ⎛⎫⎛⎫⎛⎫
==∑=∑=∑= ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭
，而其
先验概率分别为120.5,q q ==误判的代价4
L(2|1),(1|2)e L e ==，试用贝叶斯判别
法确定样本35X ⎛⎫= ⎪⎝⎭
属于哪个总体？
解：由Bayes 判别知，11122()
()exp[()()]()
f x W x x f x μμμ-'=
=-∑- 其中
121122431
1()6
24229121,1148μμμμμ-⎡⎤⎛⎫⎛⎫⎛⎫
=+=+=⎢⎥ ⎪ ⎪ ⎪
⎝⎭⎝⎭⎝⎭⎣⎦--⎛⎫
⎛⎫∑=-= ⎪ ⎪
-⎝⎭⎝⎭
321(1|2)
(2|1)
q C d e q C =
=
123()5x W x W W d x ⎛⎫⎛⎫
==< ⎪ ⎪⎝⎭⎝⎭
故35X ⎛⎫
= ⎪⎝⎭
属于G2总体
5表1是根据某超市对不同品牌同类产品按畅销（1）、平销（2）和滞销（3）的数据，
利用SPSS 得到的Bayes 判别函数系数表，请据此建立贝叶斯判别函数，并说明如何判断新样品（x1,x2,x3）属于哪类？
Classification Function Coefficients group
1
2
3
表1 Bayes 判别函数系数解：根据判别分析的结果建立Bayes 判别函数：
Bayes 判别函数的系数见表4.1。

表中每一列表示样本判入相应类的Bayes 判别函数系数。

由此可建立判别函数如下：
Group1： 3761.162297.121689.11843.811X X X Y ++--= Group2： 3086.172361.131707.10536.942X X X Y ++--= Group3： 3447.62960.41194.2449.173X X X Y ++--=
将新样品的自变量值代入上述三个Bayes 判别函数，得到三个函数值。

比较这三个函数值，哪个函数值比较大就可以判断该样品判入哪一类。

6. 对某数据资料进行因子分析，因子分析是从相关系数阵出发进行的，前两个特征根
和
对
应
的
标
准
正
交
特
征
向
量
为'112.920(0.1485,0.5735,0.5577,0.5814)U λ==---，
'112.920(0.1485,0.5735,0.5577,0.5814)U λ==---
(1) 取公因子个数为2，求因子载荷阵
(2) 用F1F2表示选取的公因子，12,εε为特殊因子，写出因子模型，说明因子载荷
阵中元素ij a 的统计意义
7在一项对杨树的形状研究中，测定了20株杨树树叶，每个叶片测定了四个变量
1234,,,X X X X 分别代表叶长，叶子2/3处宽，1/3处宽，1/2处宽，这四个变量的相
关系数矩阵的特征根和标准正交特征向量分别为：
'112.920(0.1485,0.5735,0.5577,0.5814)U λ==---
'
221.024(0.9544,0.0984,0.2695,0.0824)U λ==-
'330.049(0.2516,0.7733,0.5589,0.1624)U λ==--
'
440.007(0.0612,0.2519,0.5513,0.7930)U λ==--
若按一般性原则选取主成分个数，请写出主成分表达式，并计算每个主成分的方差贡献率
解：选取主成分的一般原则是特征值大于1或累积贡献率达到80%以上。

据题选取两个主成分，其表达式和贡献率分别是：
1123410.14850.57350.55770.5814, 2.920y X X X X λ=---=贡献率为 2123420.95440.09840.26950.0824, 1.024y X X X X λ=-++=贡献率为
8下表是进行因子分析的结果,试根据表中信息写出每个原始变量的因子表达式，并分析是否需要对因子载荷旋转。

Component Matrix
Component 1 2
3
X1 .969 -1.084E-02 .205
X2 .911 .321 -.102
X3 .847 -.120 .323
X4 .941 .281 -2.693E-02
X5 .899 .215 -1.963E-02
X6 -.313 .839 .305
X7 -.666 6.280E-02 .679
X8
.575
-.580
.367
Extraction Method: Principal Component Analysis.
a 3 components extracted.
解：由表
F1 F2 F3
X1 .969 -1.084E-02 .205
X2 .911 .321 -.102
X3 .847 -.120 .323
X4 .941 .281 -2.693E-02
X5 .899 .215 -1.963E-02
X6 -.313 .839 .305
X7 -.666 6.280E-02 .679
X8
.575 -.580
.367 知
X1=
.969F1
-1.084E-02F2+
.205 F3
可以不做因子旋转，因为载荷系数基本处于两极分化状态，第一个公因子在指标X1 ,X2,X3,X4,X5,X7,X8有较大载荷，F2只在X6和X8上有较大载荷，F3只在X7上有较大载荷。