多元统计复习题-附答案

合集下载

(完整版)多元统计分析试题及答案

2009学年第2学期考试科目：多元统计分析考试类型：（闭卷）考试时间：100 分钟学号姓名年级专业一、填空题（5×6=30）22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。

()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪ ⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________， __________，________________。

215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。

二、计算题（5×11=50）(),123设X=x x x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫ ⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪⎪⎝⎭12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立？11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量，得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。

(完整版)多元统计复习题附答案

复习题原文：答案：4.2 试述判别分析的实质。

4.3 简述距离判别法的基本思想和方法。

4.4 简述贝叶斯判别法的基本思想和方法。

4.5 简述费希尔判别法的基本思想和方法。

4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

4.2 试述判别分析的实质。

答：判别分析就是希望利用已经测得的变量数据，找出一种判别函数，使得这一函数具有某种最优性质，能把属于不同类别的样本点尽可能地区别开来。

设R1，R2，…，Rk是p维空间R p的k个子集，如果它们互不相交，且它们的和集为R p，则称R1，R2⋯R p为R p的一个划分。

判别分析问题实质上就是在某种意义上，以最优的性质对p维空间R p构造一个“划分”，这个“划分”就构成了一个判别规则。

4.3 简述距离判别法的基本思想和方法。

答：距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。

其基本思想都是分别计算样本与各个总体的距离（马氏距离），将距离近的判别为一类。

①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体G1和G2，其均值分别是μ1和μ2，对于一个新的样品X，要判断它来自哪个总体。

计算新样品X到两个总体的马氏距离D2（X，G1）和D2（X，G2），则X∈G1，D2（X，G1）≤ D2（X，G2）X ∈G 2 ，D 2（X ，G 1）> D 2（X ，G 2，具体分析，2212(,)(,)D G D G -X X111122111111111222*********()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()22()2()---''=-++-'+⎛⎫=--- ⎪⎝⎭''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为X ∈G 1 ，W(X)≥0 X ∈G 2 ，W(X)<0②多个总体的判别问题。

多元统计期末复习题

多元数据分析练习题第二章多元正态的参数估计一. 判断题（1）若∑∑=),,(~),,,(21μp T p N X X X X 是对角矩阵，则p X X X ,,,21 相互独立。

（）（2）多元正态分布的任何边缘分布为正态分布，反之也成立。

（）（3）对任意的随机向量T p X X X X ),,,(21 =来说，其协方差矩阵∑是对称矩阵，并且总是半正定的。

（）（4）对标准化的随机向量来说，它的协方差矩阵与原来变量的相关系数阵相同。

（）（5）若),,(~),,,(21∑=μp T p N X X X X S X ,分别为样本均值和样本协差阵，则S nX 1,分别为∑,μ的无偏估计。

（）二.计算题1. 假设随机向量TX X X X ),,(321=的协方差矩阵为⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡---=∑9232443416，试求相关系数矩阵R 。

⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡----=131413112141211R 2. 假设随机向量Tx x x ),(21=的协方差矩阵为⎥⎦⎤⎢⎣⎡=∑20119，令212211,2x x y x x y -=+=，试求T y y y ),(21=的协方差矩阵。

⎥⎦⎤⎢⎣⎡--=∑2733603.假设⎥⎦⎤⎢⎣⎡---=∑5.005.05.015.0),,(~3A N X μ，其中T)1,2,1(-=μ，⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=∑411121112，试求Ax y =的分布。

)2224,02(2⎪⎪⎭⎫ ⎝⎛--⎪⎪⎭⎫ ⎝⎛-N 三.证明题1.设)()2()1(,,,n X X X 是来自),(∑μp N 的随机样本，X 为样本均值。

试证明：μ=)(X E ，∑=nX D 1)(。

2.设)()2()1(,,,n X X X 是来自),(∑μp N 的随机样本，S n 11-为样本协差阵。

试证明：∑=-)11(S n E 。

3．证明：若p 维正态随机向量),,,(21'=p X X X X 的协差阵为对角矩阵，则X 的各分量是相互独立的随机变量。

多元统计复习题及答案

填空题：1、费希尔（Fisher）判别法是1936年提出来的，该方法的主要思想是通过将多维数据投影到某个方向上。

2、因子分析的内容非常丰富，常用的因子分析类型是R型因子分析和Q型因子分析。

3、K均值聚类分析的基本思想是将每一个样品分配给最接近业壶些直的类中。

4、对应分析是将R型因子分析Q型因子分析结合起来进行的统计分析方法。

5、总体方差未知的情况下，采用样本方差代替总体方差的方法进行计算。

6、主成分分析数学模型中的正交变换，在几何上就是作一个坐标旋转7、设X、N2 （ U , N）,其中X=（》1，》2），号），则CovQq +》2，*1 - *2）= _0__8、判别分析是判别样品所属类型的一种统计方法，常用的判别方法有距离判别法、Fisher 判另U法、Bayes判另U法、逐步判另U法9 多元正态分布的任何边缘分布为正态分布10、应用多元统计分析方法用于解决多指标问题，聚类分析就是分析如何对样品（或变量）进行量化分类的问题。

通常聚类分析分为Q型聚类和R型聚类。

11、总离差平方和可以分解为回归离差平方和和剩余离差平方和两个部分，各自的自由度为（P ）和（n-p-1）,其中回归离差平方和在总离差平方和中所占比重越大,则线性回归效果越显著。

12、系统聚类分析方法有最短距离法、最长距离法、中间距离法、重心法、类平均统和可变类平均法。

13、典型相关分析是研究两组变量之间相关关系的一种多元统计方法14、因子分析中因子载荷系数叫,•的统计意义是：（第i个变量与第j个公因子的相关系数）15、相应分析的特点是研究的变量是定性的16、公共因子方差与特殊因子方差之和为o17、设Z 是总体X=（X”…,乂皿）的协方差阵，X 的特征根人。

=1，2,..・田）与对应的单位正交化特征向量％ =（%,%2,，则第一主成分的表达式=% ]X| + %2、2 + ・•• + /mX"],方差为2]18、相应分析的主要目的是寻求列联表行因素A和列因素B的基本分析特征和它们的最优联立表示19聚类分析一是分析如何对样品或变量进行量化分类的问题。

多元统计分析期末试题及答案

22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。

()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________， __________，________________。

215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。

12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立？(),123设X=x x x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪⎪⎝⎭11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量，得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。

应用多元统计分析试题及答案

一、填空题：1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法.2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著.3、聚类分析就是分析如何对样品（或变量）进行量化分类的问题。

通常聚类分析分为 Q型聚类和 R型聚类。

4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。

5、因子分析把每个原始变量分解为两部分因素：一部分为公共因子，另一部分为特殊因子。

6、若()(,), Px N αμα∑=1,2,3….n且相互独立，则样本均值向量x服从的分布为_x~N(μ，Σ/n)_。

二、简答1、简述典型变量与典型相关系数的概念，并说明典型相关分析的基本思想。

在每组变量中找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数。

选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对，如此下去直到两组之间的相关性被提取完毕为止。

被选出的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。

2、简述相应分析的基本思想。

相应分析，是指对两个定性变量的多种水平进行分析。

设有两组因素A和B，其中因素A包含r个水平，因素B包含c个水平。

对这两组因素作随机抽样调查，得到一个rc的二维列联表，记为。

要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。

相应分析即是通过列联表的转换，使得因素 A 和因素B具有对等性，从而用相同的因子轴同时描述两个因素各个水平的情况。

把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上，从而得到因素A、B的联系。

3、简述费希尔判别法的基本思想。

从k个总体中抽取具有p个指标的样品观测数据，借助方差分析的思想构造一个线性判别函数系数：确定的原则是使得总体之间区别最大，而使每个总体内部的离差最小。

将新样品的p 个指标值代入线性判别函数式中求出值，然后根据判别一定的规则，就可以判别新的样品属于哪个总体。

多元统计分析期末试题及答案

4、 __________， __________， ________________。

(1) 试从Σ出发求X 的第一总体主成分；(2) 试问当取多大时才能使第一主成分的贡献率达95％以上。

1、0 2、W 3（10，∑） 3、211342113611146R ⎛⎫-⎪ ⎪ ⎪=-- ⎪ ⎪ ⎪- ⎪⎝⎭4、0.872 1 1.7435、T 2（15，p ）或（15p/(16-p)）F （p ，n-p ）一、填空题：1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法.2、回归参数显着性检验是检验解释变量对被解释变量的影响是否着.3、聚类分析就是分析如何对样品（或变量）进行量化分类的问题。

通常聚类分析分为 Q 型聚类和 R 型聚类。

4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。

5、因子分析把每个原始变量分解为两部分因素：一部分为公共因子，另一部分为特殊因子。

6、若()(,),P x N αμα∑=1,2,3….n 且相互独立，则样本均值向量x 服从的分布为_x ~N(μ，Σ/n)_。

二、简答1、简述典型变量与典型相关系数的概念，并说明典型相关分析的基本思想。

在每组变量中找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数。

选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对，如此下去直到两组之间的相关性被提取完毕为止。

被选出的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。

2、简述相应分析的基本思想。

ρ(),123设X=xx x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差相应分析，是指对两个定性变量的多种水平进行分析。

设有两组因素A 和B ，其中因素A 包含r 个水平，因素B 包含c 个水平。

对这两组因素作随机抽样调查，得到一个rc 的二维列联表，记为。

多元统计分析期末试题及答案

22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。

()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________， __________，________________。

215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。

12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立？(),123设X=xx x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量，得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。

多元统计分析期末试题及标准答案

多元统计分析期末试题及答案————————————————————————————————作者：————————————————————————————————日期：22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑L 、设则=服从。

()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________， __________，________________。

215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。

12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立？(),123设X=xx x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量，得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。

多元统计分析试题及答案

_0.872_____
X 1的共性方差h12 =
X 1的方差σ
11
= ___1 注(0.128+0.872)___，
公因子f1对X的贡献g12 = 1.743
备注(0.934^2+(-0.417)^2+0.835^2)__。
5、设 X i , i = 1,⋯ ,16是来自多元正态总体 N p ( µ , Σ ), X 和 A分别为正态总体 N p ( µ , Σ ) 的样本均值和样本离差矩阵 ,则 T 2 = 15[4( X − µ )]′ A − 1[4( X − µ )] ~ ___________ 。
2、假设检验问题：H 0 : µ = µ0，H1 : µ ≠ µ0 ⎛ −8.0 ⎞ 经计算可得：X − µ0 = ⎜ 2.2 ⎟ , ⎜ ⎟ ⎜ −1.5 ⎟ ⎝ ⎠ ⎛ 4.3107 −14.6210 8.9464 ⎞ −1 −1 ⎜ S = (23.13848) −14.6210 3.172 −37.3760 ⎟ ⎜ ⎟ ⎜ 8.9464 −37.3760 35.5936 ⎟ ⎝ ⎠ 构造检验统计量：T 2 = n( X − µ0 )′S −1 ( X − µ0 ) = 6 × 70.0741 = 420.445 由题目已知F0.01 (3,3) = 29.5，由是 3× 5 F0.01 (3,3) = 147.5 3 所以在显著性水平α = 0.01下，拒绝原设 H 0
⎛ 16 −4 2 ⎞ 1、设X = ( x1 , x2 , x3 ) ~ N 3 ( µ , Σ), 其中µ = (1,0, − 2)′, Σ = ⎜ −4 4 −1⎟ , ⎜ ⎟ ⎜ 2 −1 4 ⎟ ⎝ ⎠ ⎛x −x ⎞ 试判断x1 + 2 x3与 ⎜ 2 3 ⎟ 是否独立？ ⎝ x1 ⎠

多元统计期末试题及答案

多元统计期末试题及答案一、选择题1. 在多元统计中，什么是协方差矩阵？A. 描述两个变量之间的线性关系的矩阵B. 描述两个变量之间的非线性关系的矩阵C. 描述多个变量之间的线性关系的矩阵D. 描述多个变量之间的非线性关系的矩阵答案：C2. 多元方差分析适用于以下哪种情况？A. 只有一个自变量和一个因变量B. 有一个自变量和多个因变量C. 有多个自变量和一个因变量D. 有多个自变量和多个因变量答案：C3. 多元线性回归分析中的残差是指什么？A. 因变量的观测值与估计值之间的差异B. 自变量的观测值与估计值之间的差异C. 因变量的观测值与真实值之间的差异D. 自变量的观测值与真实值之间的差异答案：A4. 主成分分析的目标是什么？A. 减少变量的数量B. 识别主要影响因素C. 降低模型复杂度D. 提高预测准确率答案：A5. 判别分析的目标是什么？A. 最小化类内方差B. 最大化类间方差C. 最小化类间方差D. 最大化类内方差答案：B二、填空题1. 多元正态分布的概率密度函数用符号____表示。

答案：f(x)2. 多元统计分析中的数据通常以矩阵的形式表示，其中每行代表____，每列代表____。

答案：样本，变量三、计算题假设有一组学生数据，包括他们的数学成绩（变量X1）、英语成绩（变量X2）和科学成绩（变量X3）。

1. 计算变量X1和X2之间的协方差。

答案：可使用协方差公式计算:Cov(X1,X2) = Σ[(X1-μ1)(X2-μ2)] / (n-1)其中，Σ表示求和符号，μ1和μ2分别为X1和X2的均值，n为样本数量。

2. 假设已经进行了主成分分析，计算数据的前两个主成分和对应的方差解释比例。

答案：主成分分析会得到一组主成分，可以通过对应的特征值来计算方差解释比例。

假设前两个特征值为λ1和λ2，总特征值和为Σλi。

则前两个主成分的方差解释比例为:(λ1 + λ2) / Σλi四、简答题1. 解释多元统计分析中的共线性问题。

(完整)多元统计分析期末试题及答案,推荐文档.docx

1 、设 X ~ N2 ( ,), 其中 X( x1 , x 2 ),( 1 ,212 ),,1则 Cov( x1x 2 , x1x 2 )=____.102、设X i ~N 3 (,), i 1, L,10,则 W =( X i)( X i)i 1服从_________。

4433、设随机向量X x1x2x3, 且协方差矩阵 4 9 2 ,3 2 16则它的相关矩阵R___________________4、设 X= x1x2x3,的相关系数矩阵通过因子分析分解为112330.93400.1280.4171R100.4170.9340.83530.8940.8940.027 0.83500.4472010.4470.10332__________，__________，X1的共性方差 h1X1的方差11公因子 f 1对 X的贡献 g12________________。

5、设 X i , i 1,L ,16 是来自多元正态总体N p (, ), X 和 A分别为正态总体N p ( ,)的样本均值和样本离差矩阵 , 则T 215[4( X)] A 1[4( X)] ~ ___________。

1642、设( x1 , x2 , x3) ~ N3(, ),其中(1,0, 2) ,44 1 ,1X214试判断 x12 x3与x2x3是否独立？x12、对某地区农村的 6 名 2 周岁男婴的身高、胸围、上半臂围进行测量，得相关数据如下 , 根据以往资料 , 该地区城市 2周岁男婴的这三个指标的均值0(90,58,16), 现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。

82.0 4.310714.62108.9464其中 X60.2 ,(5 S ) 1( 115.6924)114.6210 3.17237. 376014.58.946437.376035.5936 (0.01,F 0.01 (3, 2)99.2, F 0.01 (3,3)29.5,F0.01 (3, 4)16.7)、设已知有两正态总体G与 G，且12，24，1211，3126219而其先验概率分别为q1q20.5,误判的代价C (2 1)4；e ,C(1 2)e试用判别法确定样本X 3属于哪一个总体？Bayes514、设X( X1 , X2 , X3 , X4 )T，协方差阵1~ N (0, ),0111(1)试从Σ出发求 X 的第一总体主成分；(2)试问当取多大时才能使第一主成分的贡献率达95％以上。

多元统计复习题答案

多元统计复习题答案一、单项选择题1. 多元统计分析中，用于描述多个变量之间关系的统计方法是（）。

A. 相关分析B. 聚类分析C. 因子分析D. 主成分分析答案：C2. 以下哪个不是多元统计分析中常用的降维方法？（）A. 主成分分析B. 因子分析C. 聚类分析D. 典型相关分析答案：C3. 在多元统计分析中，用于识别数据集中的异常值或离群点的统计方法是（）。

A. 马氏距离B. 箱线图C. 相关系数D. 卡方检验答案：B二、多项选择题1. 多元统计分析中，以下哪些方法可以用来进行变量选择？（）A. 逐步回归B. 岭回归C. 偏最小二乘回归D. 主成分分析答案：A|B|C2. 多元统计分析中，以下哪些方法可以用来进行数据的分类？（）A. 判别分析B. 聚类分析C. 因子分析D. 典型相关分析答案：A|B三、判断题1. 多元统计分析中的因子分析可以用于变量的降维。

（对）2. 多元统计分析中的主成分分析和因子分析是完全相同的方法。

（错）3. 多元统计分析中的聚类分析可以用于识别数据集中的异常值。

（错）四、简答题1. 简述多元统计分析中主成分分析（PCA）的主要步骤。

答：主成分分析的主要步骤包括：数据标准化、计算协方差矩阵、求解特征值和特征向量、选择主成分、构造主成分得分。

2. 描述多元统计分析中判别分析的应用场景。

答：判别分析在多元统计分析中主要应用于根据已有的分类变量来预测新样本的分类，例如在医学诊断、市场细分、信用评分等领域。

五、计算题1. 给定一组数据，计算其主成分得分。

答：首先需要对数据进行标准化处理，然后计算协方差矩阵，接着求解特征值和特征向量，最后根据特征值的大小选择前几个主成分，并计算对应的得分。

2. 利用判别分析对一组数据进行分类，并给出分类结果。

答：首先需要确定分类的依据，然后计算各类别的判别函数，接着对新样本进行判别分析，最后根据判别得分将样本分类到相应的类别中。

应用多元统计分析试题及答案

通常聚类分析分为 Q型聚类和R型聚类。

4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。

5、因子分析把每个原始变量分解为两部分因素：一部分为公共因子，另一部分为特殊因子。

6、若()(,), Px N αμα∑=1,2,3….n且相互独立，则样本均值向量x服从的分布为_x~N(μ，Σ/n)_。

二、简答1、简述典型变量与典型相关系数的概念，并说明典型相关分析的基本思想。

在每组变量中找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数。

选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对，如此下去直到两组之间的相关性被提取完毕为止。

被选出的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。

2、简述相应分析的基本思想。

相应分析，是指对两个定性变量的多种水平进行分析。

设有两组因素A和B，其中因素A包含r个水平，因素B包含c个水平。

对这两组因素作随机抽样调查，得到一个rc的二维列联表，记为。

要寻求列联表列因素A和行因素B 的基本分析特征和最优列联表示。

相应分析即是通过列联表的转换，使得因素A 和因素B具有对等性，从而用相同的因子轴同时描述两个因素各个水平的情况。

把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上，从而得到因素A 、B 的联系。

3、简述费希尔判别法的基本思想。

从k 个总体中抽取具有p 个指标的样品观测数据，借助方差分析的思想构造一个线性判别函数系数：确定的原则是使得总体之间区别最大，而使每个总体内部的离差最小。

将新样品的p 个指标值代入线性判别函数式中求出值，然后根据判别一定的规则，就可以判别新的样品属于哪个总体。

多元统计复习题附答案(可编辑修改word版)

原文：复习题答案：4.2 试述判别分析的实质。

4.3 简述距离判别法的基本思想和方法。

4.4 简述贝叶斯判别法的基本思想和方法。

4.5 简述费希尔判别法的基本思想和方法。

4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

4.2 试述判别分析的实质。

设 R1，R2，…，Rk 是 p 维空间 R p 的 k 个子集，如果它们互不相交，且它们的和集为R p ，则称R 1，R 2⋯R p 为R p 的一个划分。

判别分析问题实质上就是在某种意义上，以最优的性质对 p 维空间R p 构造一个“划分”，这个“划分”就构成了一个判别规则。

4.3 简述距离判别法的基本思想和方法。

答：距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。

其基本思想都是分别计算样本与各个总体的距离（马氏距离），将距离近的判别为一类。

①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体 G 1 和 G 2，其均值分别是 1 和 2，对于一个新的样品 X ，要判断它来自哪个总体。

计算新样品 X 到两个总体的马氏距离 D 2（X ，G 1）和 D 2（X ，G 2），则 X ∈ G 1 ，D 2（X ，G 1） ≤ D 2（X ，G 2） X ∈ G 2，D 2（X ，G 1）> D 2（X ，G 2，1 12 2 2 1 1 2 1 2 ik具体分析，= (X - μ )'Σ-1(X - μ ) - (X - μ )'Σ-1(X - μ ) D 2 (X , G ) - D 2 (X , G )= X 'Σ-1X - 2X 'Σ-1μ + μ'Σ-1μ - (X 'Σ-1X - 2X 'Σ-1μ + μ' Σ-1μ ) 121 11 2 2 2= 2X 'Σ-1(μ- μ ) + μ'Σ-1μ- μ' Σ-1μ= 2X 'Σ-1(μ - μ ) + (μ + μ )'Σ-1(μ - μ ) 211122⎛ μ + μ '-= -2 X - 1 2 ⎫ Σ 1(μ - μ )2 ⎪1 2⎝ ⎭= -2(X - μ)'α = -2α'(X - μ) 记W (X ) = α'(X - μ) 则判别规则为X ∈ G 1 ，W(X) ≥ 0 X ∈ G 2，W(X)<0②多个总体的判别问题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

复习题原文：答案：４.2试述判别分析的实质。

４.3 简述距离判别法的基本思想和方法。

4.4简述贝叶斯判别法的基本思想和方法。

４.5 简述费希尔判别法的基本思想和方法。

４.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

4.２试述判别分析的实质。

答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质，能把属于不同类别的样本点尽可能地区别开来。

设Ｒ１，R２，…,Rk是p维空间R p的ｋ个子集,如果它们互不相交,且它们的和集为R p，则称R1，R2⋯R p为R p的一个划分。

判别分析问题实质上就是在某种意义上,以最优的性质对p维空间R p 构造一个“划分”,这个“划分”就构成了一个判别规则。

4.3 简述距离判别法的基本思想和方法。

答：距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。

其基本思想都是分别计算样本与各个总体的距离（马氏距离）,将距离近的判别为一类。

①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体G 1和G ２,其均值分别是μ1和μ 2,对于一个新的样品X ，要判断它来自哪个总体。

计算新样品Ｘ到两个总体的马氏距离D ２（X,Ｇ1)和D 2(X ，Ｇ2）,则X ∈G 1 ，D 2(Ｘ，G １）≤ D 2（X ，G 2)Ｘ ∈G 2 ，D 2（X ，G １）> D ２（X ，G 2，具体分析,2212(,)(,)D G D G -X X111122111111111222*********()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()22()2()---''=-++-'+⎛⎫=--- ⎪⎝⎭''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为X ∈G 1 ，W(X)≥0 X ∈G 2 ,W(X)<0②多个总体的判别问题。

设有k 个总体k G G G ,,,21 ,其均值和协方差矩阵分别是和k ΣΣΣ,,,21 ，且ΣΣΣΣ====k 21。

计算样本到每个总体的马氏距离，到哪个总体的距离最小就属于哪个总体。

具体分析，21(,)()()D G ααα-'=--X X μΣX μ111122()C ααααα----'''=-+''=-+X ΣX μΣX μΣμX ΣX I X取ααμΣI 1-=,αααμΣμ121-'-=C ,k ,,2,1 =α。

可以取线性判别函数为()W C ααα'=+X I X ， k ,,2,1 =α 相应的判别规则为i G ∈X 若 1()max()i kW C ααα≤≤'=+X I X4.4 简述贝叶斯判别法的基本思想和方法。

基本思想:设k 个总体，其各自的分布密度函数)(,),(),(21x x x k f f f ,假设k 个总体各自出现的概率分别为k q q q ,,,21 ,0≥i q ，11=∑=ki iq。

设将本来属于i G 总体的样品错判到总体j G 时造成的损失为)|(i j C ，。

设k 个总体相应的p 维样本空间为 ),,,(21k R R R R =。

在规则R 下，将属于的样品错判为j G 的概率为x x d f R i j P jR i )(),|(⎰= j i kj i ≠=,,2,1,则这种判别规则下样品错判后所造成的平均损失为∑==kj R i j P i j C R i r 1)],|()|([)|( k i ,,2,1 =k μμμ,,,21 k G G G ,,,21 k j i ,,2,1, =k G G G ,,,21 i G则用规则R 来进行判别所造成的总平均损失为∑==ki i R i r q R g 1),()(∑∑===k i kj i R i j P i j C q 11),|()|(贝叶斯判别法则，就是要选择一种划分,使总平均损失)(R g 达到极小。

基本方法:∑∑===k i kj i R i j P i j C q R g 11),|()|()(x x d f i j C q ki kj R i i j∑∑⎰===11)()|(∑⎰∑===k j R ki i i jd f i j C q 11))()|((x x令1(|)()()k iiji q C j i f h ==∑x x ，则 ∑⎰==kj R j j d h R g 1)()(x x若有另一划分),,,(**2*1*kR R R R =，∑⎰==kj R j jd h R g 1**)()(x x则在两种划分下的总平均损失之差为∑∑⎰==⋂-=-k i kj R R j i ji d h h R g R g 11**)]()([)()(x x x因为在i R 上)()(x x j i h h ≤对一切j 成立，故上式小于或等于零,是贝叶斯判别的解。

从而得到的划分),,,(21k R R R R =为1{|()min ()}i i j j kR h h ≤≤==x x x k i ,,2,1 =4.5 简述费希尔判别法的基本思想和方法。

答：基本思想:从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 1122()p p U u X u X u X '=+++=X u X 系数),,,(21'=p u u u u 可使得总体之间区别最大,而使每个总体内部的离差最小。

将新样品的p 个指标值代入线性判别函数式中求出()U X 值，然后根据判别一定的规则，就可以判别新的样品属于哪个总体。

４.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

答:① 费希尔判别与距离判别对判别变量的分布类型无要求。

二者只是要求有各类母体的两阶矩存在。

而贝叶斯判别必须知道判别变量的分布类型。

因此前两者相对来说较为简单。

② 当ｋ=２时，若Σ1=Σ2=Σ则费希尔判别与距离判别等价。

当判别变量服从正态分布时，二者与贝叶斯判别也等价。

③ 当Σ1≠Σ2时,费希尔判别用Σ1+Σ2作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。

④ 距离判别可以看为贝叶斯判别的特殊情形。

贝叶斯判别的判别规则是 X ∈G 1 ，W(X ）≥lndX ∈G 2 ,W(X ）<ｌｎd 距离判别的判别规则是 X ∈G 1 ,Ｗ（Ｘ)≥0 Ｘ ∈G 2 ，W （X)<０二者的区别在于阈值点。

当21q q =，)1|2()2|1(C C =时，1=d，0ln =d 。

二者完全相同。

k R R R ,,,214.7 设有两个二元总体G 1和G 2 ,从中分别抽取样本计算得到 X ̅(1)=(51), X ̅(2)=(3−2)，S p =(5.8 2.12.17.6) 假设Σ1=Σ2,试用距离判别法建立判别函数和判别规则。

样品Ｘ=(6，０)’应属于哪个总体?解：μ̂1=X ̅(1)=(51) ，μ̂2=X ̅(2)=(3−2) , μ̅̂＝μ̂1+μ̂22＝(4−0.5) W p =α’(x −μ̅)=(x −μ̅)′Σ−1(μ1−μ2)(x −μ̅)′=(6,0)−(4,0.5)=(2,0.5)Σ−1=13967(7.6−2.1−2.1 5.8) (μ1−μ2)=(2,3)′ W p =(2,0.5)13967(7.6−2.1−2.1 5.8)(23)=24.439.67>0 ∴ X ∈G 1即样品Ｘ属于总体G 15.１判别分析和聚类分析有何区别? 5.2 试述系统聚类的基本思想。

5．３对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造5.5试述Ｋ均值法与系统聚类法的异同。

５．1 判别分析和聚类分析有何区别?答：即根据一定的判别准则,判定一个样本归属于哪一类。

具体而言，设有n 个样本，对每个样本测得p 项指标(变量)的数据，已知每个样本属于k 个类别(或总体）中的某一类,通过找出一个最优的划分，使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。

聚类分析是分析如何对样品(或变量)进行量化分类的问题。

在聚类之前，我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量）聚合形成总体。

通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类，而聚类分析是在不知道类的情况下进行分类。

5．２试述系统聚类的基本思想。

答：系统聚类的基本思想是:距离相近的样品(或变量）先聚成类，距离相远的后聚成类，过程一直进行下去,每个样品（或变量）总能聚到合适的类中。

5.3 对样品和变量进行聚类分析时，所构造的统计量分别是什么？简要说明为什么这样构造?答：对样品进行聚类分析时，用距离来测定样品之间的相似程度。

因为我们把n 个样本看作p 维空间的n 个点。

点之间的距离即可代表样品间的相似度。

常用的距离为 (一)闵可夫斯基距离：1/1()()pq qij ik jk k d q X X ==-∑q 取不同值，分为 (1)绝对距离（1q =）1(1)pij ik jk k d X X ==-∑(2)欧氏距离（2q =）21/21(2)()pij ik jk k d X X ==-∑（3）切比雪夫距离(q =∞)1()max ij ik jkk pd X X ≤≤∞=-（二）马氏距离 ﻩ（三）兰氏距离对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。

将变量看作p 维空间的向量，一般用（一)夹角余弦(二）相关系数５.５试述K 均值法与系统聚类法的异同。

答:相同：K —均值法和系统聚类法一样，都是以距离的远近亲疏为标准进行聚类的。

不同：系统聚类对不同的类数产生一系列的聚类结果，而Ｋ—均值法只能产生指定类数的聚类结果。

具体类数的确定,离不开实践经验的积累；有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K —均值法确定类数的参考。

6.1 试述主成分分析的基本思想。

21()()()ij i j i j d M -'=--X X ΣX X 11()p ik jkij k ik jk X X d L p X X =-=+∑cos pik jkij X X θ=∑()()pik i jk j ij X X X X r --=∑6.2 主成分分析的作用体现在何处？6．3 简述主成分分析中累积贡献率的具体含义。