应用多元统计分析习题解答_朱建平_第七章

合集下载

SPSS-朱建平版应用多元统计答案

SPSS-朱建平版应用多元统计答案

5#703Spss实习作业上机操作余聪0701020223数学二班数据变换是正式分析前的重要一步,通过数据变换,一个优秀的统计分析员可以将原始记录整理成所需的任何形式,从而为后面的精确分析打下坚实的基础——这正是他和普通分析员的区别所在。

-------张文彤3.61992年美国总统选举的三位候选人为布什、佩罗特和克林顿。

支持三位候选人的选民中抽取了20人,假定三组都服从多元正态分布,检验这三组的总体均值是否都显著性差异( )。

解:我们知道One-Way ANOVA 过程用于两组及多组间样本均值的比较,即成组设计的方差分析。

具体操作步骤:1.先对数据进行预处理,1代表布什,2代表佩罗特,3代表华盛顿。

2.Analyze---Compare Mean---One-Way ANOVADependent List框:总统分组Options: Homogeneity-of-varianceContinuePost Hoc:S-N-K:ContinueOK3.运行结果1:结果解释:上图给出单因子方差分析的结果,可见F=3.095,P=0.034<0.05,所以证明假设不成立,选民年龄程度存在差异。

运行结果2:结果解释:上图给出单因子方差分析的结果,可见F=2.354,P=0.065>0.05,所以证明假设成立,选民受教育程度不存在差异。

4.10从胃癌者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白(X1)、蓝色反应(X2)、尿吲哚乙酸(X3)和中性硫化物(X4),数据见下表。

试用距离判别法建解:1.费希尔判别法的主要思想:从k各总体中具有P个样品观测数据,借助发差分析的思想构造现行判别函数U(x)=u1*X1+ u2*X2+ u2*X2+ u3*X3++ up*Xp= u’X其中,系数u =(u1, u2, u3,…,u p)’确定的原则是使总体之间区别最大,而使每个总体之间的离差最小。

多元统计分析课后练习答案

多元统计分析课后练习答案

第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z 标准化。

2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。

当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点:夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

应用多元统计分析 朱建平

应用多元统计分析 朱建平
i 1 i 1
n
( Xi - μ)( Xi - μ) 2n( X μ)(X μ) n( X μ)(X μ)
i 1 n
n
( Xi - μ)( Xi - μ) n( X μ)(X μ)
i 1
E(
S 1 n ) E ( Xi - μ)( Xi - μ) n( X μ)(X μ) n 1 n 1 i 1 1 n E ( Xi - μ)( Xi - μ) nE ( X μ)(X μ) Σ 。 n 1 i 1
i i
方法 2: S
n
(X - X)(X - X)
i 1
Xi - μ ( X μ) Xi - μ ( X μ)
i 1 n
( Xi - μ)( Xi - μ) 2 ( Xi - μ)( X - μ) n( X μ)(Xμ Xμ)
b

(c d )(b a ) 36 cov( x1 , x2 )

xx
1

2
1 3
(3)解:判断 X 1 和 X 2 是否相互独立。
X 1 和 X 2 由于 f ( x1 , x2 ) f x1 ( x1 ) f x2 ( x2 ) ,所以不独立。
2.4 设 X ( X 1 , X 2 , X p ) 服从正态分布,已知其协方差矩阵为对角阵,证明其分量是相


S 为 Σ 的无偏估计。 n 1
试求 S 2.9.设 X (1) , X (2) , ..., X ( n ) 是从多元正态分布 X ~ N p (μ, Σ) 抽出的一个简单随机样本, 的分布。 证明: 设

应用多元统计分析课后习题答案高惠璇第七章习题解答

应用多元统计分析课后习题答案高惠璇第七章习题解答

7-4 设总体X=(X1,…,Xp)′~Np(μ,Σ) (Σ>0),等概率密度
椭球为
(X-μ)′Σ-1(X-μ)=C2(C为常数).
试问椭球的主轴方成分分析
7-5 设3维总体X的协差阵为
试求总体主成分.
4 0 0
0 4 0
0 0 2
解:总体主成分为
Zi Xi(i1,2,3)
1
1
(2) 求X
(3) 试问当ρ取多大时才能使第一主成分的贡献率达95%以上.
解:
5
第七章 主成分分析
6
第七章 主成分分析
7-3 设p维总体X的协差阵为
21
1
1
(01).
(1)
Z1 1p(X1X2Xp);
(2) 试求第一主成分的贡献率.
7
第七章 主成分分析
解:
1
8
第七章 主成分分析
2
12
13 14
12 2
14 13
13 14 2
12
14
13
12 2
,
其中 1 21 31,421 4 21.3
试求X的主成分.
12
第七章 主成分分析
解:
13
第七章 主成分分析
7-8
14
第七章 主成分分析
15
第七章 主成分分析
7-9
16
第七章 主成分分析
主成分向量为
Z ( X 1 ,X 2 ,X 3 ) 或 Z ( X 2 ,X 1 ,X 3 )
三个主成分的方差分别为4,4,2.
10
第七章 主成分分析
7-6
设3维总体X的协差阵为
2 2
2 2

应用多元统计第七章实验题答案

应用多元统计第七章实验题答案

第七章因子分析班级:姓名学号:7.7利用因子分析方法分析下列30个学生成绩的因子构成,并分析各个学生较(2则由上表可写出每个原始变量的因子表达式:X1=-0.662F1+0.503F2;X2=-0.53F1+0.478F2;X6=0.816F1+0.498F2;(4)由Rotated Component Matrix表可以给出旋转后的因子载荷矩阵(见下表),第一个公共因子在指标语文、历史、英语上有较大的载荷,说明这三个指标有较强的相关性,可以归为一类,从分科情况来看,这三个指标属于学生较适合学文学科;第二个公共因子在指标为数学、物理、化学上有较大载荷,同样可以归为一类,这三个指标同属于学生较适合学理科。

(5)根据因子得分系数矩阵与原始变量的标准化值可以计算每个观测值的各F1=F2=0.439X1+0.4X2+0.484X3-0.01X4+0.073X5+0.169X6;则将学生成绩按顺序对应分别带入上面两个式子可以判定,当F1>F2时,该学生适合学文科,当F1<F2时,该学生适合学理科。

24、26的学生适合学文科;学生标号为:2、6、7、9、10、11、13、14、17、18、21、25、27、28、29、30的学生适合学理科。

7.8某汽车组织欲根据一系列指标来预测汽车的销售情况,为了避免有些指标之间的相关关系影响预测结果,须首先进行因子分析来简化系统。

下表是抽查欧洲某汽车市场7个品牌不同型号的汽车的各种指标数据,试用因子分析法找出其简X1=0.794F1;X2=0.879F1;X9=-0.893F1;(4)因为只有一个因子,因此不能被旋转。

(5)根据因子得分系数矩阵与原始变量的标准化值可以计算每个观测值的各因子的得分数,则根据下表可得出该题中的因子得分表达式即为所求的指标系统为:27X8-0.132X9。

7.10 根据习题5.11中2003年我国省会城市和计划单列城市的主要经济指标数据,利用因子分析法对其进行排序和分类,并与聚类分析的结果进行比较。

多元统计分析第七章主成分分析习题答案

多元统计分析第七章主成分分析习题答案

7.1 设随机变量12X(X ,X )'=的协差阵为21,12⎡⎤∑=⎢⎥⎣⎦试求X的特征根和特征向量,并写出主成分。

解:先求X的特征根λ,λ满足方程:21012-λ=-λ,即2(2)10-λ-=,因此两个特征根分别为123, 1.λ=λ=设13λ=对应的单位特征向量为()1121a ,a ',则()1121a ,a '满足:1121a 110a 110-⎛⎫⎡⎤⎛⎫= ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取1121a a ⎛⎛⎫ = ⎪ ⎝⎭ ⎝,其对应主成分为:112F X X 22=+;设21λ=对应的单位特征向量为()1222a ,a ',则()1222a ,a '满足:1222a 110a 110⎛⎫⎡⎤⎛⎫=⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取1222a a ⎛⎫⎛⎫ ⎪= ⎪ ⎝⎭- ⎝,其对应的主成分为:212F 22=-.7.2设随机变量123X (X ,X ,X )'=的协差阵为120250,002-⎡⎤⎢⎥∑=-⎢⎥⎢⎥⎣⎦试求X的主成分及主成分对变量X的贡献率。

解:先求X的特征根λ,λ满足方程:12025002-λ---λ=-λ,即()2(2)610-λλ-λ+=,因此三个特征根分别为1235.8284,2,0.1716λ=λ=λ=设1 5.8284λ=对应的单位特征向量为()112131a ,a ,a ',则它满足:1121314.828420a 020.82840a 000 3.8284a 0--⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥--=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取 112131a 10.38271a 2.41420.92392.6131a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪=-=- ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 112F 0.3827X 0.9239X =-,其贡献率为5.828472.86%5.828420.1716=++;设22λ=对应的单位特征向量为()122232a,a ,a ',则它满足:122232120a 0230a 0000a 0--⎡⎤⎛⎫⎛⎫ ⎪ ⎪⎢⎥-= ⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取122232a 0a 0a 1⎛⎫⎛⎫⎪ ⎪= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭,其对应主成分为: 23F X =,其贡献率为225%5.828420.1716=++;设30.1716λ=对应的单位特征向量为()132333a ,a ,a ',则它满足:1323330.828420a 02 4.82840a 000 1.8284a 0-⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥-=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取132333a 10.92391a 0.41420.38271.0824a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 312F 0.9239X 0.3827X =+,其贡献率为0.17162.14%5.828420.1716=++.7.3 设随机变量12X (X ,X )'=的协差阵为14,4100⎡⎤∑=⎢⎥⎣⎦试从∑和相关阵R出发求出总体主成分,并加以比较。

多元统计分析课后练习答案

多元统计分析课后练习答案

多元统计分析课后练习答案第1章多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z 标准化。

2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。

当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点:夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

应用多元统计分析课后复习资料朱建平版

应用多元统计分析课后复习资料朱建平版

第二章2.1.试叙述多元联合分布和边际分布之间的关系。

解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度函数的维数小于p 。

2.2设二维随机向量12()X X '服从二元正态分布,写出其联合分布。

解:设12()X X '的均值向量为()12μμ'=μ,协方差矩阵为21122212σσσσ⎛⎫ ⎪⎝⎭,则其联合分布密度函数为1/21222112112222122121()exp ()()2f σσσσσσσσ--⎧⎫⎛⎫⎛⎫⎪⎪'=---⎨⎬ ⎪⎪⎝⎭⎝⎭⎪⎪⎩⎭x x μx μ。

2.3已知随机向量12()X X '的联合密度函数为121212222[()()()()2()()](,)()()d c x a b a x c x a x c f x x b a d c --+-----=--其中1a x b ≤≤,2c x d ≤≤。

求(1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断1X 和2X 是否相互独立。

(1)解:随机变量1X 和2X 的边缘密度函数、均值和方差;112121222[()()()()2()()]()()()dx cd c x a b a x c x a x c f x dx b a d c --+-----=--⎰12212222222()()2[()()2()()]()()()()dd c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----⎰ 121222202()()2[()2()]()()()()dd c c d c x a x b a t x a t dt b a d c b a d c ------=+----⎰ 2212122222()()[()2()]1()()()()d cdc d c x a x b a t x a t b a d c b a d c b a------=+=----- 所以由于1X 服从均匀分布,则均值为2b a+,方差为()212b a -。

应用多元统计分析课后习题答案高惠璇第七章习题解答-20页PPT精选文档

应用多元统计分析课后习题答案高惠璇第七章习题解答-20页PPT精选文档

解:
9
第七章 主成分分析
7-5 设3维总体X的协差阵为

试求总体主成分.

4 0 0
0 4 0
0 0 2

解:总体主成分为
Zi Xi(i1,2,3)
主成分向量为
Z ( X 1 ,X 2 ,X 3 ) 或 Z ( X 2 ,X 1 ,X 3 )
三个主成分的方差分别为4,4,2.
(01).
(1)
Z1 1p(X1X2Xp);
(2) 试求第一主成分的贡献率.
7
第七章 主成分分析
解:
1
8
第七章 主成分分析
7-4 设总体X=(X1,…,Xp)′~Np(μ,Σ) (Σ>0),等概率密度
椭球为
(X-μ)′Σ-1(X-μ)=C2(C为常数).
试问椭球的主轴方向是什么?
14 13
13 14 2
12
14
13
12 2
,
其中 1 21 31,421 4 21.3
试求X的主成分.
12
第七章 主成分分析
解:
13
第七章 主成分分析
7-8
14
第七章 主成分分析
15
第七章 主成分分析
7-9
16
其中ρ为X1和X2的相关系数(ρ>0). (1) 试从Σ出发求X

1
1

(2) 求X
(3) 试问当ρ取多大时才能使第一主成分的贡献率达95%以上.
解:
5
第七章 主成分分析
6
第七章 主成分分析
7-3 设p维总体X的协差阵为
21

1

应用多元统计分析课后习题答案高惠璇第七章习题解答

应用多元统计分析课后习题答案高惠璇第七章习题解答
= 0$。 • 因此,$E(X^2) = 0$。
04
习题4解答
题目
• 题目:在多元线性回归中,如果 一个自变量与其他自变量高度相 关,那么这个自变量是否应该被 包括在回归模型中?为什么?
解答
01
解答:在多元线性回归中,如果一个自变量与其他自变量 高度相关,那么这个自变量是否应该被包括在回归模型中 ,需要视具体情况而定。
解答
• 当$x < 0$时,$P(X \leq x) = \frac{1}{2}e^{x}$,所以$p(x) = \frac{1}{2}e^{x}$。
解答
• 接下来,我们计算期望值
• 当$x \geq 0$时,$E(X) = \int{0}^{\infty}xp(x)dx = \int{0}^{\infty}\frac{1}{2}xe^{-xdx} = \frac{1}{2}e^{-x}|_{0}^{\infty} = 0$。
• 因此,$E(X) = 0$。
01
03 02
解答
• 当$x \geq 0$时,$P(X^2 \leq x) = P(X \leq \sqrt{x}) = \frac{1}{2}e^{-\sqrt{x}}$,所以 $p_1(x) = \frac{1}{2}\sqrt{x}e^{\sqrt{x}}$。
答案
证明过程如上所述,结论 正确。
证明过程如上所述,结论 正确。
证明过程如上所述,结论 正确。
答案1
答案2
答案3
03
习题3解答
题目
题目:设随机变量$X$的 分布函数为$F(x) = begin{cases}
0 & x notin mathbf{R}
frac{1}{2}e^{-|x|} & x in mathbf{R}

(完整版)多元统计分析课后练习答案

(完整版)多元统计分析课后练习答案

第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z 标准化。

2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。

当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点:夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

多元统计分析课后练习答案

多元统计分析课后练习答案

第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z 标准化。

2、欧氏距离与马氏距离的优缺点是什么欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。

当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点:夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

应用多元统计分析课后答案-朱建平版

应用多元统计分析课后答案-朱建平版
假设 ,试用距离判别法建立判别函数和判别规则。 样品X=(6,0)’应属 于哪个总体? 解: =
, =
, =
=
, ,
即样品X属于总体 第五章
5.1 判别分析和聚类分析有何区别?
答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言, 设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本 属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得 不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分 析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我 们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚 合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况 下进行分类,而聚类分析是在不知道类的情况下进行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距 离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到 合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要 说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为 我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的 相似度。常用的距离为 (一)闵可夫斯基距离: q取不同值,分为 (1)绝对距离(), (2)欧氏距离(), (3)切比雪夫距离(), (二)马氏距离
则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝 叶斯判别也等价。 ③当
时,费希尔判别用
作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不 同。 ④ 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则 是X
,W(X)

应用多元统计分析课后习题答案高惠璇第七章习题解答共20页

应用多元统计分析课后习题答案高惠璇第七章习题解答共20页

第七章 主成分分析
17
第七章 主成分分析
7-10
18
第七章 主成分分析
77--1112
19
谢谢
解:
9
第七章 主成分分析
7-5 设3维总体X的协差阵为

试求总体主成分.

4 0 0
0 4 0
0 0 2

解:总体主成分为
Zi Xi(i1,2,3)
主成分向量为
Z ( X 1 ,X 2 ,X 3 ) 或 Z ( X 2 ,X 1 ,X 3 )
三个主成分的方差分别为4,4,2.
(01).
(1)
Z1 1p(X1X2Xp);
(2) 试求第一主成分的贡献率.
7
第七章 主成分分析
解:
1
8
第七章 主成分分析
7-4 设总体X=(X1,…,Xp)′~Np(μ,Σ) (Σ>0),等概率密度
椭球为
(X-μ)′Σ-1(X-μ)=C2(C为常数).
试问椭球的主轴方向是什么?
14 13
13 14 2
12
14
13
12 2
,
其中 1 21 31,421 4 21.3
试求X的主成分.
12
第七章 主成分分析
解:
13
第七章 主成分分析
7-8
14
第七章 主成分分析
15
第七章 主成分分析
7-9
16
10
第七章 主成分分析
7-6
设3维总体X的协差阵为



2 2
2 2
0
2

0 2 2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Abbo无私奉献,只收1个金币,BS收5个金币的…何老师考简单点啊……第七章 因子分析7.1 试述因子分析与主成分分析的联系与区别。

答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。

②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。

因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。

因子分析也可以说成是主成分分析的逆问题。

如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。

因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。

而因子分析是从显在变量去提炼潜在因子的过程。

此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。

7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。

目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。

具体来说,①因子分析可以用于分类。

如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。

即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。

对我们进一步研究与探讨指示方向。

在社会调查分析中十分常用。

③因子分析的另一个作用是用于时空分解。

如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。

7.3 简述因子模型中载荷矩阵A 的统计意义。

答:对于因子模型1122i i i ij j im m i X a F a F a F a F ε=++++++ 1,2,,i p =因子载荷阵为11121212221212(,,,)m m m p p pm a a a a a a A A A a a a ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦Ai X 与j F 的协方差为:1Cov(,)Cov(,)mi j ik k i j k X F a F F ε==+∑=1Cov(,)Cov(,)mikk j i j k aF F F ε=+∑=ij a若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了变量iX 对公共因子jF 的相对重要性。

变量共同度2211,2,,miijj h ai p ===∑2221122()()()()()i i i im m i D X a D F a D F a D F D ε=++++22i i h σ=+ 说明变量i X 的方差由两部分组成:第一部分为共同度2i h ,它描述了全部公共因子对变量i X 的总方差所作的贡献,反映了公共因子对变量i X 的影响程度。

第二部分为特殊因子i ε对变量i X 的方差的贡献,通常称为个性方差。

而公共因子j F 对X 的贡献2211,2,,pjiji g aj m ===∑表示同一公共因子j F 对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重要性的一个尺度。

7.4 在进行因子分析时,为什么要进行因子旋转?最大方差因子旋转的基本思路是什么? 答:因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。

但有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。

这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的,也很难对因子的实际背景进行合理的解释。

这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小。

最大方差旋转法是一种正交旋转的方法,其基本思路为: ①A其中令***(),/ijp m ij iji a d a h ⨯===A A Γ 211p j ij i d d p ==∑ *A 的第j 列元素平方的相对方差可定义为2211()p j ij j i V d d p ==-∑ ②12m V V V V =+++最大方差旋转法就是选择正交矩阵Γ,使得矩阵*A 所有m 个列元素平方的相对方差之和达到最大。

7.5 试分析因子分析模型与线性回归模型的区别与联系。

答:因子分析模型是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法的模型。

而线性回归模型回归分析的目的是设法找出变量间的依存(数量)关系, 用函数关系式表达出来。

因子分析模型中每一个变量都可以表示成公共因子的线性函数与特殊因子之和。

即1122i i i im m i X a F a F a F ε=++++,(1,2,,i p =) 该模型可用矩阵表示为:=+X AF ε而回归分析模型中多元线性回归方程模型为:其中是常数项,是偏回归系数,是残差。

因子模型满足:(1)m p ≤; (2)(,)0Cov =F ε,即公共因子与特殊因子是不相关的;(3)101()01F m D ⎡⎤⎢⎥⎢⎥===⎢⎥⎢⎥⎣⎦D F I ,即各个公共因子不相关且方差为1; (4)212220()0p D εσσσ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦D ε,即各个特殊因子不相关,方差不要求相等。

而回归分析模型满足(1)正态性:随机误差(即残差)e 服从均值为 0,方差为σ2的正态分布;(2)等方差:对于所有的自变量x ,残差e 的条件方差为σ2,且σ为常数;(3)独立性:在给定自变量x 的条件下,残差e 的条件期望值为0(本假设又称零均值假设);(4)无自相关性:各随机误差项e 互不相关。

两种模型的联系在于都是线性的。

因子分析的过程就是一种线性变换。

7.6 设某客观现象可用X =()’来描述, 在因子分析时,从约相关阵出发计算出特征值为 由于,所以找前两个特征值所对应的公共因子即可, 又知对应的正则化特征向量分别为(0.707,-0.316,0.632)’及(0,0.899,0.4470)’,要求:(1)计算因子载荷矩阵A ,并建立因子模型。

(2)计算共同度。

(3)计算第一公因子对X的“贡献”。

解:(1)根据题意,A==建立因子模型为(2)(3)因为是从约相关阵计算的特征值,所以公共因子对X的“贡献”为。

7.7 利用因子分析方法分析下列30个学生成绩的因子构成,并分析各个学生较适合学文科序号数学物理化学语文历史英语1 65 61 72 84 81 792 77 77 76 64 70 553 67 63 49 65 67 574 80 69 75 74 74 635 74 70 80 84 81 746 78 84 75 62 71 647 66 71 67 52 65 578 77 71 57 72 86 719 83 100 79 41 67 5010 86 94 97 51 63 5511 74 80 88 64 73 6612 67 84 53 58 66 5613 81 62 69 56 66 5214 71 64 94 52 61 5215 78 96 81 80 89 7616 69 56 67 75 94 8017 77 90 80 68 66 6018 84 67 75 60 70 6319 62 67 83 71 85 7720 74 65 75 72 90 7321 91 74 97 62 71 6622 72 87 72 79 83 7623 82 70 83 68 77 8524 63 70 60 91 85 8225 74 79 95 59 74 5926 66 61 77 62 73 6427 90 82 98 47 71 6028 77 90 85 68 73 7629 91 82 84 54 62 6030 78 84 100 51 60 60解:令数学成绩为X1,物理为X2,化学为X3,语文为X4,历史为X5,英语为X1,用spss 分析学生成绩的因子构成的步骤如下:1. 在SPSS窗口中选择Analyze→Data Reduction→Factor,调出因子分析主界面,并将六个变量移入Variables框中。

图7.1 因子分析主界面2. 点击Descriptives按钮,展开相应对话框,见图7.2。

选择Initial solution复选项。

这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。

单击Continue按钮,返回主界面。

图7.2 Descriptives子对话框3. 点击Extraction按钮,设置因子提取的选项,见图7.3。

在Method下拉列表中选择因子提取的方法,SPSS提供了七种提取方法可供选择,一般选择默认选项,即“主成分法”。

在Analyze栏中指定用于提取因子的分析矩阵,分别为相关矩阵和协方差矩阵。

在Display 栏中指定与因子提取有关的输出项,如未旋转的因子载荷阵和因子的碎石图。

在Extract栏中指定因子提取的数目,有两种设置方法:一种是在Eigenvalues over后的框中设置提取的因子对应的特征值的范围,系统默认值为1,即要求提取那些特征值大于1的因子;第二种设置方法是直接在Number of factors后的矩形框中输入要求提取的公因子的数目。

这里我们均选择系统默认选项,单击Continue按钮,返回主界面。

图7.3 Extraction子对话框4.点击Rotation按钮,设置因子旋转的方法。

这里选择Varimax(方差最大旋转),并选择Display栏中的Rotated solution复选框,在输出窗口中显示旋转后的因子载荷阵。

单击Continue按钮,返回主界面。

图7.4 Rotation子对话框5.点击Scores按钮,设置因子得分的选项。

选中Save as variables复选框,将因子得分作为新变量保存在数据文件中。

选中Display factor score coefficient matrix复选框,这样在结果输出窗口中会给出因子得分系数矩阵。

单击Continue按钮返回主界面。

图7.5 Scores子对话框6. 单击OK按钮,运行因子分析过程。

结果分析:表7.1 旋转前因子载荷阵表7.2 旋转后因子载荷阵成份矩阵a成份1 2x1 -.662 .503x2 -.530 .478x3 -.555 .605x4 .900 .233x5 .857 .357从表7.1中可以看出,每个因子在不同原始变量上的载荷没有明显的差别,为了便于对因子进行命名,需要对因子载荷阵进行旋转,得表7.2。

经过旋转后的载荷系数已经明显地两极分化了。

第一个公共因子在后三个指标上有较大载荷,说明这三个指标有较强的相关性,可以归为一类,属于文科学习能力的指标;第二个公共因子在前三个指标上有较大载荷,同样可以归为一类,这三个指标同属于理科学习能力的指标。

相关文档
最新文档