多元统计分析期末考试考点整理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二名词解释
1、 多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理 论和方法,是一元统计学的推广
2、 聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方 法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 使类内对象的同质性最大化和类间对象的异质性最大化
3、 随机变量:是指变量的值无法预先确定仅以一定的可能性 (概率)取值的量。它是由于随
机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向 量。类
似地,所有元素都是随机变量的矩阵称为随机矩阵。
4、统计量:多元统计研究的是多指标问题 ,为了了解总体的特征,通过对总体抽样得到代表 总体的样本,但因为信息是分散在每个样本上的 ,就需要对样本进行加工,把样本的信息浓缩 到不包含未知量的样本函数中,这个函数称为统计量
二、计算题
^16 -4
2
k 设H =
其中启= (1Q —纣眉=-4 4-1
[― 试判断叼+ 2吟与
「花一® [是否独立?
解:
"10
-6 -15
-6 1 a 2U
-16
20 40
故不独立口
-r o 2丿
按用片的联合分帚再I -6 lti 20
-1G 20 ) -1V16 -4 0 -4 A 2 丿"-1
2.对某地区农村的百名2周宙男翌的身高、胸圉、上半骨圉进行测虽,得相关数据如下』根据汶往资料,该地区城市2周岁男婴的遠三个指标的均值血二(90Q乩16庆现欲在多元正态性的假定下检验该地区农村男娶是否与城市男婴有相同的均值・伽厂43107-14.62108.946^1 ]丼中乂=60.2x^)-1=(115.6924)-1-14.6210
3.172-37 3760
、8.9464-37 376035.S936」= 0.01, (3,2) = 99.2, 03) =293 隔亠4) =16.7)
答:
2、假设检验问题:比、# =险用‘//H地
r-8.o>
经计算可得:X-^A 22
厂
「3107 -14.6210 ST1=(23J3848)-1 -14.6210 3.172
8 9464 -37 3760
E9464 -37.3760 35.5936
构造检验统计量:尸=旳(丟-間)〃丿(巫-角)
= 6x70.0741=420.445
由题目已知热“(3,)= 295由是
^I =^W3,3)^147.5
所以在显著性水平ff=0.01下,拒绝原设尽即认
为农村和城市的2周岁男婴上述三个指标的均
值有显著性差异
(]
4、设盂=(耳兀.昂工/ ~M((XE),协方差阵龙=P
P (1)试从匸出发求X的第一总体主成分;
答:
(2)试|可当卩取多大时才链主成分册贡蕭率达阳滋以上.
対二為=
人
=1—
p
得人所对应的单位特征向量为匸1
* 2 2
故得第-主成分―詁+討冷禺+*血
(2)第一个主成分的责献率为
------- --------- =1^>95%
雄+2“入+川4
0.95x4-1
-- --------------- - 禹
3
题型三解答题
1、简述多元统计分析中协差阵检验的步骤
答:
第一,提出待检验的假设和H1;
第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;
第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
2、简述一下聚类分析的思想
答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品
或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕
3、多元统计分析的内容和方法
答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,
使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析
等
2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。4、系统聚类法基本原理和步骤答:
1)先计算n个样本两两间的距离
A—1-P
-P A —1
-P-P
-P-P-P
一。
~P
-P
Z-l
=0得特征根*^=l + 3p,
0 933
2)构造n个类,每个类只包含一个样本
3)合并距离最近的两类为一新类
4)计算新类与当前各类的距离
5)类的个数是否等于1,如果不等于回到3在做
6)画出聚类图
7)决定分类个数和类
5、聚类分析的类型有:
答:
(1)对样本分类,称为Q型聚类分析
(2)对变量分类,称为R型聚类分析# Q 型聚类是对样本进行聚类,它使具有相似性特征
的样本聚集在一起,使差异性大的样本分离开来。#R型聚类是对变量进行聚类,它使具有
相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。
6、简述欧氏距离与马氏距离的区别和联系。
4a简述欧氏距离与马氏距离的区别和联系.
答I设P錐空闾RP中的两点X=(XpX2" Xp);和Y= YpY r- Yp ;D则欧氏距藹次欧氏距离的局限肓①在多元数据分忻中,其度重不合理-②会受到粥间题中曇冈的毙响°
设是来自均值向壘为(J,协方差为£的总体G中的p维样本.则马氏K巨离为
■ 1 ■ 1
DaT)= X-Y L X-Y n当迟 =【即单位阵时小輒Y)=x —Y' X—丫=二(& —丫= Yj)W欧氏距离.
因此,在一定程度上,欧氏E巨离是马氏距离的特殊情况.马氏距离是欧氏距离的推广.
7、试述系统聚类的基本思想。
答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
8对样品和变量进行聚类分析时所构造的统计量分别是什么?简要说明为什么这样构造?
答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作
p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为
(-)明氏距离;= d血—心「严
—1
q取不同值,分次] 护
(1)绝对距离(*-]>巧〔工)=X 口迄-産/
Jt-1 4