(完整版)多元统计分析思考题答案

合集下载

多元统计分析课后练习答案

多元统计分析课后练习答案

多元统计分析课后练习答案第1章多元正态分布1、在数据处理时,为什么通常要进⾏标准化处理?数据的标准化是将数据按⽐例缩放,使之落⼊⼀个⼩的特定区间。

在某些⽐较和评价的指标处理中经常会⽤到,去除数据的单位限制,将其转化为⽆量纲的纯数值,便于不同单位或量级的指标能够进⾏⽐较和加权。

其中最典型的就是0-1标准化和Z 标准化。

2、欧⽒距离与马⽒距离的优缺点是什么?欧⽒距离也称欧⼏⾥得度量、欧⼏⾥得度量,是⼀个通常采⽤的距离定义,它是在m 维空间中两个点之间的真实距离。

在⼆维和三维空间中的欧⽒距离的就是两点之间的距离。

缺点:就⼤部分统计问题⽽⾔,欧⽒距离是不能令⼈满意的。

每个坐标对欧⽒距离的贡献是同等的。

当坐标表⽰测量值时,它们往往带有⼤⼩不等的随机波动,在这种情况下,合理的⽅法是对坐标加权,使变化较⼤的坐标⽐变化较⼩的坐标有较⼩的权系数,这就产⽣了各种距离。

当各个分量为不同性质的量时,“距离”的⼤⼩与指标的单位有关。

它将样品的不同属性之间的差别等同看待,这⼀点有时不能满⾜实际要求。

没有考虑到总体变异对距离远近的影响。

马⽒距离表⽰数据的协⽅差距离。

为两个服从同⼀分布并且其协⽅差矩阵为Σ的随机变量与的差异程度:如果协⽅差矩阵为单位矩阵,那么马⽒距离就简化为欧⽒距离,如果协⽅差矩阵为对⾓阵,则其也可称为正规化的欧⽒距离。

优点:它不受量纲的影响,两点之间的马⽒距离与原始数据的测量单位⽆关。

由标准化数据和中⼼化数据计算出的⼆点之间的马⽒距离相同。

马⽒距离还可以排除变量之间的相关性的⼲扰。

缺点:夸⼤了变化微⼩的变量的作⽤。

受协⽅差矩阵不稳定的影响,马⽒距离并不总是能顺利计算出。

3、当变量X1和X2⽅向上的变差相等,且与互相独⽴时,采⽤欧⽒距离与统计距离是否⼀致?统计距离区别于欧式距离,此距离要依赖样本的⽅差和协⽅差,能够体现各变量在变差⼤⼩上的不同,以及优势存在的相关性,还要求距离与各变量所⽤的单位⽆关。

如果各变量之间相互独⽴,即观测变量的协⽅差矩阵是对⾓矩阵, 则马⽒距离就退化为⽤各个观测指标的标准差的倒数作为权数的加权欧⽒距离。

(完整版)多元统计分析思考题答案

(完整版)多元统计分析思考题答案

(完整版)多元统计分析思考题答案《多元统计分析》思考题答案记得⽼师课堂上说过考试内容不会超出这九道思考题,如下九道题题⽬中有错误的或不清楚的地⽅,欢迎⼤家指出、更改、补充。

1、简述信度分析答题提⽰:要答可靠度概念,可靠度度量,克朗巴哈α系数、拆半系数、单项与总体相关系数、稀释相关系数等(⾄少要答四个系数,⾄少要给出两个指标的公式)答:信度(Reliability )即可靠性,它是指采⽤同样的⽅法对同⼀对象重复测量时所得结果的⼀致性程度。

信度指标多以相关系数表⽰,⼤致可分为三类:稳定系数(跨时间的⼀致性),等值系数(跨形式的⼀致性)和内在⼀致性系数(跨项⽬的⼀致性)。

信度分析的⽅法主要有以下四种:1)、重测信度法这⼀⽅法是⽤同样的问卷对同⼀组被调查者间隔⼀定时间重复施测,计算两次施测结果的相关系数。

重测信度属于稳定系数。

重测信度法特别适⽤于事实式问卷,如果没有突发事件导致被调查者的态度、意见突变,这种⽅法也适⽤于态度、意见式问卷。

由于重测信度法需要对同⼀样本试测两次,被调查者容易受到各种事件、活动和他⼈的影响,⽽且间隔时间长短也有⼀定限制,因此在实施中有⼀定困难。

2)、复本信度法复本信度法是让同⼀组被调查者⼀次填答两份问卷复本,计算两个复本的相关系数。

复本信度属于等值系数。

复本信度法要求两个复本除表述⽅式不同外,在内容、格式、难度和对应题项的提问⽅向等⽅⾯要完全⼀致,⽽在实际调查中,很难使调查问卷达到这种要求,因此采⽤这种⽅法者较少。

3)、折半信度法折半信度法是将调查项⽬分为两半,计算两半得分的相关系数,进⽽估计整个量表的信度。

折半信度属于内在⼀致性系数,测量的是两半题项得分间的⼀致性。

这种⽅法⼀般不适⽤于事实式问卷(如年龄与性别⽆法相⽐),常⽤于态度、意见式问卷的信度分析。

在问卷调查中,态度测量最常见的形式是5级李克特(Likert )量表。

进⾏折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分⽅向的⼀致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算⼆者的相关系数。

(完整版)应用多元统计分析课后答案_朱建平版

(完整版)应用多元统计分析课后答案_朱建平版

2.1.试叙述多元联合分布和边际分布之间的关系。

解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=的联合分布密度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=的子向量的概率分布,其概率密度函数的维数小于p 。

2.2设二维随机向量12()X X '服从二元正态分布,写出其联合分布。

解:设12()X X '的均值向量为()12μμ'=μ,协方差矩阵为21122212σσσσ⎛⎫ ⎪⎝⎭,则其联合分布密度函数为1/21222112112222122121()exp ()()2f σσσσσσσσ--⎧⎫⎛⎫⎛⎫⎪⎪'=---⎨⎬ ⎪⎪⎝⎭⎝⎭⎪⎪⎩⎭x x μx μ。

2.3已知随机向量12()X X '的联合密度函数为121212222[()()()()2()()](,)()()d c x a b a x c x a x c f x x b a d c --+-----=--其中1ax b ≤≤,2c x d ≤≤。

求(1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数;(3)判断1X 和2X 是否相互独立。

(1)解:随机变量1X 和2X 的边缘密度函数、均值和方差;112121222[()()()()2()()]()()()dx cd c x a b a x c x a x c f x dx b a d c --+-----=--⎰12212222222()()2[()()2()()]()()()()dd c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----⎰ 121222202()()2[()2()]()()()()dd c c d c x a x b a t x a t dt b a d c b a d c ------=+----⎰ 2212122222()()[()2()]1()()()()d cdc d c x a x b a t x a t b a d c b a d c b a------=+=----- 所以 由于1X 服从均匀分布,则均值为2b a+,方差为()212b a -。

应用多元统计分析课后题答案

应用多元统计分析课后题答案


c) c)2
2( x1

a)( x2

c)]
其中 a x1 b , c x2 d 。求 (1)随机变量 X1 和 X 2 的边缘密度函数、均值和方差; (2)随机变量 X1 和 X 2 的协方差和相关系数; (3)判断 X1 和 X 2 是否相互独立。
(1)解:随机变量 X1 和 X 2 的边缘密度函数、均值和方差;
12

2 2

1/
2
exp

1 2
(x

μ)

12 21
12

2 2
1
(x

μ)


2.3 已知随机向量 ( X1 X 2 ) 的联合密度函数为
f
( x1 ,
x2 )

2[(d

c)( x1

a)
(b a)(x2 (b a)2 (d

μ)

1 n 1
n i 1
E(Xi
-
μ)(
X i
-
μ)

nE(X

μ)(X

μ)


Σ

故 S 为 Σ 的无偏估计。 n 1
2.9.设 X(1) , X(2) , ..., X(n) 是从多元正态分布 X ~ N p (μ, Σ) 抽出的一个简单随机样本,试求 S
c) 2(x1 a)(x2 a)2(d c)2

c)]
dx2
2(d c)(x1 a)x2 d dc 2[(b a)t 2(x1 a)t] dt
(b a)2 (d c)2

多元统计分析课后习题解答_第四章

多元统计分析课后习题解答_第四章

第四章判别分析4.1 简述欧几里得距离与马氏距离的区别和联系。

答:设p维欧几里得空间中的两点X=和Y=。

则欧几里得距离为。

欧几里得距离的局限有①在多元数据分析中,其度量不合理。

②会受到实际问题中量纲的影响。

设X,Y是来自均值向量为,协方差为的总体G中的p维样本。

则马氏距离为D(X,Y)=。

当即单位阵时,D(X,Y)==即欧几里得距离。

因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。

4.2 试述判别分析的实质。

答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。

设R1,R2,…,Rk 是p 维空间R p 的k 个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。

判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划分”,这个“划分”就构成了一个判别规则。

4.3 简述距离判别法的基本思想和方法。

答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。

其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。

①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是1和2,对于一个新的样品X ,要判断它来自哪个总体。

计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则X ,D 2(X ,G 1)D 2(X ,G 2)X,D 2(X ,G 1)> D 2(X ,G 2,具体分析,2212(,)(,)D G D G -X X 111122111111111222111211122()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()22()2()---''=-++-'+⎛⎫=--- ⎪⎝⎭''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ则判别规则为X ,W(X)X ,W(X)<0②多个总体的判别问题。

多元统计分析课后练习答案

多元统计分析课后练习答案

多元统计分析课后练习答案第1章多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z 标准化。

2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。

当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点:夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

多元统计分析课后习题解答第四章

多元统计分析课后习题解答第四章
• 题目:简述主成分分析的步骤。 答案:主成分分析是一种降维技术,其步骤包括标准化原始数据、计算样本相关系数矩阵、计算 特征值和特征向量、选择主成分并解释其意义等。通过主成分分析,可以将多个变量简化为少数几个综合变量,便于分析和解释。 • 答案:主成分分析是一种降维技术,其步骤包括标准化原始数据、计算样本相关系数矩阵、计算特征值和特征向量、选择主成分并解 释其意义等。通过主成分分析,可以将多个变量简化为少数几个综合变量,便于分析和解释。
习题解析
• 题目:简述多元统计分析的基本思想 答案:多元统计分析是通过对多个变量进行综合分析,揭示数据之间的内在关 系和规律,进而解决实际问题的方法。其基本思想包括多变量综合分析、多变量分类分析、多变量预测分析等。
• 答案:多元统计分析是通过对多个变量进行综合分析,揭示数据之间的内在关系和规律,进而解决实际问题的方法。其基本 思想包括多变量综合分析、多变量分类分析、多变量预测分析等。
汇报人:XX
多元统计分析的 方法和技术广泛 应用于各个领域, 如心理学、经济 学、医学等。
多元统计分析的 基本步骤包括数 据收集、数据探 索、模型选择、 模型拟合和模型 评估等。
多元统计分析的基本思想
综合多个变量进行全面分析,以揭示数据之间的内在联系和规律 强调变量之间的交互作用和协同效应,以实现更准确的预测和推断 通过对数据的降维处理,简化复杂数据集,提取关键信息
• 题目:解释因子分析的基本思想。 答案:因子分析是一种探索性统计分析方法,其基本思想是通过寻找隐藏在多个变量背后的共 同因子来解释变量之间的相互关系。通过因子分析,可以揭示数据的基本结构,简化数据的复杂性,并加深对数据内在规律的认识。 • 答案:因子分析是一种探索性统计分析方法,其基本思想是通过寻找隐藏在多个变量背后的共同因子来解释变量之间的相互关系。通 过因子分析,可以揭示数据的基本结构,简化数据的复杂性,并加深对数据内在规律的认识。

多元统计分析课后练习答案

多元统计分析课后练习答案

第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理数据的标准化是将数据按比例缩放,使之落入一个小的特定区间;在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权;其中最典型的就是0-1标准化和Z 标准化;2、欧氏距离与马氏距离的优缺点是什么欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离;在二维和三维空间中的欧氏距离的就是两点之间的距离;缺点:就大部分统计问题而言,欧氏距离是不能令人满意的;每个坐标对欧氏距离的贡献是同等的;当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离;当各个分量为不同性质的量时,“距离”的大小与指标的单位有关;它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求;没有考虑到总体变异对距离远近的影响;马氏距离表示数据的协方差距离;为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离;优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据计算出的二点之间的马氏距离相同;马氏距离还可以排除变量之间的相关性的干扰;缺点:夸大了变化微小的变量的作用;受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出;3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关;如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离;4、如果正态随机向量12(,,)p X X X X '=的协方差阵为对角阵,证明X 的分量是相互独立的随机变量;解: 因为12(,,)p X X X X '=的密度函数为 又由于21222p σσσ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭Σ 则1(,...,)p f x x则其分量是相互独立;5.1y 和2y 是相互独立的随机变量,且1y ~)1,0(N ,2y ~)4,3(N ;(a )求21y 的分布;(b )如果⎥⎦⎤⎢⎣⎡-=2/)3(21y y y ,写出y y '关于1y 与2y 的表达式,并写出y y '的分布; (c )如果⎥⎦⎤⎢⎣⎡=21y y y 且y ~∑),(μN ,写出∑-'1y y 关于1y 与2y 的表达式,并写出∑-'1y y 的分布;解:a 由于1y ~)1,0(N ,所以1y ~)1(2χ; b 由于1y ~)1,0(N ,2y ~)4,3(N ;所以232-y ~)1,0(N ;故2221)23(-+='y y y y ,且y y '~)2(2χ第2章 均值向量和协方差阵的检验1、略2、试谈Wilks 统计量在多元方差分析中的重要意义;3、题目此略多元均值检验,从题意知道,容量为9的样本 ,总体协方差未知假设H0:0μμ= , H1:0μμ≠ n=9 p=5检验统计量/n-1)()(0102μμ-'-=-X S X n T 服从P,n-1的2T 分布 统计量2T 实际上是样本均值与已知总体均值之间的马氏距离再乘以nn-1,这个值越大,相等的可能性越小,备择假设成立时,2T 有变大的趋势,所以拒绝域选择2T 值较大的右侧部分,也可以转变为F 统计量零假设的拒绝区域 {n-p/n-1p}2T >,()p n p F α-1/102T >F5,45μ0= 2972 ’样本均值 ’样本均值-μ0’=协方差矩阵降维——因子分析——抽取Inter-Item Covariance Matrix人均GDP元三产比重%人均消费元人口增长%文盲半文盲%人均GDP元三产比重%人均消费元人口增长%文盲半文盲%协方差的逆矩阵计算:2T=9s^-1 ’F统计量=> 拒绝零假设,边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显着差异;4、略第3章聚类分析1.、聚类分析的基本思想和功能是什么聚类分析的基本思想是研究的样品或指标之间存着程度不同的相似性,于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另外一类,直到把所有的样品聚合完毕,形成一个有小到大的分类系统,最后再把整个分类系统画成一张分群图,用它把所有样品间的亲疏关系表示出来;功能是把相似的研究对象归类;2、试述系统聚类法的原理和具体步骤;系统聚类是将每个样品分成若干类的方法,其基本思想是先将各个样品各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止; 具体步骤:1、对数据进行变换处理;不是必须的,当数量级相差很大或指标变量具有不同单位时是必要的2、构造n个类,每个类只包含一个样本;3、计算n个样本两两间的距离ijd;4、合并距离最近的两类为一新类;5、计算新类与当前各类的距离,若类的个数等于1,转到6;否则回4;6、画聚类图;7、决定类的个数,从而得出分类结果;3、试述K-均值聚类的方法原理;K-均值法是一种非谱系聚类法,把每个样品聚集到其最近形心均值类中,它是把样品聚集成K个类的集合,类的个数k可以预先给定或者在聚类过程中确定,该方法应用于比系统聚类法大得多的数据组;步骤是把样品分为K个初始类,进行修改,逐个分派样品到期最近均值的类中通常采用标准化数据或非标准化数据计算欧氏距离重新计算接受新样品的类和失去样品的类的形心;重复这一步直到各类无元素进出;4、试述模糊聚类的思想方法;模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性,通过建立模糊相似关系对客观事物进行聚类的分析方法,实质是根据研究对象本身的属性构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系;基本思想是要把需要识别的事物与模板进行模糊比较,从而得到所属的类别;简单地说,模糊聚类事先不知道具体的分类类别,而模糊识别是在已知分类的情况下进行的;模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面;它有两种基本方法:系统聚类法和逐步聚类法;该方法多用于定性变量的分类;5、略第4章判别分析1、应用判别分析应该具备什么样的条件答:判别分析最基本的要求是,分组类型在两组以上,每组案例的规模必须至少在一个以上,解释变量必须是可测量的,才能够计算其平均值和方差;对于判别分析有三个假设:1每一个判别变量不能是其他判别变量的线性组合;有时一个判别变量与另外的判别变量高度相关,或与其的线性组合高度相关,也就是多重共线性;2各组变量的协方差矩阵相等;判别分析最简单和最常用的的形式是采用现行判别函数,他们是判别变量的简单线性组合,在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显着性检验;3各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布,在这种条件下可以精确计算显着性检验值和分组归属的概率;2、试述贝叶斯判别法的思路;答:贝叶斯判别法的思路是先假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识先验概率分布,得到后验概率分布,各种统计推断都通过后验概率分布来进行;将贝叶斯判别方法用于判别分析,就得到贝叶斯判别;3、试述费歇判别法的基本思想;答:费歇判别法的基本思想是将高维数据点投影到低维空间上来,然而利用方差分析的思想选出一个最优的投影方向;因此,严格的说费歇判别分析本身不是一种判别方法,只是利用费歇统计量进行数据预处理的方法,以使更有利于用判别分析方法解决问题;为了有利于判别,我们选择投影方向a应使投影后的k个一元总体能尽量分开同一总体中的样品的投影值尽量靠近;k要做到这一点,只要投影后的k个一元总体均值有显着差异,即可利用方差分析的方法使组间平方和尽可能的大;则选取投影方向a使Δa达极大即可;4、什么是逐步判别分析答:具有筛选变量能力的判别方法称为逐步判别分析法;逐步判别分析法就是先从所有因子中挑选一个具有最显着判别能力的因子,然后再挑选第二个因子,这因子是在第一因子的基础上具有最显着判别能力的因子,即第一个和第二个因子联合起来有显着判别能力的因子;接着挑选第三个因子,这因子是在第一、第二因子的基础上具有最显着判别能力的因子;由于因子之间的相互关系,当引进了新的因子之后,会使原来已引入的因子失去显着判别能力;因此,在引入第三个因子之后就要先检验已经引入的因子是否还具有显着判别能力,如果有就要剔除这个不显着的因子;接着再继续引入,直到再没有显着能力的因子可剔除为止,最后利用已选中的变量建立判别函数;5、简要叙述判别分析的步骤及流程答:1研究问题:选择对象,评估一个多元问题各组的差异,将观测个体归类,确定组与组之间的判别函数;2设计要点:选择解释变量,样本量的考虑,建立分析样本的保留样本;3假定:解释变量的正态性,线性关系,解释变量间不存在多重共线性,协方差阵相等;4估计判别函数:联立估计或逐步估计,判别函数的显着性;5使用分类矩阵评估预测的精度:确定最优临界得分,确定准则来评估判对比率,预测精确的统计显着性;6判别函数的解释:需要多少个函数;评价单个函数主要从判别权重、判别载荷、偏F值几个方面;评价两个以上的判别函数,分为评价判别的函数和评价合并的函数;7判别结果的验证:分开样本或交叉验证,刻画组间的差异;6、略第5章主成分分析1、主成分的基本思想是什么在对某一事物进行实证研究时,为更全面、准确地反映事物的特征及其发展规律,往往考虑与其有关的多个指标,在多元统计中也称为变量;一方避免遗漏重要信息而考虑尽可能多的指标看,另一方面考虑指标的增多,又难以避免信息重叠;希望涉及的变量少,而得到的信息量有较多;主成分的基本思想是研究如何通过原来的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法;研究某一问题涉及的众多变量之间有一定的相关性,必然存在着支配作用的公共因素;通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个无关的综合指标主成分来代替原来的指标;通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标;最经典的做法就是用F1选取的第一个线性组合,即第一个综合指标的方差来表达,即VarF1越大,表示F1包含的信息越多;因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分,如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求CovF1,F2=0则称F2为第二主成分,依此类推可以构造出第三、第四······,第P个主成分;2、主成分在应用中的主要作用是什么作用:利用原始变量的线性组合形成几个综合指标主成分,在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾;通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量数据进行定量分析,解释变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入;主成分分析能降低所研究的数据空间的维数,有时可通过因子载荷aij的结论,弄清X变量间的某些关系,多维数据的一种图形表示方法,用主成分分析筛选变量,可以用较少的计算量来选择,获得选择最佳变量子集合的效果;3.由协方差阵出发和由相关阵出发求主成分有什么不同1由协方差阵出发设随即向量X=X1,X2,X3,……Xp’的协方差矩阵为Σ,1≥2≥……≥p为Σ的特征值,γ1,γ2,……γp为矩阵A各特征值对应的标准正交特征向量,则第i个主成分为Yi=γ1iX1+γ2iX2+……+γpiXp,i=1,2,……,p此时VARYi=i,COVYi,Yj=0,i≠j我们把X1,X2,X3,……Xp的协方差矩阵Σ的非零特征根1≥2≥……≥p>0向量对应的标准化特征向量γ1,γ2,……γp分别作为系数向量,Y1=γ1’X, Y2=γ2’X,……, Yp=γp’X分别称为随即向量X的第一主成分,第二主成分……第p主成分;Y的分量Y1,Y2,……,Yp依次是X的第一主成分、第二主成分……第p主成分的充分必要条件是:1Y=P’X,即P为p阶正交阵,2Y的分量之间互不相关,即DY=diag1,2,……,p,3Y的p个分量是按方差由大到小排列,即1≥2≥……≥p;2由相关阵出发对原始变量X进行标准化,Z=Σ^1/2^-1X-μ covZ=R原始变量的相关矩阵实际上就是对原始变量标准化后的协方差矩阵,因此,有相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则相一致的;λi,γi 分别表示相关阵R的特征根值与对应的标准正交特征向量,此时,求得的主成分与原始变量的关系式为:Yi=γi’Z=γi’Σ^1/2^-1X-μ在实际研究中,有时单个指标的方差对研究目的起关键作用,为了达到研究目的,此时用协方差矩阵进行主成分分析恰到好处;有些数据涉及到指标的不同度量尺度使指标方差之间不具有可比性,对于这类数据用协方差矩阵进行主成分分析也有不妥;相关系数矩阵计算主成分其优势效应仅体现在相关性大、相关指标数多的一类指标上;避免单个指标方差对主成分分析产生的负面影响,自然会想到把单个指标的方差从协方差矩阵中剥离,而相关系数矩阵恰好能达到此目的;4、略第6章因子分析1、因子分析与主成分分析有什么本质不同答:1因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成,因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子,以及公共因子和特殊因子的线性组合;主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量绝大部分变异的几组彼此不相关的新变量2因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成分表示成各变量的线性组合3主成分分析中不需要有一些专门假设,因子分析则需要一些假设,因子分析的假设包括:各个因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关;4在因子分析中,提取主因子的方法不仅有主成分法,还有极大似然法等,基于这些不同算法得到的结果一般也不同;而主成分分析只能用主成分法提取;5主成分分析中,当给定的协方差矩阵或者相关矩阵的特征根唯一时,主成分一般是固定;而因子分析中,因子不是固定的,可以旋转得到不同的因子;6在因子分析中,因子个数需要分析者指定,结果随指定的因子数不同而不同;在主成分分析中,主成分的数量是一定的,一般有几个变量就有几个主成分; 7与主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量新的变量几乎带有原来所有变量的信息来进行后续的分析,则可以使用主成分分析;2、因子载荷ij a 的统计定义是什么它在实际问题的分析中的作用是什么答:1因子载荷ij a 的统计定义:是原始变量i X 与公共因子j F 的协方差,i X 与j F ),...,2,1;,...,2,1(m j p i ==都是均值为0,方差为1的变量,因此ij a 同时也是i X 与j F 的相关系数;(2)记),,...,2,1(...222212m j a a a g pjj j j =+++=则2j g 表示的是公共因子j F 对于X 的每一分量),...,2,1(p i X i =所提供的方差的总和,称为公共因子j F 对原始变量X 的方贡献,它是衡量公共因子相对重要性的指标;2j g 越大,表明公共因子j F 对i X 的贡献越大,或者说对X的影响作用就越大;如果因子载荷矩阵对A 的所有的),...,2,1(2m j g j =都计算出来,并按大小排序,就可以依此提炼出最有影响的公共因子;3、略第7章 对应分析1、试述对应分析的思想方法及特点;思想:对应分析又称为相应分析,也称R —Q 分析;是因子分子基础发展起来的一种多元统计分析方法;它主要通过分析定性变量构成的列联表来揭示变量之间的关系;当我们对同一观测数据施加R 和Q 型因子分析,并分别保留两个公共因子,则是对应分析的初步;对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来;它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性;另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数主因子以及分类的依据,是一种直观、简单、方便的多元统计方法;特点:对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来;它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性;另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数主因子以及分类的依据,是一种直观、简单、方便的多元统计方法;2、试述对应分析中总惯量的意义;总惯量不仅反映了行剖面集定义的各点与其重心加权距离的总和,同时与2x 统计量仅相差一个常数,而2x 统计量反映了列联表横联与纵联的相关关系,因此总惯量也反映了两个属性变量各状态之间的相关关系;对应分析就是在对总惯量信息损失最小的前提下,简化数据结构以反映两属性变量之间的相关关系;3、略 第8章 典型相关分析1、试述典型相关分析的统计思想及该方法在研究实际问题中的作用;答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法;用于揭示两组变 量之间的内在联系;典型相关分析的目的是识别并量化两组变量之间的联系;将两z |Uz |V 组变量相 关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系;基本思想:1在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数;即:X X 1, X 2, , , X p 、XX 1, X 2, , , X q 是两组相互关联的随机变量,分别在两组变量中选取若干有代表性的综合变量 U i 、Vi,使是原变量的线性组合;U i a 1X 1 a 2 X 2..... a P X P ≡ a ‘XV i b 1Y 1 b 2 Y 2 .... b q Y q ≡ b‘Y 在 D aX D bX 1 的条件下,使得 aX , bX 达到最大;2选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对;(3)如此继续下去,直到两组变量之间的相关性被提取完毕为此;其作用为:进行两组变量之间的相关性分析,用典型相关系数衡量两组变量之间的相关性;2、简述典型相关分析中冗余分析的内容及作用;答:典型型冗余分析的作用即分析每组变量提取出的典型变量所能解释的该组样本总方差的比 例,从而定量测度典型变量所包含的原始信息量;第一组变量样本的总方差为 t r R 11 p ,第二组变量样本的总方差为 t r R 22 q ;*A ˆz和*B ˆz 是样本典型相关系数矩阵,典型系数向量是矩阵的行向量, Z z z **A ˆU ˆ=,Z z z **B ˆV ˆ=前 r 对典型变量对样本总方差的贡献为则第一组样本方差由前 r 个典型变量解释的比例为:第二组样本方差由前 r 个典型变量解释的比例为:3、典型变量的解释有什么具体方法实际意义是什么答:主要使用三种方法:1典型权重标准相关系数:传统的解释典型函数的方法包括观察每个原始变量在它的典型变量中的典型权重,即标准化相关系数StandardizedCanonical Coefficients 的符号和大小;有较大的典型权重,则说明原始变量对它的典型变量的贡献较大,反之则相反;原始变量的典型权重有相反的符号说明变量之间存在一种反面关系,反之则有正面关系;但是这种解释遭到了很多批评;这些问题说明在解释典型相关的时候应慎用典型权重;(2)典型载荷结构系数:由于典型载荷逐步成为解释典型相关分析结果的基础;典型载荷分析,即典型结构分析Canonical Structure Analyse,是原始变量自变量或者因变量与它的典型变量间的简单线性相关系数;典型载荷反映原始变量与典型变量的共同方差,它的解释类似于因子载荷,就是每个原始变量对典型函数的相对贡献;(3)典型交叉载荷交叉结构系数:它的提出时作为典型载荷的替代,也属于典型结构分析;计算典型交叉载荷包括每个原始因变量与自变量典型变量直接相关,反之亦然;交叉载荷提供了一个更直接地测量因变量组与自变量组之间的关系的指标;实际意义:即使典型相关系数在统计上是显着的,典型根和冗余系数大小也是可接受的,研究者仍需对结果做大量的解释;这些解释包括研究典型函数中原始变量的相对重要性;4.、略。

多元统计分析思考题答案

多元统计分析思考题答案

《多元统计分析》思考题答案记得老师课堂上说过考试内容不会超出这九道思考题,如下九道题题目中有错误的或不清楚的地方,欢迎大家指出、更改、补充。

1、 简述信度分析答题提示:要答可靠度概念,可靠度度量,克朗巴哈α系数、拆半系数、单项与总体相关系数、稀释相关系数等(至少要答四个系数,至少要给出两个指标的公式)答:信度(Reliability )即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。

信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。

信度分析的方法主要有以下四种:1)、重测信度法这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。

重测信度属于稳定系数。

重测信度法特别适用于事实式问卷,如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。

由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。

2)、复本信度法复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。

复本信度属于等值系数。

复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。

3)、折半信度法折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。

折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。

这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。

在问卷调查中,态度测量最常见的形式是5级李克特(Likert )量表。

进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数。

多元统计分析课后练习答案

多元统计分析课后练习答案

多元统计分析课后练习答案第1章多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化就是将数据按比例翻转,并使之掉入一个大的特定区间。

在某些比较和评价的指标处置中经常可以使用,除去数据的单位管制,将其转变为无量纲的纯数值,易于相同单位或量级的指标能展开比较和平均值。

其中最典型的就是0-1标准化和z标准化。

2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也表示欧几里得度量、欧几里得度量,就是一个通常使用的距离定义,它就是在m维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。

当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点:误导了变化微小的变量的促进作用。

受到协方差矩阵不稳定的影响,马氏距离并不总是能够成功排序出来。

3、当变量x1和x2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计数据距离区别于欧式距离,此距离必须倚赖样本的方差和协方差,能彰显各变量在变差大小上的相同,以及优势存有的相关性,还建议距离与各变量所用的单位毫无关系。

(完整版)多元统计分析课后练习答案

(完整版)多元统计分析课后练习答案

第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z 标准化。

2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。

当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点:夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

多元统计分析思考题

多元统计分析思考题

《多元统计分析思考题》第一章回归分析1、回归分析是怎样的一种统计方法,用来解决什么问题?2、线性回归模型中线性关系指的是什么变量之间的关系?自变量与因变量之间一定是线性关系形式才能做线性回归吗?为什么?3、实际应用中,如何设定回归方程的形式?4、多元线性回归理论模型中,每个系数(偏回归系数)的含义是什么?5、经验回归模型中,参数是如何确定的?有哪些评判参数估计的统计标准?最小二乘估计两有哪些统计性质?要想获得理想的参数估计值,需要注意一些什么问题?6、理论回归模型中的随机误差项的实际意义是什么?为什么要在回归模型中加入随机误差项?建立回归模型时,对随机误差项作了哪些假定?这些假定的实际意义是什么?7、建立自变量与因变量的回归模型,是否意味着他们之间存在因果关系?为什么?8、回归分析中,为什么要作假设检验?检验依据的统计原理是什么?检验的过程是怎样的?9、回归诊断可以大致确定哪些问题?回归分析有哪些基本假定?如果实际应用中不满足这些假定,将可能引起怎样的后果?如何检验实际应用问题是否满足这些假定?对于各种不满足假定的情形,分别采用哪些改进方法?10、回归分析中的R2有何意义?它能用来衡量模型优劣吗?11、如何确定回归分析中变量之间的交互作用?存在交互作用时,偏回归系数的意义与不存在交互作用的情形下是否相同?为什么?12、有哪些确定最优回归模型的准则?如何选择回归变量?13、在怎样的情况下需要建立标准化的回归模型?标准化回归模型与非标准化模型有何关系?形式有否不同?14、利用回归方法解决实际问题的大致步骤是怎样的?15、你能够利用哪些软件实现进行回归分析?能否解释全部的软件输出结果?第二章判别分析1、判别分析的目的是什么?2、有哪些常用的判别分析方法?这些方法的基本原理或步骤是怎样的?它们各有什么特点或优劣之处?3、判别分析与回归分析有何异同之处?4、判别分析对变量与样本规模有何要求?5、如何度量判别效果?有哪些影响判别效果的因素?6、逐步判别是如何选择判别变量的?基本思想或步骤是什么?7、判别分析有哪些现实应用?举例说明。

多元统计分析课后练习答案

多元统计分析课后练习答案

第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z 标准化。

2、欧氏距离与马氏距离的优缺点是什么欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。

当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点:夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

多元统计分析课后练习答案

多元统计分析课后练习答案

第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理数据的标准化是将数据按比例缩放,使之落入一个小的特定区间;在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权;其中最典型的就是0-1标准化和Z 标准化;2、欧氏距离与马氏距离的优缺点是什么欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离;在二维和三维空间中的欧氏距离的就是两点之间的距离;缺点:就大部分统计问题而言,欧氏距离是不能令人满意的;每个坐标对欧氏距离的贡献是同等的;当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离;当各个分量为不同性质的量时,“距离”的大小与指标的单位有关;它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求;没有考虑到总体变异对距离远近的影响;马氏距离表示数据的协方差距离;为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离;优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据计算出的二点之间的马氏距离相同;马氏距离还可以排除变量之间的相关性的干扰; 缺点:夸大了变化微小的变量的作用;受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出;3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关;如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离;4、如果正态随机向量12(,,)p X X X X '=的协方差阵为对角阵,证明X 的分量是相互独立的随机变量;解: 因为12(,,)p X X X X '=的密度函数为 又由于21222p σσσ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭Σ 则1(,...,)p f x x则其分量是相互独立;5.1y 和2y 是相互独立的随机变量,且1y ~)1,0(N ,2y ~)4,3(N ;(a )求21y 的分布;(b )如果⎥⎦⎤⎢⎣⎡-=2/)3(21y y y ,写出y y '关于1y 与2y 的表达式,并写出y y '的分布;(c )如果⎥⎦⎤⎢⎣⎡=21y y y 且y ~∑),(μN ,写出∑-'1y y 关于1y 与2y 的表达式,并写出∑-'1y y 的分布;解:a 由于1y ~)1,0(N ,所以1y ~)1(2χ;b 由于1y ~)1,0(N ,2y ~)4,3(N ;所以232-y ~)1,0(N ;故2221)23(-+='y y y y ,且y y '~)2(2χ 第2章 均值向量和协方差阵的检验1、略2、试谈Wilks 统计量在多元方差分析中的重要意义;3、题目此略多元均值检验,从题意知道,容量为9的样本 ,总体协方差未知假设H0:0μμ= , H1:0μμ≠ n=9 p=5检验统计量/n-1)()(0102μμ-'-=-X S X n T 服从P,n-1的2T 分布 统计量2T 实际上是样本均值与已知总体均值之间的马氏距离再乘以nn-1,这个值越大,相等的可能性越小,备择假设成立时,2T 有变大的趋势,所以拒绝域选择2T 值较大的右侧部分,也可以转变为F 统计量零假设的拒绝区域 {n-p/n-1p}2T >,()p n p F α-1/102T >F5,45μ0= 2972 ’样本均值 ’样本均值-μ0’= Inter-Item Covariance Matrix人均GDP 元 三产比重% 人均消费元 人口增长% 文盲半文盲% 人均GDP 元三产比重%人均消费元人口增长%文盲半文盲%协方差的逆矩阵计算:2T=9s^-1 ’F统计量=> 拒绝零假设,边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显着差异;4、略第3章聚类分析1.、聚类分析的基本思想和功能是什么聚类分析的基本思想是研究的样品或指标之间存着程度不同的相似性,于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另外一类,直到把所有的样品聚合完毕,形成一个有小到大的分类系统,最后再把整个分类系统画成一张分群图,用它把所有样品间的亲疏关系表示出来;功能是把相似的研究对象归类;2、试述系统聚类法的原理和具体步骤;系统聚类是将每个样品分成若干类的方法,其基本思想是先将各个样品各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止;具体步骤:1、对数据进行变换处理;不是必须的,当数量级相差很大或指标变量具有不同单位时是必要的2、构造n个类,每个类只包含一个样本;3、计算n个样本两两间的距离ijd;4、合并距离最近的两类为一新类;5、计算新类与当前各类的距离,若类的个数等于1,转到6;否则回4;6、画聚类图;7、决定类的个数,从而得出分类结果;3、试述K-均值聚类的方法原理;K-均值法是一种非谱系聚类法,把每个样品聚集到其最近形心均值类中,它是把样品聚集成K 个类的集合,类的个数k可以预先给定或者在聚类过程中确定,该方法应用于比系统聚类法大得多的数据组;步骤是把样品分为K个初始类,进行修改,逐个分派样品到期最近均值的类中通常采用标准化数据或非标准化数据计算欧氏距离重新计算接受新样品的类和失去样品的类的形心;重复这一步直到各类无元素进出;4、试述模糊聚类的思想方法;模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性,通过建立模糊相似关系对客观事物进行聚类的分析方法,实质是根据研究对象本身的属性构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系;基本思想是要把需要识别的事物与模板进行模糊比较,从而得到所属的类别;简单地说,模糊聚类事先不知道具体的分类类别,而模糊识别是在已知分类的情况下进行的;模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面;它有两种基本方法:系统聚类法和逐步聚类法;该方法多用于定性变量的分类;5、略第4章判别分析1、应用判别分析应该具备什么样的条件答:判别分析最基本的要求是,分组类型在两组以上,每组案例的规模必须至少在一个以上,解释变量必须是可测量的,才能够计算其平均值和方差;对于判别分析有三个假设:1每一个判别变量不能是其他判别变量的线性组合;有时一个判别变量与另外的判别变量高度相关,或与其的线性组合高度相关,也就是多重共线性;2各组变量的协方差矩阵相等;判别分析最简单和最常用的的形式是采用现行判别函数,他们是判别变量的简单线性组合,在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显着性检验;3各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布,在这种条件下可以精确计算显着性检验值和分组归属的概率;2、试述贝叶斯判别法的思路;答:贝叶斯判别法的思路是先假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识先验概率分布,得到后验概率分布,各种统计推断都通过后验概率分布来进行;将贝叶斯判别方法用于判别分析,就得到贝叶斯判别;3、试述费歇判别法的基本思想;答:费歇判别法的基本思想是将高维数据点投影到低维空间上来,然而利用方差分析的思想选出一个最优的投影方向;因此,严格的说费歇判别分析本身不是一种判别方法,只是利用费歇统计量进行数据预处理的方法,以使更有利于用判别分析方法解决问题;为了有利于判别,我们选择投影方向a 应使投影后的k个一元总体能尽量分开同一总体中的样品的投影值尽量靠近;k要做到这一点,只要投影后的k个一元总体均值有显着差异,即可利用方差分析的方法使组间平方和尽可能的大;则选取投影方向a使Δa达极大即可;4、什么是逐步判别分析答:具有筛选变量能力的判别方法称为逐步判别分析法;逐步判别分析法就是先从所有因子中挑选一个具有最显着判别能力的因子,然后再挑选第二个因子,这因子是在第一因子的基础上具有最显着判别能力的因子,即第一个和第二个因子联合起来有显着判别能力的因子;接着挑选第三个因子,这因子是在第一、第二因子的基础上具有最显着判别能力的因子;由于因子之间的相互关系,当引进了新的因子之后,会使原来已引入的因子失去显着判别能力;因此,在引入第三个因子之后就要先检验已经引入的因子是否还具有显着判别能力,如果有就要剔除这个不显着的因子;接着再继续引入,直到再没有显着能力的因子可剔除为止,最后利用已选中的变量建立判别函数;5、简要叙述判别分析的步骤及流程答:1研究问题:选择对象,评估一个多元问题各组的差异,将观测个体归类,确定组与组之间的判别函数;2设计要点:选择解释变量,样本量的考虑,建立分析样本的保留样本;3假定:解释变量的正态性,线性关系,解释变量间不存在多重共线性,协方差阵相等;4估计判别函数:联立估计或逐步估计,判别函数的显着性;5使用分类矩阵评估预测的精度:确定最优临界得分,确定准则来评估判对比率,预测精确的统计显着性;6判别函数的解释:需要多少个函数;评价单个函数主要从判别权重、判别载荷、偏F值几个方面;评价两个以上的判别函数,分为评价判别的函数和评价合并的函数;7判别结果的验证:分开样本或交叉验证,刻画组间的差异;6、略第5章主成分分析1、主成分的基本思想是什么在对某一事物进行实证研究时,为更全面、准确地反映事物的特征及其发展规律,往往考虑与其有关的多个指标,在多元统计中也称为变量;一方避免遗漏重要信息而考虑尽可能多的指标看,另一方面考虑指标的增多,又难以避免信息重叠;希望涉及的变量少,而得到的信息量有较多;主成分的基本思想是研究如何通过原来的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法;研究某一问题涉及的众多变量之间有一定的相关性,必然存在着支配作用的公共因素;通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个无关的综合指标主成分来代替原来的指标;通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标;最经典的做法就是用F1选取的第一个线性组合,即第一个综合指标的方差来表达,即VarF1越大,表示F1包含的信息越多;因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分,如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求CovF1,F2=0则称F2为第二主成分,依此类推可以构造出第三、第四······,第P个主成分;2、主成分在应用中的主要作用是什么作用:利用原始变量的线性组合形成几个综合指标主成分,在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾;通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量数据进行定量分析,解释变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入;主成分分析能降低所研究的数据空间的维数,有时可通过因子载荷aij的结论,弄清X变量间的某些关系,多维数据的一种图形表示方法,用主成分分析筛选变量,可以用较少的计算量来选择,获得选择最佳变量子集合的效果;3.由协方差阵出发和由相关阵出发求主成分有什么不同1由协方差阵出发设随即向量X=X1,X2,X3,……Xp’的协方差矩阵为Σ,1≥2≥……≥p为Σ的特征值,γ1,γ2,……γp为矩阵A各特征值对应的标准正交特征向量,则第i个主成分为Yi=γ1iX1+γ2iX2+……+γpiXp,i=1,2,……,p此时VARYi=i,COVYi,Yj=0,i≠j我们把X1,X2,X3,……Xp的协方差矩阵Σ的非零特征根1≥2≥……≥p>0向量对应的标准化特征向量γ1,γ2,……γp分别作为系数向量,Y1=γ1’X, Y2=γ2’X,……, Yp=γp’X分别称为随即向量X的第一主成分,第二主成分……第p主成分;Y的分量Y1,Y2,……,Yp依次是X的第一主成分、第二主成分……第p主成分的充分必要条件是:1Y=P’X,即P为p阶正交阵,2Y的分量之间互不相关,即DY=diag1,2,……,p,3Y的p个分量是按方差由大到小排列,即1≥2≥……≥p;2由相关阵出发对原始变量X进行标准化,Z=Σ^1/2^-1X-μ covZ=R原始变量的相关矩阵实际上就是对原始变量标准化后的协方差矩阵,因此,有相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则相一致的;λi,γi 分别表示相关阵R的特征根值与对应的标准正交特征向量,此时,求得的主成分与原始变量的关系式为:Yi=γi’Z=γi’Σ^1/2^-1X-μ在实际研究中,有时单个指标的方差对研究目的起关键作用,为了达到研究目的,此时用协方差矩阵进行主成分分析恰到好处;有些数据涉及到指标的不同度量尺度使指标方差之间不具有可比性,对于这类数据用协方差矩阵进行主成分分析也有不妥;相关系数矩阵计算主成分其优势效应仅体现在相关性大、相关指标数多的一类指标上;避免单个指标方差对主成分分析产生的负面影响,自然会想到把单个指标的方差从协方差矩阵中剥离,而相关系数矩阵恰好能达到此目的;4、略第6章 因子分析1、因子分析与主成分分析有什么本质不同答:1因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成,因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子,以及公共因子和特殊因子的线性组合;主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量绝大部分变异的几组彼此不相关的新变量2因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成分表示成各变量的线性组合3主成分分析中不需要有一些专门假设,因子分析则需要一些假设,因子分析的假设包括:各个因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关;4在因子分析中,提取主因子的方法不仅有主成分法,还有极大似然法等,基于这些不同算法得到的结果一般也不同;而主成分分析只能用主成分法提取;5主成分分析中,当给定的协方差矩阵或者相关矩阵的特征根唯一时,主成分一般是固定;而因子分析中,因子不是固定的,可以旋转得到不同的因子;6在因子分析中,因子个数需要分析者指定,结果随指定的因子数不同而不同;在主成分分析中,主成分的数量是一定的,一般有几个变量就有几个主成分; 7与主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量新的变量几乎带有原来所有变量的信息来进行后续的分析,则可以使用主成分分析;2、因子载荷ij a 的统计定义是什么它在实际问题的分析中的作用是什么答:1因子载荷ij a 的统计定义:是原始变量i X 与公共因子j F 的协方差,i X 与j F ),...,2,1;,...,2,1(m j p i ==都是均值为0,方差为1的变量,因此ij a 同时也是i X 与j F 的相关系数;(2)记),,...,2,1(...222212m j a a a g pjj j j =+++=则2j g 表示的是公共因子j F 对于X 的每一分量),...,2,1(p i X i =所提供的方差的总和,称为公共因子j F 对原始变量X 的方贡献,它是衡量公共因子相对重要性的指标;2j g 越大,表明公共因子j F 对i X 的贡献越大,或者说对X 的影响作用就越大;如果因子载荷矩阵对A 的所有的),...,2,1(2m j g j =都计算出来,并按大小排序,就可以依此提炼出最有影响的公共因子;3、略第7章 对应分析1、试述对应分析的思想方法及特点;思想:对应分析又称为相应分析,也称R —Q 分析;是因子分子基础发展起来的一种多元统计分析方法;它主要通过分析定性变量构成的列联表来揭示变量之间的关系;当我们对同一观测数据施加R 和Q 型因子分析,并分别保留两个公共因子,则是对应分析的初步;对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来;它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性;另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数主因子以及分类的依据,是一种直观、简单、方便的多元统计方法;特点:对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来;它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性;另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主z |Uz |V 要参数主因子以及分类的依据,是一种直观、简单、方便的多元统计方法;2、试述对应分析中总惯量的意义;总惯量不仅反映了行剖面集定义的各点与其重心加权距离的总和,同时与2x 统计量仅相差一个常数,而2x 统计量反映了列联表横联与纵联的相关关系,因此总惯量也反映了两个属性变量各状态之间的相关关系;对应分析就是在对总惯量信息损失最小的前提下,简化数据结构以反映两属性变量之间的相关关系;3、略第8章 典型相关分析1、试述典型相关分析的统计思想及该方法在研究实际问题中的作用;答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法;用于揭示两组变 量之间的内在联系;典型相关分析的目的是识别并量化两组变量之间的联系;将两组变量相 关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系;基本思想:1在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数; 即:XX 1, X 2, , , X p 、XX 1, X 2, , , X q 是两组相互关联的随机变量,分别在两组变量中选取若干有代表性的综合变量 U i 、Vi,使是原变量的线性组合;U i a 1X 1 a 2 X 2..... a P X P ≡ a ‘XV i b 1Y 1 b 2 Y 2 .... b q Y q ≡ b‘Y 在 D aX D bX 1 的条件下,使得 aX , bX 达到最大;2选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对;(3)如此继续下去,直到两组变量之间的相关性被提取完毕为此;其作用为:进行两组变量之间的相关性分析,用典型相关系数衡量两组变量之间的相关性;2、简述典型相关分析中冗余分析的内容及作用;答:典型型冗余分析的作用即分析每组变量提取出的典型变量所能解释的该组样本总方差的比 例,从而定量测度典型变量所包含的原始信息量;第一组变量样本的总方差为 t r R 11 p ,第二组变量样本的总方差为 t r R 22 q ;*A ˆz和*B ˆz 是样本典型相关系数矩阵,典型系数向量是矩阵的行向量, Z z z **A ˆU ˆ=,Z z z **B ˆV ˆ= 前 r 对典型变量对样本总方差的贡献为则第一组样本方差由前 r 个典型变量解释的比例为:第二组样本方差由前 r 个典型变量解释的比例为:3、典型变量的解释有什么具体方法实际意义是什么答:主要使用三种方法:1典型权重标准相关系数:传统的解释典型函数的方法包括观察每个原始变量在它的典型变量中的典型权重,即标准化相关系数Standardized Canonical Coefficients 的符号和大小;有较大的典型权重,则说明原始变量对它的典型变量的贡献较大,反之则相反;原始变量的典型权重有相反的符号说明变量之间存在一种反面关系,反之则有正面关系;但是这种解释遭到了很多批评;这些问题说明在解释典型相关的时候应慎用典型权重;(2)典型载荷结构系数:由于典型载荷逐步成为解释典型相关分析结果的基础;典型载荷分析,即典型结构分析Canonical Structure Analyse,是原始变量自变量或者因变量与它的典型变量间的简单线性相关系数;典型载荷反映原始变量与典型变量的共同方差,它的解释类似于因子载荷,就是每个原始变量对典型函数的相对贡献;(3)典型交叉载荷交叉结构系数:它的提出时作为典型载荷的替代,也属于典型结构分析;计算典型交叉载荷包括每个原始因变量与自变量典型变量直接相关,反之亦然;交叉载荷提供了一个更直接地测量因变量组与自变量组之间的关系的指标;实际意义:即使典型相关系数在统计上是显着的,典型根和冗余系数大小也是可接受的,研究者仍需对结果做大量的解释;这些解释包括研究典型函数中原始变量的相对重要性;4.、略。

多元统计分析课后练习答案

多元统计分析课后练习答案

第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z 标准化。

2、欧氏距离与马氏距离的优缺点是什么欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。

当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点:夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《多元统计分析》思考题答案记得老师课堂上说过考试内容不会超出这九道思考题, 如下九道题题目中有错误的或不清楚 的地方,欢迎大家指出、更改、补充。

1、 简述信度分析 答题提示:要答可靠度概念,可靠度度量,克朗巴哈 系数、拆半系数、单项与总体相 关系数、稀释相关系数等(至少要答四个系数,至少要给出两个指标的公式) 答:信度( Reliability )即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果 的一致性程度。

信度指标多以相关系数表示, 大致可分为三类: 稳定系数 (跨时间的一致性) 等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性) 。

信度分析的方法主要 有以下四种:1)、重测信度法这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测, 计算两次施测结果 的相关系数。

重测信度属于稳定系数。

重测信度法特别适用于事实式问卷, 如果没有突发事 件导致被调查者的态度、 意见突变, 这种方法也适用于态度、 意见式问卷。

由于重测信度法 需要对同一样本试测两次, 被调查者容易受到各种事件、 活动和他人的影响, 而且间隔时间 长短也有一定限制,因此在实施中有一定困难。

2)、复本信度法 复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。

复 本信度属于等值系数。

复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和 对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求, 因此采用这种方法者较少。

3)、折半信度法 折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信 度。

折半信度属于内在一致性系数, 测量的是两半题项得分间的一致性。

这种方法一般不适 用于事实式问卷(如年龄与性别无法相比) ,常用于态度、意见式问卷的信度分析。

在问卷 调查中,态度测量最常见的形式是 5 级李克特( Likert )量表。

进行折半信度分析时,如果 量表中含有反意题项, 应先将反意题项的得分作逆向处理, 以保证各题项得分方向的一致性, 然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数。

为了校正差异,两半测验的方差相等时,常运用斯皮尔曼 - 布朗公式( Spearman-BrownFormula ):rxx=2rhh/(1+rhh ) ,其中, rhh :两半测验的相关系数; rxx :估计或修正后的信度。

该公式可以估计增长或缩短一个测验对其信度系数的影响。

当两半测验的方差不同时, 应采 用卢伦公式( Rulon Formula )或弗拉纳根公式( Flanagan Formula )进行修正。

4)、α信度系数法Cronbach α信度系数是目前最常用的信度系数,其公式为:S i从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。

其中, nn1 i1 S XSi 2 为每一项目的方差; S X 2 为测验总分方差。

这种方法适用于态度、意见式问卷(量表)的信度分析。

2、简述多元尺度分析在你工作中的应用答:多元尺度分析(Multi-dimension Analysis)是市场研究的一种有力手段,是市场调查、分析数据的统计方法之一。

它可以通过低维空间(通常是二维空间)展示多个研究对象(比如品牌)之间的联系,利用平面距离来反映研究对象之间的相似程度。

由于多维尺度分析法通常是基于研究对象之间的相似性(距离)的,只要获得了两个研究对象之间的距离矩阵,我们就可以通过相应统计软件做出他们的相似性知觉图。

在实际应用中,距离矩阵的获得主要有两种方法:一种是采用直接的相似性评价,先对所有评价对象进行两两组合,然后要求被访者对所有的这些组合间进行直接相似性评价,这种方法我们称之为直接评价法;另一种为间接评价法,由研究人员根据事先经验,找出影响人们评价研究对象相似性的主要属性,然后对每个研究对象,让被访者对这些属性进行逐一评价,最后将所有属性作为多维空间的坐标,通过距离变换计算对象之间的距离。

多维尺度分析的主要思路是利用对被访者对研究对象的分组,来反映被访者对研究对象相似性的感知,这种方法具有一定直观合理性。

在工作中,通过多维尺度分析,可以将消费者对商品相似性的判断产生一张能够看出这些商品间相关性的图形。

例如:有十个百货商场,让消费者排列出对这些百货商场两两间相似的感知程度,根据这些数据,用多维尺度分析,可以判断消费者认为哪些商场是相似的,从而可以判断竞争对手。

用于反映多个研究事物间相似(不相似)程度,通过适当的降维方法,将这种相似(不相似)程度在低维度空间中用点与点之间的距离表示出来,并有可能帮助识别那些影响事物间相似性的潜在因素。

这种方法在市场研究中应用得非常广泛。

3、简述两个变量之间的相关分析答题提示:答什么是相关,对连续型变量用相关系数,对离散型变量用质相关系数答:相关分析(correlation analysis ),研究随机变量之间的相关关系的一种统计方法。

相关关系是一种非确定性的关系。

相关性探讨的是两变量间相关情况的的大致趋势。

相关分析涉及两个变量:应变量和自变量。

应变量(response variable)是度量研究结果的变量;自变量是解释或影响反应变量的变量。

两变量数据相关检验的步骤:一、图示两变量数据以及各个统计数字;二、查看整体状态及数据的离散情况;三、如果有较稳定的关系,就用简单的数学模式描述该关系。

对连续型变量常用相关系数刻画两个变量之间的相关性,而对离散型变量则用质相关系数。

4、 聚类和判别分析的异同答:聚类分析是把研究目标分割成为具有相同属性的小的群体。

而对观测值聚类称为 Q 型聚类。

它们在数学上是无区别的。

离,把最近的聚在一起。

这里的距离含义很广,如欧氏距离、马氏距离等距离,相似系数也 可看作为距离。

判别分析的基本思路设有 G1、G2、⋯ GK 个总体,从不同的总体中抽出不同的根据样本→建立判别法则→判别新的样品属于哪一个总体。

判别法则也是不同的。

常用的判别方法有:距离判别、判别分析和聚类分析都是分类。

其主要不同点就是, 在聚类分析中一般人们事先并不知 道或一定要明确应该分成几类,完全根据数据来确定。

而在判别分析中,至少有一个已经 明确知道类别的“训练样本”, 利用这个数据, 就可以建立判别准则, 并通过预测变量来为 未知类别的观测值进行判别了。

可以先聚类以得知类型 , 再进行判别 .5、 因子分析和主成分分析的异同答:主成分分析和因子分析是多元统计方法中关系密切的两种方法, 应用范围十分广泛, 可 以解决经济、教育、科技、社会等领域中的综合评价问题。

主成分分析采用降维的思想,将 研究对象的多个相关变量 (指标) 综合为少数几个不相关的变量, 反映原变量提供的主要信 息。

因子分析是主成分分析的推广和发展, 它将具有错综复杂关系的变量综合为数量较少的 几个因子, 以再现原始变量与因子之间的相互关系, 同时根据不同因子还可以对变量进行分 类,它属于多元分析中处理降维的一种统计方法。

但是,在许多论文中用 SPSS 进行综合分 析时, 出现这两种方法运用混淆的错误。

比如,主成分分析中对变量进行了因子旋转, 因子 分析的公因子系数错误等问题。

本文就此对主成分分析和因子分析的异同进行比较,并在 SPSS 和 DPS 软件上如何实现给予说明。

一、主成分分析与因子分析的异同点两者的相同点: 1、思想一致:都是降维的思想; 2、应用范围一致:都要求变量之间具 有不完全的相关性; 3、数据处理过程一致:数据的无量纲化,求相关系数矩阵的特征值和 特征向量,通过累计贡献率确定主成分个数、因子个数; 4、合成方法一致:都没有考虑原 始变量之间的关系,直接用线性关系处理变量与主成分和因子之间的关系。

两者的不同点: 1、方差损失上:主成分解释了原始变量的全部方差,无方差损失;因 子模型中除了有公因子外还有特殊因子,公因子只解释了部分信息,有方差损失; 2、唯一性:主成分分析不存在因子旋转,主成分是唯一的;因子分析进行因子旋转,解不唯一;3、对变量的聚类称为 R 型聚类, 聚类的基本想法:根据某种距 当然, 根据不同的方法, 建立的 Fisher 判别、 Bayes 判别。

实际意义:主成分没有实际意义;公因子有实际意义; 4、应用:主成分侧重信息贡献、影 响力综合评价;因子分析侧重成因清晰性的综合评价。

4. 主成分分析中, 当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候, 的主成分一般 是独特的;而因子分析中因子不是独特的,可以旋转得到不到的因子。

5. 在因子分析中,因子个数需要分析者指定( spss 根据一定的条件自动设定,只要是特征 值大于 1 的因子进入分析),而指定的因子数量不同而结果不同。

在主成分分析中, 成分的数量是一定的, 一般有几个变量就 有几个主成分。

和主成分分析相比, 由于因子分析可以使用旋转技术帮助解释因子, 在解释方面更加有优势。

大致说来, 当需要寻找潜在的因子, 并对这些因子进行解释的时候, 更加倾向于使用因子分 析,并且借助旋转技术帮助更好解释。

而如果想把现有的变量变成少数几个新的变量 (新的 变量几乎带有原来所有变量的信息) 来进入后续的分析, 则可以使用主成分分析。

当然,这 中情况也可以使用因子得分做到。

所以这中区分不是绝对的。

总得来说, 主成分分析主要是作为一种探索性的技术, 在分析者进行多元数据分析之前, 用 主成分分析来分析数据, 让自己对数据有一个大致的了解是非常重要的。

主成分分析一般很 少单独使用: a ,了解数据。

(screening the data ),b, 和 cluster analysis 一起使用, c ,和判别分析一起使用,比如当变量很多, 个案数不多,直接使用判别分析可能无解,这时候 可以使用主成份发对变量简化。

( reduce dimensionality ) d, 在多元回归中,主成分分析 可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。

在算法上, 主成分分析和因子分析很类似, 不过, 在因子分析中所采用的协方差矩阵的对角 元素不在是变量的方差, 而是和变量对应的共同度 (变量方差中被各因子所解释的部分。

)。

6、 系统聚类与 K-means 聚类的基本原理 答:系统聚类法基本原理和步骤为:1、先计算 n 个样本两两间的距离2、构造 n 个类,每个类只包含一个样本3、合并距离最近的两类为一新类4、计算新类与当前各类的距离1. 因子分析中是把变量表示成各因子的线性组合, 变量的线性组合。

2. 主成分分析的重点在于解释个变量的总方差, 协方差。

相关文档
最新文档