(完整版)多元统计分析思考题答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(完整版)多元统计分析思考题答案
《多元统计分析》思考题答案
记得⽼师课堂上说过考试内容不会超出这九道思考题,如下九道题题⽬中有错误的或不清楚的地⽅,欢迎⼤家指出、更改、补充。
1、简述信度分析
答题提⽰:要答可靠度概念,可靠度度量,克朗巴哈α系数、拆半系数、单项与总体相关系数、稀释相关系数等(⾄少要答四个系数,⾄少要给出两个指标的公式)
答:
信度(Reliability )即可靠性,它是指采⽤同样的⽅法对同⼀对象重复测量时所得结果的⼀致性程度。
信度指标多以相关系数表⽰,⼤致可分为三类:稳定系数(跨时间的⼀致性),等值系数(跨形式的⼀致性)和内在⼀致性系数(跨项⽬的⼀致性)。
信度分析的⽅法主要有以下四种:
1)、重测信度法
这⼀⽅法是⽤同样的问卷对同⼀组被调查者间隔⼀定时间重复施测,计算两次施测结果的相关系数。
重测信度属于稳定系数。
重测信度法特别适⽤于事实式问卷,如果没有突发事件导致被调查者的态度、意见突变,这种⽅法也适⽤于态度、意见式问卷。
由于重测信度法需要对同⼀样本试测两次,被调查者容易受到各种事件、活动和他⼈的影响,⽽且间隔时间长短也有⼀定限制,因此在实施中有⼀定困难。
2)、复本信度法
复本信度法是让同⼀组被调查者⼀次填答两份问卷复本,计算两个复本的相关系数。
复本信度属于等值系数。
复本信度法要求两个复本除表述⽅式不同外,在内容、格式、难度和对应题项的提问⽅向等⽅⾯要完全⼀致,⽽在实际调查中,很难使调查问卷达到这种要求,因此采⽤这种⽅法者较少。
3)、折半信度法
折半信度法是将调查项⽬分为两半,计算两半得分的相关系数,进⽽估计整个量表的信度。
折半信度属于内在⼀致性系数,测量的是两半题项得分间的⼀致性。
这种⽅法⼀般不适⽤于事实式问卷(如年龄与性别⽆法相⽐),常⽤于态度、意见式问卷的信度分析。
在问卷调查中,态度测量最常见的形式是5级李克特(Likert )量表。
进⾏折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分⽅向的⼀致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算⼆者的相关系数。
为了校正差异,两半测验的⽅差相等时,常运⽤斯⽪尔曼-布朗公式(Spearman-Brown Formula ):rxx=2rhh/(1+rhh),其中,rhh :两半测验的相关系数;rxx :估计或修正后的信度。
该公式可以估计增长或缩短⼀个测验对其信度系数的影响。
当两半测验的⽅差不同时,应采⽤卢伦公式(Rulon Formula )或弗拉纳根公式(Flanagan Formula )进⾏修正。
4)、α信度系数法
Cronbach α信度系数是⽬前最常⽤的信度系数,其公式为:
??--=∑=21211X n i i S S n n α
其中,2i S 为每⼀项⽬的⽅差;2X S 为测验总分⽅差。
从公式中可以看出,α系数评价的是量表中各题项得分间的⼀致性,属于内在⼀致性系数。
这种⽅法适⽤于态度、意见式问卷(量表)的信度分析。
2、简述多元尺度分析在你⼯作中的应⽤
答:
多元尺度分析(Multi-dimension Analysis)是市场研究的⼀种有⼒⼿段,是市场调查、分析数据的统计⽅法之⼀。
它可以通过低维空间(通常是⼆维空间)展⽰多个研究对象(⽐如品牌)之间的联系,利⽤平⾯距离来反映研究对象之间的相似程度。
由于多维尺度分析法通常是基于研究对象之间的相似性(距离)的,只要获得了两个研究对象之间的距离矩阵,我们就可以通过相应统计软件做出他们的相似性知觉图。
在实际应⽤中,距离矩阵的获得主要有两种⽅法:⼀种是采⽤直接的相似性评价,先对所有评价对象进⾏两两组合,然后要求被访者对所有的这些组合间进⾏直接相似性评价,这种⽅法我们称之为直接评价法;另⼀种为间接评价法,由研究⼈员根据事
先经验,找出影响⼈们评价研究对象相似性的主要属性,然后对每个研究对象,让被访者对这些属性进⾏逐⼀评价,最后将所有属性作为多维空间的坐标,通过距离变换计算对象之间的距离。
多维尺度分析的主要思路是利⽤对被访者对研究对象的分组,来反映被访者对研究对象相似性的感知,这种⽅法具有⼀定直观合理性。
在⼯作中,通过多维尺度分析,可以将消费者对商品相似性的判断产⽣⼀张能够看出这些商品间相关性的图形。
例如:有⼗个百货商场,让消费者排列出对这些百货商场两两间相似的感知程度,根据这些数据,⽤多维尺度分析,可以判断消费者认为哪些商场是相似的,从⽽可以判断竞争对⼿。
⽤于反映多个研究事物间相似(不相似)程度,通过适当的降维⽅法,将这种相似(不相似)程度在低维度空间中⽤点与点之间的距离表⽰出来,并有可能帮助识别那些影响事物间相似性的潜在因素。
这种⽅法在市场研究中应⽤得⾮常⼴泛。
3、简述两个变量之间的相关分析
答题提⽰:答什么是相关,对连续型变量⽤相关系数,对离散型变量⽤质相关系数
答:
相关分析(correlation analysis),研究随机变量之间的相关关系的⼀种统计⽅法。
相关关系是⼀种⾮确定性的关系。
相关性探讨的是两变量间相关情况的的⼤致趋势。
相关分析涉及两个变量:应变量和⾃变量。
应变量(response variable)是度量研究结果的变量;⾃变量是解释或影响反应变量的变量。
两变量数据相关检验的步骤:⼀、图⽰两变量数据以及各个统计数字;⼆、查看整体状态及数据的离散情况;三、如果有较稳定的关系,就⽤简单的数学模式描述该关系。
对连续型变量常⽤相关系数刻画两个变量之间的相关性,⽽对离散型变量则⽤质相关系数。
4、聚类和判别分析的异同
答:聚类分析是把研究⽬标分割成为具有相同属性的⼩的群体。
对变量的聚类称为R型聚类,⽽对观测值聚类称为Q型聚类。
它们在数学上是⽆区别的。
聚类的基本想法:根据某种距离,把最近的聚在⼀起。
这⾥的距离含义很⼴,如欧⽒距离、马⽒距离等距离,相似系数也可看作为距离。
判别分析的基本思路是:设有G1、G2、…GK个总体,从不同的总体中抽出不同的样本,根据样本→建⽴判别法则→判别新的样品属于哪⼀个总体。
当然,根据不同的⽅法,建⽴的判别法则也是不同的。
常⽤的判别⽅法有:距离判别、Fisher判别、Bayes判别。
判别分析和聚类分析都是分类。
其主要不同点就是,在聚类分析中⼀般⼈们事先并不知道或⼀定要明确应该分成⼏类,完全根据数据来确定。
⽽在判别分析中,⾄少有⼀个已经明确知道类别的“训练样本”,利⽤这个数据,就可以建⽴判别准则,并通过预测变量来为未知类别的观测值进⾏判别了。
可以先聚类以得知类型,再进⾏判别.
5、因⼦分析和主成分分析的异同
答:主成分分析和因⼦分析是多元统计⽅法中关系密切的两种⽅法,应⽤范围⼗分⼴泛,可以解决经济、教育、科技、社会等领域中的综合评价问题。
主成分分析采⽤降维的思想,将研究对象的多个相关变量(指标)综合为少数⼏个不相关的变量,反映原变量提供的主要信息。
因⼦分析是主成分分析的推⼴和发展,它将具有错综复杂关系的变量综合为数量较少的⼏个因⼦,以再现原始变量与因⼦之间的相互关系,同时根据不同因⼦还可以对变量进⾏分类,它属于多元分析中处理降维的⼀种统计⽅法。
但是,在许多论⽂中⽤SPSS进⾏综合分析时,出现这两种⽅法运⽤混淆的错误。
⽐如,主成分分析中对变量进⾏了因⼦旋转,因⼦分析的公因⼦系数错误等问题。
本⽂就此对主成分分析和因⼦分析的异同进⾏⽐较,并在SPSS和DPS软件上如何实现给予说明。
⼀、主成分分析与因⼦分析的异同点
两者的相同点:1、思想⼀致:都是降维的思想;2、应⽤范围⼀致:都要求变量之间具有不完全的相关性;3、数据处理过程⼀致:数据的⽆量纲化,求相关系数矩阵的特征值和特征向量,通过累计贡献率确定主成分个数、因⼦个数;4、合成⽅法⼀致:都没有考虑原始变量之间的关系,直接⽤线性关系处理变量与主成分和因⼦之间的关系。
两者的不同点:1、⽅差损失上:主成分解释了原始变量的全部⽅差,⽆⽅差损失;因⼦模型中除了有公因⼦外还有特殊因⼦,公因⼦只解释了部分信息,有⽅差损失;2、唯⼀性:主成分分析不存在因⼦旋转,主成分是唯⼀的;因⼦分析进⾏因⼦旋转,解不唯⼀;3、
实际意义:主成分没有实际意义;公因⼦有实际意义;4、应⽤:主成分侧重信息贡献、影响⼒综合评价;因⼦分析侧重成因清晰性的综合评价。
1.因⼦分析中是把变量表⽰成各因⼦的线性组合,⽽主成分分析中则是把主成分表⽰成⼏个变量的线性组合。
2.主成分分析的重点在于解释个变量的总⽅差,⽽因⼦分析则把重点放在解释各变量之间的协⽅差。
3.主成分分析中不需要有假设(assumptions),因⼦分析则需要⼀些假设。
因⼦分析的假设包括:各个共同因⼦之间不相关,特殊因⼦(specific factor)之间也不相关,共同因⼦和特殊因⼦之间也不相关。
4.主成分分析中,当给定的协⽅差矩阵或者相关矩阵的特征值是唯⼀的时候,的主成分⼀般是独特的;⽽因⼦分析中因⼦不是独特的,可以旋转得到不到的因⼦。
5.在因⼦分析中,因⼦个数需要分析者指定(spss根据⼀定的条件⾃动设定,只要是特征值⼤于1的因⼦进⼊分析),⽽指
定的因⼦数量不同⽽结果不同。
在主成分分析中,成分的数量是⼀定的,⼀般有⼏个变量就有⼏个主成分。
和主成分分析相⽐,由于因⼦分析可以使⽤旋转技术帮助解释因⼦,在解释⽅⾯更加有优势。
⼤致说来,当需要寻找潜在的因⼦,并对这些因⼦进⾏解释的时候,更加倾向于使⽤因⼦分析,并且借助旋转技术帮助更好解释。
⽽如果想把现有的变量变成少数⼏个新的变量(新的变量⼏乎带有原来所有变量的信息)来进⼊后续的分析,则可以使⽤主成分分析。
当然,这中情况也可以使⽤因⼦得分做到。
所以这中区分不是绝对的。
总得来说,主成分分析主要是作为⼀种探索性的技术,在分析者进⾏多元数据分析之前,⽤主成分分析来分析数据,让⾃⼰对数据有⼀个⼤致的了解是⾮常重要的。
主成分分析⼀般很少单独使⽤:a,了解数据。
(screening the data),b,和cluster analysis⼀起使⽤,c,和判别分析⼀起使⽤,⽐如当变量很多,个案数不多,直接使⽤判别分析可能⽆解,这时候可以使⽤主成份发对变量简化。
(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以⽤来处理共线性。
在算法上,主成分分析和因⼦分析很类似,不过,在因⼦分析中所采⽤的协⽅差矩阵的对⾓元素不在是变量的⽅差,⽽是和变量对应的共同度(变量⽅差中被各因⼦所解释的部分。
)。
6、系统聚类与K-means聚类的基本原理
答:
系统聚类法基本原理和步骤为:
1、先计算n个样本两两间的距离
2、构造n个类,每个类只包含⼀个样本
3、合并距离最近的两类为⼀新类
4、计算新类与当前各类的距离
5、类的个数是否等于1,如果不等于回到3在做
6、画出聚类图
7、决定分类个数和类
K-means聚类的基本原理:
聚类可以⾛着瞧,不⼀定事先确定有多少类;但是K-means聚类却要求先说好要分多少类。
看起来有些主观。
假定分3类,这个⽅法还进⼀步要求你事先确定3个点为“聚类种⼦”(多数软件会⾃动选种⼦);也就是说,把这3个点作为三类中每⼀类的基⽯。
然后根据和这三个点的距离远近,把所有点分成三类。
再把这三类的中⼼(均值)作为新的基⽯或种⼦(原来“种⼦”就没⽤了),再重新按照距离分类。
如此叠代下去,直到达到停⽌叠代的要求(⽐如,各类最后变化不⼤了,或者叠代次数太多了)。
显然,前⾯的聚类种⼦的选择并不必太认真,它们很可能最后还会分到同⼀类中呢。
7、Fisher判别和贝叶斯判别的基本原理
答:
Fisher判别法是⼀种先投影的⽅法。
使多维问题简化为⼀维问题来处理。
选择⼀个适当的投影轴,使所有的样品点都投影到这个轴上得到⼀个投影值。
对这个投影轴的⽅向的要求是:使每⼀类内的投影值所形成的类内离差尽可能⼩,⽽不同类间的投影值所形成的类间离差尽可能⼤。
进⾏投影后,再根据距离判别思想由距离的远近得到判别准则,从⽽进⾏判别分析。
贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。
所谓先验概率,就是⽤概率来描述⼈们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。
它是对先验概率修正后的结果。
8、举例说明你在⼯作中如何应⽤主成分分析和因⼦分析
(因主成分分析有什么什么缺点,可⽤因⼦分析什么什么旋转……)
答:
主成分分析:将多个变量通过线性变换以选出较少个数重要变量的⼀种多元统计分析⽅法。
在分析问题的时候,往往提出很多有关的变量来描述⼀个事物,在宏观经济研究领域中,表述国家基本经济⾯貌的时有很多指标,如⼈⼝、国⼟⾯积、公路⾥程、GDP、财政收⼊等等。
在对⼈的描述的时候,有⾝⾼、体重、学历、年龄、⼯作等多项可直接测量的指标。
众多的指标中,有很多是相互关联的,不能清晰的反应数据问题,⼈们希望能将这些指标进⾏⾼度概括,⽤有限的指标精炼的概括,清晰地反应数据全貌。
将原有变量重新组合成⼏个相
互⽆关的新变量,同时根据实际从中选出较少的变量尽可能多地反映原有变量统计信息,在数学上也叫做降维处理。
当我们展开区域竞争⼒研究的时候,可以利⽤主成分分析法。
⾸先要根据区域竞争⼒选择适合的指标体系,以综合竞争⼒开展的研究的指标体系如:国内⽣产总值(GDP)、第三产业⽐重、⼯业占第⼆产业⽐重、邮电业务总量、⽤电量、全社会固定资产投资、外商直接投资、科学研究等。
取得31个省(市、⾃治区)的数据。
对原始指标数据的标准化采集p 维随机向量x = (X1,X2,...,Xp)T),31个样品xi = (xi1,xi2,...,xip)T ,i=1,2, (31)
由于指标间量纲不同,将数据进⾏标准化操作。
求的相关系数矩阵R的特征⽅程及p个特征根,及特征向量。
将标准化的指标量转化成主成分,并根据特征根的⼤⼩确定主成分贡献率,将前n个主成分累计贡献率超过85%对各个样本的权系数重新组合,计算各个样本在n个主成分上的得分,根据得分将不同地区划成不同的组合,这样就可以将原有因指标众多⽽⽆法分清的地区间区别,可以通过有限个主成分将各地区区分出来,将竞争⼒相近的地区主成分得分基本靠近,⼏何做图的意义是,在主轴上的各样本点分别集中在各⾃的主轴附近。
进⼀步分析各个主轴的经济学含义。
完成主成分分析。
因⼦分析:它的⽬的在于研究原始变量的内部关系,通过寻找变量的共同因素来简化和分析变量中存在的复杂关系。
它把每个变量分解为两部分因素,⼀部分是由这些变量内含的共同因素所构成,即所谓公共因素部分,另⼀部分是每个变量各种独有的因素,即所谓独特因素或单⼀因素部分。
仍然沿⽤对地区竞争⼒分析的案例,由于根据主成分分析得到的n个主成分,将多个指标投影到少量的主成分之上,简化了数据结构,但仍然⽆法明确主成分的含义,也⽆法明确指标间的关系。
这样利⽤因⼦分析,将各个变量中的公共因⼦找到,也就是造成地区间竞争⼒不同的的共性因素,同时找到各地区不同的独特因素。
⾸先对各省数据进⾏标准化处理。
根据正交因⼦模型:X=µ+A*F+ε,其中F为X的公共因⼦,ε为X的特殊因⼦,A为因⼦载荷矩阵。
根据标准化数据计算协⽅差阵,并且求的其特征根和标准化特征向量,确定m
个⽅差累积贡献率达到85%以上的公因⼦个数。
由于公因⼦解不唯⼀,为了取得更好对公因⼦的经济学解释,对公因⼦进⾏⽅差最⼤的正交旋转,将各列载荷向0或1两极⽅向分化,将⼤⼤有利于对公因⼦进⾏解释。
本案例中,得到2个公因⼦,gdp等指标在第⼀公因⼦上的载荷⽐较⾼,可以将第⼀公因⼦解释为经济层⾯的硬件因素,⽽教育投⼊、科研投⼊等指标在第⼆公因⼦上载荷较⾼,可以将第⼆公因⼦解释为软件因素。
最后还可以将公因⼦反过来表⽰为不同变量的线性组合,即得到每个样本(每个省)的因⼦得分,来判断各个省在两个公因⼦的得分情况,清晰的看到有些省份在两个公因⼦的得分都很到,有的部分得分⾼,有的都很低,体现出东、中、西部的差距,与⼈们普遍感受是⼀致的。
同时根据地区间差距,找到具体得分差在哪⾥,对今后该地区提⾼综合竞争⼒有很好的指导意义。
9、给定典型相关系数运⾏结果,解读结果。
提问内容涉及(记不全了):canonical R系数,P值,给定right side能解释left side 百分
之多少信息,redundancy残差,Variance Extracted⾃⾝解释⾃⾝
答:
答题思路解释(注重理解):对于给定如下图1或图2或类似的典型相关系数运⾏结果,解读各个结果参数代表的意义。
在图1或图2中可以看出,canonical R系数(典型相关系数)为0.88471, 卡⽅检验结果说明该系数⾼度显著(p<0.0001),也就是说两组变量间有很强的相关关系。
提取的⽅差(Variance Extracted)表明所有的典型变量提取了第⼀组观测变量中100%的⽅差,提取了第⼆组观测变量中54%的⽅差.
第⼀组变量的总冗余度(Total redundancy)是61.5661%,表明第⼆组典型变量(right side)可以解释第⼀组观测变量(left side)的62%的变异度; 第⼆组变量的总冗余度是33.2973%,表明第⼀组典型变量(left side)可以解释第⼆组观测变量(right side)的33%的变异度。
说明第⼆组变量对第⼀组变量的影响更⼤。
图1
图2。