统计学课后题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章均值向量和协方差阵的检验
1、试谈willks统计量在多元方差分析中的重要意义。
2、形象分析的基本思路是什么?
形象又称轮廓图,是将总体样本的均值绘制到同一坐标轴里所得的折线图,每一个指标都表示为折线图上的一点。形象分析是将两(多)总体的形象绘制到同一个坐标下,根据形象(轮廓图)的形状对总体的均值进行比较分析。
第三章聚类分析
1、聚类分析的基本思想和功能是什么?
聚类分析的核心思想是根据具体的指标(变量)对所研究的个体或者对象进行分类,使得同一类中的对象之间的相似性比其他类的对象的相似性更强。聚类分析不仅可以用来对样品进行分类,也可以用来对变量进行分类。对样品的分类常称为Q型聚类分析,对变量的分类常称为R型的聚类分析。
聚类分析的目的或功能就是把相似的研究对象归成类,即使类间对象的同质性最大化和类与类间对象的异质性最大化。
2、试述系统聚类法的原理和具体步骤
(1)系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
(2)系统聚类的具体步骤:假设总共有N个样品(或变量)
第一步:将每个样品(或变量)独自聚成一类,共有N类;
第二步:根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其他的样品(或变量)仍各自聚为一类,共聚成N-1类;
第三步:将“距离”最近的两个类进一步聚成一类,共聚成N-2类;。。。,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。
3、试述K-均值聚类的方法原理
这种聚类方法的思想是把每个样品聚集到其最近形心(均值)类中。
首先随机从数据集中选取 K个点作为初始聚类中心,然后计算各个样本到聚类中的距离,把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数已经收敛。
4、试述模糊聚类的思想方法
模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性,通过建立模糊相似关系对客观事物进行聚类的分析方法。在模糊聚类中,每个样本不再仅属于某一类,而是以一定的隶属度属于每一类。换句话说,通过模糊聚类分析,可得到样本属于各个类别的不确定性程度,即建立起了样本对于类别的不确定性的描述,这样就更能准确地反映现实世界。
第四章判别分析
1、应用判别分析应该具备什么样的条件?
判别分析最基本的要求是:分组类型在两组以上;每组案例的规模必须至少在一个以上;解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。2、试述贝叶斯判别法的思路
思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析,就得到贝叶斯判别。
3、试述费歇判别方法的思想。
费歇判别的思想是投影,将K组P维数据投影到某一个方向,使得它们的投影组和组之间尽可能地分开。
4、什么是逐步判别分析
凡具有筛选变量能力的判别方法统称为逐步判别法。逐步判别法的基本思想是:逐步引入变量,每次引入一个"最重要"的变量,同时也检验先前引入的变量,如果先前引入的变量
其判别能力随新引入变量而变不显著,则及时将其从判别式中剔除,直到判别式中的变量都很显著,且剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。
5、简要叙述判别分析的步骤及流程。
判别分析的6个步骤过程:
(1)判别分析的对象:这一步骤主要根据判别分析的研究目的定义观测变量。(2)判别分析的研究设计:主要包括解释变量和被解释变量的选择、估计判别函数所需的样本量和为了验证目的对样本的分割。(3)假定:推导判别函数的关键假定是解释变量的多元正态性和被解释变量定义的各组的未知但相等的协方差结构。(4)估计判别模型和评估整体拟合:研究者必须确定估计的方法,然后确定保留的函数个数;根据估计的函数可用多种方法来评估模型拟合。(5)结果的解释:这个过程主要介绍在判别分析中每个解释变量的相对重要性,主要有标准化判别权重、判别载荷(结构相关系数)、偏F值三种方法确定重要性。(6)结果的验证:通常采用分割样本或者交叉验证法。
判别分析的流程:
研究问题>设计要点>假定>估计判别函数>使用分类矩阵估计预测的精度>判别函数的解释>判别结果的验证
第五章主成分分析
1、主成分的基本思想是什么
在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的
共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:
1.每一个主成分都是各原始变量的线性组合;
2.主成分的数目大大少于原始变量的数目
3.主成分保留了原始变量绝大多数信息
4.各主成分之间互不相关
通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。
2、主成分在应用中的主要作用是什么?
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
3、由协方差阵出发和由相关阵出发求主成分有什么不同?
一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,我们不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化。但是,对原始数据进行标准化处理后倾向于各个指标的作用在主成分的构成中相等。对于取值范围相差不大或是度量相同的指标进行标准化处理后,其主成分分析的结果仍与由协方差阵出发求得的结果有较大区别。其原因是由于对数据进行标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为1,而实际上方差也是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。由此看来,对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。