(整理)多元统计分析思考题.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《多元统计分析思考题》
第一章回归分析
1、回归分析是怎样的一种统计方法,用来解决什么问题?
概念:回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
解决的问题:自变量对因变量的影响程度、方向、形式
2、线性回归模型中线性关系指的是什么变量之间的关系?自变量与因变量之间一定是线
性关系形式才能做线性回归吗?为什么?
3、实际应用中,如何设定回归方程的形式?
4、多元线性回归理论模型中,每个系数(偏回归系数)的含义是什么?
5、经验回归模型中,参数是如何确定的?有哪些评判参数估计的统计标准?最小二乘估
计两有哪些统计性质?要想获得理想的参数估计值,需要注意一些什么问题?
6、理论回归模型中的随机误差项的实际意义是什么?为什么要在回归模型中加入随机误
差项?建立回归模型时,对随机误差项作了哪些假定?这些假定的实际意义是什么?
7、建立自变量与因变量的回归模型,是否意味着他们之间存在因果关系?为什么?
8、回归分析中,为什么要作假设检验?检验依据的统计原理是什么?检验的过程是怎样
的?
9、回归诊断可以大致确定哪些问题?回归分析有哪些基本假定?如果实际应用中不满足
这些假定,将可能引起怎样的后果?如何检验实际应用问题是否满足这些假定?对于各种不满足假定的情形,分别采用哪些改进方法?
10、回归分析中的R2有何意义?它能用来衡量模型优劣吗?
11、如何确定回归分析中变量之间的交互作用?存在交互作用时,偏回归系数的意义与不
存在交互作用的情形下是否相同?为什么?
12、有哪些确定最优回归模型的准则?如何选择回归变量?
13、在怎样的情况下需要建立标准化的回归模型?标准化回归模型与非标准化模型有何
关系?形式有否不同?
14、利用回归方法解决实际问题的大致步骤是怎样的?
15、你能够利用哪些软件实现进行回归分析?能否解释全部的软件输出结果?
第二章判别分析
1、判别分析的目的是什么?
根据分类对象个体的某些特征或指标来判断其属于已知的某个类中的哪一类。
2、有哪些常用的判别分析方法?这些方法的基本原理或步骤是怎样的?它们各有什么特
点或优劣之处?
3、判别分析与回归分析有何异同之处?
4、判别分析对变量与样本规模有何要求?
5、如何度量判别效果?有哪些影响判别效果的因素?
6、逐步判别是如何选择判别变量的?基本思想或步骤是什么?
7、判别分析有哪些现实应用?举例说明。
第三章聚类分析
1、聚类分析的目的是什么?与判别分析有何异同?这种方法有哪些局限或欠缺?
目的:把分类对象按照一定的规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。
异同:判别分析事先知道“训练样本”,而聚类分析不给定分几类。
局限:聚类分析依赖于对观测间的接近程度或相似程度的理解,定义不同的距离量度和相似程度就可以产生不同的聚类结果。
2、有哪些常用的聚类统计量?
Q型聚类统计量(根据样品的距离),R型聚类统计量(根据变量即相似系数)
3、系统(谱系)聚类法的基本思想是怎样的?它包含哪些具体方法?
思想:先将待聚类的n个样品(或变量)各自看成一类,共有n类;然后按照事先选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最密切的两类并为一类,其余不变,即得n-1类;在按前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最密切的两类并为一类,其余不变,的n-2类;如此继续下去,每次重复都减少一类,直到最后所有样品(或变量)归为一类为止。
方法:最短距离法,最大距离法,中间距离法,重心法,类平均法,离差平方和法。
步骤:1、n个样品(或变量)个自成一类,一共有n类,计算两两之间的距离,显然D(Gp,Gq)=d pq,构成一个对称阵D(0)=(d ij)n*n,其对角线上的元素全为零。
2、选择D(0)对角线元素以外的上(或者下)三角部分的最小元素,设其为D(Gp,Gq),
与其下标相对应,将类Gp和Gq合并成一个新类,记作Gr,计算新类Gr与其他类Gk(k非p、q)之间的距离。
3、在D(0)中划去与Gp和Gq所对应的两行和两列,并加入Gr与其他各类之间的
距离所组成的一行和一列,得到新的n-1阶对称距离矩阵D(1)
4、由D(1)出发,重复步骤二、步骤三得到对称矩阵D(2),;再由D(2)出发,重复步
骤二、步骤三得到对称矩阵D(3),…..,以此类推,直到n个样品(或者变量)聚为一个大类位置。
4、聚类分析对变量与样本规模有何要求?有哪些因素影响分类效果?要想减少不利因素
的影响,可以采取哪些改进方法?
5、实际应用问题,如何确定分类数目?
6、快速聚类法(K—均值法)的基本思想或步骤是怎样的?
思想:在待聚类的样品比较时,先给出一个大致的初始分类,然后用某种原则进行修改,直到分类结果比较合理为止。
步骤:
7、有序样品的最优分别法的基本思想或步骤是怎样的?
最优二分割或三分割
8、应用聚类分析解决实际问题的基本步骤是怎样的?应该注意哪些方面的问题?
第四章主成分分析与典型相关分析
1、主成分分析的基本思想是什么?在低维情况下,如何利用几何图形解释主成分的意
义?
2、什么是主成分的贡献率与累计贡献率?实际应用时,如何确定主成分的个数?
3、主成分有哪些基本性质?
4、对于任何情形的多个变量,都可以采取主成分方法降维吗?为什么?
5、怎样的情况下需要计算标准化的主成分?
6、主成分有哪些应用?
7、如何解释主成分的实际含义?
8、
9、典型相关分析的基本思想是什么?有何实际用途?
10、典型相关分析与回归分析、判别分析、主成分分析、因子分析有何关联?试比较这
些方法的异同之处。
10、典型相关分析有哪些基本假定?
11、如何解释典型相关函数的实际意义?
12、典型相关方法中冗余度分析的意义是什么?
第五章
第六章因子分析与对应分析
1、
2、因子分析是怎样的一种统计方法?它的基本目的和用途是什么?
3、因子分子中的KMO统计量与巴特莱特球形性检验的目的是什么?
4、因子分析有哪些类型?它们有何区别?Q型因子分析与聚类分析有何异同?
5、
6、因子分析中的变量类型是怎样的?因子分析对变量数目有没有要求?对样本规模有
没有要求?
7、因子分析有怎样的基本假定?对样本特点(或性质)有何要求?
8、因子分析模型中,因子载荷、变量共同度、方差贡献等统计量的统计意义是什么?
9、因子分析与主成分分析有何区别与联系?它们分别适用于怎样的情况?
10、
11、如何确定公共因子数目?如何解释公共因子的实际意义?
12、
13、怎样的情况下,需要作因子旋转?
10、有哪些估计因子得分的方法?因子得分的估计是普通意义下的参数估计吗?为什
么?
11、对应分析的基本思想或原理是什么?试举例说明它的应用。
12、对应分析中总惯量的意义是什么?