多元统计总结

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多元统计总结
A.多元统计分析
1、当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量;
如身高、体重,购买某商品的人数等等象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量。

定性变量一般也用数值表示。

性别用0、1代表,三种收入用0、1、2代表(或用字母代表)。

2、均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,
再比较标准化后的数据。

一个标准化的方法是把某样本原始观测值(亦称得分,score)和该样本均值之差除以该样本的标准差;得到的度量称为标准得分(standard score,又称为z-score)。

即,某观测值xi的标准得分定义为:
i
x x z
s
-=
B.聚类分析
1、对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。

它们在数
学上是无区别的。

2、类与类之间的距离:
连续性数据:最短距离;最长距离;类间平均;组内平均连接法;重心法分类数据:有序数据分类——将顺序换成数值;无序分类数据——简单匹配系数、雅克比匹配系数;次数数据——卡方距离、Phi方距离
3、主要的聚类方法
分层聚类(系统聚类)
不知道最终的聚类数目
聚合型聚类,假设所有的样本各自为一类,然后对相近的进行合并
拆分型聚类,假设所有的样本是一类,然后进行拆分
K-Means聚类(快速聚类)
通过一些相关知识知道最终聚类的数目
E-M聚类( K-Means聚类的推广)
C.判别分析
1、通过已知的数据,找出每个类的中心,然后计算待判样品到每个类的距
离,离哪个类的距离越近就属于那个类。

2、Bayes判别:不用判别式,而用比较新给样品属于各个总体的条件概率
的大小(将新样品判归为来自概率最大的总体)。

3、Logistic 回归:在回归中,如果因变量不是数量型的而是取两个可能值
的分类变量,而自变量可以为定性变量及定量变量。

前面的回归模型就不适用了。

至少回归方程的左边不能是分类变量。

取两个值的二分变量和二项分布有关。

4、Fisher判别分析:不要求总体判别类型,工作原理就是对原数据系统进
行坐标变换,寻求能够将总体尽可能分开的方向。

5、最邻近方法:首先在空间中假定一个距离。

在连续型自变量的情况,通
常都是用欧氏空间。

在分类问题中,一个测试集点应该属于离它最近的k个训练集点中多数所属于的类型。

在k=1的最简单的情况,那么该点的类型应该和与它最近的一个点相同。

在回归中,一个测试集点的因变量的预测值应该等于离它最近的k个训练集点相应的因变量值的平均。

至于k的选择,一般都用测试集的交叉验证来进行。

6、如果在使用判别或分类方法中,发现错误太多,则可能原因是:1. 自变
量选得不合适,2. 方法不合适。

在第一种情况,必须重新选取变量并收集数据。

此外,有很多分类方法供选择。

D.主成分分析
1、主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截
面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。

2、基于相关系数矩阵还是基于协方差矩阵做主成分分析。

当分析中所选择
的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。

3、每个主成分需要满足如下条件:每个主成分的系数的平方和等于1;主成
分之间相互独立;主成分的方差依次递减,即重要性依次递减。

4、可以由主成分分析法构造回归模型。

即把各主成分作为新自变量代替原
来自变量x做回归分析。

如此可以解决变量多重共线性问题。

5、主成分分析不要求数据来自于正态分布。

6、当所构建的回归模型F统计显著但自变量回归系数不显著时,可能存在
多重共线性。

E.因子分析
1、通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,
并用少数几个假想变量来表示其基本的数据结构。

这几个假想变量能够反映原来众多变量的主要信息。

原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。

2、因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,
而回归因子有非常明确的实际意义。

3、主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而
因子分析需要构造因子模型。

主成分分析:原始变量的线性组合表示新的综合变量,即主成分;
因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。

4、变量共同度:因子载荷矩阵的第i行的元素的平方和。

公共因子方差贡献率:因子载荷矩阵中各列元素的平方和。

5、因子旋转
原因:要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。

由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。

目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化。

方法:四次方最大法、方差最大法和等量最大法
因子旋转后共同度并不发生变化,但每个因子的贡献率发生变化。

6、因子得分:要求得每个因子的得分,必须求得分函数的系数,而由于p>m,
所以不能得到精确的得分,只能通过估计。

估计因子得分的方法:巴特莱特因子得分(加权最小二乘法);回归方法
F.对应分析
1、对应分析是R型因子分析与Q型因子分析的结合,它也是利用降维的思
想以达到简化数据结构的目的。

主要应用于由属性变量构成的数据表。

与因子分析的不同:同时对数据表中行列进行处理。

2、利用降维思想,通过分析原始数据结构,以简洁、明了的方式揭示属性
变量之间及属性变量各种状态之间的相关关系。

3、特点:可以在一张二维图上同时表示出两类属性变量的各种状态,以直
观地描述原始数
据结构。

G.典型相关分析
1、分析两组变量,利用类似主成分分析的方法分别找出两组变量的线性组
合,然后再进行相关分析。

2、步骤:首先分别在每组变量中找出第一对线性组合,使其具有最大相关
性,然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对本身具有次大的相关性。

如此继续下去,直至进行到r步,两组变量的相关性被提取完为止。

r min(p,q),可以得到r组变量。

3、典型变量的性质:同一组的典型变量之间互不相关;第二组本身具有次
大的相关性。

相关文档
最新文档