多元回归分析总结

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1、多元共线性问题产生的根源（可以从两方面考虑，各举一个50字左右的例子）

①由变量性质引起:在进行多元统计分析时，作为自变量的某些变量高度相关，比如身高、体重和胸围，变量之间的相关性是由变量自身的性质决定的，此时不论数据以什么形式取得，样本含量是大是小，都会出现自变量的共线性问题。因此，变量间自身的性质是导致多元共线性的重要原因。

②由数据问题引起：1、样本含量过小2、出现强影响观测值3、时序变量

1、样本含量过小：假设只有两个自变量X1和X2，当n=2时两点总能连成一条直线，即使性质上原本并不存在线性关系的变量X1和X2由于样本含量问题产生了共线性。样本含量较小时，自变量容易呈现线性关系。如果研究的自变量个数大于2，设为X1，X2，...，X P，虽然各自变量之间没有线性关系，但如果样本含量n小于模型中自变量的个数，就可能导致多元共线性问题。

2、出现强影响观测值：进入20世纪80年代后期人们开始关注单个或几个样本点对多重共线性的影响。研究表明存在两类这样的数据点或点群:1导致或加剧多重共线性 2 掩盖存在着的多重共线性。a中因异常观测值的出现而掩盖了共线性b中因异常观测值的出现而产生了共线性。这样的异常观测值称为多元共线性强影响观测值。显然这种观测值会对设计矩阵的性态产生很大影响从而影响参数估计。

3、时序变量：若建模所用的自变量是时序变量并且是高阶单整时序变量，这种时序变量之间高度相关必然导致多重共线性。当所研究的经济问题涉及到时间序列资料时，由于经济变量随时间往往存在共同的变化趋势，使得它们之间容易出现共线性。例如，我国近年来的经济增长态势很好，经济增长对各种经济现象都产生影响，使得多种经济指标相互密切关联。比如研究我国居民消费状况，影响居民消费的因素很多，一般有职工平均工资、农民平均收入、银行利率、国债利率、货币发行量、储蓄额等，这些因素显然对居民消费产生影响，它们之间又有着很强的相关性。

2、多元共线性的表现

(1)模型拟合效果很好，但偏回归系数几乎都无统计学意义;

(2)偏回归系数估计值的方差很大;

(3)偏回归系数估计值不稳定，随着样本含量的增减，各偏回归系数发生较大变化或当一个自变量被引入或剔除时，其余变量偏回归系数有很大变化;

(4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖，结果难以解释。

3、多元共线性的诊断

(1)方差膨胀因子 (2)特征根系统，主要包括条件指数和方差比。

此外，还有：自变量的相关系数诊断法、多元决定系数值诊断法、行列式判别法、回归系数方差分解法(RCVD)法

4、按研究方法分类，线性回归可以分为几类

一元线性回归、多元线性回归、多个应变量与多个自变量的回归

5、回归分析模型中，自相关现象对数据的影响

①回归系数的最小二乘估计是无偏的，但是不再有最小方差。

②2

σ和回归系数的标准差会被严重低估；也就是说，由数据估得的标准差会比它的实际值大大缩小，从而给出一个假想的精确估计

③置信区间和通常采用的各种显著性检验的结论，严格来说不再是可信的

6、岭回归中岭参数k 的选择原则

①各回归系数的岭估计基本稳定

②用最小二乘法估计时符号不合理的回归系数，其岭估计的符号变得合理

③回归系数没有不合乎经济意义的绝对值

④残差平方和增大不太多

7、古典线性回归模型满足的基本条件

古典线性回归模型通常应满足以下几个基本假设：

①解释变量x 1，x 2，…，x p 是非随机变量，观测值x i1，x i2，…，x ip 是常数

②等方差及不相关的假定条件为 0)(=i E ε，n i ,...,2,1=， =),cov(j i εε｛

j i j i ≠=,0,2σ ，

（n j i ,...2,1,=）.这个条件称为高斯-马尔柯夫条件。

③正态分布的假定条件为｛n i N i ,...,2,1),,0(~2=σε； n εεε,...,,21相互独立。 ④通常为了便于数学上的处理，还要求n>p ，即样本容量的个数要多于解释变量的个数。

8、异方差检验中，斯皮尔曼检验的步骤

斯皮尔曼检验又称等级相关系数法，该检验通常有三个步骤：

第一步，作y 关于x 的普通最小二乘回归，求出i ε的估计值，即i e 的值

第二步，取i e 的绝对值，即i e 。把i x 和i e 按递增或递减的次序排列后分成等级，按下式

计算出等级相关系数∑=--

=n i i s d n n r 122)1(61，其中，n 为样本容量，i d 为对应于i x 和i

e 的等级的差数第三步，做等级相关系数的显著性检验。在n>8的情况下，用下式对样本等级相关系数r s 进行t 检验。检验统计量为212s s

r r n t --=，若)2(2/-

在，若)2(2/->n t t α，说明i x 和i e 之间存在系统关系，异方差性问题存在。

9、数据中心化、标准化在回归分析中的意义

多元线性回归模型的一般形式为εββββ+++++=p p x x x y ...22110，模型中包含p+1个参数。中心化是将经验回归方程的坐标原点移至样本中心使其成为中心化经验回归方程。中心化经验回归方程中只包含p 个参数。在变量较多时，减少一个未知参数可以减少很多计算工作量。

在多元线性回归中，某些问题由于自变量所用的单位不同，会导致数据之间存在很大差异，这样不利于放在同一标准上进行比较。为了消除量纲不同和数量级的差异所带来的影响，就需要将数据标准化处理以消除这种影响。

10、多重共线性的产生与样本容量个数n 和自变量个数p 有无关系

有关系。当自变量的个数p 较大时，一般多重共线性容易发生，所以自变量应选择少而精。自变量个数p 接近样本容量n 时，自变量间就容易产生共线性。增加样本容量不能消除模型中的多重共线性，但能适当消除多重共线性造成的后果。

11、变量选择的方法

①前向选择法：变量由少到多，每次增加一个，直至没有可引入的变量为止。

②后向剔除法：先用全部m 个变量建立一个回归方程，然后采用一个一个剔除的办法达到筛选变量的目的。在m 个变量中先选择一个最不重要的变量将其剔除，进行t 检验，根据其与临界值的大小判断是否继续剔除。依此下去，直至没有可剔除的变量为止。

③逐步回归法：其本质是前向选择法。将变量逐个引入，每当引入一个变量后，对已选入的变量要进行逐个检验，当原引入的变量由于后面变量的引入而变得不再显著时，要将其剔除。这个过程反复进行，直至既无显著的变量选入方程，也无不显著的变量从方程中剔除为止。

12、解决多元共线性问题的方法

①岭回归法 ②主成分法 ③偏最小二乘法 ④通径分析 ⑤神经网络