多重共线性问题分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、多重共线性的后果
1、完全共线性情况下的后果 (1) 完全共线性下参数估计量不存在 (2) 参数估计量的方差无限大
2、不完全多重共线性产生的后果
如果模型中存在不完全的多重共线性,可以得到 参数的估计值,但是对计量分析可能会产生一系 列的影响。
(1)参数估计值的方差增大
(2)对参数区间估计时, 置信区间趋于变大
三、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系,
所以用于多重共线性的检验方法主要是统计方法:
如判定系数检验法、逐步回归检验法等。 多重共线性检验的任务是: (1)检验多重共线性是否存在;
(2)估计多重共线性的范围,即判断哪些变量之
间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法
具体可进一步对上述回归方程作F检验:
构造如下F统计量
Fj R2 j . /( k 2) (1 R ) /(n k 1)
2 j.
~ F (k 2, n k 1)
式中:Rj•2为第j个解释变量对其他解释变量的回
归方程的决定系数,
若存在较强的共线性,则Rj•2较大且接近于1,这
年份
例 如 :
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
C 1759.1 2005.4 2317.1 2604.1 2867.9 3182.5 3674.5 4589.0 5175.0 5961.2 7633.1 8523.5 9113.2 10315.9 12459.8 15682.4 20809.8 26944.5 32152.3 34854.6 36921.1 39334.4 42911.9
时(1- Rj•2 )较小,从而Fj的值较大。
因此,给定显著性水平,计算F值,并与相应的 临界值比较,来判定是否存在相关性。
另一等价的检验是: 在模型中排除某一个解释变量Xj,估 计模型; 如果拟合优度与包含Xj时十分接近, 则说明Xj与其它解释变量之间存在共线性。
(2)逐步回归法
以Y为被解释变量,逐个引入解释变量,构 成回归模型,进行模型估计。 根据拟合优度的变化决定新引入的变量是否 独立。
求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用综合统计检验法 若 在OLS法下:R2与F值较大,但t检验值较小, 说明各解释变量对Y的联合线性作用显著,但各解 释变量间存在共线性而使得它们对Y的独立作用不 能分辨,故t检验不显著。
( 3 )严重多重共线时 , 假设检验容易做出错误的 判断 ( 4 )当多重共线性严重时 , 可能造成可决系数 R2
较高经F检验的参数联合显著性也很高,但对各
个参数单独的 t检验却可能不显著,甚至可能使
估计的回归系数相反,得出完全错误的结论 。
变量的显著性检验失去意义
存在多重共线性时 参数估计值的方差与标准差变大
2、判明存在多重共线性的范围
如果存在多重共线性,需进一步确定究竟由哪 些变量引起。 (1) 判定系数检验法 使模型中每一个解释变量分别以其余解释变量 为解释变量进行回归,并计算相应的拟合优度。 如果某一种回归
Xji=1X1i+2X2i+LXLi
的判定系数较大,说明Xj与其他X间存在共线性。
注意: 完全共线性的情况并不多见,一般出现 的是在一定程度上的共线性,即近似共线 性。
二、实际经济问题中的多重共线性
一般地,产生多重共线性的主要原因有以下 三个方面:
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济 变量(收入、消费、投资、价格)都趋于增长; 衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动 力投入往往出现高度相关情况,大企业二者都大, 小企业都小。
如果某两个或多个解释变量之间出现了相 关性,则称为多重共线性(Multicollinearity)。
如果存在 c1X1i+c2X2i+…+ckXki=0
性(perfect multicollinearity)。
i=1,2,…,n
其中: ci不全为0,则称为解释变量间存在完全共线
如果存在
c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n 其中ci不全为0,vi为随机误差项,则称为 近似共线 性 ( approximate multicollinearity ) 或 交 互 相 关 (intercorrelated)。
找出引起多重共线性的解释变量,将它排除出 去。
以逐步回归法(stepwise)得到最广泛的应用。
•
注意:
这时,剩余解释变量参数的经济含义和数值都 发生了变化。
2、第二类方法:差分法
时间序列数据、线性模型:将原模型变换为 差分模型:
Yi=1 X1i+2 X2i++k Xki+ i
六、案例——中国粮食生产函数
根据理论和经验分析,影响粮食生产(Y)的 主要因素有: 农业化肥施用量(X1);粮食播种面积(X2) 成灾面积(X3); 农业机械总动力(X4); 农业劳动力(X5) 已知中国粮食生产的相关数据,建立中国粮食 生产函数: Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +
(2)滞后变量的引入 在经济计量模型中,往往需要引入滞 后经济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关
性。
(3)样本资料的限制
由于完全符合理论模型所要求的样本数据较 难收集,特定样本可能存在某种程度的多重共线 性。
一般经验:
时间序列数据样本:简单线性模型,往往存在 多重共线性。 截面数据样本:问题不那么严重,但多重共线 性仍然是存在的。
③有些解释变量的回归系数所带正负号与定性分
析结果违背时,很可能存在多重共线性。
④解释变量的相关矩阵中,自变量之间的相关系
数较大时,可能会存在多重共线性问题。
四、克服多重共线性的方法
如果模型被检验证明存在多重共线性,则需要 发展新的方法估计模型,最常用的方法有三类。 1、第一类方法:排除引起共线性的变量
②横截面数据与时序数据并用
首先利用横截面数据估计出部分参数,再利用
时序数据估计出另外的部分参数,最后得到整 个方程参数的估计。 注意:这里包含着假设,即参数的横截面估计和 从纯粹时间序列分析中得到的估计是一样的。
③变量变换
变量变换的主要方法:
(1)计算相对指标
(2)将名义数据转换为实际数据
(3)将小类指标合并成大类指标
变量数据的变换有时可得到较好的结果,但无 法保证一定可以得到很好的结果。
*④岭回归法(Ridge Regression)
70年代发展的岭回归法,以引入偏误为代价减小 参数估计量的方差,受到人们的重视。 具体方法是:引入矩阵D,使参数估计量为
1 ˆ β (XX D) XY
(*)
其中矩阵D一般选择为主对角阵,即 D=aI a为大于0的常数。 显然,与未含D的参数B的估计量相比,(*)式的估 计量有较小的方差。
可以有效地消除原模型中的多重共线性。
一般而言,差分后变量之间的相关性要比
差分前弱得多,所以差分后的模型可能降
低出现共线性的可能性,此时可直接估计
差分方程。
问题:差分会丢失一些信息,差分模型的误差 项可能存在序列相关,可能会违背经典线性回 归模型的相关假设,在具体运用时要慎重。
表 4.3.2
中国 GDP 与居民消费 C 的总量与增量数据(亿元) Y 3605.6 4074.0 4551.3 4901.4 5489.2 6076.3 7164.4 8792.1 10132.8 11784.7 14704.0 16466.0 18319.5 21280.4 25863.7 34500.7 46690.7 58510.5 68330.4 74894.2 79003.3 82673.1 89112.5 C/Y 0.488 0.492 0.509 0.531 0.522 0.524 0.513 0.522 0.511 0.506 0.519 0.518 0.497 0.485 0.482 0.455 0.446 0.461 0.471 0.465 0.467 0.476 0.482 △C 246.3 311.7 287.0 263.8 314.6 492.0 914.5 586.0 786.2 1671.9 890.4 589.7 1202.7 2143.9 3222.6 5127.4 6134.7 5207.8 2702.3 2066.5 2413.3 3577.5 △Y 468.4 477.3 350.1 587.8 587.1 1088.1 1627.7 1340.7 1651.9 2919.3 1762.0 1853.5 2960.9 4583.3 8637.0 12190.0 11819.8 9819.9 6563.8 4109.1 3669.8 6439.4 △C/△Y 0.526 0.653 0.820 0.449 0.536 0.452 0.562 0.437 0.476 0.573 0.505 0.318 0.406 0.468 0.373 0.421 0.519 0.530 0.412 0.503 0.658 0.556
●经验表明,方差膨胀因子≥10时,说明解释变量
与其余解释变量之间有严重的多重共线性,且这
种多重共线性可能会过度地影响最小二乘估计。
(4)直观判断法
①当增加或剔除一个解释变量,或者改变一
个观测值时,回归参数的估计值发生较大变 化,回归方程可能存在严重的多重共线性。 ②从定性分析认为,一些重要的解释变量的 回归系数的标准误差较大,在回归方程中没 有通过显著性检验时,可初步判断可能存在 严重的多重共线性。
如果拟合优度变化显著,则说明新引入的变 量是一个独立解释变量;
如果拟合优度变化很不显著,则说明新引入 的变量与其它变量之间存在共线性关系。
wk.baidu.com
(3)方差扩大(膨胀)因子法
ˆ 统计上可以证明,解释变量 X j 的参数估计式 β j 的方差可表示为
2 2 σ 1 σ ˆ )= Var( β = VIFj j 2 2 2 x j 1- Rj x j
问题一:多重共线性 Multi-Collinearity
一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例 *七、分部回归与多重共线性
一、多重共线性的概念 对于模型 Yi=0+1X1i+2X2i++kXki+i i=1,2,…,n 其基本假设之一是解释变量是互相独立的。
其中的 VIFj 是变量 X j 的方差扩大因子 1 (Variance Inflation Factor),即 VIFj = 2 1R j 其中 R 2 是多个解释变量辅助回归的可决系数 j
经验规则
●方差膨胀因子越大,表明解释变量之间的多重共 性越严重。反过来,方差膨胀因子越接近于1,
多重共线性越弱。
容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断
可能将重要的解释变量排除在模型之外
注意:
除非是完全共线性,多重共线性并不意味着 任何基本假设的违背; 因此,即使出现较高程度的多重共线性, OLS估计量仍具有线性性等良好的统计性质。 问题在于,即使OLS法仍是最好的估计方法, 它却不是“完美的”,尤其是在统计推断上无 法给出真正有用的信息。
由表中的比值可以直观地看到,增量的 线性关系弱于总量之间的线性关系。
进一步分析: Y与C(-1)之间的判定系数为0.9988, △Y与△C(-1)之间的判定系数为 0.9567
3、第三类方法:减小参数估计量的方差 多重共线性的主要后果是参数估计量具 有较大的方差,所以 采取适当方法减小参数估计量的方差, 虽然没有消除模型中的多重共线性,但确 能消除多重共线性造成的后果。 例如: ①增加样本容量,可使参数估计量的方 差减小。