第七章 多重共线性
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
注意: 完全共线性的情况并不多见,一般出现的 是在一定程度上的共线性,即近似共线性。 (1)多重共线性的性质是什么? ( 2 )多重共线性存在的原因及后果怎么样? (3)在实际中,如何去发现多重共线性? (4)消除多重共线性的补救措施有哪些?
§7.1 多重共线性的性质 例如在市场对鸡肉的需求模型中:
例如,如果在多元回归方程包括6个 解释变量,我们计算这些变量两两之间的 相关系数,如果有些相关系数很高,比方 说超过0.8,则可能存在较为严重的共线性。 但是,这一标准并不十分可靠,因为解 释变量两两相关系数可能较低(表明无高度 共线性),但是却有可能存在共线性,因为 t值中很少是统计显著的。 加之较强的多重共线性可能存在于三个 变量或多个变量之间,如下面的例子:
4.样本资料的限制
由于完全符合理论模型所要求的样本数据较难收 集,特定样本可能存在某种程度的多重共线性。
一般经验: 时间序列数据样本:简单线性模型,往往存在 多重共线性。 截面数据样本:问题不那么严重,但多重共线 性仍然是存在的。
二、多重共线性的后果 (一)完全共线性下的后果 1.参数估计值不确定 2.参数估计值的方差无限大 (二)不完全多重共线性下的后果 1.多重共线性的理论后果 (1) 无偏性是一个重复抽样的性质。 (2) 普通最小二乘法估计量的方差最小,并 不意味着在任何给定的样本中普通最小二乘法 估计量的方差会很小。 (3)多重共线性本质上是一个样本(回归)现 象。
设: X2i = X1i + X3i , X1i 、 X2i 、 X3i 各 有三个样本值 X1 9 X1i、1, 2,24 X 2 25 X2i、2, 25, 48 X 3 16 X3i、1, 23, 24 view correlations
它们两两简单相关系数不大,但是严格共线性 所以,用简单相关系数判断模型是否存在多重共线性,只 适用于两个解释变量的情况
Yi 0 1 X1i 2 X 2i 3 X 3i 4 X 4i ui
Yi为鸡肉的平均需求量;X1为人均支配收入; X2为鸡肉的价格; X3 ,X4分别为猪肉和牛肉 的价格。 以两个解释变量X1,X2的线性回归模型来考 察多重共线性的问题 1、参数的估计 (1)X1,X2是完全线性相关的,即二者的相 关系数为1,则回归分析不能进行。
(二)估计多重共线性的范围
如果存在多重共线性,需进一步确定究竟由哪些变 量引起。 1. 判定系数检验法 使模型中每一个解释变量分别以其余解释变量为 解释变量进行回归,并计算相应的拟合优度。 如果某一种回归 Xji=1X1i+2X2i+LXLi 的判定系数较大,说明Xj与其他X间存在共线性。
第七章
一、关于多重共线性
多重共线性
对于模型
Yi=0+1X1i+2X2i++kXki+i
i=1,2,…,n
其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了相关性, 则称为多重共线性(Multicollinearity)。
如果存在
c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n
方法如下:设解释变量为X1,X2, …, Xk分别 构成k个回归方程:
X1 f1 ( X 2 , X 3 ,, X k ) X 2 f2 ( X1, X 3 ,, X k ) X i fi ( X1 , X 2 ,, X i1 , X i1 ,, X k ) X k fk ( X1, X 2 ,, X k 1 )
对应的判定系数 2 Rj 即 对应为以 X j 为被解释变量的回归方程。
2 2 R12 , R2 ,, R2 , , R j k
显然,这些判定系数中最大且接近于1的那 一个 R2i 所对应的变量 Xi ,是与其他解释 变量发生多重共线性最严重的一个 或者说,由于Xi的存在引起回归方程 Y=f(X1, X2, …, Xk) 发生多重共线性
具体可进一步对上述回归方程作F检验:
构造如下F统计量
Fj R2 j . /( k 2) (1 R ) /(n k 1)
若 在OLS法下:R2与F值较大,但t检验值较小,
立作用不能分辨,故t检验不显著。
如在前面讲到的那样,这是多重共线性的“经典” 特 征。如果R2较高,在大多数情况下F检验将会拒绝零假设, 即部分斜率系数联合或同时为零。但各自的t检验表明,没 有或几乎没有部分斜率系数是统计显著不为零的。式( 4- A )回归结果就充分地证实了这一点。
2.参数的方差 因为估计值的方差为:
) Var ( 1
x x
2 1i
2 2 x2 i 2 2i
( x1i x2i )
2 1i
2
) Var ( 2
x x x ( x
2 2 1i 2 2i
1i 2 i
x )
2
显然偏回归系数的估计值的方差与解释变量之间相关 程度成同方向变化。当X1与X2完全相关时方差为无穷 大,完全不能回归 ;相关性越强,分母越趋近于0
二、多重共线性的后果
(一)完全共线性下的后果 1.参数估计值不确定 2.参数估计值的方差无限大 (二)不完全多重共线性下的后果 1.多重共线性的理论后果 (1) 无偏性是一个重复抽样的性质。 (2) 普通最小二乘法估计量的方差最小,并不 意味着在任何给定的样本中普通最小二乘法估计 量的方差会很小。 (3)多重共线性本质上是一个样本(回归)现象。
结果恰是负的。
(3)变量的显著性检验失去意义
存在多重共线性时 参数估计值的方差与标准差变大
容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断 可能将重要的解释变量排除在模型之外
(4)模型的预测功能失效
变大的方差容易使区间预测的“区间”变大,使预测 失去意义。
注意:
多重共线性对回归分析结果影响的程度,不 仅取决于多重共线性的强弱,还取决于共线性变 量在模型中的重要性。
(2)若X1,X2高度相关,r很大,接近于1, 但只要不完全相关,则r 2≠1,也就是β1和β2的估 计值是存在的。 多重共线性是一个程度问题 若解释变量两两之间完全不相关,则不存在 该问题; 若其中部分解释变量之间完全相关,则根本 不能用OLS进行回归; 若解释变量之间存在一定程度的线性关系, 则是本章所要解决的多重共线性的问题。
其中: ci不全为0,则称为解释变量间存在完全共线 性(perfect multicollinearity)。 如果存在 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n 其中 ci 不全为 0 , vi为随机误差项,则称为 近似共 线性(approximate multicollinearity)或交互相关 (intercorrelated)。
§7.2 多重共线性存在的原因及后果
一、多重共线性存在的原因 1. 经济变量之间固有的内在联系,比如以 生产函数为例:
Y AK L
Y是产值,解释变量是资金K与劳动力L 资金规模和劳动力规模之间有着内在的联系 截面数据中的多重共线性,多半是由经济变量之间 的内在联系所产生的。
2.经济变量在时间上有同方向变动的趋势。 例如,经济繁荣时期,许多经济变量,如 收入、消费、储蓄、投资、就业等都随 着时间而趋向增长; 而在经济衰退时期,这些经济变量都趋向 下降。 在时间序列数据中,增长因素或趋向因素 是造成多重共线性的主要原因。
除非是完全共线性,多重共线性并不意味着 任何基本假设的违背;此,即使出现较高程度的 多重共线性,OLS估计量仍具有良好的统计性质。 问题在于,即使OLS法仍是最好的估计方法, 它却不是“完美的”,尤其是在统计推断上无法 给出真正有用的信息。
§7.3 多重共线性的测定
多重共线性表现为解释变量之间具有相 关关系,所以用于多重共线性的检验方法 主要是统计方法:如判定系数检验法、逐 步回归检验法等。
2.实际后果 (1)OLS的回归系数方差和标准差较大,且与 解释变量之间的线性相关呈同向变化。即虽 然OLS估计式仍然是无偏估计,但这时估计 式的方差会随共线性程度的提高而增大。 如果估计量的标准差增加了,普通最小二乘法 估计量的精确度就下降了。参数估计的精确 性降低了,因而不能正确判断各种解释变量 对被解释变量的影响的大小。
多重共线பைடு நூலகம்检验的任务是:
(1)检验多重共线性是否存在;
(2)估计多重共线性的范围,即判断哪些
变量之间存在共线性。
有几点我们要明白: (1) 多重共线性是一个程度问题而不是存在与否 的问题。 (2) 由于多重共线性是在假定解释变量是非随机 的条件下出现的问题,因而它是样本的特征,而 不是总体的特征。 因此,我们不仅可以“检测多重共线性”,而且 可以测度任何给定样本的多重共线性程度。
仍以二元线性模型 y=1x1+2x2+ 为例:
ˆ ) 2 ( X X ) 1 var( 1 11
2 2 2 x x ( x x ) 1i 2i 1i 2i 2 2 x2 i
1 ( x1i x 2i ) 2
2 / x12i
2 2 x x 1i 2i
一、测定多重共线性的方法 (一)检验多重共线性是否存在 1. 两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1, 则说明两变量存在较强的多重共线性。 2. 多个解释变量的模型,采用综合统计检验法 说明各解释变量对Y的联合线性作用显著,但 各解释变量间存在共线性而使得它们对Y的独
思路:利用解释变量之间所构成的回归方程 之可决系数(从属或者辅助回归) 多重共线性是指由于一个(或多个解释 变量)是其他解释变量的线性(或接近线性) 组合 检验模型中哪个变量与其他变量高度共线 性的方法是: 作每个变量对其他剩余变量的回归并计 算相应的R2值。 其中的每一个回归都被称作是从属或者 辅助回归,从属于Y对所有变量的回归。
1 2 2 x 1 r 1i
2
x x
2 1i
( x1i x 2i ) 2
2 2i
恰为X1与X2的线性相关系数的平方r2
由于 r2 1,故 1/(1- r2 )1
当完全不共线时, r2 =0
当近似共线时, 0< r2 <1
ˆ ) 2 / x2 var( 1i 1
3. 将某些解释变量的滞后值作为单独的新解释 变量包含在模型中。 例如,在消费函数中,解释变量除了包含 现期收入水平外,还包含上期的收入水平, 而现期收入的一部分一般由前期值决定。 例如,投资函数中常常包含现期的期望产量 和过去若干期的产量,作为解释变量。 这类含有变量滞后值的模型称为滞后模型, 变量的前后期之值自然是相互关联的。 几乎可以肯定滞后模型中是存在多重共线性的。
当完全共线时, r2=1,
ˆ ) var( 1
(2)参数估计量经济含义不合理
如果模型中两个解释变量具有线性相关性, 例如 X2= X1 , 这时,X1和X2前的参数1、2并不反映各自与 被解释变量之间的结构关系,而是反映它们对被 解释变量的共同影响。
1、2已经失去了应有的经济含义,于是经常 表现出似乎反常的现象:例如1本来应该是正的,
ˆ 146.9168 2.8216 X 0.3241X Y 2 4
(4-A)
Se 104.99 0.7271 0.3498 t 1.3993 -3.8806 -0.9263 P 0.2044 0.0060 0.3857 R2=0.9784 F=158.4075 prob(0.0000)
注意:
2
2 1 ˆ ) var( 1 2 2 2 x 1 r x 1i 1i
多重共线性使参数估计值的方差增大,1/(1-r2)为 方差膨胀因子(Variance Inflation Factor, VIF)
相关系数平方 方差膨胀因子 0 1 0.5 2 0.8 5 表 4.3.1 方差膨胀因子表 0.9 0.95 0.96 0.97 10 20 25 33 0.98 50 0.99 100 0.999 1000