第6章 多重共线性的情形及其处理
多重共线性
解决方法
解决方法
(1)排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除出去,以逐步回归法得到最广泛的应用。 (2)差分法 时间序列数据、线性模型:将原模型变换为差分模型。 (3)减小参数估计量的方差:岭回归法(Ridge Regression)。 (4)简单相关系数检验法
谢谢观看
简介
简介
对线性回归模型 基本假设之一是自变量,之间不存在严格的线性关系。如不然,则会对回归参数估计带来严重影响。为了说 明这一点,首先来计算线性回归模型参数的 LS估计的均方误差。为此。重写线性回归模型的矩阵形式为 其中服从多元正态分布,设计矩阵 X是的,且秩为 p。这时,参数的 LS估计为,而回归系数的 LS估计为。 注意到由此获得的 LS估计是无偏的,于是估计的均方误差为 其中是的特征根。显然,如果至少有一个特征根非常接近于零,则就很大,也就不再是的一个好的估计。由 线性代数的理论知道,若矩阵的某个特质根接近零,就意味着矩阵 X的列向量之间存在近似线性关系。 如果存在一组不全为零的数,使得 则称线性回归模型存在完全共线性;如果还存在随机误差 v,满足,使得 则称线性回归模型存在非完全共线性。 如果线性回归模型存在完全共线性,则回归系数的 LS估计不存在,因此,在线性回归分析中所谈的共线性 主要是非完全共线性,也称为复共线性。判断复共线性及其严重程度的方法主要有特征分析法(analysis of eigenvalue),条件数法 (conditional numbers)和方差扩大因子法(variance inflation factor)。
产生原因
产生原因
主要有3个方面: (1)经济变量相关的共同趋势 (2)滞后变量的引入 (3)样本资料的限制
影响
影响
回归模型中多重共线性的情形及其处理
丫= 1+ 8人-4人+ 3为=1 + 8人-(3X2+ 2)+ 3为=7+ 8人-9%(1.5)在(1.4)中,X2的系数为12,表示丫与为成正比例关系,即正相关;而在(1.5)中,X2的系数为-9,表示丫与X?成负比例关系,即负相关。
如此看来,同一个方程丫= 1+ 4片+ 3X2变换出的两个等价方程,由于不同的因式分解和替换,导致两个方程两种表面上矛盾的结果。
实际上,根据X1 = 3为+ 2式中的X1与为的共线性,X1约相当于3X2, 在(1.4)减少了3人,即需要用9个X2来补偿;而在(1.5)增加了4人, 需要用12个X2来抵消,以便保证两个方程的等价性,这样一来使得(1.5)中为的系数变为了负数。
从上述分析看来,由于X i与勺的共线性,使得同一个方程有不同的表达形式,从而使得丫与为间的关系难以用系数解释。
2•对多重线性关系的初步估计与识别如果在实际应用中产生了如下情况之一,则可能是由于多重共线性的存在而造成的,需作进一步的分析诊断。
①增加(或减去)一个变量或增加(或剔除)一个观察值,回归系数发生了较大变化。
②实际经验中认为重要的自变量的回归系数检验不显著。
③回归系数的正负号与理论研究或经验相反。
④在相关矩阵中,自变量的相关系数较大。
⑤自变量回归系数可信区间范围较广等。
3•对多重共线性本质的认识多重共线性可分为完全多重共线性和近似多重共线性(或称高度相关性),现在我们集中讨论多重共线性的本质问题。
多重共线性普遍被认为是数据问题或者说是一种样本现象。
我们认为,这种普遍认识不够全面,对多重共线性本质的认识,至少可从以下几方面解解。
(3)检验解释变量相互之间的样本相关系数。
假设我们有三个解释变量X i、X2、X3,分别以「12、「13、「23 来表示X i 与X2、X i 与X3、X2与X3之间的两两相关系数。
假设r i2 = 0.90,表明X i与X2之间高度共线性,现在我们来看相关系数「12,3,这样一个系数我们定义为偏相关系数,它是在变量X3为常数的情况下,X i与X2之间的相关系数。
第六讲 多重共线性.
第6章 多重共线性6.1 多重共线性及其产生的原因6.1.1 多重共线性(Multicollinearity)的定义从数学意义上去解释变量之间存在共线性,就是对于变量k x x x ,,21,如果存在不全为零的常数k λλλ ,,21,使得下式成立02211=+++k k x x x λλλ (6.1.1)则称变量k x x x ,,21之间存在完全共线性。
在计量经济学中,一个具有两个以上解释变量的线性回归模型里,如果解释变量之间存在式(6.1.1)那样的关系,则称这些解释变量之间存在完全的多重共线性。
完全多重共线性还可以用矩阵形式加以描述。
设解释变量矩阵X 为X = ⎪⎪⎪⎪⎪⎭⎫⎝⎛kn k k n n x x x x x x x x x 212222*********所谓完全的多重共线性,就是0='X X 。
或者rank (X )k 〈+1,表明在矩阵X 中,至少有一个列向量可以由其余的列向量线性表示。
所谓近似共线性或不完全多重共线性是指对于k 个解释变量t x (t =1,2,3,…k),如果存在不全为零的数k λλλ ,,21使得02211=++++u x x x k k λλλ (6.1.2)成立,其中u 为随机误差项。
如果k 个解释变量之间不存在上述完全或不完全的线性关系式,则称无多重共线性。
如果用矩阵表示,这时X 为满秩矩阵,即rank (X )=k +1。
6.1.2 多重共线性产生的原因根据经验,多重共线性产生的经济背景和原因有以下几个方面:1.经济变量之间往往存在同方向的变化趋势 2.经济变量之间往往存在着密切的关联度 3.在模型中引入滞后变量也容易产生多重共线性4.在建模过程中由于解释变量选择不当,引起了变量之间的多重共线性6.2 多重共线性造成的影响6.2.1 完全共线性下参数估计量不存在多元线性回归模型U XB Y +=的普通最小二乘估计量为Y X X X B ''=-1)(ˆ如果解释变量之间存在完全多重共线性,由于X 矩阵的系数行列式0='X X ,逆矩阵1)(-'X X 不存在,无法得到参数估计式Bˆ。
6-多重共线性
举例
HOUSING = α 1 + α 2 INTRATE t + α 3 POPt + u1t A:
HOUSING = β 1 + β 2 INTRATEt + β 3GNPt + u 2 t B:
HOUSING = γ 1 + γ 2 INTRATE t + γ 3 POPt + γ 4GNPt + u1t C:
完全多重共线性 近似多重共线性
λ1 X 1i + λ2 X 2i = 0 λ1 X 1i + λ2 X 2i + vi = 0
矩阵形式
在线性回归模型中,对X的基本假定是:
rank ( X ) = k (k < n)
即 X ′X ≠ 0 ,亦即矩阵中各列向量之间是线 性无关的,如果这一假定不满足, rank ( X ) < k 或 X ′X = 0 ,则称模型存在多重共线性。
ln Yt = b0 + b1 ln X 1t + b2 X 2t + b3 X 3t + ε t
销量 出厂价格 市场价格 市场总供应量 高度相关
X 1t ln Yt = b0 + b1 ln + b2 X 3t + ε t X 2t
相对价格
6. 数据中心化
Yi = b0 + b1 X i + b2 X i2 + L + bk X ik + ε i
6
多重共线性
主要内容
多重共线性的概念 产生多重共线性的原因 多重共线性的结果 多重共线性的检验 多重共线性的修正方法
一. 多重共线性的概念
多重共线性问题及解决方法
多重共线性问题及解决方法概念所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。
后果参数估计失去其意义检验与检验目前常用的多重共线性诊断方法有:1.自变量的相关系数矩阵R诊断法:研究变量的两两相关分析,如果自变量间的二元相关系数值很大,则认为存在多重共线性。
但无确定的标准判断相关系数的大小与共线性的关系。
有时,相关系数值不大,也不能排除多重共线性的可能。
2.方差膨胀因子(the variance inflation factor,VIF)诊断法:方差膨胀因子表达式为:VIFi=1/(1-R2i)。
其中Ri为自变量xi对其余自变量作回归分析的复相关系数。
当VIFi很大时,表明自变量间存在多重共线性。
该诊断方法也存在临界值不易确定的问题,在应用时须慎重。
3.容忍值(Tolerance,简记为Tol)法:容忍值实际上是VIF的倒数,即Tol=1/VIF。
其取值在0~1之间,Tol越接近1,说明自变量间的共线性越弱。
在应用时一般先预先指定一个T ol值,容忍值小于指定值的变量不能进入方程,从而保证进入方程的变量的相关系数矩阵为非奇异阵,计算结果具有稳定性。
但是,有的自变量即使通过了容忍性检验进入方程,仍可导致结果的不稳定。
4.多元决定系数值诊断法:假定多元回归模型p个自变量,其多元决定系数为R2y(X1,X2,…,Xp)。
分别构成不含其中某个自变量(Xi,i=1,2,…,p)的p个回归模型,并应用最小二乘法准则拟合回归方程,求出它们各自的决定系数R2i(i=1,2,…,p)。
如果其中最大的一个R2k与R2Y很接近,就表明该自变量在模型中对多元决定系数的影响不大,说明该变量对Y总变异的解释能力可由其他自变量代替。
它很有可能是其他自变量的线性组合。
多重共线性概念ppt课件
假设存在较强的共线性,那么Rj•2较大且 接近于1,这时〔1- Rj•2 〕较小,从而Fj的值较 大。
因此,给定显著性程度,计算F值,并
与另相一应等的价临的界值检比验较是,: 来断定能否存在相关性。
在模型中排除某一个解释变量Xj, 估计模型;
2
x12i
1
1 r
2
(
x1i x 2i ) 2
x12i
x
2 2i
恰为X1与X2的线性相关系数的平方r2
由于 r2 1,故 1/(1- r2 )1
当完全不共线时, r2 =0 当近似共线时, 0< r2 <1
vaˆ1r) (2/ x1 2 i
vaˆr1)(
2
x12i
1 1r2
2
x12i
• 3、解释变量之间相关=>多重共线 • 4、随机扰动项相关=>序列自相关 • 时间序列数据经常出现序列相关 • 5、随机扰动项方差不等于常数=>异方差 • 截面数据时,经常出现异方差
处理问题的思绪
• 1、定义违反各个根本假定的根本概念 • 2、违反根本假定的缘由、背景 • 3、诊断根本假定的违反 • 4、违反根本假定的补救措施〔修正〕
截面数据样本:问题不那么严重,但 多重共线性依然是存在的。
三、多重共线性的后果
1. 完全共线性下参数估计量不存在
Y X β μ
的OLS估计量为: β ˆ(XX)1XY
假设存在完全共线性,那么(X’X)-1不存在,无法 得到参数的估计量。
例:对离差方式的二元回归模型
y1x 12x2
假设两个解释变量完全相关,如x2= x1,那
第六章 多重共线性
假定2 假定2 同方差假定:Var(u 同方差假定:Var(ui)= σ u 2, i=1,2,…n i=1,2,… 上式表明,各次观测值中u 上式表明,各次观测值中u具有相同的方差, 即各次观测所受到的随机影响的程度相同, 称为等方差性。 违反假定:异方差
假定3 假定3 无自相关假定: Cov(ui, uj)=0, i ≠ j, i,j=1,2…..n i,j=1,2… 表明任意两次观测的u 表明任意两次观测的ui, uj是不相关的,即 u在某次的观测值与任何其它次观测中的 值互不影响,称为无序列相关性。 等方差性和无序列相关性称为高斯— 等方差性和无序列相关性称为高斯—马 尔柯夫(Gauss-Markov)假定。 尔柯夫(Gauss-Markov)假定。 违反假定:自相关
注意 接近共线性并未破坏最小二乘估计量的最 小方差性:在所有线性无偏估计量中,OLS 小方差性:在所有线性无偏估计量中,OLS 估计量的方差最小。 最小方差并不意味着方差值本身也比较小。
注意 即使变量总体之间不线性相关,但却可 能与某一样本线性相关 多重共线性本质上是一个样本(回归) 现象。 原因:大多数经济数据不是通过试验获 得。如:国民生产总值、价格、失业率、 利润、红利等,是以其实际发生值为依 据,而并非试验得到。
这个指标度量方差增加的速度
R2 和 VIF 当 R2 增加时, VIF也随着增加 VIF也随着增加
如果大于10 如果大于10 ,就表明有问题
R
2 2
0 1
0.5 2
0.8 5
0.9 10
0.99 100
VIF=1/(1- R )
注意 R2较高,标准差未必一定大。也就是说它 不一定扩大估计量的标准差。 辅助回归方程的R 辅助回归方程的R2可能只是多重共线性的 一个“表面指示器” 一个“表面指示器”。 更正规的表述为:“较高的R 更正规的表述为:“较高的R2既不是较高 标准差的必要条件也不是充分条件,多重 共线性本身并不必然导致较高的标准差。” 共线性本身并不必然导致较高的标准差。”
计量经济第六章多重共线性
• 2、数据采集的范围有限,或采集 的样本量小于模型的自变量个数。
• 如在罕见疾病的研究过程中,由于病 情罕见、病因又相当复杂,而只能在 少数的患者身上采集大量的变量信息。
3、模型中采用滞后变量
在计量经济模型中,往往需要引入 滞后变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相 关性。
up
三、方差膨胀因子法
• 自变量间的共线性程度越大时,VIF值也随之 增大。所以也可利用方差膨胀因子来检验 多重共线性问题。 • 一般来说,当VIF >10时,表明 涉及的两个 变量存在高度线性相关,模型存在不完全 多重共线性。
P111 【经典实例】
• 计算得到的方差膨胀因子值分别为
VIF1 =10000,VIF2 =10000,VIF3 =9.6525,VIF4 =11.5875
2 2 2 1
同理易得
ˆ ) Var( 2
• EVIEWS遇到完全多重共线性时,会 显示 • Near singular matrix,无法进行估 计
2、不完全多重共线性下的后果
(1)估计量的方差增大 2 2 x 2 ˆ) 由于 Var ( 1 2 x12x2 (x1 x2 )2
• 可以看出,除了 VIF3 10 ,其余的方 差膨胀因子值均大于10,表明模型中 存在较严重的多重共线性问题。
up
第三节 多重共线性的修正 一、改变模型的形式 二、删除自变量 三、减少参数估计量的方差 四、其它方法 习题
up
• 一、改变模型的形式
• (一)变换模型的函数形式
• 例如将线性回归模型转化为对数模 型或者多项式模型。 • (二)改变模型的自变量的形式
第六章 多重共线性
并计算相应的拟合优度,即判定系数
R
2。
j
析:
如果某一回归方程的判定系数
R
2 j
较大(接近于1),说明Xj与其他解释变
量X间存在多重共线性。
如果求出的判定系数
R
2都比较小,没有一个是接近于1的,则可认为
j
模型的解释变量之间不存在严重的多重共线问题。
可进一步对上述出现较大判定系数 R2j 的回归方程作F检验:
x2ji
1
1 R2j
2
x
2 ji
VIFj
其中,VIFj是变量Xj的方差膨胀因子,即
VIFj
1
1
R
2 j
由于Rj度量了Xj与其他解释变量的线性相关程度,这种相关程度越强, 说明变量间多重共线性越严重,VIFj也就越大。反之,Xj与其他解释变量的 线性相关程度越弱,说明变量间的多重共线性越弱,VIFj也就越接近于1。 由此可见,VIFj的大小反映了解释变量之间是否存在多重共线性,可用它来 度量多重共线性的严重程度。经验表明,VIFj≥10时,说明解释变量Xj与其 余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响 最小二乘估计。
较为严重的
适用于两个解释变量之间存在线性相关的检验
综合统计检验
适用于多个解释变量情况。利用判定系数 R2、
t 检验、F 检验等统计检验结果进行综合分析, 判明多重共线性的存在与否
判断准则:
R 2值,F 检验值很大
各个偏回归系数的 t 检验值 ti i 1,2,, k 均偏小,
大多数的 ti <临界值 t n k ,可判定模型存
方差膨胀因子检验(二)
还可以用 k 个自变量所对应的方差膨胀因子的平均值 来度量多重共线性
多重共线性
模型中则有 Y i0 (1* )X 1 i (2 k 1* )X 2 i u i
虽然完全等价,但回归系数却显然不同 ,说明这时 参数值的估计不唯一确定 .
从经济意义上讲,如果取 1,那么(1 )< 0 这表明,随耕地面积的增加农产量将会减少,这显 然是十分荒谬的结论。
2.参数估计量经济含义不合理
如果模型中两个解释变量具有线性相关性, 例如 X2= kX1 ,
这时,X1和X2前的参数1、2并不反映各自与
被解释变量之间的结构关系,而是反映它们对被 解释变量的共同影响。
1、2已经失去了应有的偏回归系数经济含义, 甚至经常表现出似乎反常的现象:例如1本来应
该是正的,结果却是负的。
问题在于,即使OLS法仍是最好的估计方 法,它却不是“完美的”,尤其是在统计推 断上无法给出重共线性表现为一种样本现象,即使总体不存 在多重共线性,所得样本也可能出现多重共线性。 而且由于抽样波动,对于同一总体,不同样本的共 线性程度也不相同。因此,对于多重共线性的检验, 可以直接对所得样本进行分析做出判断。
完全多重共线性的后果(一般)
对于二元线性回归模 型 Y i01 X 1 i2 X 2 i u i
其参数1的OLS估计式为:
ˆ1
x1i yi x2i2 x2i yi x1i x2i x12i x22i ( x1i x2i )2
x1i yi x12i
x2i yi x12i
估计量有较大的标准差,因此参数真值的置信区间
也将增大。 [ˆj tSE ˆ(ˆj),ˆj tSE ˆ(ˆj)]
2
2
此置信区间将随
SEˆ(ˆj )
ˆ2 1
最新应用回归分析-第6章课后习题参考答案
第6章多重共线性的情形及其处理思考与练习参考答案6.1 试举一个产生多重共线性的经济实例。
答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。
由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。
再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。
6.2多重共线性对回归参数的估计有何影响?答:1、完全共线性下参数估计量不存在;2、近似共线性下OLS估计量非有效;3、参数估计量经济含义不合理;4、变量的显著性检验失去意义;5、模型的预测功能失效。
6.3 具有严重多重共线性的回归方程能不能用来做经济预测?答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。
但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。
6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系?答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。
当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。
6.5 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造设计矩阵X才可能避免多重共线性的出现?答:请参考第三次上机实验题——机场吞吐量的多元线性回归模型,注意利用二手数据很难避免多重共线性的出现,所以一般利用逐步回归和主成分回归消除多重共线性。
如果进行自己进行试验设计如正交试验设计,并收集数据,选择向量使设计矩阵X 的列向量(即X 1,X 2, X p )不相关。
6.6对第5章习题9财政收入的数据分析多重共线性,并根据多重共线性剔除变量。
6多重共线性
Collinearity Statistics Tolerance 0.001 0.001 0.315 0.018 0.040 1,963.3 1,740.5 3.171 55.5 25.2 VIF
28
【例6.1】中国民航客运量的回归模型。为了 研究我国民航客运量的变化趋势及其成因,我 们以民航客运量(万人)作为因变量 y ,以国民 收入(亿元) x1 、消费额(亿元) x2 、铁路客运量 (万人) x3 、民航航线里程(万公里) x4 、来华 旅游入境人数(万人) x5 为影响民航客运量的 主要因素。
2 2 i2
ˆ ) 2 / x2 , 当完全不共线时, r 2 0,var( i1 1
2 当不完全共线(近似共线)时,0 r 1,
2 2 1 ˆ) Var ( 1 2 2 2 x 1 r x i1 i1
即:多重共线性使参数估计值的方差增大,方差扩 大因子(Variance Inflation Factor)为 1/(1 r 2 ), 其增大趋势见下表:
2 1 ˆ D (β) ( X X )
1 可见,由于此时 XX 0,引起 ( X X) 主对角线
元素较大,从而使参数估计值的方差增大,估计的 精度很低,OLS参数估计量非有效。
17
ˆ ˆ 以二元模型中 1 为例, 1 的方差为
2 1 ˆ C ov( 1 ) ( X X)11
在计量经济模型中,往往需要引入滞后经济变 量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
9
一般经验
对于采用时间序列数据作样本、以简单线性形式 建立的计量经济学模型,往往存在多重共线性。 以截面数据作样本时,问题不那么严重,但多重 共线性仍然是存在的。
第六章多重共线性及其处理
横截面数据也有可能产生多重共线性。例如以企 业的截面数据为样本估计企业的生产函数
y AK L e 时,较大企业的资本投入(K)、劳动
力投入(L)等都会较多。较小企业的资本投入和劳动 力投入都会较小,资本投入(K)与劳动力投入(L) 几乎是高度线性相关的。
2、滞后变量的引入
在经济计量的模型中,往往需要用滞后 变量来反映真实的经济关系。例如,消费变 动的影响因素不仅有本期可支配收入,还应 考虑以往各期的可支配收入。固定资产存量 变动的影响因素不仅有本期投资,还应考虑 以往若干期的投资。
X1 X 0 0 , E( ) 0, cov( ) 2I ,
为
0
(
p
1)
1
阶回归系数向量,对此模型,
n
总离差平方和为 X1X1 1, (SST (Yi Y )2 ) i 1
回归平方和为SSR Xˆ1Xˆ1
n
(SSR ( yˆi y)2 YˆYˆ ( X ˆ)( X ˆ)) i 1
C jj
1 1 R2 j
,
j
1,2,, p
且Var(ˆ
j
)
C
jj
2
L jj
,
j
1,2,,
p
证明 j 1的情形:假设模型已经标准化, 将设计矩阵
X 分块为 X ( X1 : X 0 ),其中X1是设计矩阵的第一列, 而X 0是后p 1列,分别是自变量 x1以及其余 p 1个自 变量的 n 次观测, 考虑线性回归模型
设 x1 与 x2 完全相关,即 x2 1x1
X 11
设X
X
21
X n1
X 12 X 11
X
22
=
X
第六章多重共线性
第六章多重共线性第六章多重共线性前面两章所讲的异方差性和自相关性都是表现在随机误差项中的,我们下面所讲的多重共线性讨论的是模型中的解释变量违背基本假设的问题。
回忆以下我们在讲多元线性回归模型时,基本假定与简单线性回归模型不同的是哪一点?——就是无多重共线性假定:即假定各解释变量之间不存在线性关系,或者说各解释变量的观测值之间线性无关。
这一章我们讨论的多重共线性就是当解释变量违背了这一条基本假定的情形。
第一节多重共线性概念先看一个实例:我们研究某个地区家庭消费及其影响因素。
我们除了引入收入X1以外,还引入了消费者的家庭财产X2作为第2个解释变量。
根据抽样数据回归得到以下结果:Y^=24.7747+0.9415X1-0.0424X2t=(3.6690) (1.1442) (-0.5261)R2=0.9635 R2——=0.9531 F=92.4020这一回归结果说明什么?1、可决系数和修正可决系数都很理想2、F统计量高度显著,说明X1、X2联合对Y的影响显著3、各变量参数的t检验都不显著,不能否定等于零的假设4、财产变量的系数竟然与预期的符号相反。
为什么会出现这样的结果呢?再看一个例子:分析某地区汽车保养费用支出与汽车的行程数以及汽车拥有的时间建立模型,通过样本数据估计得:Y^=7.29+27.58X1-151.15X2t= (0.06) (0.958) (-7.06)R2——=0.946 F=52.53这个结果修正可决系数理想,F检验也显著,但X的T检验不显著,X2的T检验虽然显著,但系数符号与经济意义不符。
为什么也出现这种结果?一、多重共线性的概念:如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。
完全共线性与不完全共线性表示的是一种线性相关程度。
比如我们在第一个例子中,发现可支配收入与家庭财富之间有明显的共线性关系,他们的相关系数高达0.9989,第二个例子中汽车的行程数与拥有汽车的时间的相关系数也为0.9960,表明两个变量之间存在一种不完全的线性相关关系,我们可以认为他们之间有程度很高的多重共线性.不存在多重共线性只说明解释变量之间没有线性关系,而不排除他们之间存在某种非线性关系。
应用回归分析,第6章课后习题参考答案
第6章多重共线性的情形及其处理思考与练习参考答案6.1 试举一个产生多重共线性的经济实例。
答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。
由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。
再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。
6.2多重共线性对回归参数的估计有何影响?答:1、完全共线性下参数估计量不存在;2、近似共线性下OLS估计量非有效;3、参数估计量经济含义不合理;4、变量的显著性检验失去意义;5、模型的预测功能失效。
6.3 具有严重多重共线性的回归方程能不能用来做经济预测?答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。
但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。
6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系?答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。
当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。
6.5 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造设计矩阵X才可能避免多重共线性的出现?答:请参考第三次上机实验题——机场吞吐量的多元线性回归模型,注意利用二手数据很难避免多重共线性的出现,所以一般利用逐步回归和主成分回归消除多重共线性。
如果进行自己进行试验设计如正交试验设计,并收集数据,选择向量使设计矩阵X的列向量(即X1,X2,X p)不相关。
6.6对第5章习题9财政收入的数据分析多重共线性,并根据多重共线性剔除变量。
多重共线性问题课件
多重共线性的表现形式
相关性矩阵
通过计算自变量之间的相关性矩阵,可以发现高度相关的自变量 。
特征值
在多重共线性情况下,某些特征值的绝对值会接近于0,这表明自 变量之间存在高度相关。
方差膨胀因子
数据收集阶段预防
总结词
在数据收集阶段,预防多重共线性的关键是保证 数据的准确性和完整性,以及合理的数据样本量 。
总结词
在数据收集阶段,可以通过增加样本量来降低多 重共线性的影响。
详细描述
数据的质量直接关系到模型的准确性和可靠性, 因此需要确保数据的准确性和完整性。此外,合 理的数据样本量可以降低随机误差的影响,提高 模型的稳定性和可靠性。
多重共线性问题的
03
诊断
特征值诊断法
总结词
通过计算模型中自变量的特征值来判断是否存在多重共线性问题。
详细描述
特征值诊断法是通过计算自变量的特征值来判断自变量之间的相关性。如果自变量的特征值接近于零 ,说明该自变量与其他自变量高度相关,存在多重共线性问题。
条件指数法
总结词
通过计算自变量之间的条件指数来判断 是否存在多重共线性问题。
VS
详细描述
条件指数是一种衡量自变量之间相关性的 指标,如果条件指数大于一定阈值,说明 自变量之间存在多重共线性问题。
方差膨胀因子法
总结词
通过计算自变量的方差膨胀因子来判 断是否存在多重共线性问题。
详细描述
方差膨胀因子是衡量自变量对因变量 影响的放大程度,如果方差膨胀因子 大于一定阈值,说明自变量之间存在 多重共线性问题。
Байду номын сангаас
多重共线性的情形及其处理
多重共线性的情形及其处理多重共线性的情形及其处理⼀、多重共线性对回归模型的影响设回归模型εββββ++++=p p x x x y 22110存在完全的多重共线性,即对设计矩阵X 的列向量存在不全为零的⼀组数p c c c c ,,,,210 ,使得:22110=++++ip p i i x c x c x c c (n i ,,2,1 =),此时设计矩阵X 的秩Rank(X)在实际问题研究当中,022110≈++++ip p i i x c x c x c c ,虽然Rank(X)=p+1成⽴,但是|X X '|≈0,1)(-'X X 的对⾓线元素很⼤,β的⽅差阵12)()?(-'=X X D σβ的对⾓线元素很⼤,⽽)?(βD 的对⾓线元素即为)?var(0β,)?var(1β,…, )?var(p β,因⽽p βββ,,,10的估计精度很低,这样,虽然OLSE 能得到β的⽆偏估计,但估计量β?的⽅差很⼤,不能正确判断解释变量对被解释变量的影响程度。
例如在⼆元回归中,假定y 与1x ,2x 都已经中⼼化,此时回归常数项为零,回归⽅程为2211x x y ββ+=,由此可以得到 1121221)1()?var(L r -=σβ,2221222)1()?var(L r -=σβ,其中∑==n i i x L 12111,∑==ni i i x x L 12112,∑==ni i x L 12222则1x ,2x 之间的相关系数22111212L L L r =。
随着⾃变量1x 与2x 的相关性增强,1?β和2β的⽅差将逐渐增⼤。
当1x 与2x 完全相关时,r=1,⽅差将变为⽆穷⼤。
当给定不同的12r 值时,从下表可以看出⽅差增⼤的速度。
表6.1为了⽅便,假设1112=L σ,相关系数从0.5变为0.9时,回归系数的⽅差增加了295%,相关系数从0.5变为0.95时,回归系数的⽅差增加了670%、当回归⾃变量1x 与2x 相关程度越⾼,多重共线性越严重,那么回归系数的估计值⽅差就越⼤,回归系数的置信区间就变得很宽,估计的精确性就⼤幅度降低,使估计值稳定性变得很差,进⼀步致使在回归⽅程整体⾼度显著时,⼀些回归系数则通不过显著性检验,回归系数的正负号也可能出现倒置,使得⽆法对回归⽅程得到合理的经济解释,直接影响到最⼩⼆乘法的应⽤效果,降低回归⽅程的价值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§6.3 多重共线性的诊断
经验表明,当VIFj≥10时,就说明自变量xj与其余自变量 之间有严重的多重共线性,且这种多重共线性可能会过度 地影响最小二乘估计值。
还可用p个自变量所对应的方差扩大因子的平均数来 度量多重共线性。当
1 p VIF VIF j p j 1
远远大于1时就表示存在严重的多重共线性问题。
§6.3 多重共线性的诊断
记X =(X0 ,X1,…,Xp),其中
a. Dependent Variable: Y
§6.3 多重共线性的诊断
b Va riable s Ente red/Remov ed
Mode l 1
Va riables Entered a x5, x3, x4, x2
Va riables Re moved .
Meth od En ter
a. Al l requested variable s entered. b. De pendent Variab le: x1
§6.3 多重共线性的诊断
当某自变量 xj 对其余 p-1 个自变量的复判定系 数 R 超过一定界限时, SPSS 软件将拒绝这个自变量 xj 进入回归模型。 2 R 称 Tolj=1- j 为自变量 xj 的容忍度(Tolerance) , SPSS 软件的默认容忍度为 0.0001。 也就是说, 当 R 2j >0.9999 时,自变量 xj 将被自动拒绝在回归方程之 外,除非我们修改容忍度的默认值。
L22 1 2 L11L22 (1 r12 ) - L12
§6.2 多重共线性对回归模型的影响
由此可得
ˆ ) var( 1
2
(1 r ) L11
2 12
(6.3)
ˆ ) var( 2
2
(1 r ) L22
2 12
(6.4)
ˆ 和 ˆ 的方差将逐渐增大。 可知,随着自变量 x1 与 x2 的相关性增强, 1 2
当 x1 与 x2 完全相关时,r=1,方差将变为无穷大。
§6.2 多重共线性对回归模型的影响
当给不同的r12值时,由表6.1可看出方差增大的速度。 为了方便,我们假设σ2/L11=1,相关系数从0.5变为0.9时, 回归系数的方差增加了295%,相关系数从0.5变为0.95时,回归 系数的方差增加了670%。
(Constant) X1 X2 X3 X4 X5
Unstandardized Coefficients Std. B Error 450.909 178.078 .354 .085 -.561 .125 -7.E-03 .002 21.578 4.030 .435 .052
Collinearity Statistics Tolera nce VIF .001 .001 .315 .018 .040 1963 1741 3.171 55.5 25.2
ˆ x ˆx ˆ y 1 1 2 2
记 L11
x
i 1
n
2 i1
, L12 xi1 xi 2 , L 22 x ,
i 1 i 1 2 i2
n
n
则 x1 与 x2 之间的相关系数为
r12
L12 L11L22
§6.2 多重共线性对回归模型的影响
ˆ ( ˆ , ˆ ) 的协方差阵为 1 2
Mode l Summ ary Mode l 1 R .9997 452991 a R Square .999 Ad justed R Square .999 Std. Error of the Estim ate 175.0 8601
a. Predictors: (Constant), x5, x3, x4, x2
称自变量x1,x2,…,xp之间存在着多重共线性 (Multi-collinearity),也称为复共线性。
§6.1多重共线性产生的经济背景和原因
当我们所研究的经济问题涉及到时间序列资料时,由于 经济变量随时间往往存在共同的变化趋势,使得它们之间就 容易出现共线性。 例如, 我们要研究我国居民消费状况,影响居民消费的 因素很多,一般有职工平均工资、农民平均收入、银行利率、 全国零售物价指数、国债利率、货币发行量、储蓄额、前 期消费额等,这些因素显然既对居民消费产生重要影响,它 们之间又有着很强的相关性。
§6.1多重共线性产生的经济背景和原因
许多利用截面数据建立回归方程的问题常常也存在自 变量高度相关的情形。 例如,我们以企业的截面数据为样本估计生产函数,由于 投入要素资本K,劳动力投入L,科技投入S,能源供应E等都与 企业的生产规模有关,所以它们之间存在较强的相关性。
§6.1多重共线性产生的经济背景和原因
因而β 0,β 1,…,β p 的估计精度很低。这样,虽然用 OLSE 还能得到β 的无偏 ˆ 的变差很大,不能正确判断解释变量对被解释变量的影响程 估计,但估计量β 度,甚至出现估计量的经济意义无法解释。
§6.2 多重共线性对回归模型的影响
我们做y对两个自变量x1,x2的线性回归,假定y与x1,x2都 已经中心化,此时回归常数项为零,回归方程为
c0+c1xi1+c2xi2+…+cpxip=0 , i=1,2,…,n (6.1) 则称自变量x1,x2,…,xp之间存在着完全多重共线性。
在实际经济问题中完全的多重共线性并不多见,常见的是 (6.1)式近似成立的情况,即存在不全为0的p+1个数 c0,c1,c2,…,cp ,使得 c0+c1xi1+c2xi2+…+cpxip≈0 , i=1,2,…,n(6.2)
§6.2 多重共线性对回归模型的影响
设回归模型 y=β0+β1x1+β2x2+…+βpxp+ε 存在完全的多重共线性,即对设计矩阵X的列向量存在不全 为零的一组数c0,c1,c2,…,cp ,使得
c0+c1xi1+c2xi2+…+cpxip=0 , i=1,2,…,n
设计矩阵X的秩rank(X)< p+1,此时|x′x|=0,正规方程 组的解不唯一,(x′x)-1不存在,回归参数的最小二乘估计 ˆ (X X)-1 β X y 表达式 不成立。
此时设计矩阵 X 的秩 rank(X)=p+1 虽然成立,但是此时|x′x|≈0, ˆ 的方差阵 D(β ˆ )=σ 2(X′X)-1 的 (x′x)-1 的对角线元素很大,β
ˆ )的对角线元素即为 var( ˆ ) , var( ˆ ),, var( ˆ ) 对角线元素很大,而 D(β 0 1 p
ˆ )=σ (XX X L 12 1 (X X ) X X
1
L12 L22 - L12 L11
L22 -L 12
- L12 L22 1 2 L11 L11L22 L12 - L12 - L12 L11
ˆ )c 2/L , var( j jj jj
j 1,, p
(6.6)
其中Ljj是xj的离差平方和,由(6.6)式可知用cjj做为衡量 自变量xj的方差扩大程度的因子是恰如其分的。
§6.3 多重共线性的诊断
记R 2 j 为自变量 xj 对其余 p-1 个自变量的复判定系数, 可以证明
1 c jj 1 R2 j
a. Dependent Variable: Y
§6.3 多重共线性的诊断
二、特征根判定法
(一)特征根分析
根据矩阵行列式的性质,矩阵的行列式等于其 特征根的连乘积。因而,当行列式|X′X|≈0时, 矩 阵X′X至少有一个特征根近似为零。反之可以证明, 当矩阵X′X至少有一个特征根近似为零时,X 的列 向量间必存在复共线性,证明如下:
§6.3 多重共线性的诊断
一、方差扩大因子法 记 对自变量做中心标准化,则X*′X*=(rij)为自变量的相关阵。 C=(cij)=(X*′X*)-1 (6.5)
称其主对角线元素VIFj=cjj为自变量xj的方差扩大因子(Variance Inflation Factor,简记为VIF)。根据(3.31)式可知,
2 j
§6.3 多重共线性的诊断
以下用SPSS软件诊断例3.2中国民航客运量一例中的多重共线性问题。
Coefficients a Standar dized Coeffici ents Beta 2.447 -2.485 -.083 .531 .564 t 2.532 4.152 -4.478 -3.510 5.354 8.440 Sig. .030 .002 .001 .006 .000 .000
(Constant) X1 X2 X3 X4 X5
Unstandardized Coefficients Std. B Error 450.909 178.078 .354 .085 -.561 .125 -7.E-03 .002 21.578 4.030 .435 .052
Collinearity Statistics Tolera nce VIF .001 .001 .315 .018 .040 1963 1741 3.171 55.5 25.2
§6.2 多重共线性对回归模型的影响
对非完全共线性 , 存在不全为零的一组数 ,c2 ,…, cp ,使得 0,c 1… 对非完全共线性,即存在不全为零的一组数 c0,cc ,c 1,c 2, p ,使得 c c11 c2x cpx ≈0 , i=1,2,…, i+c 1+ i2+…+ c00+ +c xx +… +cpxip≈ 0ip, i=1,2, …,n n i1 2 xi2
再如,有人在建立某地区粮食产量回归模型时,以粮 食产量为因变量y,以化肥用量x1,水浇地面积x2,农业投 资x3等为自变量,从表面上看,x1,x2,x3都是影响粮食产 量y的重要因素,可是建立的回归方程效果很差。 原因:尽管x1,x2,x3都是影响y的重要因素,但是农 业投资x3与化肥用量x1、水浇地面积x2有很强的相关性,农 业投资主要用于购买化肥和开发水利,即农业投资的效应 已被化肥用量和水浇地面积体现出来。通过分别计算x3与 x1、x2的相关系数得r13=0.98、r23=0.99,呈现高度相关。剔 除x3后重新建立回归模型,结果无乱从预测和结构分析来 看都十分理想。