第七章 多共线性及其处理
第七章多重共线性
六、L.R.Klein判断公式法
r
RY . X 1 X 2...Xk XiXj
2
首先,将被解释变量Y分别对各个解释变量X1,X2,…,Xk做 简单的回归方程,即: Y=f(X1),Y=f(X2),…,Y=f(Xk) 并进行理论分析和统计检验,选出最优的回归方程,即基本回 归方程。求出一个基本回归方程后,然后,逐步添加解释变量,根 据添加解释变量对拟合优度的改进和对其它回归系数的影响等决定 是否保留添加的解释变量。 1.如果新添加的解释变量改进拟合优度,并且其它回归系数在统 计上仍是显著的,那么,保留添加的解释变量。新添加解释变量不 引起多重共线性;
2i
y x x y x x x ˆ b x x ( x1i x 2i)
2 2i i 1i 1i i 2 2 2 1i 2 1i 2i
2i
Var (b ˆ )
1
x x x ( x1i x2i)
2
[ u
2
2i
2
2
2
]ቤተ መጻሕፍቲ ባይዱ
1i
2i
若 X2i = X1i 则 :
F R2 j /k (1 R2 j ) /(n k 1) ~ F (k , n k 1)
那么也可以利用F检验,来检验是否存在多重 共线性。对给定的显著性水平,查F分布表, 得到临界值,如果F> F ,则解释变量之间存 在多重共线性;否则,不存在多重共线性。
三、两个解释变量
Xk=f(X1,X2,…,X k-1)Rk2
从R12,R22,…Rk2中选出一个最接近1的,比如是 Rj2 ,则可以判定解释变量Xj与其它解释变量中的一个或 多个相关程度高。
由于Rj2的值是介于0和1之间的,如果解释变 量之间不存在相关关系,那么,Rj2的值会显 著为0。如果设H0∶ Rj2 =0,H1∶Rj2≠0,根 据F与Rj2的关系,构造统计量
(完整word版)多重共线性问题的几种解决方法
多重共线性问题的几种解决方法在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考:1、保留重要解释变量,去掉次要或可替代解释变量2、用相对数变量替代绝对数变量3、差分法4、逐步回归分析5、主成份分析6、偏最小二乘回归7、岭回归8、增加样本容量这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。
逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。
具体方法分为两步:第一步,先将被解释变量y对每个解释变量作简单回归:对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。
第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。
2。
如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。
3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。
不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计.如果通过检验证明回归模型存在明显线性相关的两个解释变量中的其中一个可以被另一个很好地解释,则可略去其中对被解释变量影响较小的那个变量,模型中保留影响较大的那个变量。
多重共线性问题及解决方法
多重共线性问题及解决方法概念所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。
后果参数估计失去其意义检验与检验目前常用的多重共线性诊断方法有:1.自变量的相关系数矩阵R诊断法:研究变量的两两相关分析,如果自变量间的二元相关系数值很大,则认为存在多重共线性。
但无确定的标准判断相关系数的大小与共线性的关系。
有时,相关系数值不大,也不能排除多重共线性的可能。
2.方差膨胀因子(the variance inflation factor,VIF)诊断法:方差膨胀因子表达式为:VIFi=1/(1-R2i)。
其中Ri为自变量xi对其余自变量作回归分析的复相关系数。
当VIFi很大时,表明自变量间存在多重共线性。
该诊断方法也存在临界值不易确定的问题,在应用时须慎重。
3.容忍值(Tolerance,简记为Tol)法:容忍值实际上是VIF的倒数,即Tol=1/VIF。
其取值在0~1之间,Tol越接近1,说明自变量间的共线性越弱。
在应用时一般先预先指定一个T ol值,容忍值小于指定值的变量不能进入方程,从而保证进入方程的变量的相关系数矩阵为非奇异阵,计算结果具有稳定性。
但是,有的自变量即使通过了容忍性检验进入方程,仍可导致结果的不稳定。
4.多元决定系数值诊断法:假定多元回归模型p个自变量,其多元决定系数为R2y(X1,X2,…,Xp)。
分别构成不含其中某个自变量(Xi,i=1,2,…,p)的p个回归模型,并应用最小二乘法准则拟合回归方程,求出它们各自的决定系数R2i(i=1,2,…,p)。
如果其中最大的一个R2k与R2Y很接近,就表明该自变量在模型中对多元决定系数的影响不大,说明该变量对Y总变异的解释能力可由其他自变量代替。
它很有可能是其他自变量的线性组合。
多重共线性考试考试与答案
第七章 多重共线性习题与答案1、多重共线性产生的原因是什么?2、检验多重共线性的方法思路是什么?有哪些克服方法?3、考虑一下模型:Y t =β1+β2X t +β3X 1-t +4βX 2-t +5βX 3-t +6βX 4-t +u t其中Y =消费,X =收入,t =时间。
上述模型假定了时间t 的消费支出不仅是时间t 的收入,而且是以前多期的收入的函数。
例如,1976年第一季度的消费支出是同季度收入合1975年的四个季度收入的函数。
这类模型叫做分布滞后模型(distributed lag models )。
我们将在以后的一掌中加以讨论。
(1) 你预期在这类模型中有多重共线性吗?为什么?(2)如果预期有多重共线性,你会怎么样解决这个问题?4、已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为所受教育水平(年)。
随机扰动项μ的分布未知,其他所有假设都满足。
(1)从直观及经济角度解释α和β。
(2)OLS 估计量αˆ和βˆ满足线性性、无偏性及有效性吗?简单陈述理由。
(3)对参数的假设检验还能进行吗?简单陈述理由。
5、根据1899—1922年在美国制造业部门的年度数据,多尔蒂(Dougherty )获得如下回归结果:LogY=2.81 - 0.53logK+ 0.91logL + 0.047tSe =(1.38)(0.34) (0.14) (0.021)R 2=0.97 F=189.8其中Y =实际产生指数,K=实际资本投入指数,L=实际劳力投入指数,t =时间或趋势。
利用同样数据,他又获得一下回归:(1)回归中有没有多重共线性?你怎么知道?(2)在回归(1)中,logK 的先验符号是什么?结果是否与预期的一致?为什么或为什么不?(3)你怎样替回归的函数形式(1)做辩护:(提示:柯柏—道格拉斯生产函数。
)(4)解释回归(1)在此回归中趋势变量的作用为何?(5)估计回归(2)的道理何在?(6)如果原先的回归(1)有多重共线性,是否已被回归(2)减弱?你怎样知道?(7)如果回归(2)被别看作回归(1)的一个受约束形式,作者施加的约束是什么呢?(提示:规模报酬)你怎样知道这个约束是否正确?你在哪一种检验?说明你的计算。
计量经济学 第七章 多重共线性
ˆ QV ( β 1 ) =
2 &2 σ µ ∑ x2 i
&2 &2 & & x1i ∑ x2 i − ( ∑ x1i x2 i )2 ∑
2 &2 σ µ ∑ x2 i ˆ = 2 = ∞ 同 样, V ( β 2 ) = ∞ &2 &2 λ ( ∑ x2 i )2 − λ 2 ( ∑ x2 i )2
第七章 多重共线性
§7.4 消除多重共线性的方法
三、利用事前信息 事前信息指经济理论或前人研究的成果,其在一定的 条件下可消除多重共线性。 如生产函数Y = ALβ1 K β 2 e ε,其中Y 、L、K 分别表示产出 劳力、资本,变换模型有: ln Y = ln A + β 1 ln L + β 2 ln K + ε L、K 之间可能存在共线性,但有“生产规模报酬不变”假定, Y L ln = β 0 + β 1 ln + ε 故有:β 1 + β 2 = 1,故原方程可转换为: K K 从而消除了多重共线性。
1 2
& & ( ∑ x1 x2 ) 2 ∴R = = r12 & &2 x12 x2 ∑
2 1
第七章 多重共线性
§7.3 多重共线性的检验
三 、利 用缺 某个解 释变 量的 拟合优 度检 验 设有 线性回 归模 型 y = f ( x1,x2,⋅ ⋅ ,xk ),其拟合优度为R 2 ⋅
现依次建立缺一个解释变量 的回归方程: y = f1 ( x1,x2,⋅ ⋅ ,xk ) ⋅ y = f 2 ( x1,x3,⋅ ⋅ ,xk ) ⋅ ⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅ y = f j ( x1,x2,x j −1,⋅ ⋅ ,x j +1 ⋅ ⋅ ⋅ ,xk ) ⋅ ⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅ y = f k ( x1,x2,⋅ ⋅ ,xk −1 ) ⋅
回归分析中的多重共线性问题及解决方法(七)
回归分析是统计学中常用的一种方法,它用于研究自变量和因变量之间的关系。
然而,在实际应用中,经常会遇到多重共线性的问题,这给回归分析带来了一定的困难。
本文将讨论回归分析中的多重共线性问题及解决方法。
多重共线性是指独立自变量之间存在高度相关性的情况。
在回归分析中,当自变量之间存在多重共线性时,会导致回归系数估计不准确,标准误差增大,对因变量的预测能力降低,模型的解释能力受到影响。
因此,多重共线性是回归分析中需要重点关注和解决的问题之一。
解决多重共线性问题的方法有很多种,下面将介绍几种常用的方法。
一、增加样本量增加样本量是解决多重共线性问题的一种方法。
当样本量足够大时,即使自变量之间存在一定的相关性,也能够得到较为稳健的回归系数估计。
因此,可以通过增加样本量来减轻多重共线性对回归分析的影响。
二、使用主成分回归分析主成分回归分析是一种常用的处理多重共线性问题的方法。
主成分回归分析通过将原始自变量进行线性变换,得到一组新的主成分变量,这些主成分变量之间不存在相关性,从而避免了多重共线性问题。
然后,利用这些主成分变量进行回归分析,可以得到更为准确稳健的回归系数估计。
三、岭回归岭回归是一种经典的解决多重共线性问题的方法。
岭回归通过对回归系数施加惩罚项,从而减小回归系数的估计值,进而降低多重共线性对回归分析的影响。
岭回归的思想是在最小二乘估计的基础上加上一个惩罚项,通过调节惩罚项的系数来平衡拟合优度和模型的复杂度,从而得到更为稳健的回归系数估计。
四、逐步回归逐步回归是一种逐步选择自变量的方法,可以用来解决多重共线性问题。
逐步回归可以通过逐步引入或剔除自变量的方式,来得到一组最优的自变量组合,从而避免了多重共线性对回归系数估计的影响。
以上所述的方法都可以用来解决回归分析中的多重共线性问题。
在实际应用中,应该根据具体的情况选择合适的方法来处理多重共线性问题,从而得到准确可靠的回归分析结果。
总之,多重共线性是回归分析中需要重点关注的问题,通过合适的方法来处理多重共线性问题,可以得到更为准确稳健的回归系数估计,从而提高回归分析的预测能力和解释能力。
第七章多重共线性精品课件
2i
bk xki ui
进行估计时,将 Xj从模型中排除,并不引起拟合优度 减少许多,那么,这个被排除在模型之外的解释变量 与留在模型中的解释变量多重共线,排除是应当的。
第三节、 多重共线性的的处理
一、剔除引起共线性的解释变量(这是最重要的方法, 保留在模型中变量的经济意义不再仅仅是自身的作用, 也包含了与其共线并被排除变量的作用。)
2
I n)
二、多重共线性的概念
考虑模型中只有两个解释变量的情况,此时 模型可以表示为:
Y b0 b1 X1 b2 X 2 u
若存在不全为0的常数 1 , 2 ,使下列关 系式成立:
1 X1 2 X 2 0
则称自变量 X 1 , X 2 存在完全的线性关系。
此时两者之间的相关系数为1。实际中完全多 重共线的情况并不多见,一般出现不同程度的 近似多重共线,即有以下关系成立:
第七章、多重共线性
本章内容
第一节、 多重共线性的概 念、产生的原因及其后果 第二节 、多重共线性的检 验 第三节、 多重共线性的的 处理 约瑟夫· 斯蒂格利茨 第四节 多重共线性的案例 2001年诺贝尔奖 分析
获得者
第一节、 多重共线性的概念、产生的原因 及其后果 一、单方程计量经济模型回顾 1、模型形式:
ji 0 1
1i
ˆ j 1 x j 1i ˆ j 1 x j 1i ˆ k xki
如果判定系数很大,F检验显著,则Xj可用其他解释变 量的线性组合表出,即 Xj 与其他解释变量多重共线。 应将Xj从解释变量中排除。 (2)或者,在对原模型
y b b x b x
四、多重共线性的影响
1、对于完全共线,由于矩阵逆不存在,所以参数的 OLS估计失效。
多重共线性讲义
9
3.参数估计量经济含义不合理 如果模型中两个解释变量具有线性相关性,例如 X2= X1 ,这时,X1和
X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它 们对被解释变量的共同影响。1、2已经失去了应有的经济含义,于是经常 表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。
如果存在 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n
其中ci不全为0,vi为随机误差项,则称为 不完全多重共线性或欠完 全多重共线性(approximate multicollinearity)。
4
7.2.产生多重共线性的原因
一般地,产生多重共线性的主要原因有以下四个方面: (1)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、 投资、价格)都趋于增长;衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动力投入往往出现高度 相关情况,大企业二者都大,小企业都小。 (2)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济 关系。 例如,消费=f(当期收入, 前期收入),显然,两期收入间有较强的 线性相关性。
14
15
2、辅助回归法
利用模型中每一个解释变量分别以其余解释变量为解释变量进行回归, 并计算相应的拟合优度。
如果某一种回归 X j c 1X1 2 X 2 ... j1X j1 j1X j1 ... k X k
的判定系数较大,说明Xj与其他X间存在共线性。 判别的标准是回归模型是否通过F检验。
第七章多重共线性
第七章多重共线性第七章多重共线性若线性模型不满⾜假定6,就称模型有多重共线性。
§7.1 多重共线性的概念⼀. 基本概念:假定6 ()1k r X k n =+<,是指模型中所有⾃变量12,,,,k x x x 1线性⽆关,也可理解为矩阵X 的列向量线性⽆关。
若不满⾜该假定,即 ()1k r X k <+,则称12,,,,k x x x 1存在完全多重共线性,12,,,,k x x x 1存在严格的线性关系,这是⼀种极端情况;若12,,,,k x x x 1之间的线性关系不是严格的,⽽是⼀种近似的线性关系,则称⾼度相关或存在不完全多重共线性。
如,01122i i i i y x x u βββ=+++ 若12,λλ?不全为零,使11220i i x x λλ+=,完全多重共线性11220i i i x x v λλ++= 不完全多重共线性完全多重共线性和不完全多重共线性统称为多重共线性。
解释变量(⾃变量)之间的线性关系可⽤拟合优度2i R 描述,2i R 表⽰i x 对其它解释变量的拟合优度,21i R = 完全 21i R ≈⾼度 20i R = ⽆⼆. 产⽣的原因:在实际经济问题中主要是不完全多重共线性。
其产⽣的主要原因是:1. 两个解释变量具有相同或相反的变化趋势;(家庭能耗与住房⾯积、⼈⼝)⽣产、需求.......2. 数据收集的范围过窄,造成解释变量之间有相同或相反变化的假象;3. 某些解释变量之间存在某种近似的线性关系;(各解释变量有相同的时间趋势)4. ⼀个变量是另⼀个变量的滞后值;供给5. 解释变量的选择不当也可能引起变量间的多重共线性。
6. 过度决定模型。
(观测值个数少于参数个数)对于正确设置的模型,多重共线性基本上是⼀种样本现象。
§7.2 多重共线性的后果⼀. 完全多重共线性当模型具有完全多重共线性时,⽆法进⾏参数的OLS 估计;设模型 Y XB U =+,若有完全多重共线性,即()1k r X k <+,则()1T r X X k <+ 1()T X X -?不存在1()T TB X X X Y ∧-?=不存在,同样 21()()Tj u jj V X X βσ∧-=也不存在,显著性检验和预测都⽆法进⾏。
多重共线性的处理
14
主成分数学模型以及几何意义
假设我们所讨论的实际问题中,有p个指标,我们把这p个指 标看作p个随机变量,记为X1,X2,…,Xp,主成分分析就 是要把这p个指标的问题,转变为讨论p个指标的线性组合的 问题,而这些新的指标F1,F2,…,Fk(k≤p),按照保留 主要信息量的原则充分反映原指标的信息,并且相互独立。
这样反复进行,直到再无新变量可以引入,旧变量无法提出 位置。最终建立回归方程
在变量引入后,如果有的变量不显著,则说明新引入的变量 与其他变量存在多重共线性。此时我们将最显著程度达不到 标准的变量剔除。在这个过程中,我们达到了消除多重共线 性的效果。
第二种方法:主成分分析法
主成分分析法是利用降维的思想,在保留原始变量尽可能多 的信息的前提下把多个指标转化为几个综合指标的方法。 通常把转化生成的综合指标称为主成分,每一个主成分都是 原始变量的线性组合,但是各个主成分之间没有相关性,这 就解决的多重共线性的问题。
如果第一主成分不足以代替原来的几个变量的信息,再考虑 选取第二个主成分F2。为了消除多重共线性,要求协方差 cov(F1,F2)=0 以此类推可以选取第三主成分,第四主成分…这些主成分之 间不仅互不相关,而且它们的方差依次递减。 一般来说,选取多少个主成分能够反映原始变量方差的85% 时的个数就足够了。
满足如下的条件:
主成分之间相互独立,即无重叠的信息。即
Cov(Fi,Fj) 0,i j,i,j 1, 2, ,p
主成分的方差依次递减,重要性依次递减,即
Var(F1) Var ( F2 ) Var ( Fp )
10
平移、旋转坐标轴
x2 F2 F1
•• • • • • • • • • • • •• • •• • 成分分析的几何解释 •• • • • •• • • • • •• • • • • • •
第七章 多重共线性及其处理
第七章 多重共线性及其处理第一部分 学习辅导一、本章学习目的与要求1.理解多重共线性的概念;2.掌握多重共线性存在的主要原因;3.理解多重共线性可能造成的后果;4.掌握多重共线性的检验与修正的方法。
二、本章内容提要本章主要介绍计量经济模型的计量经济检验。
即多重共线性问题。
多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。
模型的多个解释变量间出现完全共线性时,模型的参数无法估计。
更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得t 统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。
显然,近似多重共线性使得模型偏回归系数的特征不再明显,从而很难对单个系数的经济含义进行解释。
多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。
而解决多重共线性的办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。
(一)多重共线性及其产生的原因当我们利用统计数据进行分析时,解释变量之间经常会出现高度多重共线性的情况。
1.多重共线性的基本概念多重共线性(Multicollinearity )一词由弗里希(Frish )于1934年在其撰写的《借助于完全回归系统的统计合流分析》中首次提出。
它的原义是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系。
如果在经典回归模型Y X βε=+中,经典假定(5)遭到破坏,则有()1R X k <+,此时称解释变量k X X X ,,,21 间存在完全多重共线性。
解释变量的完全多重共线性,也就是解释变量之间存在严格的线性关系,即数据矩阵X 的列向量线性相关。
因此,必有一个列向量可由其余列向量线性表示。
同时还有另外一种情况,即解释变量之间虽然不存在严格的线性关系,但是却有近似的线性关系,即解释变量之间高度相关。
第七章多重共线性
由于 r2 1,故 1/(1- r2 )1
当完全不共线时, r2 =0 当近似共线时, 0< r2 <1
var(ˆ1) 2 / x12i
var(ˆ1)
2
1
x12i 1 r 2
2
x12i
多重共线性使参数估计值的方差增大,1/(1-r2)为 方差膨胀因子(Variance Inflation Factor, VIF)
多重共线性是一个程度问题
若解释变量两两之间完全不相关,则不存在 该问题;
若其中部分解释变量之间完全相关,则根本 不能用OLS进行回归;
若解释变量之间存在一定程度的线性关系, 则是本章所要解决的多重共线性的问题。
2.参数的方差 因为估计值的方差为:
Var(1)
2 x22i
x12i x22i ( x1i x2i )2
i=1,2,…,n
其中: ci不全为0,则称为解释变量间存在完全共线 性(perfect multicollinearity)。
如果存在
c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n 其中ci不全为0,vi为随机误差项,则称为 近似共 线性(approximate multicollinearity)或交互相关 (intercorrelated)。
可能将重要的解释变量排除在模型之外
(4)模型的预测功能失效
变大的方差容易使区间预测的“区间”变大,使预测 失去意义。
注意:
多重共线性对回归分析结果影响的程度,不 仅取决于多重共线性的强弱,还取决于共线性变 量在模型中的重要性。
除非是完全共线性,多重共线性并不意味着 任何基本假设的违背;此,即使出现较高程度的 多重共线性,OLS估计量仍具有良好的统计性质。
07多重共线性 EVIEW 处理方法
第七章 多重共线模型案例导入:根据理论与经验分析,影响居民服装需求d C 的主要因素有可支配收入Y 、流动资产拥有量L 、服装类价格指数Pc 和总物价指数0P 。
下表给出了某地10年间有关统计资料。
服装需求函数有关统计资料年份d C (百万元) Y (百万元) L (百万元) 服装类价格指数Pc 物价总指数0P 19988.4 82.9 17.1 92 94 19999.6 88.0 21.3 93 96 200010.4 99.9 25.1 96 97 200111.4 105.3 29.0 94 97 200212.2 117.7 34.0 100 100 200314.2 131.0 40.0 101 101 200415.8 148.0 44.0 105 104 200517.9 161.8 49.0 112 109 200619.3 174.2 51.0 112 111 2007 20.8 184.7 53.0 112 111 背景知识:在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,即解释变量1X ,2X ,……,k X 中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
在经济现象中,经济变量之间常常因为存在具有相同方向的变化趋势、存在较密切关系、采用滞后变量作为解释变量、数据收集范围过窄等原因而造成存在多重共线性。
较高程度的多重共线性可能对最小二乘估计产生如下严重后果:增大最小二乘估计量的方差;参数估计值不稳定,对样本变化敏感;检验可靠性降低,产生弃真的错误。
由于参数估计量方差增大,在进行显著性检验时,t 检验值将会变小,可能使某些本该参数显著的检验结果变得不显著,从而将重要变量舍弃。
多重共线性是较为普通存在的现象,在运用最小二乘法进行多元线性回归时,不但要检验解释变量间是否存在多重共线性,还要检验多重共线性的严重程度。
第七章 多重共线性 《计量经济学》PPT课件
二、不作处理
1.当所有参数估计量都显著或者t值皆远大于2时,对
多重共线性可不作处理。
2.当因变量对所有自变量回归的拟合优度R2值大于缺
任何一个自变量对其余自变量回归的拟合优度值
R
2 j
时,对多重共线性可不作处理。
3.如果样本回归方程仅用于预测的目的,那么只 要存在于给定样本中的共线现象在预测期保持不 变,多重共性就不会影响预测结果,因此多重共 线性可不作处理。 4.如果多重共线性并不严重影响参数估计值,以 至于我们感到不需要改进它时,多重共线性可不 作处理。
则它所对应的解释变量xj与其它解释变量中的一个或 几个之间高度相关,足以引起解释变量之间的多重
共线性。
三、利用缺某一个解释变量的拟合优度检验
设有线性回归模型
y f (x1, x2 ,, xk ,u)
其中共有k个解释变量,其拟合优度为 R2。为检验
多重共线,依次建立缺一个解释变量的回归方程:
y f 1(x2 , x3,, xk) y f 2 (x1, x3 ,, xk) y f j (x1, x2 ,, x j1, x j1,, xk) y f k (x1, x2 ,, xk1)
r12 1
r1k r2k
rk1 rk 2 rkk rk1 rk 2 1
(7.3.6)
其中
rij
xi x j xi2 x2j
(i , j =1,2,…,k) (7.3.7)
因为 rij r ji ,所以,相关系数矩阵(7.3.6)是
对称矩阵。 r jj =1,所以在相关系数矩阵中只须
(7.3.4)
再依次求出相应的拟合优度
R12
,
R22
,,
R
多重共线性计量经济学-浙江大学韩菁
(2)滞后变量的引入
在经济计量模型中,往往需要引入滞后经济变量来反 映真实的经济关系。例如消费变动的影响因素不仅有本 期可支配收入,还应考虑以往各期的可支配收入;固定 资产存量变动的影响因素不仅有本期投资,还应考虑以 往若干期的投资。同一变量的前后期之值很可能有较强 的线性相关性,模型中引入了滞后变量,多重共线性就 难以避免。
?2
1
? ?
x12i
? 1?
r2
多重共线性使参数估计值的方差增大 , 1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)Leabharlann Xk1 ??Xk2 ?
? X
kn
? ???
中,至少有一列向量可由其他列向量(不包括第 一列)线性表出。
如:X2= ? X1,则X2对Y的作用可由 X1代替。
二、实际经济问题中的多重共线性
一般地,产生多重共线性的主要原因有以下三个方面:
(1)经济变量相关的共同趋势
在一定条件下,某些经济变量会出现同增或同降的趋势。 时间序列样本:经济繁荣时期,各基本经济变量(收入、 消费、投资、价格)都趋于增长;衰退时期,又同时趋于下 降。如果将这些有着共变趋势的变量同时引入模型,就会产 生多重共线性。 横截面数据:生产函数中,资本投入与劳动力投入往往 出现高度相关情况,大企业二者都大,小企业都小。
第七章 多重共线性
(Multicollinearity )
一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例
一、多重共线性的概念
对于模型
Yi= ?0+ ?1X1i+ ?2X2i+ ? + ? kXki+ ? i
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 多重共线性及其处理第一部分 学习辅导一、本章学习目的与要求1.理解多重共线性的概念;2.掌握多重共线性存在的主要原因;3.理解多重共线性可能造成的后果;4.掌握多重共线性的检验与修正的方法。
二、本章内容提要本章主要介绍计量经济模型的计量经济检验。
即多重共线性问题。
多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。
模型的多个解释变量间出现完全共线性时,模型的参数无法估计。
更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得t 统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。
显然,近似多重共线性使得模型偏回归系数的特征不再明显,从而很难对单个系数的经济含义进行解释。
多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。
而解决多重共线性的办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。
(一)多重共线性及其产生的原因当我们利用统计数据进行分析时,解释变量之间经常会出现高度多重共线性的情况。
1.多重共线性的基本概念多重共线性(Multicollinearity )一词由弗里希(Frish )于1934年在其撰写的《借助于完全回归系统的统计合流分析》中首次提出。
它的原义是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系。
如果在经典回归模型Y X βε=+中,经典假定(5)遭到破坏,则有()1R X k <+,此时称解释变量k X X X ,,,21ΛΛ间存在完全多重共线性。
解释变量的完全多重共线性,也就是解释变量之间存在严格的线性关系,即数据矩阵X 的列向量线性相关。
因此,必有一个列向量可由其余列向量线性表示。
同时还有另外一种情况,即解释变量之间虽然不存在严格的线性关系,但是却有近似的线性关系,即解释变量之间高度相关。
2.多重共线性产生的原因多元线性回归模型产生多重共线性的原因很多,主要有:(1)经济变量的内在联系这是产生多重共线性的根本原因。
(2)解释变量中含有滞后变量(3)经济变量变化趋势的“共向性”必须指出,多重共线性基本上是一种样本现象。
因为人们在设定模型时,总是尽量避免将理论上具有严格线性关系的变量作为解释变量收集在一起,因此,实际问题中的多重共线性并不是解释变量之间存在理论上或实际上的线性关系造成的,而是由所收集的数据(解释变量观察值)之间存在近似的线性关系所致。
(二)多重共线性的影响多重共线性会产生以下问题:(1)增大了OLS 估计量的方差(2)难以区分每个解释变量的单独影响(3)回归模型缺乏稳定性(4)t 检验的可靠性降低(三)多重共线性的判别在应用多元回归模型中,人们总结了许多检验多重共线性的方法。
1.系数判定法(1)如果决定系数2R 很大(一般大于0.8),但模型中全部或部分参数却不显著,那么,此时解释变量之间往往存在多重共线性。
(2)从经济理论知某些解释变量对因变量有重要影响,或经检验变量之间线性关系显著,但其参数的t 检验均不显著,一般就应怀疑是多重共线性所致。
(3)如果对模型增添一个新的解释变量之后,发现模型中原有参数估计值的方差明显增大,则表明在解释变量之间(包括新添解释变量在内)可能存在多重共线性。
2. 用解释变量之间所构成的回归方程的决定系数2R 进行判别3. 逐步回归判别法以Y 为被解释变量逐个引入解释变量,构成回归模型,进行参数估计,根据决定系数的变化决定新引入的变量是否能够加入模型之中。
首先将Y 对所有的解释变量分别作回归,得到所有的模型,取决定系数最大的模型中的解释变量加入模型,作为第一个引入模型的变量;其次,将Y 再对剩余的解释变量分别加入模型,进行二元回归,再次,取决定系数最大的解释变量加入模型;依次做下去,直到模型的决定系数不再改善为止。
4.方差膨胀因子VIF 判别法对于多元线性回归模型,ˆi β的方差可以表示成 ()()()VIF X X r X X Var i i i i i i .111.ˆ2222∑∑-=--=σβ一般当V I F >10时(此时2i r >0.9),认为模型存在较严重的多重共 线性。
5.修正的Frish 判别法该方法不仅可以对多重共线性进行判别,同时也是处理多重共线性问题的一种有效方法。
其步骤为:(1)用被解释变量分别对每个解释变量进行线性回归,根据经济理论和统计检验从中选择一个最合适的回归模型作为基本回归模型,通常选取决定系数2R 最大的回归模型。
(2)在基本回归模型中逐个增加其他解释变量,重新进行线性回归,如果新增加的这个解释变量提高了回归模型的决定系数2R ,并且回归模型中的其他参数统计上仍然显著,就在模型中保留该解释变量;如果新增加的解释变量没有显著提高回归模型的拟合优度,则不在模型中保留该解释变量;如果新增加的解释变量提高了回归模型的决定系数,并且回归模型中某些参数的数值或符号等受到显著的影响,说明模型中存在多重共线性,对该解释变量同与之相关的其他解释变量进行比较,在模型中保留对被解释变量影响较大的,剔除影响较小的。
(四)多重共线性的解决方法设定计量经济模型的时候,为了全面反映各方面因素的影响,总是在理论和实践认识的基础上,尽量选取被解释变量的所有影响因素。
这样在同时考虑多个影响因素的情况下,很可能产生多重共线性问题。
因此,为了解决这一矛盾,剔除变量时应该全面、慎重考虑,根据解释变量的特点采用较为合适的方式。
1.剔除引起共线性的变量根据经济理论和实际经验设定计量经济模型时,容易考虑过多的解释变量,其中,有些可能是无显著影响的次要变量,还有一些变量的影响可以用模型中的其他变量来代替。
所以在估计模型之前,找出引起多重共线性的变量,将它剔除出去,是最有效的克服多重共线性问题的方法。
2.变换模型的形式对原模型进行适当的变换,也可以消除或削弱原模型中解释变量之间的相关关系。
具体有三种变换方式:一是变换模型的函数形式;二是变换模型的变量形式;三是改变变量的统计指标。
3.综合使用时序数据与横截面数据如果能同时获得变量的时序数据和横截面数据,则先利用某类数据估计出模型中的部分参数,再利用另一类数据估计模型的其余参数。
4.逐步回归分析法建立计量经济模型的时候,一般是将解释变量全部引入模型,然后再根据统计检验和定性分析从中逐个剔除次要的或产生多重共线性的变量,选择变量是一个“由多到少”的过程。
而逐步回归选取变量时,是一个“由少到多”的过程,即从所有解释变量中间先选择影响最为显著的变量建立模型,然后再将模型之外的变量逐个引入模型;每引入一个变量,就对模型中的所有变量进行一次显著性检验,并从中剔除不显著的变量;逐步引入—剔除—引入,直到模型之外所有变量均不显著时为止。
许多统计分析软件都有逐步回归程序,但根据计算机软件自动挑选的模型往往统计检验合理,经济意义并不理想。
因此,实际应用中一般是依据逐步回归的原理,结合主观分析来筛选变量。
02211=++ki k i i X X X λλλΛ12,,k λλλL , 5.增加样本容量由于多重共线性是一个样本特性,如果理论上解释变量之间不存在多重共线性,则可以通过收集更多的观测值增加样本容量,来避免或减弱多重共线性。
如将时间序列和截面数据合并成平行数据。
但当解释变量的总体存在多重共线性时,理论上说增加再多的样本容量也不能降低解释变量之间的线性关系。
6.不作任何处理当模型出现下列情况时,对多重共线性可不做处理。
(1)当所有参数估计量皆显著或者t 值皆大于2时,对多重共线性可不做处理。
(2)当被解释变量对所有解释变量回归的决定系数2R 值大于任何一个解释变量对其余解释变量回归的决定系数2i R 值时,对多重共线性可不做处理。
(3)如果多重共线性并不严重影响参数估计值,以至我们感到不需要改进它时,多重共线性可不做处理。
(4)如果样本回归方程仅用于预测的目的,那么只要存在于给定样本中的共线性现象在预测期保持不变,多重共线性就不会影响预测结果,因此多重共线性可不做处理。
第二部分 重点、难点释析多重共线性。
我们关于经典线性回归模型(CLRM )有如下假定: 假定1:回归模型对参数是线性的 假定2:在重复抽样中X 的值是固定的(非随机)假定3:干扰项的均值为零。
即,E(u i |X i )=0假定4:同方差性或u i 的方差相等。
即Var(u i |X i )=E[u i -E(u i )|X i ]2 = E(u i 2|X i ]2 = s 2假定5:各个干扰项无自相关。
即 Cov(u i ,u j |X i ,X j )=E[u i -E(u i |X i ) ][u j -E(u j |X j )] = E(u i |X i )(u j |X j ) = 0假定6:u i 和X i 的协方差为零。
即Cov(u i ,X i ) = E[u i – E(u i )][ Xi – E(X i )] = E[u i (X i – E(X i ))] =E(u i X i ) – E(u i )E(X i ) = E(u i X i ) = 0假定7:观测次数必须大于待估计的参数个数。
假定8:解释变量X 的只要有变异性。
即一个样本中,X i 不能完全相同。
假定9:模型没有设定误差。
假定10:没有完全的多重共线性,即解释变量之间没有完全的线性关系。
在现实中,以上假定不一定得到满足。
存在线性关系。
如果假定10不成立,即在解释变量X 1,X 2,…,X k 中,解释变量间的确定线系关系存在时,存在不全为零的常数这种关系为完全多重共线性,变量间的相关系数为1。
实际上更多的情况是,解释变量间有不完全的线性关系:存在不全为零的数:使假定λ1<>0,12,,k λλλL ,ki k i i i X X X X 131321211,0λλλλλλλΛ++=<>则设02211=+++i ki k i i v X X X λλλΛ113132121λλλλλλλiki k i i i v X X X X +++=Λ其中v i为随机项。
我们把这种解释变量间存在的完全或不完全的线性关系称为多重共线性。
由于经济变量自身的性质,它们之间这种多重共线性或强或弱,普遍存在的。