第七章 多重共线性

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第七章 多重共线性
教学目的及要求:
1、重点理解多重共线性在经济现象中的表现及产生的原因和后果
2、掌握检验和处理多重共线性问题的方法
3、学会灵活运用Eviews软件解决多重共线性的实际问题。
第一节 多重共线性的产生及后果
一、多重共线性的含义
1、含义
在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,Xk中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
2、类型
多重共线性包含完全多重共线性和不完全多重共线性两种类型。
(1)完全多重共线性
完全多重共线性是指线性回归模型中至少有一个解释变量可以被其他解释变量线性表示,存在严格的线性关系。
如对于多元线性回归模型
EMBED Equation.3 (7-1)
存在不全为零的数 EMBED Equation.3 ,使得下式成立:
EMBED Equation.3 (7-2)
则可以说解释变量 EMBED Equation.3 之间存在完全的线性相关关系,即存在完全多重共线性。
从矩阵形式来看,就是 EMBED Equation.3 , 即 EMBED Equation.3 ,观测值矩阵是降秩的,表明在向量X中至少有一个列向量可以由其他列向量线性表示。
(2)不完全多重共线性
不完全多重共线性是指线性回归模型中解释变量间存在不严格的线性关系,即近似线性关系。
如对于多元线性回归模型(7-1)存在不全为零的数 EMBED Equation.3 ,使得下式成立:
EMBED Equation.3 (7-3)
其中 EMBED Equation.3 为随机误差项,则可以说解释变量 EMBED Equation.3 之间存在不完全多重共线性。随机误差项表明上述线性关系是一种近似的关系式,大体上反映了解释变量间的相关程度。
完全多重共线性与完全非线性都是极端情况,一般说来,统计数据中多个解释变量之间多少都存在一定程度的相关性,对多重共线性程度强弱的判断和解决方法是本章讨论的重点。
二、多重共线性产生的原因
多重共线性在经济现象中具有普遍性,其产生的原因很多,一般较常见的有以下几种情况。
(一)经济变量间具有相同方向的变化趋势
在同一经济发展阶段,一些因素的变化往往同时影响若干经济变量向相同方向变化,从而引起多重共线性。如在经济上升时期,投

资、收入、消费、储蓄等经济指标都趋向增长,这些经济变量在引入同一线性回归模型并作为解释变量时,往往存在较严重的多重共线性。
(二)经济变量间存在较密切关系
由于组成经济系统的各要素之间是相互影响相互制约的,因而在数量关系上也会存在一定联系。如耕地面积与施肥量都会对粮食总产量有一定影响,同时,二者本身存在密切关系。
(三)采用滞后变量作为解释变量较易产生多重共线性
一般滞后变量与当期变量在经济意义上关联度比较密切,往往会产生多重共线性。如在研究消费规律时,解释变量因素不但要考虑当期收入,还要考虑以往各期收入,而当期收入与滞后收入间存在多重共线性的可能很大。
(四)数据收集范围过窄,有时会造成变量间存在多重共线性问题。
三、多重共线性产生的后果
由前述可知,多重共线性分完全多重共线性和不完全多重共线性两种情况,两种情况都会对模型进行最小二乘估计都会产生严重后果。
(一)完全多重共线性 产生的后果
以二元线性回归模型为例,
EMBED Equation.3 (7-4)
以离差形式表示,假设其中 EMBED Equation.3 , EMBED Equation.3 , EMBED Equation.3 , EMBED Equation.3 ,常数 EMBED Equation.3 ,则, EMBED Equation.3 , EMBED Equation.3 的最小二乘估计量为
EMBED Equation.3
EMBED Equation.3 (7-5)
同理得到: EMBED Equation.3 (7-6)
可见参数估计值 EMBED Equation.3 和 EMBED Equation.3 无法确定。
再考察参数估计量的方差,由前面章节可知:
EMBED Equation.3 (7-7)
将 EMBED Equation.3 代入上式,则
EMBED Equation.3 (7-8)
= EMBED Equation.3
说明此种情况下 EMBED Equation.3 方差为无穷大。
同理可以证明 EMBED Equation.3 的方差在完全共线性下也为无穷大。
以上分析表明,在完全多重共线性条件下,普通最小二乘法估计的参数值不能确定,并且估计值的方差为无穷大。
(二)不完全多重共线性产生的后果
假设上述二元线性回归模型中解释变量 EMBED Equation.3 与 EMBED Equation.3 的关系为
EMBED Equation.3 (7-9)
其中 EMBED Equation.3 为随机项,满足 EMBED Equation.3 , EMBED Equation.3 ,代入 EMBED Equation.3 估计表达得:
EMBED Equation.3 EMBED Equation.3

= EMBED Equatio

n.3 (7-10)
由于 EMBED Equation.3 ,因而 EMBED Equation.3 是可确定估计的,但是其数值依赖 EMBED Equation.3 的数值,而 EMBED Equation.3 的数值随样本的变化有较大变化,所以 EMBED Equation.3 估计值是很不稳定的。
同理可以证明 EMBED Equation.3 也是可估计的,且数值具有不稳定性。
考察估计量的方差:
由(7-1)式可知 EMBED Equation.3 是 EMBED Equation.3 、 EMBED Equation.3 的相关系数,因此
EMBED Equation.3 (7-11)
参数估计量的方差可表达为:
EMBED Equation.3
EMBED Equation.3 (7-12)
其中 EMBED Equation.3 为 EMBED Equation.3 和 EMBED Equation.3 之间的相关系数,从(7-12)式可见, EMBED Equation.3 的值越大,则共线程度越高,估计量方差 EMBED Equation.3 越大,直至无穷。
综上所述,线性回归模型解释变量间存在多重共线性可能产生如下后果:增大最小二乘估计量的方差;参数估计值不稳定,对样本变化敏感;检验可靠性降低,产生弃真错误。由于参数估计量方差增大,在进行显著性检验时,t检验值将会变小,可能使某些本该参数显著的检验结果变得不显著,从而将重要变量舍弃。
第二节 多重共线性的检验
多重共线性是较为普通存在的现象,从上节分析可知,较高程度的多重共线性会对最小二乘估计产生严重后果,因此,在运用最小二乘法进行多元线性回归时,不但要检验解释变量间是否存在多重共线性,还要检验多重共线性的严重程度。
一、不显著系数法
情况1、 EMBED Equation.3 很大,t小
不显著系数法是利用多元线性回归模型的拟合结果进行检验。如果拟合优度 EMBED Equation.3 的值很大(一般来说在0.8以上),然而模型中的全部或部分参数值估计值经检验却不显著,那么解释变量间有可能存在较严重的多重共线性。
情况2、理论性强,检验值弱
如果从经济理论或常识来看某个解释变量对被解释变量有重要影响,但是从线性回归模型的拟合结果来看,该解释变量的参数估计值经检验却不显著,那么可能是解释变量间存在多重共线性所导致的。
情况3、新引入变量后,方差增大
在多元线性回归模型中新引入一个变量后,发现模型中原有参数估计值的方差明显增大,则说明解释变量间可能存在多重共线性。
二、拟合优度 EMBED Equation.3 检验
对多元线性回归模型中各个解释变量相互建立回归方程,分别求出各回归方程的拟和优度,如果其中最大的一个

接近1, EMBED Equation.3 显著大于临界值,该变量可以被其他变量线性解释,则其所对应的解释变量与其余解释变量间存在多重共线性。
如设某多元线性回归模型中原有 EMBED Equation.3 个解释变量 EMBED Equation.3 ,将每个解释变量对其他解释变量进行回归,得到 EMBED Equation.3 个回归方程:
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
分别求出上述各个方程的拟合优度 EMBED Equation.3 ,如果其中最大的一个 EMBED Equation.3 接近于1,则它所对应的解释变量 EMBED Equation.3 与其余解释变量间存在多重共线性。
三、相关矩阵法
考察多元线性回归模型
EMBED Equation.3 (7-13)
其解释变量之间的相关系数矩阵为:
EMBED Equation.3 (7-14)
因为 EMBED Equation.3 ,,所以上面相关阵为对称阵, EMBED Equation.3 ,只需考察主对角线元素上方(或下方)某个元素绝对值是否很大(一般在0.8以上),就可以判断两个解释变量间是否存在多重共线性。
结论:
另外需要特别注意的是,如果相关系数很大,则一定存在多重共线性,如果相关系数很小,不一定没有多重共线性。
四、Frisch综合分析法
1、方法及分析标准
Frisch综合分析法也叫逐步分析估计法,其基本思想是先将被解释变量对每个解释变量作简单回归方程,称为基本回归方程。再对每一个基本回归方程进行统计检验,并根据经济理论分析选出最优基本方程,然后再将其他解释变量逐一引入,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:
1.如果新引进的解释变量使 EMBED Equation.3 得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。
2.如果新引进的解释变量对 EMBED Equation.3 改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。
3.如果新引进的解释变量不仅改变了 EMBED Equation.3 ,而且对其他回归系数的数值或符号具有明显影响,则可认为引进新变量后,回归模型解释变量间存在严重多重共线性。这个新引进的变量如果从理论上分析是十分重要的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。如果通过检验证明存在明显线性相关的两个解释变量中的一个可以被另一个解释,则可略去其中对被解释变量影响较小的那个变量,模型

中保留影响较大的那个变量。
2、具体实例
例7-1 设某地10年间有关服装消费、可支配收入、流动资产、服装类物价指数、总物价指数的调查数据如表7-1,请建立需求函数模型。
表7-1 服装消费及相关变量调查数据
年份 服装开支

(百万元) 可支配收入
Y
(百万元) 流动资产

(百万元) 服装类物价指数Pc
1992年=100 总物价指数
P0
1992年=100 1988 8.4 82.9 17.1 92 94 1989 9.6 88.0 21.3 93 96 1990 10.4 99.9 25.1 96 97 1991 11.4 105.3 29.0 94 97 1992 12.2 117.7 34.0 100 100 1993 14.2 131.0 40.0 101 101 1994 15.8 148.2 44.0 105 104 1995 17.9 161.8 49.0 112 109 1996 19.3 174.2 51.0 112 111 1997 20.8 184.7 53.0 112 111
(1)设对服装的需求函数为
EMBED Equation.3
用最小二乘法估计得
EMBED Equation.3
EMBED Equation.3 EMBED Equation.3 EMBED Equation.3 EMBED Equation.3
EMBED Equation.3
由 EMBED Equation.3 得出拒绝零假设,认为服装支出与解释变量间存在显著关系。
(2)求各解释变量的基本相关系数
EMBED Equation.3
上述基本相关系数表明解释变量间高度相关,也就是存在较严重的多重共线性。
(3)为检验多重共线性的影响,作如下简单回归:
① EMBED Equation.3
(-3.3102) (41.9370)
EMBED Equation.3 EMBED Equation.3
② EMBED Equation.3
(-9.1682) (12.5363)
EMBED Equation.3 EMBED Equation.3
③ EMBED Equation.3
(2.5858) (15.3096)
EMBED Equation.3 EMBED Equation.3
④ EMBED Equation.3
(-14.7710) (18.6585)
EMBED Equation.3 EMBED Equation.3
以上四个方程根据经济理论和统计检验,收入Y是最重要的解释变量(t检验值=41.937也最大),从而得出最优简单回归方程 EMBED Equation.3 。
(4)将其余变量逐个引入 EMBED Equation.3 ,计算结果如下表7-2:
表7-2 服装消费模型的估计
EMBED Equation.3
(常数) EMBED Equation.3 EMBED Equation.3 EMBED Equation.3 EMBED Equation.3 EMBED Equation.3 EMBED Equation.3 EMBED Equation.3 -1.2455
(-3.3102) 0.117(41.9370) ____ ____ ____ 0.9955 2.6271 EMBED Equation.3 1.4047
(0.2852) 0.1257
(8.4259) -0.0361
(-0.5398) ____ ____ 0.9957 2.5335 EMBED Equation.3 0.9400
(0.1815) 0.1387
(5.5845) -0.0345
(-0.4941) -0.0379
(-0.6682) ____ 0.9959 3.1568 EMBED Equation.3 -12.7593
(-1.9581) 0.1036
(7.4640) -0.1882
(-2.4693) ____ 0.3186
(2.6189) 0.9980 3.5241 EMBED Equation.3 -13.5335
(-1.8013) 0.0970
(3.6603) -0.1991
(-2.2087) 0.0151
(0.3053) 0.3401
(2.2714) 0.9980 3.3826
结果分析:
①在最优简

单回归方程 EMBED Equation.3 中引入变量 EMBED Equation.3 ,使 EMBED Equation.3 由0.9955提高到0.9957, EMBED Equation.3 正号, EMBED Equation.3 负号是合理的,进行t检验 EMBED Equation.3 不显著。从经济理论分析, EMBED Equation.3 应该是重要因素,虽然 EMBED Equation.3 与 EMBED Equation.3 高度相关,但并不影响 EMBED Equation.3 的显著性和稳定性,因此,可能是“有利变量”,暂时给予保留。
②模型中引入变量 EMBED Equation.3 , EMBED Equation.3 由0.9957提高到0.9959, EMBED Equation.3 值略有提高。虽然 EMBED Equation.3 与 EMBED Equation.3 , EMBED Equation.3 与 EMBED Equation.3 均高度相关,但是 EMBED Equation.3 的引入对参数 EMBED Equation.3 、 EMBED Equation.3 的影响不大, EMBED Equation.3 的符号不满意,可能是“多余变量”,暂时删除。
③舍去变量 EMBED Equation.3 ,加入变量 EMBED Equation.3 ,使 EMBED Equation.3 由0.9957提高到0.9980, EMBED Equation.3 值改进较大, EMBED Equation.3 、 EMBED Equation.3 、 EMBED Equation.3 均显著,从经济意义上看也是合理的。因此可以认为 EMBED Equation.3 、 EMBED Equation.3 皆为“有利变量”应给予保留。
④最后再引入变量 EMBED Equation.3 , EMBED Equation.3 =0.9980没有增加(或几乎没有增加),对其他三个解释变量参数系数没有多大影响,可以确定 EMBED Equation.3 是多余变量,应从模型中删除。
得到如下结论:
回归模型以 EMBED Equation.3 为最优模型。
通过上例分析可以看出,Frisch综合分析法不但可以检验多重共线性,同时也可以对多重共线性进行处理。
第三节 多重共线性的处理
一、先验信息法
先验信息法是指根据经济理论或者其他已有研究成果事前确定回归模型参数间的某种关系,将这种约束条件与样本信息综合考虑,进行最小二乘估计。运用参数间的先验信息可以消除多重共线性。
如对Cobb-Douglas生产函数进行回归估计
EMBED Equation.3
其中Y、L、K分别表示产出、劳动力和资本
由先验信息可知劳动投入量L与资金投入量K之间通常是高度相关的,如果按照经济理论“生产规模报酬不变”的假定,则
EMBED Equation.3
则 EMBED Equation.3
EMBED Equation.3
两边取对数
EMBED Equation.3 (7-15)
此时上式为一元线性回归模型,不存在多重共线性问题。
二、改变变量的定义形式
在进行回归模型共线性处理时,有时要根据所分析的具体经济问题

及模型的形式对解释变量重新调整,一般有如下几种方法:
(1)用相对数变量替代绝对数变量
如设需求函数为
EMBED Equation.3 (7-16)
其中Y、X、P、P1 分别代表需求量、收入、商品价格与替代商品价格,由于商品价格与替代商品价格往往是同方向变动,该需求函数模型可能存在多重共线性。
考虑用两种商品价格之比作解释变量,代替原模型中商品价格与替代商品价格两个解释变量,则模型为如下形式:
EMBED Equation.3 (7-17)
原模型中两种商品价格变量之间的多重共线性得以避免。
(2)删去模型中次要的或可替代的解释变量
如果回归模型解释变量间存在较严重的多重共线性,根据经济理论、实践经验、相关系数检验、统计分析等方法鉴别变量是否重要及是否可替代,删去那些对被解释变量影响不大,或认为不太重要的变量,则可减轻多重共线性。
(3)差分法
对回归模型中所有变量作差分变换也是消除多重共线性的一种有效方法。
如设原回归模型为
EMBED Equation.3 (7-18)
模型中解释变量 EMBED Equation.3 与 EMBED Equation.3 间存在多重共线性, EMBED Equation.3 与 EMBED Equation.3 都是时间序列资料,对于 EMBED Equation.3 期
EMBED Equation.3 (7-19)
EMBED Equation.3 (7-20)
得到原模型 EMBED Equation.3 期与 EMBED Equation.3 期的一阶差分形式,令一阶差分为
EMBED Equation.3
可以得到一阶差分模型:
EMBED Equation.3 (7-21)
这里的解释变量不再是原来的解释变量而是解释变量的一阶差分,即使原模型中存在严重的多重共线性,变换后的一阶差分模型一般也可以解决此类问题。
值得注意的是,差分变换法也有一定的负面作用。由于 EMBED Equation.3 , EMBED Equation.3 ,而 EMBED Equation.3 与 EMBED Equation.3 等必然相关,因此差分变换法在减少多重共线性的同时,却带来了随机扰动项序列相关问题。
三、主成分法
1、含义
主成分法是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标,从而在不丢掉重要信息的前提下避开变量间共线性问题,便于进一步分析。在主成分分析中提取出的每个主成分都是原来多个指标的线性组合。比如有两个原始变量 EMBED Equation.3 和 EMBED Equation.3 ,则一共可提取出两个主成分:
EMBED Equation.3 (

7-22)
原则上如果有n个变量,则最多可以提取出n个主成分,但如果将它们全部提取出来就失去了该方法简化数据的意义。一般情况下提取出2-3个主成分(已包含了90%以上的信息),其他的可以忽略不计。
2、基本原理
主成分分析的基本原理是将解释变量转换成若干个主成分,这些主成分从不同侧面反映解释变量的综合影响,并且互不相关。因此,可以将被解释变量关于这些主成分进行回归,再根据主成分与解释变量之间的对应关系,求得原回归模型的估计方程。
3、具体步骤
主成分回归的具体步骤:
(1)对原始样本数据做标准化处理,得到解释变量的相关系数矩阵R。
(2)计算R的 EMBED Equation.3 个特征值 EMBED Equation.3 ,以及相应的标准化特征向量 EMBED Equation.3 。
(3)利用特征值检验多重共线性。模型存在多重共线性时,至少有一个特征值近似地等于零,不妨设 EMBED Equation.3 近似为零,这表明解释变量之间存在 EMBED Equation.3 个线性相关关系。
(4)设多元线性模型为 EMBED Equation.3 ,标准化后的解释变量 EMBED Equation.3 的k个主成分为
EMBED Equation.3 (7-23)
其中 EMBED Equation.3 互不相关,并且 EMBED Equation.3 近似为零。将标准化的被解释变量 EMBED Equation.3 关于 EMBED Equation.3 个主成分 EMBED Equation.3 进行回归,得
EMBED Equation.3 (7-24)
(5)根据主成分与解释变量之间的关系式(7-23),将其代入主成分回归方程式(7-24),求得用标准化数据表示的 EMBED Equation.3 回归方程:
EMBED Equation.3 (7-25)
系数 EMBED Equation.3 与原模型中参数 EMBED Equation.3 之间的关系为
EMBED Equation.3 (7-26)
EMBED Equation.3 (7-27)
其中, EMBED Equation.3 分别为 EMBED Equation.3 和 EMBED Equation.3 的标准差,由此可以计算出原回归模型中的参数,进而得到
EMBED Equation.3 (7-28)
四、岭回归估计
1、含义
岭回归分析实际上是一种改良的最小二乘法,是一种专门用于共线性数据分析的有偏估计回归方法。如果回归模型的假定得不到满足,则(的OLS估计的优良性质将遭到严重破坏,如果诸X之间有完全的共线性,则它们的回归系数是不确定的,并且它们的标准误没有定义;如果有高度共线性,回归系数有较大的标准误,系数的总体值不能准确地加以估计,将导致回归系数的方差扩大。H

orel(1970)提出了岭回归估计方法,该方法放弃最小二乘的无偏性,损失部分信息,以放弃部分精确度为代价来寻求效果稍差但更符合实际的回归方程。故岭回归所得剩余标准差比最小二乘回归要大。
2、基本原理
岭回归分析的基本思想是当自变量间存在共线性时,解释变量的相关矩阵行列式近似为零, EMBED Equation.3 是奇异的,也就是说它的行列式的值也接近于零,此时OLS估计将失效。此时可采用岭回归估计。岭回归就是用 EMBED Equation.3 代替正规方程中的 EMBED Equation.3 ,人为地把最小特征根由min(i提高到min((i+k),希望这样有助于降低均方误差。这时( 的岭估计定义为:
EMBED Equation.3
上式作为β的岭估计,当k=0时即为通常所说的最小二乘估计(OLS估计)。当 EMBED Equation.3 时, EMBED Equation.3 , 一般情况下, EMBED Equation.3 取0到1之间的数值。
EMBED Equation.3 表示在 EMBED Equation.3 的矩阵对角线上每个元素都加上一个正数,就象形成一个山脊一样,用式b(k)来估计(,这种估计参数的方法,称为岭回归估计法, EMBED Equation.3 为岭回归系数。
在岭回归分析中关键问题是如何选择k值,迄今为止,已有十余种选择k值的方法,但没有一种方法被证明为显著地优于其它方法。
岭回归方法是70年代以后发展起来的,在计量经济学中还是新方法,无论方法本身还是实际应用都还很不完善。
五、逐步回归法
1、含义
逐步回归法是指利用被解释变量 EMBED Equation.3 对每一个解释变量 EMBED Equation.3 作一个回归方程,构造统计量,进行统计检验,并根据相应的经济理论进行解释,从中选取最优的回归方程;然后逐步引入其他的解释变量,再做相应的回归方程,扩大模型的规模,同时对所有解释变量的回归系数进行检验。
2、具体要求
(1)引入新变量,判断拟和优度 EMBED Equation.3
(2)引入新变量, EMBED Equation.3 改进,但统计检验不显著
第四节 带多重共线性的实例分析
见教材及上机操作

本章小结
多重共线性问题是计量经济分析中的重要内容,本章首先讨论了多重共线性的含义、产生原因及后果,介绍了不显著系数法、拟合优度 EMBED Equation.3 检验法、相关矩阵法和Frisch综合分析法等多重共线性的检验方法,利用Eviews软件结合实例分析了先验信息法、改变变量的定义形式、主成分法和岭回归估计法等克服多重共线性的方法。










PAGE


PAGE 14







*

**[JimiSoft: Unregistered Software ONLY Convert Part Of File! Read Help To Know How To Register.]***



相关文档
最新文档