第7章 多重共线性
7.1多重共线性的概念及产生原因
第七章 多重共线性
• 本章主要内容: 本章主要内容: 第一节 多重共线性的概念及产生原因 第二节 多重共线性的后果 第三节 多重共线性的检验 第四节 多重共线性的修正方法 第五节 案例分析
多重共线性有两种情况: 多重共线性有两种情况:完全多重共线性和 近似多重共线性。 近似多重共线性。
如果存在一组不全为零的数λ0 , λ1 , λ2 ,⋯ , λk,使得
λ0 + λ1 X 1i + λ2 X 2i + ⋯ + λk X ki = 0
则称模型存在完全多重共线性。 则称模型存在完全多重共线性。 完全多重共线性
(2)解释变量中含有滞后变量 ) 在计量经济学模型中, 在计量经济学模型中,往往需要引入滞后经济 变量来反映真实的经济关系。例如,以相对收入 变量来反映真实的经济关系。例如, 假说为理论假设,则居民消费C 假说为理论假设,则居民消费 t的变动不仅受当 期收入Y 的影响, 的影响, 期收入 t的影响,还受前期收入 Yt-1的影响,于 是建立以下模型: 是建立以下模型:
Ct = β 0 + β1Yt + β 2Yt −1 + ut
显然, 显然,当期收入和前期收入之间存在着较强的线 性相关性。 性相关性。
3.利用截面数据建立模型也可能出现多重共线性 利用截面数据建立模型也可能出现多重共线性 多重共线性一般与时间序列有关, 多重共线性一般与时间序列有关,但在截面 一般与时间序列有关 数据中也经常出现。例如,在生产函数中, 数据中也经常出现。例如,在生产函数中,大企 业拥有大量的劳动力和资本,小企业只有较少的 业拥有大量的劳动力和资本, 劳动力和资本, 劳动力和资本,投入的劳动量和资本量通常是高 度相关的。 度相关的。 在多元线性回归模型中, 在多元线性回归模型中,我们关心的并不是 多重共线性的有无,而是多重共线性的程度。当 多重共线性的有无,而是多重共线性的程度。 有无 程度 多重共线性程度过高时, 多重共线性程度过高时,将给最小二乘估计带来 严重的后果。 严重的后果。
多重共线性
多重共线性多重共线性(multicollinearity )的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系:0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数,但不同时为零。
● 0...2211≈+++k k X X X λλλ, 近似的多重共线性● 通过巴伦坦图做简单的描述。
共线性部分可用两圆圈的重叠部分来衡量。
重叠部分越大,共线性程度越高。
● 我们定义的多重共线性仅对X 变量之间的线性关系而言,它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的,诸X变量的回归系数将是不正确的,并且它们的标准误差为无穷大●如果多重共线性是不完全的,那末,虽然回归系数可以确定,却有较大的标准误差,意思是,系数不能以很高的精确或准精确加以估计,这会导致:-参数估计不精确,也不稳定-参数估计量的标准差较大,影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下,只要模型满足CLRM 假定,回归系数就为BLUE,但特定的样本估计量并不一定等于真值。
多重共线性的来源(1)许多经济变量在时间上由共同变动的趋势,如:收入,投资,消费(2)把一些经济变量的滞后值也作为解释变量在模型中使用,而解释变量和滞后变量通常相关,如:消费和过去的收入多重共线性一般与时间序列有关,但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的,造成的后果也比较复杂,对多重共线性的检验缺少统一的准则- 对有两个解释变量的模型,作散点图,或相 关系数,或拟和优度R平方。
- 对有多个解释变量的模型,分别用一个解释 变量对其它解释变量进行线性回归,计算拟 和优度22221,...,,k R R R- 考察参数估计值的符号,符不符合理论 - 增加或减少解释变量,考察参数估计值的变 化- 对比拟和优度和t检验值多重共线性的修正方法● 增加样本观测值,如果多重共线性是由样本引起的,可以通过收集更多的观测值增加样本容量。
多重共线性检验方法
多重共线性检验方法
多重共线性检验方法是检验自变量之间是否存在强相关性的一种方法。
共线性可能导致回归结果不可靠,误差增加,对自变量的解释力下降等问题。
因此,进行多重共线性检验是回归分析中非常重要的一环。
常见的多重共线性检验方法包括变量间的相关系数、方差膨胀因子(VIF)和特征值等。
变量间的相关系数可以通过计算自变量两两之间的皮尔逊相关系数来得到。
如果相关系数大于0.8或0.9,可以认为自变量之间存在强相关性。
方差膨胀因子(VIF)是用来度量自变量间线性关系强度的一种方法。
VIF越大,表示自变量与其他自变量之间的相关性越强。
特征值检验是对协方差矩阵进行特征值分解,通过判断特征值的大小来确定自变量之间的共线性程度。
如果存在特征值较小的情况,可以表明存在多重共线性。
此外,还有其他一些检验方法,如条件数、扰动法等,可以用来检验多重共线性。
综上所述,多重共线性检验是回归分析中重要的一步,通过各种方法来判断自变量之间是否存在强相关性,以保证回归模型的稳健性和可靠性。
第七章 多重共线性
2
X 1i 1 r 2
2
ˆ 同理:Var b2
2
X 2i 1 r 2
2
第二节
多重共线性的影响后果
2
ˆ 当完全不共线时,r=0, Var b1
X
2 1i
当不完全共线时,r越接近1,相关程度越高, bi Var ˆ 越大,参数估计值越不准确。
第四节
多重共线性的解决方法
三、逐步回归法 (1)计算因变量对每一个解释变量的回归方程,并分别 进行统计检验,从中选取最合适的基本回归方程。 (2)逐一引入其他解释变量,重新进行回归,在模型中 每个解释变量均显著,参数符号正确, R 2 值有所提高的前 提下,从中再选取最合适的二元回归方程。 (3)在选取的二元回归方程的基础上以同样的方式引 入第三解释变量;如此引入,直至无法引入新变量为止。
第四节
多重共线性的解决方法
(2)如果历年的平均收入弹性与近期的收入弹性 近似相等,就可以用 a2代替原模型中的 b2 。将原模 ln y a2 ln I b0 b1 ln P 型变为 y1 ln y a2 ln I 令:
p1 ln P 再利用时间序列数据求出价格弹性 b1 以及 b0即可。
第四节
多重共线性的解决方法
二、间接剔除重要的解释变量 1、利用已知信息 所谓已知信息,就是在建立模型之前,根据经 济理论、统计资料或经验分析,已知的解释变量之 间存在某种关系。为了克服模型的多重共线性,可 以将解释变量按已知关系加以处理。
第四节
多重共线性的解决方法
例如:柯布-道格拉斯生产函数
y aL K e
ln y / K ln a ln L / K
多重共线性(统计累赘)的概念、特征及其测量方式和处理方式
试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。
1、概念多重共线性是指自变量之间存在线性相关关。
倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。
2、特征3、产生原因产生多重相关性的原因主要包括四方面。
一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。
但多数研究者认为共线性本质上是由于样本数据不足引起的。
4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。
①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。
③对重要自变量的回归系数进行t 检验,其结果不显著。
特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。
④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。
⑤重要自变量的回归系数置信区别明显过大。
⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。
(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。
共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。
方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。
对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。
多重共线性讲义
9
3.参数估计量经济含义不合理 如果模型中两个解释变量具有线性相关性,例如 X2= X1 ,这时,X1和
X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它 们对被解释变量的共同影响。1、2已经失去了应有的经济含义,于是经常 表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。
如果存在 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n
其中ci不全为0,vi为随机误差项,则称为 不完全多重共线性或欠完 全多重共线性(approximate multicollinearity)。
4
7.2.产生多重共线性的原因
一般地,产生多重共线性的主要原因有以下四个方面: (1)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、 投资、价格)都趋于增长;衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动力投入往往出现高度 相关情况,大企业二者都大,小企业都小。 (2)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济 关系。 例如,消费=f(当期收入, 前期收入),显然,两期收入间有较强的 线性相关性。
14
15
2、辅助回归法
利用模型中每一个解释变量分别以其余解释变量为解释变量进行回归, 并计算相应的拟合优度。
如果某一种回归 X j c 1X1 2 X 2 ... j1X j1 j1X j1 ... k X k
的判定系数较大,说明Xj与其他X间存在共线性。 判别的标准是回归模型是否通过F检验。
多重共线性解决方法
多重共线性解决方法
多重共线性是指在回归模型中,自变量之间存在高度相关性的情况,这会导致模型的解释能力下降,系数估计不准确,模型的稳定性受到影响。
以下是一些解决多重共线性问题的方法:
1.增加样本量:通过增加样本量可以减少模型中的抽样误差,从而减轻多重共线性的影响。
2.删除冗余变量:通过剔除高度相关的自变量,可以降低共线性的程度。
可以使用相关性矩阵或者变量膨胀因子(VIF)来判断哪些自变量之间存在高相关性,并选择保留一个或几个相关性较为弱的变量。
3.主成分分析(PCA):主成分分析可以将高度相关的自变量转换成一组无关的主成分,从而降低共线性的影响。
可以选择保留其中的几个主成分作为新的自变量,代替原始的自变量。
4.岭回归(Ridge Regression):岭回归是在普通最小二乘法的基础上加入一个正则化项,通过缩小系数估计的幅度,减少共线性对系数估计的影响。
岭回归可以通过交叉验证选择合适的正则化参数。
5.套索回归(Lasso Regression):套索回归也是在普通最小二乘法的基础上加入一个正则化项,不同的是套索回归使用L1范数作为正则化项,可以将一些系
数估计缩减为零,从而实现变量选择的效果。
6.弹性网回归(Elastic Net Regression):弹性网回归是岭回归和套索回归的结合,同时使用L1和L2范数作为正则化项,可以在预测准确性和变量选择之间进行权衡。
以上方法可以根据具体问题的特点和需求选择合适的方法来解决多重共线性问题。
第七章多重共线性
X i fi ( X1, X 2 , , X i1, X i1, , X k )
X k fk ( X1, X 2 , , X k1)
对应的判定系数 R12, R22, , R2j , , Rk2
即
R2j
对应为以 X j 为被解释变量的回归方程。
显然,这些判定系数中最大且接近于1的那 一个R2i所对应的变量Xi,是与其他解释 变量发生多重共线性最严重的一个
(2)估计多重共线性的范围,即判断哪些 变量之间存在共线性。
有几点我们要明白:
(1) 多重共线性是一个程度问题而不是存在与否 的问题。
(2) 由于多重共线性是在假定解释变量是非随机 的条件下出现的问题,因而它是样本的特征,而 不是总体的特征。
因此,我们不仅可以“检测多重共线性”,而且 可以测度任何给定样本的多重共线性程度。
X1 9
X2i、2, 25, 48 X 2 25
X3i、1, 23, 24
X 3 16
view correlations
它们两两简单相关系数不大,但是严格共线性
所以,用简单相关系数判断模型是否存在多重共线性,只 适用于两个解释变量的情况
(二)估计多重共线性的范围
如果存在多重共线性,需进一步确定究竟由哪些变 量引起。
多重共线性是一个程度问题
若解释变量两两之间完全不相关,则不存在 该问题;
若其中部分解释变量之间完全相关,则根本 不能用OLS进行回归;
若解释变量之间存在一定程度的线性关系, 则是本章所要解决的多重共线性的问题。
2.参数的方差 因为估计值的方差为:
Var(1)
2 x22i
x12i x22i ( x1i x2i )2
注意: 完全共线性的情况并不多见,一般出现的
7.1多重共线性的概念及产生原因
7.1多重共线性的概念及产生原因
多重共线性是指在一个多元回归模型中,多个解释变量之间存在高度相关性,导致回
归方程中的参数无法估计或估计不准确的现象。
因此,多重共线性会对回归结果的解释和
预测产生负面影响。
多重共线性的产生原因可以归纳为以下几点:
1. 变量选择不当:如果在选择解释变量时,没有考虑它们之间可能存在的相关性,
就会出现多重共线性。
2. 数据处理不当:在数据处理中,如果对变量进行过度的转换和调整,或者使用过
于宽泛的指标,也可能导致多重共线性问题。
3. 数据收集不当:如果数据样本不足或者数据来源中存在重复的信息,就可能出现
多重共线性。
4. 特征工程不当:特征工程是指对原始数据进行预处理,提取出更有利于建模的特征。
如果特征工程不当,就可能导致多重共线性的问题。
如,过多的特征选择等。
5. 非线性关系:多重共线性不仅存在于线性模型中,也可能存在于非线性模型中,
如决策树模型、KNN模型等。
6. 误差项相关:当自变量中存在测量误差时,误差会通过模型的回归系数来影响因
变量,导致自变量之间的相关性,从而产生多重共线性。
7. 时间趋势:在同一时间段内,多个自变量具有相似的趋势也可能导致多重共线性。
例如,时间序列中常常出现的季节性变化等。
综上所述,多重共线性是在多元回归模型中常见的问题,它会对模型的稳定性、可靠
性和准确性产生重要影响。
因此,在进行回归分析时,需要注意避免多重共线性的问题。
第七章多重共线性
第七章多重共线性第七章多重共线性若线性模型不满⾜假定6,就称模型有多重共线性。
§7.1 多重共线性的概念⼀. 基本概念:假定6 ()1k r X k n =+<,是指模型中所有⾃变量12,,,,k x x x 1线性⽆关,也可理解为矩阵X 的列向量线性⽆关。
若不满⾜该假定,即 ()1k r X k <+,则称12,,,,k x x x 1存在完全多重共线性,12,,,,k x x x 1存在严格的线性关系,这是⼀种极端情况;若12,,,,k x x x 1之间的线性关系不是严格的,⽽是⼀种近似的线性关系,则称⾼度相关或存在不完全多重共线性。
如,01122i i i i y x x u βββ=+++ 若12,λλ?不全为零,使11220i i x x λλ+=,完全多重共线性11220i i i x x v λλ++= 不完全多重共线性完全多重共线性和不完全多重共线性统称为多重共线性。
解释变量(⾃变量)之间的线性关系可⽤拟合优度2i R 描述,2i R 表⽰i x 对其它解释变量的拟合优度,21i R = 完全 21i R ≈⾼度 20i R = ⽆⼆. 产⽣的原因:在实际经济问题中主要是不完全多重共线性。
其产⽣的主要原因是:1. 两个解释变量具有相同或相反的变化趋势;(家庭能耗与住房⾯积、⼈⼝)⽣产、需求.......2. 数据收集的范围过窄,造成解释变量之间有相同或相反变化的假象;3. 某些解释变量之间存在某种近似的线性关系;(各解释变量有相同的时间趋势)4. ⼀个变量是另⼀个变量的滞后值;供给5. 解释变量的选择不当也可能引起变量间的多重共线性。
6. 过度决定模型。
(观测值个数少于参数个数)对于正确设置的模型,多重共线性基本上是⼀种样本现象。
§7.2 多重共线性的后果⼀. 完全多重共线性当模型具有完全多重共线性时,⽆法进⾏参数的OLS 估计;设模型 Y XB U =+,若有完全多重共线性,即()1k r X k <+,则()1T r X X k <+ 1()T X X -?不存在1()T TB X X X Y ∧-?=不存在,同样 21()()Tj u jj V X X βσ∧-=也不存在,显著性检验和预测都⽆法进⾏。
第七章 多重共线性及其处理
第七章 多重共线性及其处理第一部分 学习辅导一、本章学习目的与要求1.理解多重共线性的概念;2.掌握多重共线性存在的主要原因;3.理解多重共线性可能造成的后果;4.掌握多重共线性的检验与修正的方法。
二、本章内容提要本章主要介绍计量经济模型的计量经济检验。
即多重共线性问题。
多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。
模型的多个解释变量间出现完全共线性时,模型的参数无法估计。
更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得t 统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。
显然,近似多重共线性使得模型偏回归系数的特征不再明显,从而很难对单个系数的经济含义进行解释。
多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。
而解决多重共线性的办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。
(一)多重共线性及其产生的原因当我们利用统计数据进行分析时,解释变量之间经常会出现高度多重共线性的情况。
1.多重共线性的基本概念多重共线性(Multicollinearity )一词由弗里希(Frish )于1934年在其撰写的《借助于完全回归系统的统计合流分析》中首次提出。
它的原义是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系。
如果在经典回归模型Y X βε=+中,经典假定(5)遭到破坏,则有()1R X k <+,此时称解释变量k X X X ,,,21 间存在完全多重共线性。
解释变量的完全多重共线性,也就是解释变量之间存在严格的线性关系,即数据矩阵X 的列向量线性相关。
因此,必有一个列向量可由其余列向量线性表示。
同时还有另外一种情况,即解释变量之间虽然不存在严格的线性关系,但是却有近似的线性关系,即解释变量之间高度相关。
计量经济学题库第7章多重共线性
第7章 多重共线性习 题一、单项选择题1.如果回归模型中解释变量之间存在完全的多重共线性,则最小二乘估计量( )A.不确定,方差无限大B.确定,方差无限大C.不确定,方差最小D.确定,方差最小2.多元线性回归模型中,发现各参数估计量的t 值都不显著,但模型的F 值确很显著,这说明模型存在( )A .多重共线性B .异方差C .自相关D .设定偏误 3.逐步回归法既检验又修正了( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性4.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( )A .无偏的 B. 有偏的 C. 不确定 D. 确定的 5.设线性回归模型为,下列表明变量之间具有完全多重共线性的是( )A .B .C .D .其中v 为随机误差项6.简单相关系数矩阵方法主要用于检验( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 7.设为解释变量,则完全多重共线性是( )8.下列说法不正确的是( )A. 多重共线性产生的原因有模型中大量采用滞后变量,)(22很大或R R 01122i i i iY X X u βββ=+++1202*0*0i i X X ++=1202*0*0i i X X v +++=1200*0*0i i X X ++=1200*0*0i i X X v +++=21,x x 221211211.0.021.0(.02x x A x x B x e C x x v v D x e +==++=+=为随机误差项)B. 多重共线性是样本现象C. 检验多重共线性的方法有DW检验法D. 修正多重共线性的方法有增加样本容量二、多项选择题1.能够检验多重共线性的方法有()A. 简单相关系数矩阵法B. t检验与F检验综合判断法C. DW检验法D. ARCH检验法E. White 检验2.如果模型中解释变量之间存在共线性,则会引起如下后果()A. 参数估计值确定B. 参数估计值不确定C. 参数估计值的方差趋于无限大D. 参数的经济意义不正确E. DW统计量落在了不能判定的区域3.能够检验多重共线性的方法有()A. 简单相关系数矩阵法B. DW检验法C. t检验与F检验综合判断法D. ARCH检验法E. 辅助回归法(又待定系数法)三、判断题1.多重共线性问题是随机扰动项违背古典假定引起的。
计量经济学:多重共线性
影响比较大的,略去影响较小的。
元线性回归模型并进行OLS估计,拟合优度最大且接近1时,说明
这个变量与其他所有解释变量间存在共线性。
第三节 多重共线性的检验
辅助回归法中的方差膨胀因子:
对 于 多 元 线 性 回 归 模: 型Yi 0 1 X 1i ... k X ki ui 为 判 断 诸 自 变 量 间 是存 否在 多 重 共 线 性 , 进如 行下 辅 助 回 归 : X ji 0 1 X 1i ... j 1,i X j 1,i j 1,i X j 1,i ... k X ki v i , j 1,2,...,k 若 上 述 辅 助 回 归 的 可系 决数 为 R2 X j的 方 差 膨 胀 因 子 为 : j, 则 定 义 自 变 量 1 VIF j 1 R2 j
第一节 多重共线性的概念
若有c0+c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n。其中: ci不全为0,则称
解释变量间存在完全多重共线性
若存在:c0+c1X1i+c2X2i+…+ckXki≈0 i=1,2,…,n。 其中:ci不全为0,
则称为解释变量间存在近似多重共线性。
完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,
第二节 多重共线性的来源与后果
4、参数估计值不稳定,经济含义不合理
样本观测值稍有变动、增加或减少解释变量等都会使参数估计值发生较大变 化,甚至出现符号错误,从而不能正确反映解释变量对被解释变量的影响。
5、模型的预测功能失效
较大的方差容易使预测区间变大,从而使预测失去意义
注意:只要模型满足经典假设,则在近似多重共线性情况下,OLS估计量仍 然满足无偏性、线性性和有效性。但此时,无偏性并不意味着对某一给定样 本,其参数估计值就等于真实值。有效性也不意味着参数估计量的方差一定 很小。
计量经济学 第七章 多重共线性
第七章 多重共线性“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。
7.1多重共线性及产生的原因 7.1.1.非多重共线性假定111211212221121111k k T T Tk x x xx xx X x x x ---=如果rk (X 'X ) = rk (X ) < k 或`0X X =称解释变量是完全共线性相关。
在实际经济问题中,完全多重共线性和完全无多重共线性两种极端情况都是极少的,大多数情况是解释变量存在不完全的多重共线性,或者近似的多重共线性,可一表示为:1122110k k x x x u λλλ--++++= 7.1.2.多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。
如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。
当这些变量同时进入模型后就会带来多重共线性问题。
0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDPCONS0.E +001.E +112.E +113.E +114.E +110.0E +005.0E +101.0E +111.5E +112.0E +112.5E +11C O N SG D P o f H o n g K o n g(2)解释变量与其滞后变量同作解释变量。
滞后变量与原因变量在经济意义上没有本质区别,只是时间上的差异,原因变量与解释变量有相关关系,滞后变量也会有相关关系。
(见下图) (3)解释变量之间往往存在密切的关联度。
对同一经济现象的解释变量,往往存在密切的相关关系,如生产函数,资本大,需投入的劳动力也应趆多。
0.E+001.E+112.E+113.E+114.E+11GDP0.E+001.E+112.E+113.E+114.E+110.E+001.E+112.E+113.E+114.E+11GDP(-1)GDP7.2.多重共线性的后果(1) 当 `0X X =,X 为降秩矩阵,则 (X 'X ) -1不存在,βˆ= (X 'X )-1 X 'Y 不可计算。
多重共线性问题的定义和影响多重共线性问题的检验和解决方法
多重共线性问题的定义和影响多重共线性问题的检验和解决方法多重共线性问题的定义和影响,多重共线性问题的检验和解决方法多重共线性问题是指在统计分析中,使用多个解释变量来预测一个响应变量时,这些解释变量之间存在高度相关性的情况。
共线性是指两个或多个自变量之间存在线性相关性,而多重共线性则是指两个或多个自变量之间存在高度的线性相关性。
多重共线性问题会给数据分析带来一系列影响。
首先,多重共线性会导致统计分析不准确。
在回归分析中,多重共线性会降低解释变量的显著性和稳定性,使得回归系数估计的标准误差变大,从而降低模型的准确性。
其次,多重共线性会使得解释变量的效果被混淆。
如果多个解释变量之间存在高度的线性相关性,那么无法确定每个解释变量对响应变量的独立贡献,从而使得解释变量之间的效果被混淆。
此外,多重共线性还会导致解释变量的解释力度下降。
当解释变量之间存在高度的线性相关性时,其中一个解释变量的变化可以通过其他相关的解释变量来解释,从而降低了该解释变量对响应变量的独立解释力度。
为了检验和解决多重共线性问题,有几种方法可以采用。
首先,可以通过方差膨胀因子(VIF)来判断解释变量之间的相关性。
VIF是用来度量解释变量之间线性相关性强度的指标,其计算公式为:VIFi = 1 / (1 - R2i)其中,VIFi代表第i个解释变量的方差膨胀因子,R2i代表模型中除去第i个解释变量后,其他解释变量对第i个解释变量的线性回归拟合优度。
根据VIF的大小,可以判断解释变量之间是否存在多重共线性。
通常来说,如果某个解释变量的VIF大于10或15,那么可以认为该解释变量与其他解释变量存在显著的多重共线性问题。
其次,可以通过主成分分析(PCA)来降低多重共线性的影响。
PCA是一种降维技术,可以将高维的解释变量压缩成低维的主成分,从而减少解释变量之间的相关性。
通过PCA,可以得到一组新的解释变量,这些新的解释变量之间无相关性,并且能够保留原始解释变量的主要信息。
多重共线性(Multi-Collinearity)
i 0 1 1i 2 2i
k ki i
(i=1,2,…,n)
其基本假设之一是解释变量
X,
1
X2,,
X
k
互相独立 。
如果某两个或多个解释变量之间出现了相关性, 则称为多重共线性。
如果存在
c1X1i+c2X2i+…+ckXki=0
i=1,2,…,n
其中: ci不全为0,即某一个解释变量可以用其它解释 变量的线性组合表示,则称为解释变量间存在完全
2
1
x12i 1 r 2
2
x12i
所以,多重共线性使参数估计量的方差增大。
方差扩大因子(Variance Inflation Factor)为1/(1-r2), 其增大趋势见下表:
相关系 0 0.5 0.8 0.9 0.95 0.96 0.97 0.98 0.99 0.999 数平方 方差扩 1 2 5 10 20 25 33 50 100 1000 大因子
多重共线性(Multi-Collinearity)
§2.8 多重共线性
Multi-Collinearity
一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、案例
一、多重共线性的概念
1、多重共线性
• 对于模型
Y X X X
以二元回归模型中的参数估计量ˆ 为例,ˆ 的方差为
1
1
Var(ˆ )
1
ˆ 2
(X X
)1
22
(
ˆ
2
(
x2
2i
)
x2 )( x2 ) ( x
多重共线性
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 Y 4901 5489 6076 7164 8792 10133 11784 14704 16466 18320 21280 25864 34501 47111 59405 68498 C(-1) 2976 3309 3638 4021 4694 5773 6542 7451 9360 10556 11362 13146 15952 20182 27216 34529 C(-1)/Y 0.6072 0.6028 0.5996 0.5613 0.5339 0.5697 0.5552 0.5067 0.5684 0.5762 0.5339 0.5083 0.4624 0.4284 0.4581 0.5041
y ( 1 2 ) x1
只能确定综合参数 1 2 的估计值:
ˆ ˆ 1 2 x1i y i x12i
4.2.2 不完全多重共线性下的 后果
(1)参数估计仍是无偏估计,但不稳定;估计量 及其标准差非常敏感,观测值稍微变化,估计 量就会产生较大的变动。 (2)参数估计式的方差随着共线性程度的增大而 增大。 (3)t检验失效,区间估计失去意义;估计量的 方差很大,相应标准差增大,进行t检验时,接 受零假设的可能性增大 (4)严重多重共线性时,甚至参数估计式的符号 与其经济意义相反。得出完全错误的结论。
2i
2i
2 2i
x y x y x x
1i i 1i 2 1i 2 1i
i
x12i 2 x12i
第七章 多重共线性
由前述可知,多重共线性分完全多重共线性和不完全多重共线性两种情况,两种情况都会对模型进行最小二乘估计都会产生严重后果。
(一)完全多重共线性 产生的后果
以二元线性回归模型为例,
EMBED Equation.3 (7-4)
以离差形式表示,假设其中 EMBED Equation.3 , EMBED Equation.3 , EMBED Equation.3 , EMBED Equation.3 ,常数 EMBED Equation.3 ,则, EMBED Equation.3 , EMBED Equation.3 的最小二乘估计量为
情况3、新引入变量后,方差增大
在多元线性回归模型中新引入一个变量后,发现模型中原有参数估计值的方差明显增大,则说明解释变量间可能存在多重共线性。
二、拟合优度 EMBED Equation.3 检验
对多元线性回归模型中各个解释变量相互建立回归方程,分别求出各回归方程的拟和优度,如果其中最大的一个接近1, EMBED Equation.3 显著大于临界值,该变量可以被其他变量线性解释,则其所对应的解释变量与其余解释变量间存在多重共线性。
多重共线性是较为普通存在的现象,从上节分析可知,较高程度的多重共线性会对最小二乘估计产生严重后果,因此,在运用最小二乘法进行多元线性回归时,不但要检验解释变量间是否存在多重共线性,还要检验多重共线性的严重程度。
一、不显著系数法
情况1、 EMBED Equation.3 很大,t小
EMBED Equation.3
EMBED Equation.3
分别求出上述各个方程的拟合优度 EMBED Equation.3 ,如果其中最大的一个 EMBED Equation.3 接近于1,则它所对应的解释变量 EMBED Equation.3 与其余解释变量间存在多重共线性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)解释变量选择不当
7.2多重共线性造成的影响
完全共线性下参数估计量不存在
y Xβ u
OLS估计量
1 ˆ β ( X X ) X Y
完全共线性
1t 1 t 2 1t 1
7.4.7 对所有变量作滞后差分变换 时间序列数据、线性模型:将原模型变换为 差分模型: Yi=1 X1i+2 X2i++k Xki+ i 可以有效地消除原模型中的多重共线性。 一般讲,增量之间的线性关系远比总量之间的 线性关系弱得多。
表 4 .3 .2 年份 1978 C 1759.1 2005.4 2317.1 2604.1 2867.9 3182.5 3674.5 4589.0 5175.0 5961.2 7633.1 8523.5 9113.2 10315.9 12459.8 15682.4 20809.8 26944.5 32152.3 34854.6 36921.1 39334.4 42911.9
-1 各元素较
ˆ ) 2 ( X X ) 1 Cov (β
使参数估计值的方差增大,估计值的精度降低。
可以证明,参数估计值的方差为:
ˆ v a r( b i )
2 2
( x it x i )
1 1 Ri
2
其中, R i2
1 1 Ri
2
是第i个解释变量对模型中的其它解释变量作
7.4 多重共线性的解决办法
7.4.1 增加样本容量 多重共线性的主要后果是参数估计量具有较 大的方差,所以采取适当方法减小参数估计量的 方差,虽然没有消除模型中的多重共线性,但确 能消除多重共线性造成的后果。
ˆ v a r( b i )
2 2
( x it x i )
1 1 Ri
Yt 1
2
X
2t
2
2t
2
X
3t 3t
ut
1 2 ( X 设变量 Zt ( X
2X 2X
) ut ), 估计方程
2t
3t
Yt 1 2 Z t u t 可得到 ˆ ˆ ˆ 2 和 3 2 2。
例如:C-D生产函数Y AL K ,K与L高度相关。已知 规模收益不变,则α+β=1。生产函数的双对数模型可变为:
7.3.3 利用缺某一个解释变量拟和优度检验
对于线性回归模型
Yt=b0+b1X1t+b2X2t++bkXkt+t
包含k个解释变量,其拟合优度为R2。
( t=1,2,…,n)
依次建立缺一个解释变量xj(j=1,2,3 k)的回归方程, 并求出相应的拟合优度值。如果所得的拟合优度中的 最大值Rj2与原模型的R2非常接近,则说明xj对y的解 释作用可以近似地由其它解释变量线性表示。即xj是 引起多重共线性的变量。
7.3.2 辅助回归模型检验法
使模型中每一个解释变量分别以其余解释变量为解 释变量进行回归,并计算相应的拟合优度。 如果某一种回归: Xji=1X1i+2X2i+kXki 的判定系数较大,F统计量明显超过临界值,说明 Xj与其他X间存在高度共线性。 克莱因经验法则:仅当来自一个辅助回归的R2大于 得自Y对全部回归元的回归中的总R2值时,多重共线性 才会产生严重问题。
2
可见,减小方差的做法之一即增加样本容量。
7.4.2 不作处理
• 所有参数估计量皆显著 • 来自任何一个辅助回归的Rj2均小于得自 Y对全部回归元的回归中的总R2值 • 样本回归方程仅用于预测
7.4.3 利用先验信息改变参数的约束形式
假定对回归模型: Yt 1 2 X 2 t 3 X 3 t u t 已知X2 和X3 之间高度共线。根据先验信息,确定 β3=2β2,带入模型后可得:
rank(X)<k+1
即,解释变量的观测值矩阵至少有一列向量可由其他 列向量线性表出。
不完全共线性的含义:
如果存在一组不全为零的数 1 k ,
使 得 : 1 1t 2 x 2t k x kt u t 0 x
t=1,2,…,n
ut 为随机误差项,则称为解释变量间存在不完全共线性 或近似共线性(approximate multicollinearity)。
如果作为解释变量的某些经济变量间出现高度相关,而 进行回归分析的目的是为了预测,不是研究单个经济变量对 因变量的影响时,可以根据实际问题,改变模型的形式。
变换模型的函数形式
变换模型的变量形式
变换变量的统计指标
7.4.5 综合使用时序与截面数据
如果时间序列数据中,解释变量间存在高度相关,可以 先使用横截面数据估计出存在高度相关解释变量中的一个或 多个,然后再在时间序列数据中剔除这些变量,在消除多重 共线性影响下估计因变量与剩余变量间的回归式。
表 4 .3 .1 相关系数平方 方差膨胀因子 0 1 0 .5 2 0 .8 5 0 .9 10
1 1 Ri
2
方差膨胀因子表 0 .9 5 20 0 .9 6 25 0 .9 7 33 0 .9 8 50 0 .9 9 100 0 .9 9 9 1000
经验规则:一般当VIF〉5或10时,认为模型存在较严重 多重共线性。
ˆ ln( Y t ) b 0 b1 ln Pt b 2 ln I t u t
令Y
t
*
ˆ ln Y t b 2 ln I t,
Y
t
模型转u t
,
新的回归式中消除了多重共线性的影响,并在此基础上 利用时序数据进行估计。
7.4.6 略去不重要的解释变量
辅助回归模型时的决定系数。
称为方差膨胀因子(Variance Inflating Factor,VIFi)
2
ˆ 可 见 , 近 似 共 线 性 意 味 着 R i 1, V IF , 所 以 var( bi ) 增 大 。
7.2.3 影响显著性检验的可靠性,导致弃真错误
存在多重共线性时 参数估计值的方差与标准差变大
严重多重共线性导致难以识别多重共线性变量的各自 影响,OLS估计量对观测值的轻微变化相当敏感。
Y,X2和X3的人为数据 Y 1 2 X2 2 0 X3 4 2
3
4 5
4
6 8
12
0 16
ˆ y t = 1.1939 + 0.4463x2t + 0.0030 x3t (1.5431) (2.4151) (0.0358) R2 = 0.8101 r23=0.5523
第7章 多重共线性
本章教学要求: (1)理解多重共线性的含义和表现。 (2)理解多重共线性存在的后果。 (3)掌握检验多重共线性的方法。 (4)掌握多重共线性的解决方法。
7.1多重共线性的概念及产生原因
7.1.1 多重共线性的概念
对于模型
Yt=b0+b1X1t+b2X2t++bkXkt+t
( t=1,2,…,n)
完全和不完全多重共线性的数值举例:
X2 10 15 18 24 30
X3 50 75 90 120 150
X3* 49 78 90 125 153
注意:
完全共线性和完全无多重共线性的情况并不多见, 一般出现的是不完全共线性。因此,我们关心的不 是有无多重共线性,而是多重共线性的程度。
7.1.2 多重共线性产生的原因
(1)检验多重共线性的程度; (2)估计多重共线性的形式,即判断哪些变量之间存 在共线性。
7.3.1 根据回归结果判断
回归结果具有以下特征时,模型很可能存在多重共线性: (1)若 在OLS法下:R2与F值较大,但t检验值较小: 说明各解释变量对Y的联合线性作用显著,但各 解释变量间存在共线性而使得它们对Y的独立作用不 能分辨,故t检验不显著。 (2)从经济理论知某个自变量对因变量有重要影响,但其 系数的OLS估计量不显著或系数估计值的符号不正确。 (3)对模型增添一个新自变量后,模型中原有参数估计值 的方差明显增大;或当一个不太重要的解释变量被删除后, 回归结果显著变化。
X X
0
逆阵不存在
无法求出参数的 最小二乘估计量
不完全共线性下的OLS估计量: 不完全共线性下,仍满足经典假定,得到的 OLS参数估计量 β ( X X ) 1 X Y 可求,且 ˆ 仍是BLUE 。
但由于近似共线性,|X’X|0,仍可造成一定的后 果。
7.2.1 参数估计值很不稳定,并且对样本非常敏 感
2
( x 1 t x 1 )[ b1 ( x 1 t x 1 ) b 2 ( x 2 t x 2 ) ( u t u )]
( x1t x1 )
2
b1 b 2
(x x (x
1t
1
)( x 2 t x 2 ) x1 )
2
1t
( x x )( u u ) (x x )
中 国 GDP 与 居 民 消 费 C 的 总量 与 增 量 数 据( 亿 元 ) Y 3605.6 4074.0 4551.3 4901.4 5489.2 6076.3 7164.4 8792.1 10132.8 11784.7 14704.0 16466.0 18319.5 21280.4 25863.7 34500.7 46690.7 58510.5 68330.4 74894.2 79003.3 82673.1 89112.5 C/Y 0.488 0.492 0.509 0.531 0.522 0.524 0.513 0.522 0.511 0.506 0.519 0.518 0.497 0.485 0.482 0.455 0.446 0.461 0.471 0.465 0.467 0.476 0.482 246.3 311.7 287.0 263.8 314.6 492.0 914.5 586.0 786.2 1671.9 890.4 589.7 1202.7 2143.9 3222.6 5127.4 6134.7 5207.8 2702.3 2066.5 2413.3 3577.5 468.4 477.3 350.1 587.8 587.1 1088.1 1627.7 1340.7 1651.9 2919.3 1762.0 1853.5 2960.9 4583.3 8637.0 12190.0 11819.8 9819.9 6563.8 4109.1 3669.8 6439.4 0.526 0.653 0.820 0.449 0.536 0.452 0.562 0.437 0.476 0.573 0.505 0.318 0.406 0.468 0.373 0.421 0.519 0.530 0.412 0.503 0.658 0.556 △C △Y △ C/△ Y