计量经济学多重共线性

合集下载

4.1 多重共线性(计量经济学)

4.1 多重共线性(计量经济学)
第四章 经典单方程计量经济学模型:
放宽基本假定的模型
说明
• 经典多元线性模型在满足若干基本假定的条件下, 应用普通最小二乘法得到了无偏、有效且一致的 参数估计量。
• 在实际的计量经济学问题中,完全满足这些基本 假定的情况并不多见。不满足基本假定的情况, 称为基本假定违背。
• 对截面数据模型来说,违背基本假定的情形主要 包括:
•逐步回归法(Stepwise forward Regression)
– 以Y为被解释变量,逐个引入解释变量,构成回归 模型,进行模型估计。
– 根据拟合优度的变化决定新引入的变量是否独立。 • 如果拟合优度变化显著,则说明新引入的变量是 一个独立解释变量;
• 如果拟合优度变化很不显著,则说明新引入的变 量与其它变量之间存在共线性关系。
§4.1 多重共线性 Multicollinearity
一、多重共线性 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例
一、多重共线性的概念
1、多重共线性
Yi 0 1Xi1 2 Xi2 k Xik i i 1, 2, , n
实际上:正态性假设的违背
• 李子奈(2011):计量经济学模型方法论 – 当存在模型关系误差时,如果解释变量是随机的,随 机误差项的正态性将得不到保证。 – 当模型遗漏了显著的变量,如果遗漏的变量是非正态 的随机变量,随机误差项将不具有正态性。 – 如果待估计的模型是原模型经过函数变换得到的,随 机误差项将不再服从正态分布。 – 当模型存在被解释变量的观测误差,如果观测误差相 对于随机误差项的标准差特别大、样本长度又特别小, 随机误差项的正态性假设会导致显著性水平产生一定 程度的扭曲。 – 当模型存在解释变量观测误差时,一般情况下,随机 误差项的正态性假设都是不能成立的;只有在回归函 数是线性的,且观测误差分布是正态的特殊情形下, 随机误差项的正态性才成立。

计量经济学:多重共线性

计量经济学:多重共线性

计量经济学:多重共线性多重共线性52=.53085123 第四章专门讨论古典假定中⽆多重共线性假定被违反的情况,主要内容包括多重共线性的实质和产⽣的原因、多重共线性产⽣的后果、多重共线性的检测⽅法及⽆多重共线性假定违反后的处置⽅法。

第⼀节什么是多重共线性⼀、多重共线性的含义第三章讨论多元线性回归模型的估计时,强调了假定⽆多重共线性,即假定各解释变量之间不存在线性关系,或者说各解释变量的观测值之间线性⽆关。

在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括解释变量之间精确的线性关系,还包括解释变量之间近似的线性关系。

从数学意义上去说明多重共线性,就是对于解释变量k X 、、X X 32,如果存在不全为0的数k λλλ,2,1 ,能使得n ,2, ,1i 033221 ==++++ki k i i X X X λλλλ ( 4.1 )则称解释变量k X X X ,,,32 之间存在着完全的多重共线性。

⽤矩阵表⽰,解释变量的数据矩阵为X=213112232223111k k nnkn X X X X X X X X X ??(4.2)当Rank(X )在实际经济问题中,完全的多重共线性并不多见。

常见的情形是解释变量k X X X ,,,32 之间存在不完全的多重共线性。

所谓不完全的多重共线性,是指对于解释变量k X 、、X X 32,存在不全为0的数k λλλ,2,1 ,使得n ,2, ,1i 033221 ==+++++i ki k i i u X X X λλλλ(4.3)其中,i u 为随机变量。

这表明解释变量k X 、、X X 32只是⼀种近似的线性关系。

如果k 个解释变量之间不存在完全或不完全的线性关系,则称⽆多重共线性。

若⽤矩阵4表⽰,这时X 为满秩矩阵,即Rank(X )=k 。

需要强调,解释变量之间不存在线性关系,并⾮不存在⾮线性关系,当解释变量存在⾮线性关系时,并不违反⽆多重共线性假定。

计量经济学第四章多重共线性

计量经济学第四章多重共线性

R-squared
0.989654
Adjusted R-squared 0.986955 S.E. of regression 1437.448 Sum squared resid 47523916 Log likelihood -256.7013 Durbin-Watson stat 1.654140
4
(二)不完全的多重共线性
实际中,常见的情形是解释变量之间存在不 完全的多重共线性。
对于解释变量 X 2 , X 3, X k,存在不全为0的数
1
,

2
,
,使得
k
1 2X2 3X3 ...k Xk u 0
5
(三)解释变量的关系小节
可能表现为三种情形: r为相关系数 (1) rxixj 0 ,解释变量间毫无线性关系。这时多元
Var(ˆ2 )
9
二、不完全多重共线性产生的后果
1、参数估计值的方差增大
Var( βˆ 2 ) = σ 2
1 x22i (1-
r223 )
=
σ2
1
x22i (1 - r223 )
当 r23增大时,
^
Var( 2)
也增大
10
方差膨胀因子 (Variance Inflation Factor)
17 17
2、交叉相关系数(Cross correlation)
相关系数计算的是两组样本的同期相关程 度,交叉相关则可以表示不同期之间的相关 程度。
Eviews操作: Group窗口的view/cross correlation/输入 滞后期设定/ 输出结果阅读:看是否超出2倍标准差线
18
2倍 标准 差线
1、参数估计值有很大的偶然性。 2、参数显著性检验未通过。 3、经济意义检验未通过。 4、相关系数大。

计量经济学07计量多重共线性

计量经济学07计量多重共线性

Y/C1 △ Y
0.6072 0.6028 0.5996 0.5613 0.5339 0.5697
588 587 1088 1628 1441
0.5552 1651 0.5067 2920
0.5684 1762 0.5762 1854 0.5339 2960 0.5083 4584 0.4624 8637 0.4284 12610 0.4581 12294 0.5041 9093
横截面数据:生产函数中,资本投入与劳动力投入往 往出现高度相关情况,大企业二者都大,小企业都小。
(2)滞后变量的引入
在经济计量模型中,往往需要引入滞后经济变量来 反映真实的经济关系。例如消费变动的影响因素不仅有 本期可支配收入,还应考虑以往各期的可支配收入;固 定资产存量变动的影响因素不仅有本期投资,还应考虑 以往若干期的投资。同一变量的前后期之值很可能有较 强的线性相关性,模型中引入了滞后变量,多重共线性 就难以避免。
第七章 多重共线性
(Multicollinearity)
一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例
一、多重共线性的概念
对于模型
Yi= 0+ 1X1i+ 2X2i+ + kXki+ i
i=1,2,…,n 其基本假设之一是解释变量是互相独立的。
求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量 存在较强的多重共线性。
(2) 对多个解释变量的模型,采用综合统计检验法
若 在OLS法下:R2与F值较大,但t检验值较小,说明各 解释变量对Y的联合线性作用显著,但各解释变量间存在共 线性而使得它们对Y的独立作用不能分辨,故t检验不显著。

第七章 多重共线性 《计量经济学》PPT课件

第七章  多重共线性  《计量经济学》PPT课件
11
7.4 对多重共线性现象的侦察
多重共线性表现为解释变量之间具有相关关系,所以用于多重共 线性的检验方法主要是统计方法。
1、相关系数法 (1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较
强的多重共线性。经验表明,当r的值大于或等于0.8时,说明存在多 重共线性。
中,至少有一列向量可由其他列向量(不包括第一列)线性表出。如 X2=kX1,则X2对Y的作用可由X1代替。
2
注意:
完全多重共线性的情况在经济学中并不多见,一般出现的是在一 定程度上的共线性,即不完全的多重共线性。
二、不完全多重共线性
如果存在 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n
当存在不完全多重共线性时,从上面已经知道,参数的OLS估计量方差 较大,其标准误也就较大,从而使得参数估计量的精度较低。
8
3.参数估计量经济含义不合理 如果模型中两个解释变量具有线性相关性,例如 X2= X1 ,这时,X1和
X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它 们对被解释变量的共同影响。1、2已经失去了应有的经济含义,于是经常 表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。
7.1 多重共线性的概念
1.多重共线性的概念 对于模型
Yi=0+1X1i+2X2i++kXki+i
i=1,2,…,n 其基本假设之一是解释变量是互相独立的。 如果某两个或多个解释变量之间出现了相关性,则称为多重 共线性(Multicollinearity)。
1
一、完全多重共线性

计量经济学 詹姆斯斯托克 第7章 多重共线性

计量经济学 詹姆斯斯托克 第7章 多重共线性

1 、 2 失去了应有的经济含义,经常表现 出似乎反常的现象: 例如 1 本来应该是正 的,结果恰是负的。
4. 变量的显著性检验效果不理想
存在多重共线性时 参数估计值的方差与标准差变大 容易使通过样本计算的t 值小于临界值, 误导作出参数为0的推断 可能将重要的解释变量排除在模型之外
5. 模型的预测效果不理想
3. 第三类方法:减小参数估计量的方差
多重共线性的主要后果是参数估计量具有较 大的方差,所以采取适当方法减小参数估计量 的方差,虽然没有消除模型中的多重共线性, 但确能相对消除多重共线性造成的后果。 例如: ① 增加样本容量,可使参数估计量的方差减 小。 *② 岭回归法(Ridge Regression)
变大的方差容易使区间预测的“区间”变大, 使预测失去意义。
注意:
除非是完全共线性,多重共线性并不意味 着任何经典假设的违背; 即使出现较高程度的多重共线性,OLS估 计量仍具有线性性等良好的统计性质。 问题在于,即使OLS法仍是最好的估计方 法,它却不是“完美的”,尤其是在统计推 断上无法给出真正有用的信息。
(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则 说明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用综合统计检验法
若 在OLS法下:R2与F值较大,但t 检验值较 小,说明各解释变量对Y的联合线性作用显著, 但各解释变量间存在共线性而使得它们对Y 的 独立作用不能分辨,故t 检验不显著。
另一等价的检验是:
在模型中排除某一个解释变量Xj,估计模型; 如果拟合优度与包含Xj时十分接近,则说明 Xj与其它解释变量之间存在共线性。
(2) 逐步回归法

计量经济学(第四章多重共线性)

计量经济学(第四章多重共线性)

06
总结与展望
研究结论总结
多重共线性现象普遍存在于经济数据中,对计量 经济学模型的估计和解释产生了重要影响。
通过使用多种诊断方法,如相关系数矩阵、方差膨 胀因子(VIF)和条件指数(CI),可以有效地识别 多重共线性问题。
在存在多重共线性的情况下,普通最小二乘法 (OLS)估计量虽然仍然是无偏的,但其方差可能 变得很大,导致估计结果不稳定。
主成分分析法的优点
可以消除多重共线性的影响,同 时降低自变量的维度,简化模型。
岭回归法
岭回归法的基本思想
通过在损失函数中加入L2正则化项(即所有自变量的平方和),使得回归系数的估计更加稳定, 从而消除多重共线性的影响。
岭回归法的步骤
首先确定正则化参数λ的值,然后求解包含L2正则化项的损失函数最小化问题,得到岭回归系数的估 计值。
逐步回归法的优点
可以自动选择重要的自变量,同时消除多重共线性的影响。
主成分分析法
主成分分析法的基本思想
通过正交变换将原始自变量转换 为互不相关的主成分,然后选择 少数几个主成分进行回归分析。
主成分分析法的步骤
首先对原始自变量进行标准化处理, 然后计算相关系数矩阵并进行特征值 分解,得到主成分及其对应的特征向 量。最后,选择少数几个主成分作为 新的自变量进行回归分析。
岭回归法的优点
可以有效地处理多重共线性问题,同时避免过拟合现象的发生。此外,岭回归法还可以提供对所 有自变量的系数进行压缩估计的功能,使得模型更加简洁易懂。
05
实证研究与结果分

数据来源及预处理
数据来源
本研究采用的数据集来自于公开的统 计数据库,涵盖了多个经济指标和影 响因素的观测值。
数据预处理

计量经济学第三节 多重共线性

计量经济学第三节 多重共线性
第四章放宽基本假定的模型
第三节多重共线性
假定六:解释变量之间不是完全线性相关的。
目的与要求:1.多重共线性的概念?
2.多重共线性产生的主要原因是什么?
3.多重共线性会导致什么后果?
4.多重共线性的检验方法 5.多重共线性的解决方法
一、多重共线性的概念
对于模型 Yi=0+1X1i+2X2i++kXki+i i=1,2,…,n 其基本假设之一是解释变量是互相独立的。 如果某两个或多个解释变量之间出现了完全 的线性相关性或接近线性相关,则称该模型出现 了多重共线性。
如投资函数 :
t
It 0 1X 可以变换成 It X
t / 0
2X
t 1
u
:
/ 1

t
X
t 1
t

/ 2
X
t
u
X
X
(2).进行变换,采用相对量作为解释变量
例如,某产品的销售量Y 取决于其出厂价格X1、
市场价格X2和市场总供应量X3。设定模型为
消选取相关性最强的
变量建立一元回归模型
在一元回归模型中引入第二个变量, 选择要求:模
型中每个解释变量影响显著,参数符号正确,校正的
~ 判定系数值 R 2 有所提高.
在选取的二元回归模型中以同样方式引入第三个变
量……
(四).增加样本观测值。
ln y 0 1 ln x 1 2 ln x 2 3 ln x 3 u
由于X1、X2、X3高度相关,我们可以用X1 /X2代替X1、 X2对y的影响。模型变为:
ln y
/ 0

/ 1

计量经济学第四章 多重共线性

计量经济学第四章 多重共线性

x2i


3 2
x3i

x3i
参数的估计值为:
ˆ2
x32i x2i yi x2i x3i x3i yi
(
x22i )(
x32i ) (
x2i
x 3i
)2
x32i
2
x3i yi x32i 2 2
x32i x32i
x2i x3i x22i
x2i x3i
ˆ1 Y ˆ2 X 2 ˆ3 X 3
ˆ2
x32i x2i yi x2i x3i x3i yi ( x22i )( x32i ) ( x2i x3i )2
ˆ3
x22i x3i yi x2i x3i x2i yi •
(
x22i )(
x32i ) (
x2i
x 3i
)
2
x2i yi x3i yi
x2i x3i x32i
4.2多重共线性的后果
如果X1和X2完全线性相关,则存在非0的λ使得:
1 2 X 2i 3 X 3i 0
则有:
1 2 X 2 3 X 3 0
2 X 2i X 2 3 X3i X3 0
X 2i X3i X 2iYi
X
2 3i

X
3iYi


VAR
COV
(βˆ )


2
(XX)1


2

N X 2i


X 3i
X2i
X
2 2i
X 2i X 3i

计量经济学多重共线性

计量经济学多重共线性

四、克服多重共线性的方法
如果模型被检验证明存在多重共线性,则需要 发展新的方法估计模型,最常用的方法有三类。 1、第一类方法:排除引起共线性的变量
找出引起多重共线性的解释变量,将它排除出 去。
以逐步回归法得到最广泛的应用。

注意:
这时,剩余解释变量参数的经济含义和数值都 发生了变化。
2、第二类方法:差分法
——如果解释变量Xi与其他变量相关,那 么就会减小T统计值。为什么?
图示
存在多重共线性时 参数估计值的方差与标准差变大
容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断
思考:从这个“仪器”(统计量)来看, 我们通过作哪些工作,可以减少线性相 关带来的影响?
我们可以做如下工作: ——想办法使模型更精确。即使得被 解释变量更多的很解释,或说使σ 2的 估计值更小(为何?)。
0 1 0.5 2 例表 0.8 0.9 5 10 方差膨胀因子表 0.95 0.96 0.97 20 25 33 0.98 50 0.99 100 0.999 1000
相关系数平方 方差膨胀因子
此表有何特点?随相关系数 平方增大,方差膨胀因子如 何变化?
四、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系,
截面数据样本:问题不那么严重,但多重共线 性仍然是存在的。
二.多重共线性的后果 1.数据的微小变化可能导致参数估计值的大幅 波动 2.尽管系数具有联合显著性,而且回归的R2相 当高,但系数显著性水平会很低 3.系数有何能出现“错误”的符号或不合理的 大小 4.不会影响参数估计的无偏与一致性,但会影 响有效性。
六、案例——中国粮食生产函数
根据理论和经验分析,影响粮食生产(Y)的 主要因素有: 农业化肥施用量(X1);粮食播种面积(X2) 成灾面积(X3); 农业机械总动力(X4); 农业劳动力(X5) 已知中国粮食生产的相关数据,建立中国粮食 生产函数: Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +

【计量经济学 】 多重共线性

【计量经济学 】 多重共线性

(2)滞后变量的引入
在经济计量模型中,往往需要引入滞后经济变量来反 映真实的经济关系。例如消费变动的影响因素不仅有本 期可支配收入,还应考虑以往各期的可支配收入;固定 资产存量变动的影响因素不仅有本期投资,还应考虑以 往若干期的投资。同一变量的前后期之值很可能有较强 的线性相关性,模型中引入了滞后变量,多重共线性就 难以避免。
(3)如果新解释变量能使拟合优度有所改变,R 2提高,但对其它参
数的符号和数值有明显的影响,统计检验也不显著,可以判定新解 释变量引起了共线性。此时需按照前述的检验方法,考察变量间线 性相关的形式和程度,并进行经济意义的判断,在共线性程度最高 的两个变量中,舍去对被解释变量影响较小、经济意义相对次要的 一个,保留影响较大、经济意义相对重要的一个。
年份
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996
Y
4901 5489 6076 7164 8792 10133 11784 14704 16466 18320 21280 25864 34501 47111 59405 68498
△C1
333 329 383 673 1079 769 909 1909 1196 806 1784 2806 4230 7034 7313
(1) 判定系数检验法 使模型中每一个解释变量分别以其余解释变量 为解释变量进行回归,并计算相应的拟合优度。
K个辅助方程:
Xji=1X1i+2X2i+j-1Xj-1i+j+1Xj+1i++ KXKi 在得到的K个判定系数中,若Rj2最大,且接近于1, 可以判定相应的Xj与其他解释变量之间存在共线性。 Xj可以用其他解释变量的线性组合代替。

计量经济第六章多重共线性

计量经济第六章多重共线性

• 2、数据采集的范围有限,或采集 的样本量小于模型的自变量个数。
• 如在罕见疾病的研究过程中,由于病 情罕见、病因又相当复杂,而只能在 少数的患者身上采集大量的变量信息。
3、模型中采用滞后变量
在计量经济模型中,往往需要引入 滞后变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相 关性。
up
三、方差膨胀因子法
• 自变量间的共线性程度越大时,VIF值也随之 增大。所以也可利用方差膨胀因子来检验 多重共线性问题。 • 一般来说,当VIF >10时,表明 涉及的两个 变量存在高度线性相关,模型存在不完全 多重共线性。
P111 【经典实例】
• 计算得到的方差膨胀因子值分别为
VIF1 =10000,VIF2 =10000,VIF3 =9.6525,VIF4 =11.5875
2 2 2 1
同理易得
ˆ ) Var( 2
• EVIEWS遇到完全多重共线性时,会 显示 • Near singular matrix,无法进行估 计
2、不完全多重共线性下的后果
(1)估计量的方差增大 2 2 x 2 ˆ) 由于 Var ( 1 2 x12x2 (x1 x2 )2
• 可以看出,除了 VIF3 10 ,其余的方 差膨胀因子值均大于10,表明模型中 存在较严重的多重共线性问题。
up
第三节 多重共线性的修正 一、改变模型的形式 二、删除自变量 三、减少参数估计量的方差 四、其它方法 习题
up
• 一、改变模型的形式
• (一)变换模型的函数形式
• 例如将线性回归模型转化为对数模 型或者多项式模型。 • (二)改变模型的自变量的形式

计量经济学之多重共线性

计量经济学之多重共线性

计量经济学之多重共线性引言多重共线性是计量经济学中一个重要的概念,在经济学研究中扮演着重要的角色。

在本文中,我们将深入探讨多重共线性的概念、原因和影响,并介绍一些常见的解决方案和应对方法。

什么是多重共线性?多重共线性是指在回归分析中,自变量之间存在高度相关性的情况。

具体来说,多重共线性指的是自变量之间线性相关性较高,可能导致回归分析的结果不准确或难以解释。

多重共线性的原因多重共线性的产生有多种原因,以下是一些常见的原因:1.样本选择偏倚:当样本中存在特定的特征或者数据的选择方式导致一些变量的相关性增强。

2.变量的定义重复:有些变量可能在定义上重复,导致它们之间存在高度相关性。

3.缺少重要变量:当回归模型中存在遗漏的重要变量时,其他变量可能会代替这些遗漏的变量,导致多重共线性。

4.数据测量误差:测量误差也可能导致自变量之间存在高度相关性。

多重共线性的影响多重共线性可能会对回归模型产生一系列的问题和影响:1.估计系数不准确:多重共线性会导致回归系数的估计不准确,使得对自变量的解释变得困难。

2.系数符号相反:多重共线性可能导致估计系数的符号与理论预期相反。

3.误差项的方差增加:多重共线性会导致误差项的方差增加,从而降低了模型的精确度。

4.解释力度减弱:多重共线性会降低模型的解释力度,使得我们难以解释模型的结果。

解决多重共线性的方法针对多重共线性问题,我们可以采取以下方法来解决:1.增大样本量:增大样本量可以降低变量之间的相关性,从而减轻多重共线性的影响。

2.删除相关变量:通过检验变量之间的相关性,删除相关性较高的变量,可以减轻多重共线性的程度。

3.主成分分析:主成分分析是一种降维的方法,可以将相关性较高的变量合并为一个主成分,从而避免了多重共线性的问题。

4.增加惩罚项:在回归模型中增加惩罚项,如岭回归或lasso回归,可以减轻多重共线性的影响。

5.使用时间序列数据:对于存在多重共线性的房地产数据等时间序列数据,可以使用时间序列模型来避免多重共线性的问题。

计量经济学:多重共线性

计量经济学:多重共线性

影响比较大的,略去影响较小的。
元线性回归模型并进行OLS估计,拟合优度最大且接近1时,说明
这个变量与其他所有解释变量间存在共线性。
第三节 多重共线性的检验
辅助回归法中的方差膨胀因子:
对 于 多 元 线 性 回 归 模: 型Yi 0 1 X 1i ... k X ki ui 为 判 断 诸 自 变 量 间 是存 否在 多 重 共 线 性 , 进如 行下 辅 助 回 归 : X ji 0 1 X 1i ... j 1,i X j 1,i j 1,i X j 1,i ... k X ki v i , j 1,2,...,k 若 上 述 辅 助 回 归 的 可系 决数 为 R2 X j的 方 差 膨 胀 因 子 为 : j, 则 定 义 自 变 量 1 VIF j 1 R2 j
第一节 多重共线性的概念
若有c0+c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n。其中: ci不全为0,则称
解释变量间存在完全多重共线性
若存在:c0+c1X1i+c2X2i+…+ckXki≈0 i=1,2,…,n。 其中:ci不全为0,
则称为解释变量间存在近似多重共线性。
完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,
第二节 多重共线性的来源与后果
4、参数估计值不稳定,经济含义不合理
样本观测值稍有变动、增加或减少解释变量等都会使参数估计值发生较大变 化,甚至出现符号错误,从而不能正确反映解释变量对被解释变量的影响。
5、模型的预测功能失效
较大的方差容易使预测区间变大,从而使预测失去意义
注意:只要模型满足经典假设,则在近似多重共线性情况下,OLS估计量仍 然满足无偏性、线性性和有效性。但此时,无偏性并不意味着对某一给定样 本,其参数估计值就等于真实值。有效性也不意味着参数估计量的方差一定 很小。

计量经济学4.3多重共线性

计量经济学4.3多重共线性
数据预处理
对数据进行清洗,处理缺失值和异常 值,进行描述性统计分析和可视化, 以初步了解数据分布和特征。
模型构建与求解过程
变量选择
模型设定
模型求解
根据研究目的和理论基础,选 择与被解释变量(贷款违约风 险)相关的解释变量(如年龄 、收入、负债比等),并控制 其他可能影响结果的变量(如 性别、教育程度等)。
诊断工具
相关系数矩阵
通过观察解释变量之间的相关系数,可以初步判断是否存在多重 共线性。当相关系数较高时,可能存在多重共线性问题。
散点图与回归分析
通过绘制散点图并进行回归分析,可以直观地观察解释变量之间的 线性关系,从而判断是否存在多重共线性。
方差分解与主成分分析
利用方差分解和主成分分析方法,可以诊断多重共线性的来源和影 响程度。
采用多元线性回归模型,以贷 款违约风险为被解释变量,以 上述解释变量为自变量,构建 计量经济学模型。
运用最小二乘法(OLS)对模型 进行求解,得到各解释变量的系 数估计值、标准误、t统计量和p 值等。
结果展示与解读
结果展示
将模型求解结果以表格形式展示,包括各解释变量的系数估计值、标准误、t统计量、p值和置信区间等。
检验方法
方差膨胀因子(VIF)检验
通过计算解释变量的方差膨胀因子,判断是否存在多重共线性。当VIF值远大于1时,表明存在严 重的多重共线性。
条件指数(CI)检验
利用条件指数的大小来判断多重共线性的程度。条件指数越大,多重共线性问题越严重。
特征根与条件数检验
通过计算特征根和条件数来判断多重共线性的存在。当特征根接近于0或条件数较大时,表明存 在多重共线性。
案例分析
案例一
通过收集某地区房价、人口、收入等变量的数据,建立计量经济学模型进行实证分析。在模型检验过 程中,发现房价与人口、收入之间存在较高的相关系数,且VIF值较大,表明存在多重共线性问题。 经过进一步诊断和处理,最终得到合理的模型结果。

计量经济学 第七章 多重共线性

计量经济学  第七章  多重共线性

第七章 多重共线性“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。

7.1多重共线性及产生的原因 7.1.1.非多重共线性假定111211212221121111k k T T Tk x x xx xx X x x x ---=如果rk (X 'X ) = rk (X ) < k 或`0X X =称解释变量是完全共线性相关。

在实际经济问题中,完全多重共线性和完全无多重共线性两种极端情况都是极少的,大多数情况是解释变量存在不完全的多重共线性,或者近似的多重共线性,可一表示为:1122110k k x x x u λλλ--++++= 7.1.2.多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。

如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。

当这些变量同时进入模型后就会带来多重共线性问题。

0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDPCONS0.E +001.E +112.E +113.E +114.E +110.0E +005.0E +101.0E +111.5E +112.0E +112.5E +11C O N SG D P o f H o n g K o n g(2)解释变量与其滞后变量同作解释变量。

滞后变量与原因变量在经济意义上没有本质区别,只是时间上的差异,原因变量与解释变量有相关关系,滞后变量也会有相关关系。

(见下图) (3)解释变量之间往往存在密切的关联度。

对同一经济现象的解释变量,往往存在密切的相关关系,如生产函数,资本大,需投入的劳动力也应趆多。

0.E+001.E+112.E+113.E+114.E+11GDP0.E+001.E+112.E+113.E+114.E+110.E+001.E+112.E+113.E+114.E+11GDP(-1)GDP7.2.多重共线性的后果(1) 当 `0X X =,X 为降秩矩阵,则 (X 'X ) -1不存在,βˆ= (X 'X )-1 X 'Y 不可计算。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2020/6/28商学院王中昭教学内容一、多重共线性二、实际经济问题中的多重共线性三、多重共线性的后果四、多重共线性的检验五、克服多重共线性的办法和实例§4.3 多重共线性2020/6/28商学院王中昭对于模型Y i =β0+ β1x 1i + β2x 2i +…… βk x ki +μi如果某两个或多个解释变量之间出现相关性,即:C 1x 1i +C 2X 2i +……C k X ki =0其中C i 不全为0,即某一个解释变量是其他解释变量的线性组合,则称为完全多重共线性。

完全多重共线性的情况并不多见,一般是出现不同程度的多重共线性。

注意多重共线性不是指因变量与解释一、多重共线性概念2020/6/28商学院王中昭Y=Xβ+μ完全共线性:∣X′X ∣=0,(X′X)-1不存在,使B ^=(X′X)-1X′Y 无法求解。

例如:,0)(00201631084104213211 x x x 321332211321≠'=+-=++⎪⎪⎪⎪⎪⎭⎫⎝⎛=X X x x x X i i i i i i x c x c x c 这里,完全多重共线性2020/6/28商学院王中昭完全多重共线性的情况不多,一般出现不同程度的多重共线性。

多重共线性:∣X′X∣≈0,(X′X)-1存在,但(X′X)-1主对角线上的元素很大。

⎪⎪⎪⎪⎫⎛='≈'⇒≈+⎪⎪⎪⎪⎪⎭⎫⎝⎛=400300000300000100040030000030000010002100010004X)X ( ,0)( 0,0x x - x 199.2993001001.4004001099.1992001101.1001001 x x x 1-3i 2i 1i 321||这里,X X X 近似多重共线性2020/6/28商学院王中昭1、各时间序列的解释变量受同一因素影响,导致解释变量之间在时间上具有相同近似同增量的变化,这些因素有:(1)经济发展(2)政治事件(3)偶然事件(4)时间趋势2、解释变量中含有滞后变量容易产生多重共线性。

这是因为滞后变量从经济性质上看与原来的变量无区别,只是时间上有所不同。

例如,投资模型I t =β1+β2r t +β3Y t +β4Y t-1+μt二、实际经济问题中的多重共线性2020/6/28商学院王中昭如粮食产量Y=β0+β1X 1+β2X 2+β3X 3+β4X 4+u 其中Y 为粮食产量,X 1为肥料,X 2为种植面积,X 3为劳动力,X 4为水利浇灌。

种植面积越多则投入的肥料和劳动力就越多,故肥料、种植面积和劳动力三者之间存在相关关系。

又如:Y=β0+β1P+β2Q+β3I+u其中Y 为某种商品需求量,P 为商品价格、Q 为商品质量、I 为居民收入。

一般地质量较高的商品其价格也高,故P 和Q 存在线性关系。

一般地时间序列往往导致多重共线性。

但单独用截面数据,或用时间序列和截面数据相结合可减少多重共线性的发生。

3、各经济变量之间的内在联系2020/6/28商学院王中昭B^=(X ′X)-1X ′Y,Var(B ^)=σ2(X ′X)-11、完全共线性:无法求解参数估计量B^。

2、近似共线性:(参数估计量的方差增大为主要后果):即Var(B ^)变得很大,导致B ^不稳定,。

3、参数估计量经济含义不合理(共线性的解释变量的系数并不表示它们各自对被解释变量的贡献,失去了应有的经济含义。

因为共线解释变量之间可互相线性表示,此系数有可能是它们的共同影响)看模拟分析(第4,5章.do,一.多重共线性的征兆:模拟分析)。

?三、多重共线性的后果2020/6/28商学院王中昭4、变量的显著性检验失去意义:由于系数的标准差变大,从而该系数对应变量t 统计量变小,故使原本重要的自变量而t 检验通不过。

5、预测功能失效:因为β^I 值不稳定,从而导致MSE 不准确,→预测不准确。

2020/6/28商学院王中昭(一)、整体检验X 1,X 2,…..,X k 是否存在多重共线性。

若R 2,F 均很大,但多数解释变量都不显著,甚至系数符号都不对,则认为存在多重共线性。

缺点:此法无法分辩出共线性由哪些解释变量引起,在此基础上须进行下面进一步检验:四、多重共线性的检验2020/6/28商学院王中昭1、简单相关系数法(只有两个解释变量时用)(1)当只有两个自变量时,计算这两个变量的相关系数,若系数绝对值较大。

例如大于被解释变量与解释变量之间的相关系数R 的绝对值。

则认为这两个变量存在共线性。

(二)具体检验共线性是哪些变量引起的那就简单了:只要算出任何两个变量的相关系数不就知道是否存在多重共线性了?如果是三个以上的解释变量,此法行不通!懂吗!2020/6/28商学院王中昭实例(P141):中国粮食生产函数根据理论和经验分析,影响粮食生产(Y )的主要因素有:农业化肥施用量(X1),粮食播种面积(X2),成灾面积(X3) ,农业机械总动力(X4),农业劳动力(X5)。

1.已知中国粮食生产的相关数据,建立中国粮食生产函数:LnY=β0+β 1 LnX1 +β 2 LnX2 +β 3 LnX3 +β 4 LnX4 +β 4 LnX5 +μ经验方法:可以通过每个解释变量与Y 之间的散点图来判断是否为直线关系,然后假定合一起也是直线关系,最后由估计出来的结果再整体检验所有解释变量是否与Y 线相关。

2020/6/28商学院王中昭Stata 命令方式:pwcorr lnx1 lnx2 lnx3 lnx4 lnx5,star(0.05)2020/6/28商学院王中昭(2)但如果有三个以上的解释变量,则不能用求两两相关系数来判断它们是否存在共线性。

这是因为它们若存在共线性,并不能由相关系数看出,即尽管共线性程度很高,但它们的相关系数绝对值未必大。

312231312321,,884.0,564.0,884.0R :, 24482423252121 X X X : :X X X R R R +====⎪⎪⎪⎭⎫ ⎝⎛但并不很大可计算得有如下三个变量例如2020/6/28商学院王中昭此法与判定系数法原理一样。

将某个解释变量X j 与其余的解释变量进行回归:.VIF :, 11:,)......, ,......,X ,j 221121(存在共线性与其它自变量越有可能越大说明结论再求出方差扩大因子求出决定系数j x j x k j j j X R VIF R X jj X X Xf X -==+-2、方差扩大因子法(或膨胀因子Variance inflation factor)VIF 检验的经验准则:(1) VIF 的均值> 2(2) VIF 的最大值>10满足上述2个条件之一就表明存在多重共线性,2020/6/28商学院王中昭实例(P141):中国粮食生产函数数据见P141, d3p141.dta 。

命令方式:reg lny lnx1 lnx2 lnx3 lnx4 lnx5estat vif2020/6/28商学院王中昭VIF 检验的经验准则:(1) VIF 的均值> 2(2) VIF 的最大值>10 满足上述2个条件之一就表明存在多重共线性。

表明lnx1 ,lnx4与其它解释变量存在多重共线性。

2020/6/28商学院王中昭单独计算lnx1的VIF :qui reg lnx1 lnx2 lnx3 lnx4 lnx5 dis 1/(1-e(r2)) lnx1的VIF值和上面结果一样的2020/6/28商学院王中昭3、秩条件的检验方式。

原理:如果解释变量样本所构成矩阵X 是满秩的,则其秩rank(X) = k,则X‘X 是满秩的,则不存在多重共线性问题。

如果X’X 非满秩的,则INV(X‘X)的秩较大,则存在多重共线性。

计算过程:对X‘X 进行分解后得到矩阵的条件指数(CN(X’X)=cond Index ),此条件指数值为矩阵X‘X 的最大特征根和最小特征根之比的平方根。

stata 有两种方式(coldiag2和collin )可以实现此检验。

如果CN(X‘X)=cond Index>20 共线性问题比较严重。

例如:coldiag2 lnx1 lnx2 lnx3 lnx4 lnx5collin lnx1 lnx2 lnx3 lnx4 lnx5两种方式的结果如下:2020/6/28商学院王中昭方法一:coldiag2 这里cond Index=2165.3217,即CN(X’X) =Collin >20,表明存在严重的多重共线性。

2020/6/28商学院王中昭方法二:collin 此法还给出了每个解释变量的VIF 值和每一个解释变量对其它解释变量回归时的R 2,这里cond Index=2165.3217,同时还给出了X‘X 的行列式的值del(correlation matrix)=0.0085,如果矩阵(X’X)非满秩,应行列式接近于0。

这两种方法是一个整体判断方法。

2020/6/28商学院王中昭4、图形法graph matrix lny lnx1 lnx2 lnx3 lnx4 lnx5,half 。

可以看出化肥施用量x1与农业机械总动力x4存在较强的线性相关,农业机械总动力与粮食种植面积x2也存在近似相关性.2020/6/28商学院王中昭一般来说,模型的多重共线性程度多少都会有一些,如果是轻微的则不必处理;如果是严重,导致参数的符号及大小不符合经济理论时才进行处理。

1、逐步回归法2、差分法(包括高阶的广义差分)3、改用相对变量的形式五、克服多重共线性的方法和实例2020/6/28商学院王中昭逐步回归法分为逐个剔除法与逐个引入法逐步指的是在使用回归分析方法建立模型时,一次只能剔除(减少)一个解释变量或者一次只能引入(增加)一个解释变量。

进行一次剔除或引入称为“一步”,这样逐步的进行下去,直到最后得到模型达到最优。

下面详细说明:1、逐步回归法以下的R 2可用R 2来代替2020/6/28商学院王中昭剔除解释变量后不会使模型的拟合优度R 2(及F )显著地减少,并且没有改变模型中的其它自变量的原来t 统计量性质(即原来显著的仍然显著,未显著的仍未显著),则应当剔除该变量;否则不剔除。

如果剔除一个解释变量,使模型拟合优度R 2(及F )显著地减少,那么这个剔除是不应当的。

说明该被剔除变量与留在模型中的解释变量不构成多重共线性。

它对被解释变量Y 的贡献不能由已在模型中的解释变量代替(线性表出)。

具体做法:先将一切可能的解释变量全部引入模型,再依据各个解释变量的显著性和经济意义,每次从模型中剔除一个不显著的解释变量,即从不显著的解释变量中,剔除t 最小(或对应的概率Prob 最大)和从经济意义上看最不重要的解释变量,再根据上面所讲的剔除的准则进行判断是否能剔除该解释变量。

相关文档
最新文档