§4.3 多重共线性
第四章 多重共线性

二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形: 1.经济变量之间具有相同的变化趋势。 2.模型中包含滞后变量。 3.利用截面数据建立模型也可能出现多重共线性。 4.样本数据的原因。
6
第二节 多重共线性的后果
一、完全多重共线性产生的后果
1.参数的估计值不确定 2.参数估计值的方差无限大
Cov( ˆ2 ,
ˆ3 )
(1
r223 )
r23 2
x22i
x32i
随着共线性增加,r23趋于1,方差将增大。同样 协方差的绝对值也增大,它们增大的速度决定于
方差扩大(膨胀)因子(variance inflation factor, VIF)
VIF
1
1 r223
这时
Var(ˆ2 )
4.多重共线性严重时,甚至可能使估计的回归系数 符号相反,得出完全错误的结论。(如引例)
18
第三节 多重共线性的检验
本节基本内容: 简单相关系数检验法 方差扩大因子法 直观判断法 病态指数检验法 逐步回归法
19
一、简单相关系数检验法 简单相关系数检验法是利用解释变量之间的线性 相关程度去判断是否存在严重多重共线性的一种 简便方法。适用于只有两个变量的情形。
2
x32i 0
同理
ˆ3
这说明完全多重共线性时,参数估计量的方差将 变成无穷大。
9
关于方差的推导
Var(ˆ2 )
x32i (x22i ) (x32i )
(x2i x3i )2
2
1 X21 X 1 X22
1 X2n
第四章多重共线性

2
x2j VIFj
注意:R2j 是多个解释变量辅助回归的多重可决系数,
而相关系数 r223只是说明两个变量的线性关系 。
(一元回归中可决系数的数值等于相关系数的平方)
17
方差扩大因子的作用
由
R2j 越大
VIFJ 1 (1 R2j ) 多重共线性越严重
VIFj越大
VIFj的大小可以反映解释变量之间存在多重共线性的严重
1 x22i (1
r223 )
2
x22i
1 (1 r223)
2
x22i
VIF2
当 r23 增大时,VIF2 增大, Var(ˆ2 ) 也会增大 ,
思考: 当 r23 0 时 Var(ˆ2) 2
x22i
(与一元回归比较)
当 r23 1 时 Var(ˆ2 )
(见前页结论) 8
三、当多重共线性严重时,甚至可能使估计
在总体中部分或全部解释变量可能没有线性关系,但是 在具体获得的样本中仍可能有共线性关系,因此多重共线 性问题本质上是一种样本现象。
正因为如此,我们无法对多重共线性问题进行统计假设 检验,只能设法评价解释变量之间多重共线性的严重程度。
5
第二节 多重共线性产生的后果
从参数估计看,在完全无多重共线性时,各解释变量都独
Kt
Kt
ln Qt ln A ln Lt ln Kt ln u
(ln Lt 与 ln Kt 有多重共线性) ln Qt ln A ln Lt ln u
Kt
Kt 22
三、截面数据与时间序列数据的结合
有时在时间序列数据中多重共线性严重的变量,在截 面数据中不一定有严重的共线性
假定前提:截面数据估计出的参数在时间序列中变化不大
多重共线性

第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。
对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。
则称解释变量23,,,k X X X 之间存在着完全的线性关系。
用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。
当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。
在实际问题中,完全的共线性并不多见。
常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。
这表明此时解释变量之间只是一种近似的线性关系。
二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。
不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。
一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。
4.3多重共线性

5.模型的预测功能受到限制
变大的方差容易使区间预测的 “区间”变大,使区间预测可靠性降 低。 在解释变量之间的相关结构得以 保持的条件下,模型仍可用于预测。
综上所述
严重的多重共线性常常会导致下列情形出现: 使得用普通最小二乘法得到的回归参数估计值很 不稳定,回归系数的方差随着多重共线性强度的增加 而加速增长,对参数难以做出精确的估计;造成回归 方程高度显著的情况下,有些回归系数通不过显著性 检验;甚至可能出现回归系数的正负号得不到合理的 经济解释。 但是应注意,如果研究的目的仅在于预测被解释 变量Y,而各个解释变量X之间的多重共线性关系的性 质在未来将继续保持,这时虽然无法精确估计个别的 回归系数,但可估计这些系数的某些线性组合,因此 多重共线性可能并不是严重问题。
当不完全共线(近似共线)时,
ˆ ) = var( β 1
3.参数估计量经济含义不合理
,
如果模型中两个解释变量具有线性相关 性,例如X1 和X2 ,那么它们中的一个变量可以由 另一个变量近似表征。 这时,X1和X2前的参数估计并不反映各自与 被解释变量之间的结构关系,而是反映它们对被 解释变量的共同影响。 所以各自的参数估计可能已经失去了应有的 经济含义,于是经常表现出似乎反常的现象,例 如本来应该是正的,结果却是负的。(137)
0 < r2 <1
∑
σ
2
x 12i
•
1 > 1− r2
∑
σ
2
x 12i
βˆ = ( X ′X ) − 1 X ′Y
如果存在完全共线性,则(X’X) -1 不存在,无法得到参数唯一的估计量。 即:多重共线性使参数估计值的方差增大
2
4.变量的显著性检验可靠性差
什么是多重共线性如何进行多重共线性的检验

什么是多重共线性如何进行多重共线性的检验多重共线性是指在统计模型中,独立变量之间存在高度相关性或者线性依赖关系,从而给模型的解释和结果带来不确定性。
在回归分析中,多重共线性可能导致系数估计不准确、标准误差过大、模型的解释变得复杂等问题。
因此,对于多重共线性的检验和处理是非常重要的。
一、多重共线性的检验多重共线性的检验可以通过以下几种方式进行:1. 相关系数矩阵:可以通过计算独立变量之间的相关系数,判断它们之间的关系强度。
当相关系数超过0.8或-0.8时,可以视为存在高度相关性,即可能存在多重共线性问题。
2. 方差扩大因子(VIF):VIF是用来检验自变量之间是否存在共线性的指标。
计算每一个自变量的VIF值,当VIF值大于10或者更高时,可以视为存在多重共线性。
3. 条件数(Condition index):条件数也是一种用来检验多重共线性的指标。
它度量了回归矩阵的奇异性或者相对不稳定性。
当条件数超过30时,可以视为存在多重共线性。
4. 特征值(Eigenvalues):通过计算特征值,可以判断回归矩阵的奇异性。
如果存在特征值接近于零的情况,可能存在多重共线性。
以上是常用的多重共线性检验方法,可以根据实际情况选择合适的方法进行检验。
二、多重共线性的处理在检测到存在多重共线性问题后,可以采取以下几种方式进行处理:1. 去除相关性强的变量:在存在高度相关变量的情况下,可以选择去除其中一个或多个相关性较强的变量。
2. 聚合相关变量:将相关性强的变量进行加权平均,得到一个新的变量来替代原来的变量。
3. 主成分分析(PCA):主成分分析是一种降维技术,可以将相关性强的多个变量合并成为一个或多个无关的主成分。
4. 岭回归(Ridge Regression):岭回归是一种缓解多重共线性的方法,通过加入一个正则化项,来使得共线性变量的系数估计更加稳定。
5. Lasso回归(Lasso Regression):Lasso回归也是一种缓解多重共线性的方法,通过对系数进行稀疏化,来选择重要的变量。
多重共线性(统计累赘)的概念、特征及其测量方式和处理方式

试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。
1、概念多重共线性是指自变量之间存在线性相关关。
倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。
2、特征3、产生原因产生多重相关性的原因主要包括四方面。
一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。
但多数研究者认为共线性本质上是由于样本数据不足引起的。
4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。
①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。
③对重要自变量的回归系数进行t 检验,其结果不显著。
特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。
④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。
⑤重要自变量的回归系数置信区别明显过大。
⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。
(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。
共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。
方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。
对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。
计量经济学第四章 多重共线性

x2i
3 2
x3i
x3i
参数的估计值为:
ˆ2
x32i x2i yi x2i x3i x3i yi
(
x22i )(
x32i ) (
x2i
x 3i
)2
x32i
2
x3i yi x32i 2 2
x32i x32i
x2i x3i x22i
x2i x3i
ˆ1 Y ˆ2 X 2 ˆ3 X 3
ˆ2
x32i x2i yi x2i x3i x3i yi ( x22i )( x32i ) ( x2i x3i )2
ˆ3
x22i x3i yi x2i x3i x2i yi •
(
x22i )(
x32i ) (
x2i
x 3i
)
2
x2i yi x3i yi
x2i x3i x32i
4.2多重共线性的后果
如果X1和X2完全线性相关,则存在非0的λ使得:
1 2 X 2i 3 X 3i 0
则有:
1 2 X 2 3 X 3 0
2 X 2i X 2 3 X3i X3 0
X 2i X3i X 2iYi
X
2 3i
X
3iYi
VAR
COV
(βˆ )
2
(XX)1
2
N X 2i
X 3i
X2i
X
2 2i
X 2i X 3i
计量经济学多重共线性

四、克服多重共线性的方法
如果模型被检验证明存在多重共线性,则需要 发展新的方法估计模型,最常用的方法有三类。 1、第一类方法:排除引起共线性的变量
找出引起多重共线性的解释变量,将它排除出 去。
以逐步回归法得到最广泛的应用。
•
注意:
这时,剩余解释变量参数的经济含义和数值都 发生了变化。
2、第二类方法:差分法
——如果解释变量Xi与其他变量相关,那 么就会减小T统计值。为什么?
图示
存在多重共线性时 参数估计值的方差与标准差变大
容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断
思考:从这个“仪器”(统计量)来看, 我们通过作哪些工作,可以减少线性相 关带来的影响?
我们可以做如下工作: ——想办法使模型更精确。即使得被 解释变量更多的很解释,或说使σ 2的 估计值更小(为何?)。
0 1 0.5 2 例表 0.8 0.9 5 10 方差膨胀因子表 0.95 0.96 0.97 20 25 33 0.98 50 0.99 100 0.999 1000
相关系数平方 方差膨胀因子
此表有何特点?随相关系数 平方增大,方差膨胀因子如 何变化?
四、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系,
截面数据样本:问题不那么严重,但多重共线 性仍然是存在的。
二.多重共线性的后果 1.数据的微小变化可能导致参数估计值的大幅 波动 2.尽管系数具有联合显著性,而且回归的R2相 当高,但系数显著性水平会很低 3.系数有何能出现“错误”的符号或不合理的 大小 4.不会影响参数估计的无偏与一致性,但会影 响有效性。
六、案例——中国粮食生产函数
根据理论和经验分析,影响粮食生产(Y)的 主要因素有: 农业化肥施用量(X1);粮食播种面积(X2) 成灾面积(X3); 农业机械总动力(X4); 农业劳动力(X5) 已知中国粮食生产的相关数据,建立中国粮食 生产函数: Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +
多重共线性的概念实际经济问题中的多重共线性

(3)样本资料的限制 由于完全符合理论模型所要求的样本数据较 难收集,特定样本可能存在某种程度的多重共线 性。 一般经验: 时间序列数据样本:简单线性模型,往往存 在多重共线性。 截面数据样本:问题不那么严重,但多重共 线性仍然是存在的。
具体可进一步对上述回归方程作F检验: 构造如下F统计量
Fj R2 j . /( k 2) (1 R ) /(n k 1)
2 j.
~ F (k 2, n k 1)
式中:Rj•2为第j个解释变量对其他解释变量的回 归方程的决定系数,
若存在较强的共线性,则Rj•2较大且接近 于1,这时(1- Rj•2 )较小,从而Fj的值较大。 因此,给定显著性水平,计算F值,并与 相应的临界值比较,来判定是否存在相关性。
在矩阵表示的线性回归模型 Y=X+ 中,完全共线性指:秩(X)<k+1,即
1 1 X 1 X 11 X 12 X 1n X 21 X 22 X 2n X k1 X k2 X kn
中,至少有一列向量可由其他列向量(不包括第 一列)线性表出。 如:X2= X1,则X2对Y的作用可由X1代替。
二、实际经济问题中的多重共线性
一般地,产生多重共线性的主要原因有以 下三个方面: (1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经 济变量(收入、消费、投资、价格)都趋于增 长;衰退时期,又同时趋于下降。
横截面数据:生产函数中,资本投入与劳动力 投入往往出现高度相关情况,大企业二者都大, 小企业都小。
计量经济学:多重共线性

影响比较大的,略去影响较小的。
元线性回归模型并进行OLS估计,拟合优度最大且接近1时,说明
这个变量与其他所有解释变量间存在共线性。
第三节 多重共线性的检验
辅助回归法中的方差膨胀因子:
对 于 多 元 线 性 回 归 模: 型Yi 0 1 X 1i ... k X ki ui 为 判 断 诸 自 变 量 间 是存 否在 多 重 共 线 性 , 进如 行下 辅 助 回 归 : X ji 0 1 X 1i ... j 1,i X j 1,i j 1,i X j 1,i ... k X ki v i , j 1,2,...,k 若 上 述 辅 助 回 归 的 可系 决数 为 R2 X j的 方 差 膨 胀 因 子 为 : j, 则 定 义 自 变 量 1 VIF j 1 R2 j
第一节 多重共线性的概念
若有c0+c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n。其中: ci不全为0,则称
解释变量间存在完全多重共线性
若存在:c0+c1X1i+c2X2i+…+ckXki≈0 i=1,2,…,n。 其中:ci不全为0,
则称为解释变量间存在近似多重共线性。
完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,
第二节 多重共线性的来源与后果
4、参数估计值不稳定,经济含义不合理
样本观测值稍有变动、增加或减少解释变量等都会使参数估计值发生较大变 化,甚至出现符号错误,从而不能正确反映解释变量对被解释变量的影响。
5、模型的预测功能失效
较大的方差容易使预测区间变大,从而使预测失去意义
注意:只要模型满足经典假设,则在近似多重共线性情况下,OLS估计量仍 然满足无偏性、线性性和有效性。但此时,无偏性并不意味着对某一给定样 本,其参数估计值就等于真实值。有效性也不意味着参数估计量的方差一定 很小。
第四章 多重共线性 《计量经济学》PPT课件

SE
(
ˆ
j
)
ˆ
x
2 ji
VIFj
参数估计区间的增大,也会造成预测区间增大,使 得预测不稳定。
3.参数估计量的方差和估计区间增大,使检验容 易出现错误判断。
在不完全多重共线性情况下,参数估计区间增大, 会使得假设检验中参数估计值落入接受区域的概 率增大,也就是说,本来应该拒绝原假设反而不 拒绝。
在对模型参数的 t-检验中,由于参数估计量的标准
| XX | 0
• (XX)1对角线上的元素为无限大,从而 ˆ j 的方差
和标准差也为无限大
• 二元线性回归模型
X 3i X 2i
Var(ˆ3 )
x22i
x22i x32i (
x2i x3i )2
2
x22i
x22i
2 x22i (
x2i x2i )2
2
x22i 0
2
Var(ˆ2 )
差增大而使得值变小,结果造成本应该拒绝原假
设反而不拒绝,即t -检验不能通过。
可决系数 R2会很高,F-检验也显著,但是,对参数
的 t-检验可能不显著,甚至出现偏回归系数的符
号与实际经济现象恰好相反,从而得出错误结论。
§4.3 多重共线性的检验
1.相关系数检验法
两个解释变量的简单相关系数大于0.8的情况下,便认为 存在较严重的多重共线性。当解释变量的个数大于2的时 候,不仅要计算俩俩解释变量的简单相关系数,还要检测 偏相关系数。
x22i
x32i x32i (
x2i x3i )2
2
x22i
2 x22i 2 x22i (
x2i x2i )2
2
2
0
计量经济学4.3多重共线性

对数据进行清洗,处理缺失值和异常 值,进行描述性统计分析和可视化, 以初步了解数据分布和特征。
模型构建与求解过程
变量选择
模型设定
模型求解
根据研究目的和理论基础,选 择与被解释变量(贷款违约风 险)相关的解释变量(如年龄 、收入、负债比等),并控制 其他可能影响结果的变量(如 性别、教育程度等)。
诊断工具
相关系数矩阵
通过观察解释变量之间的相关系数,可以初步判断是否存在多重 共线性。当相关系数较高时,可能存在多重共线性问题。
散点图与回归分析
通过绘制散点图并进行回归分析,可以直观地观察解释变量之间的 线性关系,从而判断是否存在多重共线性。
方差分解与主成分分析
利用方差分解和主成分分析方法,可以诊断多重共线性的来源和影 响程度。
采用多元线性回归模型,以贷 款违约风险为被解释变量,以 上述解释变量为自变量,构建 计量经济学模型。
运用最小二乘法(OLS)对模型 进行求解,得到各解释变量的系 数估计值、标准误、t统计量和p 值等。
结果展示与解读
结果展示
将模型求解结果以表格形式展示,包括各解释变量的系数估计值、标准误、t统计量、p值和置信区间等。
检验方法
方差膨胀因子(VIF)检验
通过计算解释变量的方差膨胀因子,判断是否存在多重共线性。当VIF值远大于1时,表明存在严 重的多重共线性。
条件指数(CI)检验
利用条件指数的大小来判断多重共线性的程度。条件指数越大,多重共线性问题越严重。
特征根与条件数检验
通过计算特征根和条件数来判断多重共线性的存在。当特征根接近于0或条件数较大时,表明存 在多重共线性。
案例分析
案例一
通过收集某地区房价、人口、收入等变量的数据,建立计量经济学模型进行实证分析。在模型检验过 程中,发现房价与人口、收入之间存在较高的相关系数,且VIF值较大,表明存在多重共线性问题。 经过进一步诊断和处理,最终得到合理的模型结果。
多重共线性问题课件

多重共线性的表现形式
相关性矩阵
通过计算自变量之间的相关性矩阵,可以发现高度相关的自变量 。
特征值
在多重共线性情况下,某些特征值的绝对值会接近于0,这表明自 变量之间存在高度相关。
方差膨胀因子
数据收集阶段预防
总结词
在数据收集阶段,预防多重共线性的关键是保证 数据的准确性和完整性,以及合理的数据样本量 。
总结词
在数据收集阶段,可以通过增加样本量来降低多 重共线性的影响。
详细描述
数据的质量直接关系到模型的准确性和可靠性, 因此需要确保数据的准确性和完整性。此外,合 理的数据样本量可以降低随机误差的影响,提高 模型的稳定性和可靠性。
多重共线性问题的
03
诊断
特征值诊断法
总结词
通过计算模型中自变量的特征值来判断是否存在多重共线性问题。
详细描述
特征值诊断法是通过计算自变量的特征值来判断自变量之间的相关性。如果自变量的特征值接近于零 ,说明该自变量与其他自变量高度相关,存在多重共线性问题。
条件指数法
总结词
通过计算自变量之间的条件指数来判断 是否存在多重共线性问题。
VS
详细描述
条件指数是一种衡量自变量之间相关性的 指标,如果条件指数大于一定阈值,说明 自变量之间存在多重共线性问题。
方差膨胀因子法
总结词
通过计算自变量的方差膨胀因子来判 断是否存在多重共线性问题。
详细描述
方差膨胀因子是衡量自变量对因变量 影响的放大程度,如果方差膨胀因子 大于一定阈值,说明自变量之间存在 多重共线性问题。
Байду номын сангаас
第4章 多重共线性(3rd)

通过Y 对 Xj的一元回归来估计。
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形:
1、经济变量之间具有共同变化趋势。
如时序数据:收入、消费、就业率等,在经济上升/收缩期均呈现 增长/下降趋势。
2、模型中包含滞后变量。变量与其滞后期变量常高度相关。 3、利用截面数据建立模型也可能出现多重共线性。
Rank ( X ) k
即 X X 可逆
Rank ( X X ) K
2
假定6:正态性假定 ui ~ N (0, σ )
9
在第2、3章,讨论了在古典假定完全满足的条件下线性回 归模型的估计、检验及预测问题。正是有了这些古典假定,回 归系数的OLS估计量才是最佳线性无偏估计量。然而实际的经 济活动异常复杂,不一定总是能满足这些假定,从而可能给计 量经济分析带来一系列的麻烦和问题。 违反(1)零均值假定主要会对截距项的估计产生影响,并 不影响更受关注的斜率系数的估计;违反(6)正态性假定并 不影响OLS估计是最佳线性无偏估计,加之在大样本情况下ui 会渐近服从正态分布,可以不再讨论。 违反(4)解释变量非随机或随机扰动项与解释变量不相关 的影响,将在ch7中再讨论;需深入讨论的是违反(5)无多重 共线性、(2)同方差性、(3)无自相关假定。这正是第4、5、 10 6章将讨论的主题。
1.多元线性回归模型是将总体回归函数描述为一 个被解释变量与多个解释变量之间线性关系的 模型。 Yi β0 β1X1i β2X2i ... βk Xki ui 通常多元线性回归模型可以用矩阵形式表示:
Y = Xβ + u
2.多元线性回归模型中对随机扰动项u的假定: 零均值假定、同方差假定、无自相关假定、随 机扰动与解释变量不相关假定、正态性假定、 无多重共线性假定。
计量经济学之多重共线性

7.71
2007
7770.62
161000
906.9
222.5
7.80
2008
8749.3
171200
849.4
275.3
8.0
OLS 估计的结果
该模型
R2 0.9858 R2 0.9814
可, 决系数较高,F检验值 225.85,明显显著。 但是当 0.05 时
则称 1, X 2 , X3, X k 具有近似的多重共线性
回归模型中解释变量的关系
可能表现为三种情形: (1) rxixj 0 ,解释变量间毫无线性关系,变量间相
互正交。这时已不需要作多元回归,每个参数j都可
以通过Y 对 Xj 的一元回归来估计。
(2) rxixj 1 ,解释变量间完全共线性。此时模型参
如果样本容量增加,会减小回归参数的方差, 标准误差也同样会减小。因此尽可能地收集足 够多的样本数据可以改进模型参数的估计。 问题:增加样本数据在实际计量分析中常面临 许多困难。
(3). 变换模型形式(一般适用于时间序列数据)
一般而言,差分后变量之间的相关性要比差分 前弱得多,所以差分后的模型可能降低出现共 线性的可能性,此时可直接估计差分方程。 问题:差分会丢失一些信息,差分模型的误差 项可能存在序列相关,可能会违背经典线性回 归模型的相关假设,在具体运用时要慎重。
人数 X,2 城镇居民人均旅游支出 ,X3农村居民人均
旅游支出
X
,并以铁路里程
4
作X 5为相关基础设
施的代表
理论模型的设定
Yt 1 2 X 2t 3 X 3t 4 X 4t 5 X 5t ut
其中 : Yt ——第 t 年全国国内旅游收入
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
c x c x c x
1 i1 2 i2 3
i3
0
其中0 xi1 xi 2 xi 3 0 X X 0
二、实际经济问题中的多重共线性
一般地,产生多重共线性的主要原因有以下三个方面:
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济变量(收 入、消费、投资、价格)都趋于增长;衰退时期,又同 时趋于下降。 横截面数据:生产函数中,资本投入与劳动力投入往 往出现高度相关情况,大企业二者都大,小企业都小。
一、多重共线性的概念
对于模型 Yi=0+1X1i+2X2i++kXki+i i=1,2,…,n 其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了相关 性,则称为多重共线性(Multicollinearity)。
如果存在
c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n
2、第二类方法:差分法
时间序列数据、线性模型:将原模型变换 为差分模型: Yi=1 X1i+2 X2i++k Xki+ i 可以有效地消除原模型中的多重共线性。
一般讲,增量之间的线性关系远比总量 之间的线性关系弱得多。
年份
C 1759.1 2005.4 2317.1 2604.1 2867.9 3182.5 3674.5 4589.0 5175.0 5961.2 7633.1 8523.5 9113.2 10315.9 12459.8 15682.4 20809.8 26944.5 32152.3 34854.6 36921.1 39334.4 42911.9
Q f K , L u
i i i
i
K , L 成比例
i i
(2)滞后变量的引入
在经济计量模型中,往往需要引入滞后经济变 量来反映真实的经济关系。 例如,根据相对收入假设,时间序列数据建立消
费函数(当期收入与前期消费相关)
c I c
t 0 1 t 2
t 1
ut
(3)样本资料的限制
D(X)
first difference of X, X - X(-1)
D(X,n)
n-th order difference of X
d(x,2)=?
d(x,2)=d(d(x)) =d(x-x(-1)) =d(x)-d(x(-1)) =x-x(-1)-(x(-1)-x(-2)) = x-x(-1)-x(-1)+x(-2) =x-2x(-1)+x(-2)
四、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系,
所以用于多重共线性的检验方法主要是统计方法:
如判定系数检验法、逐步回归检验法等。
多重共线性检验的任务是: (1)检验多重共线性是否存在; (2)估计多重共线性的范围,即判断哪些变是否存在
(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则 说明两变量存在较强的多重共线性。 (2)对多个解释变量的模型,采用综合统计检验法 若 在OLS法下:R2与F值较大,但t检验值较小, 说明各解释变量对Y的联合线性作用显著,但各解 释变量间存在共线性而使得它们对Y的独立作用不
五、克服多重共线性的方法
如果模型被检验证明存在多重共线性,则需要 发展新的方法估计模型,最常用的方法有三类。 1、第一类方法:模型修正
(1)排除引起多重共线性的变量 找出引起多重共线性的解释变量,将它排除出去。 以逐步回归法得到最广泛的应用。 注意:这时,剩余解释变量参数的经济含义和数值都发 生了变化。保留在模型中变量的经济意义不再仅仅是自身的作 用,也包含了与其共线并被排除的变量的作用。
1 1 X 1 1
近似多重共线性
近似多重共线性:∣X‘X∣≈0,(X’X)-1存在,但主对角线上 的元素很大
c x c x
1 1i 2
2i
ck xki 0
1 1 X 1 1
1 2 3 4
1.01 1.99 2.99 4.01
(3)参数约束修正方法
例1:Y=ALαKβ →lnY=lnA+αlnL+βlnK+μ 由α+β=1→β=1-α →lnY=lnA+αlnL+(1-α)lnK+μ →lnY/K=lnA+αlnL/K+μ,OLS 估 计 α, 从 而 得 出 β的估计。 例2:消费函数Y=β1+β2X2+β3X3+μ 经验分析β2=2/3β3 →Y=β1+β3(X3+2/3X2)+μ 先用OLS估计β3,从而得出β2的估计.
中国 GDP 与居民消费C 的总量与增量数据 (亿元) Y C/Y △C △Y △C/△Y
例 如:
1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
完全多重共线性
Y=XB+N=(X1,……,Xi,……,Xk)B+N 完全共线性:∣X'X∣=0,(X'X)-1不存在
1 2 2 4 c 2 xi 2 c3 xi 3 0 c 1 xi 1 3 6 4 8 这里, 0 xi 1 2 xi 2 xi 3 0 X X 0
§4.3 多重共线性
模型中解释变量违反了基本假设1— 解释变量之间相互独立的假设,导致解 释变量之间线性相关,称为多重共线性 (Multicollinearity)。
一、多重共线性的概念 二、实际经济问题中的多重共线性
三、多重共线性的后果
四、多重共线性的检验 五、克服多重共线性的办法 六、案例—中国粮食生产函数
468.4 477.3 350.1 587.8 587.1 1088.1 1627.7 1340.7 1651.9 2919.3 1762.0 1853.5 2960.9 4583.3 8637.0 12190.0 11819.8 9819.9 6563.8 4109.1 3669.8 6439.4
0.526 0.653 0.820 0.449 0.536 0.452 0.562 0.437 0.476 0.573 0.505 0.318 0.406 0.468 0.373 0.421 0.519 0.530 0.412 0.503 0.658 0.556
差分消除多重共线性的机理 ——差分减弱了比例关系
近似共线性下,可以得到OLS参数估计量, 但参数估计量方差的表达式为
ˆ ) 2 (XX) 1 Cov(β
由于|X’X|0,引起(X’X) -1主对角线元素较大, 使参数估计值的方差增大, OLS 参数估计量非有 效。
3、参数估计量经济含义不合理
如果模型中两个解释变量具有线性相关性,例如 X2= X1 , 这时,X1和X2前的参数1、2并不反映各自与被 解释变量之间的结构关系,而是反映它们对被解释 变量的共同影响。
0.488 0.492 0.509 0.531 0.522 0.524 0.513 0.522 0.511 0.506 0.519 0.518 0.497 0.485 0.482 0.455 0.446 0.461 0.471 0.465 0.467 0.476 0.482
246.3 311.7 287.0 263.8 314.6 492.0 914.5 586.0 786.2 1671.9 890.4 589.7 1202.7 2143.9 3222.6 5127.4 6134.7 5207.8 2702.3 2066.5 2413.3 3577.5
能分辨,故t检验不显著。
2、判明存在多重共线性的范围
如果存在多重共线性,需进一步确定究竟由哪些变量引起。 (1) 判定系数检验法 使模型中每一个解释变量分别以其余解释变量为解释变量进 行回归,并计算相应的拟合优度。 如果某一种回归
x
ji
ˆ ˆ x
0 1
1i
ˆ x
j 1
j 1i
其中 : ci 不全为 0 ,即某一个解释变量可
以用其他解释变量的线性组合表示,则称
为解释变量间存在完全共线性( Perfect
Multicollinearity)。
如果存在
c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n
其中ci不全为0,vi为随机误差项,则称为 近似 共线性( Near Multicollinearity )。完全多 重共线性的情况并不多见,一般出现一定程度 上的多重共线性,即近似共线性。
1、2已经失去了应有的经济含义,于是经常表 现出似乎反常的现象:例如1本来应该是正的,结果
恰是负的。
4、变量的显著性检验失去意义
存在多重共线性时 参数估计值的方差与标准差变大
容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断
可能将重要的解释变量排除在模型之外
5、模型的预测功能失效
由于完全符合理论模型所要求的样本数据较难收 集,特定样本可能存在某种程度的多重共线性。 一般经验: 时间序列数据样本:简单线性模型,往往存在多 重共线性。 截面数据样本:问题不那么严重,但多重共线性 仍然是存在的。
三、多重共线性的后果
1、完全共线性下参数估计量不存在 Y=XB+N
的OLS估计量为:
3605.6 4074.0 4551.3 4901.4 5489.2 6076.3 7164.4 8792.1 10132.8 11784.7 14704.0 16466.0 18319.5 21280.4 25863.7 34500.7 46690.7 58510.5 68330.4 74894.2 79003.3 82673.1 89112.5