统计学 第四章 多重共线性

合集下载

多重共线性

多重共线性

解决方法
解决方法
(1)排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除出去,以逐步回归法得到最广泛的应用。 (2)差分法 时间序列数据、线性模型:将原模型变换为差分模型。 (3)减小参数估计量的方差:岭回归法(Ridge Regression)。 (4)简单相关系数检验法
谢谢观看
简介
简介
对线性回归模型 基本假设之一是自变量,之间不存在严格的线性关系。如不然,则会对回归参数估计带来严重影响。为了说 明这一点,首先来计算线性回归模型参数的 LS估计的均方误差。为此。重写线性回归模型的矩阵形式为 其中服从多元正态分布,设计矩阵 X是的,且秩为 p。这时,参数的 LS估计为,而回归系数的 LS估计为。 注意到由此获得的 LS估计是无偏的,于是估计的均方误差为 其中是的特征根。显然,如果至少有一个特征根非常接近于零,则就很大,也就不再是的一个好的估计。由 线性代数的理论知道,若矩阵的某个特质根接近零,就意味着矩阵 X的列向量之间存在近似线性关系。 如果存在一组不全为零的数,使得 则称线性回归模型存在完全共线性;如果还存在随机误差 v,满足,使得 则称线性回归模型存在非完全共线性。 如果线性回归模型存在完全共线性,则回归系数的 LS估计不存在,因此,在线性回归分析中所谈的共线性 主要是非完全共线性,也称为复共线性。判断复共线性及其严重程度的方法主要有特征分析法(analysis of eigenvalue),条件数法 (conditional numbers)和方差扩大因子法(variance inflation factor)。
产生原因
产生原因
主要有3个方面: (1)经济变量相关的共同趋势 (2)滞后变量的引入 (3)样本资料的限制
影响
影响

第四章 多重共线性

第四章 多重共线性
( X X ) 不存在,从( X X ) =X Y
' 1 ' '
中没法解出唯一的 来。
(2)参数估计值的方差无限大;
例如:对一个离差形式的二元回归模型
y 1 x1 2 x 2
如果两个解释变量完全相关,如x 2 x1 ,则有
x12i X X x x 2 i 1i
(2)变量显著性与方程显著性综合判断;

(3)辅助回归:将每个解释变量对其余变量回归,若某 个回归方程显著成立,则该解释变量和其余变量有多 重共线性。即看判定系数较大。 (4)判断参数估计值的符号,如果不符合经济理论或实 际情况,可能存在多重共线性
4.4.1 多重共线性的修正方法 (一):增加样本容量

时间序列数据经常出现序列相关 截面数据时,经常出现异方差

5、随机扰动项方差不等于常数=>异方差

解决问题的思路

1、定义违反各个基本假定的基本概念 2、违反基本假定的原因、背景 3、诊断基本假定的违反 4、违反基本假定的补救措施(修正)
本章主要介绍
4.1 4.2 4.3 4.4 4.5 4.6 多重共线性的实例、定义、产生背景; 多重共线性产生的后果; 多重共线性的检验; 多重共线性的修正。 违反三个假定的总结 案例
4.1.3 产生多重共线性的背景
(3)由于某种决定性因素的影响可能使各个变量向着同 方向变化; (4)滞后变量引入模型,同一变量的滞后值一般都存在 相互关系;在计量经济模型中,往往需要引入滞后经 济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
多重共线性分类的矩阵形式

第四章多重共线性

第四章多重共线性

2
x2j VIFj
注意:R2j 是多个解释变量辅助回归的多重可决系数,
而相关系数 r223只是说明两个变量的线性关系 。
(一元回归中可决系数的数值等于相关系数的平方)
17
方差扩大因子的作用

R2j 越大
VIFJ 1 (1 R2j ) 多重共线性越严重
VIFj越大
VIFj的大小可以反映解释变量之间存在多重共线性的严重
1 x22i (1
r223 )
2
x22i
1 (1 r223)
2
x22i
VIF2
当 r23 增大时,VIF2 增大, Var(ˆ2 ) 也会增大 ,
思考: 当 r23 0 时 Var(ˆ2) 2
x22i
(与一元回归比较)
当 r23 1 时 Var(ˆ2 )
(见前页结论) 8
三、当多重共线性严重时,甚至可能使估计
在总体中部分或全部解释变量可能没有线性关系,但是 在具体获得的样本中仍可能有共线性关系,因此多重共线 性问题本质上是一种样本现象。
正因为如此,我们无法对多重共线性问题进行统计假设 检验,只能设法评价解释变量之间多重共线性的严重程度。
5
第二节 多重共线性产生的后果
从参数估计看,在完全无多重共线性时,各解释变量都独
Kt
Kt
ln Qt ln A ln Lt ln Kt ln u
(ln Lt 与 ln Kt 有多重共线性) ln Qt ln A ln Lt ln u
Kt
Kt 22
三、截面数据与时间序列数据的结合
有时在时间序列数据中多重共线性严重的变量,在截 面数据中不一定有严重的共线性
假定前提:截面数据估计出的参数在时间序列中变化不大

第四章第三节多重共线性 计量经济学 教学课件(共34张PPT)

第四章第三节多重共线性  计量经济学 教学课件(共34张PPT)
第十页,共34页。
5.利用不包含某一解释变量Xj的样本决定系数进行检验
对原模型 Y=f〔X1,X2,…,Xk〕估计,计算R2
逐次减少(jiǎnshǎo)一个解释变量,进行估计计算样本决定系

Y=f〔X2,X3,…,Xk〕 R12
Y=f〔X1,X3,…,Xk〕 R22
……
… … ……
Y=f〔X1,X2,…,X k-1〕 Rk2
8.385373
0.0000
X2
0.4213800.1269253.3199190.0061
X3
-0.166260
0.059229 -2.807065
0.0158
X4
ቤተ መጻሕፍቲ ባይዱ
-0.097770
0.067647
-1.445299
0.1740
X5
-0.028425
0.202357 -0.140471
0.8906
Dependent Variable: Y
Method: Least Squares
Sample: 1983 2000
Included observations: 18
Variable Coefficient
Std. Error t-Statistic Prob.
X1
6.212562
0.740881
第六页,共34页。
三、多重共线性的影响
1.增大最小二乘估(计 yǐ的 ng方差xiǎng)
ˆ (X T X )1 X TY
var(ˆ
)
(
X
T
X
)1 ii
2
若模型当中存在完全共线性,则最小二乘估计失效.
若存在高度的共线性则会使估计值的方差变得很大,

多重共线性

多重共线性

第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。

对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。

则称解释变量23,,,k X X X 之间存在着完全的线性关系。

用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。

当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。

在实际问题中,完全的共线性并不多见。

常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。

这表明此时解释变量之间只是一种近似的线性关系。

二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。

不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。

一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。

什么是多重共线性如何进行多重共线性的检验

什么是多重共线性如何进行多重共线性的检验

什么是多重共线性如何进行多重共线性的检验多重共线性是指在统计模型中,独立变量之间存在高度相关性或者线性依赖关系,从而给模型的解释和结果带来不确定性。

在回归分析中,多重共线性可能导致系数估计不准确、标准误差过大、模型的解释变得复杂等问题。

因此,对于多重共线性的检验和处理是非常重要的。

一、多重共线性的检验多重共线性的检验可以通过以下几种方式进行:1. 相关系数矩阵:可以通过计算独立变量之间的相关系数,判断它们之间的关系强度。

当相关系数超过0.8或-0.8时,可以视为存在高度相关性,即可能存在多重共线性问题。

2. 方差扩大因子(VIF):VIF是用来检验自变量之间是否存在共线性的指标。

计算每一个自变量的VIF值,当VIF值大于10或者更高时,可以视为存在多重共线性。

3. 条件数(Condition index):条件数也是一种用来检验多重共线性的指标。

它度量了回归矩阵的奇异性或者相对不稳定性。

当条件数超过30时,可以视为存在多重共线性。

4. 特征值(Eigenvalues):通过计算特征值,可以判断回归矩阵的奇异性。

如果存在特征值接近于零的情况,可能存在多重共线性。

以上是常用的多重共线性检验方法,可以根据实际情况选择合适的方法进行检验。

二、多重共线性的处理在检测到存在多重共线性问题后,可以采取以下几种方式进行处理:1. 去除相关性强的变量:在存在高度相关变量的情况下,可以选择去除其中一个或多个相关性较强的变量。

2. 聚合相关变量:将相关性强的变量进行加权平均,得到一个新的变量来替代原来的变量。

3. 主成分分析(PCA):主成分分析是一种降维技术,可以将相关性强的多个变量合并成为一个或多个无关的主成分。

4. 岭回归(Ridge Regression):岭回归是一种缓解多重共线性的方法,通过加入一个正则化项,来使得共线性变量的系数估计更加稳定。

5. Lasso回归(Lasso Regression):Lasso回归也是一种缓解多重共线性的方法,通过对系数进行稀疏化,来选择重要的变量。

多重共线性(统计累赘)的概念、特征及其测量方式和处理方式

多重共线性(统计累赘)的概念、特征及其测量方式和处理方式

试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。

1、概念多重共线性是指自变量之间存在线性相关关。

倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。

2、特征3、产生原因产生多重相关性的原因主要包括四方面。

一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。

但多数研究者认为共线性本质上是由于样本数据不足引起的。

4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。

①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。

②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。

③对重要自变量的回归系数进行t 检验,其结果不显著。

特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。

④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。

⑤重要自变量的回归系数置信区别明显过大。

⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。

⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。

(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。

共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。

方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。

对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。

[理学]第四章 多重共线性资料讲解

[理学]第四章 多重共线性资料讲解

R2 0.9531
F=92.4020
消费支出、收入和财富的截面数据 单位:美元
消费支出 Y 70 65 90 95 110 115 120 140 155 150
收入 80 100 120 140 160 180 200 220 240 260
财富 810 1009 1273 1425 1633 1876 2052 2201 2435 2686
案例分析
本章小结
第一节 什么是多重共线性
两个实例
例1:某地区为研究不同家庭的消费Y与收入X2 的关系,在此基础上,还引进了消费者家庭财富
状况X3作为第二个解释变量。回归方程为:
Yˆ = 24.7747 + 0.9415X2 - 0.0424*X3 (1)
SE =(6.7525) (0.8229)(0.0807) t =(3.6690) (1.1442)(- 0.5261)
(2)

(6.4138) (0.0357)

(3.8128) (14.2432)
在二元线性模型(1)中,收入变量是统计上不显著
的,而在现在的一元线性模型(2)中则是高度显著
的。
同样,我们做对Y和X3的回归
Y=24.411+ 0.0498X3

(6.874) (0.0037)
(3)

(3.551) (13.29)
Va( rˆ2) 会 增 大 。 对 ˆ3有 同 样 的 结 论 。
2.t检验容易作出错误的判断 3.可能造成可决系数较高,但对各个参数
单独的 t 检验却可能不显著,甚至可 能使估计的回归系数符号相反,得出完 全错误的结论。
up
练习题4.5

《多重共线性》课件

《多重共线性》课件

诊断方法比较
检验统计量
检验统计量提供量化指标,可以 明确指出多重共线性的程度,但 其依赖于样本数据,稳定性相对
较差。
图形化诊断
图形化诊断直观易理解,但可能存 在主观性,并且难以量化多重共线 性的程度。
综合运用
在实际应用中,应综合运用多种方 法进行多重共线性的诊断,以确保 诊断结果的准确性和可靠性。
Condition Index
Condition Index是诊断多重共线性的另一种统计量,当某些Condition Index值特别 大时,可能存在多重共线性问题。
图形化诊断
散点图
通过绘制自变量间的散点图,可以直 观地观察到是否存在线性关系,从而 初步判断是否存在多重共线性问题。
相关系数矩阵
通过绘制相关系数矩阵,可以观察到 自变量间的相关系数,当某两个自变 量的相关系数接近1或-1时,可能存 在多重共线性问题。
多重共线性的影响
参数估计值不稳定
01
模型中的参数估计值会随着样本的微小变化而发生较大的变化
,导致模型预测的不稳定性。
模型预测精度降低
02
由于参数估计值的不准确,会导致模型的预测精度降低,预测
结果的可信度下降。
模型解释性差
03
由于解释变量之间的高度相关关系,使得模型难以解释各个解
释变量对因变量的影响程度,降低了模型的解释性。
多重共线性PPT课件
目 录
• 多重共线性的定义 • 多重共线性的成因 • 多重共线性的诊断 • 多重共线性的处理 • 案例分析
01
多重共线性的定义
什么是多重共线性
1
共线性是指解释变量之间存在高度相关性的现象 。
2
在多元线性回归模型中,如果解释变量之间存在 高度相关关系,会导致模型估计的参数不准确, 甚至出现完全错误的结论。

多重共线性检验方法

多重共线性检验方法

多重共线性检验方法在统计学中,多重共线性是指自变量之间存在高度相关性的情况,这会导致回归分析结果的不稳定性和不准确性。

因此,为了确保回归分析结果的可靠性,需要进行多重共线性检验。

本文将介绍多重共线性的概念、影响和常用的检验方法。

多重共线性的概念。

多重共线性是指在回归分析中,自变量之间存在高度相关性的情况。

当自变量之间存在线性相关性时,会导致回归系数估计值的不准确性,增加预测误差,降低模型的解释能力。

因此,多重共线性是回归分析中需要重点关注和解决的问题之一。

多重共线性的影响。

多重共线性会对回归分析结果产生一系列负面影响。

首先,它会导致回归系数估计值的不稳定性,使得对自变量的影响难以准确估计。

其次,多重共线性会增加回归模型的预测误差,降低模型的预测准确性。

此外,多重共线性还会降低回归模型的解释能力,使得模型对数据的解释变得困难。

多重共线性的检验方法。

为了检验回归模型中是否存在多重共线性,通常采用以下几种方法进行检验:1. 方差膨胀因子(VIF)检验,VIF是用来衡量自变量之间相关性的指标,其计算方法为1/(1-R^2),其中R^2为自变量与其他自变量的相关系数的平方。

通常情况下,VIF大于10表示存在严重的多重共线性问题。

2. 特征值检验,通过计算自变量矩阵的特征值来判断是否存在多重共线性。

当自变量之间存在高度相关性时,自变量矩阵的特征值会非常接近于0。

3. 条件数检验,条件数是矩阵的最大特征值与最小特征值的比值,用来衡量矩阵的条件性。

通常情况下,条件数大于30表示存在多重共线性问题。

4. 相关系数和散点图检验,通过观察自变量之间的相关系数和绘制散点图来判断是否存在多重共线性。

当自变量之间存在高度相关性时,它们的相关系数会接近于1,散点图会呈现出明显的线性关系。

结语。

多重共线性是回归分析中需要重点关注的问题,它会对回归模型的稳定性、准确性和解释能力产生负面影响。

因此,在进行回归分析时,需要进行多重共线性检验,并采取相应的方法来解决多重共线性问题,以确保回归分析结果的可靠性和准确性。

4第四章+多重共线性(中级计量-教学版)

4第四章+多重共线性(中级计量-教学版)

在序列相关,可能会违背经典线性回归模型的相关假设,
在具体运用时要慎重。
2018/3/26
财大 中级计量经济学 Ch4. 放宽基本假 定之多重共线性
26
4. 利用非样本先验信息
通过经济理论分析能够得到某些参数之间的关系,可以
将这种关系作为约束条件,将此约束条件和样本信息结合起 来进行约束最小二乘估计。
检验时,可初步判断可能存在严重的多重共线性。
2018/3/26 财大 中级计量经济学 Ch4. 放宽基本假 定之多重共线性 20
3. 有些解释变量的回归系数所带正负号与定性分析 结果违背时,很可能存在多重共线性。 4. 模型的可决系数较高,F检验显著,但某些解释
变量的偏回归系数 t 检验不显著,可能会存在多
ˆ 统计上可以证明,解释变量 X j 的参数估计式 β j 的方差可表示为
2 2 σ 1 σ ˆ )= Var( β = VIFj j 2 2 2 x j 1- R j x j
其中的 VIFj 是变量 X j 的方差扩大因子
1 (Variance Inflation Factor),即 VIFj = 1- R 2 j
在逐步回归中,高度相关的解释变量,在引入时会被剔
除。因而也是一种检测多重共线性的有效方法。
财大 中级计量经济学 Ch4. 放宽基本假 定之多重共线性
2018/3/26
22
第四节 多重共线性的补救措施
一、修正多重共线性的经验方法
二、逐步回归 三、岭回归简介*
2018/3/26
财大 中级计量经济学 Ch4. 放宽基本假 定之多重共线性
0 ˆ ▲ 从OLS估计式看:可以证明此时 β2 = 0 2.参数估计值的方差无限大

多重共线性(Multi-Collinearity)

多重共线性(Multi-Collinearity)

i 0 1 1i 2 2i
k ki i
(i=1,2,…,n)
其基本假设之一是解释变量
X,
1
X2,,
X
k
互相独立 。
如果某两个或多个解释变量之间出现了相关性, 则称为多重共线性。
如果存在
c1X1i+c2X2i+…+ckXki=0
i=1,2,…,n
其中: ci不全为0,即某一个解释变量可以用其它解释 变量的线性组合表示,则称为解释变量间存在完全
2

1

x12i 1 r 2
2
x12i
所以,多重共线性使参数估计量的方差增大。
方差扩大因子(Variance Inflation Factor)为1/(1-r2), 其增大趋势见下表:
相关系 0 0.5 0.8 0.9 0.95 0.96 0.97 0.98 0.99 0.999 数平方 方差扩 1 2 5 10 20 25 33 50 100 1000 大因子
多重共线性(Multi-Collinearity)
§2.8 多重共线性
Multi-Collinearity
一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、案例
一、多重共线性的概念
1、多重共线性
• 对于模型
Y X X X
以二元回归模型中的参数估计量ˆ 为例,ˆ 的方差为
1
1
Var(ˆ )
1

ˆ 2

(X X
)1
22

(
ˆ
2
(
x2
2i
)
x2 )( x2 ) ( x
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计量经济学
第四章 多重共线性
1
引子: 引子: 发展农业和建筑业会减少财政收入吗? 发展农业和建筑业会减少财政收入吗?
为了分析各主要因素对财政收入的影响, 为了分析各主要因素对财政收入的影响,建立财政收 入模型: 入模型 CS i = β 0 + β1 NZ i + β 2GZ i + β 3 JZZ i
1 ˆ ) = σ2 Var( β 2 = 2 2 ∑ x2i (1- r23 )

σ2 1 2 2 x2 i (1- r23 ) ∑
r23
增大时 Var(β 2 ) 也增大
14
^
2.对参数区间估计时,置信区间趋于变大 对参数区间估计时, 对参数区间估计时 3.假设检验容易作出错误的判断 假设检验容易作出错误的判断 4.可能造成可决系数较高,但对各个参数单独的 可能造成可决系数较高, 可能造成可决系数较高 t 检验却可能不显著,甚至可能使估计的回归系 检验却可能不显著, 数符号相反,得出完全错误的结论。 数符号相反,得出完全错误的结论。
+ β 4TPOPi + β 5CUM i + β 6 SZM i + ui
其中: CS财政收入 亿元 ; 财政收入(亿元 其中 财政收入 亿元) NZ农业增加值 亿元 农业增加值(亿元 GZ工业增加值 亿元 工业增加值(亿元 农业增加值 亿元); 工业增加值 亿元); JZZ建筑业增加值 亿元 建筑业增加值(亿元 总人口(万人 建筑业增加值 亿元); TPOP总人口 万人 总人口 万人); CUM最终消费 亿元 最终消费(亿元 SZM受灾面积 万公顷 受灾面积(万公顷 最终消费 亿元); 受灾面积 万公顷) 数据样本时期1978年-2003年(资料来源:《中国统计年鉴 数据样本时期 年 年 资料来源: 2004》,中国统计出版社 年版) 》 中国统计出版社2004年版) 年版
互正交。这时已不需要作多元回归,每个参数βj都可 以通过Y 对 Xj 的一元回归来估计。
(2) rxi x j = 1 ,解释变量间完全共线性。此时模型参 数将无法确定。 (3) 0<rxi x j <1 ,解释变量间存在一定程度的线性关 系。实际中常遇到的情形。
10
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形: 多重共线性产生的经济背景主要有几种情形:
λ1 + λ2 X2i + λ3 X3i +... + λk Xki = 0
i =1, 2,..., n
则称解释变量 X2 , X3 ,⋯Xk 之间存在着完全的多重 共线性。 共线性。
7
当 Rank ( X ) < k 时,表明在数据矩阵 X 中,至少 有一个列向量可以用其余的列向量线性表示, 有一个列向量可以用其余的列向量线性表示,则 说明存在完全的多重共线性。 说明存在完全的多重共线性。
18
二、方差扩大(膨胀)因子法 方差扩大(膨胀)
ˆ 统计上可以证明, 统计上可以证明,解释变量 X j 的参数估计式 β j 的方差可表示为
σ2 1 σ2 ˆ Var( β j ) = ⋅ = ⋅ VIFj 2 2 2 ∑ x j 1- R j ∑ x j
其中的 VIFj 是变量 X j 的方差扩大因子
17
注意: 注意:
较高的简单相关系数只是多重共线性存在的充分 条件,而不是必要条件。 条件,而不是必要条件。特别是在多于两个解释 变量的回归模型中, 变量的回归模型中,有时较低的简单相关系数也 可能存在多重共线性。 可能存在多重共线性。因此并不能简单地依据相 关系数进行多重共线性的准确判断。 关系数进行多重共线性的准确判断。
1 (Variance Inflation Factor),即 VIFj = , 1- R 2 ) ( j
其中 R 2 是多个Байду номын сангаас释变量辅助回归的可决系数 j
19
经验规则
●方差膨胀因子越大,表明解释变量之间的多重共 方差膨胀因子越大, 性越严重。反过来,方差膨胀因子越接近于 , 性越严重。反过来,方差膨胀因子越接近于1, 多重共线性越弱。 多重共线性越弱。 ●经验表明,方差膨胀因子≥10时,说明解释变量 经验表明,方差膨胀因子 时 与其余解释变量之间有严重的多重共线性,且这 与其余解释变量之间有严重的多重共线性, 种多重共线性可能会过度地影响最小二乘估计。 种多重共线性可能会过度地影响最小二乘估计。
21
3. 有些解释变量的回归系数所带正负号与定性分 析结果违背时,很可能存在多重共线性。 析结果违背时,很可能存在多重共线性。 4. 解释变量的相关矩阵中,自变量之间的相关系 解释变量的相关矩阵中, 数较大时,可能会存在多重共线性问题。 数较大时,可能会存在多重共线性问题。
22
四、逐步回归检测法
11
第二节 多重共线性产生的后果
本节基本内容: 本节基本内容: ●完全多重共线性产生的后果 ●不完全多重共线性产生的后果
12
一、完全多重共线性产生的后果
1.参数的估计值不确定 参数的估计值不确定
当解释变量完全线性相关时 ——OLS 估计式不确定 当解释变量完全线性相关时 完全线性相关 从偏回归系数意义看: 完全共线性时, ▲ 从偏回归系数意义看:在 X 2 和 X 3完全共线性时,无法保 持 X 3 不变,去单独考虑 X 2 对Y 的影响( X 2 和 X 3 的影响 不变, 的影响( 不可区分) 不可区分)
4
第四章 多重共线性
本章讨论四个问题: 本章讨论四个问题:
●什么是多重共线性 ●多重共线性产生的后果 ●多重共线性的检验 ●多重共线性的补救措施
5
第一节 什么是多重共线性
本节基本内容: 本节基本内容:
●多重共线性的含义 ●产生多重共线性的背景
6
一、多重共线性的含义
在计量经济学中所谓的多重共线性(Multi在计量经济学中所谓的多重共线性 Collinearity),不仅包括完全的多重共线性,还 ,不仅包括完全的多重共线性, 包括不完全的多重共线性。 包括不完全的多重共线性。 如果存在不全为0的 对于解释变量 X 2 , X 3 ,⋯ , X k ,如果存在不全为 的 数 λ , 2 ,...λ ,使得 1 λ k
模型估计与检验结果分析 可决系数为0.995 校正的可决系数为0.993 0.995, 0.993, ●可决系数为0.995,校正的可决系数为0.993,模型 拟合很好。模型对财政收入的解释程度高达99.5% 99.5%。 拟合很好。模型对财政收入的解释程度高达99.5%。 统计量为632.10 说明0.05 632.10, 0.05水平下回归方程整体 ●F统计量为632.10,说明0.05水平下回归方程整体 上显著。 上显著。 ● t 检验结果表明,除了工业增加值和总人口以外, 检验结果表明,除了工业增加值和总人口以外, 其他因素对财政收入的影响均不显著。 其他因素对财政收入的影响均不显著。 农业增加值和建筑业增加值的回归系数是负数。 ●农业增加值和建筑业增加值的回归系数是负数。 农业和建筑业的发展反而会使财政收入减少吗? 农业和建筑业的发展反而会使财政收入减少吗?! 这样的异常结果显然与理论分析和实践经验不相符。 这样的异常结果显然与理论分析和实践经验不相符。 若模型设定和数据真实性没问题,问题出在哪里呢? 若模型设定和数据真实性没问题,问题出在哪里呢?
i = 1, 2,..., n
其中, 为随机变量。 其中 ui 为随机变量。这表明解释变量 X 2 , X 3 ,⋯ X k 只是一种近似的线性关系。 只是一种近似的线性关系
9
回归模型中解释变量的关系
可能表现为三种情形: 可能表现为三种情形: (1) rxi x j = 0 ,解释变量间毫无线性关系,变量间相
20
三、直观判断法
1. 当增加或剔除一个解释变量,或者改变一个观 当增加或剔除一个解释变量, 测值时,回归参数的估计值发生较大变化, 测值时,回归参数的估计值发生较大变化,回归 方程可能存在严重的多重共线性。 方程可能存在严重的多重共线性。 2. 从定性分析认为,一些重要的解释变量的回归 从定性分析认为, 系数的标准误差较大, 系数的标准误差较大,在回归方程中没有通过显 著性检验时, 著性检验时,可初步判断可能存在严重的多重共 线性。 线性。
0 ˆ β2 = 估计式看: ▲ 从OLS估计式看:可以证明此时 估计式看 0
2.参数估计值的方差无限大 参数估计值的方差无限大
OLS估计式的方差成为无穷大: Var( β ) = ∞ 估计式的方差成为无穷大: 估计式的方差成为无穷大 ˆ 2
13
二、不完全多重共线性产生的后果
如果模型中存在不完全的多重共线性, 如果模型中存在不完全的多重共线性,可以得到 参数的估计值, 参数的估计值,但是对计量经济分析可能会产生 一系列的影响。 一系列的影响。 1.参数估计值的方差增大 参数估计值的方差增大
15
第三节 多重共线性的检验
本节基本内容: 本节基本内容:
● ● ● ● 简单相关系数检验法 方差扩大(膨胀) 方差扩大(膨胀)因子法 直观判断法 逐步回归法
16
一、简单相关系数检验法
含义: 含义:简单相关系数检验法是利用解释变量之间 的线性相关程度去判断是否存在严重多重共线性 的一种简便方法。 的一种简便方法。 判断规则:一般而言, 判断规则:一般而言,如果每两个解释变量的简 单相关系数(零阶相关系数 比较高 例如大于0.8, 单相关系数 零阶相关系数)比较高,例如大于 零阶相关系数 比较高, , 则可认为存在着较严重的多重共线性。 则可认为存在着较严重的多重共线性。
8
不完全的多重共线性
实际中, 实际中,常见的情形是解释变量之间存在不完 全的多重共线性。 全的多重共线性。 对于解释变量 X 2 , X 3 ,⋯ X k,存在不全为 的数 存在不全为0的数 使得 λ1 , λ 2 , ⋯ λ k ,使得
相关文档
最新文档