第7章 多重共线性

合集下载

第七章7.0多重共线性

第七章7.0多重共线性

实际经济问题中的多重共线性
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济变 量(收入、消费、投资、价格)都趋于增长; 衰退时期,又同时趋于下降。
横截面数据:生产函数中,资本投入与劳动力 投入往往出现高度相关情况,大企业二者都大, 小企业都小。
(2)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济 变量来反映真实的经济关系。 (3)样本资料的限制 一般经验:
在矩阵表示的线性回归模型 Y=X+u 中,完全共线性指:秩(X)<k+1,即
1 1 X 1 X 11 X 12 X 1n X 21 X 22 X 2n X k1 X k2 X kn
中,至少有一列向量可由其他列向量(不包括第 一列)线性表出。 如:X2= X1,则X2对Y的作用可由X1代替。
如果模型被检验证明存在多重共线性,则需要 发展新的方法估计模型,最常用的方法有三类。 1、第一类方法:排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除。 以逐步回归法得到最广泛的应用。 • 注意:这时,剩余解释变量参数的经济含义和 数值都发生了变化。
2、第二类方法:差分法 时间序列数据、线性模型:将原模型变换为 差分模型: Yi=1 X1i+2 X2i++k Xki+ i
当完全不共线时,
r2
=0
ˆ var(1 ) 2 / x12i
1 2 ˆ var(1 ) 2 2 x1i 1 r x12i
当近似共线时, 0< r2 <1
2
多重共线性使参数估计值的方差增大,1/(1-r2)为 方差膨胀因子(Variance Inflation Factor, VIF) 当完全共线时, r2=1,

7.1多重共线性的概念及产生原因

7.1多重共线性的概念及产生原因
第一节多重共线性的概念及产生原因第二节多重共线性的后果第三节多重共线性的检验第四节多重共线性的修正方法第五节案例分析第一节多重共线性的概念及产生原因多重共线性产生的原因对于k元线性回归模型如果模型的解释变量之间存在着较强的相关关系则称模型存在多重共线性
第七章 多重共线性
• 本章主要内容: 本章主要内容: 第一节 多重共线性的概念及产生原因 第二节 多重共线性的后果 第三节 多重共线性的检验 第四节 多重共线性的修正方法 第五节 案例分析
多重共线性有两种情况: 多重共线性有两种情况:完全多重共线性和 近似多重共线性。 近似多重共线性。
如果存在一组不全为零的数λ0 , λ1 , λ2 ,⋯ , λk,使得
λ0 + λ1 X 1i + λ2 X 2i + ⋯ + λk X ki = 0
则称模型存在完全多重共线性。 则称模型存在完全多重共线性。 完全多重共线性
(2)解释变量中含有滞后变量 ) 在计量经济学模型中, 在计量经济学模型中,往往需要引入滞后经济 变量来反映真实的经济关系。例如,以相对收入 变量来反映真实的经济关系。例如, 假说为理论假设,则居民消费C 假说为理论假设,则居民消费 t的变动不仅受当 期收入Y 的影响, 的影响, 期收入 t的影响,还受前期收入 Yt-1的影响,于 是建立以下模型: 是建立以下模型:
Ct = β 0 + β1Yt + β 2Yt −1 + ut
显然, 显然,当期收入和前期收入之间存在着较强的线 性相关性。 性相关性。
3.利用截面数据建立模型也可能出现多重共线性 利用截面数据建立模型也可能出现多重共线性 多重共线性一般与时间序列有关, 多重共线性一般与时间序列有关,但在截面 一般与时间序列有关 数据中也经常出现。例如,在生产函数中, 数据中也经常出现。例如,在生产函数中,大企 业拥有大量的劳动力和资本,小企业只有较少的 业拥有大量的劳动力和资本, 劳动力和资本, 劳动力和资本,投入的劳动量和资本量通常是高 度相关的。 度相关的。 在多元线性回归模型中, 在多元线性回归模型中,我们关心的并不是 多重共线性的有无,而是多重共线性的程度。当 多重共线性的有无,而是多重共线性的程度。 有无 程度 多重共线性程度过高时, 多重共线性程度过高时,将给最小二乘估计带来 严重的后果。 严重的后果。

第七章 多重共线性

第七章 多重共线性

2
X 1i 1 r 2
2
ˆ 同理:Var b2

2
X 2i 1 r 2
2
第二节
多重共线性的影响后果
2
ˆ 当完全不共线时,r=0, Var b1
X
2 1i
当不完全共线时,r越接近1,相关程度越高, bi Var ˆ 越大,参数估计值越不准确。
第四节
多重共线性的解决方法
三、逐步回归法 (1)计算因变量对每一个解释变量的回归方程,并分别 进行统计检验,从中选取最合适的基本回归方程。 (2)逐一引入其他解释变量,重新进行回归,在模型中 每个解释变量均显著,参数符号正确, R 2 值有所提高的前 提下,从中再选取最合适的二元回归方程。 (3)在选取的二元回归方程的基础上以同样的方式引 入第三解释变量;如此引入,直至无法引入新变量为止。
第四节
多重共线性的解决方法
(2)如果历年的平均收入弹性与近期的收入弹性 近似相等,就可以用 a2代替原模型中的 b2 。将原模 ln y a2 ln I b0 b1 ln P 型变为 y1 ln y a2 ln I 令:
p1 ln P 再利用时间序列数据求出价格弹性 b1 以及 b0即可。
第四节
多重共线性的解决方法
二、间接剔除重要的解释变量 1、利用已知信息 所谓已知信息,就是在建立模型之前,根据经 济理论、统计资料或经验分析,已知的解释变量之 间存在某种关系。为了克服模型的多重共线性,可 以将解释变量按已知关系加以处理。
第四节
多重共线性的解决方法
例如:柯布-道格拉斯生产函数
y aL K e
ln y / K ln a ln L / K

第七章多重共线性精品课件

第七章多重共线性精品课件
i 0 1 1i 2
2i
bk xki ui
进行估计时,将 Xj从模型中排除,并不引起拟合优度 减少许多,那么,这个被排除在模型之外的解释变量 与留在模型中的解释变量多重共线,排除是应当的。
第三节、 多重共线性的的处理
一、剔除引起共线性的解释变量(这是最重要的方法, 保留在模型中变量的经济意义不再仅仅是自身的作用, 也包含了与其共线并被排除变量的作用。)

2
I n)
二、多重共线性的概念
考虑模型中只有两个解释变量的情况,此时 模型可以表示为:
Y b0 b1 X1 b2 X 2 u
若存在不全为0的常数 1 , 2 ,使下列关 系式成立:
1 X1 2 X 2 0
则称自变量 X 1 , X 2 存在完全的线性关系。
此时两者之间的相关系数为1。实际中完全多 重共线的情况并不多见,一般出现不同程度的 近似多重共线,即有以下关系成立:
第七章、多重共线性
本章内容
第一节、 多重共线性的概 念、产生的原因及其后果 第二节 、多重共线性的检 验 第三节、 多重共线性的的 处理 约瑟夫· 斯蒂格利茨 第四节 多重共线性的案例 2001年诺贝尔奖 分析
获得者
第一节、 多重共线性的概念、产生的原因 及其后果 一、单方程计量经济模型回顾 1、模型形式:
ji 0 1
1i
ˆ j 1 x j 1i ˆ j 1 x j 1i ˆ k xki
如果判定系数很大,F检验显著,则Xj可用其他解释变 量的线性组合表出,即 Xj 与其他解释变量多重共线。 应将Xj从解释变量中排除。 (2)或者,在对原模型
y b b x b x
四、多重共线性的影响
1、对于完全共线,由于矩阵逆不存在,所以参数的 OLS估计失效。

多重共线性讲义

多重共线性讲义
当存在不完全多重共线性时,从上面已经知道,参数的OLS估计量方差 较大,其标准误也就较大,从而使得参数估计量的精度较低。
9
3.参数估计量经济含义不合理 如果模型中两个解释变量具有线性相关性,例如 X2= X1 ,这时,X1和
X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它 们对被解释变量的共同影响。1、2已经失去了应有的经济含义,于是经常 表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。
如果存在 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n
其中ci不全为0,vi为随机误差项,则称为 不完全多重共线性或欠完 全多重共线性(approximate multicollinearity)。
4
7.2.产生多重共线性的原因
一般地,产生多重共线性的主要原因有以下四个方面: (1)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、 投资、价格)都趋于增长;衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动力投入往往出现高度 相关情况,大企业二者都大,小企业都小。 (2)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济 关系。 例如,消费=f(当期收入, 前期收入),显然,两期收入间有较强的 线性相关性。
14
15
2、辅助回归法
利用模型中每一个解释变量分别以其余解释变量为解释变量进行回归, 并计算相应的拟合优度。
如果某一种回归 X j c 1X1 2 X 2 ... j1X j1 j1X j1 ... k X k
的判定系数较大,说明Xj与其他X间存在共线性。 判别的标准是回归模型是否通过F检验。

多重共线性

多重共线性

我们可以分别作y对x1和y对x2的回归,以便弄清 x1和x2单独对y的影响如何:
yˆi 9.4092 1.6449 x1i (0.0704)
线性。
如果存在不为零的常数 1, 2 ,使得下式成立
1 x1i 2 x2i vi 0 其中vi是随机项,这表示解释变量x1和x2之间存在近 似的线性关系,则说x1和x2之间高度相关,即存在不 完全多重共线性。 完全多重共线性和不完全多重共线性,统称为多重 共线性。因此,所谓多重共线性是指解释变量之间 存在完全的线性关系或近似的线性关系。
§7.2 多重共线性的后果
一般模型
Y X U
(7.2.11)
完全多重共线,即解释变量中存在
0 1 x1i k xki 0 (7.2.12)
其中λi不全为零。于是
rk(X) < k +1
(7.2.13)
便有
| X′X |=0
(7.2.14)
从而使得参数估计量
ˆ ( X X )1 X Y
i=1,2,…,k,皆有R2i=0。
多重共线性基本上是一种样本现象。因为人们在制 定模型时,总是尽量避免将理论上具有严格线性关 系的变量作为自变量收集在一起,因此,实际问题 中的多重共线性并不是自变量之间存在理论上或实 际上的线性关系造成的,而是由于所收集的数据(自 变量观察值)之间存在近似的线性关系所致。
例7.2.1 设因变量y和自变量x1、x2具有表7.2.1所示的 观察值,我们用模型
yi 0 1 x1i 2 x2i ui
拟合表7.2.1中的数据。
表7.2.1
y、x1和x2的观察值
yi 30 35 40 45 50 60 68 80 92 104 x1i 10 15 18 22 28 32 38 42 50 55 x2i 9.8 14.9 17.6 21.6 27.6 31 37.2 42.3 50.2 54.6

第7章岭回归分析

第7章岭回归分析

第7章岭回归分析岭回归分析是一种用于解决多重共线性问题的回归方法。

在多重共线性问题中,自变量之间存在高度相关性,这会导致传统的最小二乘法线性回归产生不稳定的估计结果。

岭回归通过对系数进行约束,来减小估计值的方差,从而提高回归模型的稳定性。

本章将介绍岭回归的原理、步骤和应用。

一、岭回归的原理岭回归是对普通最小二乘法进行修正的一种方法。

其基本思想是通过对最小二乘法中的残差平方和添加一个惩罚项来控制系数的大小,从而减小方差。

岭回归的目标是找到一个最优的系数向量,使得残差平方和和正则化项的加权和最小化。

在岭回归中,通过引入一个正则化参数λ(也称为岭参数),目标函数变为最小二乘法的残差平方和加上λ乘以系数向量的平方和。

正则项的引入使得系数向量的估计值在其中一种程度上受到限制,使回归模型更加稳定。

通过调整正则化参数λ的值,可以控制估计值的偏差和方差之间的权衡。

二、岭回归的步骤岭回归的步骤如下:1.数据准备:将数据集划分为自变量矩阵X和因变量向量y。

2.数据标准化:对X和y进行标准化,使得均值为0,方差为1、这一步骤是为了使得不同变量之间的尺度一致。

3.构建岭回归模型:通过求解最小二乘法,得到系数估计值。

岭回归的系数估计值计算公式为:β^=(X^T*X+λI)^(-1)*X^T*y。

其中,X^T为X的转置矩阵,I为单位矩阵,λ为正则化参数。

4.选择合适的λ:通过交叉验证等方法,选择合适的正则化参数λ。

5.模型评估:使用选择的正则化参数λ对模型进行评估,计算均方误差等指标。

三、岭回归的应用岭回归在实际应用中具有广泛的用途,主要包括以下几个方面:1.多重共线性问题:当自变量之间存在高度相关性时,使用岭回归可以解决多重共线性问题,减小估计值的方差,提高回归模型的稳定性。

2.特征选择:岭回归通过惩罚项的引入,可以压缩系数向量,从而减小不重要的特征对模型的影响,实现特征的选择。

3.数据挖掘:岭回归可以用于数据挖掘任务,如预测、分类等。

第七章多重共线性

第七章多重共线性

X i fi ( X1, X 2 , , X i1, X i1, , X k )
X k fk ( X1, X 2 , , X k1)
对应的判定系数 R12, R22, , R2j , , Rk2

R2j
对应为以 X j 为被解释变量的回归方程。
显然,这些判定系数中最大且接近于1的那 一个R2i所对应的变量Xi,是与其他解释 变量发生多重共线性最严重的一个
(2)估计多重共线性的范围,即判断哪些 变量之间存在共线性。
有几点我们要明白:
(1) 多重共线性是一个程度问题而不是存在与否 的问题。
(2) 由于多重共线性是在假定解释变量是非随机 的条件下出现的问题,因而它是样本的特征,而 不是总体的特征。
因此,我们不仅可以“检测多重共线性”,而且 可以测度任何给定样本的多重共线性程度。
X1 9
X2i、2, 25, 48 X 2 25
X3i、1, 23, 24
X 3 16
view correlations
它们两两简单相关系数不大,但是严格共线性
所以,用简单相关系数判断模型是否存在多重共线性,只 适用于两个解释变量的情况
(二)估计多重共线性的范围
如果存在多重共线性,需进一步确定究竟由哪些变 量引起。
多重共线性是一个程度问题
若解释变量两两之间完全不相关,则不存在 该问题;
若其中部分解释变量之间完全相关,则根本 不能用OLS进行回归;
若解释变量之间存在一定程度的线性关系, 则是本章所要解决的多重共线性的问题。
2.参数的方差 因为估计值的方差为:
Var(1)
2 x22i
x12i x22i ( x1i x2i )2
注意: 完全共线性的情况并不多见,一般出现的

7.1多重共线性的概念及产生原因

7.1多重共线性的概念及产生原因

7.1多重共线性的概念及产生原因
多重共线性是指在一个多元回归模型中,多个解释变量之间存在高度相关性,导致回
归方程中的参数无法估计或估计不准确的现象。

因此,多重共线性会对回归结果的解释和
预测产生负面影响。

多重共线性的产生原因可以归纳为以下几点:
1. 变量选择不当:如果在选择解释变量时,没有考虑它们之间可能存在的相关性,
就会出现多重共线性。

2. 数据处理不当:在数据处理中,如果对变量进行过度的转换和调整,或者使用过
于宽泛的指标,也可能导致多重共线性问题。

3. 数据收集不当:如果数据样本不足或者数据来源中存在重复的信息,就可能出现
多重共线性。

4. 特征工程不当:特征工程是指对原始数据进行预处理,提取出更有利于建模的特征。

如果特征工程不当,就可能导致多重共线性的问题。

如,过多的特征选择等。

5. 非线性关系:多重共线性不仅存在于线性模型中,也可能存在于非线性模型中,
如决策树模型、KNN模型等。

6. 误差项相关:当自变量中存在测量误差时,误差会通过模型的回归系数来影响因
变量,导致自变量之间的相关性,从而产生多重共线性。

7. 时间趋势:在同一时间段内,多个自变量具有相似的趋势也可能导致多重共线性。

例如,时间序列中常常出现的季节性变化等。

综上所述,多重共线性是在多元回归模型中常见的问题,它会对模型的稳定性、可靠
性和准确性产生重要影响。

因此,在进行回归分析时,需要注意避免多重共线性的问题。

第七章多重共线性

第七章多重共线性

第七章多重共线性第七章多重共线性若线性模型不满⾜假定6,就称模型有多重共线性。

§7.1 多重共线性的概念⼀. 基本概念:假定6 ()1k r X k n =+<,是指模型中所有⾃变量12,,,,k x x x 1线性⽆关,也可理解为矩阵X 的列向量线性⽆关。

若不满⾜该假定,即 ()1k r X k <+,则称12,,,,k x x x 1存在完全多重共线性,12,,,,k x x x 1存在严格的线性关系,这是⼀种极端情况;若12,,,,k x x x 1之间的线性关系不是严格的,⽽是⼀种近似的线性关系,则称⾼度相关或存在不完全多重共线性。

如,01122i i i i y x x u βββ=+++ 若12,λλ?不全为零,使11220i i x x λλ+=,完全多重共线性11220i i i x x v λλ++= 不完全多重共线性完全多重共线性和不完全多重共线性统称为多重共线性。

解释变量(⾃变量)之间的线性关系可⽤拟合优度2i R 描述,2i R 表⽰i x 对其它解释变量的拟合优度,21i R = 完全 21i R ≈⾼度 20i R = ⽆⼆. 产⽣的原因:在实际经济问题中主要是不完全多重共线性。

其产⽣的主要原因是:1. 两个解释变量具有相同或相反的变化趋势;(家庭能耗与住房⾯积、⼈⼝)⽣产、需求.......2. 数据收集的范围过窄,造成解释变量之间有相同或相反变化的假象;3. 某些解释变量之间存在某种近似的线性关系;(各解释变量有相同的时间趋势)4. ⼀个变量是另⼀个变量的滞后值;供给5. 解释变量的选择不当也可能引起变量间的多重共线性。

6. 过度决定模型。

(观测值个数少于参数个数)对于正确设置的模型,多重共线性基本上是⼀种样本现象。

§7.2 多重共线性的后果⼀. 完全多重共线性当模型具有完全多重共线性时,⽆法进⾏参数的OLS 估计;设模型 Y XB U =+,若有完全多重共线性,即()1k r X k <+,则()1T r X X k <+ 1()T X X -?不存在1()T TB X X X Y ∧-?=不存在,同样 21()()Tj u jj V X X βσ∧-=也不存在,显著性检验和预测都⽆法进⾏。

第七章 多重共线性及其处理

第七章 多重共线性及其处理

第七章 多重共线性及其处理第一部分 学习辅导一、本章学习目的与要求1.理解多重共线性的概念;2.掌握多重共线性存在的主要原因;3.理解多重共线性可能造成的后果;4.掌握多重共线性的检验与修正的方法。

二、本章内容提要本章主要介绍计量经济模型的计量经济检验。

即多重共线性问题。

多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。

模型的多个解释变量间出现完全共线性时,模型的参数无法估计。

更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得t 统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。

显然,近似多重共线性使得模型偏回归系数的特征不再明显,从而很难对单个系数的经济含义进行解释。

多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。

而解决多重共线性的办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。

(一)多重共线性及其产生的原因当我们利用统计数据进行分析时,解释变量之间经常会出现高度多重共线性的情况。

1.多重共线性的基本概念多重共线性(Multicollinearity )一词由弗里希(Frish )于1934年在其撰写的《借助于完全回归系统的统计合流分析》中首次提出。

它的原义是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系。

如果在经典回归模型Y X βε=+中,经典假定(5)遭到破坏,则有()1R X k <+,此时称解释变量k X X X ,,,21 间存在完全多重共线性。

解释变量的完全多重共线性,也就是解释变量之间存在严格的线性关系,即数据矩阵X 的列向量线性相关。

因此,必有一个列向量可由其余列向量线性表示。

同时还有另外一种情况,即解释变量之间虽然不存在严格的线性关系,但是却有近似的线性关系,即解释变量之间高度相关。

计量经济学题库第7章多重共线性

计量经济学题库第7章多重共线性

第7章 多重共线性习 题一、单项选择题1.如果回归模型中解释变量之间存在完全的多重共线性,则最小二乘估计量( )A.不确定,方差无限大B.确定,方差无限大C.不确定,方差最小D.确定,方差最小2.多元线性回归模型中,发现各参数估计量的t 值都不显著,但模型的F 值确很显著,这说明模型存在( )A .多重共线性B .异方差C .自相关D .设定偏误 3.逐步回归法既检验又修正了( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性4.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( )A .无偏的 B. 有偏的 C. 不确定 D. 确定的 5.设线性回归模型为,下列表明变量之间具有完全多重共线性的是( )A .B .C .D .其中v 为随机误差项6.简单相关系数矩阵方法主要用于检验( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 7.设为解释变量,则完全多重共线性是( )8.下列说法不正确的是( )A. 多重共线性产生的原因有模型中大量采用滞后变量,)(22很大或R R 01122i i i iY X X u βββ=+++1202*0*0i i X X ++=1202*0*0i i X X v +++=1200*0*0i i X X ++=1200*0*0i i X X v +++=21,x x 221211211.0.021.0(.02x x A x x B x e C x x v v D x e +==++=+=为随机误差项)B. 多重共线性是样本现象C. 检验多重共线性的方法有DW检验法D. 修正多重共线性的方法有增加样本容量二、多项选择题1.能够检验多重共线性的方法有()A. 简单相关系数矩阵法B. t检验与F检验综合判断法C. DW检验法D. ARCH检验法E. White 检验2.如果模型中解释变量之间存在共线性,则会引起如下后果()A. 参数估计值确定B. 参数估计值不确定C. 参数估计值的方差趋于无限大D. 参数的经济意义不正确E. DW统计量落在了不能判定的区域3.能够检验多重共线性的方法有()A. 简单相关系数矩阵法B. DW检验法C. t检验与F检验综合判断法D. ARCH检验法E. 辅助回归法(又待定系数法)三、判断题1.多重共线性问题是随机扰动项违背古典假定引起的。

经济计量学第七讲多重共线性PPT资料(正式版)

经济计量学第七讲多重共线性PPT资料(正式版)

第四节 多重共线性的侦察(2)
二、侦察多重共线性的规则
(一)R2值高而显著的t比率少
(二)回归元之间有高度的两两相关 Ø它只是充分条件而不是必要条件
(三)检查偏相关 Ø偏相关系数不能保证对多重共线性提供 一 个准确的指南。
第四节 多重共线性的侦察(3)
二、侦察多重共线性的规则 (四)辅助回归 做每个解释变量对其他剩余变量 的回归并计算相应的R2值。其中的每 一个回归都被称为是从属或者辅助回 归。
2
j
j
第五节 多重共线性的补救措施
如果存在不完全的多重共线性,
TOj L(1R2 j)1/VIjF
第五节 多重共线性的补救措施
一、先验信息 二、横截面与时间序列数据并用 三、剔除变量与设定偏误 四、变量代换 五、补充新数据 六、在多项式回归中降低共线性 七、拯救多重共线性的其他方法
谢谢观看
(一)完全多重共线性情形
Y = ^1 + ^2X2 + ^3X3 + ^u
^2
(yx2)(x32) - (yx3)(x2x3)
= (x22)(x32) - (x2x3)2
如果 x3 = x2,
^2
=
(yx2)(2x22) - (yx2)(x2x2) (x22)(2 x22) - 2(x2x2)2
=
0 0
经济计量学第七讲多重 共线性
第七讲 多重共线性
第一节 多重共线性的性质 第二节 出现多重共线性时的估计问题 第三节 多重共线性的后果 第四节 多重共线性的侦察 第五节 多重共线性的补救措施
第一节 多重共线性的性质
一、多重共线性的概念 二、多重共线性的来源
一、多重共线性的概念
Y i 1 2 X 2 i 3 X 3 i k X k i u i

计量经济学 第七章 多重共线性

计量经济学  第七章  多重共线性

第七章 多重共线性“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。

7.1多重共线性及产生的原因 7.1.1.非多重共线性假定111211212221121111k k T T Tk x x xx xx X x x x ---=如果rk (X 'X ) = rk (X ) < k 或`0X X =称解释变量是完全共线性相关。

在实际经济问题中,完全多重共线性和完全无多重共线性两种极端情况都是极少的,大多数情况是解释变量存在不完全的多重共线性,或者近似的多重共线性,可一表示为:1122110k k x x x u λλλ--++++= 7.1.2.多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。

如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。

当这些变量同时进入模型后就会带来多重共线性问题。

0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDPCONS0.E +001.E +112.E +113.E +114.E +110.0E +005.0E +101.0E +111.5E +112.0E +112.5E +11C O N SG D P o f H o n g K o n g(2)解释变量与其滞后变量同作解释变量。

滞后变量与原因变量在经济意义上没有本质区别,只是时间上的差异,原因变量与解释变量有相关关系,滞后变量也会有相关关系。

(见下图) (3)解释变量之间往往存在密切的关联度。

对同一经济现象的解释变量,往往存在密切的相关关系,如生产函数,资本大,需投入的劳动力也应趆多。

0.E+001.E+112.E+113.E+114.E+11GDP0.E+001.E+112.E+113.E+114.E+110.E+001.E+112.E+113.E+114.E+11GDP(-1)GDP7.2.多重共线性的后果(1) 当 `0X X =,X 为降秩矩阵,则 (X 'X ) -1不存在,βˆ= (X 'X )-1 X 'Y 不可计算。

多重共线性(Multi-Collinearity)

多重共线性(Multi-Collinearity)

i 0 1 1i 2 2i
k ki i
(i=1,2,…,n)
其基本假设之一是解释变量
X,
1
X2,,
X
k
互相独立 。
如果某两个或多个解释变量之间出现了相关性, 则称为多重共线性。
如果存在
c1X1i+c2X2i+…+ckXki=0
i=1,2,…,n
其中: ci不全为0,即某一个解释变量可以用其它解释 变量的线性组合表示,则称为解释变量间存在完全
2

1

x12i 1 r 2
2
x12i
所以,多重共线性使参数估计量的方差增大。
方差扩大因子(Variance Inflation Factor)为1/(1-r2), 其增大趋势见下表:
相关系 0 0.5 0.8 0.9 0.95 0.96 0.97 0.98 0.99 0.999 数平方 方差扩 1 2 5 10 20 25 33 50 100 1000 大因子
多重共线性(Multi-Collinearity)
§2.8 多重共线性
Multi-Collinearity
一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、案例
一、多重共线性的概念
1、多重共线性
• 对于模型
Y X X X
以二元回归模型中的参数估计量ˆ 为例,ˆ 的方差为
1
1
Var(ˆ )
1

ˆ 2

(X X
)1
22

(
ˆ
2
(
x2
2i
)
x2 )( x2 ) ( x

多重共线性

多重共线性
收入(Y:GDP)与消费 C 的总量与增量数据
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 Y 4901 5489 6076 7164 8792 10133 11784 14704 16466 18320 21280 25864 34501 47111 59405 68498 C(-1) 2976 3309 3638 4021 4694 5773 6542 7451 9360 10556 11362 13146 15952 20182 27216 34529 C(-1)/Y 0.6072 0.6028 0.5996 0.5613 0.5339 0.5697 0.5552 0.5067 0.5684 0.5762 0.5339 0.5083 0.4624 0.4284 0.4581 0.5041
y ( 1 2 ) x1
只能确定综合参数 1 2 的估计值:
ˆ ˆ 1 2 x1i y i x12i
4.2.2 不完全多重共线性下的 后果
(1)参数估计仍是无偏估计,但不稳定;估计量 及其标准差非常敏感,观测值稍微变化,估计 量就会产生较大的变动。 (2)参数估计式的方差随着共线性程度的增大而 增大。 (3)t检验失效,区间估计失去意义;估计量的 方差很大,相应标准差增大,进行t检验时,接 受零假设的可能性增大 (4)严重多重共线性时,甚至参数估计式的符号 与其经济意义相反。得出完全错误的结论。
2i

2i
2 2i
x y x y x x
1i i 1i 2 1i 2 1i
i
x12i 2 x12i

第七章 多重共线性

第七章 多重共线性
三、多重共线性产生的后果
由前述可知,多重共线性分完全多重共线性和不完全多重共线性两种情况,两种情况都会对模型进行最小二乘估计都会产生严重后果。
(一)完全多重共线性 产生的后果
以二元线性回归模型为例,
EMBED Equation.3 (7-4)
以离差形式表示,假设其中 EMBED Equation.3 , EMBED Equation.3 , EMBED Equation.3 , EMBED Equation.3 ,常数 EMBED Equation.3 ,则, EMBED Equation.3 , EMBED Equation.3 的最小二乘估计量为
情况3、新引入变量后,方差增大
在多元线性回归模型中新引入一个变量后,发现模型中原有参数估计值的方差明显增大,则说明解释变量间可能存在多重共线性。
二、拟合优度 EMBED Equation.3 检验
对多元线性回归模型中各个解释变量相互建立回归方程,分别求出各回归方程的拟和优度,如果其中最大的一个接近1, EMBED Equation.3 显著大于临界值,该变量可以被其他变量线性解释,则其所对应的解释变量与其余解释变量间存在多重共线性。
多重共线性是较为普通存在的现象,从上节分析可知,较高程度的多重共线性会对最小二乘估计产生严重后果,因此,在运用最小二乘法进行多元线性回归时,不但要检验解释变量间是否存在多重共线性,还要检验多重共线性的严重程度。
一、不显著系数法
情况1、 EMBED Equation.3 很大,t小
EMBED Equation.3
EMBED Equation.3
分别求出上述各个方程的拟合优度 EMBED Equation.3 ,如果其中最大的一个 EMBED Equation.3 接近于1,则它所对应的解释变量 EMBED Equation.3 与其余解释变量间存在多重共线性。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第7章 多重共线性
习 题
一、单项选择题
1.如果回归模型中解释变量之间存在完全的多重共线性,则最小二乘估计量(A )
A.不确定,方差无限大
B.确定,方差无限大
C.不确定,方差最小
D.确定,方差最小 2.多元线性回归模型中,发现各参数估计量的t 值都不显著,但模型的
F 值确很显著,这说明模型存在( A )
A .多重共线性
B .异方差
C .自相关
D .设定偏误 3.逐步回归法既检验又修正了( D )
A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 4.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( C )
A .无偏的 B. 有偏的 C. 不确定 D. 确定的 5.设线性回归模型为
,下列表明变量之间具有完全多
重共线性的是( A )
A .
B .
C .
D .
其中v 为随机误差项
6.简单相关系数矩阵方法主要用于检验( D )
A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 7.设为解释变量,则完全多重共线性是( A )
8.下列说法不正确的是( C )
A. 多重共线性产生的原因有模型中大量采用滞后变量
B. 多重共线性是样本现象
,)(22很大或R R 01122i i i i
Y X X u βββ=+++1202*0*0i i X X ++=1202*0*0i i X X v +++=1200*0*0
i i X X ++=1200*0*0
i i X X v +++=21,x x 221211211
.0.0
21
.
0(.0
2x x A x x B x e C x x v v D x e +==++=+=为随机误差项)
C. 检验多重共线性的方法有DW检验法
D. 修正多重共线性的方法有增加样本容量
二、多项选择题
1.能够检验多重共线性的方法有( AB )
A. 简单相关系数矩阵法
B. t检验与F检验综合判断法
C. DW检验法
D. ARCH检验法
E. White 检验
2.如果模型中解释变量之间存在共线性,则会引起如下后果( BCD )
A. 参数估计值确定
B. 参数估计值不确定
C. 参数估计值的方差趋于无限大
D. 参数的经济意义不
正确
E. DW统计量落在了不能判定的区域
3.能够检验多重共线性的方法有( ACE)
A. 简单相关系数矩阵法
B. DW检
验法
C. t检验与F检验综合判断法
D. ARCH检验法
E. 辅助回归法(又待定系数法)
三、判断题
1.多重共线性问题是随机扰动项违背古典假定引起的。

F
2.解释变量与随机误差项相关,是产生多重共线性的主要原因。

F
3.在模型中引入解释变量的多个滞后项容易产生多重共线性。

T
四、问答题
1.下面结果是利用某地财政收入对该地第一、二、三产业增加值的回归结果。

根据这一结果试判断该模型是否存在多重共线性,说明你的理由。

Dependent Variable: REV
Method: Least Squares
Sample: 1 10
Included observations: 10
Variable Coefficient Std. Error t-Statistic Prob.
C 17414.63 14135.10 1.232013 0.2640
GDP1 -0.277510 0.146541 -1.893743 0.1071 GDP2 0.084857 0.093532 0.907252 0.3992 GDP3
0.190517 0.151680
1.256048
0.2558 R-squared
0.993798 Mean dependent var 63244.00 Adjusted R-squared 0.990697 S.D. dependent var 54281.99 S.E. of regression 5235.544 Akaike info criterion 20.25350 Sum squared resid 1.64E+08 Schwarz criterion 20.37454 Log likelihood -97.26752 F-statistic 320.4848 Durbin-Watson stat
1.208127 Prob(F-statistic)
0.000001
2.克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y 和工资收入X1、非工资—非农业收入X2、农业收入X3的时间序列资料,利用OLSE 估计得出了下列回归方程(括号中的数据为相应参数估计量的标准误):
试对上述模型进行评析,指出其中存在的问题。

习题答案
一、单项选择题
1.A 2.A 3.D 4.C 5.A 6.D 7.A 8.C
二、多项选择题
1. AB 2. BCD 3.ACE
三、判断题
1. 答:错误。

应该是解释变量之间高度相关引起的。

2.答:错误。

产生多重共线性的主要原因是:(1)许多经济变量在时间上有共同变动的趋势;(2)解释变量的滞后值作为解释变量在模型中使用。

3.答:正确。

在分布滞后模型里多引进解释变量的滞后项,由于变量的经济意义一样,只是时间不一致,所以很容易引起多重共线性。

四、问答题
1.答:存在严重多重共线性。

因为方程整体非常显著,表明三次产业GDP 对财
2ˆ8.133 1.05910.45220.1213 (8.92) (0.17) (0.66) (1.09) 0.95 107.37Y
X X X R F =+++==
政收入的解释能力非常强,但是每个个别解释变量均不显著,且存在负系数,与理论矛盾,原因是存在严重共线性。

2.答:从模型拟合结果可知,样本观测个数为27,消费模型的判定系数,
F 统计量为107.37,在0.05置信水平下查分子自由度为3,分母自由度为23的F 临界值为3.03,计算的F 值远大于临界值,表明回归方程是显著的。

模型整体拟合程度较高。

依据参数估计量及其标准误,可计算出各回归系数估计量的t 统计量值:
除外,其余的
值都很小。

工资收入X1的系数的t 检验值虽然显著,但
该系数的估计值过大,该值为工资收入对消费边际效应,因为它为1.059,意味着工资收入每增加一美元,消费支出的增长平均将超过一美元,这与经济理论和常识不符。

另外,理论上非工资—非农业收入与农业收入也是消费行为的重要解释变量,但两者的t 检验都没有通过。

这些迹象表明,模型中存在严重的多重共线性,不同收入部分之间的相互关系,掩盖了各个部分对解释消费行为的单独影响。

95.02
=R 01238.133
1.059
0.91, 6.23,8.920.170.4520.1210.68,
0.11
0.66 1.09t t t t =
==
=====1t j
t。

相关文档
最新文档