陆贵斌 计量经济学 练习8 多重共线性

合集下载

多重共线性PPT课件

多重共线性PPT课件

协方差同理。
方差膨胀因子(variance-inflating factor, VIF)
1 VIF 1 r223
所以 var b2
2
x22i VIF
2-21
8.5 多重共线性的诊断
在任一给定的情况下,特别是在涉及多于两 个解释变量的模型中,我们怎么知道有没有 共线性?
2-22
1.多重共线性是一个程度问题而不是有无问 题。有意义的区分不在于有无之间,而在于 程度大小。
因为 数。
b2 b3 是一个方程,却有两个未知
对给定的alpha和lamda值,有无穷多个解。
2-15
出现“高度”但“不完全”多重共线性 时的估计问题
仍以上述三变量回归模型为例。 假定 X3i X 2i vi ,其中 vi x2i 0
回归系数估计:
b2
yi x2i 2 x22i vi2
yi x2i
第8章 多重共线性:解释变量
相关会有什么后果?
McGraw-Hill/Irwin
Copyright © 2006 The McGraw-Hill Companies, Inc. All rights reserved.
问题
多重共线性的性质是什么? 多重共线性是否是一个严重的问题? 多重共线性的理论后果是什么? 多重共线性的实际后果是什么? 实践中如何诊断多重共线性? 消除多重共线性的补救措施有哪些?
但在应用计量经济学中,我们的宗旨就是区 分每个变量的单独影响。
2-13
把 X3i yi
X 2i 代入回归方程: b2 x2i b3 x2i ei b2 b3 x2i ei
x2i ei
利用OLS公式得:
b2 b3
x2i yi x22i

多重共线性PPT课件

多重共线性PPT课件

2-2
多重共线性的性质
多重共线性(multicollinearity)原先的含义指一 个回归模型中的一些或全部解释变量之间存 在一种“完全”或者准确的线性关系。 l 1 X1 + l 2 X 2 + L + l k X k = 0 现在共线性更为广义,既包括上述完全共线 性,也包括非完全(高度)共线性的形式。
2-18
8.4 多重共线性的实际后果
OLS估计量的方差和标准误较大。 置信区间变宽。 t值不显著 。 R 2值较高,但t值并不都是统计显著的。 OLS估计量及其标准误对数据的微小变化非常敏感, 即它们很不稳定。 回归系数符号有误。 难以评估各个解释变量对回归平方和(ESS)或者 R 2 的贡献。
2-15
出现“高度”但“不完全”多重共线性 时的估计问题
仍以上述三变量回归模型为例。 假定 X 3i = l X 2i + vi ,其中 å vi x2i = 0
回归系数估计:
b2 =
(邋yi x2i )(l
2
2 2 x2 + v i i )- (l 2 2i 2 2 2i
邋yi x2i +
l 1 X1 + l 2 X 2 + L + l k X k + ui = 0
2-3
为什么CLRM假定无多重共线性?
如果多重共线性是完全的,则X变量的回归 系数将是不确定的,并且它们的标准误为无 穷大。 如果多重共线性是不完全的,则虽然回归系 数可以确定,却有较大的标准误(相对于系 数本身来说),也即系数不能以很高的精度 或准确度加以估计。
2-26
8.7 扩展一例:1960-1982年期间美国的鸡肉需求

计量经济学:多重共线性

计量经济学:多重共线性

计量经济学:多重共线性多重共线性52=.53085123 第四章专门讨论古典假定中⽆多重共线性假定被违反的情况,主要内容包括多重共线性的实质和产⽣的原因、多重共线性产⽣的后果、多重共线性的检测⽅法及⽆多重共线性假定违反后的处置⽅法。

第⼀节什么是多重共线性⼀、多重共线性的含义第三章讨论多元线性回归模型的估计时,强调了假定⽆多重共线性,即假定各解释变量之间不存在线性关系,或者说各解释变量的观测值之间线性⽆关。

在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括解释变量之间精确的线性关系,还包括解释变量之间近似的线性关系。

从数学意义上去说明多重共线性,就是对于解释变量k X 、、X X 32,如果存在不全为0的数k λλλ,2,1 ,能使得n ,2, ,1i 033221 ==++++ki k i i X X X λλλλ ( 4.1 )则称解释变量k X X X ,,,32 之间存在着完全的多重共线性。

⽤矩阵表⽰,解释变量的数据矩阵为X=213112232223111k k nnkn X X X X X X X X X ??(4.2)当Rank(X )在实际经济问题中,完全的多重共线性并不多见。

常见的情形是解释变量k X X X ,,,32 之间存在不完全的多重共线性。

所谓不完全的多重共线性,是指对于解释变量k X 、、X X 32,存在不全为0的数k λλλ,2,1 ,使得n ,2, ,1i 033221 ==+++++i ki k i i u X X X λλλλ(4.3)其中,i u 为随机变量。

这表明解释变量k X 、、X X 32只是⼀种近似的线性关系。

如果k 个解释变量之间不存在完全或不完全的线性关系,则称⽆多重共线性。

若⽤矩阵4表⽰,这时X 为满秩矩阵,即Rank(X )=k 。

需要强调,解释变量之间不存在线性关系,并⾮不存在⾮线性关系,当解释变量存在⾮线性关系时,并不违反⽆多重共线性假定。

计量经济学(第四章多重共线性)

计量经济学(第四章多重共线性)

06
总结与展望
研究结论总结
多重共线性现象普遍存在于经济数据中,对计量 经济学模型的估计和解释产生了重要影响。
通过使用多种诊断方法,如相关系数矩阵、方差膨 胀因子(VIF)和条件指数(CI),可以有效地识别 多重共线性问题。
在存在多重共线性的情况下,普通最小二乘法 (OLS)估计量虽然仍然是无偏的,但其方差可能 变得很大,导致估计结果不稳定。
主成分分析法的优点
可以消除多重共线性的影响,同 时降低自变量的维度,简化模型。
岭回归法
岭回归法的基本思想
通过在损失函数中加入L2正则化项(即所有自变量的平方和),使得回归系数的估计更加稳定, 从而消除多重共线性的影响。
岭回归法的步骤
首先确定正则化参数λ的值,然后求解包含L2正则化项的损失函数最小化问题,得到岭回归系数的估 计值。
逐步回归法的优点
可以自动选择重要的自变量,同时消除多重共线性的影响。
主成分分析法
主成分分析法的基本思想
通过正交变换将原始自变量转换 为互不相关的主成分,然后选择 少数几个主成分进行回归分析。
主成分分析法的步骤
首先对原始自变量进行标准化处理, 然后计算相关系数矩阵并进行特征值 分解,得到主成分及其对应的特征向 量。最后,选择少数几个主成分作为 新的自变量进行回归分析。
岭回归法的优点
可以有效地处理多重共线性问题,同时避免过拟合现象的发生。此外,岭回归法还可以提供对所 有自变量的系数进行压缩估计的功能,使得模型更加简洁易懂。
05
实证研究与结果分

数据来源及预处理
数据来源
本研究采用的数据集来自于公开的统 计数据库,涵盖了多个经济指标和影 响因素的观测值。
数据预处理

计量经济学多重共线性

计量经济学多重共线性

一.研究的目的要求近年来,随着中国经济的不断发展,我国的国内生产总值保持着高速增长,其作为衡量经济发展的一个重要指标,在整个经济社会发展中的作用日益显著。

中国的国内生产总值主要受到居民消费水平、全社会固定资产投资、商品出口额财政收入、财政支出和就业人员数的影响。

就从1995年到2008年间,我国的GDP的平均年增长速度为112.1%,而与之有关的居民消费水平的年平均增长速度为109.3%,全社会固定资产投资的年平均增长速度为116.7%,商品出口额的年平均增长速度为116.1%,由此可以看出我国的经济是以非常惊人的速度在发展。

为了认识中国在未来经济发展情况,需要定量地对影响我国GDP的主要因素进行分析。

散点图:利用EViews软件,输入Y、X1、X2、X3、X4、X5、X6等数据,采用这些数据对模型进行OLS回归,结果如下:由此可见,该模型的R2=0.999909,Adjusted R-squared=0.999832可决系数异常高,F检验值12865.89,明显显著。

但是当α=0.05时查表的T值万为2.365,不仅X3的T检验不显著,而且X5系数的符号与预期的相反,这表明很可能存在严重的多重共线性。

二、相关分析令国内生产总值为Y,居民消费水平为X1,固定资产投资为X2,出口总额为X3,财政收入为X4,财政支出为X5,就业人员数为X6,有e-views软件可以得到各变量之间的相关系数:表三由相关系数矩阵可以看出,各解释变量相互之间的相关系数很高,证实确实存在严重的多重共线性。

三、修正多重共线性1、判定系数法:2、采用逐步回归的办法,去检验和解决多重共线的问题。

分别做Y对X1、X2、X3、X4、X5、X6的一元线性回归,根据比较系数由大到小排序为:x4、x1、x5、x2、x3、x6X5、x2导致不显著,删最后修正严重多重共线性的回归结果为Y = 2434.07753 + 1.728188114*X4 + 17.97396022*X1 + 0.4320065441*X3随机解释变量问题:检验内生性:第一步:X1 = 1156.103781 + 0.4979871065*X1(-1) + 0.005053326594*X3 + 0.04818665208*X4X3 = -50406.28441 + 1.161928962*X3(-1) + 23.11627169*X1 - 2.273365012*X4X4 = -11019.22777 + 0.5056267614*X4(-1) + 4.854749225*X1 +0.06574184046*X3第二步:Y = 6347.819234 + 16.24766676*X1 + 0.4428944999*X3 + 1.876605301*X4 + 7.026642473*E1Y = 7149.553219 + 15.97797479*X1 + 0.5300464217*X3 + 1.744257955*X4 - 0.176056636*E3Y = 45699.73211 - 1.456575031*X1 + 0.4044678757*X3 + 3.685902148*X4 - 2.36392959*E4X4有内生性工具变量法:第一阶段:X4 = -792.8862088 + 1.249459681*X4(-1)第二步:Y = 15755.17718 + 11.99382105*X1 + 0.2558015318*X3 + 2.738892206*X4F。

计量经济学之多重共线性

计量经济学之多重共线性

计量经济学之多重共线性引言多重共线性是计量经济学中一个重要的概念,在经济学研究中扮演着重要的角色。

在本文中,我们将深入探讨多重共线性的概念、原因和影响,并介绍一些常见的解决方案和应对方法。

什么是多重共线性?多重共线性是指在回归分析中,自变量之间存在高度相关性的情况。

具体来说,多重共线性指的是自变量之间线性相关性较高,可能导致回归分析的结果不准确或难以解释。

多重共线性的原因多重共线性的产生有多种原因,以下是一些常见的原因:1.样本选择偏倚:当样本中存在特定的特征或者数据的选择方式导致一些变量的相关性增强。

2.变量的定义重复:有些变量可能在定义上重复,导致它们之间存在高度相关性。

3.缺少重要变量:当回归模型中存在遗漏的重要变量时,其他变量可能会代替这些遗漏的变量,导致多重共线性。

4.数据测量误差:测量误差也可能导致自变量之间存在高度相关性。

多重共线性的影响多重共线性可能会对回归模型产生一系列的问题和影响:1.估计系数不准确:多重共线性会导致回归系数的估计不准确,使得对自变量的解释变得困难。

2.系数符号相反:多重共线性可能导致估计系数的符号与理论预期相反。

3.误差项的方差增加:多重共线性会导致误差项的方差增加,从而降低了模型的精确度。

4.解释力度减弱:多重共线性会降低模型的解释力度,使得我们难以解释模型的结果。

解决多重共线性的方法针对多重共线性问题,我们可以采取以下方法来解决:1.增大样本量:增大样本量可以降低变量之间的相关性,从而减轻多重共线性的影响。

2.删除相关变量:通过检验变量之间的相关性,删除相关性较高的变量,可以减轻多重共线性的程度。

3.主成分分析:主成分分析是一种降维的方法,可以将相关性较高的变量合并为一个主成分,从而避免了多重共线性的问题。

4.增加惩罚项:在回归模型中增加惩罚项,如岭回归或lasso回归,可以减轻多重共线性的影响。

5.使用时间序列数据:对于存在多重共线性的房地产数据等时间序列数据,可以使用时间序列模型来避免多重共线性的问题。

完整的计量经济学课件 计量经济学课件第八章 多重共线性

完整的计量经济学课件 计量经济学课件第八章  多重共线性

(二)状态数检验
1、 状态指数 将X 矩阵的每一列X 用其模 X = X′ X 相 除以实现标准化, 除以实现标准化,然后再求 X′X 矩阵的特征 取其中最大的除以最小的后再求平方根, 值,取其中最大的除以最小的后再求平方根, 得到该矩阵的“状态数” 记为: 得到该矩阵的“状态数”,记为:
k
k k
近似多重共线性的影响
近似多重共线性不会导致参数估计失效, 近似多重共线性不会导致参数估计失效,最小二乘参数估计 能够得到唯一解。在模型存在多重共线性的情况下, 能够得到唯一解。在模型存在多重共线性的情况下,参数的 最小二乘估计仍然是最小方差线性无偏估计。 最小二乘估计仍然是最小方差线性无偏估计。但参数估计量 的方差的绝对水平会随着多重共线性程度的提高急剧上升。 的方差的绝对水平会随着多重共线性程度的提高急剧上升。 因此, 因此,强的近似多重共线性会对多元回归的有效性产生严重 的不利影响。 的不利影响。 SSE k 记为变量 X k 的离差平方和, 如果用 SSTk 记为变量 X k 的离差平方和, Rk2 表示原模型第 个解 对其余K-1个解释变量的回归平方和, 表示原模型第k个解 个解释变量的回归平方和, 对其余 个解释变量的回归平方和 释变量对其余K- 个解释变量回归的决定系数 个解释变量回归的决定系数, 释变量对其余 -1个解释变量回归的决定系数,那么bk 的 σ2 σ2 方差可以写成 Var [b ] = =
2 k
常以方差扩大因子是否大于10来判断第 常以方差扩大因子是否大于10来判断第 k 10 个解释变量是否存在较强的、 个解释变量是否存在较强的、必须加以处理 的多重共线性。 的多重共线性。
(一)方差扩大因子检验
多重共线性使参数估计值的方差增大 重共线性使参数估计值的方差增大,1/(1-R2) 重共线性使参数估计值的方差增大 为方差扩大因子 方差扩大因子(Variance Inflation Factor, 方差扩大因子 VIF)

第四章 多重共线性练习

第四章 多重共线性练习

练 习
基本概念
(1)多重共线性(2)完全多重共线性(3)不完全多重共线性; 练习题1、什么是变量之间的多重共线性?举例说明。

2、判断题:(1)存在完全多重共线性时,模型参数无法估计;(2)存在多重共线性时,一定会使参数估计值的方差增大,从而造成估计效率的损失;
3、完全多重共线性和不完全多重共线性之间的区别是什么?
4、产生多重共线性的经济背景是什么?
5、多重共线性的危害是什么?为什么会造成这些危害?检验多重共线性的方法思路是什么?有哪些克服方法?
6、考虑下列一组数据
Y
-10 -8 -6 -4 -2 0 2 4 6 8 10 2X 1 2 3 4 5 6 7 8 9 10 11 3X
1
3
5
7
9
11
13
15
17
19
21
现在我们进行如下的回归分析:
12233i i Y X X u βββ=+++
请回答如下问题:
你能估计出该模型的参数吗?为什么? 7、将下列函数用适当的方法消除多重共线性: (1)消费函数为
012C W P u
βββ=+++
其中C 、W 、P 分别表示消费、工资收入和非工资收入,W 和P 可能高度相关,但研究表明1
2
2ββ=。

(2)需求函数为
0123s Q Y P P u
ββββ=++++
其中Q 、Y 、P 和s
P 分别为需求量、收入水平、该商品价格水平及其替代品价格水平,P 和s
P 可能高度相关。

计量经济学多重共线性

计量经济学多重共线性

3、减小参数估计量的方差
多重共线性的主要后果是参数估计量具 有较大的方差,所以 采取适当方法减小参数估计量的方差, 虽然没有消除模型中的多重共线性,但确 能消除多重共线性造成的后果。 例如: ①增加样本容量,可使参数估计量的方 差减小。
*②岭回归法(Ridge Regression)
70年代发展的岭回归法,以引入偏误为代价减小 参数估计量的方差,受到人们的重视。 具体方法是:引入矩阵D,使参数估计量为
多重共线性使参数估计值的方差增大,1/(1-r2) 为方差膨胀因子(Variance Inflation Factor, VIF)
相关系数平方 方差膨胀因子 0 1 0.5 2 0.8 5 表 4.3.1 方差膨胀因子表 0.9 0.95 0.96 0.97 10 20 25 33 0.98 50 0.99 100 0.999 1000
1 ˆ var( 1 ) 2 ( X X )11 2 x12i x 2i ( x1i x 2i ) 2 2 2 x 2i

1 ( x1i x 2i ) 2
2 / x12i
2 x12i x 2i
1 2 x1i 1 r 2
2
i=1,2,…,n
其中ci不全为0,vi为随机误差项,则称为 近似共线 性(approximate multicollinearity)或交互相 关(intercorrelated)。
注意: 完全共线性的情况并不多见,一般出现 的是在一定程度上的共线性,即近似共线 性。

产生多重共线性的主要原因:
求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用综合统计检验法 若 在OLS法下:R2与F值较大,但t检验值较小, 说明各解释变量对Y的联合线性作用显著,但各解 释变量间存在共线性而使得它们对Y的独立作用不 能分辨,故t检验不显著。

计量经济学复习资料——多重共线性习题

计量经济学复习资料——多重共线性习题

多重共线性一、单项选择题1、在线性回归模型中,若解释变量1X 和2X 的观测值成比例,既有12i i X kX =,其中k 为非零常数,则表明模型中存在( )A 、异方差B 、多重共线性C 、序列相关D 、随机解释变量2、对于模型01122i i i i Y X X βββμ=+++,与r 12=0相比,当r 12=0.15时,估计量1ˆβ的方差1ˆ()Var β将是原来的 ( ) A 、1倍 B 、1.023倍 C 、1.96倍 D 、2倍3、如果方差膨胀因子VIF=15,则认为( )问题是严重的A 、异方差问题B 、序列相关问题C 、多重共线性问题D 、解释变量与随机项的相关性4、不完全多重共线性下参数估计量 ( )A 、不存在B 、有无穷多解C 、唯一D 、非有效5、完全多重共线性下参数估计量 ( )A 、唯一B 、有无穷多解C 、不存在D 、有效6、下列方法中,可克服多重共线性的是( )A 、差分法B 、加权最小二乘法C 、工具变量法D 、广义最小二乘法7、对于模型01t t t y b b x u =++,为了考虑“地区”因素(北方、南方),引入2个虚拟变量形成截距变动模型,则会产生( )。

A.序列的完全相关B.序列不完全相关C.完全多重共线性D.不完全多重共线性二、多项选择题1、多重共线性产生的主要原因有 ( )A 、经济变量之间往往存在同方向的变化趋势B 、经济变量之间往往存在密切的关联度C 、在模型中采用滞后变量也容易产生多重共线性D 、样本数据变异范围过小2、检验多重共线性严重性的方法有 ( )A 、等级相关系数法B 、方差膨胀因子C 、工具变量法D 、判定系数检验法E 、逐步回归法3、当模型中解释变量间存在高度的多重共线性时 ( )A 、各个解释变量对被解释变量的影响将难于精确鉴别B 、部分解释变量与随机干扰项之间将高度相关C 、估计量的精确度大幅下降D 、估计量对于样本容量的变动将十分敏感E 、模型的随机误差项也将序列相关4、多重共线性解决方法主要有 ( )A 、保留重要的解释变量,去掉次要的或可替代的解释变量B 、利用先验信息改变参数的约束形式C 、变换模型的形式D 、综合使用时间数据与截面数据E 、逐步回归法以及增加样本容量三、判断题1、当用于检验方程线性显著性的F 统计量与检验单个系数显著性的t 统计量结果矛盾时可以认为出现了严重的多重共线性( )2、当存在严重的多重共线性时,普通最小二乘法往往会低估参数估计量的方差 ( )3、变量的两两高度相关并不表示高度多重共线性,变量不存在两两高度相关表示不存在高度多重共线性( )4、由于多重共线性不会影响到随机干扰项的方差,因此如果分析的目的仅仅是预测,则可以容忍一定程度多重共线性 ( )5、考虑以下回归模型:i i i i i u X X X Y ++++=332210ββββ,由于三各解释变量之间存在明显的函数关系,因此该模型肯定具有多重共线性 ( )6、尽管存在多重共线性,OLS 估计量依然是BLUE ( )。

【计量经济学】第四章精选题与答案解析

【计量经济学】第四章精选题与答案解析

第四章:多重共线性二、简答题1、导致多重共线性的原因有哪些?2、多重共线性为什么会使得模型的预测功能失效?3、如何利用辅回归模型来检验多重共线性?4、判断以下说法正确、错误,还是不确定?并简要陈述你的理由。

(1)尽管存在完全的多重共线性,OLS 估计量还是最优线性无偏估计量(BLUE )。

(2)在高度多重共线性的情况下,要评价一个或者多个偏回归系数的个别显著性是不可能的。

(3)如果某一辅回归显示出较高的2i R 值,则必然会存在高度的多重共线性。

(4)变量之间的相关系数较高是存在多重共线性的充分必要条件。

(5)如果回归的目的仅仅是为了预测,则变量之间存在多重共线性是无害的。

5、考虑下面的一组数据:12233i i i Y X X βββ=++来对以上数据进行拟合回归。

(1) 我们能得到这3个估计量吗?并说明理由。

(2) 如果不能,那么我们能否估计得到这些参数的线性组合?可以的话,写出必要的计算过程。

6、考虑以下模型:231234i i i i i Y X X X ββββμ=++++由于2X 和3X 是X 的函数,那么它们之间存在多重共线性。

这种说法对吗?为什么? 7、在涉及时间序列数据的回归分析中,如果回归模型不仅含有解释变量的当前值,同时还含有它们的滞后值,我们把这类模型称为分布滞后模型(distributed-lag model )。

我们考虑以下模型:12313233i t t t t t Y X X X X βββββμ---=+++++其中Y ——消费,X ——收入,t ——时间。

该模型表示当期的消费是其现期的收入及其滞后三期的收入的线性函数。

(1) 在这一类模型中是否会存在多重共线性?为什么? (2) 如果存在多重共线性的话,应该如何解决这个问题? 8、设想在模型12233i i i i Y X X βββμ=+++中,2X 和3X 之间的相关系数23r 为零。

如果我们做如下的回归:1221i i i Y X ααμ=++ 1332i i i Y X γγμ=++(1)会不会存在22ˆˆαβ=且33ˆˆγβ=?为什么? (2)1ˆβ会等于1ˆα或1ˆγ或两者的某个线性组合吗? (3)会不会有22ˆˆvar()var()βα=且33ˆˆvar()var()γβ=? 9、通过一些简单的计量软件(比如EViews 、SPSS ),我们可以得到各变量之间的相关矩阵:2323232311 1k k k k r r r r R r r ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭。

计量经济学多重共线性eviews处理

计量经济学多重共线性eviews处理

三、异方差性的修正
(一)加权最小二乘法(P219, 例 9-6) 加权最小二乘法的基本思想是寻求权重序列。例如:设权数
W = 1 e2
,生成权重序
列的一般步骤为: (1)回归模型获得残差序列; (2)在将其合成残差平方和序列, 进而生成权重序列。 (3)运用所得的合成残差平方和序列对各序列加权,获得估 计结果。具体操作如下 (1) LS Y C X (点击 resid(保存)); 生成残差序列; (2) GENR e2=resid^2; 计算残差平方和序列; (3) GENR W=1/e2; 生成权重序列; (4) 在命令行键入 LS (W=W) Y C X / 回车; 获得参数加权 (二)对原模型变换的方法(和(一)类似) (三)模型的对数变换(P221, 例 9-7)
1)消费支出(Y),个人财富(x2)和历史可支配收入水平(x1)有一定共线关系 2)可考虑使用参数约束法估计模型 2.原模型回归:ls y c x1 x2 (1)观察法:系数不显著,但 F 显著,判决系数大。 (2)辅助回归分析:Ls x1 型结论不可靠。 3.实际解决问题方法 1)可通过增加样本容量,看能否克服多重共线问题 obs 11 12 第五次上机 1 X1 X2 280 2898 300 3032 Y 170 185 x2 X2,x3 高度相关,个人财富和历史可支配收入水平有一定共线关系。原模
2
二、多重共线性检验与参数约束法估计模型
1.数据
obs 1 2 3 4 5 6 7 பைடு நூலகம் 9 10 X1 80 100 120 140 160 180 200 220 240 260 X2 810 1009 1273 1425 1693 1876 2052 2201 2435 2686 Y 70 65 90 95 110 115 120 140 155 150

8、计量经济学【多重共线性】

8、计量经济学【多重共线性】

一、多重共线性及其产生的原因
(一)多重共线性(Multicollinearity )的定义 从数学意义上去解释变量之间存在共线性,就是 对于变量 X 1 , X 2 , , X k ,如果存在不全为零的常数 1 , 2 , , k ,使得下式成立:
1 X 1 2 X 2 k X k 0 , , , , , , , , , , , , , , , , , , , , (4.3.1)
(四)特征值检验 利用特征值还可以构造两个用于检验多重共线性 的指标:条件数 (或病态数) CN (Condition Number) 和条件指数(或病态指数) CI (Condition Index)。其指 标定义为:
CN 最大特征值 最小特征值
CI CN , , , , , , , , , , , , , , , , , , , , , , , , , , , , , (4.3. 8)
ˆ Var ( i )
2
(X
it
Xi)
2

1 1 R
2 i
, , , , , , , , , , , , , , , , , , , (4. 3.2)
其中: i2 表示第 i 个解释变量对模型中其他解释变量 R 作辅助回归模型 X i f ( X 1 , X 2 , X i 1 , X i 1 , X k ) 时的决定 系数。当只有两个解释变量 X 1、 X 2 时,则 Ri2 就是变量 2 2 2 R1 = R 2 = r12 。 X 1、 X 2 的相关系数的平方,即 式 (4.3.2) 中第二项因子 1 (1 Ri2 ) 称为方差膨胀因子 (Variance Inflation Factor),记成 VIFi ;

计量经济学试题计量经济学中的多重共线性问题与解决方法

计量经济学试题计量经济学中的多重共线性问题与解决方法

计量经济学试题计量经济学中的多重共线性问题与解决方法计量经济学试题-多重共线性问题与解决方法在计量经济学中,多重共线性是一个重要的问题。

它指的是当两个或多个自变量之间存在高度相关性时,会导致模型估计的结果不准确或者不可靠。

多重共线性问题在经济学研究中经常出现,因此探索解决方法是非常必要的。

一、多重共线性问题的原因多重共线性问题通常由于样本中的自变量之间存在强烈的线性相关性而引发。

例如,当一个自变量可以通过其他自变量的线性组合来表示时,就会出现多重共线性问题。

这种情况下,模型估计的结果会变得不稳定,标准误差会变得很大,使得对自变量的解释变得困难。

二、多重共线性问题的影响多重共线性问题对计量经济模型的影响是多方面的。

首先,它会导致模型估计结果的不稳定性。

当自变量之间存在高度相关性时,即使是微小的样本误差也会导致模型估计结果的显著变化。

其次,多重共线性问题会导致标准误差的上升,使得参数的显著性检验变得困难。

最后,多重共线性问题还会导致模型解释力的下降,使得对自变量对因变量的影响进行准确的解释变得困难。

三、解决多重共线性问题的方法1. 删除变量:当发现自变量之间存在高度相关性时,一种解决方法是删除其中一个变量。

如果某个自变量可以用其他变量线性表示,就可以考虑将其删除。

然而,删除变量的过程需要谨慎,以免造成结果的失真。

2. 采用主成分分析:主成分分析是一种常用的处理多重共线性问题的方法。

它通过对自变量进行线性组合,生成新的主成分变量,从而消除原始自变量之间的相关性。

通过采用主成分分析,可以得到一组无关的自变量,从而解决多重共线性问题。

3. 利用岭回归:岭回归是一种通过增加正则化项来减小模型参数估计标准误差的方法。

通过岭回归,可以有效地解决多重共线性问题。

岭回归对相关自变量的系数进行惩罚,从而减小系数估计的方差。

这种方法可以提高模型的准确性和稳定性。

4. 使用其他估计方法:在实际应用中,还可以采用其他估计方法来解决多重共线性问题。

计量经济学多重共线性分析-文档资料

计量经济学多重共线性分析-文档资料

用逐步回归法克服Y与X1、X2、X3间的回归(LS Y C Xi )
用逐步回归法克服多重共线性
找出最简单的回归形式
分别作Y与X1、X2、X3间的回归(LS Y C Xi )
用逐步回归法克服多重共线性
找出最简单的回归形式
分别作Y与X1、X2、X3间的回归(LS Y C Xi )
计量经济学多重共线性分析
计量经济学多重共线性分析
根据1980年至2019年我国国民生产总值与社 会固定资产投资、社会消费品零售总额和建筑 业总产值的关系,建立并检验影响国民生产总
值的函数模型,以掌握掌握多重共线性问题出
现的来源、后果、检验及修正的原理,以及相
关的Eviews操作方法。
实验步骤
收集整理实验数据
检验多重共线性
检验简单相关系数
进一步选择Covariance Analysis的Correlation,得到变 量之间的偏相关系数矩阵,观察偏相关系数。
可以发现,Y与X 1 、X 2 、X 3 的相关系数都在0.9以 上,但输出结果中,解释变量X 1 、 X 3 的回归系数 却无法通过显著性检验。认为解释变量之间存在多 重共线性。
用逐步回归法克服多重共线性
找出最简单的回归形式
Y=24023.76+4.1804X1 (5.887) (36.5072) R2=0.977979 D.W.=0.1937
Y=-1592.676+2.6322X2 (-1.1194) (116.4316) R2=0.997792 D.W.=0.6285 Y=23812.76+1.5479X3 (5.2876) (33.047) R2=0.973264 D.W.=0.2997
用逐步回归法克服多重共线性

第8章多重共线性

第8章多重共线性
3) 当 0 rij 1时,解释变量 和 之间存在不完全的线性相关性。实际运用 中遇到最多的是这种情形,这时模型的参数是否能正确的估计,要看 和 之间相关 程度的高低,如果相关程度高,可能会对估计的结果带来很大的影响。
Hale Waihona Puke 8.2 产生多重共线性的原因
1.经济变量之间具有共同变化的趋势
在多元线性回归模型中往往会产生多重共线性,一般来说由时间序列数据构造的模 型可能性大,其原因可以归纳为以下几个方面: 1.经济变量之间具有共同变化的趋势 经济运行的特点之一就是经济变量在一定时期表现出共同的变化趋势。在例8-1的 解释变量中,国内生产总值、税收总收入、工业增加值的共同的变化趋势非常明显, 我们可以绘制变量的线图来观察其变化,如图8-1所示。
46526.68 61110.96 16.80061 17.09617 16.90747 1.776700
8.1 多重共线性的含义
通过估计结果我们发现,X1、X3、X6的系数为负,说明X1、X3、X6与Y之间是反 向关系,这个结果与我们事先的预计不相符。 此外我们还发现,虽然模型可以通过F检验,说明模型在整体上是可靠的,但在进 行t检验时, 只有X2通过,说明其他变量没有对Y显著的做出解释。 造成这种矛盾结果的原因是模型中存在多重共线性。造成这种矛盾结果的原因是模 型中存在多重共线性。 什么是多重共线性呢?回忆第5章中对多元线性回归模型的古典假定中的无多重共 线性假定:诸X之间不存在线性相关性;用矩阵表示为: Rank(X) k 1 ,即矩 阵X满秩。 而例8-1中的模型中很可能没有满足这个假定,即诸X之间存在线性相关性,即存
在不全为0的 i(i=0,1,2,…k),使得下式成立:
1 X1i 2 X 2i ... k X ki 0

经济计量学 多重共线性问题

经济计量学 多重共线性问题
逆运算矩阵有较小特征根的情形得到改善
3. 岭回归估计是线性估计量
( ) D 1* ( ~ x ~ x I ) 1 ~ x Y
~
0 ( ) [ l MD*1 ( ~ x ~ x I ) 1 ~ x ]Y
4. 岭回归估计是有偏估计量
~
1 n
~ E ( ) D*1 ( ~ x ~ x I ) 1 ~ x ~ x D*
高度共线性
r ( X X ) r ( X ) k 1
det( X X ) a0a1 ak 0
1 ai
ˆ ) 2Tr ( X X ) 1 2 var( i
OLS估计可能出现与较大方差有关的一类症状:
ˆ ) 可能很大; ˆr( (a)个别 va i
X4=轻工业总产值(亿元) X5=农产品收购价格指数与农村工业品牌价指数比 样本区间:1953-1982
农民消费函数主要回归计算结果
ˆ i
-223.33 0.8129
ˆ) var( i
ti
-3.91 7.93
ˆ) VIF ( i
57.127 0.1025
132.52
0.0039
-0.1478 0.0068 94.62
求解知: z 2
~ x a2
,其中:
a2
是矩阵
~ x ~ x 的属于第二大特征根 2 的单位特征向量;
z 2 z 2 2
z1 0
z (~ ( ~ ~ ~ z1 x a ) x a ) a x 2 1 2 1 x a 2 2 a1 a 2 0
逐一求得全部
k
个组合变量 z1 , z 2 , , z k ,它们具有以下性质:
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第八章 多重共线性1.考虑下面的一组数据:如果我们用模型:12233i i iY X X βββ=++来对以上数据进行拟合回归。

(1) 我们能得到这3个估计量吗?两个解释变量是否线性相关?并说明理由。

(2) 如果不能,那么我们能否估计得到这些参数的线性组合?可以的话,写出必要的计算过程。

解:(1)不能。

通过对2X 和3X 的观察,我们可以知道它们存在以下的关系:3221i i X X =-,所以可知变量2X 和3X 是完全线性相关的。

(2)把方程写成1223213232122(21)()(2)i ii ii ii iY XXX X βββμββββμααμ=++-+=-+++=++ 其中113223,2αββαββ=-=+。

因此,我们可以唯一的估计出1α和2α,但无法估计出原始的β,因为两个方程无法解出三个未知数。

2.考虑以下模型: 231234i i i i iY X X X ββββμ=++++由于2X和3X是X 的函数,它们之间存在多重共线性吗?为什么?答:这种说法不正确。

因为2x 和3x 都是x 的非线性函数,把它们包括在回归模型中并不违反经典性线性回归模型的基本假设。

多重共线性的相关是指的变量之间的线性相关。

3.设想在模型 12233i ii iY XX βββμ=+++中,2X 和3X 之间的相关系数23r 为零。

如果我们做如下的回归: 1221i i iY X ααμ=++1332i i iY X γγμ=++(1)会不会存在22ˆˆαβ=且33ˆˆγβ=?为什么?(2)1ˆβ会等于1ˆα或1ˆγ或两者的某个线性组合吗?(3)会不会有22ˆˆvar()var()βα=且33ˆˆvar()var()γβ=?解:(1)是的。

这是因为2X 和3X 之间的相关系数为0,所以β系数的表达式22332322222323()()()()ˆ()()()i i i i i i i i i i i y x x y x x x x x x x β-=-∑∑∑∑∑∑∑23222332222323()()()()ˆ()()()i i i i i i i i i i i y x x y x x x x x x x β-=-∑∑∑∑∑∑∑中的交叉乘积项消失,从而变成与α和γ系数同样的表示式。

(2)是它们的一个线性组合。

证明如下:122331222223333ˆˆˆˆˆˆˆˆˆY X XY X Y X Y XY X βββααβαγβ=--=-=-=-=- 因此有 111ˆˆˆY βαγ=+-。

(3)不是。

原因如下:2222232222232ˆˆˆvar(),(0)(1)iir xr xσσβ===-∑∑ ,2222ˆˆv a r ()ixσα=∑。

4.考虑消费函数123i t tt C Y W βββμ=+++ 1,2,,t n =其中,C 、Y 、W 依次表示消费、收入与财富。

下面是假想数据。

(1) 作C 对Y 和W 的普通最小二乘回归。

(2) 这一回归方程是否存在着多重共线性?你的判断依据是什么? (3) 分别作C 对Y 和W 的回归,这些回归结果表明了什么? (4) 作W 对Y 的回归。

这一回归结果表明了什么?(5) 如果存在严重的共线性,你是否会删除一个解释变量?为什么? 解:(1)使用EViews 软件进行回归Dependent Variable: SER01 Method: Least Squares Date: 07/02/06 Time: 19:32 Sample: 1 10Included observations: 10Variable Coefficient Std. Error t-Statistic Prob. C 24.33698 6.2800513.8752840.0061 W -0.034952 0.030120 -1.160433 0.2839 Y0.8716400.3143792.7725760.0276 R-squared0.968182 Mean dependentvar111.0000Adjusted R-squared 0.959092 S.D. dependent var 31.42893 S.E. of regression 6.356758 Akaike info criterion 6.780239 Sum squared resid 282.8586 Schwarz criterion 6.871015 Log likelihood -30.90120 F-statistic 106.5019 Durbin-Watson stat2.941201 Prob(F-statistic)0.000006回归得到的方程为:ˆˆˆ24.340.030.87iY W Y =-+。

(2)有。

R-squared 的值为0.968182,但是系数W 通过不过显著性检验。

(3)Variable Coefficient Std. Error t-Statistic Prob. C24.454556.4138173.8127910.0051Y 0.509091 0.035743 14.24317 0.0000111.0000R-squared 0.962062 Mean dependentvarAdjusted R-squared 0.957319 S.D. dependent var 31.42893S.E. of regression 6.493003 Akaike info criterion 6.756184Sum squared resid 337.2727 Schwarz criterion 6.816701Log likelihood -31.78092 F-statistic 202.8679Durbin-Watson stat 2.680127 Prob(F-statistic) 0.000001Variable Coefficient Std. Error t-Statistic Prob.C 26.45198 8.446165 3.131833 0.0140W 0.048039 0.004543 10.57519 0.0000111.0000R-squared 0.933241 Mean dependentvarAdjusted R-squared 0.924896 S.D. dependent var 31.42893S.E. of regression 8.613107 Akaike info criterion 7.321304Sum squared resid 593.4849 Schwarz criterion 7.381821Log likelihood -34.60652 F-statistic 111.8346Durbin-Watson stat 2.389869 Prob(F-statistic) 0.000006在这两个回归中,系数是显著的,而在同时对两个变量进行回归时,却存在部分系数的不显著,说明变量之间存在多重共线性。

(4)Variable Coefficient Std. Error t-Statistic Prob.C -3.363636 73.70690 -0.045635 0.9647Y 10.37273 0.410753 25.25299 0.00001760.000R-squared 0.987611 Mean dependentvarAdjusted R-squared 0.986062 S.D. dependent var 632.0272S.E. of regression 74.61690 Akaike info criterion 11.63947Sum squared resid 44541.45 Schwarz criterion 11.69998Log likelihood -56.19734 F-statistic 637.7133Durbin-Watson stat 2.366673 Prob(F-statistic) 0.000000Variable Coefficient Std. Error t-Statistic Prob.Y 10.35497 0.123991 83.51400 0.0000R-squared 0.987607 Mean dependent1760.000varAdjusted R-squared 0.987607 S.D. dependent var 632.0272S.E. of regression 70.35864 Akaike info criterion 11.43973Sum squared resid 44553.05 Schwarz criterion 11.46999Log likelihood -56.19864 Durbin-Watson stat 2.366224不管是否带上常数项,R-squared的值都非常大(>0.98),而且Y的系数都通过显著性检验,说明W和Y存在高度的共线性。

(5)在满足模型的经济含义的前提下(以免造成模型设置失误),我们还是可以通过舍去W或者Y来消除共线性的5、下表给出了美国1971-1986年期间新客车出售的数据。

Y——新车出售量,未经季节调整数量;X——新车,消费者价格指数,1967年=100,未经季节调整;2X——消费者价格指数,1967年=100,未经季节调整;3X——个人可支配收入,10亿美元,未经季节调整;4X——利率,百分数,金融公司票据直接使用;5X——民间就业劳动人数(个人),未经季节调整。

6(1)如果你决定使用表中全部回归元作为解释变量,可能会遇到多重共线性吗?为什么?(2)如果你这样认为的话,你准备怎样解决这个问题?明确你的假设并说明全部计算。

(3)制定适当的线性或者对数线性的模型,以估计美国对汽车的需求函数。

解:(1)首先我们发现各个变量在数量级上存在较大差别,所以我们一般考虑对数线性回归模型,得到如下的结果:Dependent Variable: LOG(Y)Method: Least SquaresDate: 07/02/06 Time: 20:31Sample: 1971 1986Included observations: 16Variable Coefficient Std. Error t-Statistic Prob.C 3.254859 19.11656 0.170264 0.8682LOG(X2) 1.790153 0.873240 2.050012 0.0675LOG(X3) -4.108518 1.599678 -2.568341 0.0280LOG(X4) 2.127199 1.257839 1.691154 0.1217LOG(X5) -0.030448 0.121848 -0.249884 0.8077R-squared 0.854803 Mean dependentvar9.204273Adjusted R-squared 0.782205 S.D. dependent var 0.119580S.E. of regression 0.055806 Akaike info criterion -2.653874Sum squared resid 0.031143 Schwarz criterion -2.364153Log likelihood 27.23099 F-statistic 11.77442Durbin-Watson stat 1.793020 Prob(F-statistic) 0.000624我们发现R-squared=0.854803>0.80,LOG(X4) 、LOG(X5) 、LOG(X6)都不能通过0.10的显著性检验。

相关文档
最新文档