第六章 多重共线性
实用回归分析第二版第六章习题答案
实用回归分析第二版第六章习题答案
6.1试举一个产生多重共线性的经济实例。
答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量¥,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。
由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。
再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。
6.2多重共线性对回归参数的估计有何影响?答:
1、完全共线性下参数估计量不存在;
2、近似共线性下OLS估计量非有效;
3、参数估计量经济含义不合理;
4、变量的显著性检验失去意义;
5、模型的预测功能失效。
6.3具有严重多重共线性的回归方程能不能用来做经济预测?
答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。
但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,
也可以得到较好预测结果;否则会对经济预测产生严重的影响。
6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系?
答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。
当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。
第六讲 多重共线性.
第6章 多重共线性6.1 多重共线性及其产生的原因6.1.1 多重共线性(Multicollinearity)的定义从数学意义上去解释变量之间存在共线性,就是对于变量k x x x ,,21,如果存在不全为零的常数k λλλ ,,21,使得下式成立02211=+++k k x x x λλλ (6.1.1)则称变量k x x x ,,21之间存在完全共线性。
在计量经济学中,一个具有两个以上解释变量的线性回归模型里,如果解释变量之间存在式(6.1.1)那样的关系,则称这些解释变量之间存在完全的多重共线性。
完全多重共线性还可以用矩阵形式加以描述。
设解释变量矩阵X 为X = ⎪⎪⎪⎪⎪⎭⎫⎝⎛kn k k n n x x x x x x x x x 212222*********所谓完全的多重共线性,就是0='X X 。
或者rank (X )k 〈+1,表明在矩阵X 中,至少有一个列向量可以由其余的列向量线性表示。
所谓近似共线性或不完全多重共线性是指对于k 个解释变量t x (t =1,2,3,…k),如果存在不全为零的数k λλλ ,,21使得02211=++++u x x x k k λλλ (6.1.2)成立,其中u 为随机误差项。
如果k 个解释变量之间不存在上述完全或不完全的线性关系式,则称无多重共线性。
如果用矩阵表示,这时X 为满秩矩阵,即rank (X )=k +1。
6.1.2 多重共线性产生的原因根据经验,多重共线性产生的经济背景和原因有以下几个方面:1.经济变量之间往往存在同方向的变化趋势 2.经济变量之间往往存在着密切的关联度 3.在模型中引入滞后变量也容易产生多重共线性4.在建模过程中由于解释变量选择不当,引起了变量之间的多重共线性6.2 多重共线性造成的影响6.2.1 完全共线性下参数估计量不存在多元线性回归模型U XB Y +=的普通最小二乘估计量为Y X X X B ''=-1)(ˆ如果解释变量之间存在完全多重共线性,由于X 矩阵的系数行列式0='X X ,逆矩阵1)(-'X X 不存在,无法得到参数估计式Bˆ。
多重共线性(统计累赘)的概念、特征及其测量方式和处理方式
试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。
1、概念多重共线性是指自变量之间存在线性相关关。
倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。
2、特征3、产生原因产生多重相关性的原因主要包括四方面。
一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。
但多数研究者认为共线性本质上是由于样本数据不足引起的。
4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。
①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。
③对重要自变量的回归系数进行t 检验,其结果不显著。
特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。
④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。
⑤重要自变量的回归系数置信区别明显过大。
⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。
(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。
共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。
方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。
对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。
第五讲-多重共线性、异方差、自相关
表 4.3.3 中国粮食生产与相关投入资料
农业化肥施 粮食播种面 受灾面积 农业机械总
用量 X 1
(万公斤)
积X 2
(千公顷)
X3
(公顷)
动力X 4
(万千瓦)
1659.8
114047 16209.3
18022
1739.8
11288பைடு நூலகம் 15264.0
19497
1775.8
108845 22705.3
20913
0.9752 1.53
t值
0.85
19.6 3.35 -3.57
Y=f(X1,X2,X3,X4) -13056 6.17 0.42 -0.17 -0.09
0.9775 1.80
t值
-0.97 9.61 3.57 -3.09 -1.55
Y=f(X1,X3,X4,X5) -12690 5.22 0.40 -0.20
含义:解释变量的样本向量近似线性相关。
多重共线性来源:
(1)解释变量x受到同一个因素的影响; 例如:政治事件对很多变量都产生影响,这些变量同时上升 或同时下降。
(2)解释变量x自己的当期和滞后期;
(3)错误设定。
二、多重共线性的后果
1、完全共线性下参数估计量不存在
Y X
的OLS估计量为: βˆ (XX) 1 XY
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说
明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用综合统计检验法
若 在OLS法下:R2与F值较大,但t检验值较小, 说明各解释变量对Y的联合线性作用显著,但各解 释变量间存在共线性而使得它们对Y的独立作用不 能分辨,故t检验不显著。
计量经济学习题第6章多重共线性
计量经济学习题第6章多重共线性第6章多重共线性⼀、单项选择题1、当模型存在严重的多重共线性时,OLS估计量将不具备()A、线性B、⽆偏性C、有效性D、⼀致性2、经验认为某个解释与其他解释变量间多重共线性严重的情况是这个解释变量的VIF()A、⼤于B、⼩于C、⼤于5D、⼩于53、模型中引⼊实际上与解释变量有关的变量,会导致参数的OLS估计量⽅差()A、增⼤B、减⼩C、有偏D、⾮有效4、对于模型y t=b0+b1x1t+b2x2t+u t,与r12=0相⽐,r12=0.5时,估计量的⽅差将是原来的()A、1倍B、1.33倍C、1.8倍D、2倍5、如果⽅差膨胀因⼦VIF=10,则什么问题是严重的()A、异⽅差问题B、序列相关问题C、多重共线性问题D、解释变量与随机项的相关性6、在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在( )A 异⽅差B 序列相关C 多重共线性D ⾼拟合优度7、存在严重的多重共线性时,参数估计的标准差()A、变⼤B、变⼩C、⽆法估计D、⽆穷⼤8、完全多重共线性时,下列判断不正确的是()A、参数⽆法估计B、只能估计参数的线性组合C、模型的拟合程度不能判断D、可以计算模型的拟合程度⼆、多项选择题1、下列哪些回归分析中很可能出现多重共线性问题()A、资本投⼊与劳动投⼊两个变量同时作为⽣产函数的解释变量B、消费作被解释变量,收⼊作解释变量的消费函数C、本期收⼊和前期收⼊同时作为消费的解释变量的消费函数D、商品价格、地区、消费风俗同时作为解释变量的需求函数E、每亩施肥量、每亩施肥量的平⽅同时作为⼩麦亩产的解释变量的模型2、当模型中解释变量间存在⾼度的多重共线性时()A、各个解释变量对被解释变量的影响将难以精确鉴别B、部分解释变量与随机误差项之间将⾼度相关C、估计量的精度将⼤幅度下降D、估计对于样本容量的变动将⼗分敏感E、模型的随机误差项也将序列相关3、下述统计量可以⽤来检验多重共线性的严重性()A、相关系数B、DW值C、⽅差膨胀因⼦D、特征值E、⾃相关系数4、多重共线性产⽣的原因主要有()A、经济变量之间往往存在同⽅向的变化趋势B、经济变量之间往往存在着密切的关联C、在模型中采⽤滞后变量也容易产⽣多重共线性D、在建模过程中由于解释变量选择不当,引起了变量之间的多重共线性E、以上都正确5、多重共线性的解决⽅法主要有()A、保留重要的解释变量,去掉次要的或替代的解释变量B、利⽤先验信息改变参数的约束形式C、变换模型的形式D、综合使⽤时序数据与截⾯数据E、逐步回归法以及增加样本容量6、关于多重共线性,判断错误的有()A、解释变量两两不相关,则不存在多重共线性B、所有的t检验都不显著,则说明模型总体是不显著的C、有多重共线性的计量经济模型没有应⽤的意义D、存在严重的多重共线性的模型不能⽤于结构分析7、模型存在完全多重共线性时,下列判断正确的是()A、参数⽆法估计B、只能估计参数的线性组合C、模型的判定系数为0D、模型的判定系数为1三、简述1、什么是多重共线性?产⽣多重共线性的原因是什么?2、什么是完全多重共线性?什么是不完全多重共线性?3、完全多重共线性对OLS估计量的影响有哪些?4、不完全多重共线性对OLS估计量的影响有哪些?5、从哪些症状中可以判断可能存在多重共线性?6、什么是⽅差膨胀因⼦检验法?四、判断(1)如果简单相关系数检测法证明多元回归模型的解释变量两两不相关,则可以判断解释变量间不存在多重共线性。
计量经济第六章多重共线性
4、用截面数据建立模型也可能出现 多重共线性
• 例如建立一个服装需求模型,模型以 消费者收入与服装价格为解释变量。 收入较高的消费者购买的服装价格也 相对较高;反之亦然。说明消费者收 入与服装价格之间存在较强的线性相 关性,模型存在多重共线性问题。
• 一般来讲,多重共线性难以避 免,所以我们关心的不是多重
2 2 2 1
同理易得
ˆ ) Var( 2
• EVIEWS遇到完全多重共线性时,会 显示 • Near singular matrix,无法进行估 计
2、不完全多重共线性下的后果
(1)估计量的方差增大 2 2 x 2 ˆ) 由于 Var ( 1 2 x12x2 (x1 x2 )2
的显著性检验可能失去意义
• P108【相关链接】 • P111【经典实例】
up
习题
up
第二节 多重共线性的检验
一、相关系数检验法 二、综合判断法 三、方差膨胀因子法
up
一、相关系数检验法
含义:相关系数检验法是利用解释变量之 间的线性相关程度去判断是否存在严重多 重共线性的一种简便方法。 判断规则:一般而言,如果每两个解释变 量的简单相关系数(零阶相关系数)比较高, 例如大于0.8,则可认为存在着较严重的多 重共线性。
设:X 2i X 1i X 2i , X 1 , X 2 , X 3各有三个样本值。 X 1i X 2i X 3i
2 12
1, 2, 24; X1 9 2, 25, 48; X 2 25 1, 23, 24; X 3 16
2 13 2 23
则r 0.7825, r 0.3193, r 0.7825 可以发现,它们两两相关系数不大,但 X 1 , X 2 , X 3是严格共线性。所以,用简单相关 系数判断系数是否存在多重共线性,适用于 两个解释变量的情况。
计量教案(6多重共线性)
第六章 多重共线性在多元线性回归分析的经典假设中,假定模型所包含的解释变量之间不存在线性关系,即无多重共线性。
但是由于经济变量本身的固有性质,许多的变量之间总是会存在着一定的相关性。
例如,以企业截面数据为样本估计的生产函数,作为其解释变量的有诸如资本、劳动、能源……等等投入要素,这些投入要素都与企业的生产规模有关,显然,它们之间存在着明显的相关性。
再如,以家庭收入I和商品价格P为解释变量分析家庭生活状况的模型。
由于收入较高的家庭购买商品,普通会选择质地较好、价格较高的;而收入较低的家庭购买商品则会选择较便宜的。
这样两解释变量I与P之间存在着明显的相关性。
本章的目的与要求当解释变量之间存在着线性关系,违背了解释变量之间不存在共线性的经典假定时,如何处理可能浮现的一系列状况,就是本章所要讨论的问题。
通过本章学习,要求重点掌握的内容是:明确多重共线性的概念及其表现形式;充分理解当线性回归模型存在多重共线性情形下,使用普通最小二乘估计模型参数将会引起的各种不良后果;熟练掌握检测多重共线性的各种方法以及在此情形下相应的处理与估计改进方法,从而能够运用这些知识处理经济计量分析实践中的相应问题。
本章内容(计划学时)一、多重共线性的性质1、多重共线性的概念2、解释变量线性关系的表现形式3、多重共线性的产生原因4、多重共线性的性质二、多重共线性的后果与检测1、多重共线性的后果2、多重共线性的检测方法三、多重共线性的补救措施学习重点一、多重共线性的性质二、多重共线性的后果与检测方法三、多重共线性的补救措施学习难点一、多重共线性的性质二、多重共线性的后果与检测方法 三、多重共线性的补救措施第一节 多重共线性的性质一、多重共线性的概念多重共线性就是指线性回归模型中若干解释变量或者全部解释变量的样本观测值之间具有某种线性关系,也就是说,对于有 k 个解释变量的线性回归模型Y = β0 + β1X 1 + β2X 2 + … + βk X k + u (式6-1.1) 即模型中的各解释变量Xi 的样本观测值之间存在一定的线性关系,我们就称模型存在多重共线性。
多重共线性
比如对于两个解释变量的模型
Yi 1 X 1i 2 X 2i ui
根据我们前面的讨论,参数的最小二乘估计为:
ˆ 1
2 ( yi x1i )( x2 i ) ( yi x2 i )( x1i x2 i ) 2 2 ( x12i )( x2 ) ( x x ) 1i 2i i
R 2 0.8101 ˆ , ˆ ) 0.00868 cov( 1 2
12 0.5523
df 2
ˆ 在单侧t检验的显著水平10%是显著的(1.886)。 1
第二组数据的回归结果
ˆ 1.2108 Y i se (0.7480) t (1.6187) 0.4014 X 1i (0.2721) (1.4752) 0.0270 X 2i (0.1252) (0.2158)
多重共线性
南开大学数学科学学院 白晓棠
多重共线性
在经典的线性回归模型中,我们假定回归模型中诸回归元 之间无多重共线性。
在本节中我们将放松此要求从而来研究: 1、什么是多重共线性? 2、它会引起什么样的后果? 3、怎样去发现它? 4、我们可以采取哪些补救措施来缓解多重共线性的问 题?
第一组数据
Y 1 2 3 4 5
X1 2 0 4 6 8
X2 4 2 12 0 16
第二组数据
Y 1 2 3 4 5
X1 2 0 4 6 8Leabharlann X2 4 2 0 12 16
第一组数据的回归结果
ˆ 1.1939 Y i se (0.7737) t (1.5431) 0.4463 X 1i (0.1848) (2.4151) 0.0030 X 2i (0.0851) (0.0358)
《多重共线性》课件
诊断方法比较
检验统计量
检验统计量提供量化指标,可以 明确指出多重共线性的程度,但 其依赖于样本数据,稳定性相对
较差。
图形化诊断
图形化诊断直观易理解,但可能存 在主观性,并且难以量化多重共线 性的程度。
综合运用
在实际应用中,应综合运用多种方 法进行多重共线性的诊断,以确保 诊断结果的准确性和可靠性。
Condition Index
Condition Index是诊断多重共线性的另一种统计量,当某些Condition Index值特别 大时,可能存在多重共线性问题。
图形化诊断
散点图
通过绘制自变量间的散点图,可以直 观地观察到是否存在线性关系,从而 初步判断是否存在多重共线性问题。
相关系数矩阵
通过绘制相关系数矩阵,可以观察到 自变量间的相关系数,当某两个自变 量的相关系数接近1或-1时,可能存 在多重共线性问题。
多重共线性的影响
参数估计值不稳定
01
模型中的参数估计值会随着样本的微小变化而发生较大的变化
,导致模型预测的不稳定性。
模型预测精度降低
02
由于参数估计值的不准确,会导致模型的预测精度降低,预测
结果的可信度下降。
模型解释性差
03
由于解释变量之间的高度相关关系,使得模型难以解释各个解
释变量对因变量的影响程度,降低了模型的解释性。
多重共线性PPT课件
目 录
• 多重共线性的定义 • 多重共线性的成因 • 多重共线性的诊断 • 多重共线性的处理 • 案例分析
01
多重共线性的定义
什么是多重共线性
1
共线性是指解释变量之间存在高度相关性的现象 。
2
在多元线性回归模型中,如果解释变量之间存在 高度相关关系,会导致模型估计的参数不准确, 甚至出现完全错误的结论。
多重共线性
多重共线性 §1 概述多重共线性的概念 (一)完全的多重共线性 ⒈定义对于k 个解释变量,如果存在一组不全为零的数12,,...k λλλ,使得1122...0k k X X X λλλ+++=则称12,,...,k X X X 之间存在完全的多重共线性 ⒉等价形式rank (X )< k+1 ,矩阵X 不满秩0X X '=()1X X -'不存在(二)不完全的多重共线性对于k 个解释变量,如果存在一组不全为零的数12,,...k λλλ,使得1122...0k k X X X λλλμ++++=其中μ为随机变量则称12,,...,k X X X 之间存在不完全的多重共线性(三)无多重共线性即没有上述完全和不完全的多重共线性,此时rank (X )< k+1,()1X X -'存在。
§2 多重共线性的产生原因和后果 一、 多重共线性的产生原因 二、 多重共线性的后果 (一) 完全的多重共线性 1. 参数估计值不确定11ˆ()()1()ˆX X X Y rank X k X X X ββ--''='<+⇒⇒⇒不满秩不存在无法估出2. 参数估计量的方差无穷大 (二) 不完全的多重共线性1. 参数估计值具有较大的不确定性2. OLS 估计仍然是无偏估计,但估计量的方差随着共线性程度的提高而提高 对二元回归,有2212221121212212121ˆ()111iiVar VIFxr xVIF r r r VIF σσβ==∙-=---↑⇒↑⇒↑⇒↑⇒↑∑∑其中方差膨胀因子共线性程度方差3.一个或多个系数的t 值不显著 对二元回归,有21212111111ˆˆˆ()()ˆ()r r VIF Var Se t t Se ββββ↑⇒↑⇒↑⇒↑⇒↑↑⇒↑⇒=↓⇒共线性程度方差更容易不显著§3 多重共线性的判断(检测) 一、 直观判断观测t 、F 和2R(1)F ,2R 很高――解释变量对因变量的联合影响明显 (2)部分或全部t 值不显著――无法分解出各解释变量对因变量的单独影响二、 观测相关系数 1. 简单相关系数矩阵法缺点:考察两个解释变量相关程度时,未排除其余解释变量对它们的影响2.偏相关系数法 三、辅助回归法1. 利用不包括某一解释变量所构成的判定系数2. 利用解释变量之间所构成回归方程的判定系数 四、本征值和条件指数 五、容许度和方差膨胀因子§4 多重共线性的解决方法(修正) 一、 增大样本容量001222212221121211 1ˆ()1ˆ()i i i i ii Y X X Var VIF x r x x Var βββσσββ=++==∙-↑⇒↓⇒∑∑∑对于一定程度抵消VIF>1的影响二、 利用先验信息改变参数的约束形式1ln ln ln ln ln ,ln 1t t tt t t t t tt t t tt tt t tt t t Q AL K Q A L K L K K L Q AL KAL A K K K Q L A K K αβαααααααβαβ-==+++⎛⎫=== ⎪⎝⎭⎛⎫= ⎪⎝⎭高度相关加入约束条件=,则三、数据的结合时间序列数据⇒时间序列数据与横截面数据相结合01122t 222i21122tu Y u ˆ MPC MPC ˆ u t t t i i tttY X X X Y X Y X X βββαβββββ=+++=++=+++销量价格收入1.找到某一时点的,的数据(截面数据),估计得出,即该横截面2.假定该不仅适用于该横截面,也适用于一段时间,则22011t011t 01ˆ u ˆˆ u MPC t t t t t Y X X Y X βββββββ*-=++=++估计,可得,局限性:只有当各横截面随时间变化不大时方可使用四、模型的差分变换01122t 10111221t-11111122212t-1 u u u t t t t t t t t t t t t t t Y X X Y X X Y Y X X X X X Y βββββββββ------=+++=+++--∆=()()()()(1)(2)(1)-(2)=()+(-)+(-)1122u u t t t t X X β∆+∆+∆∆缺陷:(1)丧失人们所关注的经济关系(2)易出现自相关问题五、逐步回归法 1. 基本思路Y X ⇒⇒⇒对每个经济意义检验选出最优的逐步引入其他作一元回归统计检验基本回归方程解释变量2.对新增变量的判别标准。
多重线性-PPT课件
• 滞后变量的引入
在计量经济模型中,往往需要引入滞后经济变 量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
• 一般经验
对于采用时间序列数据作样本、以简单线性形 式建立的计量经济学模型,往往存在多重共线性。
以截面数据作样本时,问题不那么严重,但 多重共线性仍然是存在的。
解 该 线 性 方 程 组 得 :
xy xy ˆ x xx
1 i i 2 i i 2 1 i 1 2 y x 0 0 xx x x x x x
1 i 2 i 2 2 i 1 i i 2 1 i i 2 1 i 2 1 i 2 1 i 2 1 i 1 i 2 i 2 2 i 2 2 1 i 2 1 i
第六章 多重共线性 (Multi-Collinearity)
• 第一节 多重共线性的定义 • 第二节 多重共线性的检验 • 第三节 多重共线性的消除
第一节 多重共线性的定义
多重量共线性及产生原因 多重共线性的后果
一、多重共线性的概念及其产 生原因
解释变量之间存在较强的线性相关关系,使 得 XT X 的行列式值近似于0(等于0是完全共 线性),逆阵可求得,但不稳定。出现于多元线 性模型。例:生产函数、需求函数.
在矩阵表示的线性回归模型 Y=XB+N 中,完全共线性指:秩(X)<k+1,即矩阵
1 1 X 1 X11 X21 X12 X22 X1n X2n Xk1 Xk2 Xkn
中 , 至 少 有 一 列 向 量 可 由 其 他 列 向 量 ( 不 包 括 第 一 列 ) 线 性 表 出 。
计量研2011—第6章
第六章
第二节
§6.2 多重共线性的检测
一、多重共线性(multicollinearrity)的概念 在经典假设中,我们假设多元线性回归
模型的解释变量之间是线性无关的,即解 释变量 X1, X2, …,Xk 线性无关,当这一条 不满足时,我们称模型的解释变量出现了 多重共线性,这时的模型称为多重共线性 模型。
然而,解释变量之间完全的 线性相关是极少见的,而解释变 量之间出现较高的线性相关程度 是常见的,当解释变量之间的线 性相关程度较高时,也会给模型 带来问题,因此也作为多重共线 性对待。由此,多重共线性分为 完全多重共线性与不完全多重t 0 1X1t 2 X 2t ut
(t 1,2, , n) (6.2)
假设解释变量X1,X2的简单相 关系数为r12 ,可以导出,模型 (6.2)式的OLS估计量的方差 为:
Var (ˆ1)
2 x22i
x12i
x22i (
2
x1i x2i )
2
x12i (1 r122 )
人的。
以上结论可以推广到多个解释变
量的线性回归模型中去。对于二元 以上的线性回归模型,衡量其线性 相关的指标为解释变量之间的多重 相关系数,当多重相关系数比较高 时,带来较为严重的多重共线性。
综上所述,多重共线性的后果可 以归纳为:
(1)多重共线性使OLS估计量 的方差增大,且方差的大小与解释 变量之间的线性相关程度成正比, 线性相关程度越高,方差就越大。 方差的增大使置信区间增大,由此 大大降低了估计量的可信度。
(3)有试验表明,参数的OLS估 计量及方差均对样本的变化反应 十分敏感,缺乏稳定性,从而不 可信。
(4)由于模型回归估计的可信度 较低,使预测结果的可信度也降 低。一般来说,预测结果不可信 。但是,如果样本期间解释变量 之间的线性相关关系在所预测的 未来期仍然存在,多重共线性模 型的预测结果仍是可用的,但是 模型不能用于做结构分析等。
多重共线性(Multi-Collinearity)
i 0 1 1i 2 2i
k ki i
(i=1,2,…,n)
其基本假设之一是解释变量
X,
1
X2,,
X
k
互相独立 。
如果某两个或多个解释变量之间出现了相关性, 则称为多重共线性。
如果存在
c1X1i+c2X2i+…+ckXki=0
i=1,2,…,n
其中: ci不全为0,即某一个解释变量可以用其它解释 变量的线性组合表示,则称为解释变量间存在完全
2
1
x12i 1 r 2
2
x12i
所以,多重共线性使参数估计量的方差增大。
方差扩大因子(Variance Inflation Factor)为1/(1-r2), 其增大趋势见下表:
相关系 0 0.5 0.8 0.9 0.95 0.96 0.97 0.98 0.99 0.999 数平方 方差扩 1 2 5 10 20 25 33 50 100 1000 大因子
多重共线性(Multi-Collinearity)
§2.8 多重共线性
Multi-Collinearity
一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、案例
一、多重共线性的概念
1、多重共线性
• 对于模型
Y X X X
以二元回归模型中的参数估计量ˆ 为例,ˆ 的方差为
1
1
Var(ˆ )
1
ˆ 2
(X X
)1
22
(
ˆ
2
(
x2
2i
)
x2 )( x2 ) ( x
多重共线性
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 Y 4901 5489 6076 7164 8792 10133 11784 14704 16466 18320 21280 25864 34501 47111 59405 68498 C(-1) 2976 3309 3638 4021 4694 5773 6542 7451 9360 10556 11362 13146 15952 20182 27216 34529 C(-1)/Y 0.6072 0.6028 0.5996 0.5613 0.5339 0.5697 0.5552 0.5067 0.5684 0.5762 0.5339 0.5083 0.4624 0.4284 0.4581 0.5041
y ( 1 2 ) x1
只能确定综合参数 1 2 的估计值:
ˆ ˆ 1 2 x1i y i x12i
4.2.2 不完全多重共线性下的 后果
(1)参数估计仍是无偏估计,但不稳定;估计量 及其标准差非常敏感,观测值稍微变化,估计 量就会产生较大的变动。 (2)参数估计式的方差随着共线性程度的增大而 增大。 (3)t检验失效,区间估计失去意义;估计量的 方差很大,相应标准差增大,进行t检验时,接 受零假设的可能性增大 (4)严重多重共线性时,甚至参数估计式的符号 与其经济意义相反。得出完全错误的结论。
2i
2i
2 2i
x y x y x x
1i i 1i 2 1i 2 1i
i
x12i 2 x12i
第六章 多重共线性PPT课件
第六章 多重共线性
Economenometrics
EViews软件中可以直接计算(解释)变量的相关系数矩阵: [命令方式] COR 解释变量名 [菜单方式] 将所有解释变量设置成一个数组,并在数组窗口中点击View\
Correlations。
考察解释变量的样本数据矩阵:
下的临界值,而发现:(1)系数估计值的符号与理论分析结果相违背;;(2)某些变 量对应的回归系数t值偏低或不显著;(3)当一个不太重要的解释变量被删除后,或者 改变一个观测值时,回归结果显著变化,则该模型可能存在多重共线性。
【例6.3.1】分析我国居民家庭电力消耗量与可支配收入及居住面积的 关系,以预测居民家庭对电力的需求量(具体数据见表6.3.1)。
经济变量之间往往存在同方向的变化趋势 经济变量之间往往存在着密切的关联度 在模型中引入滞后变量也容易产生多重共线性
在建模过程中由于解释变量选择不当,引起了变量之间的 多重共线性
第六章 多重共线性
Econometrics
第六章 多重共线性
Econometrics
多元线性回归模型
1.增大最小二乘估计量的方差
潘鸿
孙敬水.计量经济学(第二 版)[M].北京:清华大学出 版社,2009.
应具备的预备知识
◆《经济学》理论:
宏观、微观经济学
◆《概率论与数理统计》基础:
如随机变量、概率分布、期望、方差、协方 差、点估计、区间估计、假设检验、方差分 析、正态分布、t分布、F分布等概念和性质
◆《线性代数》基础:
矩阵及运算、线性方程组等
❖辅助回归模型检验:将住房面积对收入进行回归,住房面积与收入之
间存在显著的线性关系。
住房面积的系数在方程(6.3.7)中是显著的,在方程(6.3.8)中不显著;从F 统计量值可以看出,收入和住房面积对电力消费量的共同影响是显著的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
另一等价的检验是: 另一等价的检验 在模型中排除某一个解释变量Xj,估计 模型; 如果拟合优度与包含Xj时十分接近, 则说明Xj与其它解释变量之间存在共线性。
3.方差膨胀因子检验 方差膨胀因子检验
• 对于多元线性模型:
1 ˆ var( βi ) = ⋅ = 2 2 ∑ ( X i − X ) 1 − R j⋅
一般地,产生多重共线性的主要原因有以下三 个方面:
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济 变量(收入、消费、投资、价格)都趋于增长; 衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动 力投入往往出现高度相关情况,大企业二者都大, 小企业都小。
(2)滞后变量的引入 在经济计量模型中,往往需要引入滞 后经济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
(1)对两个解释变量的模型,采用简单相关系数法 (1)对两个解释变量的模型,采用简单相关系数法 对两个解释变量的模型 求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。经验表明,当r的 值大于或等于0.8时,说明存在多重共线性。
(2)对多个解释变量的模型,采用相关系数矩阵法: (2)对多个解释变量的模型,采用相关系数矩阵法: 对多个解释变量的模型
第二类方法: 2、第二类方法:差分法 时间序列数据、线性模型:将原模型变 换为差分模型: ∆Yi=β1 ∆ X1i+β2 ∆ X2i+…+βk ∆ Xki+ ∆ µi 可以有效地消除原模型中的多重共线性。
一般讲,增量之间的线性关系远比总量之间的线性关系弱得多 一般讲,增量之间的线性关系远比总量之间的线性关系弱得多, 该方法的一个重大缺陷在于:只是变量增量之间的回归关系, 该方法的一个重大缺陷在于:只是变量增量之间的回归关系,而不 是变量之间的回归关系。 是变量之间的回归关系
5.根据回归结果来判断 根据回归结果来判断
• 如果判定系数较大,且F检验较显著,如果出 现如下问题,则应当怀疑是否存在多重共线性: (1). 系数的估计值与理论分析相违背; (2). 某些变量回归系数的t检验不显著或t值较低; t t (3). 当一个不太重要的解释变量被删除后,或 者改变一个观察值时,回归结果发生了显著变 化,则该模型可能存在多重共线性。实质的原 实质的原 因是什么? 因是什么?
Fj = R 2. /( k − 2) j (1 − R ) /( n − k + 1)
2 j.
~ F (k − 2, n − k + 1)
式中:Rj•2为第j个解释变量对其他解释变量的回 归方程的判定系数, 若存在较强的共线性,则Rj•2较大且接近于1,这 时(1- Rj•2 )较小,从而Fj的值较大。 因此,给定显著性水平α,计算F值,并与相应的 临界值比较,来判定是否存在相关性。
三、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系, 所以用于多重共线性的检验方法主要是统计方法 用于多重共线性的检验方法主要是统计方法: 用于多重共线性的检验方法主要是统计方法 如判定系数检验法 逐步回归检验法 判定系数检验法、逐步回归检验法 判定系数检验法 逐步回归检验法等。
1、相关系数法
中,至少有一列向量可由其他列向量(不包括第 一列)线性表出。 如:X2= λX1,则X2对Y的作用可由X1代替。
注意: 注意: 完全共线性的情况并不多见, 完全共线性的情况并不多见,一般出现 的是在一定程度上的共线性, 的是在一定程度上的共线性,即近似共线 性。
实际经济问题中的多重共线性产生原因
由于|X’X|≈0,引起(X’X) -1 主对角线元素较大, 使参数估计值的方差增大,OLS参数估计量仍然 参数估计量仍然 是有效,但有效并不意味着方差的值较小。 是有效,但有效并不意味着方差的值较小。
仍以二元线性模型 y=β1x1+β2x2+µ 为例:
ˆ var(β 1 ) = σ ( X ′X )
注:缺陷是丢弃了X、Y变量水平值之间的数量关系 缺陷是丢弃了 、 变量水平值之间的数量关系
表 4.3.2
的总量与增量数据(亿元) 中国 GDP 与居民消费 C 的总量与增量数据(亿元) Y 3605.6 4074.0 4551.3 4901.4 5489.2 6076.3 7164.4 8792.1 10132.8 11784.7 14704.0 16466.0 18319.5 21280.4 25863.7 34500.7 46690.7 58510.5 68330.4 74894.2 79003.3 82673.1 89112.5 C/Y 0.488 0.492 0.509 0.531 0.522 0.524 0.513 0.522 0.511 0.506 0.519 0.518 0.497 0.485 0.482 0.455 0.446 0.461 0.471 0.465 0.467 0.476 0.482 △C 246.3 311.7 287.0 263.8 314.6 492.0 914.5 586.0 786.2 1671.9 890.4 589.7 1202.7 2143.9 3222.6 5127.4 6134.7 5207.8 2702.3 2066.5 2413.3 3577.5 △Y 468.4 477.3 350.1 587.8 587.1 1088.1 1627.7 1340.7 1651.9 2919.3 1762.0 1853.5 2960.9 4583.3 8637.0 12190.0 11819.8 9819.9 6563.8 4109.1 3669.8 6439.4 △C/△Y 0.526 0.653 0.820 0.449 0.536 0.452 0.562 0.437 0.476 0.573 0.505 0.318 0.406 0.468 0.373 0.421 0.519 0.530 0.412 0.503 0.658 0.556
Y = Xβ+ μ β
的OLS估计量为:
ˆ β= ( X ′X ) −1 X ′Y
如果存在完全共线性, 不存在, 如果存在完全共线性,则(X’X)-1不存在,无法得 完全共线性 到参数的估计量。 到参数的估计量。
例:对离差形式的二元回归模型
y = β 1 x1 + β 2 x 2 + µ
如果两个解释变量完全相关,如x2= λx1,则
由于 r2 ≤1,故 1/(1- r2 )≥1
完全不共线时, r2 =0 当完全不共线 完全不共线 当近似共线 近似共线时, 0< r2 <1 近似共线
ˆ var(β 1 ) = σ 2 / ∑ x12i
1 σ2 ˆ var(β 1 ) = ⋅ > 2 2 x1i 1 − r x12i ∑ ∑
σ2
2 −1 11
=
2 σ 2 ∑ x 2i 2 x12i ∑ x 2i − (∑ x1i x 2i ) 2 ∑
=
σ 2 / ∑ x12i
1 − (∑ x1i x 2i ) 2
2 x12i ∑ x 2i ∑
=
∑x
σ2
2 1i
⋅
1 1− r2
(∑ x1i x 2i ) 2ຫໍສະໝຸດ ∑x ∑x2 1i
2 2i
恰为X1与X2的线性相关系数的平方r2
其中ci不全为0,vi为随机误差项,则称为 近似共线 性 ( approximate multicollinearity ) 或 交 互 相 关 (intercorrelated)。
在矩阵表示的线性回归模型 Y=Xβ+µ β µ 中,完全共线性指:秩(X)<k+1,即 完全共线性指 完全共线性
1 X 11 1 X 12 X = L L 1 X 1n X 21 L X 22 L X 2n X k1 L X k2 L L L X kn
第六章 多重共线性
MultiMulti-Collinearity
一、多重共线性的概念及其产生原因 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、案例 *六、分部回归与多重共线性 六
一、多重共线性的概念及其产生原因 对于模型 Yi=β0+β1X1i+β2X2i+…+βkXki+µi i=1,2,…,n 其基本假设之一是解释变量是互相独立的。 如果某两个或多个解释变量之间出现了相 关性,则称为多重共线性 多重共线性(Multicollinearity)。 关性,则称为多重共线性
如果存在 c1X1i+c2X2i+…+ckXki=0 性(perfect multicollinearity)。 ) 如果存在 c1X1i+c2X2i+…+ckXki+vi=0
i=1,2,…,n
其中: ci不全为0,则称为解释变量间存在完全共线 则称为解释变量间存在完全共线 则称为解释变量间存在
i=1,2,…,n
y = (β1 + λβ2 )x1 + µ
这时,只能确定综合参数β1+λβ2的估计值:
估计量仍然是BLUE 2、近似共线性下OLS估计量仍然是BLUE估 近似共线性下 估计量仍然是BLUE估 计量
近似共线性下,可以得到OLS参数估计量, 但参数估计量方差 方差的表达式为 方差
ˆ) Cov(β = σ 2 ( X′X) −1
(3)样本资料的限制 样本资料的限制
由于完全符合理论模型所要求的样本数据较难 收集,特定范围内抽取样本可能存在某种程度的 多重共线性。 一般经验: 一般经验 时间序列数据样本:简单线性模型,往往存在 时间序列数据 多重共线性。 截面数据样本:问题不那么严重,但多重共线 截面数据 性仍然是存在的。