第六章 多重共线性
第六章 多重共线性
x
2 1i
x ( x1i x2i )
2 2i
2 2 x2 i
2
1 ( x1i x2i ) 2
2 / x12i
2 2 x x 1i 2i
2 恰为 X 与 X 的线性相关系数的平方 r 1 2 x x
2 1i 2 2i
( x1i x 2i ) 2
1 2 2 x 1 r 1i
如果某两个或多个解释变量之间出现了相关 性,则称为多重共线性(Multi-collinearity)。
(一)多重共线性的类型
如果存在 c1X1i+c2X2i+…+ + +ckXki=0 i=1,2,…, =1 2 n 其中 : ci不全为 0 ,则称为解释变量间存在完全共线 性(perfect multicollinearity)。 如果存在 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n 其中 ci 不全为 0 , vi 为随机误差项,则称为近似线性相 关的,或近似共线性( approximate multicollinearity )。
2
由于 r2 1,故 故 1/(11/(1 r2 )1
当完全不共线时,
r2
=0
当近似共线时, 0< r2 <1
2 1 ˆ ) var( 1 2 2 2 x 1 r x 1i 1i
ˆ ) 2 / x2 var( 1i 1
2
多 共线性使 数估计值 方 增大 1/(1-r 多重共线性使参数估计值的方差增大, ( 2)为 方差膨胀因子(Variance Inflation Factor, VIF)
多重共线性
多重共线性多重共线性(multicollinearity )的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系:0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数,但不同时为零。
● 0...2211≈+++k k X X X λλλ, 近似的多重共线性● 通过巴伦坦图做简单的描述。
共线性部分可用两圆圈的重叠部分来衡量。
重叠部分越大,共线性程度越高。
● 我们定义的多重共线性仅对X 变量之间的线性关系而言,它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的,诸X变量的回归系数将是不正确的,并且它们的标准误差为无穷大●如果多重共线性是不完全的,那末,虽然回归系数可以确定,却有较大的标准误差,意思是,系数不能以很高的精确或准精确加以估计,这会导致:-参数估计不精确,也不稳定-参数估计量的标准差较大,影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下,只要模型满足CLRM 假定,回归系数就为BLUE,但特定的样本估计量并不一定等于真值。
多重共线性的来源(1)许多经济变量在时间上由共同变动的趋势,如:收入,投资,消费(2)把一些经济变量的滞后值也作为解释变量在模型中使用,而解释变量和滞后变量通常相关,如:消费和过去的收入多重共线性一般与时间序列有关,但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的,造成的后果也比较复杂,对多重共线性的检验缺少统一的准则- 对有两个解释变量的模型,作散点图,或相 关系数,或拟和优度R平方。
- 对有多个解释变量的模型,分别用一个解释 变量对其它解释变量进行线性回归,计算拟 和优度22221,...,,k R R R- 考察参数估计值的符号,符不符合理论 - 增加或减少解释变量,考察参数估计值的变 化- 对比拟和优度和t检验值多重共线性的修正方法● 增加样本观测值,如果多重共线性是由样本引起的,可以通过收集更多的观测值增加样本容量。
多重共线性(统计累赘)的概念、特征及其测量方式和处理方式
试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。
1、概念多重共线性是指自变量之间存在线性相关关。
倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。
2、特征3、产生原因产生多重相关性的原因主要包括四方面。
一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。
但多数研究者认为共线性本质上是由于样本数据不足引起的。
4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。
①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。
③对重要自变量的回归系数进行t 检验,其结果不显著。
特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。
④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。
⑤重要自变量的回归系数置信区别明显过大。
⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。
(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。
共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。
方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。
对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。
计量经济学习题第6章多重共线性
计量经济学习题第6章多重共线性第6章多重共线性⼀、单项选择题1、当模型存在严重的多重共线性时,OLS估计量将不具备()A、线性B、⽆偏性C、有效性D、⼀致性2、经验认为某个解释与其他解释变量间多重共线性严重的情况是这个解释变量的VIF()A、⼤于B、⼩于C、⼤于5D、⼩于53、模型中引⼊实际上与解释变量有关的变量,会导致参数的OLS估计量⽅差()A、增⼤B、减⼩C、有偏D、⾮有效4、对于模型y t=b0+b1x1t+b2x2t+u t,与r12=0相⽐,r12=0.5时,估计量的⽅差将是原来的()A、1倍B、1.33倍C、1.8倍D、2倍5、如果⽅差膨胀因⼦VIF=10,则什么问题是严重的()A、异⽅差问题B、序列相关问题C、多重共线性问题D、解释变量与随机项的相关性6、在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在( )A 异⽅差B 序列相关C 多重共线性D ⾼拟合优度7、存在严重的多重共线性时,参数估计的标准差()A、变⼤B、变⼩C、⽆法估计D、⽆穷⼤8、完全多重共线性时,下列判断不正确的是()A、参数⽆法估计B、只能估计参数的线性组合C、模型的拟合程度不能判断D、可以计算模型的拟合程度⼆、多项选择题1、下列哪些回归分析中很可能出现多重共线性问题()A、资本投⼊与劳动投⼊两个变量同时作为⽣产函数的解释变量B、消费作被解释变量,收⼊作解释变量的消费函数C、本期收⼊和前期收⼊同时作为消费的解释变量的消费函数D、商品价格、地区、消费风俗同时作为解释变量的需求函数E、每亩施肥量、每亩施肥量的平⽅同时作为⼩麦亩产的解释变量的模型2、当模型中解释变量间存在⾼度的多重共线性时()A、各个解释变量对被解释变量的影响将难以精确鉴别B、部分解释变量与随机误差项之间将⾼度相关C、估计量的精度将⼤幅度下降D、估计对于样本容量的变动将⼗分敏感E、模型的随机误差项也将序列相关3、下述统计量可以⽤来检验多重共线性的严重性()A、相关系数B、DW值C、⽅差膨胀因⼦D、特征值E、⾃相关系数4、多重共线性产⽣的原因主要有()A、经济变量之间往往存在同⽅向的变化趋势B、经济变量之间往往存在着密切的关联C、在模型中采⽤滞后变量也容易产⽣多重共线性D、在建模过程中由于解释变量选择不当,引起了变量之间的多重共线性E、以上都正确5、多重共线性的解决⽅法主要有()A、保留重要的解释变量,去掉次要的或替代的解释变量B、利⽤先验信息改变参数的约束形式C、变换模型的形式D、综合使⽤时序数据与截⾯数据E、逐步回归法以及增加样本容量6、关于多重共线性,判断错误的有()A、解释变量两两不相关,则不存在多重共线性B、所有的t检验都不显著,则说明模型总体是不显著的C、有多重共线性的计量经济模型没有应⽤的意义D、存在严重的多重共线性的模型不能⽤于结构分析7、模型存在完全多重共线性时,下列判断正确的是()A、参数⽆法估计B、只能估计参数的线性组合C、模型的判定系数为0D、模型的判定系数为1三、简述1、什么是多重共线性?产⽣多重共线性的原因是什么?2、什么是完全多重共线性?什么是不完全多重共线性?3、完全多重共线性对OLS估计量的影响有哪些?4、不完全多重共线性对OLS估计量的影响有哪些?5、从哪些症状中可以判断可能存在多重共线性?6、什么是⽅差膨胀因⼦检验法?四、判断(1)如果简单相关系数检测法证明多元回归模型的解释变量两两不相关,则可以判断解释变量间不存在多重共线性。
第6章多重共线性
浙江财经学院 倪伟才
12
例题
例3.3的多重共线性
注意:消费额前面的系数为负的,者符 合常识吗?
题后语:整个回归方程作为整体高度显 著(通过F检验),但有些回归系数不能 通过显著性检验,甚至出现正负号得不 到合理的解释,此时应考虑是否存在多 重共线性。
浙江财经学院 倪伟才
13
四、多重共线性的诊断
(1)R2高,F检验显著,但t检验不显著。
Variable |
VIF
1/VIF
-------------+----------------------
x1 | 482.13 0.002074
x2 | 482.13 0.002074
-------------+----------------------
Mean VIF | 482.13
浙江财经学院 倪伟才
浙江财经学院 倪伟才
17
例题讲解
例3.3多重共线性的判断。(VIF) 1通过辅助回归计算x1的VIF 练习:计算x2的VIF 2:直接产生VIF 3:考虑x1,x2的偏相关系数:0.9776
浙江财经学院 倪伟才
18
stata
相关命令请参考
数据:消费和收入财富的多重共线性.dta reg y x1 x2 vif
浙江财经学院 倪伟才
11
2.近似完全多重共线性的后果
将xi2 xi1 i 代入ˆ1
ˆ1=
(yi x i1 )(2
x
2 i1
i2 ) - (
yi xi1
yii )(
xi21( 2 xi21 i2 ) ( xi21)2
x
2 i1
)
①将x2=λx1+v代入^1说明x2,x1共线性程度越 高,即v越趋于0,从而^1 趋于不确定。② var(^1 )会增大;③参数显著性检验的t统计量: t= ^1 / [var(^1 )] (1/2) ,存在共线时,var(^1 ) 会增大,t值会变小。对于给定,当|t|<t(/2) , 接受 原假设(相关系数0)表明x1对y的影响不显著。总 之,实际上x1对y的影响是显著的,但由于共线性, 可导致x1对y的影响不显著的!
计量经济第六章多重共线性
• 2、数据采集的范围有限,或采集 的样本量小于模型的自变量个数。
• 如在罕见疾病的研究过程中,由于病 情罕见、病因又相当复杂,而只能在 少数的患者身上采集大量的变量信息。
3、模型中采用滞后变量
在计量经济模型中,往往需要引入 滞后变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相 关性。
up
三、方差膨胀因子法
• 自变量间的共线性程度越大时,VIF值也随之 增大。所以也可利用方差膨胀因子来检验 多重共线性问题。 • 一般来说,当VIF >10时,表明 涉及的两个 变量存在高度线性相关,模型存在不完全 多重共线性。
P111 【经典实例】
• 计算得到的方差膨胀因子值分别为
VIF1 =10000,VIF2 =10000,VIF3 =9.6525,VIF4 =11.5875
2 2 2 1
同理易得
ˆ ) Var( 2
• EVIEWS遇到完全多重共线性时,会 显示 • Near singular matrix,无法进行估 计
2、不完全多重共线性下的后果
(1)估计量的方差增大 2 2 x 2 ˆ) 由于 Var ( 1 2 x12x2 (x1 x2 )2
• 可以看出,除了 VIF3 10 ,其余的方 差膨胀因子值均大于10,表明模型中 存在较严重的多重共线性问题。
up
第三节 多重共线性的修正 一、改变模型的形式 二、删除自变量 三、减少参数估计量的方差 四、其它方法 习题
up
• 一、改变模型的形式
• (一)变换模型的函数形式
• 例如将线性回归模型转化为对数模 型或者多项式模型。 • (二)改变模型的自变量的形式
多重共线性
2.采用综合统计检验法
R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线 性作用显著,但各解释变量间存在共线性而使得它们对Y的独 立作用不能分辨,故t检验不显著。
3.3 多重共线性
3、辅助回归模型检验 通过每个解释变量对其它解释变量的辅助回归模型
xi a0 a1 x1 ai 1 xi 1 ai 1 xi 1 ak xk
3.3多重共线性
• • • • 多重共线性及其产生原因 多重共线性的后果 多重共线性的检验 多重共线性的方法
一、多重共线性及其产生原因
1.多重共线性的概念---解释变量间相关
对于多元线性回归模型 yi=b0+b1x1i+b2x2i+…+bkxki+εi 存在一组不全为零的常数λ1,λ2,…λk,使得 λ1x1i + λ2x2i +…+ λkxki +νi=0 其中νi是一个随机误差项,则称模型存在着多重共线性。 “共线性”:变量间线性相关 “多重”:多种组合 “完全多重共线性”: νi=0
3.3 多重共线性
例5.服装需求函数。根据理论和经验分析,影响居民服 装需求的主要因素有:可支配收入X、流动资产拥有量 K、服装类价格指数P1和总物价指数P0 。教材P124的表 3-4给出了有关统计资料。 设服装需求函数为 :Y=a+b1x+b2P1+b3P0+b4K+ε (1)相关系数检验 键入:COR Y X K P1 P0 输出的相关系数矩阵为:
3.3 多重共线性
2、间接剔除重要的解释变量 ⑴利用附加信息
例如,著名的Cobb-Dauglas 生产函数中
附加信息: α +β =1 则
多重共线性
相关系数检验法
• 命令为:cor income conindex psg • 从解释变量的相关系数来看,他们的相关系数 都在90%以上,证明解释变量之间存在相关性。
判定系数法
• 我们依次以可支配收入、消费价格指数、通货膨胀作为被解释变量, 以余下的作为解释变量做最小二乘回归得如下的结果: – 在以人均收入作为被解释变量,其余项作为解释变量时,R、F值 均很高,且通货膨胀的系数相当显著,说明收入和社会商品零售 价格指数之间的相关性很高。命令为:ls Income c psg conindex – 在以农村消费指数作为被解释变量,其余项作为解释变量时,R、 F值均很高。其中社会商品零售价格指数显著。说明农村居民消费 指数与社会商品零售价格指数有很大的相关性。命令为:ls conindex c income psg – 在以社会商品零售价格指数作为被解释变量,其余项作为解释变 量时,R、F值均很高,人均收入和农村居民消费指数的系数都显 著。由此我们可以初步去掉PSG。命令为:ls psg c conindex income – 具体结果如下:
案例分析
• 选取农村消费水平的例子,由经济学理论和实际可以 知道,影响人均消费水平的因素有:人均可支配收入、 消费价格指数、通货膨胀、以及滞后的人均可支配收 入等由此建立以下方程:
cont 0 1income 2conindex 3 psgt t ut t t
• CONINDEX为农村消费价格指数 • PSG为社会零售商品价格指数 • INCOME为人均收入水平
OLS估计检验法
• 在命令栏输入:LS CON C CONINDEX PSG CON(-1) INCOME回归结果如下:
模型的修正
在原模型中去掉PSG解释变量后进行OLS估计 • 其结果如下:
计量经济学:多重共线性
影响比较大的,略去影响较小的。
元线性回归模型并进行OLS估计,拟合优度最大且接近1时,说明
这个变量与其他所有解释变量间存在共线性。
第三节 多重共线性的检验
辅助回归法中的方差膨胀因子:
对 于 多 元 线 性 回 归 模: 型Yi 0 1 X 1i ... k X ki ui 为 判 断 诸 自 变 量 间 是存 否在 多 重 共 线 性 , 进如 行下 辅 助 回 归 : X ji 0 1 X 1i ... j 1,i X j 1,i j 1,i X j 1,i ... k X ki v i , j 1,2,...,k 若 上 述 辅 助 回 归 的 可系 决数 为 R2 X j的 方 差 膨 胀 因 子 为 : j, 则 定 义 自 变 量 1 VIF j 1 R2 j
第一节 多重共线性的概念
若有c0+c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n。其中: ci不全为0,则称
解释变量间存在完全多重共线性
若存在:c0+c1X1i+c2X2i+…+ckXki≈0 i=1,2,…,n。 其中:ci不全为0,
则称为解释变量间存在近似多重共线性。
完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,
第二节 多重共线性的来源与后果
4、参数估计值不稳定,经济含义不合理
样本观测值稍有变动、增加或减少解释变量等都会使参数估计值发生较大变 化,甚至出现符号错误,从而不能正确反映解释变量对被解释变量的影响。
5、模型的预测功能失效
较大的方差容易使预测区间变大,从而使预测失去意义
注意:只要模型满足经典假设,则在近似多重共线性情况下,OLS估计量仍 然满足无偏性、线性性和有效性。但此时,无偏性并不意味着对某一给定样 本,其参数估计值就等于真实值。有效性也不意味着参数估计量的方差一定 很小。
计量教案(6多重共线性)
第六章 多重共线性在多元线性回归分析的经典假设中,假定模型所包含的解释变量之间不存在线性关系,即无多重共线性。
但是由于经济变量本身的固有性质,许多的变量之间总是会存在着一定的相关性。
例如,以企业截面数据为样本估计的生产函数,作为其解释变量的有诸如资本、劳动、能源……等等投入要素,这些投入要素都与企业的生产规模有关,显然,它们之间存在着明显的相关性。
再如,以家庭收入I和商品价格P为解释变量分析家庭生活状况的模型。
由于收入较高的家庭购买商品,普通会选择质地较好、价格较高的;而收入较低的家庭购买商品则会选择较便宜的。
这样两解释变量I与P之间存在着明显的相关性。
本章的目的与要求当解释变量之间存在着线性关系,违背了解释变量之间不存在共线性的经典假定时,如何处理可能浮现的一系列状况,就是本章所要讨论的问题。
通过本章学习,要求重点掌握的内容是:明确多重共线性的概念及其表现形式;充分理解当线性回归模型存在多重共线性情形下,使用普通最小二乘估计模型参数将会引起的各种不良后果;熟练掌握检测多重共线性的各种方法以及在此情形下相应的处理与估计改进方法,从而能够运用这些知识处理经济计量分析实践中的相应问题。
本章内容(计划学时)一、多重共线性的性质1、多重共线性的概念2、解释变量线性关系的表现形式3、多重共线性的产生原因4、多重共线性的性质二、多重共线性的后果与检测1、多重共线性的后果2、多重共线性的检测方法三、多重共线性的补救措施学习重点一、多重共线性的性质二、多重共线性的后果与检测方法三、多重共线性的补救措施学习难点一、多重共线性的性质二、多重共线性的后果与检测方法 三、多重共线性的补救措施第一节 多重共线性的性质一、多重共线性的概念多重共线性就是指线性回归模型中若干解释变量或者全部解释变量的样本观测值之间具有某种线性关系,也就是说,对于有 k 个解释变量的线性回归模型Y = β0 + β1X 1 + β2X 2 + … + βk X k + u (式6-1.1) 即模型中的各解释变量Xi 的样本观测值之间存在一定的线性关系,我们就称模型存在多重共线性。
多重共线性
比如对于两个解释变量的模型
Yi 1 X 1i 2 X 2i ui
根据我们前面的讨论,参数的最小二乘估计为:
ˆ 1
2 ( yi x1i )( x2 i ) ( yi x2 i )( x1i x2 i ) 2 2 ( x12i )( x2 ) ( x x ) 1i 2i i
R 2 0.8101 ˆ , ˆ ) 0.00868 cov( 1 2
12 0.5523
df 2
ˆ 在单侧t检验的显著水平10%是显著的(1.886)。 1
第二组数据的回归结果
ˆ 1.2108 Y i se (0.7480) t (1.6187) 0.4014 X 1i (0.2721) (1.4752) 0.0270 X 2i (0.1252) (0.2158)
多重共线性
南开大学数学科学学院 白晓棠
多重共线性
在经典的线性回归模型中,我们假定回归模型中诸回归元 之间无多重共线性。
在本节中我们将放松此要求从而来研究: 1、什么是多重共线性? 2、它会引起什么样的后果? 3、怎样去发现它? 4、我们可以采取哪些补救措施来缓解多重共线性的问 题?
第一组数据
Y 1 2 3 4 5
X1 2 0 4 6 8
X2 4 2 12 0 16
第二组数据
Y 1 2 3 4 5
X1 2 0 4 6 8Leabharlann X2 4 2 0 12 16
第一组数据的回归结果
ˆ 1.1939 Y i se (0.7737) t (1.5431) 0.4463 X 1i (0.1848) (2.4151) 0.0030 X 2i (0.0851) (0.0358)
多重共线性
多重共线性 §1 概述多重共线性的概念 (一)完全的多重共线性 ⒈定义对于k 个解释变量,如果存在一组不全为零的数12,,...k λλλ,使得1122...0k k X X X λλλ+++=则称12,,...,k X X X 之间存在完全的多重共线性 ⒉等价形式rank (X )< k+1 ,矩阵X 不满秩0X X '=()1X X -'不存在(二)不完全的多重共线性对于k 个解释变量,如果存在一组不全为零的数12,,...k λλλ,使得1122...0k k X X X λλλμ++++=其中μ为随机变量则称12,,...,k X X X 之间存在不完全的多重共线性(三)无多重共线性即没有上述完全和不完全的多重共线性,此时rank (X )< k+1,()1X X -'存在。
§2 多重共线性的产生原因和后果 一、 多重共线性的产生原因 二、 多重共线性的后果 (一) 完全的多重共线性 1. 参数估计值不确定11ˆ()()1()ˆX X X Y rank X k X X X ββ--''='<+⇒⇒⇒不满秩不存在无法估出2. 参数估计量的方差无穷大 (二) 不完全的多重共线性1. 参数估计值具有较大的不确定性2. OLS 估计仍然是无偏估计,但估计量的方差随着共线性程度的提高而提高 对二元回归,有2212221121212212121ˆ()111iiVar VIFxr xVIF r r r VIF σσβ==∙-=---↑⇒↑⇒↑⇒↑⇒↑∑∑其中方差膨胀因子共线性程度方差3.一个或多个系数的t 值不显著 对二元回归,有21212111111ˆˆˆ()()ˆ()r r VIF Var Se t t Se ββββ↑⇒↑⇒↑⇒↑⇒↑↑⇒↑⇒=↓⇒共线性程度方差更容易不显著§3 多重共线性的判断(检测) 一、 直观判断观测t 、F 和2R(1)F ,2R 很高――解释变量对因变量的联合影响明显 (2)部分或全部t 值不显著――无法分解出各解释变量对因变量的单独影响二、 观测相关系数 1. 简单相关系数矩阵法缺点:考察两个解释变量相关程度时,未排除其余解释变量对它们的影响2.偏相关系数法 三、辅助回归法1. 利用不包括某一解释变量所构成的判定系数2. 利用解释变量之间所构成回归方程的判定系数 四、本征值和条件指数 五、容许度和方差膨胀因子§4 多重共线性的解决方法(修正) 一、 增大样本容量001222212221121211 1ˆ()1ˆ()i i i i ii Y X X Var VIF x r x x Var βββσσββ=++==∙-↑⇒↓⇒∑∑∑对于一定程度抵消VIF>1的影响二、 利用先验信息改变参数的约束形式1ln ln ln ln ln ,ln 1t t tt t t t t tt t t tt tt t tt t t Q AL K Q A L K L K K L Q AL KAL A K K K Q L A K K αβαααααααβαβ-==+++⎛⎫=== ⎪⎝⎭⎛⎫= ⎪⎝⎭高度相关加入约束条件=,则三、数据的结合时间序列数据⇒时间序列数据与横截面数据相结合01122t 222i21122tu Y u ˆ MPC MPC ˆ u t t t i i tttY X X X Y X Y X X βββαβββββ=+++=++=+++销量价格收入1.找到某一时点的,的数据(截面数据),估计得出,即该横截面2.假定该不仅适用于该横截面,也适用于一段时间,则22011t011t 01ˆ u ˆˆ u MPC t t t t t Y X X Y X βββββββ*-=++=++估计,可得,局限性:只有当各横截面随时间变化不大时方可使用四、模型的差分变换01122t 10111221t-11111122212t-1 u u u t t t t t t t t t t t t t t Y X X Y X X Y Y X X X X X Y βββββββββ------=+++=+++--∆=()()()()(1)(2)(1)-(2)=()+(-)+(-)1122u u t t t t X X β∆+∆+∆∆缺陷:(1)丧失人们所关注的经济关系(2)易出现自相关问题五、逐步回归法 1. 基本思路Y X ⇒⇒⇒对每个经济意义检验选出最优的逐步引入其他作一元回归统计检验基本回归方程解释变量2.对新增变量的判别标准。
第六章多重共线性
第六章多重共线性第六章多重共线性前面两章所讲的异方差性和自相关性都是表现在随机误差项中的,我们下面所讲的多重共线性讨论的是模型中的解释变量违背基本假设的问题。
回忆以下我们在讲多元线性回归模型时,基本假定与简单线性回归模型不同的是哪一点?——就是无多重共线性假定:即假定各解释变量之间不存在线性关系,或者说各解释变量的观测值之间线性无关。
这一章我们讨论的多重共线性就是当解释变量违背了这一条基本假定的情形。
第一节多重共线性概念先看一个实例:我们研究某个地区家庭消费及其影响因素。
我们除了引入收入X1以外,还引入了消费者的家庭财产X2作为第2个解释变量。
根据抽样数据回归得到以下结果:Y^=24.7747+0.9415X1-0.0424X2t=(3.6690) (1.1442) (-0.5261)R2=0.9635 R2——=0.9531 F=92.4020这一回归结果说明什么?1、可决系数和修正可决系数都很理想2、F统计量高度显著,说明X1、X2联合对Y的影响显著3、各变量参数的t检验都不显著,不能否定等于零的假设4、财产变量的系数竟然与预期的符号相反。
为什么会出现这样的结果呢?再看一个例子:分析某地区汽车保养费用支出与汽车的行程数以及汽车拥有的时间建立模型,通过样本数据估计得:Y^=7.29+27.58X1-151.15X2t= (0.06) (0.958) (-7.06)R2——=0.946 F=52.53这个结果修正可决系数理想,F检验也显著,但X的T检验不显著,X2的T检验虽然显著,但系数符号与经济意义不符。
为什么也出现这种结果?一、多重共线性的概念:如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。
完全共线性与不完全共线性表示的是一种线性相关程度。
比如我们在第一个例子中,发现可支配收入与家庭财富之间有明显的共线性关系,他们的相关系数高达0.9989,第二个例子中汽车的行程数与拥有汽车的时间的相关系数也为0.9960,表明两个变量之间存在一种不完全的线性相关关系,我们可以认为他们之间有程度很高的多重共线性.不存在多重共线性只说明解释变量之间没有线性关系,而不排除他们之间存在某种非线性关系。
多重线性-PPT课件
• 滞后变量的引入
在计量经济模型中,往往需要引入滞后经济变 量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
• 一般经验
对于采用时间序列数据作样本、以简单线性形 式建立的计量经济学模型,往往存在多重共线性。
以截面数据作样本时,问题不那么严重,但 多重共线性仍然是存在的。
解 该 线 性 方 程 组 得 :
xy xy ˆ x xx
1 i i 2 i i 2 1 i 1 2 y x 0 0 xx x x x x x
1 i 2 i 2 2 i 1 i i 2 1 i i 2 1 i 2 1 i 2 1 i 2 1 i 1 i 2 i 2 2 i 2 2 1 i 2 1 i
第六章 多重共线性 (Multi-Collinearity)
• 第一节 多重共线性的定义 • 第二节 多重共线性的检验 • 第三节 多重共线性的消除
第一节 多重共线性的定义
多重量共线性及产生原因 多重共线性的后果
一、多重共线性的概念及其产 生原因
解释变量之间存在较强的线性相关关系,使 得 XT X 的行列式值近似于0(等于0是完全共 线性),逆阵可求得,但不稳定。出现于多元线 性模型。例:生产函数、需求函数.
在矩阵表示的线性回归模型 Y=XB+N 中,完全共线性指:秩(X)<k+1,即矩阵
1 1 X 1 X11 X21 X12 X22 X1n X2n Xk1 Xk2 Xkn
中 , 至 少 有 一 列 向 量 可 由 其 他 列 向 量 ( 不 包 括 第 一 列 ) 线 性 表 出 。
多重共线性(Multi-Collinearity)
i 0 1 1i 2 2i
k ki i
(i=1,2,…,n)
其基本假设之一是解释变量
X,
1
X2,,
X
k
互相独立 。
如果某两个或多个解释变量之间出现了相关性, 则称为多重共线性。
如果存在
c1X1i+c2X2i+…+ckXki=0
i=1,2,…,n
其中: ci不全为0,即某一个解释变量可以用其它解释 变量的线性组合表示,则称为解释变量间存在完全
2
1
x12i 1 r 2
2
x12i
所以,多重共线性使参数估计量的方差增大。
方差扩大因子(Variance Inflation Factor)为1/(1-r2), 其增大趋势见下表:
相关系 0 0.5 0.8 0.9 0.95 0.96 0.97 0.98 0.99 0.999 数平方 方差扩 1 2 5 10 20 25 33 50 100 1000 大因子
多重共线性(Multi-Collinearity)
§2.8 多重共线性
Multi-Collinearity
一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、案例
一、多重共线性的概念
1、多重共线性
• 对于模型
Y X X X
以二元回归模型中的参数估计量ˆ 为例,ˆ 的方差为
1
1
Var(ˆ )
1
ˆ 2
(X X
)1
22
(
ˆ
2
(
x2
2i
)
x2 )( x2 ) ( x
计量经济学基础--多重共线性 ppt课件
PPT课件
2
设 rij 表示解释变量和的线性相关系数,则有:
1)当 rij 0 时,解释变量 X i 和 X j 之间不 存在线性相关性。
2)当 rij 1 时,解释变量 X i 和 X j 之间存 在完全的线性相关性。
3)当0 rij 1 时,解释变量 X i 和 X j 之间存在
PPT课件
20
解:多元线性回归模型的估计结果如下:
PPT课件
21
由回归结果看,X2、X4的系数为负,与我们的预期相反; 此外所有的t值都比较小,这些现象表明,模型中非常可能 存在多重共线性。 计算所有解释变量的相关系数,结果如下:
15
(3)方差膨胀因子法
选定一个解释变量作为被解释变量(比如 X j ),做
其与其余解释变的回归,得到回归的可决系
数
R
2 j
,则可以证明
Xj
对应的OLS估计量X j 的方差
为:
Var(ˆ j )
2
1
x
2 ji
1
R
2 j
2
VIF
x
2 ji
1
其中
VIF
1
R
2 j
为变量
对应的OLS估计量的方差
④OLS估计结果中可决系数 R2 、F检验统计 量的值非常高。
PPT课件
14
(2)相关系数判断法
当某些解释变量之间的相关系数较高时, 我们就有理由相信模型中存在较严重的多重共 线性,相关系数越高,我们推断的理由越充分。 一般来说,当相关系数的值超过0.8时,我们就 可以认为模型中存在多重共线性。
PPT课件
PPT课件
多重共线性
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 Y 4901 5489 6076 7164 8792 10133 11784 14704 16466 18320 21280 25864 34501 47111 59405 68498 C(-1) 2976 3309 3638 4021 4694 5773 6542 7451 9360 10556 11362 13146 15952 20182 27216 34529 C(-1)/Y 0.6072 0.6028 0.5996 0.5613 0.5339 0.5697 0.5552 0.5067 0.5684 0.5762 0.5339 0.5083 0.4624 0.4284 0.4581 0.5041
y ( 1 2 ) x1
只能确定综合参数 1 2 的估计值:
ˆ ˆ 1 2 x1i y i x12i
4.2.2 不完全多重共线性下的 后果
(1)参数估计仍是无偏估计,但不稳定;估计量 及其标准差非常敏感,观测值稍微变化,估计 量就会产生较大的变动。 (2)参数估计式的方差随着共线性程度的增大而 增大。 (3)t检验失效,区间估计失去意义;估计量的 方差很大,相应标准差增大,进行t检验时,接 受零假设的可能性增大 (4)严重多重共线性时,甚至参数估计式的符号 与其经济意义相反。得出完全错误的结论。
2i
2i
2 2i
x y x y x x
1i i 1i 2 1i 2 1i
i
x12i 2 x12i
第六章 多重共线性PPT课件
第六章 多重共线性
Economenometrics
EViews软件中可以直接计算(解释)变量的相关系数矩阵: [命令方式] COR 解释变量名 [菜单方式] 将所有解释变量设置成一个数组,并在数组窗口中点击View\
Correlations。
考察解释变量的样本数据矩阵:
下的临界值,而发现:(1)系数估计值的符号与理论分析结果相违背;;(2)某些变 量对应的回归系数t值偏低或不显著;(3)当一个不太重要的解释变量被删除后,或者 改变一个观测值时,回归结果显著变化,则该模型可能存在多重共线性。
【例6.3.1】分析我国居民家庭电力消耗量与可支配收入及居住面积的 关系,以预测居民家庭对电力的需求量(具体数据见表6.3.1)。
经济变量之间往往存在同方向的变化趋势 经济变量之间往往存在着密切的关联度 在模型中引入滞后变量也容易产生多重共线性
在建模过程中由于解释变量选择不当,引起了变量之间的 多重共线性
第六章 多重共线性
Econometrics
第六章 多重共线性
Econometrics
多元线性回归模型
1.增大最小二乘估计量的方差
潘鸿
孙敬水.计量经济学(第二 版)[M].北京:清华大学出 版社,2009.
应具备的预备知识
◆《经济学》理论:
宏观、微观经济学
◆《概率论与数理统计》基础:
如随机变量、概率分布、期望、方差、协方 差、点估计、区间估计、假设检验、方差分 析、正态分布、t分布、F分布等概念和性质
◆《线性代数》基础:
矩阵及运算、线性方程组等
❖辅助回归模型检验:将住房面积对收入进行回归,住房面积与收入之
间存在显著的线性关系。
住房面积的系数在方程(6.3.7)中是显著的,在方程(6.3.8)中不显著;从F 统计量值可以看出,收入和住房面积对电力消费量的共同影响是显著的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
假定2 假定2 同方差假定:Var(u 同方差假定:Var(ui)= σ u 2, i=1,2,…n i=1,2,… 上式表明,各次观测值中u 上式表明,各次观测值中u具有相同的方差, 即各次观测所受到的随机影响的程度相同, 称为等方差性。 违反假定:异方差
假定3 假定3 无自相关假定: Cov(ui, uj)=0, i ≠ j, i,j=1,2…..n i,j=1,2… 表明任意两次观测的u 表明任意两次观测的ui, uj是不相关的,即 u在某次的观测值与任何其它次观测中的 值互不影响,称为无序列相关性。 等方差性和无序列相关性称为高斯— 等方差性和无序列相关性称为高斯—马 尔柯夫(Gauss-Markov)假定。 尔柯夫(Gauss-Markov)假定。 违反假定:自相关
注意 接近共线性并未破坏最小二乘估计量的最 小方差性:在所有线性无偏估计量中,OLS 小方差性:在所有线性无偏估计量中,OLS 估计量的方差最小。 最小方差并不意味着方差值本身也比较小。
注意 即使变量总体之间不线性相关,但却可 能与某一样本线性相关 多重共线性本质上是一个样本(回归) 现象。 原因:大多数经济数据不是通过试验获 得。如:国民生产总值、价格、失业率、 利润、红利等,是以其实际发生值为依 据,而并非试验得到。
这个指标度量方差增加的速度
R2 和 VIF 当 R2 增加时, VIF也随着增加 VIF也随着增加
如果大于10 如果大于10 ,就表明有问题
R
2 2
0 1
0.5 2
0.8 5
0.9 10
0.99 100
VIF=1/(1- R )
注意 R2较高,标准差未必一定大。也就是说它 不一定扩大估计量的标准差。 辅助回归方程的R 辅助回归方程的R2可能只是多重共线性的 一个“表面指示器” 一个“表面指示器”。 更正规的表述为:“较高的R 更正规的表述为:“较高的R2既不是较高 标准差的必要条件也不是充分条件,多重 共线性本身并不必然导致较高的标准差。” 共线性本身并不必然导致较高的标准差。”
假定4 假定4 随机项与自变量不相关: Cov(ui, x1i)=0; Cov(ui, x2i)=0 )=0; 区分随机项u与每个自变量各自对y 区分随机项u与每个自变量各自对y的影响。 如果x是非随机变量,即x 如果x是非随机变量,即x是在重复抽样中 取某固定值,该条件自然满足。
假定5 假定5
变量之间有共同的时间趋势 模型的过定( overdetermined) overdetermined)
解释变量的数目多于观测的数目。
多重共线性的理论后果 在存在高度多重共线性的情形下,即使多 元回归方程的一个或者多个偏回归系数是 统计不显著的,普通最小二乘估计量仍然 是最优线性无偏估计量。
注意 无偏性是一个重复抽样的性质,即:保持X 无偏性是一个重复抽样的性质,即:保持X 不变,如果得到一些样本并用OLS计算这些 不变,如果得到一些样本并用OLS计算这些 样本估计量,则其平均值收敛于估计量的 真实值。但这并不是某个样本估计值的性 质,在现实中,我们经常无法得到大量的 重复样本。
总结
检验多重共线性有许多种不同的方法, 但却没有一种检验方法能够使我们彻底 解决多重共线性问题。 多重共线性是一个程度的问题,它是与 样本相关的一种现象。 有时我们必须综合运用以上各种手段来 诊断多重共线性的严重程度。 总之,没有一个简单的办法判断多重共 线性问题。
补救措施 如果t统计量大于2 如果t统计量大于2,就不用担心 如果回归的 R2大于任何一个 X对其余 Xs回 Xs回 归的R 归的R2 ,就不用担心 如果仅仅是对预测感兴趣,并且解释变量 的线性组合在未来仍然延续,就不用担心
Y = 24.45 + 0.51X1 (3.81) (14.24) R2= 0.96
收入变量是高度显著的,但是在前一个模型中 是不显著的
例:消费函数 Y 只对财富回归:
Y = 24.41 + 0.05X2 t (3.55) (13.29) R2 = 0.96 财富变量也是高度显著的,但是在前一个模型 中是不显著的
X1 X2 X3 10 50 52 15 75 75 18 90 97 24 120 129 X1 和 X2 是完全线性相关的:
X2 = 5X1
完全多重共线性 若X2 = 5X1 将其代入Y 将其代入Y’=b0 ’ +b1 ’ X1+b2 ’ X2 +b3 ’ X3 Y’=b0 ’ +b1 ’ X1 +b2 ’ * 5X1 +b3 ’ X3 = b0 ’ +(b1 ’ + 5b2 ’ ) X1 +b3 ’ X3 = b0 ’ +A X1 +b3 ’ X3 三变量模型 无法从A值中得到b 无法从A值中得到b1 ’ 、b2’的值
检验方法4 检验方法4 方差膨胀因素(Variance 方差膨胀因素(Variance inflation factor )
var(b j ) =
σ u2
∑X
2 jt
(1 − R 2 ) j
=
σ u2
∑X
2 jt
VIF
VIF =
1 1 − R2 j
其中 R2j 是Xj对其他X的辅助回归的判决系数 对其他X
2、获取额外的数据或者新的样本 有些情况下,通过获得额外的数据(增加 样本容量)就能削减共线性的程度。
var(b j ) =
σ u2
∑ X 2jt (1 − R 2j )
=
σ u2
∑ X 2jt
VIF
获取额外的数据或者新的样本 既然多重共线性是一个样本特征,那么在 包括同样变量的另一样本中,共线性也许 不象第一个样本那样高。 关键是能否获得另一个样本,因为收集数 据的费用很高。
F = [R2/(k-1)] /[(1-R2)/(n-k)] /(k- /[(1- )/(nk 是 X的数目 如果F 如果F大于临界值,则 R2 是显著区别于0的 是显著2, 考虑Y对X1,X2, X3,X4,X5、 X3,X4,X5、 X6这6个解释变量 X6这 的回归 辅助回归:用R 辅助回归:用R12 表示X1对其余X 表示X1对其余X 的回归的判决系 数……
检验方法1 检验方法1 R2较高但t值显著的不多。这是多重共线 较高但t 性的“经典” 性的“经典”特征。
检验方法2 检验方法2 解释变量两两高度相关。
逐对检查解释变量之间的相关系数 这些仅仅是一些有用的指示,经过这些探查后 可能还会有多重共线性 解释变量的组合或许具有相关性
检验方法3 检验方法3 辅助或从属回归:将每个变量对其他剩 余变量回归并计算相应的R 余变量回归并计算相应的R2 值,其中每 一个回归都被称作是从属或者辅助回归。 然后用F 然后用F test 检验 R2 是否显著地区别于0 是否显著地区别于0
解释变量之间不存在线性相关关系,即 任意两个解释变量之间无确切的线性关 系。 用统计学语言,称为非共线性或非多重 共线性。 非完全共线性是指变量不能完全表示为 其他变量的完全线性函数。 违反假定:多重共线性
完全多重共线性
完全共线性(Perfect collinearity)的例子 完全共线性(Perfect collinearity)的例子 :
补救措施(经验法则) 从模型中删除不重要的解释变量 获取额外的数据或者新的样本 重新考虑模型 先验信息 变量变换 其他补救措施
1、从模型中删除不重要的解释变量
对待严重的多重共线性问题,最简单的 解决方法就是删除一个或多个共线性变 量。
导致“模型设定误差” 导致“模型设定误差”,参数估计量可能是 有偏的。 建议不要仅仅因为共线性很严重就从一个经 济上可行的模型中删除变量。所选模型是否 符合经济理论是一个重要的问题。
消费支出对于收入和财富的回归方程 40个观察值: 40个观察值: Y=2.0907+0.7299 X1 +0.0605 X2 t= (0.8713) (6.0014) (2.0641) R2 =0.9672
3、重新考虑模型 模型的不恰当设定可能是回归模型存在共 线性的原因。
多重共线性的性质
可以获得原始系数的一个线性组合的估 计值。 当解释变量之间存在完全线性相关或完 全多重共线性时,不可能获得所有参数 的唯一估计值。 既然我们不能获得它们的唯一估计值, 也就不能根据某一样本做任何统计推论 (也即假设检验)
多重共线性的原因 例:消费函数 Y = b0 + b1X1 + b2X2 X1 = income ; X2 = wealth X2 = 5X1 Y = b0 + b1X1 + b2 5X1 Y = b0 + (b1 + 5b2)X1
多重共线性的原因
所用的数据收集方法
例:在X 例:在X的一个限定的范围内抽样
有关被抽样总体的约束:
例:具有高收入的人倾向于有更多的财富
也许有关低收入的富有的人和高收入的没钱人的 数据不够充足。
多重共线性的原因 模型设定: 模型设定:
例: 在模型中加入多项式项,特别是当X的取 在模型中加入多项式项,特别是当X 值范围很小的时候。
多重共线性的实际后果 OLS估计量的方差和标准差较大。也就 OLS估计量的方差和标准差较大。也就 是说,OLS估计量的精确度下降。 是说,OLS估计量的精确度下降。 置信区间变宽。 t值不显著, R2较高。 OLS估计量及其标准差对数据的微小变 OLS估计量及其标准差对数据的微小变 化非常敏感,也就是说它们趋于不稳定。 回归系数符号有误。 难以衡量各个解释变量对回归平方和 (ESS)或R2的贡献。 ESS)或R
两个变量是如此地高度相关,以至于不能将二 者的效应分离出来。
例:消费函数 如果将 X2 对 X1 回归,得到:
X2 = 7.54 + 10.19X1 (0.26) ( 62.04) R2 =0 .99 表明,在 X1 和 X2之间有近乎完全的线形关系