违背基本假设的问题:多重共线性异方差和自相关
(整理)第5章、违背基本假设的问题:多重共线性、异方差和自相关
精品文档精品文档第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xβ+ε2.Rank(X)=K3.ε|X~N(0,σ2I)精品文档精品文档精品文档精品文档§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得a1x1+…+a K x K=0即X的列向量之间存在线性相关。
因此,有Rank(X)<K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。
也即违背了基本假设2。
精品文档例子:C=β1+β2nonlabor income + β3salary +β4income + ε精品文档精品文档精品文档2)近似共线性 常见为近似共线性,即a 1x 1+…+a K x K ≈0则有|X’X|≈0,那么(X’X)-1对角线元素较大。
由于21|[,(')]b X N X X βσ-, 21|[,(')]k k kk b XN X X βσ-,所以b k 的方差将较大。
例子:Longley 是著名例子。
精品文档精品文档精品文档精品文档2、检验方法1)VIF 法(方差膨胀因子法,variance inflation factor )第j 个解释变量的VIF 定义为21VIF 1j jR =- 此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。
若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之精品文档精品文档间存在线性关系。
从而,可以用VIF 来度量多重共线性的严重程度。
当2j R 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。
K 个解释变量,就有K 个VIF 。
可以计算K 个VIF 的平均值。
期末精华:计量经济学针对三种误差检验方法
2、近似共线性下普通最小二乘法参数估计量 非有效
在一般共线性(或称近似共线性)下,虽然可以得 到OLS法参数估计量,但是由参数估计量方差的表达 式为
Cov(ˆ ) 2 (XX)1
RESET 检验是 Regression Specification Error Test (回归设定误差检验)的简写。
设 y x β zc ε 设定误差检验是检验上式中 c 是否为零。 但关键哪些变量应该进入 z 呢? (1)在缺失变量的情况下,那些缺失变量将构成 z。 (2)在方程设定有误时,应如何处理呢?
第五章 计量经济学检验 ——违背基本假设的情况
❖ 一方面,建立一个计量经济学模型要经过四 重检验,其中经济意义检验、统计检验、预 测检验已讲,这一章主要讲计量经济学检验 的范畴。
❖ 另一方面,前面讨论了最小二乘估计的优良 性质,但都是基于经典假设。如果这些假设 不满足,会出现什么问题呢?这一章对其进 行分析。
(3) 用F检验比较两个方程的拟合情况(类似于上一章中 联合假设检验采用的方法),如果两方程总体拟合情况 显著不同,则我们得出原方程可能存在误设定的结论。 使用的检验统计量为:
F (RSSM RSS ) / M RSS /(n k 1)
其中:RSSM为第一步中回归(有约束回归)的残差 平方和,RSS为第二步中回归(无约束回归)的残差 平方和,M为约束条件的个数,这里是M=3。
四、 解决解释变量误设定问题的原则
在模型设定中的一般原则是尽量不漏掉有关的解 释变量。因为估计量有偏比增大误差更严重。但如 果方差很大,得到的无偏估计量也就没有多大意义 了,因此也不宜随意乱增加解释变量。
在回归实践中,有时要对某个变量是否应该作为 解释变量包括在方程中作出准确的判断确实不是一 件容易的事,因为目前还没有行之有效的方法可供 使用。尽管如此,还是有一些有助于我们进行判断 的准则可用,它们是:
异方差、自相关、多重共线性比较(计量经济学)
BG检验
基于所分析模型普通最小二乘估计的残差贵解释变量和一定数量滞后残差的辅助回归,如果滞后残差足以解释当前残差的差异,就拒绝误差项无自相关的原假设。
1.用OLS估计原模型式,并得到残差e.
2.用残差e对解释变量X及滞后残差e(-1)做辅助回归。
3.计算辅助回归的可决系数R^2,构建统计量LM=TR^2。LM=TR^2~χ²
2.构造子样本区间,建立回归模型。在sample菜单里定义区间,然后用OLS方法回归,分别得到残差平方和 和 。
3.求F统计量值。F
4.判断。比较F与
的大小,判断模型是否存在异方差。
White检验
基本思想:
如果存在异方差,其方差δ^2与解释变量有关系,分析δ^2是否与解释变量有某些形式的联系以判断异方差。
注意:较高的简单相关系数师多重共线性的充分条件而不是必要条件。特别师在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。
方差扩大(膨胀)因子检验
多元线性回归模型,构造辅助回归。方差扩大因子VIF=1/(1-R^2),它的大小反映了解释变量之间是否存在多重共线性。VIF越大,多重共线性越严重。
各种序列相关检验方法比较
检验方法
操作思想
操作步骤
适用性
软件操作
图示法
对给定的回归模型直接用普通最小二乘法估计其参数,求出残差项e,以e作为随机项u的估计值,再描绘e的散点图,根据散点图来判断e的相关性。
两种方法:1.绘制e(-1)和e的散点图。用(e(-1),e)作为散布点绘图,若多数点落在一三象限,表明随即误差项u存在正自相关。否则,u存在负自相关。
2.Quick/graph,在series list对话框中输入“e(-1) e”,选择scatter’,得到e(-1)与e的散点图。
第5章、违背基本假设的问题:多重共线性、异方差和自相关共36页文档
第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xβ+ε2.Rank(X)=K3.ε|X~N(0,σ2I)第 1 页§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得a1x1+…+a K x K=0即X的列向量之间存在线性相关。
因此,有Rank(X)<K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。
也即违背了基本假设2。
例子:C=β1+β2nonlabor income + β3salary +β4income + ε第 2 页2)近似共线性常见为近似共线性,即a1x1+…+a K x K≈0则有|X’X|≈0,那么(X’X)-1对角线元素较大。
由于所以b k的方差将较大。
例子:Longley是著名例子。
第 3 页第 4 页2、检验方法1)VIF 法(方差膨胀因子法,variance inflation factor )第j 个解释变量的VIF 定义为此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。
若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之间存在线性关系。
从而,可以用VIF 来度量多重共线性的严重程度。
当2j R 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。
K 个解释变量,就有K 个VIF 。
可以计算K 个VIF 的平均值。
若大于10,认为存在比较严重的多重共线性。
VIF方法直观,但是Eviews不能直接计算VIF的数值。
需要逐个进行回归,较为麻烦。
2)相关系数矩阵例子:对于longley数据。
在Eviews中,quick/group statistics/correlations,输入te year gnpd gnp arm,得到TE YEAR GNPD GNP ARM TE 1.000000 0.971329 0.970899 0.983552 0.457307 YEAR 0.971329 1.000000 0.991149 0.995273 0.417245 GNPD 0.970899 0.991149 1.000000 0.991589 0.464744 GNP 0.983552 0.995273 0.991589 1.000000 0.446437 ARM 0.457307 0.417245 0.464744 0.446437 1.000000 相关系数矩阵的第一列给出了被解释变量与每一个解释变量之间的相第 5 页关系数;度量了每一个解释变量对被解释变量的个别影响。
异方差和自相关
四、异方差性的解决方法
1.模型变换法 例如,设模型 yi=a+bxi+εi (1)如果σi2 =D(εi)=λxi2 (λ>0, 且为常数) 同除以xi (2)如果σi2 =D(εi)=λxi 同除以 xi 一般情况下,若D(εi)= λ f(xi),则以 f(x i ) 除以 原模型的两端。
四、异方差性的解决方法
求出 RSS1 = 2579.59 28 确定子样本2
LS Y C X
求出 RSS2 = 63769.67 计算出 F = 24.72
=63769.67/2579.59
取 = 0.05时,查 F 分布表得 F0.05(10-1-1,10-1-1) = 3.44, F = 24.72 > F0.05 = 3.44,所以存在(递增的)异方差性。 (课件演示)
由于自相关性主要表现在时间序列数据,将 下标变为t
2、一阶自相关与高阶自相关
一阶:ε t= εt-1+ ν t -1≤ρ≤1
高阶:εt=ρ1εt-1+ρ2εt-2+…+ρpεt-p+νt
自相关系数;ρi偏自相关系数。νt: 满足古典假定。
一、自相关性及其产生的原因
3.产生原因
(1)模型中遗漏了重要的解释变量。 消费函数中的随机误差项中包括消费习惯、家庭财产。
商品需求函数中的随机误差项中包含了其他商品的价格。
(2)模型形式设定不当。 平均成本函数将二次函数设成线性,误差项中包含二次项。 (3)经济惯性。 (4)随机因素的影响。 (5) 其他,如数据处理。
二、自相关性的后果
1.最小二乘估计不再是有效估计---尽管无偏
ˆ的标准误差。 2.一般低估OLS估计 b
计量经济学违背经典假设总结
违背经典假设样本一样本二 … … …一、异方差(u i &X i )1、why 为什么会产生异方差?——某一因素或一些因素(即u)随着解释变量观测值的变化而对被解释变量产生不同的影响;模型中省略了重要的解释变量;模型的函数形式设定不准确等。
2、when 什么数据容易出现异方差?——截面数据3、what 产生异方差后有什么影响?——低估 的真实方差Se( ),导致检验统计量t 值被高估,可能造成本来不显著的某些回归系数变成显著。
4、how 如何判断是否存在异方差?——(1)判断方法:残差图分析法;判断依据:看残差项是否随解释变量表现出趋势性(2)判断方法:等级相关系数法;判断依据:等级相关系数检验(3)判断方法:戈德菲尔德-匡特检验;判断依据:样本排序分段比检验(4)判断方法:戈里瑟检验;判断依据:用残差平方作为被解释变量对每个解释变量、每个解释变量的平方、各解释变量的两两交叉乘积项一起进行线性回归,并检验各回归系数是否为0(5)判断方法:怀特检验;判断依据:用残差平方作为被解释变量对每个解释变量一起建立各种回归模型,并检验各回归系数是否为05、how 判断出存在异方差了该怎么修正?——A.(1) (2) 未知时,如果之间为线性关系,之 X i 为权数变换二、自相关(u i &u i-1)1、why 为什么会产生自相关?——遗漏了重要的解释变量;经济变量的滞后性;回归函数形式的设定错误;蜘蛛网现象2、when 什么数据容易出现自相关?——时间序列数据3、what 产生自相关后有什么影响?——参数的估计量是无偏的,但不是有效,严重低估误差项的方差,导致统计量高估,不显著变为显著。
4、how 如何判断是否存在自相关?——(1)判断方法:图示检验法;判断依据:看t 期残差项(e t )与t-1期残差项(e t-1)是b ˆb ˆ2i s 2i s否表现出相关性、规律性;或者看残差项e t与时间t是否表现出相关性、规律性(2)判断方法:自相关系数法;判断依据:系数越接近于1时,表明误差序列越存在正相关,系数接近于-1时,表明误差序列越存在负相关(3)判断方法:DW检验;判断依据:用DW统计量与dL,du临界值比较得出结论(4)判断方法:拉格朗日乘数检验(高阶自相关);判断依据:假设u t是u t-1到u t-p 等各样本残差项的线性组合,重新构建辅助回归,LM统计量大于临界值,就拒绝原假设,表明存在自相关,反之亦然。
第5章、违背基本假设的问题:多重共线性、异方差和自相关
第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xβ+ε2.Rank(X)=K3.ε|X~N(0,σ2I)§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得a1x1+…+a K x K=0即X的列向量之间存在线性相关。
因此,有Rank(X)<K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。
也即违背了基本假设2。
例子:C=β1+β2nonlabor income + β3salary +β4income + ε2)近似共线性常见为近似共线性,即a 1x 1+…+a K x K ≈0 则有|X’X|≈0,那么(X’X)-1对角线元素较大。
由于21|[,(')]b X N X X βσ- , 21|[,(')]k k kkb X N X X βσ- ,所以b k 的方差将较大。
例子:Longley 是著名例子。
2、检验方法1)VIF 法(方差膨胀因子法,variance inflation factor )第j 个解释变量的VIF 定义为21V IF 1j jR=-此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。
若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之间存在线性关系。
从而,可以用VIF 来度量多重共线性的严重程度。
当2jR 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。
K 个解释变量,就有K 个VIF 。
可以计算K 个VIF 的平均值。
若大于10,认为存在比较严重的多重共线性。
VIF方法直观,但是Eviews不能直接计算VIF的数值。
需要逐个进行回归,较为麻烦。
如何应付异方差、自相关、多重共线性
异方差:(Heteroscedasticity)一如何检测?①假设我们做一个回归,求出β1、β2、β3,然后返回求出序列{Ut},现在要检测{Ut}是不是异方差的。
②设立辅助方程:既然假设是异方差,那么我们就假设{Ut}与X存在某种关系,这种关系比较复杂,只要我们证明α1、α2、α3……不为0,即可③构建新的统计量:T·R2,先人曾经证明过其服从 卡方(m)分布。
④最后将算出来的T·R2值与卡方分布的临界值比较,……。
二、如何应对?①如果异方差的形式已知,我们可以通过GLS(广义二乘法)来处理:举例说明:②如果异方差的形式未知自相关:(Autocorrelation)一如何检测?我们直接可以看DW值,注意这个ρ值is the残差项之间的estimated correlation coefficient.也可以用另外一种方法:二如何应对?①如果自相关的形式已知•If the form of the autocorrelation is known, we could use a GLS procedureBut such procedures that “correct” for autocorrelation require assumptions about the form of the autocorrelation.②未知:构建动态模型,如:三多重共线性:(Multicollinearity)①如何检测:look at the matrix of correlations between the individual variables.另外:R2 will be high but the individual coefficients will have high standard errors也可能存在多重共线性。
②如何解决:。
异方差自相关共线性
检验解释变量之间是否存在多重共线性的 常见方法有以下几种: (1)相关系数检验法 (2)辅助回归模型检验 (3)方差膨胀因子检验 (4)特征值检验 下面介绍如何利用Eviews6.0软件进行 相关系数检验和方差膨胀因子检验。
①相关系数检验 下面分析我国居民家庭电力消耗量(单位:千瓦 小时)与居住面积x1(单位:平方米)及可支配 收入x2(1978=100)的关系,以预测居民家庭电 力的需求量,原始数据如下图:
这里n R2的值明显变小了
3、自相关
自相关违背了经典线性回归假设中对随 机误差项无序列相关的要求。即随机误差项 之间存在着自相关性或者序列相关。 自相关的影响有:模型参数估计值不具有 最优性;随机误差的方差一般会低估;模型 的统计检验失效;区间估计和预测区间的精 度降低。
自相关性的检验方法主要有以下几种: (1)图示法; (2)德宾—沃森(DW)检验; (3)高阶自相关性检验; (4)回归检验法。 下面将介绍如何利用Eviews6.0软件进 行DW检验与高阶自相关性检验。
异方差的解决方法有: (1)模型变换法; (2)加权最小二乘法; (3)模型的对数变换; (4)广义最小二乘法。 其中最常见的是加权最小二乘法。下面 就介绍如何用Eviews6.0进行加权最小二乘 法的实现。
加权最小二乘法估计 模型的方法为:在方 程窗口中单击 Quick→Estimate Equation→Options, 并在权数变量栏输入 加权变量,这里选取 1/x为权数,点击确定, 就可以得到估计结果。
滞后阶数的选择, 一般会根据样本选 择默认的滞后阶数
检验的进入步骤
得到的检验结果表示残差与滞后各期的 相关系数与偏相关系数。(这里在时间序 列ARMA模型里面会介绍)。通过自相关系 数和偏自相关系数图,可以得到,残差序 列存在一阶和二阶自相关。
【总结】计量经济学异方差性、多重共线性、自相关的联系与区别知识总结
《计量经济学》中多重共线性、异方差性、自相关三者之间的联系与区别首先我们先来回顾一下经典线性回归模型的基本假设:1、为什么会出现异方差性我们可以从一下两方面来分析:第一,因为随即误差项包括了测量误差和模型中被省略的一些因素对因变量的影响;第二,来自不同抽样单元的因变量观察值之间可能差别很大。
因此,异方差性多出现在截面样本之中。
至于时间序列,则由于因变量观察值来自不同时期的同一样本单元,通常因变量的不同观察值之间的差别不是很大,所以异方差性一般不明显。
含义及影响:y=X β+ε,var(εi )var(εj ), ij ,E(ε)=0,或者记为212200['|]0000n E X σεεσσ⎛⎫⎪=Ω= ⎪ ⎪⎝⎭即违背假设3。
用OLS 估计,所得b 是无偏的,但不是有效的。
111(')'(')'()(')'b X X X y X X X X X X X βεβε---==+=+由于E(ε)=0,所以有E(b )=β。
即满足无偏性。
但是,b 的方差为1111121var(|)[()()'][(')''(')|] (')'['|](') (')'()(')b X E b b E X X X X X X X X X X E X X X X X X X X X X ββεεεεσ------=--===Ω其中212200['|]0000n E X σεεσσ⎛⎫⎪=Ω= ⎪ ⎪⎝⎭2、自相关产生的原因:(1)、经济数据的固有的惯性带来的相关 (2)、模型设定误差带来的相关 (3)、数据的加工带来的相关 含义及影响:cov(,)0,i j i j εε≠≠影响:和异方差一样,系数的ls 估计是无偏的,但不是有效的。
D -W 检验(Durbin -Watson )221212222121212222112112122211221122121()()()2()()222222(1)n i i i n i i n n n i i i i i i i n i i n n n i i i i i i i n n i i n i i i nn n i i i i nn i ie e d e e e e e e e e e e e e e e e e e e e e e e ρρ=-===-=-====-==-===∑-=∑∑+∑-∑=∑∑+∑-∑--=∑∑+=--∑∑+=--∑≈-其中2121n i i i n i ie e e ρ=-=∑=∑是样本一阶自相关函数。
《应用统计学》第13章:违背经典假设的经济计量模型
四、异方差的识别和检验
由于异方差的存在会导致上述不良后果,所以对于经济计 量模型,在进行参数估计之前就应当对是否存在异方差进 行识别。若确实存在异方差,就需要采取措施消除数据中 的异方差性。异方差的识别与检验主要有以下几类方法。 (一)根据问题的经济背景,分析是否可能存在异方差 根据问题的经济背景, 如本节的例 13.1和例 13.2。 13.1 13.2 这通常是判断是否存在异方差的第一个步骤,具体确认还 需要进一步借助以下方法。 (二)图示法 二 图示法 通常可以借助以下两种图示法判断是否存在异方差。 1. 分别对各解释变量 Xj ,作 ( xij,yi ) 的散点图 这一方法可以分析异方差与哪些解释变量有关,见图 13.4。
(13.2-4)
⑶检验假设 H0:β = 0 若结果显著,则判定存在异方差; 如果有多个显著的回归方程,则取临界显著性水平最高的作 为 σi2 与解释变量之间的相关关系。 由(13.2-2)式可知, 帕克检验所采用的函数形式可以是解释变 量的任意次幂,故适应性很广, 同时还可得到σi2的具体形式:
σi2 = σ2 f (xij)
2
§13.2 异 方 差
一、异方差的概念 在§11.1 中讨论线性回归模型的数据结构 yi = β0 + β1 xi1 + β2 xi2 + + βp xip + εi ; i = 1,2,,N 时,假定模型中的随机误差项序列满足
εi ~ N(0, σ2),且相互独立,i = 1,2,,N 即要求各εi 是同方差的。
14
2. 分别作出各 xj 与残差 ei 或残差平方 ei2 的散点图
其中
ei = yi yi ; ei2 = ( yi yi ) 2
第五章 计量经济学检验违背基本假设的情况
4.逐步回归法
以Y为被解释变量,逐个引入解释变量,构成
回归模型,进行模型估计。根据拟合优度的变化 决定新引入的变量是否可以用其它变量的线性组 合代替,而不作为独立的解释变量。 如果拟合优度变化显著,则说明新引入的变量 是一个独立解释变量;
如果拟合优度变化很不显著,则说明新引入的 变量不是一个独立解释变量,它可以用其它变量 的线性组合代替,也就是说它与其它变量之间存 在共线性关系。
四、克服多重共线性的方法
1、第一类方法:排除引起共线性的变量
找出引起多重共线性的解释变量,将它排除出去, 是最为有效的克服多重共线性问题的方法。
注意: 剩余解释变量参数的经济含义和数值都发生了变化。
2、第二类方法:差分法 对于以时间序列数据为样本、以直接线性关系
为模型关系形式的计量经济学模型,将原模型变 换为差分模型 Yi=1 X1i+2 X2i++k Xki+ i 可以有效地消除存在于原模型中的多重共线性。 一般讲,增量之间的线性关系远比总量之间的 线性关系弱得多。
本章内容
多重共线性(Multicollinearity) 异方差性(Heteroscedasticity) 自相关(Autocorrelation)
第一节 多重共线性 ( Multi-Collinearity )
多重共线性的概念 多重共线性的后果 多重共线性的检验 克服多重共线性的方法
2 越强(即 R k . 越大),则由于多重共线性,该系数估计的方差就越大。
一种最普遍的情形是,解释变量之间是高度相关,而不是 确切相关的。在这种情形下,回归模型仍然保持那些常见的性质, 但是出现了一些潜在的统计问题: 1. 数据扰动存在巨大影响。 2. 虽然模型的整体效果比较好( R 较大),但参数b不显著。 3. 导致参数估计“变性”(符号不合理)。 4.解释变量前的参数并不反映各自与被解释变量之间的结构 关系,而是反映它们对被解释变量的共同影响。
回归 统计谬误
回归统计谬误
回归统计谬误是指在回归分析中可能出现的错误或误解。
以下是常见的回归统计谬误:
1. 多重共线性:当自变量之间存在高度相关性时,回归模型的结果可能不可靠。
多重共线性会导致自变量之间的解释效果变得模糊,使得模型的解释能力下降。
2. 异方差性:异方差性指误差项的方差在自变量取值不同的情况下不一致。
如果忽视了异方差性,回归模型的标准误差可能被低估或高估,导致对系数的显著性判断出现错误。
3. 自相关:自相关指误差项之间存在相关性,即误差项不是独立同分布的。
如果忽视了自相关,回归模型的标准误差可能被低估,导致对系数的显著性判断出现错误。
4. 异常值:异常值是指与其他数据点明显不同的观测值。
异常值可能会对回归分析的结果产生显著影响,特别是在较小样本或单一观测值的情况下。
5. 非线性关系:回归模型默认为自变量与因变量之间存在线性关系,但实际情况可能是非线性的。
如果忽略了非线性关系,回归模型的拟合程度可能较差。
6. 样本选择偏差:样本选择偏差是指样本的选择方式与研究问题相
关,导致回归模型的结果不具有普遍性。
样本选择偏差可能导致回归分析结果的误导性。
为避免回归统计谬误,研究者应该在回归分析中仔细考虑数据的质量和特征,并采取适当的方法来处理可能的问题。
此外,使用多种分析方法和进行敏感性分析也可以帮助减少回归统计谬误的影响。
多重共线性 异方差 序列自相关 思考题
A.异方差性
B.自相关性
C.随机解释变量
D.多重共线性
42、逐步回归法既检验又修正了____
A.异方差性
B.自相关性
C.随机解释变量
D.多重共线性
43、在下列产生异方差的原因中,不正确的是____
A.设定误差
B.截面数据
C.样本数据的观测误差
D.解释变量的共线性
44、在下列产生序列自相关的原因中,不正确的是____
C. Durbin 两步法
D. 移动平均法
35、违背零均值假定的原因是____
A.变量没有出现异常值
B.变量出现了异常值
C.变量为正常波动
D.变量取值恒定不变
36、对违背零均值的情况可采用引入虚拟变量的方法,这时会对____产生影响
A.斜率系数
B.截距项
C.解释变量
D.模型的结构
37、在下列多重共线性产生的原因中,不正确的是____
B.yt−1 = β1 + β 2 xt−1 + ut−1 D.yt − ρyt−1 = β1 (1 − ρ ) + β 2 (xt − ρxt−1 ) + ut − ρut−1
21、在 DW 检验中要求有假定条件,在下列条件中不正确的是____
A.解释变量为非随机的
B.随机误差项为一阶自回归形式
C.线性回归模型中不应含有滞后内生变量为解释变量 D.线性回归模型为一元回归形式
A.经济本变量大多存在共同变化趋势
B.模型中大量采用滞后变量
C.由于认识上的局限使得选择变量不当
D.解释变量与随机误差项相关
38、多重共线性的程度越____,参数估计值越____
A.严重 能确定
自相关异方差多重共线性
也就是说,DW值越接近于2,u的自相关 性越小;DW值越接近于零,u正自相关程度 越高;DW值越接近于4,u负自相关程度越 高。
• c.DW统计量的使用
⑴ 当DW<dL时, 拒绝原假设H0:ρ=0;接受备 择假设H1:ρ≠0,u存在一阶正自相关。 ⑵ 当DW>(4- dL)时,拒绝原假设 H0:ρ=0 ;接 受备择假设H1:ρ≠0,u存在一阶负自相关。 ⑶ 当dU<DW<(4-dU)时,接受原假设H0:ρ=0, 不存在自相关。 ⑷ 当dL<DW<dU 或 (4-dU)<DW<(4-dL)时, 则这种检验没有结果,即u是否存在自相关, 不能确定。
t
对于原假设
H0 : 1 2
p 0
(不存在p阶自相关)。BG检验步骤如下: 1. 用OLS估计样本回归方程,求出残差et 。 2. 作辅助回归,并计算回归方程的R2。
et 0 1x1t k xkt 1ut 1 2ut 2 put p vt
得:
ˆ xt 1 , (t 2, xt* xt
,T )
yt* a0 1 xt* vt
ˆ ˆ0 , a 1
应用OLS,求得a0, 1的估计值 到: ˆ0 a ˆ
0
ˆ 1
,进而得
杜宾二步法存在两个问题: 一、所得参数估计值的精度依赖于的估计值的精确 度;
E(v|ut-1)=0, Var(v|ut-1)=σ2, Cov(vt ,vt+s)=0 s≠0
• 检验随机误差项是否具有AR(1)形式的思路:
首先,通过构造样本回归方程,计算出残差et ; 然后,计算自回归系数ρ的OLS估计值 :
(e e )(e ˆ (e e
第六章多重共线性
第六章多重共线性第六章多重共线性前面两章所讲的异方差性和自相关性都是表现在随机误差项中的,我们下面所讲的多重共线性讨论的是模型中的解释变量违背基本假设的问题。
回忆以下我们在讲多元线性回归模型时,基本假定与简单线性回归模型不同的是哪一点?——就是无多重共线性假定:即假定各解释变量之间不存在线性关系,或者说各解释变量的观测值之间线性无关。
这一章我们讨论的多重共线性就是当解释变量违背了这一条基本假定的情形。
第一节多重共线性概念先看一个实例:我们研究某个地区家庭消费及其影响因素。
我们除了引入收入X1以外,还引入了消费者的家庭财产X2作为第2个解释变量。
根据抽样数据回归得到以下结果:Y^=24.7747+0.9415X1-0.0424X2t=(3.6690) (1.1442) (-0.5261)R2=0.9635 R2——=0.9531 F=92.4020这一回归结果说明什么?1、可决系数和修正可决系数都很理想2、F统计量高度显著,说明X1、X2联合对Y的影响显著3、各变量参数的t检验都不显著,不能否定等于零的假设4、财产变量的系数竟然与预期的符号相反。
为什么会出现这样的结果呢?再看一个例子:分析某地区汽车保养费用支出与汽车的行程数以及汽车拥有的时间建立模型,通过样本数据估计得:Y^=7.29+27.58X1-151.15X2t= (0.06) (0.958) (-7.06)R2——=0.946 F=52.53这个结果修正可决系数理想,F检验也显著,但X的T检验不显著,X2的T检验虽然显著,但系数符号与经济意义不符。
为什么也出现这种结果?一、多重共线性的概念:如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。
完全共线性与不完全共线性表示的是一种线性相关程度。
比如我们在第一个例子中,发现可支配收入与家庭财富之间有明显的共线性关系,他们的相关系数高达0.9989,第二个例子中汽车的行程数与拥有汽车的时间的相关系数也为0.9960,表明两个变量之间存在一种不完全的线性相关关系,我们可以认为他们之间有程度很高的多重共线性.不存在多重共线性只说明解释变量之间没有线性关系,而不排除他们之间存在某种非线性关系。
第五讲 多重共线性、异方差、自相关
3、第三类方法:减小参数估计量的方差 、第三类方法: 多重共线性的主要后果是参数估计量具有较大的 多重共线性的主要后果是参数估计量具有较大的 的主要后果 方差, 方差,所以 采取适当方法减小参数估计量的方差, 采取适当方法减小参数估计量的方差,虽然没有 消除模型中的多重共线性, 消除模型中的多重共线性,但确能消除多重共线性 造成的后果。 造成的后果。 例如: 例如: 增加样本容量可使参数估计量的方差减小。 增加样本容量可使参数估计量的方差减小。
另一等价的检验是: 另一等价的检验是
在模型中排除某一个解释变量 X j,估计模 型; 如果拟合优度与包含X 时十分接近, 如果拟合优度与包含 j时十分接近,则说 与其它解释变量之间存在共线性。 明X j与其它解释变量之间存在共线性。
(2)逐步回归法 逐步回归法
为被解释变量, 以Y为被解释变量,逐个引入解释变量,构 为被解释变量 逐个引入解释变量, 成回归模型,进行模型估计。 成回归模型,进行模型估计。 根据拟合优度的变化决定新引入的变量是否 独立。 独立。 如果拟合优度变化显著,则说明新引入的变 如果拟合优度变化显著, 量是一个独立解释变量; 量是一个独立解释变量; 如果拟合优度变化很不显著, 如果拟合优度变化很不显著,则说明新引入 的变量与其它变量之间存在共线性关系。 的变量与其它变量之间存在共线性关系。
X 不存在, 如果存在完全共线性, 如果存在完全共线性,则 ( X ′ ) 不存在,无法得 完全共线性 到参数的估计量。 到参数的估计量。
−1
例:对离差形式的二元回归模型
y = β 1 x1 + β 2 x 2 + µ
如果两个解释变量完全相关, 如果两个解释变量完全相关,如x2= λx1,则
y = (β1 + λβ2 )x1 + µ
违背模型基本假设
注意:由于完全符合理论模型所要求的样本数
据较难收集,特定样本可能存在某种程度的多重共 线性。在多元线性回归模型中我们关心的不是多重 共线性是否存在的问题,而是其多重共线性程度的 问题。因为在现实的经济问题中变量之间完全不相
关的现象很少见,大多数变量之间或多或少都有一
些相关性。 一般经验:时间序列数据样本:简单线性模型, 往往存在多重共线性。 截面数据样本:问题不那么严重,但多重共线
4.E+11 GD P 3.E+11
4.E+11 GDP 3.E+11
2.E+11
2.E+11
1.E+11
1.E+11
0.E+00 80 82 84 86 88 90 92 94 96 98 00 02
GDP(-1) 0.E+00 0.E+00 1.E+11 2.E+11 3.E+11
15
4.E+11
3
[内容] 共分4节: §4.1 多重共线性
§4.2
§4.3
异方差性
模型
讨论违背基本假定的多元线性回归模型的建模 问题(参数的估计、统计检验)。
4
[要求]1、理解多重共线性、异方差性、自相关性、随 机解释变量的基本概念; 2、理解违背基本假定的各种情形产生的原因及 (利用OLS法估计的)后果; 3、掌握估计各种违背基本假定的多元线性回归 模型的常用估计方法; 4、掌握检验模型是否违背基本假定的常用检验 方法。
2
建立违背基本假定回归模型存在的基本问题: OLS法是否还适用?所得参数的OLS估计
量是否还具有优良的统计性质?变量显著性t
检验和方程显著性F检验还有效吗? 如果OLS法失效,有哪些补救措施? 如何检验模型是否违背基本假定条件? 本章主要讨论不满足基本假定中的某一条, 而其余假定条件均成立时,多元线性回归模型参 数的有效估计和检验问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xβ+ε2.Rank(X)=K3.ε|X~N(0,σ2I)1 / 51§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得a1x1+…+a K x K=0即X的列向量之间存在线性相关。
因此,有Rank(X)<K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。
也即违背了基本假设2。
例子:C=β1+β2nonlabor income + β3salary +β4income + ε2 / 513 / 514 / 512)近似共线性 常见为近似共线性,即a 1x 1+…+a K x K ≈0则有|X’X|≈0,那么(X’X)-1对角线元素较大。
由于21|[,(')]b X N X X βσ- , 21|[,(')]k k kk b X N X X βσ- ,所以b k 的方差将较大。
例子:Longley 是著名例子。
5 / 516 / 512、检验方法1)VIF 法(方差膨胀因子法,variance inflation factor )第j 个解释变量的VIF 定义为21VIF 1j jR =- 此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。
若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之间存在线性关系。
从而,可以用VIF 来度量多重共线性的严重程度。
当2j R 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。
K个解释变量,就有K个VIF。
可以计算K个VIF的平均值。
若大于10,认为存在比较严重的多重共线性。
VIF方法直观,但是Eviews不能直接计算VIF的数值。
需要逐个进行回归,较为麻烦。
7 / 512)相关系数矩阵例子:对于longley数据。
在Eviews中,quick/group statistics/correlations,输入te year gnpd gnp arm,得到TE YEAR GNPD GNP ARM TE 1.000000 0.971329 0.970899 0.983552 0.457307 YEAR 0.971329 1.000000 0.991149 0.995273 0.417245 GNPD 0.970899 0.991149 1.000000 0.991589 0.464744 GNP 0.983552 0.995273 0.991589 1.000000 0.446437 ARM 0.457307 0.417245 0.464744 0.446437 1.0000008 / 51相关系数矩阵的第一列给出了被解释变量与每一个解释变量之间的相关系数;度量了每一个解释变量对被解释变量的个别影响。
除ARM之外,解释变量与被解释变量之间的相关系数都很大。
但是,从剩下的相关系数矩阵可以看到,变量之间的相关系数也很大。
表明变量之间存在严重的多重共线性。
9 / 513)条件数(condition number)首先计算X’X的最大和最小特征根,然后计算如下条件数若大于20,则认为存在多重共线性。
10 / 513、处理方法1)剔除法(推荐此方法)方法:设法找出引起多重共线性的解释变量,并将之剔除在回归方程之外。
准则1:逐个引入解释变量,根据R2的变化决定是否引入新的解释变量。
如果R2变化显著,那么应该引入,反之不引入。
准则2:剔除VIF最大的解释变量和不显著的解释变量。
请试着计算每个解释变量的VIF值。
11 / 5112 / 512)岭回归(ridge regression estimator )回忆对于多元线性回归方程y X βε=+,系数β的LS 估计是1(')'b X X X y -=岭回归估计就是计算1(')'r b X X rD X y -=+此处D 是一个对角矩阵,定义为('),0,ii ii X X i j D i j=⎧=⎨≠⎩ 具体操作:一般选取r 从0.01开始,逐步增加,每次都计算r b ,一直到b稳定不变为止。
r此方法的优点:在matlab环境下,使用矩阵运算非常容易计算。
缺点:一方面,Eviews不带此功能;另外一方面,缺乏对估计结果的解释的直观含义(b是什么东西?)。
r13 / 5114 / 513)主成分方法(principal components )首先,计算对称矩阵X’X 的特征根和特征向量,(')X X C C =Λ此处12[,,...,]K C c c c =是特征向量矩阵1000000K λλ⎛⎫ ⎪Λ= ⎪ ⎪⎝⎭ 是特征根矩阵,其中特征根从大到小排列。
我们关心最大的前面L 个。
其次,计算Z XC =,即15 / 51,1,...,k k z Xc k L ==是新的数据列向量,作为新的解释变量。
最后,将y 对Z 进行回归,得到1(')'b Z Z Z y -=此方法并不难计算,但是问题仍然是很难解释估计结果。
16 / 51§2、异方差(heteroscedasticity )1、含义及影响y=X β+ε,var(εi )≠var(εj ), i ≠j ,E(ε)=0,或者记为212200['|]0000n E X σεεσσ⎛⎫ ⎪=Ω= ⎪ ⎪⎝⎭即违背假设3。
用LS 估计,所得b 是无偏的,但不是有效的。
111(')'(')'()(')'b X X X y X X X X X X X βεβε---==+=+17 / 51由于E(ε)=0,所以有E(b )=β。
即满足无偏性。
但是,b 的方差为1111121var(|)[()()'][(')''(')|] (')'['|](') (')'()(')b X E b b E X X X X X X X X X X E X X X X X X X X X X ββεεεεσ------=--===Ω其中212200['|]0000n E X σεεσσ⎛⎫ ⎪=Ω= ⎪ ⎪⎝⎭。
18 / 51 2、检验(White 检验)举例说明。
若回归方程为y=β0+β1x 1 + β2x 2 + ε使用残差和解释变量,建立如下辅助回归方程222011223142512e x x x x x x αααααα=+++++ (*)构造如下原假设H0:残差不存在异方差性直观上,若H0为真,那么会有什么?可以证明,若H0为真,则22~()nR m其中n为样本个数,R2为方程(*)的确定系数,m为除常数项外的回归系数的个数。
Eviews命令:view/residual tests/white heteroscedasticitystep1:双击数据文件production_function.wflstep2:输入ls log(x) c log(l1) log(k1),进行回归19 / 51step3:view/residual tests/white heteroscedasticity(no cross term)(当然也要试一下选择white heteroscedasticity(cross term)的输出结果),有White Heteroskedasticity Test:Obs*R-squared 5.090339 Probability 0.278153Test Equation:Dependent Variable: RESID^2Method: Least SquaresDate: 11/03/04 Time: 19:33Sample: 1929 1967Included observations: 39Variable Coefficient Std. Error t-Statistic Prob.20 / 51LOG(L1) 0.068532 0.215341 0.318251 0.7522(LOG(L1))^2 -0.005638 0.020636 -0.273236 0.7863LOG(K1) -0.024077 0.062504 -0.385210 0.7025(LOG(K1))^2 0.001880 0.006457 0.291181 0.7727 Adjusted R-squared 0.028230 S.D. dependent var 0.002170 S.E. of regression 0.002139 Akaike info criterion -9.337819 Sum squared resid 0.000156 Schwarz criterion -9.124542 Log likelihood 187.0875 F-statistic 1.275975 Durbin-Watson stat 1.899724 Prob(F-statistic) 0.298609再试一下具有交叉项的情形。
得到如下输出结果:21 / 51White Heteroskedasticity Test:Obs*R-squared 5.331424 Probability 0.376785 Test Equation:Dependent Variable: RESID^2Method: Least SquaresDate: 11/03/04 Time: 19:34Sample: 1929 1967Included observations: 39Variable Coefficient Std. Error t-Statistic Prob.LOG(L1) -0.054201 0.333444 -0.162549 0.8719 (LOG(L1))^2 0.025440 0.067254 0.378266 0.7077 (LOG(L1))*(LOG(K1)) -0.044198 0.090923 -0.486105 0.6301 LOG(K1) 0.075537 0.214453 0.352231 0.7269 (LOG(K1))^2 0.016259 0.030292 0.536741 0.5950R-squared 0.136703 Mean dependent var 0.001112 Adjusted R-squared 0.005901 S.D. dependent var 0.002170 S.E. of regression 0.002163 Akaike info criterion -9.293672 Sum squared resid 0.000154 Schwarz criterion -9.037740 Log likelihood 187.2266 F-statistic 1.045111 Durbin-Watson stat 1.997638 Prob(F-statistic) 0.40800423 / 513、处理方法两种方法:WLS:适用于异方差形式已知情形HAC:适用于异方差形式未知情形1)WLS方法(weighted least square,加权最小二乘法)WLS方法是GLS(generalized ls,广义最小二乘法)的特例。