管理统计学_异方差、自相关、多重共线性的检验
(整理)第5章、违背基本假设的问题:多重共线性、异方差和自相关
精品文档精品文档第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xβ+ε2.Rank(X)=K3.ε|X~N(0,σ2I)精品文档精品文档精品文档精品文档§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得a1x1+…+a K x K=0即X的列向量之间存在线性相关。
因此,有Rank(X)<K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。
也即违背了基本假设2。
精品文档例子:C=β1+β2nonlabor income + β3salary +β4income + ε精品文档精品文档精品文档2)近似共线性 常见为近似共线性,即a 1x 1+…+a K x K ≈0则有|X’X|≈0,那么(X’X)-1对角线元素较大。
由于21|[,(')]b X N X X βσ-, 21|[,(')]k k kk b XN X X βσ-,所以b k 的方差将较大。
例子:Longley 是著名例子。
精品文档精品文档精品文档精品文档2、检验方法1)VIF 法(方差膨胀因子法,variance inflation factor )第j 个解释变量的VIF 定义为21VIF 1j jR =- 此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。
若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之精品文档精品文档间存在线性关系。
从而,可以用VIF 来度量多重共线性的严重程度。
当2j R 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。
K 个解释变量,就有K 个VIF 。
可以计算K 个VIF 的平均值。
异方差自相关多重共线性上机实验报告
异方差检验与修正题目如下:由表中给出1985年我国北方几个省市农业总产值,农用化肥量、农用水利、农业劳动力、每日生产性固定生产原值以及农机动力数据,要求:(1) 试建立我国北方地区农业产出线性模型; (2) 选用适当的方法检验模型中是否存在异方差; (3) 如果存在异方差,采用适当的方法加以修正。
一、模型设定选择农业总产值为被解释变量Y ;选择农业劳动力、灌溉面积、化肥用量、户均固定、农机动力分别为解释变量1X 2X 3X 4X 5X 。
数据如下:地区 农业总产值 农业劳动力 灌溉面积 化肥用量 户均固定农机动力(亿元)(万人) (万公顷) (万吨) 资产(元) (万马力)北京 天津河北 1639 .0山西 内蒙古 辽宁 吉林 黑龙江 山东 河南陕西 764新疆二、描述性统计view-discriptive stats-common sample 的结果:individual sample的结果:三、散点图为四、参数估计设定线性回归模型:Y=C+1β1X +2β2X +3β3X +4β4X +5β5X +μ利用EViews 统计软件估计模型的参数,其输出结果如表1: 根据表1中的数据,模型估计的结果为: Y= + + 12X2 - + - () () () () () () R 2= 2R = .= F=表 1五、检验1.拟合优度检验无论是可决系数还是调整后的可决系数均较大,表明该模型拟合地很好。
2.异方差检验对所估计的模型进行怀特检验。
输出结果如下表所示。
检验结论:在显著水平为的条件下,检验结果显示:本模型不具有异方差性.六、结论:该模型怀特检验的t值明显大于,因而是小概率事件,接受原假设,说明该模型不具有异方差性。
从其数据特征来看可能具有多重共线性。
多重共线性的检验题目如下:下表是国内旅游收入Y 及解释变量的时间序列观测值:年 份国内旅游收入Y (亿元) 国内旅游人数X2(万人次)城镇居民人均旅游支出X3 (元)农村居民人均旅游支出X4 (元)公路里 程 X5(万公里) 铁路里 程X6(万公里) 1994 52400 1995 62900 1996 63900 1997 64400 1998 69450 1999 71900 2000 74400 2001 78400 2002 87800 200387000请分析上述数据是否存在多重共线性,并完成修正。
管理统计学_异方差、自相关、多重共线性的检验
实验名称:多元回归模型的异方差、自相关性、多重共线性检验【实验内容】表4-7给出了我国1995-2007年名义服务产业产出(Y)、服务员就业人数(X1)、软件外包服务收入(X2)和技术进步知识(X3)的数据。
试完成:表4-7 我国1995-2007年名义服务业产出、服务员就业人数、软件外包服务收入和技术进步指数的数据年份名义服务业产出(亿元)服务员就业人数(万人)软件外包服务收入(亿美元)技术进步指数1995 19978.5 16880 0.09 1.0861996 23326.2 17927 0.08 1.0891997 26988.1 18432 0.11 1.0471998 30580.5 18860 0.14 1.0651999 33873.4 19205 0.58 1.0152000 38714 19823 1.06 0.9992001 44361.6 20228 1.8 1.0212002 49898.9 21090 3.26 1.1392003 56004.7 21809 4 0.7722004 64561.3 23011 6.33 1.342005 73432.9 23771 9.6 1.452006 84721.4 24614 14.3 1.582007 100053.5 24917 22.06 1.64(1)根据表4-7的数据建立多元回归模型,并进行估计。
(2)用White检验法对回归模型的随机干扰项进行异方差检验。
(3)用LM检验法回归模型的随机干扰项进行自相关检验。
(4)根据回归方程的结果判断各项系数是否通过了t检验,方程是否通过了F检验。
【实验步骤】(一)参数估计:打开EViews软件,输入数据,估计样本回归方程(操作方法同第二章案例的建立工作文件部分)如下图:根据上图,模型的估计的回归方程为:Y=-76769.99+6.0453X1+1631.505X2-6206.783X3 (0.199) (2.235) (31.487) (17.770)998.02=R 181.1617=F 括号内为t 统计量值。
第二次上机-多重共线、自相关、异方差例子的步骤及过程
案例七 多重共线性检验与修正估计1234123i i i i i CS GDP GDP GDP ββββµ=++++其中CS 表示广东省财政收入,GDP1、GDP2、GDP3分别表示广东省三个产业增加值。
广东省宏观经济数据(单位:亿元、万人、元、%)年份 财政收入 第一产业第二产业第三产业CS GDP1GDP2GDP3 1978 41.82 55.31 86.62 43.92 1979 36.25 66.62 91.65 51.06 1980 37.79 82.97 102.53 64.14 1981 41.01 94.30 120.34 75.71 1982 42.23 118.17 135.37 86.39 1983 44.29 121.24 152.27 95.24 1984 49.28 145.25 187.55 125.93 1985 69.27 171.87 229.82 175.69 1986 82.41 188.37 255.88 223.28 1987 95.88 232.14 330.35 284.20 1988 107.57 306.50 460.17 388.70 1989 136.87 351.73 554.13 475.53 1990 131.02 384.59 615.86 558.58 1991 177.35 416.00 782.67 694.63 1992 222.64 465.83 1100.32 881.39 1993 346.56 558.70 1704.88 1205.70 1994 298.70 692.25 2253.25 1673.52 1995 382.34 864.49 2900.22 2168.34 1996 479.45 935.24 3307.51 2592.22 1997 543.95 978.32 3704.39 3091.81 1998 640.75 994.55 4067.12 3469.21 1999 766.19 1009.01 4359.00 3882.66 2000 910.56 986.32 4999.51 4755.42 2001 1160.51 988.84 5506.06 5544.35 2002 1201.61 1015.08 6143.40 6343.94 2003 1315.52 1072.91 7592.78 7178.94 2004 1418.51 1219.84 9280.73 8364.05 20051807.201395.23 11339.939631.37Dependent Variable: CS Method: Least Squares Date: 06/10/09 Time: 00:41 Sample: 1978 2005 Included observations: 28Variable Coefficient Std. Error t-Statistic Prob. C 35.11563 16.65440 2.108489 0.0456 GDP1 0.028480 0.052746 0.539950 0.5942 GDP2 -0.048129 0.029830 -1.613485 0.1197 GDP30.2282070.0305297.4751300.0000 R-squared0.993321 Mean dependent var 449.5546 Adjusted R-squared 0.992486 S.D. dependent var 509.5465 S.E. of regression 44.17004 Akaike info criterion 10.54553 Sum squared resid 46823.81 Schwarz criterion 10.73585 Log likelihood -143.6375 F-statistic 1189.718 Durbin-Watson stat2.063433 Prob(F-statistic)0.000000Step1:直观分析估计结果表明拟合优度很高,但是参数的t检验不显著。
异方差性自相关性和多重共线性思考与练习
第二章异方差性、自相关性和多重共线性思考与练习参考答案2.1参考答案答:随机误差项方差随观察单位而变的现象为异方差。
影响:(1)尽管OLS估计仍无偏,但起方差不再有效(即最小方差性不具备),且模型误差项方差估计有偏.(2)t检验、F 检验失效,从而对参数、模型整体的显著性判断不可靠.(3)预测精度低,模型的应用失效.2.2参考答案答:G---Q检验原理:(1)假定随机误差项方差σ2t 与某一解释变量Xti成正(负)相关;(2)对样本观察值按Xi升序排列后去除中间的部分样本值;(3)分别以剩下的两部分样本值为子样,利用OLS法计算各自的方差估计值;(4)以两子样的方差估计值构造F统计量,判断两子样的方差是否差异显著。
若显著,则存在异方差;否则反之。
White检验原理:通过构造辅助回归模型e2t =β+tipiix∑=1β+tjpjitiijxx∑=1,β来判断零假设H0:①E(Ut)=2σ(t=1,2,3……N) ,并且②模型设定Y=XB+U正确若检验显著,则否定零假设,从而认为存在异方差或者模型设定错误;若检验不显著,则接受零假设。
White、Park和Glecses检验均使用辅助回归模型来探测住回归方程系数显著性检验来探测异方差性。
其间区别在于:Park和Glecses检验是通过辅助回归方程系数显著性来探测异方差;而White检验则是通过辅助回归方程整体显著性来检验探测主回归模型是否存在异方差性或者设定误差。
2.3参考答案答:WLS发实质上为模型变换法.考虑回归模型Y t =b 0+b 1x t +U t ,假设其存在异方差性并且Var(U t )=2t σ=K 2其中K 为常数,对远模型使用权数为W t =1/)/(t x t 的WLS 法进行估计时,实质上是对原模型作了变换,变换后的形式为:)(t tx f Y =)(0t x f b +)(1t tx f x b +)(t tx f v经过转换后,模型的异方差性被清除了。
多重共线性、异方差、自相关的检测与模型修正
多重共线性、异方差、自相关的检测与模型修正从《国家统计数据库》找到了自1978—2008年我国人均居民消费、人均国内生产总值、居民消费价格指数、前期人均居民消费、城镇居民人均可支配收入以及农村居民人均纯收入的官方数据。
以此来分析我国人均消费的影响因素以及它们具体是如何对消费产生影响的。
1978—2008年我国人均消费及其影响因素相关数据城镇居民农村居民人均居民人均国内居民消费前期人均年份人均可支人均纯收消费生产总值价格指数居民消费配收入入343 134 1978 184 381 100.7 165405 160 1979 208 419 101.9 184477 191 1980 238 463 107.5 208501 223 1981 264 492 102.5 238535 270 1982 288 528 102 264564 310 1983 316 583 102 288652 355 1984 361 695 102.7 316739 398 1985 446 858 109.3 361901 424 1986 497 963 106.5 4461002 463 1987 565 1112 107.3 4971180 545 1988 714 1366 111.8 5651373 602 1989 788 1519 118 7141510 686 1990 833 1644 103.1 7881701 709 1991 932 1893 103.4 8332027 784 1992 1116 2311 106.4 9322577 922 1993 1393 2998 114.7 11163496 1221 1994 1833 4044 124.1 13934283 1578 1995 2355 5046 117.1 18334839 1926 1996 2789 5846 108.3 23555160 2090 1997 3002 6420 102.8 27895425 2162 1998 3159 6796 99.2 30025854 2210 1999 3346 7159 98.6 31596280 2253 2000 3631 7858 100.4 33466859 2366 2001 3886 8622 100.7 36317703 2476 2002 4143 9398 99.2 38868472 2622 2003 4474 10542 101.2 41439422 2936 2004 5031 12336 103.9 447410493 3255 2005 5572 14053 101.8 503111759 3587 2006 6263 16165 101.5 557213786 4140 2007 7255 19524 104.8 626315781 4761 2008 8348 23648 105.9 7255来自《国家统计数据库》设定如下形式的计量经济模型1:=++++ Y,X,,,X,Xi33i24124其中,Y为人均居民消费 , X2为人均国内生产总值 , X3为居民消费价格指数 , X4为前期人均消费。
【推荐】stata基本操作汇总——异方差、自相关、多重共线性
【推荐】stata基本操作汇总——异方差、自相关、多重共线性前言:计量经济学服务中心为大家罗列汇总出了关于异方差、自相关、多重共线性相关的知识,推荐收藏。
●●●学术利剑Stata :论文中数据分析的一把利剑学术论文分析利剑 Stata的简介异方差Stata检查是否存在异方差的方法:1、看残差图,模型回归之后使用即可rvfplot(残差与拟合值的散点图)rvpplot(残差与解释变量的的散点图)2、White检验其基本命令是在完成基本的OLS 回归之后,输入imtest, white如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性3、BP(Breusch and Pagan,1979)检验关于stata处理异方差问题的命令基本命令是:estat hettest var1 var2 var3其中,var1 var2 var3 分别为你认为导致异方差性的几个自变量。
是你自己设定的一个滞后项数量。
同样,如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性。
estat hettest(默认设置使用拟合值y_hat)estat hettest(使用方程邮编的解释变量,而不是y_hat)estat hettest varlist(指定使用某些解释变量)解决办法方法一:WLSWLS是GLS(一般最小二乘法)的一种,也可以说在异方差情形下的GLS就是WLS。
在WLS下,我们设定扰动项的条件方差是某个解释变量子集的函数。
之所以被称为加权最小二乘法,是因为这个估计最小化的是残差的加权平方和,而上述函数的倒数恰为其权重。
在stata中实现WLS的方法如下:reg (被解释变量)(解释变量1)(解释变量2)…… [aweight=变量名]其中,aweight后面的变量就是权重,是我们设定的函数。
一种经常的设定是假设扰动项的条件方差是所有解释变量的某个线性组合的指数函数。
在stata中也可以方便地实现:首先做标准的OLS回归,并得到残差项;reg (被解释变量)(解释变量1)(解释变量2)……predict r, resid生成新变量logusq,并用它对所有解释变量做回归,得到这个回归的拟合值,再对这个拟合值求指数函数;gen logusq=ln(r^2)reg logusq (解释变量1) (解释变量2)……predict g, xbgen h=exp(g)最后以h作为权重做WLS回归;reg (被解释变量)(解释变量1)(解释变量2)…… [aweight=h]如果我们确切地知道扰动项的协方差矩阵的形式,那么GLS估计是最小方差线性无偏估计,是所有线性估计中最好的。
违背基本假设的问题:多重共线性异方差和自相关
第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xβ+ε2.Rank(X)=K3.ε|X~N(0,σ2I)1 / 51§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得a1x1+…+a K x K=0即X的列向量之间存在线性相关。
因此,有Rank(X)<K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。
也即违背了基本假设2。
例子:C=β1+β2nonlabor income + β3salary +β4income + ε2 / 513 / 514 / 512)近似共线性 常见为近似共线性,即a 1x 1+…+a K x K ≈0则有|X’X|≈0,那么(X’X)-1对角线元素较大。
由于21|[,(')]b X N X X βσ- , 21|[,(')]k k kk b X N X X βσ- ,所以b k 的方差将较大。
例子:Longley 是著名例子。
5 / 516 / 512、检验方法1)VIF 法(方差膨胀因子法,variance inflation factor )第j 个解释变量的VIF 定义为21VIF 1j jR =- 此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。
若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之间存在线性关系。
从而,可以用VIF 来度量多重共线性的严重程度。
当2j R 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。
K个解释变量,就有K个VIF。
可以计算K个VIF的平均值。
若大于10,认为存在比较严重的多重共线性。
VIF方法直观,但是Eviews不能直接计算VIF的数值。
第二部分 异方差性、多重共线性和自相关
Ch5 双变量回归的区间估计与假设检验 (Interval estimation and hypothesis test) 第三章的OLS 得到如下模型:1224.45450.5091i i iY X X ββ∧∧=+=+上述模型中(MPC)2β∧=0.5091,与2β的差距有多大?(虽然E(2β∧)=2β)。
寻找δ和α(0<α<1)使随机区间(2β∧-δ,2β∧+δ)包含2β的概率为1-α 一、区间估计我们是否能找到一个区间,使其包含真值。
22222()1(,)P βδββδαβδβδ∧∧∧∧-≤≤+=--+为置信区间*置信区间是随机的。
二、12ββ和的置信区间2β的置信区间:222~(,())N V a r βββ∧∧222~(0,1)()z N se ββσβ∧∧-==因σ未知,则:22222()tseββσβββσ∧∧∧∧--===~遵循自由度为n-2的t分布。
用t分布建立2β的置信区间22()1p t t tααα-≤≤=-给定α,可以确定一个临界值2tα,t在此区间[-2tα,2tα]的概率为1-α。
22222()1()p t tseααββαβ∧∧--≤≤=-2222222222(()())1100(1)()p t se t set seαααβββββαβαββ∧∧∧∧∧⇒-≤≤+=-⇒-±2的置信区间为:同理可推出1β的置信区间:112()t seαββ∧∧±注:置信区间宽度的决定因素:22()t se αβ∧(==)在支出一收入一例中220.5091,()0.0357,8.5%se df ββα∧∧====取22.306t α=则;2(0.5091 2.3060.03570.5091 2.3060.0357)15%p β-⨯≤≤+⨯=-2(0.42680.5914)95%p β≤≤=解释:从长远看,在类似于(0.4268,0.5914)的每100个区间,将有95个包含真实的2β值。
第五讲-多重共线性、异方差、自相关
根据理论和经验分析,影响粮食生产(Y)的 主要因素有:
农业化肥施用量(X1);粮食播种面积(X2)
成灾面积(X3);
农业机械总动力(X4);
农业劳动力(X5)
已知中国粮食生产的相关数据,建立中国粮食 生产函数:
Y=0+1 X1 +2 X2 +3 X3 +4 X4 +5 X5 +
调用数据库E:\博士计量课程软件应用\multi
y (1 2 )x1
这时,只能确定综合参数1+2的估计值:
一个方程确定两个未知数,有无穷多个解。
2、近似共线性下OLS估计量非有效
近似共线性下,可以得到OLS参数估计量, 但参数估计量方差的表达式为 Cov(βˆ ) 2 (XX)1
由于(X X )1 0 ,引起主对角线元素 (X X )1较大, 使参数估计值的方差增大,OLS参数估计量非有 效。
X2 0.01
1.00 -0.45 -0.04 0.18
X3 0.64 -0.45 1.00 0.69 0.36
X4 0.96 -0.04 0.69 1.00 0.45
X5 0.55
0.18 0.36 0.45 1.00
❖ 发现: X1与X4间存在高度相关性。
3、找出最简单的回归形式
分别作Y与X1, X3 ,X2,X4,X5间的回归:
C
X1 X2 X3
X4
X5 R 2
DW
Y=f(X1)
30868 4.23
0.8852 1.56
t值
25.58 11.49
Y=f(X1,X2)
-43871 4.65 0.67
0.9558 2.01
t值
第5章、违背基本假设的问题:多重共线性、异方差和自相关
第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xβ+ε2.Rank(X)=K3.ε|X~N(0,σ2I)§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得a1x1+…+a K x K=0即X的列向量之间存在线性相关。
因此,有Rank(X)<K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。
也即违背了基本假设2。
例子:C=β1+β2nonlabor income + β3salary +β4income + ε2)近似共线性常见为近似共线性,即a 1x 1+…+a K x K ≈0 则有|X’X|≈0,那么(X’X)-1对角线元素较大。
由于21|[,(')]b X N X X βσ- , 21|[,(')]k k kkb X N X X βσ- ,所以b k 的方差将较大。
例子:Longley 是著名例子。
2、检验方法1)VIF 法(方差膨胀因子法,variance inflation factor )第j 个解释变量的VIF 定义为21V IF 1j jR=-此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。
若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之间存在线性关系。
从而,可以用VIF 来度量多重共线性的严重程度。
当2jR 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。
K 个解释变量,就有K 个VIF 。
可以计算K 个VIF 的平均值。
若大于10,认为存在比较严重的多重共线性。
VIF方法直观,但是Eviews不能直接计算VIF的数值。
需要逐个进行回归,较为麻烦。
如何应付异方差、自相关、多重共线性
异方差:(Heteroscedasticity)一如何检测?①假设我们做一个回归,求出β1、β2、β3,然后返回求出序列{Ut},现在要检测{Ut}是不是异方差的。
②设立辅助方程:既然假设是异方差,那么我们就假设{Ut}与X存在某种关系,这种关系比较复杂,只要我们证明α1、α2、α3……不为0,即可③构建新的统计量:T·R2,先人曾经证明过其服从 卡方(m)分布。
④最后将算出来的T·R2值与卡方分布的临界值比较,……。
二、如何应对?①如果异方差的形式已知,我们可以通过GLS(广义二乘法)来处理:举例说明:②如果异方差的形式未知自相关:(Autocorrelation)一如何检测?我们直接可以看DW值,注意这个ρ值is the残差项之间的estimated correlation coefficient.也可以用另外一种方法:二如何应对?①如果自相关的形式已知•If the form of the autocorrelation is known, we could use a GLS procedureBut such procedures that “correct” for autocorrelation require assumptions about the form of the autocorrelation.②未知:构建动态模型,如:三多重共线性:(Multicollinearity)①如何检测:look at the matrix of correlations between the individual variables.另外:R2 will be high but the individual coefficients will have high standard errors也可能存在多重共线性。
②如何解决:。
异方差、自相关、多重共线性比较(计量经济学)
方差扩大(膨胀)因子检验
多元线性回归模型,构造辅助回归。方差扩大因子VIF=1/(1-R^2),它的大小反映了解释变量之间是否存在多重共线性。VIF越大,多重共线性越严重。
2.构造子样本区间,建立回归模型。在sample菜单里定义区间,然后用OLS方法回归,分别得到残差平方和 和 。
3.求F统计量值。F
4.判断。比较F与
的大小,判断模型是否存在异方差。
White检验
基本思想:
如果存在异方差,其方差δ^2与解释变量有关系,分析δ^2是否与解释变量有某些形式的联系以判断异方差。
2.导入数据(quick/empty group);
3.做回归(quick/estimate eqation ),输入y c x.
4.观察DW值。
1.DW值落在两个不能确定的区域就不能判断。此时增大样本容量或选取其他方法。
2.DW统计量的高阶序列相关的检验。
其他
BG检验
基于所分析模型普通最小二乘估计的残差贵解释变量和一定数量滞后残差的辅助回归,如果滞后残差足以解释当前残差的差异,就拒绝误差项无自相关的原假设。
1.用OLS估计原模型式,并得到残差e.
2.用残差e对解释变量X及滞后残差e(-1)做辅助回归。
3.计算辅助回归的可决系数R^2,构建统计量LM=TR^2。LM=TR^2~χ²
2.Quick/graph,在series list对话框中输入“e(-1) e”,选择scatter’,得到e(-1)与e的散点图。
方法二:1.用OLS估计Resid→e。
多重共线性、异方差及自相关的检验和修正
计量经济学实验报告多重共线性、异方差及自相关的检验和修正——以财政收入模型为例经济学 1班一、引言财政收入是一国政府实现政府职能的基本保障,对国民经济的运行及社会的发展起着非凡的作用。
首先,它是一个国家各项收入得以实现的物质保证。
一个国家财政收入规模的大小通常是衡量其经济实力的重要标志。
其次,财政收入是国家对经济实行宏观调控的重要经济杠杆。
财政收入的增长情况关系着一个国家的经济的发展和社会的进步。
因此,研究财政收入的增长显得尤为重要。
二、数据及模型说明研究财政收入的影响因素离不开一些基本的经济变量。
回归变量的选择是建立回归模型的一个极为重要的问题。
如果遗漏了某些重要变量,回归方程的效果肯定不会好;而考虑过多的变量,不仅计算量增大许多,而且得到的回归方程稳定性也很差,直接影响到回归方程的应用。
通过经济理论对财政收入的解释以及对实践的观察,对财政收入影响的因素主要有农业增加值、工业增加值、建筑业增加值、总人口数、最终消费、受灾面积等等。
全部数据均来源于中华人民共和国国家统计局网站/具体数据见附录一。
为分析被解释变量财政收入(Y)和解释变量农业增加值(X1)、工业增加值(X2)、建筑业增加值(X3)、总人口(X4)、最终消费(X5)、受灾面积(X6)的关系。
作如下线性图(图1)。
图1可以看出Y、X1、X2、X3、X5基本都呈逐年增长的趋势,仅增长速率有所变动,而X4和X6在多数年份呈现水平波动,可能这两个自变量和因变量间不一定是线性关系。
可以初步建立回归模型如下:Y=α+β1*X1+β2*X2+β3*X3+β4*X4 +β5*X5+β6*X6 +U i 其中,U i为随机干扰项。
三、模型的检验及验证(一)多重共线性检验及修正利用Eviews5.0,做Y对X1、X2、X3、X4、X5和X6的回归,Eviews的最小二乘估计的回归结果如下表(表1)所示:表1Dependent Variable: YMethod: Least SquaresDate: 11/16/13 Time: 20:54Sample: 1990 2011Included observations: 22Variable Coefficient Std. Error t-Statistic Prob.C 145188.0 26652.27 5.447488 0.0001X1 -0.972478 0.222703 -4.366701 0.0006X2 0.210089 0.068192 3.080851 0.0076X3 -0.100412 0.569465 -0.176327 0.8624X4 -1.268320 0.247725 -5.119870 0.0001X5 0.600205 0.130089 4.613794 0.0003X6 -0.007430 0.044233 -0.167964 0.8689R-squared 0.999306 Mean dependent var 27186.86Adjusted R-squared 0.999029 S.D. dependent var 28848.33S.E. of regression 899.0866 Akaike info criterion 16.69401Sum squared resid 12125351 Schwarz criterion 17.04116Log likelihood -176.6341 F-statistic 3600.848Durbin-Watson stat 1.825260 Prob(F-statistic) 0.000000 由上表的回归结果可见,,该模型可决系数R2=0.9993很高,F检验值3601,明显显著。
自相关异方差多重共线性
也就是说,DW值越接近于2,u的自相关 性越小;DW值越接近于零,u正自相关程度 越高;DW值越接近于4,u负自相关程度越 高。
• c.DW统计量的使用
⑴ 当DW<dL时, 拒绝原假设H0:ρ=0;接受备 择假设H1:ρ≠0,u存在一阶正自相关。 ⑵ 当DW>(4- dL)时,拒绝原假设 H0:ρ=0 ;接 受备择假设H1:ρ≠0,u存在一阶负自相关。 ⑶ 当dU<DW<(4-dU)时,接受原假设H0:ρ=0, 不存在自相关。 ⑷ 当dL<DW<dU 或 (4-dU)<DW<(4-dL)时, 则这种检验没有结果,即u是否存在自相关, 不能确定。
t
对于原假设
H0 : 1 2
p 0
(不存在p阶自相关)。BG检验步骤如下: 1. 用OLS估计样本回归方程,求出残差et 。 2. 作辅助回归,并计算回归方程的R2。
et 0 1x1t k xkt 1ut 1 2ut 2 put p vt
得:
ˆ xt 1 , (t 2, xt* xt
,T )
yt* a0 1 xt* vt
ˆ ˆ0 , a 1
应用OLS,求得a0, 1的估计值 到: ˆ0 a ˆ
0
ˆ 1
,进而得
杜宾二步法存在两个问题: 一、所得参数估计值的精度依赖于的估计值的精确 度;
E(v|ut-1)=0, Var(v|ut-1)=σ2, Cov(vt ,vt+s)=0 s≠0
• 检验随机误差项是否具有AR(1)形式的思路:
首先,通过构造样本回归方程,计算出残差et ; 然后,计算自回归系数ρ的OLS估计值 :
(e e )(e ˆ (e e
异方差多重共线性自相关的总结
t t t X Y e
21)3(Λ
Λ--=ββ
(5)利用残差作回归得)
3(t e =t t v e +-31)
2(ρ
依此类推,直到得到ρ的最佳估计值
E views 操作:如图,在估计方程对话框中加入AR(p),
即可得到参数 1ρ 2ρ等的估计值。
如果是一阶自相关,就在方程对话框中加入AR(1),如果是二阶自相关,就在方程对话框中加入AR(1) 、AR(2),以此类推。
注意
当对时间序列的自相关进行修正后,经常出现变量的显著性检验不能通过的情况。
其主要原因包括以下项:样本不够、同时存在异方差和多重共线性等、解释变量未能包含所有影响被解释变量的因素等,以及时间序列数据有其自身的特点,经常出现伪回归现象。
相应的处理方法:扩大样本、检验异方差、修改模型、进行单位根检验→建立协整方程。
多重共线性 异方差 内生性 自相关总结对照表
1.模型中省略的解释变量。 2. 测量误差。 3、截面数据中总体各单位的差 异。 4、模型函数形式设定错误。 5、异常观测
1、遗漏变量 2、测量误差 3、错误的函数形式 4、联立性
后果
近似多重共线性并不违反回归假定。 无 偏的、有效的、一致的参数估计量仍可 以得出,其标准误也仍将被正确估计。 1、估计结果不好解释 2、参数估计值的方差增大 3、参数估计的置信区间变大 4、假设检验容易作出错误的判断
i
自相关 Xt 与 xt-j 相关。 Cov(ut , us)≠0。 即 u 在不同观测 点下的取值相关连,则 称随机误差项 u 存在v 0
原因
1.经济变量之间具有共同变化趋势。 2.变量之间存在经济联系。 3.模型中包含滞后变量。 4、样本数据自身原因。
处理
一、增加样本观测值 二、删去不重要的解释变量 三、利用“先验”信息 四、变量变换 五、变换模型的形式 六、逐步回归法
一、加权最小二乘法 二、怀特异方差-稳健程序。 三、解释变量的代数变换
检验
一、直观判断法 1、散点图法。 2、简单相关系数法。 3.经验判断法。 4.“经典”判断法。 5. Klein 判别法。 二、辅助回归法 vif 三、特征值与病态指数 四、法勒—格劳伯(Farrar—Glauber) 检验
1、最小二乘估计量仍然是线性 无偏的与一致的,但不再 具有最小方差性。 2、 随机项 ui 的方差的估计量 6u 有偏。 3、参数方差的估计量有偏 var(Bj)是有偏的、不一致。标 准误差 se 有偏。 4、预测精度降低 一、图示法 二、斯皮尔曼等级(秩)相关检 验 三、戈德菲尔德-匡特检验 四、帕克检验 五、戈里瑟检验 六、怀特检验 七、布殊-帕甘检验
1、影响无偏性 2、影响一致性 3、其它影响 ˆ ) E( j j 随机误差项的方差估计量 是有偏的,假设检验、区 2、最小二乘估计量的方 间估计容易导出错误的结 差估计是有偏的。 论。 3. 因 变 量 的 预 测 精 度 降低。 一、RESET 检验 二、豪斯曼检验 一、图示检验法 二、解释变量严格外生 条件下,误差项一阶自 相关检验。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验名称:多元回归模型的异方差、自相关性、多重共线性检验
【实验内容】
表4-7给出了我国1995-2007年名义服务产业产出(Y)、服务员就业人数(X1)、软件外包服务收入(X2)和技术进步知识(X3)的数据。
试完成:
表4-7 我国1995-2007年名义服务业产出、服务员就业人数、软件外包服务收入和技术进步指数的数据
年份名义服务业产出
(亿元)
服务员就业人数
(万人)
软件外包服务收
入(亿美元)
技术进步指数
1995 19978.5 16880 0.09 1.086
1996 23326.2 17927 0.08 1.089
1997 26988.1 18432 0.11 1.047
1998 30580.5 18860 0.14 1.065
1999 33873.4 19205 0.58 1.015
2000 38714 19823 1.06 0.999
2001 44361.6 20228 1.8 1.021
2002 49898.9 21090 3.26 1.139
2003 56004.7 21809 4 0.772
2004 64561.3 23011 6.33 1.34
2005 73432.9 23771 9.6 1.45
2006 84721.4 24614 14.3 1.58
2007 100053.5 24917 22.06 1.64
(1)根据表4-7的数据建立多元回归模型,并进行估计。
(2)用White检验法对回归模型的随机干扰项进行异方差检验。
(3)用LM检验法回归模型的随机干扰项进行自相关检验。
(4)根据回归方程的结果判断各项系数是否通过了t检验,方程是否通过了F检验。
【实验步骤】
(一)参数估计:
打开EViews软件,输入数据,估计样本回归方程(操作方法同第二章案例的建立工作文件部分)如下图:
根据上图,模型的估计的回归方程为:
Y=-76769.99+6.0453X1+1631.505X2-6206.783X3 (0.199) (2.235) (31.487) (17.770)
998.02=R 181.1617=F 括号内为t 统计量值。
(二)检验异方差性: (1)图形检验分析:
1. 散点图:在EViews 命令窗口中输入:SCAT X1 Y ,得到名义服务业产出(Y )和服务员就业人数(X1)的散点图。
从图中可以看出,随着名义服务业产出(Y )的增加,服务员就业人数(X1)也不断提高,而离散程度几乎没有变化。
这说明变量之间不存在异方差性。
同样地,也用散点图法检验X2,得到下图:
从图中可以看出,随着名义服务业产出(Y )的增加,软件外包服务收入(X2)也不断提高,而离散程度几乎没有变化。
这说明变量之间不存在异方差性。
检验X3得到下图:
从图中可以看出,随着名义服务业产出(Y)的增加,技术进步指数也不断提高,而离散程度几乎没有变化。
这说明变量之间不存在异方差性。
2、残差检验法:
在命令窗口输入:line resid,得到如下图的模型残差分布图
上图显示回归方程的残差分布有明显的缩小的趋势,即表明不存在异方差性。
3、White检验法:
(1)建立回归模型:ls y c x1 x2 x3,回归结果如最上面的图所示,
(2) 在方程窗口上以此点击View\Residual\Test\White Heteroskedastcity,检验结果如下图:
其中F 值为辅助回归模型的F 统计量值。
取显著水平
05
.0=α,由于
9073.116.919)9(20.052=>=nR χ,所以不存在异方差性。
实际应用中可以直接观察相伴概
率p 值的大小,在显著水平05.0=α的条件下,若p 值小于0.05,则认为存在异方差性。
反之,则认为不存在异方差性。
4、Park 检验:
1. 建立回归模型。
2. 生成新变量序列残差平方的对数:在命令窗口分别输入GENR LNE2=log(RESID^2)。
3. 建立新残差序列对解释变量的回归模型:LS LNE2 C X1 X2 X3,回归结果如图3-10所示。
从上图所示的回归结果中的p 值可以直接看出,X 的系数估计值在显著水平05.0=α的条件下,显著为0,即随机干扰项的方差与解释变量不存在较强的相关关系,即认为不存在异方差性。
由于Gleiser 检验与Park 检验原理相同,在此略去。
三、自相关性检验:
模型的估计的回归方程为:
Y=-76769.99+6.0453X1+1631.505X2-6206.783X3 se=(6477.589) (0.290) (149.751) (2744.556) t = (0.199) (2.235) (31.487) (17.770)
998.02=R 181.1617=F DW=1.6205 (一)DW 检验
由于样本容量小于15,所以该检验法不适合使用。
(二)BG 检验
在方程窗口中点击View/Residual Test/Serial Correlation LM Test ,选择滞后期为2,输出结果如下图。
可得16.919)9(11534.0008872.0*1305.022=<==χnR ,相伴概率(即p 值)为0.5618,因此在显著性水平0.05α=的条件下,接受无自相关的原假设,即随机干扰项不存在自相关。
(4)模型检验: 1、经济意义检验:
模型估计结果说明,在假定其他变量不变的情况下,当服务就业人数每增长1万人,名义服务业产出就会增加6.0453亿美元;在假定其他变量不变的情况下,当软件外包服务收入每增长1亿美元,国债发行总量就会增加1631.505亿美元;在假定其他变量不变的情况下,当技术进步指数每增长1,国债发行总量就会增加-6206.783亿美元;服务就业人数、软件外包服务收入与名义服务业产出均为正相关,这与理论分析及经验判断相一致。
但技术进步指数与名义服务业产出为负相关,这与理论分析及经验判断不一致。
说明该模型可能存在多重共线性。
2、t 检验: 分别针对
0H :
)
3,2,1(0==j j β,给定显著性水平α=0.05,查t 分布表得自由度为13-3-1=9,
临界值2622.2)9(025.0=t 。
)
3,2,1(==j t j 对应的t 统计量分别为2.435、31.487、17.770。
,
其绝对值均大于临界值2.2622,所以均通过了显著性检验。
3、F 检验:
针对
0H :
321===βββ,给定显著性水平05.0=α,在F 分布表中查出自由度为3和9
的临界值68.3)9,3(05.0=F 。
由于F=1617.181>3.86,应拒绝原假设
H ,说明回归方程显著,
即服务员就业人数(X1)、软件外包服务收入(X2)、技术进步指数(X3)对名义服务业产出有显著影响。
(5)多重共线性检验: 计算各解释变量的系数,选择X1,X2,X3的数据,点“View/covariance analysis ”,勾选correlation 得相关系数矩阵,如下图所示:
由相关系数矩阵可以看出,个解释变量之间存在较高的相关系数,由此证实存在较严重的多重共线性。
(6)多重共线性的修正:
①采用逐步回归的办法,去检验和解决多重共线性问题。
分别作Y 对X1、X2、X3的一元回变量 X1 X2 X3 参数估计值 9.297 3514.690 76854.93 t 统计量 17.409 10.232 4.161 2
R
0.965
0.905
0.611 修正后的2
R
0.962
0.896
0.576
F 统计值
303.065
104.685
17.312
按2
R 的大小排序为:X1、X2、X3。
②以X1为基础,顺次加入其他变量逐步回归。
首先加入X2回归结果为:
Y=-84355.98+6.112X1+1408.58X2 t=(-12.81) (17.82) (10.52) R=0.997 F=1716.85
X2的系数为正,合理,而且Prob=0,显著,所以予以保留。
③加入X3,以X1,X2,X3作为解释变量,得到回归结果为:
Y=-76769.99+6.0453X1+1631.505X2-6206.783X3 t = (0.199) (2.235) (31.487) (17.770)
998.02=R 181.1617=F
可以发现X3的系数估计值为负,不合理,予以剔除。
那么,消除共线性后的最终模型为:
Y=-84355.98+6.112X1+1408.58X2
t=(-12.81) (17.82) (10.52)
R=0.997 F=1716.85
最后,从此模型中可以看出,服务员就业人数和软件外包服务收入对服务业产出有显著影响。