使用eviews做线性回归方程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Glossa ry:
ls(leastsquare s)最小二乘法
R-sequar ed样本决定系数(R2):值为0-1,越接近1表示拟合越好,>0.8认为可以接受,但是R2随因变量的增多而增大,解决这个问题使用来调整
Adjust R-seqaur ed()
S.E of regres sion回归标准误差
Log likeli hood对数似然比:残差越小,L值越大,越大说明模型越正确
Durbin-Watson stat:DW统计量,0-4之间
Mean depend ent var因变量的均值
S.D. depend ent var因变量的标准差
Akaike info criter ion赤池信息量(AIC)(越小说明模型越精确)Schwar z ctiter ion:施瓦兹信息量(SC)(越小说明模型越精确)Prob(F-statis tic)相伴概率
fitted(拟合值)
线性回归的基本假设:
1.自变量之间不相关
2.随机误差相互独立,且服从期望为0,标准差为σ的正态分布
3.样本个数多于参数个数
建模方法:
ls y c x1 x2 x3 ...
x1 x2 x3的选择先做各序列之间的简单相关系数计算,选择同因变量相关系数大而自变量相关系数小的一些变量。
模型的实际业务含义也有指导意义,比如m1同g d p肯定是相关的。
模型的建立是简单的,复杂的是模型的检验、评价和之后的调整、择优。
模型检验:
1)方程显著性检验(F检验):模型拟合样本的效果,即选择的所有自变量对因变量的解释力度
F大于临界值则说明拒绝0假设。
Eviews给出了拒绝0假设(所有系统为0的假设)犯错误(第一类错误或α错误)的概率(收尾概率或相伴概率)p值,若p小于置信度(如0.05)则可以拒绝0假设,即认为方程显著性明显。
2)回归系数显著性检验(t检验):检验每一个自变量的合理性
|t|大于临界值表示可拒绝系数为0的假设,即系数合理。
t分布的自由度为n-p-1,n为样本数,p为系数位置
3)DW检验:检验残差序列的自相关性,检验基本假设2(随机误差相互独立)
残差:模型计算值与资料实测值之差为残差
0<=dw<=dl 残差序列正相关,du<dw<4-du 无自相关,4-dl<dw<=4负相关,若不在以上3个区间则检验失败,无法判断
demo中的d w=0.141430,dl=1.73369,du=1.7786,所以存在正相关
模型评价
目的:不同模型中择优
1)样本决定系数R-square d及修正的R-square d
R-square d=SSR/SST 表示总离差平方和中由回归方程可以解释部分的比例,比例越大说明回归方程可以解释的部分越多。
Adjust R-seqaur ed=1-(n-1)/(n-k)(1-R2)
2)对数似然值(L og Likeli hood,简记为L)
残差越小,L越大
3)AIC准则
AIC= -2L/n+2k/n, 其中L为 log likeli hood,n为样本总量,k为参数个数。
AIC可认为是反向修正的L,AIC越小说明模型越精确。
4)SC准则
SC= -2L/n + k*ln(n)/n
用法同AIC非常接近
预测fore cast
root mean sequar ed error(RMSE)均方根误差
Mean Absolu te Error(MAE)平均绝对误差
这两个变量取决于因变量的绝对值,
MAPE(Mean Abs. Percen t Error)平均绝对百分误差,一般的认为MAPE<10则认为预测精度较高
TheilInequa lityCoeffi cient(希尔不等系数)值为0-1,越小表示拟合值和真实值差异越小。
偏差率(bias Propor tion),bp,反映预测值和真实值均值间的差异方差率(varian ce Propor tion),vp,反映预测值和真实值标准差的差异
协变率(covari ancePropor tion),cp,反映了剩余的误差
以上三项相加等于1。
预测比较理想是bp,vp比较小,值集中在cp上。
eviews不能直接计算出预测值的置信区间,需要通过置信区间的上下限公式来计算。
如何操作?
其他
1)Chow检验
chow's breakp oint检验
零假设是:两个子样本拟合的方程无显著差异。
有差异则说明关系中结构发生改变
demo中
Chow Breakp ointTest: 1977Q1
F-statis tic 2.95511837136742 Prob. F(3,174) 0.0339915698953355
Log likeli hoodratio8.94507926849178 Prob. Chi-Square(3) 0.0300300700620291
p值<0.05,可拒绝0假设,即认为各个因素的影响强弱发生了改变。
问题是如何才能准确的找到这个或这几个断点?目前的方法是找残差扩大超出边线的那个点,但这是不准确的,在demo中1975Q2的残差超出,但是chow's breakp oint检验的两个p值都接近0.2,1976Q3开始两个p值才小于0.05,并且有逐渐减小之势。
chow's foreca st检验
用断点隔断样本,用之前的样本建立回归模型,然后用这个模型对后一段进行预测,检验这个模型对后续样本的拟合程度。
0假设是:模型与后段样本无显著差异
demo中的1976Q4作为br eak point,得到两个p值为0,即认为两段样本的系数应该是不同的。
2)自变量的选择
testad d检验:
操作方法是:eqatio n name.testad d ser1 ser2 ...
0假设:应该将该变量引入方程
检验统计量:w ald,LR
结果:通过两个p值(Prob. F,Prob Chi-sequar e)看是否拒绝原假设testdr op检验:
操作方法是:eqatio n name.testdr op ser1 ser2 ...
0假设:应该将该变量剔除
检验统计量:w ald,LR
结果:通过两个p值(Prob. F,Prob Chi-sequar e)看是否拒绝原假设
含定性变量的回归模型
分为:自变量含定性变量,因变量含定性变量。
后一种情况较为复杂
建立dumm y 变量(名义变量):用D表示
当变量有m种情况时,需要引入m-1个dumm y变量
处理办法:把定性变量定义成0.1.2等数值后和一般变量同样处理常见问题及对策
1)多重共线性(m ultic ollin earit y):
p个回归变量之间存在严格或近似的线性关系
诊断方法:
1.如果模型的R-sequar ed很大,F检验通过,但是某些系统的t检验没通过
2.某些自变量系数之间的简单相关系数很大
3.回归系数符号与简单相关系统符号相反
以上3条发生都有理由怀疑存在多重共线性
方差扩大因子(varian ce inflat ion factor VIFj)是诊断多重共线性的常用手段。
VIFj为矩阵(X’ X)-1第j个对角元素cjj=1/(1-R2j)(j=1,2…,p) 其中R2j为以作为cj因变量,其余p-1个自变量作为自变量建立多元回归模型所得的样本决定系数,所以R2j越大则说明自变量之间自相关性越大,此时也越大,可以认为VI Fj>10(R2j>0.9)则存在多重共线性。
还可以使用V I Fj的平均数作为判断标准,如果avg(VIFj)远大于10则认为存在多重共线性。
eviews里如何使用V IF法?--建立方程,然后手工建立s cala r vif。
demo中G D P和PR的vif为66,存在多重共线性? 只有一个自变量的方程是否会失效?此时dw值只有0.01远小于d l,说明GDP远远不是PR能决定的。
结合test drop将PR去除,两个p值为0,说明不能把PR去除。
在eview s中当自变量存在严重的多重共线性时将不能给出参数估计值,而会报错:nearly singul ar matrix
多重共线性的处理:
1.剔除自变量,选择通过te stdro p实验,并且vif值最大的那个
2.差分法,在建立方程时填入ls m1-m1(-1) c gdp-gdp(-1) pr-pr(-1)。
m1(-1)表示上一个m1
差分法常常会丢失一些信息,使用时应谨慎。
demo中得到的模型,c的p值0.11, pr-pr(-1)的p值为0.60,说明参数无效。
2)异方差性(Herter osked astic ity)
即随机误差项不满足基本假设的同方差性,异方差性说明随机误差中有些项对因变量的影响是不同于其他项的。
一般地,截面数据做样本时出现异方差性的可能较大,或者说都存在异方差性
若存在异方差性,用OLS估计出来的参数,可能导致估计值虽然是无偏的,但不是有效的。
(截面数据就是同一时间点上各个主体的数据,比如2007年各省的GDP数据放在一起就是一组截面数据
与之相对的是时间序列数据如河北省从00年到07年的数据就是一组时间序列数据
两者综合叫面板数据)
00年到07年各省的数据综合在一起就叫面板数据
诊断方法:
1.图示法,以因变量作为横坐标,以残差项为纵坐标,根据散点图判断是否存在相关性。
(选择两个序列作为gro up打开,先选中的序列将作为gr oup的纵坐标)
2.戈里瑟(Glejse r)检验:
3.怀特(White)检验:
用e2作为因变量,原先的自变量及自变量的平方(还可以加上各自变量之间的相互乘积)作为自变量建立模型。
怀特检验的统计量为:m=n*R2(n是样本容量,R2是新模型的拟合优度), m~ χ2(k) k为新模型除常数项之外的自变量个数
零假设:模型不存在异方差性
操作:在估计出来的方程中,view-residu al tests-White Herterosked astic ity(no cross/cross)分别为是否含自变量交叉项demo中的两个p值为0,所以拒绝零假设,认为存在严重的异方差性。
异方差性的处理:
1.加权最小二乘法(WLS weight ed leastsequar e)。
最常用的方法,一般用于异方差形式可知的情况。
基本思路是赋予
残差的每个观测值不同的权数,从而使模型的随机误差项具有相同的方差。
2.自相关相容协方差(Hetero skeda stici ty and antoco rrela tionconsis tentconvar iance s HAC)
用于异方差性形式未知时。
在建模时在o p tion s中选择H e tero skedastici ty consis tentconvar iance s 再从whit e,newey-west中选择一种。
HAC不改变参数的点估计,改变的知识估计标准差。
如何改变标准差?
3)自相关性
残差项不满足相互独立的假设。
一般的,经济时间序列中自相关现象较为常见,这主要是经济变量的滞后性带来的。
自相关性将导致参数估计值虽然是无偏的,但不是有效的。
诊断方法:
1.绘制残差序列图。
如果序列图成锯齿形或循环状的变化,可以判定存在自相关
2.回归检验法:
以残差e(t)为被解释变量,以各种可能的相关变量,如 e(t-1) e(t-2)作为自变量,选择显著的最优拟合模型作为自相关的形式。
demo中以ls residm1 c residm1(-1) residm1(-2)后发现c的p值为0.54,做testd rop实验,两个p值都&g t;0.5 可以将c剔除。
剔除c后:
Depend ent Variab le: RESIDM1
Method: LeastSquare s
Date: 12/29/07 Time: 11:26
Sample (adjust ed): 1952Q3 1996Q4
Includ ed observ ation s: 178 afteradjust ments
Variab le Coeffi cient Std. Error
t-Statis tic Prob.
RESIDM1(-1) 1.2153610.07701115.78173
0.0000
RESIDM1(-2) -0.2716640.078272
-3.470763 0.0007
R-square d 0.868569Mean depend ent var 0.011855
Adjust ed R-square d 0.867823S.D. depend ent
var 26.91138
S.E. of regres sion9.783961Akaike info
criter ion 7.410538
Sum square d resid16847.76 Schwar z
criter ion 7.446289
Log likeli hood-657.5379Durbin-Watson stat 2.057531
模型的r-sequar ed稍小,参数很显著,d w显示为无自相关。
但是常数c能剔除吗?剔除后模型没有f-statis tic和对应p值,原理何在?
3.DW检验法
用于小样本的一阶自相关情况,缺点:当回归方程右边存在因变量的滞后项如m1(t-i) (i=1,2,...)时,检验失败。