Stata商用建模复习知识点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Stata商用建模复习知识点
1.一般检验
假设系数为0,t比较大则拒绝假设,认为系数不为0.
假设系数为0,P比较小则拒绝假设,认为系数不为0.
假设方程不显著,F比较大则拒绝假设,认为方程显著。
2.小样本运用OLS进行估计的前提条件为:
(1)线性假定。
即解释变量与被解释变量之间为线性关系。
这一前提可以通过将非线性转换为线性方程来解决。
(2)严格外生性。
即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项期望为0。
(工具变量法解决)
(3)不存在严格的多重共线性。
一般在现实数据中不会出现,但是设置过多的虚拟变量时,可能会出现这种现象。
Stata可以自动剔除。
(4)扰动项为球型扰动项,即随即扰动项同方差,无自相关性。
3.大样本估计时,一般要求数据在30个以上就可以称为大样本了。
大样本的前提是
(1)线性假定
(2)渐进独立的平稳过程
(3)前定解释变量,即解释变量与同期的扰动项正交。
(4)E(XiXit)为非退化矩阵。
(5)gt为鞅差分序列,且其协方差矩阵为非退化矩阵。
与小样本相比,其不需要严格的外生性和正太随机扰动项的要求。
4.命令
稳健标准差回归:reg y x1 x2 x3, robust 回归系数与OLS一样,但标准差存在差异。
如果认为存在异方差,则使用稳健标准差。
使用稳健标准差可以对大样本进行检验。
只要样本容量足够大,在模型出现异方差的情况下,使用稳健标准差时参数估计、假设检验等均可正常进行,即可以很大程度上消除异方差带来的副作用
对单个系数进行检验:test lnq=1
线性检验:testnl _b[lnpl]=_b[lnq]^2
5.如果回归模型为非线性,不方便使用OLS,则可以采取最大似然估计法(MLE),或者非线性最小二乘法(NLS)
6.违背经典假设,即存在异方差的情况。
截面数据通常会出现异方差。
因此检验异方差可以:
(1)看残差图,但只是直观,可能并不准确。
rvfplot (residual-versus-fitted plot) 与拟合值的散点图rvpplot varname (residual-versus-predictor plot) 与解释变量的散点图,扰动项的方差随观测值而变动,表示可能存在异方差。
(2)怀特检验:
estat imtest, white (post-estimation information matrix test)
P比较小,则拒绝同方差假设,表示存在异方差,不能用OLS。
反之则证明为同方差。
(3)BP检验
estat hettest,iid (默认设置为使用拟合值y^)
estat hettest, rhs iid (使用方程右边的解释变量,而不是y^) estat hettest [ varlist],iid (使用某个指定的解释变量)
P小,则拒绝原假设。
如果存在异方差,则可以:
(1)使用OLS+稳健标准差robust
(2)广义最小二乘法(GLS)
(3)加权最小二乘法(WLS)
predict el, res (预测残差)
g e2=el^2
辅助回归:
g lne2=log(e2)
reg lne2 lnq, noc
predict lne2f 计算辅助回归的拟合值
g e2f=exp(lne2f) 去掉对数即权重之倒数
reg lntc lnq lnpl lnpk lnpf [aw=1/e2f]
reg y x1 x2 x3 [aw=1/var] (aw表示analytical weight, var 表示随即扰动项的方差。
)
或者:
predict u, residuals
predict yf, xb
gen lnu2=ln(u^2)
gen yf2=yf^2
quietly reg lnu2 yf yf2
predictnl u2f = exp (xb())
gen sd=sqrt(u2f)
vwls lntc lnq lnpl lnpf lnpk , sd(sd)
(4)可行广义最小二乘法(FGLS)
FGLS所做的过程和GLS一样,只是GLS假设扰动项的方差已知,若要用GLS,必须计算得到扰动项方差,而FGLS则是在未知方差的情况下求方差并最终通过将异方差转换为同方差后再运用OLS 的结果。
因此,GLS和FGLS在过程上是一致的。
6.自相关
时间序列中容易出现自相关,而截面数据也可能存在空间自相关。
人为处理数据如移动平均等做法也可能导致自相关。
检验自相关可以:
(1)作图,但并不严格。
定义滞后算子L.(只有时间序列数据和面板数据才能定义时间变量。
)
tsset yaear
一阶差分:D.x=xt-xt-1 D2. X=xt-xt-2
LD. 表示一阶差分的滞后值
画图:scatter el L.el
ac el (看自相关图)
pac el (看偏相关图)
(2)BG检验
estat bgodfrey (默认p=1)
estat bgodfrey,lags(p)
estat bgodfrey,nomiss0 (使用不添加0的BG检验) 使用命令ac 查看自相关图,或者设置较大的p值进行显著性检验,t期不显著了,则选择P=T-1
统计检验P值小,则拒绝假设。
(3)box-pierce Q检验/ Ljung-Box Q
reg y x1 x2 x3
predict el, resid
wntestq el (使用stata提供的默认滞后期)
wntestq el, lags(p) (使用自己设定的滞后期)
(4)DW检验:现在已经不常用,因为其只能检验一阶自相关。
estat dwatson
自相关的处理方法:
(1)使用OLS+异方差自相关稳健的标准差(Heteroskedasticity and Autocorrelation Consistent Standard Error, HAC)newey y x1 x2 x3, lag(p) (HAC标准差,必须制定滞后阶数
p)
滞后期数选择n^1/4
(2)使用OLS+聚类稳健的标准差(cluster robust standard error)面板数据中经常使用聚类稳健的标准差。
reg y x1 x2 x3, cluster(state) (聚类稳健标准差,假设“state”为聚类变量)
(3)使用可行广义最小二乘法(FGLS)
prais y x1 x2 x3 (使用默认的PW估计法)
prais y x1 x2 x3, corc (使用CO估计法)
(4)修改模型设定,可能自相关是由于遗漏了自相关的解释变量。
7多重共线性
在回归后,使用命令VIF
estat vif 经验表示,vif <10, 则不存在多重共线性。
如果存在多重共线性,但是只关心整个方程预测被解释变量的能力,或者只关心变量的显著性,则不必理会多重共线性,因为多重共线性只是对单个解释变量的解释能力估计出现了偏差。
存在多重共线性,则逐个剔除。
8.遗漏变量(解决扰动项严格外生性的问题)
遗漏变量与解释变量不相关时,扰动项与解释变量不相关,OLS 估计依然一致,但扰动项方差过大,影响估计的精确度
如果遗漏变量与解释变量相关,扰动项与解释变量则会相关,导致OLS估计不再一致。
出现“遗漏变量偏差”。
所以可以不研究某些解释变量而只对感兴趣的解释变量进行研究,但是重要的是遗漏解释变量不能与解释变量相关。
解决遗漏解释变量的方法有:
(1)加入尽可能多的控制变量(control varible),从理论上说明遗漏变量与扰动项不相关,或很弱的相关
(2)使用代理变量(proxy variable),这在控制变量不可得的时候采用,如用IQ代替能力
(3)工具变量法
(4)使用面板数据(短面板、长面板、动态面板)
(5)随即实验和自然实验
9.选择解释变量的个数的时候,要选择适当的方式。
(1)按照变量个数使得矫正可决系数最大的准则选择个数(如果加入变量,反倒A-R变小,则去掉加入的变量。
)
(2)赤池信息准则(AIC akaike Information Criteria)
(3)贝叶斯信息准则(Bayesian Information Criteria)
(4)汉南-昆信息准则(Hanan-Quinn Information Criteria)但这一准则不常用
命令:estat ic
取AIC BIC 最大时候的变量个数
10.处理极端数据:
reg y x1 x2 x3
predict lev, leverage (列出所有解释变量的影响力值)
gsort –lev (将所有的观测值按照lev的降序排列)
sum lev (看LVE的最大值和平均值)
list lev 1/3 (列出影响力最大的三个值)
可以将极端数据加入和省略进行对比。
10虚拟变量
M个定性的量,最多可以有(M-1)个虚拟变量
设置虚拟变量:generate d=(year>=1978)
如希望将每个省设置为虚拟变量,则需要:tabulate province, generate(pr)
回归简化为:reg y x1 x2 x3 pr2-pr31
11.工具变量法
这可以解决扰动项与自变量的相关问题,设置的工具变量需要与扰动项无关而与内生解释变量相关。
传统的工具变量法一般通过两阶段最小二乘法TSLS、2SLS(two stage least square)。
第一阶段,工具变量对内生解释变量回归;第二阶段,被解释变量对工具变量的拟合值进行回归。
多个工具变量的线性组合仍然可以作为工具变量。
命令:ivregress 2sls depvar [varlist1] (varlist2=inslist)
Depvar为被解释变量,varlist1为外生解释变量,varlist2为内生解释变量,instlist为工具变量。
如:
ivregress 2sls y x1 (x2 = z1 z2)
ivregress 2sls y x1 (x2 x3 = z1 z2 z3 z4), r first (r表示用异方差的标准差,first表示在结果中显示第一阶段的回归。
)
在面板数据中执行2SLS可以用:xtivreg depvar [varlist1] (varlist_2=varlist_iv) (详见help xtivreg)
检验工具变量与解释变量的相关性:即检验工具变量是否为弱工具变量,
命令:estat firststage, all forcenonrobust (all表示显示每个内生变量的统计量,而非仅仅所有内生变量综合的统计量,forcenonrobust表示及时在进行工具变量法时用了稳健标准差,也仍然允许计算estat firststage)
解决弱工具变量的方法包括
A.寻找更强的工具变量
B.弱工具变量较多,则舍弃弱工具变量,
C.用有限信息最大似然估计法(Limited information maximum likelihood estimation, LIML)LIML与2SLS渐进等价,但在弱工具变量的情况下,LIML的小样本性质可能优于2SLS.
命令为:ivregress liml depvar [varlist 1] (varlist2 = instlist) 过度识别(即多余的工具变量的个数)命令为:estat overid 但并不能告诉哪些工具变量无效。
使用工具变量的前提是存在内生解释变量(即解释变量与扰动项相关),这也需要检验。
如果所有解释变量都是外生变量则用OLS比用工具变量法更有效,反之应该用工具变量法。
豪斯曼检验就是假设所有解释变量都为外生变量。
豪斯曼检验的stata命令:
reg y x1 x2
estimates store ols (存储OLS的结果)
ivregress 2sls y x1 (x2= z1 z2) (假设怀疑x2为内生变量)estimates store iv (存储2SLS的结果)
hausman iv ols, constant sigmamore (根据存储的结果进行豪斯曼检验)
但uguo存在异方差,则OLS并不是最有效的,传统额豪斯曼检验不适用于异方差的情形,解决方法是“自助法”;或者使用“杜宾-吴-豪斯曼DWH检验”也可以适用于存在异方差的情况。
命令:estat endogenous
在球型扰动项的假定下,2SLS是最有效的,但是如果扰动项存在异方差或者自相关,则广义矩估计(generalized method of moments, GMM)更有效。
GMM与2SLS的关系就相当于GLS与OLS之间的关系。
GMM过程:
scc install ivreg2 (安装程序ivreg2)
scc install ranktest (安装另外一个在运行ivreg2时需要用到的辅助程序ranktest)
use data
xtset panelvar timevar (设置面板变量和时间变量)
ivreg2 y x1(x2=z1 z2), gmm2s
12.短面板:(固定效应和随机效应模型)
N大T小的一般叫做短面板。
面板数据的优点为:可以解决遗漏变量的问题,可以提供更多动态行为的信息,样本较多从而估计更准确。
但面板数据一般不满足独立同分布的假设。
处理面板数据的一个方法是将面板数据当作横截面数据处理进行OLS回归,称为“混合回归”,但它忽略了同一个聚类存在的相关问题。
虽然通常可以假定面板数据不同个体的扰动项的独立性,但是对于同一个体却存在固定效应和随机效应。
固定效应模型通常可以采用组内估计法(FE)和一阶差分法(FD)。
当T=2时,FD=FE;当T>2,扰动项独立同分布时,FE优于FD。
因此,实践用FE较多,而对动态面板,则用FD较多。
随机效应的存在使得OLS估计是一致但无效的。
可使用广义最小二乘法(FGLS)来进行估计。
也可以使用组间估计量(BE)
用豪斯曼检验选择是选用固定效应模型还是随机效应模型,如果统计量大于零界值,则拒绝假设。
如果假设成立,RE最有效,但是不适用于异方差的情形。
解决方法是自助法和辅助回归。
非平衡面板经常会损失数据,导致破坏样本的随机性。
xtset panelva timevar (设定面板数据的面板个体变量和时间变量)
encode country, gen (cntry) (为面板个体编号使得面板个体为整数)
显示面板数据统计特征:
xtdes (显示面板数据结构,是否为平衡面板)
xtsum (显示组内、组间和整体的统计指标)
xttab varname (显示组内、组间与政体的分布频率)
xtline varname (对每个个体分别显示该变量的时间序列图,如果希望叠放,则选择overlay)
reg y x1 x2 x3, vce (cluster id) (混合回归,VCE是以id为cluster的聚类稳健标准差,因为同一地区不同时间扰动项之间一般存在自相关。
) VCE是考虑到了同一聚类之间的同方差现象。
xtreg Y X1 X2 X3, fe vce (cluster id) (使用固定效应模型回归)
得到的回归中rho表示来自个体效应ui的比例。
Xtreg YX1 X2 X3, fe 中的F检验通过,则可以使用混合回归模型。
若拒绝假设(p小),则FE更优,每个个体都有自己的固定效应。
但此时的由于没有使用稳健回归,因此F检验并不有效,还需要进一步用LSDV法观察。
LSDV法的stata命令为:
xi: xtreg y x1 x2 x3 i.id, vce(cluster id) (xi为增添互动项interaction expansion,i.id表示根据确定个体变量id生成的虚拟变量,在这里是state) (P小,则说明个体虚拟变量很显著,因此,不满足无个体效应的假设,则不能用混合回归模型。
)
对于固定效应模型,也可以用一阶差分法FD的命令:
xtserial y x1 x2 x3, output (我的stata不能识别xtserial 咋回事?)一般认为FE比FD有效,故较少使用FD。
也可以在固定效应中考虑时间效应,即双向固定效应:
tab year gen(year) 定义年度虚拟变量
xtreg YX1 X2 X3 year2-year7, fe vce (cluster id) (明明是stata12,为什么说数据太多不能计算?要把前面的计算保存等清空,那后面怎么对比?)
test year1 year2 year3。
year7 对年度虚拟变量的联合检验为
检验存在时间效应和固定效益后,还可能存在随机效应,对随机效应进行检查:
xtreg y x1 x2 x3, re vce (cluster id) (随机效应FGLS)
xtreg y x1 x2 x3, mle (随机效应MLE)
检验个体随机效应存在一个LM检验,需要在随机效应估计之后进行:Xtreg fatal spircons unrate perinc beertax, re vce (cluster, state) estimates store RE
xttest0
如果P很小,则拒绝假设,认为在“随即效应”与“混合回归”之间,应该选择“随即效应”。
如果数据质量不好,可以考虑使用组间估计量,但会损失较多信息量。
reg y x1 x2 x3, be
estimates store BE
选用固定效应模型还是随机效应模型运用豪斯曼检验
xtreg y x1 x2 x3, fe
estimates store FE
xtreg y x1 x2 x3, re
estimates store RE
hausman FE RE, constant sigmamore
P小,则强烈拒绝使用随机效应模型,而应采用固定效应模型。
但是如果聚类稳健标准差和普通标准差相差较大,则传统的豪斯曼检验并不适用。
这时需要进行辅助回归。
目前在stata中需要手动进行。
步骤如下:
quietly xtreg fatal beertax spircons unrate perinck, re
scalar theta=e(theata) (从回归中得到THETA)
global yandxforhausman fatal beertax spircons unrate perinck (使用yandxforhausman时,代表了所有使用的变量)
foreach x of varlist $yandxforhausman{
by state: egen mean ‘x’=mean(‘x’) 到底用什么表示?gen md‘x’=‘x’-mean‘x’
gen red‘x’=‘x’-theata*mean‘x’}
quietly xtreg redfatal redbeertax redspircons redunrate redperinck mdbeertax mdspircons mdunrate mdperinck, vce(cluster state)
test mdbeertax mdspircons mdunrate mdperinck
检验发现P小,则拒绝r=0的假设,应该选用固定效应模型。
(疑问:那中间那个式子呢?)
面板数据在回归之前要通过平稳性检验,其处理步骤简化为:面板数据单位根检验—协整检验—回归。
一般为了方便,采用相同单位根检验LLC检验和不同单位根检验Fisher-ADF检验(非面板数据一般采用ADF检验)。
两种检验均拒绝存在单位根的元假设,则认为序列平稳。
13.长面板和动态面板(不能像短面板那样假定独立同分布,而应该运用广义最小二乘法FGLS进行估计,解决组内和组间的自相关。
)解释变量包含被解释变量的滞后项,则为动态面板,反之为静态面板。
(1)仅解决组内自相关的FGLS
tab state, gen(state) 考虑个体效应,生成州虚拟变量。
gen t=year-1962 考虑时间趋势,生成时间趋势变量
reg Y X1 X2 X3 State2-state10 t, vce(cluster state) 用LSDV估计双向固定效应模型
estimates store OLS
考虑组内自相关的情形:用命令stpcse
stpcse Y X1 X2 X3 state2-state10 t, corr(ar1) 约束条件为自回归系数都相同的一阶。
考虑各组自回归系数不同的组内自相关情形
stpcse Y X1 X2 X3 state2-state10 t, corr(psar1)
如果仅考虑不同个体扰动项存在异方差而忽略自相关,则可以用stpcse Y X1 X2 X3 state2-state10 t, hetonly
将以上各估计的系数及标准差列表便于比较:
究竟应该采用OLS还是采用AR1,则需要检验自相关。
(2)同时处理组内自相关和组间同期相关的FGLS的命令xtgls xtgls Y X1 X2 X3state2-state10 t , panels(iid/het/cor) corr(ar1/psar1)
iid表示不同个体(组间)的扰动项独立且具有相同的方差,het 表示不同个体的扰动项独立但具有不同的方差,cor表示不同个体的扰动项同期相关且具有不同的方差。
Corr表示组内,解释同前。
如果加上igls则表示用的迭代FGLS,而非两步FGLS.
若执行xtgls或者xtpcse时没有使用个体虚拟变量,则为随机效应模型,若使用了则为固定效应模型。
(3)长面板数据自相关和异方差检验
组间异方差检验,运用似然比检验
Xtgls Y X1 X2 X3, igls panel(het) (允许异方差的迭代式FGLS 估计)
Estimates store hetro (将异方差条件下的估计结果储存为hetero)Xtgls y x1 x2 x2, igls (同方差条件下的FGLS)
Estimates store homo (将同方差条件下的估计结果储存为homo)
local df = e(N_g)-1 (计算自由度,即约束条件个数,其中e (N_g)为个体个数)
lrtest hetero homo, df(‘df’) (制定自由度,进行似然比检
验。
) 符号到底是怎样的?
P=0,则强烈拒绝LR检验的“组间同方差”假设。
另一种检验组间异方差的方法为xttest3,只能在xtreg,fe 或者xtgls之后使用:
Ssc install xttest3(安装命令“xttest3”)
Xttest3 (进行组间异方差检验) 这个超级简单~~
组内自相关检验通过下载命令xtserial来实现这个检验net install st0039 (安装命令stserial) 为什么下不了?
xtserial y x1 x2 x3, output (进行组内组相关检验,若P小,则强烈决绝不存在一阶组内自相关的假设。
)
组间截面相关检验:非官方xttest2。
其仅能在xtgls,ivreg2,和xtreg,fe后使用,且能用于场面版
ssc install xttest2 (安装xttest2)
xttest2 (组间截面相关检验)
当这一种方法无法检验时,可以采用另一种方法,xtcsd命令,长短面板都能用,用在fe之后?
ssc install xtcsd (安装命令“xtcsd”)
xtcsd, pesaran abs show (pesaran的检验,服从正态分布) xtcsd, friedman abs show (friedman的检验,服从喀方分布) xtcsd,frees abs show (frees的检验)
对于长面板除了可以让不同个体拥有不同的截距项外还可以使其拥
有不同的斜率,这成为“变系数模型”,如果其系数为常数,则可分别回归,但如果各个体扰动项相关,则应该把所有个体回归方程叠放,然后使用“似不相关回归”(SUR),但由于参数估计较多,会损失自由度。
如果考虑“部分变系数模型”,则SUR不再适用,而应用LSDV 法,引入虚拟变量,以及虚拟变量与可变细数解释变量的互动项(参见help xi)
如果将系数看作是随机的,则FGLS估计模型,即利用OLS残差估计协方差矩阵中的参数,然后再使用GLS,命令为:
Xtrc y x1 x2 x3, betas (betas表示显示对每一组系数的估计),其附带参数稳定性检验
虽然面板数据能在一定程度上解决遗漏变量问题,但如果存在内生解释变量,还是需要用工具变量法,先解决遗漏问题,再使用2SLS 对于动态面板,就算是组内估计量(FE)也是不一致的。
差分GMM和水平GMM结合就成了系统GMM估计。
差分GMM的stata命令为:
xtabond depvar [indepvars], lags(p) maxldep(q) pre(varlist) endogenous (varlist) inst(varlist) twostep vce(robust)
如:xtabond lwage occ south smsa ind, lags(2) maxldep(3) pre(wks, lag(1,2)) endogenous(ms, lag(0,2)) endogenous(union, lag(0,2)) twostep vce(robust)
差分GMM存在的前提是扰动项不存在自相关,对此要进行检验,需要扰动项的差分不存在二阶或更高阶自相关即可。
命令为:estat abond ,p小,则存在自相关,P大,则不存在自相关。
更高阶自相关的检验为:estat abond artests(3)
由于使用过多的工具变量,还需要进行过度识别检验
先回归,但要去掉最后的vce(robust)
estat sargan
系统GMM的stata命令为:
xtdpdsys depvar[indepvars], lags(p) maxldep(q) pre(varlist) endogenous(varlist) inst(varlist) twostep vce(robust)
若要对比差分GMM和系统GMM的系数和标准差,则用命令:estimates table DGMM SGMM, b se
14.离散被解释变量(通常不适合用OLS,而应该用二值模型,probit logit和多值选择模型)
如果F为标准正态的累积分布函数,则P模型为Probit模型,若F为逻辑分布的累积分布函数,则P模型为Logit模型。
计算Logit 模型通常比Probit模型更方便。
二值模型的Stata命令为:
probit y x1 x2 x3
logit y x1 x2 x3
probit 和logit 的分布函数不同,因此参数不能直接比较,需要分别计算二者的边际效应,再进行比较,STATA进行处理的命令为:mfx (计算在样本均值处的边际效应)
mfx, at(X1=0) (计算在X1=0时,X2,X3取值样本均值处的边际效应)
mfx, eyex (计算在样本均值处的弹性)
predict yhat (计算发生概率的预测值,并记为yhat),对于Logit模型,系数表示解释变量x增加一个单位将引起的“对数几率比”的边际变化。
衡量二值模型的拟合优度采用“准R2”,判断拟合优度还可以通过计算预测准确的百分比,相应STAT命令为:
estat clas
logti 和probit模型虽然估计系数不同,但其估计系数没有可比性,其mfx计算出的边际效应及准R2与正确预测比几乎一致。
如果接受似然比检验(LR),则可用同方差probit模型估计。
在存在异方差的情况下进行probit模型估计为:
hetprob Y X1 X2 X3, het(varlist)那自相关呢?
多值选择模型:
多值选择模型的stata命令为:
mlogit Y X1 X2 X3, base(#) (多值logit选择模型,base(#)用来指定参照组)
mlogit Y X1 X2 X3, rrr base(#) (多值logit选择模型,回报relative risk ratio)
mprobit Y X1 X2 X3, base(#) (多值probit选择模型)
排序数列模型的stata命令:ordered probit/logit
oprobit Y X1 X2 X3
ologit Y X1 X2 X3
oprobit
预测:predict p2 p3 p4 p5
列出第一个观测值的预测结果:list p2 p3 p4 p5 in 1/1 , ologit
预测:predict r2 r3 r4 r5
列出第一个观测值的预测结果:list r2 r3 r4 r5 in 1/1 ,
计数模型
(1)有些被解释变量仅能取非负整数,如金牌数量,看病次数等,一般用泊松回归。
Stata命令为
poisson y x1 x2 x2, r (稳健标准差)
estat gof (goodness of fitnes拟合优度检验)
泊松回归的局限是其期望和方差一定相等,但有些被解释变量的方差明显大于期望,即存在“过度分散”,则可以考虑“负二项回归”(negative binomial regression),使用MLE估计。
Nbreg y x1 x2 x2, r
如果计数数据中含有大量的零值,则可以使用“零膨胀泊松回归”。
这可以Vuong统计量来检验,如果Vuong统计量很大,则选择零膨胀泊松回归或者零膨胀负二项泊松回归。
零膨胀泊松回归的stata命令为:
zip y x1 x2 x3, inflate(varlist) vuong (零膨胀泊松回归)
zipnb y x1 x2 x3, inflate(varlist) vuong (零膨胀负二项回归)15.受限制的被解释变量(断尾回归、截取回归)
断尾回归stata命令:
truncreg y x1 x2 x3, ll(#) (左边断尾)
truncreg Y X1 X2 X3, ul(#) (右边断尾)
truncreg Y X1 X2 X3,ll(#)ul(#)(双边断尾)
截取回归stata命令:tobit模型
tobit y x1 x2 x3, ll(#)
tobit y x1 x2 x3, ul(#)
tobit y x1 x2 x3, ll(#) ul(#)
样本选择模型的stata命令:
Heckman y x1 x2 x3, select (z1 z2) (默认使用MLE,选择方程的被解释变量为y),最下的似然比检验P很小,则认为样本选择模型适用。
Heckman y x1 x2 x3, select (z1 z2) twostep (两步法,选择方程的被解释变量为y)
Heckman y x1 x2 x3, select (w=z1 z2) (默认使用MLE,选择方程的被解释变量为w)
16时间序列
(平稳时间序列、非平稳时间序列。
AR自回归模型、MA为移动平均模型结合起来为ARMA模型、自回归分布滞后模型ADL、向量自回归模型VAR、向量移动平均过程VMA、格兰杰因果检验:条件是变量协整)
(1)自相关和偏自相关
corrgrams y, lags (#) 第1至#阶ACF和PACF
ac y, lags(#)
pac y, lags(#)
(2)ARIMA
arima y, ar(1/#),ma(1/#) 或者
arima y, arima(#p,#d,#q) #p表示#阶自回归,#q表示#阶移动平均,#d表示#阶差分达到平稳过程。
检验残差是否存在自相关:
predict e1, res
corrgram e1,lags(#) (检查残差是否存在第1到第#阶自相关) (3)ADL和ARMAX
ARMAX的stata命令
arima y x1 x2 x3, ar(#) ma(#)
对于时间序列,首先要设置时间项,tset timevar
对于非平稳时间序列,首先要用差分使其平稳:g dx1=d.x1 (当然差分后会缺失一个变量)
如果自相关系数和偏自相关系数都存在断尾,则考虑ARMA模型(4)VAR
varsoc x y z, maxlag(#) (计算信息准则,最大滞后期默认值为4),根据信息准则可以估计VAR系统的阶数
var x y z (进行VAR估计,默认滞后期为2)
var x y z, lags(1/3) (滞后期为一至三期)
var x y z, lags(3) (滞后期为第三期)
var x y z, dfk (如果样本容量过小,可以用dfk进行自由度调整)
var x y z, small (显示小样本统计量)
var x y z, exog(w1, w2) (引入外生变量w1, w2)
varbasic x y z, irf (估计VAR模型,画脉冲响应图,未正交化) varwle (进行VAR估计后,对每个方程及所有方程的各阶系数联合显著性进行wald检验,wle表示wald lag-exclusion statistics) varlmar (估计后,对残差是否自相关进行LM检验)
varnorm (检验残差是否服从正态分布)
varstable,graph (进行VAR估计后,检查VAR系统是否为平稳过程,如果平稳则所有特征值都在单位圆内。
)
vargranger (估计后,进行格兰杰因果检验)
irf create filename,set (filename)step(#)replace (建立脉冲文件,是脉冲文件“filename”成为当前的脉冲文件,step 表示考察几期的脉冲响应函数,默认为8,replace代表替代已有的文件名)
irf graph irf (画脉冲响应图,未正交化)
irf graph oirf (画正交化的脉冲响应图)
fcast compute prefix, step(#) (估计VAR后,计算被解释变量的未来#期的预测值,并把预测值赋予被解释变量加上前缀“prefix”之
后的变量名,如可以加F-)
fcast graph varlist,observed (执行命令“fcast compute”后,将变量“varlist”所代表的预测值画图,其中“observed”表示与实际观测值比较)
17非平稳的时间序列
有确定性趋势存在的时候,则成为不平稳,去掉时间因素,则成为平稳序列的我们叫它为趋势平稳序列;存在结构变动则为非平稳序列;存在随机趋势则也为非平稳序列。
称平稳时间序列为零阶单整,如果时间序列的一阶差分为平稳,则称为一阶单整,也称为单位根过程,D阶差分为平稳,则成为“d阶单整”。
单位根是用来检验是否平稳的。
如果时间序列存在单位根,则为非平稳序列。
如果序列非平稳,则可能带来A.自回归系数的估计值向左偏向于0;B.t检验失效;C.两个相互独立的变量可能出现伪回归或伪相关。
进行单位根检验的方法有:
(1)DF检验,使用一阶自回归来检验单位根,要求扰动项为独立白噪声,故扰动项无自相关,若有自相关,则可以引入更高阶的滞后项来控制。
(2)ADF检验,多阶。
在进行ADF检验时,确定滞后阶数P的大小,采用最大滞后阶数Pmax=[12.(T/100)1/4],(stata命令为:di 12*(t/100)^(1/4) 然后使用由大到小的序贯t规则,看ADF检验中最后一阶回归系数是否显著,也可以使用信息准则。
ADF检验的Stata命令为:。