stata命令大全(全)

合集下载

stata命令大全(全)

*********里板数据计量领会与硬件真止*********之阳早格格创做证明：以下do文献相称一部分真量去自于中山大教连玉君STATA教程，感动他的孝敬.自己搞了一定的建改与筛选.*里板数据模型* 1.固态里板模型：FE 战RE* 2.模型采用：FE vs POLS, RE vs POLS, FE vs RE（pols混同最小二乘预计）* 3.同圆好、序列相闭战截里相闭考验* 4.动背里板模型（DIDGMM,SYSGMM）* 6.里板协整领会（FMOLS,DOLS）*** 证明：15均用STATA硬件真止， 6用GAUSS硬件真止.* 死产效用领会（更加指TFP）：数据包络领会（DEA）与随机前沿领会（SFA）*** 证明：DEA由DEAP2.1硬件真止，SFA由Frontier4.1真止，更加后者，偏偏沉于比较CD与Translog死产函数，一步法与二步法的辨别.常应用于天区经济好别、FDI溢出效力（Spillovers Effect）、工业止业效用情景等.* 空间计量领会：SLM模型与SEM模型*证明：STATA与Matlab分离使用.常应用于空间溢出效力（R&D）、财务分权、场合政府大众止为等.** 一、时常使用的数据处理与做图** 指定里板要领xtset id year（id为截里称呼，year为时间称呼）xtdes /*数据特性*/xtsum logy h /*数据统计特性*/sum logy h /*数据统计特性*/*增加标签大概变动变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA里板数据要领出现*/sort year id /*是以DEA要领出现*/*简略各别年份大概省份drop if year<1992drop if id==2 /*注意用==*/*怎么样得到连绝year大概id编号（当完毕上述支配时，year大概id便不连绝，为产死panel要领，需要用egen下令）egen year_new=group(year)xtset id year_new**死存变量大概死存瞅测值keep inv /*简略变量*/**大概keep if year==2000**排序sort id year /*是以STATA里板数据要领出现sort year id /*是以DEA要领出现**少数据战宽数据的变换*少>>>宽数据reshape wide logy,i(id) j(year)*宽>>>少数据reshape logy,i(id) j(year)**逃加数据（用于里板数据战时间序列）xtset id year*大概者xtdestsappend,add(5) /表示正在每个省份再逃加5年，用于里板数据/tsset*大概者tsdes.tsappend,add(8) /表示逃加8年，用于时间序列/*圆好领会，比圆三个变量Y,X,Z皆是里板要领的数据，且谦脚Y=X+Z，供圆好var(Y),协圆好Cov(X,Y)战Cov（Z,Y）bysort year:corr Y X Z,cov**死产假制变量*死成年份假制变量tab year,gen(yr)*死成省份假制变量tab id,gen(dum)**死成滞后项战好分项xtset id yeargen ylag=l.y /*爆收一阶滞后项)，共样可爆收二阶滞后项*/gen dy=D.y /*爆收好分项*/*供出各省2000年往日的open inv的仄衡删少率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按顺序排列.可用下令aorder大概者order fdi open insti** 二、固态里板模型** 简介* 里板数据的结构(兼具截里资料战时间序列资料的特性)use product.dta, clearbrowsextset id yearxtdes** 牢固效力模型** 真量上便是正在保守的线性返回模型中加进 N1 个假制变量，* 使得每个截里皆有自己的截距项，* 截距项的分歧反映了个体的某些不随时间改变的特性** 比圆： lny = a_i + b1*lnK + b2*lnL + e_it* 思量华夏29个省份的CD死产函数*******绘图**集面图+线性拟合直线twoway (scatter logy h) (lfit logy h)*集面图+二次拟合直线twoway (scatter logy h) (qfit logy h)*集面图+线性拟合直线+置疑区间twoway (scatter logy h) (lfit logy h) (lfitci logy h)*按分歧个体绘出集面图战拟合线，不妨以搞出fe vs re的初预计*twoway (scatter logy h if id<4) (lfit logy h if id<4) (lfit logy h if id==1) (lfit logy h if id==2) (lfit logy h if id==3)*按分歧个体绘集面图,so beautiful!!!*graph twoway scatter logy h if id==1 || scatter logy h ifid==2,msymbol(Sh) || scatter logy h if id==3,msymbol(T) || scatter logy h if id==4,msymbol(d) || , legend(position(11) ring(0) label(1 "北京") label(2 "天津") label(3 "河北") label(4 "山西"))**每个省份logy与h的集面图，并将各个图形合并twoway scatter logy h,by(id) ylabel(,format(%3.0f))xlabel(,format(%3.0f))*每个个体的时间趋势图*xtline h if id<11,overlay legend(on)* 一个例子：华夏29个省份的CD死产函数的预计tab id, gen(dum)list* 返回领会reg logy logk logl dum*,est store m_olsxtreg logy logk logl, feest store m_feest table m_ols m_fe, b(%6.3f) star(0.1 0.05 0.01)* Wald 考验test logk=logl=0test logk=logl* stata的预计要领剖析* 手段：如果截里的个数非常多，那么采与假制变量的办法运算量过大* 果此，要觅供合理的办法去撤除个体效力* 果为，咱们闭注的是 x 的系数，而非每个截里的截距项 * 处理要领：** y_it = u_i + x_it*b + e_it (1)* ym_i = u_i + xm_i*b + em_i (2) 组内仄衡* ym = um + xm*b + em (3) 样本仄衡* (1) (2), 可得：* (y_it ym_i) = (x_it xm_i)*b + (e_it em_i) （4） /*within estimator*/* (4)+(3), 可得：* (y_itym_i+ym) = um + (x_itxm_i+xm)*b + (e_item_i+em) * 可沉新表示为：* Y_it = a_0 + X_it*b + E_it* 对付该模型真止 OLS 预计，即可得到 b 的无偏偏预计量**stata背景支配，掀启fe预计的神秘里纱！！！egen y_meanw = mean(logy), by(id) /*个体里里仄衡*/egen y_mean = mean(logy) /*样本仄衡*/egen k_meanw = mean(logk), by(id)egen k_mean = mean(logk)egen l_meanw = mean(logl), by(id)egen l_mean = mean(logl)gen dyw = logy y_meanwgen dkw = logk k_meanwgen dlw=logll_meanwreg dyw dkw dlw,noconsest store m_statagen dy = logy y_meanw + y_meangen dk = logk k_meanw +k_meangen dl=logll_meanw+l_meanreg dy dk dlest store m_stataest table m_*, b(%6.3f) star(0.1 0.05 0.01)* 解读 xtreg,fe 的预计截止xtreg logy h inv gov open,fe* R^2* y_it = a_0 + x_it*b_o + e_it (1) pooled OLS* y_it = u_i + x_it*b_w + e_it (2) within estimator* ym_i = a_0 + xm_i*b_b + em_i (3) between estimator** > Rsq: within 模型(2)对付应的R2，是一个真真意思上的R2 * > Rsq: between corr{xm_i*b_w,ym_i}^2* > Rsq: overall corr{x_it*b_w,y_it}^2**** sigma_u, sigma_e, rho* rho = sigma_u^2 / (sigma_u^2 + sigma_e^2)dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2)** 个体效力是可隐著？* F(28, 373) = 338.86 H0: a1 = a2 = a3 = a4 = a29* Prob > F = 0.0000 标明，牢固效力下度隐著*怎么样得到安排后的 R2,即 adjR2 ？ereturn listreg logy h inv gov open dum**拟合值战残好* y_it = u_i + x_it*b + e_it* predict newvar, [option]/*xb xb, fitted values; the defaultstdp calculate standard error of the fitted values ue u_i + e_it, the combined residualxbu xb + u_i, prediction including effectu u_i, the fixed or randomerror component e e_it, the overall error component */xtreg logy logk logl, fepredict y_hatpredict a , upredict res,epredict cres, uegen ares = a + reslist ares cres in 1/10** 随机效力模型* y_it = x_it*b + (a_i + u_it)* = x_it*b + v_it* 基础思维：将随机搞扰项分成二种* 一种是不随时间改变的，即个体效力 a_i* 另一种是随时间改变的，即常常意思上的搞扰项 u_it * 预计要领：FGLS* Var(v_it) = sigma_a^2 + sigma_u^2* Cov(v_it,v_is) = sigma_a^2* Cov(v_it,v_js) = 0* 利用Pooled OLS，Within Estimator, Between Estimator* 不妨预计出sigma_a^2战sigma_u^2,从而采与GLS大概FGLS * Re预计量是Fe预计量战Be预计量的加权仄衡* yr_it = y_it theta*ym_i* xr_it = x_it theta*xm_i* theta = 1 sigma_u / sqrt[(T*sigma_a^2 + sigma_u^2)]* 解读 xtreg,re 的预计截止use product.dta, clearxtreg logy logk logl, re* R2* > Rsq: within corr{(x_itxm_i)*b_r, y_itym_i}^2* > Rsq: between corr{xm_i*b_r,ym_i}^2* > Rsq: overall corr{x_it*b_r,y_it}^2* 上述R2皆不是真真意思上的R2，果为Re模型采与的是GLS 预计.** rho = sigma_u^2 / (sigma_u^2 + sigma_e^2)dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2)** corr(u_i, X) = 0 (assumed)* 那是随机效力模型的一个最要害，也节制该模型应用的一个要害假设* 然而，采与牢固效力模型，咱们不妨大略预计出corr(u_i, X) xtreg market invest stock, fe** 时间效力、模型的筛选战罕睹问题*目录* 时间效力（单背牢固(随机)效力模型）* 模型的筛选* 里板数据罕睹问题* 里板数据的变换** 时间效力** 单背牢固效力模型* y_it = u_i + x_it*b + e_it* 单背牢固效力模型* y_it = u_i + f_t + x_it*b + e_itqui tab year, gen(yr)drop yr1xtreg logy logk logl yr*, fe* 随机效力模型中的时间效力xtreg logy logk logl yr*, fe** 模型的筛选** 牢固效力模型仍旧Pooled OLS？xtreg logy logk logl yr*, fe /*Wald 考验*/qui tab id, gen(dum) /*LR考验*/reg logy logk logl /*POLS*/est store m_olsreg logy logk logl dum*,noconsest store m_felrtest m_ols m_feest table m_*, b(%6.3f) star(0.1 0.05 0.01)* RE vs Pooled OLS？* H0: Var(u) = 0* 要领一：BP 考验xtreg logy logk logl, rexttest0* FE vs RE?* y_it = u_i + x_it*b + e_it* Hausman 考验* 基础思维：如果 Corr(u_i,x_it) = 0, Fe 战 Re 皆是普遍的，然而Re更灵验* 如果 Corr(u_i,x_it)!= 0, Fe 仍旧灵验，然而Re是有偏偏的* 基础步调***情形1：huasman为正数xtreg logy logk logl, feest store m_fextreg logy logk logl, reest store m_rehausman m_fe m_re*** 情形2：qui xtreg logy h inv gov open,feest store fequi xtreg logy h inv gov open,reest store rehausman fe re* Hausman 考验值为背怎么办？* 常常是果为RE模型的基础假设 Corr(x,u_i)=0 无法得到谦脚* 考验历程中二个模型的圆好协圆好矩阵皆采与Fe模型的 hausman fe re, sigmaless* 二个模型的圆好协圆好矩阵皆采与Re模型的hausman fe re, sigmamore*== 为何有些变量会被drop掉？use nlswork.dta, cleartsset idcode yearxtreg ln_wage hours tenure ttl_exp, fe /*仄常真止*/* 爆收种族假制变量tab race, gen(dum_race)xtreg ln_wage hours tenure ttl_exp dum_race2 dum_race3, fe * 为何 dum_race2 战 dum_race3 会被 dropped ?* 牢固效力模型的设定：y_it = u_i + x_it*b + e_it (1)* 由于个体效力 u_i 不随时间改变，* 果此若 x_it 包罗了所有不随时间改变的变量，* 皆市与 u_i 形成多沉共线性，Stata会自动简略之.*******同圆好、序列相闭战截里相闭问题* 简介* y_it = x_it*b + u_i + e_it** 由于里板数据共时兼瞅了截里数据战时间序列的特性，* 所以同圆好战序列相闭必定会存留于里板数据中；* 共时，由于里板数据中每个截里（公司、部分、国家、天区）之间还大概存留内正在的通联，* 所以，截里相闭性也是一个需要思量的问题.** 此前的领会依好三个假设条件：* （1） Var[e_it] = sigma^2 共圆好假设* (2) Corr[e_it, e_its] = 0 序列无闭假设* (3) Corr[e_it, e_jt] = 0 截里不相闭假设** 当那三个假设无法得到谦脚时，便分别出现同圆好、序列相闭战截里相闭问题；* 咱们一圆里要采与百般要领去考验那些假设是可得到了谦脚；* 另一圆里，也要正在那些假设无法谦脚时觅供合理的预计要领.* 假设考验*== 组间同圆好考验（截里数据的特性）* Var(e_i) = sigma_i^2* Fe 模型xtreg logy logk logl, fexttest3* Re 模型* Re自己已经较大程度的思量了同圆好问题，主要体当前sigma_u^2上*== 序列相闭考验* Fe 模型xtserial logy logk loglxtserial logy logk logl, output* Re 模型xtreg logy logk logl, rexttest1 /*提供多个统计考验量*/*== 截里相闭考验* xttest2下令 H0: 所有截里残好的相闭系数皆相等xtreg logy logk logl, fexttest2* 由于考验历程中真止了SUE预计，所以央供T>Nxtreg logy logk logl if id<6, fexttest2* xtcsd 下令（提供了三种考验要领）xtreg logy logk logl, fextcsd , pesaran /*Pesaran()*/xtcsd , friedman /*Friedman(1937)*/xtreg logy logk logl, rextcsd , pesaran* 预计要领*== 同圆好稳健型预计xtreg logy h inv gov open, fe robustest store fe_rbxtreg logy h inv gov open, fe robustest store fe* 截止对付比esttab fe_rb fe, b(%6.3f) se(%6.3f) mtitle(fe_rb fe)*== 序列相闭预计* 一阶自相闭 xtregar, fe/re* 模型： y_it = u_i + x_it*b + v_it (1)* v_it = rho*v_it1 + z_it (2)xtregar logy h inv gov open, feest store fe_ar1xtregar logy h inv gov open,fe lbi /*BaltagiWu LBI test*/ * 证明：* (1) 那里的DurbinWatson =1.280677 具备较为搀纯的分集，* 分歧于时间序列中的DW统计量.* (2) 其临界值睹Bhargava et al. (1982, The Review of Economic Studies 49:553549)* (3) BaltagiWu LBI = 1.4739834 基础上不太大的参照价格，* 果为他们并已提供临界值表，而该统计量的分集又相称搀纯xtregar logy h inv gov open, reest store re_ar1* 二阶段预计xtregar logy h inv gov open, fe twostepest store fe_ar1_two* 截止对付比xtreg logy h inv gov open, feest store felocal models "fe fe_ar1 re_ar1 fe_ar1_two "esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w corr)* 下阶自相闭* newey2 下令newey2 logy h inv gov open, lag(2)*== 组间相闭（截里相闭）* cluster 选项use xtcs.dta, clearxtreg logy h inv gov open, fe cluster(id)est store fe_clusterxtreg logy h inv gov open, re cluster(id)est store re_cluster************瞅往日很晕，采与一种概括处理：* xtgls 下令* xtpcse 下令* 简介（Greene, 2000, chp15）** 模型* y = X*b + U* 沉面正在于思量搞扰项 U 的结构，包罗* (1) 同圆好 (2) 序列相闭 (3) 截里相闭性* 应用范畴：多用于“大T，小N”型里板数据，* 果为，此时截里的同量性本去不是沉面闭注的，而时序特性则较为明隐* 果此，模型设定中已思量个体效验* | y_1 | | X_1 | | e_1 |* | y_2 | | X_2 | | e_2 |* | . | | . | | . |* | . | = | . | * b + | . |* | . | | . | | . |* | y_n | | X_n | | e_n |* 截里同圆好* E[e_i*e_i'] = s_i^2** | s1^2 0 ... 0 |* | 0 s2^2 ... 0 |* | . |* V = | . |* | . |* | 0 0 ... sn^2 |* 截里相闭* E[e_i*e_i'] = s_ij^2** | s_11 s_12 ... s_1n |* | s_21 s_22 ... s_2n |* | . |* V = | . | * sigma^2* | . |* | s_n1 s_n2 ... s_nn |* 序列相闭* E[e_i*e_i'] = s_i^2 * M_i** | s1^2*M_1 0 ... 0 |* | 0 s2^2*M_2 ... 0 |* | . |* V = | . |* | . |* | 0 0 ... sn^2*M_n |* GLS 预计* b = [X'V^{1}*X]^{1}[X'V^{1}y]* Var[b] = [X'V^{1}*X]^{1}* 预计战考验*=== xtgls 下令use invest2.dta, clearxtgls market invest stock, panels(iid) /*iid, 等共于Pooled OLS*/est store g_0reg market invest stockest store g_olsxtgls market invest stock, panel(het) /*截里同圆好*/est store g_phetxtgls market invest stock, corr(ar1) /*所有截里具备相共的自相闭系数*/est store g_par1xtgls market invest stock, corr(psar1) /*每个截里有自己的自相闭系数*/est store g_psar1xtgls market invest stock, panel(corr) /*截里间相闭且同圆好*/est store g_pcorrxtgls market invest stock, p(c) corr(ar1)est store g_all* 考验同圆好xtgls market invest stock, panel(het) /*截里同圆好*/xttest3* 考验序列相闭xtserial market invest stock* 考验截里相闭xtgls market invest stock, panel(het)xttest2* 截止对付比xtreg market invest stock, feest store felocal models "fe g_0 g_ols"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w)local models "fe g_phet g_par1 g_psar1 g_pcorr g_all"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w) compress* 证明：* 为何 xtgls 不报告 R2 ?* 果为此时的R2一定介于0战1之间，不具备保守线性返回模型中R2的含意*=== xtpcse 下令* 默认假设：存留截里同圆好战截里相闭* 预计要领：OLS 大概 PraisWinsten 返回* 有别于xtgls(采与FGLS预计)* 更适于圆块里板 N不大(1020),T不大(1040)* 与 xtgls 的辨别：预计要领分歧* xtgls 采与GLS举止预计，而xtpsce采与OLS.use invest2.dta, clearxtpcse invest market stockest store pcse_full /*OLS预计，安排同圆好战截里相闭后的尺度误*/xtgls invest market stock, panels(correlated)est store m_xtgls /*FGLS预计，同圆好战截里相闭*/ xtpcse invest market stock, correlation(ar1)est store pcse_ar1 /*Prais_Winsten预计，共共的自相闭系数*/xtpcse invest market stock, correlation(ar1) hetonlyest store pcse_ar1 /*不思量截里相闭*/* 截止对付比xtreg invest market stock, feest store felocal models "fe pcse_full m_xtgls pcse_ar1 pcse_ar1"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w)* xtpcse 的截止与 xtgls 非常相似，然而前者不妨报告R2 * 当N较大时，采与该要领会非常费时，* 果为圆好协圆好矩阵是采与OLS预计的残好预计的use xtcs.dta, clearxtdesxtpcse tl size ndts tang tobin npr /*约莫58分钟*/est store xtpcsextreg tl size ndts tang tobin npr, feest store fe* 截止对付比local models "fe xtpcse"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w)* 系数预计值有较大不共，然而标记战隐著性是普遍的. ***动背里板模型 Part I** 动背里板模型** 简介* 一阶好分IV预计量(Anderson and Hisao, 1982)* 一阶好分GMM预计量(Arellano and Bond, 1991)* 系统GMM预计量(AB,1995; BB,1998)* == 简介 ==** 模型： y[it] = a0*y[it1] + a1*x[it] + a2*w[it] + u_i + e[it]** 特性：阐明变量中包罗了被阐明变量的一阶滞后项* 不妨利害仄止里板，然而要包管时间连绝* x[it] ——庄重中死变量 E[x_it,e_is] =0 for all t and s* 即，所有搞扰项与x皆不相闭* w[it] ——先决变量 E[w_it,e_is]!=0 for s<t, butE[x_it,v_is]=0 for all s>=t* 即，前期搞扰项与当期x相闭，然而当期战已去期搞扰项与x不相闭.* y[it1]——内死变量 E[x_it,e_is]!=0 for s<=t* 即，前期战当期，更加是当期搞扰项与x相闭* u_i 随机效力，正在截里间是 iid 的.u_i 与 e[it] 独力.** 内死性问题：* (1) 若假设 u_i 为随机效力，则 Corr(y[i,t1], u_i) !=0* (2) 若假设 u_i 为个体效力，需要设念子去除之，果为数据为"大N小T"* 一阶好分： D.y[i,t1] = y[i,t1] y[i,t2]* D.e[i,t] = e[i,t] e[i,t1]* 隐然： Corr(D.y[i,t1], D.e[i,t]) !=0, 好分圆程存留内死问题；* 组内去心： ym[i,t1] = y[i,t1] 1/(T1)*(y[i,t1]+...+y[i,T])* em[i,t] = e[i,t] 1/T*(e[i,t]+e[i,t1]+...+e[i,T])* 隐然： Corr(ym[i,t1], em[i,t]) !=0, 仍旧存留内死性问题** 处理办法：IV预计大概GMM预计，采用符合的工具变量** 矩条件： E[e_it,z_it] = 0*========================================*========= 一阶好分 IV 预计量 ============*========Anderson and Hisao(1982)========*========================================** 基础思维：采与一阶好分去除个体效力 u_i,* y 的滞后二阶动做 D.y[it1] 的工具变量* 共时，D.y[it2] 也不妨动做 D.y[it1] 的工具变量use abdata.dta, cleardes /*变量的定义*/tsset id year* 模型: n_it = b1*n_it1 + b2*n_it2* + b3*w_it + b4*w_it1* + b5*k_it + b6*k_it1 + b7*k_it2* + b8*ys_it + b9*ys_it1 + b10*ys_it2*xtivreg n L2.n w L1.w k L1.k L2.k ys L1.ys L2.ysyr1981yr1984 ///(L.n = L3.n), fd** 等价于*xtivreg n L2.n L(0/1).w L(0/2).(k ys) yr1981yr1984 (L.n = L3.n),*====================================*========= 一阶好分GMM预计量 =========*==============AB91==================** L.Hansen (1982) 提出 GMM** Arellano and Bond (1991)** 模型：** y[it] = a0*y[it1] + a1*x[it] + a2*w[it] + u_i + v[it]** 假设条件：* 搞扰项 v[it] 不存留序列相闭；** 适用范畴：* 大N，小T* 随后，咱们会介绍“小N大T”型动背里板的预计要领** 基础思维：** 正在 Anderson and Hisao(1982) 前提上减少了更多可用的工具变量** 正在 t=3 处，y_i1 不妨动做所有滞后项的工具变量* 正在 t=4 处, y_i1, y_i2 不妨动做所有滞后项的工具变量** D.y[it] = a1*D.y[it1] + a2*D.X[it] + D.v[it] X_it = [x_it, w_it] ** 果此，所有工具变量形成的矩阵如下：* |y_i1 0 0 0 0 0 ... 0 ... 0 D.x_i3 |* | 0 y_i1 y_i2 0 0 0 ... 0 ... 0 D.x_i4 |* | 0 0 0 y_i1 y_i2 y_i3 ... 0 ... 0 D.x_i5 |* Z_i = | . . . . . . . . . . . |* | . . . . . . . . . . . |* | 0 0 0 0 0 0 ... y_i1 ... yiT2 D.x_iT |** Z_i 的止数为 T2* Z_i 的列数为 sum_(m=1)^(T2){m} + K, K 为 X 的列数** 以 T =7，K=3 为例，则 Z_i 的列数为 (1+2+3+4+5)+3 = 18 ** 设定工具变量的基根源基本则：** 对付内死变量的处理：与上述要领类似，* 即滞后二阶以上的火仄变量均可动做好分圆程的工具变量 (GMM type)* 对付先决变量的处理：滞后一阶以上的火仄变量均可动做工具变量 (GMM type)* 对付中死变量的处理：自己动做自己的工具变量 (Standard IV)*== 例1：一阶好分预计量的基础设定* 阐明变量仅包罗 y_it 的一阶滞后项，默认设定* 搞扰项共圆好，一阶段预计use abdata.dta, clearxtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984est store ab_0* 截止释疑** 1 工具变量的个数是怎么样决定的？(xtdpd, p.74)* 中死变量的工具变量等于中死变量的个数* L(0/1).w L(0/2).(k ys) yr1980yr1984 共 13个* 内死变量的工具变量：共 27个*list id year n L2.n DL2.n if id == 140** 好分圆程的可用功具变量** year of Years of Number of* difference equation instruments instruments* 1978 1976 1* 1979 19761977 2* 1980 19761978 3* 1981 19761979 4* 1982 19761980 5* 1983 19761981 6* 1984 19761982 7** 28个* 2 GMMtype 战 Standard 二种典型的工具变量有何好别？(xtabond,p.27)** GMMtype 是针对付内死变量大概先决变量而止的工具变量，有多列* Standard 是针对付中死变量而止的工具变量，惟有一列 * 过分辨别考验（工具变量的使用是可合理）*estat sargan** 证明：* H0: overidentifying restrictions are valid* 那里，咱们中断了本假设，然而AB91指出，当搞扰项存留同圆好时，* Sargan考验倾背于过分中断本假设，果此此处得到的论断本去不可疑.* 采与二阶段预计，而后再真止Sargan考验较为稳妥：*xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984,twostepestat sargan** 证明：不过，AB91创制，* 若存留同圆好，正在二阶段预计后真止Sargan考验往往倾背于* Underreject问题，即过分交受本假设.* 常常而止，那很大概是咱们的模型设定不当，大概是工具变量的采用分歧理.* 搞扰项序列相闭考验** AB91 一阶好分预计量央供本初模型的搞扰项不存留序列相闭，* 隐然，好分后的搞扰项必定存留一阶序列相闭，* 果此，咱们需要考验好分圆程的残好是可存留二阶(大概更下阶)序列相闭即可** 默认，二阶序列相闭考验xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984,vce(robust)estat abond* 证明：若存留二阶相闭，则表示着采用的工具变量分歧理 * 下阶序列相闭考验xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984,vce(robust)artest(3)estat abond*== 稳健型预计xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) robust est store ab4_one_rb* 此时，无法 Sargan 统计量estat sargan*== 二阶段预计 AB91(Tab4(a2)) 思量同圆好问题* 利用第一阶段预计得到的残好构制圆好协圆好矩阵，从而沉新预计模型*xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) twostep est store ab4_twostep* 此时，Sargan 考验无法中断本假设*estat sargan* AB91要害提议：* (1) 采与一阶段预计截止举止系数隐著性的统计预计；* (2) 采与二阶段预计给出的 Sargan统计量举止模型筛选** 进一步的计划：* 虽然AB91提议不要采与二阶段(非稳健)预计举止统计预计，* 然而Windmeijer(,Journal of Econometrics)通过模拟领会标明，* 采与纠偏偏(biascorrected,WC)后的稳健性VCE，不妨更好天举止统计预计xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) twostep vce(robust)est store ab_wc_rb* 截止对付比local mm "ab4_one_rb ab4_twostep ab_wc_rb"esttab `mm',mtitle(`mm')** 论断：* AB91_onestep_rb 的截止与 AB91_WC_rb 的参数预计相共，后者尺度误较大* 提议采与 Windmeijer() 二阶段纠偏偏稳健型预计量.*== 先决变量的设定* 由于当期搞扰项隐然会做用后绝 w 战 k，所以把它们设定为先决变量更为合理* 注意: 此时逗号前便不克不迭再出现那二个变量了xtabond n L(0/1).ys yr1980yr1984, lags(2) twostep ///pre(w k)est store ab4_preestat sargan* 从 Sargan p值去瞅，将 w 战 k 设为先决变量好像更为合理 * pre() 选项的设定xtabond n L(0/1).ys yr1980yr1984, lags(2) twostep ///pre(w,lag(1,3)) pre(k,lag(2,.))** 阐明：* pre(w,lag(1,3))* lag(1,3) 中的 1 表示 L.w 也会动做阐明变量，* lag(1,3) 中的 3 表示 L2.w 战 L3.w 不妨动做 L.w 的工具变量，然而 L4.w 不不妨；* pre(k,lag(2,.))* lag(2,.) 中的 2 表示 L1.k, L2.k 皆市动做阐明变量；* lag(2,.) 中的 . 表示 L3.k, L4.k ... 皆不妨动做 L2.k 的工具变量* 证明：上述设定皆可附加 vce(robust) 选项以便赢得稳健型尺度误.*== 工具变量过多引导的问题* 过多的工具变量往往引导过分拘束假设无法谦脚* 预计截止的灵验性落矮，果为部单干具变量与内死大概先决变量的相闭性很强* 对付矩阵尺寸的央供减少* 办理办法：节制最大的滞后阶数xtabond n L(0/1).ys yr1980yr1984, lags(2) twostep ///pre(w,lag(1,3)) pre(k,lag(2,3))*== 系数预计的上下限* 虽然 Pooled OLS 战 Fixed Effects 预计皆是有偏偏的，* 然而是二者却决断了 y_it1 真是预计值的上界战下界* 换止之， Pooled OLS 预计下估了真正在值* 而 Fixed effects 预计则矮估了真正在值*=======================================*============= 系统GMM预计量 ===========*==============AB95,BB98===============*=======================================* Arellano and Bover (1995),* Blundell and Bond(1998)* Haha(1999), Judson and Owen(1999)** 适用范畴：* 大N，小T** AB91 的限制* (1) 当 y[i,t1] 的系数较大，即 y[i,t] 表示出热烈的序列相闭时；* (2) 当 Var[u_i]/Var[e_it] 较大时，即个体效力的动摇近大于惯例搞扰项的动摇；* AB91 的表示短好.* 本果正在于，火仄滞后项是好分圆程中内死变量的强工具变量；* 果此，需要觅供更好的工具变量**== 基础思维：** 几个观念** 火仄值—— y x* 火仄圆程：y_it = b1*y_it1 + b2*x_it + u_i + v_it* 可用功具变量：D.y[i,t1] 不妨动做 y[i,t1] 的工具变量* 可用功具变量：y[i,t2],y[i,t3]...皆不妨动做 D.y[i,t1]的工具变量** 好分GMM预计量与系统GMM预计量的辨别** (1) 好分GMM预计量采与火仄值的滞后项动做好分变量的工具变量；* 如 y_it3 是 D.y_it1 的工具变量* (2) 系统GMM预计量进一步采与好分变量的滞后项动做火仄值的工具变量；* 相称于进一步减少了可用的工具变量，* 且预计历程中共时使用火仄圆程战好分圆程* (3) 主要本果正在于好分GMM的工具变量往往是强工具变量，即 corr(X,Z) 过矮** xtabond2 下令Roodman()** 既不妨预计好分 GMM 预计量，也不妨预计系统 GMM 预计量；* 共时不妨预计普遍化的返回模型* 提供二阶自相闭考验，Sargan考验，Hansen考验，以及工具变量中死性考验** xtdpdsys 下令 Stata官圆下令，以 xtabond2下令为前提** xtabond2 下令** 适用于 Stata810 各个版本* 既不妨完毕一阶好分GMM预计* 也不妨完毕系统GMM预计* 仔细参照资料：* Roodman, D. . How to Do xtabond2:* An Introduction to "Difference" and "System" GMM in Stata. * Working Paper 103. Center for Global Development, Washington.*== 使用 xtabond2 下令得到一阶好分预计量* 附加 noleveleq 选项即可* 采与 xtabond2 预计 AB91 文中表4 的截止* Arellano and Bond (1991), Table 4* Column (a1)use abdata, clearxtabond2 n L(1/2).n L(0/1).w L(0/2).(k ys) yr1980yr1984, ///gmm(L.n) iv(L(0/1).w l(0/2).(k ys) yr1980yr1984) /// nomata noleveleq small* gmm(*) 挖写内死变量的称呼* iv(*) 挖写所有中死变量以及自己设定的工具变量的称呼 * noleveleq 表示预计历程中不使用火仄圆程，即为好分GMM预计量est store aba1_ab2xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2)est store aba1_abesttab aba1_ab2 aba1_ab, mtitle(aba1_ab2 aba1_ab)* Column (a2)* 二阶段预计xtabond2 n L(0/1).w L(0/2).(k ys) L(1/2).n yr1980yr1984, /// gmm(L.n) iv(L(0/1).w l(0/2).(k ys) yr1980yr1984) /// noleveleq small twostepest store aba2_ab2xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) twostep est store aba2_abesttab aba2_ab2 aba2_ab, mtitle(aba2_ab2 aba2_ab)*=== 一阶好分预计量部领会释变量内死* 一阶段预计xtabond2 n L.n L(0/1).(w k) yr1980yr1984, ///gmm(L.(w k n)) iv(yr1980yr1984) ///noleveleq noconstant small robustest store fd_1s* 二阶段预计xtabond2 n L.n L(0/1).(w k) yr1980yr1984, ///gmm(L.(w k n)) iv(yr1980yr1984) ///noleveleq robust small twostepest store fd_2sesttab fd_1s fd_2s, mtitle(fd_1s fd_2s)*== 系统 GMM 预计量xtabond2 n L.n L(0/1).(w k) yr1978yr1984, ///gmm(L.n) iv(L(0/1).(w k) yr1978yr1984) ///robust small** 阐明：** gmm() 选项* 设定内死变量战先决变量，它们的工具变量将有多列，GMM** iv() 选项* 设定庄重中死变量，动做自己的工具变量，正在工具变量矩阵中仅占一列** 好分圆程战火仄圆程* 默认情况下，好分圆程战火仄圆程皆介进预计** robust 选项* (1) 对付于一阶段预计(不附加twostep选项)，* 采与保守同圆好序列相闭稳健型预计量预计尺度误；* (2) 对付于二阶段预计(附加twostep选项)，* 采与Windmeijer()纠偏偏预计量预计尺度误；* Sargan考验* Sargan test of overid. restrictions: chi2(34)* 34 = 47 13 （13是中死变量的个数，包罗常数项）* 可睹，无论采与Sargan考验仍旧Hansen J考验，皆中断了工具变量合理的本假设* 指定工具变量应用于火仄圆程仍旧好分圆程* 比圆，假设 w, k, 以及年度假制变量皆是中死的(天然，那一假设大概本去分歧理)*xtabond2 n L.n L(0/1).(w k) yr1978yr1984, gmm(L.n) /// iv(L(0/1).(w k) yr1978yr1984, eq(level)) ///robust small twostepest store sys_wkexg* 将 w 战 k 皆设定为内死变量* yr dummies 仅出当前火仄圆程中xtabond2 n L.n L(0/1).(w k) yr1978yr1984, ///gmm(L.(w k n)) iv(yr1978yr1984, eq(level)) ///robust small twostepest store sys_wkendog_lev* yr dummies 共时出当前火仄圆程战好分圆程中xtabond2 n L.n L(0/1).(w k) yr1978yr1984, ///gmm(L.(w k n)) iv(yr1978yr1984, eq(both)) ///robust small twostepest store sys_wkendog_both* 截止对付比local mm "fd_1s fd_2s sys_wkexg sys_wkendog_lev sys_wkendog_both"esttab `mm', mtitle(`mm') compress** xtdpdsys 下令** 仅适用于 Stata10 版本* 华夏上市公司资本结构动背安排use xtcs.dta, clearqui tab year, gen(yr)drop yr1* Case I：假设所有阐明变量均为中死变量(L.tl除中) *local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtdpdsys tl `xx', vce(robust) twostepdis ln(2) / (1 _b[L1.tl]) /*安排半周期*/est store dycs_2sys* 设定证明：* (1) 无需设定 L.tl, 果为 xtdpdsys 默认设定被阐明变量的滞后一期为阐明变量，* 而且该变量被自动设定为内死变量；* (2) 稳健型预计采与 vce(robust) 选项加以设定；* (3) 该下令不会自动举止 AR(2)序列相闭考验战Sargan过分辨别考验* 序列相闭考验estat abond* 过分辨别考验estat sargan /*稳健型预计下无法赢得Sargan统计量*/* 精确要领local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtdpdsys tl `xx', twostepestat sargan* Case II：假设Tobin战npr为先决变量local xx "size tang ndts yr*" /*此处不该再包罗 tobin战npr*/ xtdpdsys tl `xx', pre(tobin npr,lag(1,.)) twostepest store dycs_2preestat abondestat sargan* Case III：假设Tobin战npr为内死变量local xx "size tang ndts yr*" /*此处不该再包罗 tobin战npr*/ xtdpdsys tl `xx', endog(tobin npr,lag(1,.)) twostepest store dycs_2endogestat abondestat sargan* Case IV: 假设除了年度假制变量战公司规模中，所有阐明变量均为先决变量local xx "size yr*"xtdpdsys tl `xx', pre(tobin npr,lag(1,.)) ///pre(tang ndts) twostepest store dycs_2preAllestat abondestat sargan* 假设除 L.tl 中的所有阐明变量中死最为符合.* OLS 预计(安排系数的上限)local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"reg tl L.tl `xx', robustest store dycs_2OLS* FE 预计(安排系数的下限)local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtreg tl L.tl `xx', robust feest store dycs_2FE* 截止对付比local mm "dycs_2sys dycs_2pre dycs_2endog dycs_2preAll dycs_2OLS dycs_2FE"local ss "ar2 ar2p sargan sar_df sarganp"esttab `mm',mtitle(`mm') scalar(`ss') compress* 论断：* (1) 预计出的安排系数介于合理的范畴内，即OLS战FE之间；* (2) 便模型设定而止，dycs_2sys 最为合理，即把所有阐明变量均设定为中死变量.** 安排半周期为：local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtdpdsys tl `xx', vce(robust) twostepdis ln(2) / (1 _b[L1.tl]) /*安排半周期*/xtabond2 logy l.logy h inv gov open fdi yr4yr14, ///gmm(l.logy h) iv(gov open fdi yr4yr14)robust twostep。

STATA常用命令大全

STATA 常用命令大全调整变量格式：format x1 %10.3f ——将x1的列宽固定为10，小数点后取三位format x1 %10.3g ——将x1的列宽固定为10，有效数字取三位format x1 %10.3e ——将x1的列宽固定为10，采用科学计数法format x1 %10.3fc ——将x1的列宽固定为10，小数点后取三位，加入千分位分隔符format x1 %10.3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符format x1 %-10.3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符，加入“-”表示左对齐合并数据：use "C:\Documents and Settings\xks\桌面\2006.dta", clearmerge using "C:\Documents and Settings\xks\桌面\1999.dta"——将1999和2006的数据按照样本（observation）排列的自然顺序合并起来use "C:\Documents and Settings\xks\桌面\2006.dta", clearmerge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort——将1999和2006的数据按照唯一的（unique）变量id来合并，在合并时对id进行排序（sort）建议采用第一种方法。

对样本进行随机筛选：sample 50在观测案例中随机选取50%的样本，其余删除sample 50,count在观测案例中随机选取50个样本，其余删除查看与编辑数据：browse x1 x2 if x3>3 （按所列变量与条件打开数据查看器）edit x1 x2 if x3>3 （按所列变量与条件打开数据编辑器）数据合并（merge）与扩展（append）merge表示样本量不变，但增加了一些新变量；append表示样本总量增加了，但变量数目不变。

stata命令大全(全)

********* 面板数据计量分析与软件实现 *********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计） * 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，侧重于比较C-D与Translog生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI 溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel 格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

STATA最常用命令大全

statasave命令FileSave As例1. 表1.为某一降压药临床试验数据，试从键盘输入Stata，并保存为Stata格式文件。

STATA数据库的维护排序SORT 变量名1 变量名2 ……变量更名rename 原变量名新变量名STATA数据库的维护删除变量或记录drop x1 x2 /* 删除变量x1和x2drop x1-x5 /* 删除数据库中介于x1和x5间的所有变量(包括x1和x5)drop if x<0 /* 删去x1<0的所有记录drop in 10/12 /* 删去第10~12个记录drop if x==. /* 删去x为缺失值的所有记录drop if x==.|y==. /* 删去x或y之一为缺失值的所有记录drop if x==.&y==. /* 删去x和y同时为缺失值的所有记录drop _all /* 删掉数据库中所有变量和数据STATA的变量赋值用generate产生新变量generate 新变量＝表达式generate bh=_n /* 将数据库的内部编号赋给变量bh。

generate group=int((_n-1)/5)+1 /* 按当前数据库的顺序，依次产生5个1，5个2，5个3……。

直到数据库结束。

generate block=mod(_n,6) /* 按当前数据库的顺序，依次产生1,2,3,4,5,0。

generate y=log(x) if x>0 /* 产生新变量y，其值为所有x>0的对数值log(x)，当x<=0时，用缺失值代替。

egen产生新变量set obs 12egen a=seq() /*产生1到N的自然数egen b=seq(),b(3) /*产生一个序列，每个元素重复＃次egen c=seq(),to(4) /*产生多个序列，每个序列从1到＃egen d=seq(),f(4)t(6) /*产生多个序列，每个序列从#1到＃2encode 字符变量名，gen(新数值变量名)作用：将字符型变量转化为数值变量。

stata命令大全(全)

*********面板数据计量分析与软件实现*********之迟辟智美创作说明：以下do文件相当一部份内容来自于中山年夜学连玉君STATA教程，感谢他的贡献.自己做了一定的修改与筛选.*面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE（pols混合最小二乘估计）* 3.异方差、序列相关和截面相关检验* 4.静态面板模型（DIDGMM,SYSGMM）* 6.面板协整分析（FMOLS,DOLS）*** 说明：15均用STATA软件实现， 6用GAUSS软件实现.* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，偏重于比力CD与Translog生产函数，一步法与两步法的区别.常应用于地域经济不同、FDI溢出效应（Spillovers Effect）、工业行业效率状况等.* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用.常应用于空间溢出效应（R&D）、财政分权、处所政府公共行为等.** 一、经常使用的数据处置与作图** 指定面板格式xtset id year（id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式呈现*/sort year id /*是以DEA格式呈现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何获得连续year或id编号（当完成上述把持时，year或id就不连续，为形成panel格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保管变量或保管观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式呈现sort year id /*是以DEA格式呈现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /暗示在每个省份再追加5年，用于面板数据/ tsset*或者tsdes.tsappend,add(8) /暗示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*发生一阶滞后项)，同样可发生二阶滞后项*/gen dy=D.y /*发生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列.可用命令aorder或者order fdi open insti** 二、静态面板模型** 简介* 面板数据的结构(兼具截面资料和时间序列资料的特征)use product.dta, clearbrowsextset id yearxtdes** 固定效应模型** 实质上就是在传统的线性回归模型中加入 N1 个虚拟变量，* 使得每个截面都有自己的截距项，* 截距项的分歧反映了个体的某些不随时间改变的特征** 例如： lny = a_i + b1*lnK + b2*lnL + e_it* 考虑中国29个省份的CD生产函数*******画图**散点图+线性拟合直线twoway (scatter logy h) (lfit logy h)*散点图+二次拟合曲线twoway (scatter logy h) (qfit logy h)*散点图+线性拟合直线+置信区间twoway (scatter logy h) (lfit logy h) (lfitci logy h)*按分歧个体画出散点图和拟合线，可以以做出fe vs re的初判断*twoway (scatter logy h if id<4) (lfit logy h if id<4) (lfit logy h if id==1) (lfit logy h if id==2) (lfit logy h if id==3)*按分歧个体画散点图,so beautiful!!!*graph twoway scatter logy h if id==1 || scatter logy h ifid==2,msymbol(Sh) || scatter logy h if id==3,msymbol(T) || scatter logy h if id==4,msymbol(d) || , legend(position(11) ring(0) label(1 "北京") label(2 "天津") label(3 "河北") label(4 "山西")) **每个省份logy与h的散点图，并将各个图形合并twoway scatter logy h,by(id) ylabel(,format(%3.0f))xlabel(,format(%3.0f))*每个个体的时间趋势图*xtline h if id<11,overlay legend(on)* 一个例子：中国29个省份的CD生产函数的估计tab id, gen(dum)list* 回归分析reg logy logk logl dum*,est store m_olsxtreg logy logk logl, feest store m_feest table m_ols m_fe, b(%6.3f) star(0.1 0.05 0.01)* Wald 检验test logk=logl=0test logk=logl* stata的估计方法解析* 目的：如果截面的个数非常多，那么采纳虚拟变量的方式运算量过年夜* 因此，要寻求合理的方式去除失落个体效应* 因为，我们关注的是 x 的系数，而非每个截面的截距项 * 处置方法：** y_it = u_i + x_it*b + e_it (1)* ym_i = u_i + xm_i*b + em_i (2) 组内平均* ym = um + xm*b + em (3) 样本平均* (1) (2), 可得：* (y_it ym_i) = (x_it xm_i)*b + (e_it em_i) （4） /*within estimator*/* (4)+(3), 可得：* (y_itym_i+ym) = um + (x_itxm_i+xm)*b + (e_item_i+em) * 可重新暗示为：* Y_it = a_0 + X_it*b + E_it* 对该模型执行 OLS 估计，即可获得 b 的无偏估计量**stata后台把持，揭开fe估计的神秘面纱！！！egen y_meanw = mean(logy), by(id) /*个体内部平均*/egen y_mean = mean(logy) /*样本平均*/egen k_meanw = mean(logk), by(id)egen k_mean = mean(logk)egen l_meanw = mean(logl), by(id)egen l_mean = mean(logl)gen dyw = logy y_meanwgen dkw = logk k_meanwgen dlw=logll_meanwreg dyw dkw dlw,noconsest store m_statagen dy = logy y_meanw + y_meangen dk = logk k_meanw +k_meangen dl=logll_meanw+l_meanreg dy dk dlest store m_stataest table m_*, b(%6.3f) star(0.1 0.05 0.01)* 解读 xtreg,fe 的估计结果xtreg logy h inv gov open,fe* R^2* y_it = a_0 + x_it*b_o + e_it (1) pooled OLS* y_it = u_i + x_it*b_w + e_it (2) within estimator* ym_i = a_0 + xm_i*b_b + em_i (3) between estimator** > Rsq: within 模型(2)对应的R2，是一个真正意义上的R2 * > Rsq: between corr{xm_i*b_w,ym_i}^2* > Rsq: overall corr{x_it*b_w,y_it}^2***** sigma_u, sigma_e, rho* rho = sigma_u^2 / (sigma_u^2 + sigma_e^2)dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2)** 个体效应是否显著？* F(28, 373) = 338.86 H0: a1 = a2 = a3 = a4 = a29* Prob > F = 0.0000 标明，固定效应高度显著*如何获得调整后的 R2,即 adjR2 ？ereturn listreg logy h inv gov open dum**拟合值和残差* y_it = u_i + x_it*b + e_it* predict newvar, [option]/*xb xb, fitted values; the defaultstdp calculate standard error of the fitted valuesue u_i + e_it, the combined residualxbu xb + u_i, prediction including effectu u_i, the fixed or randomerror componente e_it, the overall error component */xtreg logy logk logl, fepredict y_hatpredict a , upredict res,epredict cres, uegen ares = a + reslist ares cres in 1/10** 随机效应模型** y_it = x_it*b + (a_i + u_it)* = x_it*b + v_it* 基本思想：将随机干扰项分成两种* 一种是不随时间改变的，即个体效应 a_i* 另一种是随时间改变的，即通常意义上的干扰项 u_it * 估计方法：FGLS* Var(v_it) = sigma_a^2 + sigma_u^2* Cov(v_it,v_is) = sigma_a^2* Cov(v_it,v_js) = 0* 利用Pooled OLS，Within Estimator, Between Estimator* 可以估计出sigma_a^2和sigma_u^2,进而采纳GLS或FGLS* Re估计量是Fe估计量和Be估计量的加权平均* yr_it = y_it theta*ym_i* xr_it = x_it theta*xm_i* theta = 1 sigma_u / sqrt[(T*sigma_a^2 + sigma_u^2)]* 解读 xtreg,re 的估计结果use product.dta, clearxtreg logy logk logl, re* R2* > Rsq: within corr{(x_itxm_i)*b_r, y_itym_i}^2* > Rsq: between corr{xm_i*b_r,ym_i}^2* > Rsq: overall corr{x_it*b_r,y_it}^2* 上述R2都不是真正意义上的R2，因为Re模型采纳的是GLS估计.** rho = sigma_u^2 / (sigma_u^2 + sigma_e^2)dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2)** corr(u_i, X) = 0 (assumed)* 这是随机效应模型的一个最重要，也限制该模型应用的一个重要假设* 然而，采纳固定效应模型，我们可以粗略估计出corr(u_i, X) xtreg market invest stock, fe** 时间效应、模型的筛选和罕见问题*目录* 时间效应（双向固定(随机)效应模型）* 模型的筛选* 面板数据罕见问题* 面板数据的转换** 时间效应** 单向固定效应模型* y_it = u_i + x_it*b + e_it* 双向固定效应模型* y_it = u_i + f_t + x_it*b + e_itqui tab year, gen(yr)drop yr1xtreg logy logk logl yr*, fe* 随机效应模型中的时间效应xtreg logy logk logl yr*, fe** 模型的筛选** 固定效应模型还是Pooled OLS？xtreg logy logk logl yr*, fe /*Wald 检验*/ qui tab id, gen(dum) /*LR检验*/ reg logy logk logl /*POLS*/est store m_olsreg logy logk logl dum*,noconsest store m_felrtest m_ols m_feest table m_*, b(%6.3f) star(0.1 0.05 0.01) * RE vs Pooled OLS？* H0: Var(u) = 0* 方法一：BP 检验xtreg logy logk logl, rexttest0* FE vs RE?* y_it = u_i + x_it*b + e_it* Hausman 检验* 基本思想：如果 Corr(u_i,x_it) = 0, Fe 和 Re 都是一致的，但Re更有效* 如果 Corr(u_i,x_it)!= 0, Fe 仍然有效，但Re是有偏的* 基本步伐***情形1：huasman为正数xtreg logy logk logl, feest store m_fextreg logy logk logl, reest store m_rehausman m_fe m_re*** 情形2：qui xtreg logy h inv gov open,feest store fequi xtreg logy h inv gov open,reest store rehausman fe re* Hausman 检验值为负怎么办？* 通常是因为RE模型的基本假设 Corr(x,u_i)=0 无法获得满足* 检验过程中两个模型的方差协方差矩阵都采纳Fe模型的 hausman fe re, sigmaless* 两个模型的方差协方差矩阵都采纳Re模型的hausman fe re, sigmamore*== 为何有些变量会被drop失落？use nlswork.dta, cleartsset idcode yearxtreg ln_wage hours tenure ttl_exp, fe /*正常执行*/* 发生种族虚拟变量tab race, gen(dum_race)xtreg ln_wage hours tenure ttl_exp dum_race2 dum_race3, fe * 为何 dum_race2 和 dum_race3 会被 dropped ?* 固定效应模型的设定：y_it = u_i + x_it*b + e_it (1)* 由于个体效应 u_i 不随时间改变，* 因此若 x_it 包括了任何不随时间改变的变量，* 城市与 u_i 构成多重共线性，Stata会自动删除之.*******异方差、序列相关和截面相关问题* 简介* y_it = x_it*b + u_i + e_it** 由于面板数据同时兼顾了截面数据和时间序列的特征，* 所以异方差和序列相关肯定会存在于面板数据中；* 同时，由于面板数据中每个截面（公司、个人、国家、地域）之间还可能存在内在的联系，* 所以，截面相关性也是一个需要考虑的问题.** 此前的分析依赖三个假设条件：* （1） Var[e_it] = sigma^2 同方差假设* (2) Corr[e_it, e_its] = 0 序列无关假设* (3) Corr[e_it, e_jt] = 0 截面不相关假设** 当这三个假设无法获得满足时，便分别呈现异方差、序列相关和截面相关问题；* 我们一方面要采纳各种方法来检验这些假设是否获得了满足；* 另一方面，也要在这些假设无法满足时寻求合理的估计方法.* 假设检验*== 组间异方差检验（截面数据的特征）* Var(e_i) = sigma_i^2* Fe 模型xtreg logy logk logl, fexttest3* Re 模型* Re自己已经较年夜水平的考虑了异方差问题，主要体现在sigma_u^2上*== 序列相关检验* Fe 模型xtserial logy logk loglxtserial logy logk logl, output* Re 模型xtreg logy logk logl, rexttest1 /*提供多个统计检验量*/*== 截面相关检验* xttest2命令 H0: 所有截面残差的相关系数都相等xtreg logy logk logl, fexttest2* 由于检验过程中执行了SUE估计，所以要求T>Nxtreg logy logk logl if id<6, fexttest2* xtcsd 命令（提供了三种检验方法）xtreg logy logk logl, fextcsd , pesaran /*Pesaran()*/xtcsd , friedman /*Friedman(1937)*/xtreg logy logk logl, rextcsd , pesaran* 估计方法*== 异方差稳健型估计xtreg logy h inv gov open, fe robustest store fe_rbxtreg logy h inv gov open, fe robustest store fe* 结果比较esttab fe_rb fe, b(%6.3f) se(%6.3f) mtitle(fe_rb fe)*== 序列相关估计* 一阶自相关 xtregar, fe/re* 模型： y_it = u_i + x_it*b + v_it (1)* v_it = rho*v_it1 + z_it (2)xtregar logy h inv gov open, feest store fe_ar1xtregar logy h inv gov open,fe lbi /*BaltagiWu LBI test*/* 说明：* (1) 这里的DurbinWatson =1.280677 具有较为复杂的分布，* 分歧于时间序列中的DW统计量.* (2) 其临界值见Bhargava et al. (1982, The Review of Economic Studies 49:553549)* (3) BaltagiWu LBI = 1.4739834 基本上没有太年夜的参考价值，* 因为他们并未提供临界值表，而该统计量的分布又相当复杂xtregar logy h inv gov open, reest store re_ar1* 两阶段估计xtregar logy h inv gov open, fe twostepest store fe_ar1_two* 结果比较xtreg logy h inv gov open, feest store felocal models "fe fe_ar1 re_ar1 fe_ar1_two "esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w corr)* 高阶自相关* newey2 命令newey2 logy h inv gov open, lag(2)*== 组间相关（截面相关）* cluster 选项use xtcs.dta, clearxtreg logy h inv gov open, fe cluster(id)est store fe_clusterxtreg logy h inv gov open, re cluster(id)est store re_cluster************看过去很晕，采纳一种综合处置：* xtgls 命令* xtpcse 命令* 简介（Greene, 2000, chp15）** 模型* y = X*b + U* 重点在于考虑干扰项 U 的结构，包括* (1) 异方差 (2) 序列相关 (3) 截面相关性* 应用范围：多用于“年夜T，小N”型面板数据，* 因为，此时截面的异质性其实不是重点关注的，而时序特征则较为明显* 因此，模型设定中未考虑个体效果* | y_1 | | X_1 | | e_1 |* | y_2 | | X_2 | | e_2 |* | . | | . | | . |* | . | = | . | * b + | . |* | . | | . | | . |* | y_n | | X_n | | e_n |* 截面异方差* E[e_i*e_i'] = s_i^2** | s1^2 0 ... 0 |* | 0 s2^2 ... 0 |* | . |* V = | . |* | . |* | 0 0 ... sn^2 |* 截面相关* E[e_i*e_i'] = s_ij^2** | s_11 s_12 ... s_1n |* | s_21 s_22 ... s_2n |* | . |* V = | . | * sigma^2* | . |* | s_n1 s_n2 ... s_nn |* 序列相关* E[e_i*e_i'] = s_i^2 * M_i** | s1^2*M_1 0 ... 0 |* | 0 s2^2*M_2 ... 0 |* | . |* V = | . |* | . |* | 0 0 ... sn^2*M_n |* GLS 估计* b = [X'V^{1}*X]^{1}[X'V^{1}y]* Var[b] = [X'V^{1}*X]^{1}* 估计和检验*=== xtgls 命令use invest2.dta, clearxtgls market invest stock, panels(iid) /*iid, 同即是Pooled OLS*/est store g_0reg market invest stockest store g_olsxtgls market invest stock, panel(het) /*截面异方差*/est store g_phetxtgls market invest stock, corr(ar1) /*所有截面具有相同的自相关系数*/est store g_par1xtgls market invest stock, corr(psar1) /*每个截面有自己的自相关系数*/est store g_psar1xtgls market invest stock, panel(corr) /*截面间相关且异方差*/est store g_pcorrxtgls market invest stock, p(c) corr(ar1)est store g_all* 检验异方差xtgls market invest stock, panel(het) /*截面异方差*/xttest3* 检验序列相关xtserial market invest stock* 检验截面相关xtgls market invest stock, panel(het)xttest2* 结果比较xtreg market invest stock, feest store felocal models "fe g_0 g_ols"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w)local models "fe g_phet g_par1 g_psar1 g_pcorr g_all"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w) compress* 说明：* 为何 xtgls 不汇报 R2 ?* 因为此时的R2未必介于0和1之间，不具有传统线性回归模型中R2的含义*=== xtpcse 命令* 默认假设：存在截面异方差和截面相关* 估计方法：OLS 或 PraisWinsten 回归* 有别于xtgls(采纳FGLS估计)* 更适于方块面板 N不年夜(1020),T不年夜(1040)* 与 xtgls 的区别：估计方法分歧* xtgls 采纳GLS进行估计，而xtpsce采纳OLS.use invest2.dta, clearxtpcse invest market stockest store pcse_full /*OLS估计，调整异方差和截面相关后的标准误*/xtgls invest market stock, panels(correlated)est store m_xtgls /*FGLS估计，异方差和截面相关*/ xtpcse invest market stock, correlation(ar1)est store pcse_ar1 /*Prais_Winsten估计，共同的自相关系数*/xtpcse invest market stock, correlation(ar1) hetonlyest store pcse_ar1 /*不考虑截面相关*/* 结果比较xtreg invest market stock, feest store felocal models "fe pcse_full m_xtgls pcse_ar1 pcse_ar1"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w)* xtpcse 的结果与 xtgls 非常相似，但前者可以汇报R2* 当N较年夜时，采纳该方法会非常费时，* 因为方差协方差矩阵是采纳OLS估计的残差计算的use xtcs.dta, clearxtdesxtpcse tl size ndts tang tobin npr /*年夜约58分钟*/est store xtpcsextreg tl size ndts tang tobin npr, feest store fe* 结果比较local models "fe xtpcse"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w)* 系数估计值有较年夜分歧，但符号和显著性是一致的.***静态面板模型 Part I** 静态面板模型** 简介* 一阶差分IV估计量(Anderson and Hisao, 1982)* 一阶差分GMM估计量(Arellano and Bond, 1991)* 系统GMM估计量(AB,1995; BB,1998)* == 简介 ==** 模型： y[it] = a0*y[it1] + a1*x[it] + a2*w[it] + u_i + e[it]** 特征：解释变量中包括了被解释变量的一阶滞后项* 可以是非平行面板，但要保证时间连续* x[it] ——严格外生变量 E[x_it,e_is] =0 for all t and s* 即，所有干扰项与x都不相关* w[it] ——先决变量 E[w_it,e_is]!=0 for s<t, butE[x_it,v_is]=0 for all s>=t* 即，前期干扰项与当期x相关，但当期和未来期干扰项与x不相关.* y[it1]——内生变量 E[x_it,e_is]!=0 for s<=t* 即，前期和当期，尤其是当期干扰项与x相关* u_i 随机效应，在截面间是 iid 的.u_i 与 e[it] 自力.** 内生性问题：* (1) 若假设 u_i 为随机效应，则 Corr(y[i,t1], u_i) !=0* (2) 若假设 u_i 为个体效应，需要想法子去除之，因为数据为"年夜N小T"* 一阶差分： D.y[i,t1] = y[i,t1] y[i,t2]* D.e[i,t] = e[i,t] e[i,t1]* 显然： Corr(D.y[i,t1], D.e[i,t]) !=0, 差分方程存在内生问题；* 组内去心： ym[i,t1] = y[i,t1] 1/(T1)*(y[i,t1]+...+y[i,T])* em[i,t] = e[i,t] 1/T*(e[i,t]+e[i,t1]+...+e[i,T])* 显然： Corr(ym[i,t1], em[i,t]) !=0, 仍然存在内生性问题** 处置法子：IV估计或GMM估计，选择合适的工具变量** 矩条件： E[e_it,z_it] = 0*========================================*========= 一阶差分 IV 估计量 ============*========Anderson and Hisao(1982)========*========================================** 基本思想：采纳一阶差分去除个体效应 u_i,* y 的滞后二阶作为 D.y[it1] 的工具变量* 同时，D.y[it2] 也可以作为 D.y[it1] 的工具变量use abdata.dta, cleardes /*变量的界说*/tsset id year* 模型: n_it = b1*n_it1 + b2*n_it2* + b3*w_it + b4*w_it1* + b5*k_it + b6*k_it1 + b7*k_it2* + b8*ys_it + b9*ys_it1 + b10*ys_it2*xtivreg n L2.n w L1.w k L1.k L2.k ys L1.ys L2.ysyr1981yr1984 ///(L.n = L3.n), fd** 等价于*xtivreg n L2.n L(0/1).w L(0/2).(k ys) yr1981yr1984 (L.n = L3.n), fd*====================================*========= 一阶差分GMM估计量 =========*==============AB91==================** L.Hansen (1982) 提出 GMM** Arellano and Bond (1991)** 模型：** y[it] = a0*y[it1] + a1*x[it] + a2*w[it] + u_i + v[it]** 假设条件：* 干扰项 v[it] 不存在序列相关；** 适用范围：* 年夜N，小T* 随后，我们会介绍“小N年夜T”型静态面板的估计方法** 基本思想：** 在 Anderson and Hisao(1982) 基础上增加了更多可用的工具变量** 在 t=3 处，y_i1 可以作为所有滞后项的工具变量* 在 t=4 处, y_i1, y_i2 可以作为所有滞后项的工具变量** D.y[it] = a1*D.y[it1] + a2*D.X[it] + D.v[it] X_it = [x_it, w_it] ** 因此，所有工具变量构成的矩阵如下：** |y_i1 0 0 0 0 0 ... 0 ... 0 D.x_i3 |* | 0 y_i1 y_i2 0 0 0 ... 0 ... 0 D.x_i4 |* | 0 0 0 y_i1 y_i2 y_i3 ... 0 ... 0 D.x_i5 |* Z_i = | . . . . . . . . . . . |* | . . . . . . . . . . . |* | 0 0 0 0 0 0 ... y_i1 ... yiT2 D.x_iT |** Z_i 的行数为 T2* Z_i 的列数为 sum_(m=1)^(T2){m} + K, K 为 X 的列数** 以 T =7，K=3 为例，则 Z_i 的列数为 (1+2+3+4+5)+3 = 18 ** 设定工具变量的基来源根基则：** 对内生变量的处置：与上述方法类似，* 即滞后两阶以上的水平变量均可作为差分方程的工具变量 (GMM type)* 对先决变量的处置：滞后一阶以上的水平变量均可作为工具变量 (GMM type)* 对外生变量的处置：自己作为自己的工具变量 (Standard IV) *== 例1：一阶差分估计量的基本设定* 解释变量仅包括 y_it 的一阶滞后项，默认设定* 干扰项同方差，一阶段估计use abdata.dta, clearxtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984est store ab_0* 结果释疑** 1 工具变量的个数是如何确定的？(xtdpd, p.74)** 外生变量的工具变量即是外生变量的个数* L(0/1).w L(0/2).(k ys) yr1980yr1984 共 13个* 内生变量的工具变量：共 27个*list id year n L2.n DL2.n if id == 140** 差分方程的可用工具变量** year of Years of Number of* difference equation instruments instruments* 1978 1976 1* 1979 19761977 2* 1980 19761978 3* 1981 19761979 4* 1982 19761980 5* 1983 19761981 6* 1984 19761982 7** 28个* 2 GMMtype 和 Standard 两种类型的工具变量有何不同？(xtabond,p.27)** GMMtype 是针对内生变量或先决变量而言的工具变量，有多列* Standard 是针对外生变量而言的工具变量，只有一列* 过度识别检验（工具变量的使用是否合理）*estat sargan** 说明：* H0: overidentifying restrictions are valid* 这里，我们拒绝了原假设，但AB91指出，当干扰项存在异方差时，* Sargan检验倾向于过度拒绝原假设，因此此处获得的结论其实不成信.* 采纳两阶段估计，然后再执行Sargan检验较为稳妥：*xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984,twostepestat sargan** 说明：不外，AB91发现，* 若存在异方差，在两阶段估计后执行Sargan检验往往倾向于* Underreject问题，即过度接受原假设.* 通常而言，这很可能是我们的模型设定不妥，或是工具变量的选择分歧理.* 干扰项序列相关检验** AB91 一阶差分估计量要求原始模型的干扰项不存在序列相关，* 显然，差分后的干扰项肯定存在一阶序列相关，* 因此，我们需要检验差分方程的残差是否存在二阶(或更高阶)序列相关即可** 默认，二阶序列相关检验xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984,vce(robust)estat abond* 说明：若存在二阶相关，则意味着选取的工具变量分歧理* 高阶序列相关检验xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984,vce(robust) artest(3)estat abond*== 稳健型估计xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) robust est store ab4_one_rb* 此时，无法 Sargan 统计量estat sargan*== 两阶段估计 AB91(Tab4(a2)) 考虑异方差问题* 利用第一阶段估计获得的残差构造方差协方差矩阵，进而重新估计模型*xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) twostep est store ab4_twostep* 此时，Sargan 检验无法拒绝原假设*estat sargan* AB91重要建议：* (1) 采纳一阶段估计结果进行系数显著性的统计推断；* (2) 采纳两阶段估计给出的 Sargan统计量进行模型筛选** 进一步的讨论：* 虽然AB91建议不要采纳两阶段(非稳健)估计进行统计推断，* 但Windmeijer(,Journal of Econometrics)通过模拟分析标明，* 采纳纠偏(biascorrected,WC)后的稳健性VCE，可以更好地进行统计推断xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) twostep vce(robust)est store ab_wc_rb* 结果比较local mm "ab4_one_rb ab4_twostep ab_wc_rb"esttab `mm',mtitle(`mm')** 结论：* AB91_onestep_rb 的结果与 AB91_WC_rb 的参数估计相同，后者标准误较年夜* 建议采纳 Windmeijer() 两阶段纠偏稳健型估计量.*== 先决变量的设定* 由于当期干扰项显然会影响后续 w 和 k，所以把它们设定为先决变量更为合理* 注意: 此时逗号前就不能再呈现这两个变量了xtabond n L(0/1).ys yr1980yr1984, lags(2) twostep ///pre(w k)est store ab4_preestat sargan* 从 Sargan p值来看，将 w 和 k 设为先决变量似乎更为合理 * pre() 选项的设定xtabond n L(0/1).ys yr1980yr1984, lags(2) twostep ///pre(w,lag(1,3)) pre(k,lag(2,.))** 解释：* pre(w,lag(1,3))* lag(1,3) 中的 1 暗示 L.w 也会作为解释变量，* lag(1,3) 中的 3 暗示 L2.w 和 L3.w 可以作为 L.w 的工具变量，但 L4.w 不成以；* pre(k,lag(2,.))* lag(2,.) 中的 2 暗示 L1.k, L2.k 城市作为解释变量；* lag(2,.) 中的 . 暗示 L3.k, L4.k ... 都可以作为 L2.k 的工具变量* 说明：上述设建都可附加 vce(robust) 选项以便获得稳健型标准误.*== 工具变量过多招致的问题* 过多的工具变量往往招致过度约束假设无法满足* 估计结果的有效性降低，因为部份工具变量与内生或先决变量的相关性很弱* 对矩阵尺寸的要求增加* 解决法子：限制最年夜的滞后阶数xtabond n L(0/1).ys yr1980yr1984, lags(2) twostep ///pre(w,lag(1,3)) pre(k,lag(2,3))*== 系数估计的上下限* 虽然 Pooled OLS 和 Fixed Effects 估计都是有偏的，* 可是二者却决定了 y_it1 真是估计值的上界和下界* 换言之， Pooled OLS 估计高估了真实值* 而 Fixed effects 估计则低估了真实值*=======================================*============= 系统GMM估计量 ===========*==============AB95,BB98===============*=======================================* Arellano and Bover (1995),* Blundell and Bond(1998)* Haha(1999), Judson and Owen(1999)** 适用范围：* 年夜N，小T** AB91 的局限* (1) 当 y[i,t1] 的系数较年夜，即 y[i,t] 暗示出强烈的序列相关时；* (2) 当 Var[u_i]/Var[e_it] 较年夜时，即个体效应的摆荡远年夜于惯例干扰项的摆荡；* AB91 的暗示欠佳.* 原因在于，水平滞后项是差分方程中内生变量的弱工具变量；* 因此，需要寻求更佳的工具变量**== 基本思想：** 几个概念** 水平值—— y x* 水平方程：y_it = b1*y_it1 + b2*x_it + u_i + v_it* 可用工具变量：D.y[i,t1] 可以作为 y[i,t1] 的工具变量* 可用工具变量：y[i,t2],y[i,t3]...都可以作为 D.y[i,t1]的工具变量** 差分GMM估计量与系统GMM估计量的区别** (1) 差分GMM估计量采纳水平值的滞后项作为差分变量的工具变量；* 如 y_it3 是 D.y_it1 的工具变量* (2) 系统GMM估计量进一步采纳差分变量的滞后项作为水平值的工具变量；* 相当于进一步增加了可用的工具变量，* 且估计过程中同时使用水平方程和差分方程* (3) 主要原因在于差分GMM的工具变量往往是弱工具变量，即 corr(X,Z) 过低** xtabond2 命令Roodman()** 既可以估计差分 GMM 估计量，也可以估计系统 GMM 估计量；* 同时可以估计一般化的回归模型* 提供两阶自相关检验，Sargan检验，Hansen检验，以及工具变量外生性检验** xtdpdsys 命令 Stata官方命令，以 xtabond2命令为基础** xtabond2 命令** 适用于 Stata810 各个版本* 既可以完成一阶差分GMM估计* 也可以完成系统GMM估计* 详细参考资料：* Roodman, D. . How to Do xtabond2:* An Introduction to "Difference" and "System" GMM in Stata. * Working Paper 103. Center for Global Development, Washington.*== 使用 xtabond2 命令获得一阶差分估计量* 附加 noleveleq 选项即可* 采纳 xtabond2 估计 AB91 文中表4 的结果* Arellano and Bond (1991), Table 4* Column (a1)use abdata, clearxtabond2 n L(1/2).n L(0/1).w L(0/2).(k ys) yr1980yr1984, ///gmm(L.n) iv(L(0/1).w l(0/2).(k ys) yr1980yr1984) /// nomata noleveleq small* gmm(*) 填写内生变量的名称* iv(*) 填写所有外生变量以及自己设定的工具变量的名称* noleveleq 暗示估计过程中不使用水平方程，即为差分GMM估计量est store aba1_ab2xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2)est store aba1_abesttab aba1_ab2 aba1_ab, mtitle(aba1_ab2 aba1_ab)* Column (a2)* 两阶段估计xtabond2 n L(0/1).w L(0/2).(k ys) L(1/2).n yr1980yr1984, /// gmm(L.n) iv(L(0/1).w l(0/2).(k ys) yr1980yr1984) /// noleveleq small twostepest store aba2_ab2xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) twostep est store aba2_abesttab aba2_ab2 aba2_ab, mtitle(aba2_ab2 aba2_ab)*=== 一阶差分估计量部份解释变量内生* 一阶段估计xtabond2 n L.n L(0/1).(w k) yr1980yr1984, ///gmm(L.(w k n)) iv(yr1980yr1984) ///noleveleq noconstant small robustest store fd_1s* 两阶段估计xtabond2 n L.n L(0/1).(w k) yr1980yr1984, ///gmm(L.(w k n)) iv(yr1980yr1984) ///noleveleq robust small twostepest store fd_2sesttab fd_1s fd_2s, mtitle(fd_1s fd_2s)*== 系统 GMM 估计量xtabond2 n L.n L(0/1).(w k) yr1978yr1984, ///gmm(L.n) iv(L(0/1).(w k) yr1978yr1984) ///robust small** 解释：** gmm() 选项* 设定内生变量和先决变量，它们的工具变量将有多列，GMM** iv() 选项* 设定严格外生变量，作为自己的工具变量，在工具变量矩阵中仅占一列** 差分方程和水平方程* 默认情况下，差分方程和水平方程都介入估计** robust 选项* (1) 对一阶段估计(不附加twostep选项)，* 采纳传统异方差序列相关稳健型估计量计算标准误；* (2) 对两阶段估计(附加twostep选项)，* 采纳Windmeijer()纠偏估计量计算标准误；* Sargan检验* Sargan test of overid. restrictions: chi2(34)* 34 = 47 13 （13是外生变量的个数，包括常数项）* 可见，无论采纳Sargan检验还是Hansen J检验，都拒绝了工具变量合理的原假设* 指定工具变量应用于水平方程还是差分方程* 例如，假设 w, k, 以及年度虚拟变量都是外生的(固然，这一假设可能其实分歧理)*xtabond2 n L.n L(0/1).(w k) yr1978yr1984, gmm(L.n) ///iv(L(0/1).(w k) yr1978yr1984, eq(level)) ///robust small twostepest store sys_wkexg* 将 w 和 k 都设定为内生变量* yr dummies 仅呈现在水平方程中xtabond2 n L.n L(0/1).(w k) yr1978yr1984, ///gmm(L.(w k n)) iv(yr1978yr1984, eq(level)) ///robust small twostepest store sys_wkendog_lev* yr dummies 同时呈现在水平方程和差分方程中xtabond2 n L.n L(0/1).(w k) yr1978yr1984, ///gmm(L.(w k n)) iv(yr1978yr1984, eq(both)) ///robust small twostepest store sys_wkendog_both* 结果比较local mm "fd_1s fd_2s sys_wkexg sys_wkendog_levsys_wkendog_both"esttab `mm', mtitle(`mm') compress** xtdpdsys 命令** 仅适用于 Stata10 版本* 中国上市公司资本结构静态调整use xtcs.dta, clearqui tab year, gen(yr)drop yr1* Case I：假设所有解释变量均为外生变量(L.tl除外)*local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtdpdsys tl `xx', vce(robust) twostepdis ln(2) / (1 _b[L1.tl]) /*调整半周期*/est store dycs_2sys* 设定说明：* (1) 无需设定 L.tl, 因为 xtdpdsys 默认设定被解释变量的滞后一期为解释变量，* 而且该变量被自动设定为内生变量；* (2) 稳健型估计采纳 vce(robust) 选项加以设定；* (3) 该命令不会自动进行 AR(2)序列相关检验和Sargan过度识别检验* 序列相关检验estat abond* 过度识别检验estat sargan /*稳健型估计下无法获得Sargan统计量*/* 正确方法local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtdpdsys tl `xx', twostepestat sargan* Case II：假设Tobin和npr为先决变量local xx "size tang ndts yr*" /*此处不应再包括 tobin和npr*/ xtdpdsys tl `xx', pre(tobin npr,lag(1,.)) twostepest store dycs_2preestat abondestat sargan* Case III：假设Tobin和npr为内生变量local xx "size tang ndts yr*" /*此处不应再包括 tobin和npr*/ xtdpdsys tl `xx', endog(tobin npr,lag(1,.)) twostepest store dycs_2endogestat abondestat sargan* Case IV: 假设除年度虚拟变量和公司规模外，所有解释变量均为先决变量local xx "size yr*"xtdpdsys tl `xx', pre(tobin npr,lag(1,.)) ///pre(tang ndts) twostepest store dycs_2preAllestat abondestat sargan* 假设除 L.tl 外的所有解释变量外生最为合适.* OLS 估计(调整系数的上限)local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"reg tl L.tl `xx', robustest store dycs_2OLS* FE 估计(调整系数的下限)local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtreg tl L.tl `xx', robust feest store dycs_2FE* 结果比较local mm "dycs_2sys dycs_2pre dycs_2endog dycs_2preAll dycs_2OLS dycs_2FE"local ss "ar2 ar2p sargan sar_df sarganp"esttab `mm',mtitle(`mm') scalar(`ss') compress* 结论：* (1) 估计出的调整系数介于合理的范围内，即OLS和FE之间；* (2) 就模型设定而言，dycs_2sys 最为合理，即把所有解释变量均设定为外生变量.** 调整半周期为：local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtdpdsys tl `xx', vce(robust) twostepdis ln(2) / (1 _b[L1.tl]) /*调整半周期*/xtabond2 logy l.logy h inv gov open fdi yr4yr14, ///gmm(l.logy h) iv(gov open fdi yr4yr14)robust twostep。

stata命令大全(全)

********* 面板数据计量分析与软件实现 *********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

常应用于地区经济差异、FDI 溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

stata命令大全(全)

*********面板数据计量分析与软件实现*********说明：以下do文件相当一部分容来自于大学连玉君STATA教程，感他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计）* 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

常应用于地区经济差异、FDI溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

完整word版,stata命令大全(全)

*********面板数据计量分析与软件实现*********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计）* 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

常应用于地区经济差异、FDI溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

stata命令大全超实用(全)

表示追加 8年，用于时ห้องสมุดไป่ตู้序列 /
* 方差分解，比如三个变量 Y,X,Z 都是面板格式的数据，和Cov（ Z,Y ） bysort year:corr Y X Z,cov
且满足 Y=X+Z，求方差 var(Y),
协方差 Cov(X,Y)
** 生产虚拟变量 * 生成年份虚拟变量 tab year,gen(yr) * 生成省份虚拟变量 tab id,gen(dum)
* ---------------------------------
* --------
固定效应模型 -----------
* ---------------------------------
* 实质上就是在传统的线性回归模型中加入
N-1 个虚拟变量，
* 使得每个截面都有自己的截距项，
* 截距项的不同反映了个体的某些不随时间改变的特征
*** 说明： DEA由DEAP2.1软件实现， SFA由 Frontier4.1 实现，尤其后者，侧重于比较 C-D与 Translog
生产函数，一步法与两步法的区别。常应用于地区经济差异、
FDI 溢出效应（ Spillovers Effect ）、
工业行业效率状况等。
* 空间计量分析： SLM模型与 SEM模型 * 说明： STATA与Matlab 结合使用。常应用于空间溢出效应（ R&D）、财政分权、地方政府公共行为等。
* 散点图 +线性拟合直线 +置信区间 twoway (scatter logy h) (lfit logy h) (lfitci logy h)
* 按不同个体画出散点图和拟合线，可以以做出 twoway (scatter logy h if id<4) (lfit logy h if id<4) logy h if id==2) (lfit logy h if id==3)

STATA最常用命令大全

statasave命令FileSave As例1. 表1.为某一降压药临床试验数据，试从键盘输入Stata，并保存为Stata格式文件。

generate group=int((_n-1)/5)+1 /* 按当前数据库的顺序，依次产生5个1，5个2，5个3……。

直到数据库结束。

generate block=mod(_n,6) /* 按当前数据库的顺序，依次产生1,2,3,4,5,0。

generate y=log(x) if x>0 /* 产生新变量y，其值为所有x>0的对数值log(x)，当x<=0时，用缺失值代替。

stata命令大全(全)

********* 面板数据计量分析与软件实现 *********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

常应用于地区经济差异、FDI 溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

stata命令大全(全)

********* 面板数据计量分析与软件实现 *********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

常应用于地区经济差异、FDI 溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

stata命令大全

调整变量格式：format x1 %10.3f ——将x1的列宽固定为10，小数点后取三位format x1 %10.3g ——将x1的列宽固定为10，有效数字取三位format x1 %10.3e ——将x1的列宽固定为10，采用科学计数法format x1 %10.3fc ——将x1的列宽固定为10，小数点后取三位，加入千分位分隔符format x1 %10.3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符format x1 %-10.3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符，加入“-”表示左对齐合并数据：use "C:\Documents and Settings\xks\桌面\2006.dta", clearmerge using "C:\Documents and Settings\xks\桌面\1999.dta"——将1999和2006的数据按照样本（observation）排列的自然顺序合并起来use "C:\Documents and Settings\xks\桌面\2006.dta", clearmerge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort——将1999和2006的数据按照唯一的（unique）变量id来合并，在合并时对id进行排序（sort）建议采用第一种方法。

Stata常用命令100条

Stata常用命令100条数据管理设置工作路径：cd导入间隔符为制表符或逗号等格式的文本文件：insheet 导入固定列格式的文件：infix导入自由格式的文本文件：infile导入XML格式文件：xmluse更改变量的存储格式：recast建立新变量：generate或egen重命名变量rename变量排序：order删除变量或观测值：drop生成分类变量：recode字符串与数值变量间转换：destring或encode升序或降序排列：gsort升序排列：sort检查数据是否存在重复观测值：isid报告、标记或删除重复观测值：duplicates长数据与宽数据间转换：reshape生成变量的统计指标数据：collapse横向合并数据：merge纵向添加数据：append根据组内配对合并变量：joinby标量：scalar随机抽样：sample有放回的抽样：bsample从多元正态分布随机变量中抽样：drawnorm 生成特定相关结构的变量：corr2data统计制图直方图：histogram一般绘图命令：graph或twoway对称图：symplot分位数图：quantile正态分布分位数图：qmormQQ分位数图：qqplot标准化正态概率图：pnorm卡方概率图：pchi37条外部命令：传送门描述统计数据概要描述：summarize或describe生成汇总统计表：tabstat或tabulate相关性：correlate或pwcorr假设检验t检验：ttest方差检验：sdtest比率检验：prtest二项概率检验：bitestK-S检验：ksmirnov符号检验：signtestWilcoxon符号秩检验：signrankWilcoxon秩和检验：ranksumKruskal-Wallis：H检验：kwallis方差分析方差分析：anova单因素方差分析：oneway多元统计分析主成分分析：pca主成分散点图：loadingplot因子分析：factor因子旋转：rotate模型适切度检验：estat smc及estat anti及estat kmo 计算主成分得分或因子得分：predict碎石图：screeplot聚类分析：cluster典型相关分析：canon回归分析OLS线性回归：regress受约束的线性回归：cnsreg非线性最小二乘估计：nl多变量回归：mvreg似不相关回归：suregProbit回归：probitLogistic回归：logit定序probit模型：oprobit定序logit模型：ologit归并模型：cnregTobit模型：tobit多层线性模型：mixed泊松回归：poisson负二项回归：nbreg时间序列分析定义时间序列：tssetARIMA，ARMAX和其它动态回归模型：arima 自相关：ac偏自相关：pac预测：predict时间序列图：tsline蒙特卡罗模拟：simulateADF单位根检验：dfullerPP单位根检验pperronDF-GLS单位根检验：dfgls跨相关图：xcorr结构向量自回归模型：svar自回归条件异方差模型：arch门限回归：threg状态空间模型：sspace面板数据分析定义面板：xtset面板数据结构：xtdescribe面板OLS模型：xtreg面板GLS模型：xtgls面板GEE模型：xtgee面板probit模型：xtprobit面板logit模型：xtlogit差分GMM模型：xtabond系统GMM模型：xtdpdsysHausman检验：hausman似然比检验：lrtest空间计量从截面数据到空间面板：传送门。

stata命令大全(全)

********* 面板数据计量分析与软件实现*********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计）* 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现，6用GAUSS软件实现。

常应用于地区经济差异、FDI溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省20xx年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

stata命令大全(全)

*********面板数据计量分析与软件实现*********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计）* 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由软件实现，SFA由实现，尤其后者，侧重于比较C-D与Translog生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag= /*产生一阶滞后项)，同样可产生二阶滞后项*/gen ylag2=gen dy= /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

STATA常用命令总结(34个含使用示例)

STATA常用命令总结（34个含使用示例）1. sum：计算变量的简要统计信息，如均值、标准差等。

示例：sum variable2. tabulate：生成变量的频数表。

示例：tabulate variable3. describe：显示数据集的基本信息，如变量名和数据类型。

示例：describe dataset4. drop：删除数据集中的变量。

示例：drop variable5. keep：保留数据集中的变量，删除其他变量。

示例：keep variable6. rename：重命名变量。

示例：rename variable newname7. gen：根据已有变量生成新的变量。

示例：gen newvar = expression8. egen：根据已有变量生成新的变量，可以使用更复杂的函数和运算符。

示例：egen newvar = function(variable)9. recode：对变量的取值进行重新编码。

示例：recode variable (oldvalues= newvalues) 10. dropif：根据条件删除观测。

示例：dropif condition11. keepif：根据条件保留观测。

示例：keepif condition12. sort：对数据集按指定变量进行排序。

示例：sort variable13. merge：将两个数据集按照共享变量合并。

示例：merge 1:1 variable using dataset214. reshape：将数据从宽格式转换为长格式或反之。

示例：reshape long var, i(id) j(year)15. regress：进行线性回归分析。

示例：regress dependent_var independent_vars 16. logistic：进行逻辑回归分析。

示例：logistic dependent_var independent_vars 17. probit：进行Probit回归分析。

(完整word版)Stata命令整理

Stata 命令语句格式：[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]1、[by varlist:]*如果需要分别知道国产车和进口车的价格和重量，可以采用分类操作来求得，sort foreign //按国产车和进口车排序. by foreign: sum price weight*更简略的方式是把两个命令用一个组合命令来写。

. by foreign, sort: sum price weight如果不想从小到大排序，而是从大到小排序，其命令为gsort。

. sort - price //按价格从高到低排序. sort foreign -price /*先把国产车都排在前，进口车排在后面，然后在国产车内再按价格从大小到排序，在进口车内部，也按从大到小排序*/2、[=exp]赋值运算. gen nprice=price+10 //生成新变量nprice，其值为price+10/*上面的命令generate(略写为gen) 生成一个新的变量，新变量的变量名为nprice,新的价格在原价格的基础上均增加了10 元。

. replace nprice=nprice-10 /*命令replace 则直接改变原变量的赋值，nprice 调减后与price 变量取值相等*/3、[if exp]条件表达式. list make price if foreign==0*只查看价格超过1 万元的进口车（同时满足两个条件），则. list make price if foreign==1 & price>10000*查看价格超过1 万元或者进口车（两个条件任满足一个）. list make price if foreign==1 | price>100004、[in range]范围筛选sum price in 1/5注意“1/5”中，斜杠不是除号，而是从1 到 5 的意思，即1，2，3，4，5。

STATA常用命令总结(34个含使用示例)

STATA常用命令总结（34个含使用示例）1. clear：清空当前工作空间中的数据。

示例：clear2. use：加载数据文件。

示例：use "data.dta"3. describe：查看数据文件的基本信息。

示例：describe4. summarize：统计数据的描述性统计量。

示例：summarize var1 var2 var35. tabulate：制作数据的列联表。

示例：tabulate var1 var26. scatter：绘制散点图。

示例：scatter x_var y_var7. histogram：绘制直方图。

示例：histogram var8. boxplot：绘制箱线图。

示例：boxplot var1 var29. ttest：进行单样本或双样本t检验。

示例：ttest var, by(group_var)10. regress：进行最小二乘法线性回归分析。

示例：regress dependent_var independent_var1 independent_var211. logistic：进行逻辑斯蒂回归分析。

示例：logistic dependent_var independent_var1 independent_var212. anova：进行方差分析。

示例：anova dependent_var independent_var13. chi2：进行卡方检验。

示例：chi2 var1 var214. correlate：计算变量之间的相关系数。

示例：correlate var1 var2 var315. replace：替换数据中的一些值。

示例：replace var = new_value if condition16. drop：删除变量或观察。

示例：drop var17. rename：重命名变量。

示例：rename old_var new_var18. generate：生成新变量。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

*********面板数据计量分析与软件实现*********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计）* 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

常应用于地区经济差异、FDI溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

可用命令aorder或者order fdi open insti*-----------------*二、静态面板模型*-----------------* 面板数据的结构(兼具截面资料和时间序列资料的特征)use product.dta, clearbrowsextset id yearxtdes* ---------------------------------* -------- 固定效应模型 -----------* ---------------------------------* 实质上就是在传统的线性回归模型中加入 N-1 个虚拟变量，* 使得每个截面都有自己的截距项，* 截距项的不同反映了个体的某些不随时间改变的特征** 例如： lny = a_i + b1*lnK + b2*lnL + e_it* 考虑中国29个省份的C-D生产函数*******-------画图------**散点图+线性拟合直线twoway (scatter logy h) (lfit logy h)*散点图+二次拟合曲线twoway (scatter logy h) (qfit logy h)*散点图+线性拟合直线+置信区间twoway (scatter logy h) (lfit logy h) (lfitci logy h)*按不同个体画出散点图和拟合线，可以以做出fe vs re的初判断*twoway (scatter logy h if id<4) (lfit logy h if id<4) (lfit logy h if id==1) (lfit logy h if id==2) (lfit logy h if id==3)*按不同个体画散点图,so beautiful!!!*graph twoway scatter logy h if id==1 || scatter logy h if id==2,msymbol(Sh) || scatter logy h ifid==3,msymbol(T) || scatter logy h if id==4,msymbol(d) || , legend(position(11) ring(0) label(1 "北京") label(2 "天津") label(3 "河北") label(4 "山西"))**每个省份logy与h的散点图，并将各个图形合并twoway scatter logy h,by(id) ylabel(,format(%3.0f)) xlabel(,format(%3.0f))*每个个体的时间趋势图*xtline h if id<11,overlay legend(on)* 一个例子：中国29个省份的C-D生产函数的估计tab id, gen(dum)list* 回归分析reg logy logk logl dum*,est store m_olsxtreg logy logk logl, feest store m_feest table m_ols m_fe, b(%6.3f) star(0.1 0.05 0.01)* Wald 检验test logk=logl=0test logk=logl* stata的估计方法解析* 目的：如果截面的个数非常多，那么采用虚拟变量的方式运算量过大* 因此，要寻求合理的方式去除掉个体效应* 因为，我们关注的是 x 的系数，而非每个截面的截距项* 处理方法：** y_it = u_i + x_it*b + e_it (1)* ym_i = u_i + xm_i*b + em_i (2) 组内平均* ym = um + xm*b + em (3) 样本平均* (1) - (2), 可得：* (y_it - ym_i) = (x_it - xm_i)*b + (e_it - em_i) （4） /*within estimator*/* (4)+(3), 可得：* (y_it-ym_i+ym) = um + (x_it-xm_i+xm)*b + (e_it-em_i+em)* 可重新表示为：* Y_it = a_0 + X_it*b + E_it* 对该模型执行 OLS 估计，即可得到 b 的无偏估计量**stata后台操作，揭开fe估计的神秘面纱！！！egen y_meanw = mean(logy), by(id) /*个体内部平均*/egen y_mean = mean(logy) /*样本平均*/egen k_meanw = mean(logk), by(id)egen k_mean = mean(logk)egen l_meanw = mean(logl), by(id)egen l_mean = mean(logl)gen dyw = logy - y_meanwgen dkw = logk - k_meanwgen dlw=logl-l_meanwreg dyw dkw dlw,noconsest store m_statagen dy = logy - y_meanw + y_meangen dk = logk - k_meanw +k_meangen dl=logl-l_meanw+l_meanreg dy dk dlest store m_stataest table m_*, b(%6.3f) star(0.1 0.05 0.01)* 解读 xtreg,fe 的估计结果xtreg logy h inv gov open,fe*-- R^2* y_it = a_0 + x_it*b_o + e_it (1) pooled OLS* y_it = u_i + x_it*b_w + e_it (2) within estimator* ym_i = a_0 + xm_i*b_b + em_i (3) between estimator** --> R-sq: within 模型(2)对应的R2，是一个真正意义上的R2* --> R-sq: between corr{xm_i*b_w,ym_i}^2* --> R-sq: overall corr{x_it*b_w,y_it}^2**-- F(4,373) = 855.93检验除常数项外其他解释变量的联合显著性**-- corr(u_i, Xb) = -0.2347**-- sigma_u, sigma_e, rho* rho = sigma_u^2 / (sigma_u^2 + sigma_e^2)dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2)** 个体效应是否显著？* F(28, 373) = 338.86 H0: a1 = a2 = a3 = a4 = a29* Prob > F = 0.0000 表明，固定效应高度显著*---如何得到调整后的 R2,即 adj-R2 ？ereturn listreg logy h inv gov open dum**---拟合值和残差* y_it = u_i + x_it*b + e_it* predict newvar, [option]/*xb xb, fitted values; the defaultstdp calculate standard error of the fitted values ue u_i + e_it, the combined residualxbu xb + u_i, prediction including effectu u_i, the fixed- or random-error componente e_it, the overall error component */xtreg logy logk logl, fepredict y_hatpredict a , upredict res,epredict cres, uegen ares = a + reslist ares cres in 1/10* ---------------------------------* ---------- 随机效应模型 ---------* ---------------------------------* y_it = x_it*b + (a_i + u_it)* = x_it*b + v_it* 基本思想：将随机干扰项分成两种* 一种是不随时间改变的，即个体效应 a_i* 另一种是随时间改变的，即通常意义上的干扰项 u_it* 估计方法：FGLS* Var(v_it) = sigma_a^2 + sigma_u^2* Cov(v_it,v_is) = sigma_a^2* Cov(v_it,v_js) = 0* 利用Pooled OLS，Within Estimator, Between Estimator* 可以估计出sigma_a^2和sigma_u^2,进而采用GLS或FGLS* Re估计量是Fe估计量和Be估计量的加权平均* yr_it = y_it - theta*ym_i* xr_it = x_it - theta*xm_i* theta = 1 - sigma_u / sqrt[(T*sigma_a^2 + sigma_u^2)]* 解读 xtreg,re 的估计结果use product.dta, clearxtreg logy logk logl, re*-- R2* --> R-sq: within corr{(x_it-xm_i)*b_r, y_it-ym_i}^2* --> R-sq: between corr{xm_i*b_r,ym_i}^2* --> R-sq: overall corr{x_it*b_r,y_it}^2* 上述R2都不是真正意义上的R2，因为Re模型采用的是GLS估计。