完整word版,stata命令大全(全),推荐文档

（完整word版）stata命令语句

（完整word版）stata命令语句stata学习心得（网络版存盘）2009-03-25 18:06调整变量格式：format x1 %10.3f ——将x1的列宽固定为10，小数点后取三位format x1 %10.3g ——将x1的列宽固定为10，有效数字取三位format x1 %10.3e ——将x1的列宽固定为10，采用科学计数法format x1 %10.3fc ——将x1的列宽固定为10，小数点后取三位，加入千分位分隔符format x1 %10.3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符format x1 %-10.3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符，加入“-”表示左对齐合并数据：use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge using "C:\Documents and Settings\xks\桌面\1999.dta"——将1999和2006的数据按照样本（observation）排列的自然顺序合并起来use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort——将1999和2006的数据按照唯一的（unique）变量id来合并，在合并时对id进行排序（sort）建议采用第一种方法。

对样本进行随机筛选：sample 50在观测案例中随机选取50%的样本，其余删除sample 50,count在观测案例中随机选取50个样本，其余删除查看与编辑数据：browse x1 x2 if x3>3 （按所列变量与条件打开数据查看器）edit x1 x2 if x3>3 （按所列变量与条件打开数据编辑器）数据合并（merge）与扩展（append）merge表示样本量不变，但增加了一些新变量；append表示样本总量增加了，但变量数目不变。

stata命令大全(全)

********* 面板数据计量分析与软件实现 *********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计） * 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，侧重于比较C-D与Translog生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI 溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel 格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

stata命令大全(全)

********* 面板数据计量分析与软件实现 *********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计） * 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，侧重于比较C-D与Translog生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI 溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel 格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

(完整word版)STATA面板数据模型操作命令讲解

STATA 面板数据模型估计命令一览表一、静态面板数据的STATA 处理命令εαβit ++=xy itiit固定效应模型μβit +=xy ititεαμit+=itit随机效应模型(一）数据处理输入数据●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构●summarize sq cpi unem g se5 ln 各变量的描述性统计（统计分析）●gen lag_y=L.y /////// 产生一个滞后一期的新变量 gen F_y=F.y /////// 产生一个超前项的新变量gen D_y=D.y /////// 产生一个一阶差分的新变量gen D2_y=D2.y /////// 产生一个二阶差分的新变量（二）模型的筛选和检验●1、检验个体效应（混合效应还是固定效应）（原假设：使用OLS混合模型）●xtreg sq cpi unem g se5 ln，fe对于固定效应模型而言，回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。

在我们这个例子中发现F统计量的概率为0。

0000，检验结果表明固定效应模型优于混合OLS模型.●2、检验时间效应（混合效应还是随机效应）（检验方法:LM统计量)（原假设：使用OLS混合模型）●qui xtreg sq cpi unem g se5 ln，re (加上“qui"之后第一幅图将不会呈现)xttest0可以看出,LM检验得到的P值为0.0000，表明随机效应非常显著。

可见，随机效应模型也优于混合OLS模型.●3、检验固定效应模型or随机效应模型（检验方法：Hausman检验）原假设：使用随机效应模型（个体效应与解释变量无关）通过上面分析,可以发现当模型加入了个体效应的时候，将显著优于截距项为常数假设条件下的混合OLS模型。

但是无法明确区分FE or RE的优劣，这需要进行接下来的检验，如下：Step1：估计固定效应模型，存储估计结果Step2：估计随机效应模型，存储估计结果Step3：进行Hausman检验●qui xtreg sq cpi unem g se5 ln，feest store fequi xtreg sq cpi unem g se5 ln,reest store rehausman fe （或者更优的是hausman fe,sigmamore/ sigmaless）可以看出,hausman检验的P值为0.0000，拒绝了原假设，认为随机效应模型的基本假设得不到满足。

stata命令大全(全)

*********面板数据计量阐发与软件实现*********之五兆芳芳创作说明：以下do文件相当一部分外容来自于中山大学连玉君STATA教程，感激他的奉献.自己做了一定的修改与筛选.*面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE（pols混杂最小二乘估量）* 3.异方差、序列相关和截面相关查验* 4.动态面板模型（DIDGMM,SYSGMM）* 6.面板协整阐发（FMOLS,DOLS）*** 说明：15均用STATA软件实现， 6用GAUSS软件实现.* 生产效率阐发（尤其指TFP）：数据包络阐发（DEA）与随机前沿阐发（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，偏重于比较CD与Translog生产函数，一步法与两步法的区别.常应用于地区经济差别、FDI溢出效应（Spillovers Effect）、产业行业效率状况等.* 空间计量阐发：SLM模型与SEM模型*说明：STATA与Matlab结合使用.常应用于空间溢出效应（R&D）、财务分权、地方政府公共行动等.** 一、经常使用的数据处理与作图** 指定面板格局xtset id year（id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改动量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格局出现*/sort year id /*是以DEA格局出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操纵时，year或id就不连续，为形成panel格局，需要用egen命令）egen year_new=group(year)xtset id year_new**保存变量或保存不雅测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格局出现sort year id /*是以DEA格局出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或xtdestsappend,add(5) /暗示在每个省份再追加5年，用于面板数据/ tsset*或tsdes.tsappend,add(8) /暗示追加8年，用于时间序列/*方差分化，比方三个变量Y,X,Z都是面板格局的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/gen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按纪律排列.可用命令aorder或order fdi open insti** 二、静态面板模型** 简介* 面板数据的结构(兼具截面资料和时间序列资料的特征)use product.dta, clearbrowsextset id yearxtdes** 固定效应模型** 实质上就是在传统的线性回归模型中参加 N1 个虚拟变量，* 使得每个截面都有自己的截距项，* 截距项的不合反应了个别的某些不随时间改动的特征** 例如： lny = a_i + b1*lnK + b2*lnL + e_it* 考虑中国29个省份的CD生产函数*******绘图**散点图+线性拟合直线twoway (scatter logy h) (lfit logy h)*散点图+二次拟合曲线twoway (scatter logy h) (qfit logy h)*散点图+线性拟合直线+置信区间twoway (scatter logy h) (lfit logy h) (lfitci logy h)*按不合个别画出散点图和拟合线，可以以做出fe vs re的初判断*twoway (scatter logy h if id<4) (lfit logy h if id<4) (lfit logy h if id==1) (lfit logy h if id==2) (lfit logy h if id==3)*按不合个别画散点图,so beautiful!!!*graph twoway scatter logy h if id==1 || scatter logy h ifid==2,msymbol(Sh) || scatter logy h if id==3,msymbol(T) || scatter logy h if id==4,msymbol(d) || , legend(position(11) ring(0) label(1 "北京") label(2 "天津") label(3 "河北") label(4 "山西")) **每个省份logy与h的散点图，并将各个图形归并twoway scatter logy h,by(id) ylabel(,format(%3.0f))xlabel(,format(%3.0f))*每个个别的时间趋势图*xtline h if id<11,overlay legend(on)* 一个例子：中国29个省份的CD生产函数的估量tab id, gen(dum)list* 回归阐发reg logy logk logl dum*,est store m_olsxtreg logy logk logl, feest store m_feest table m_ols m_fe, b(%6.3f) star(0.1 0.05 0.01)* Wald 查验test logk=logl=0test logk=logl* stata的估量办法解析* 目的：如果截面的个数很是多，那么采取虚拟变量的方法运算量过大* 因此，要寻求公道的方法去除掉个别效应* 因为，我们存眷的是 x 的系数，而非每个截面的截距项 * 处理办法：** y_it = u_i + x_it*b + e_it (1)* ym_i = u_i + xm_i*b + em_i (2) 组内平均* ym = um + xm*b + em (3) 样本平均* (1) (2), 可得：* (y_it ym_i) = (x_it xm_i)*b + (e_it em_i) （4） /*within estimator*/* (4)+(3), 可得：* (y_itym_i+ym) = um + (x_itxm_i+xm)*b + (e_item_i+em) * 可重新暗示为：* Y_it = a_0 + X_it*b + E_it* 对该模型执行 OLS 估量，便可得到 b 的无偏估量量**stata后台操纵，揭开fe估量的神秘面纱！！！egen y_meanw = mean(logy), by(id) /*个别内部平均*/egen y_mean = mean(logy) /*样本平均*/egen k_meanw = mean(logk), by(id)egen k_mean = mean(logk)egen l_meanw = mean(logl), by(id)egen l_mean = mean(logl)gen dyw = logy y_meanwgen dkw = logk k_meanwgen dlw=logll_meanwreg dyw dkw dlw,noconsest store m_statagen dy = logy y_meanw + y_meangen dk = logk k_meanw +k_meangen dl=logll_meanw+l_meanreg dy dk dlest store m_stataest table m_*, b(%6.3f) star(0.1 0.05 0.01)* 解读 xtreg,fe 的估量结果xtreg logy h inv gov open,fe* R^2* y_it = a_0 + x_it*b_o + e_it (1) pooled OLS* y_it = u_i + x_it*b_w + e_it (2) within estimator* ym_i = a_0 + xm_i*b_b + em_i (3) between estimator** > Rsq: within 模型(2)对应的R2，是一个真正意义上的R2 * > Rsq: between corr{xm_i*b_w,ym_i}^2* > Rsq: overall corr{x_it*b_w,y_it}^2***** sigma_u, sigma_e, rho* rho = sigma_u^2 / (sigma_u^2 + sigma_e^2)dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2)** 个别效应是否显著？* F(28, 373) = 338.86 H0: a1 = a2 = a3 = a4 = a29* Prob > F = 0.0000 标明，固定效应高度显著*如何得到调整后的 R2,即 adjR2 ？ereturn listreg logy h inv gov open dum**拟合值和残差* y_it = u_i + x_it*b + e_it* predict newvar, [option]/*xb xb, fitted values; the defaultstdp calculate standard error of the fitted valuesue u_i + e_it, the combined residualxbu xb + u_i, prediction including effectu u_i, the fixed or randomerror componente e_it, the overall error component */xtreg logy logk logl, fepredict y_hatpredict a , upredict res,epredict cres, uegen ares = a + reslist ares cres in 1/10** 随机效应模型** y_it = x_it*b + (a_i + u_it)* = x_it*b + v_it* 根本思想：将随机搅扰项分红两种* 一种是不随时间改动的，即个别效应 a_i* 另一种是随时间改动的，即通常意义上的搅扰项 u_it * 估量办法：FGLS* Var(v_it) = sigma_a^2 + sigma_u^2* Cov(v_it,v_is) = sigma_a^2* Cov(v_it,v_js) = 0* 利用Pooled OLS，Within Estimator, Between Estimator* 可以估量出sigma_a^2和sigma_u^2,进而采取GLS或FGLS* Re估量量是Fe估量量和Be估量量的加权平均* yr_it = y_it theta*ym_i* xr_it = x_it theta*xm_i* theta = 1 sigma_u / sqrt[(T*sigma_a^2 + sigma_u^2)]* 解读 xtreg,re 的估量结果use product.dta, clearxtreg logy logk logl, re* R2* > Rsq: within corr{(x_itxm_i)*b_r, y_itym_i}^2* > Rsq: between corr{xm_i*b_r,ym_i}^2* > Rsq: overall corr{x_it*b_r,y_it}^2* 上述R2都不是真正意义上的R2，因为Re模型采取的是GLS估量.** rho = sigma_u^2 / (sigma_u^2 + sigma_e^2)dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2)** corr(u_i, X) = 0 (assumed)* 这是随机效应模型的一个最重要，也限制该模型应用的一个重要假定* 然而，采取固定效应模型，我们可以粗略估量出corr(u_i, X) xtreg market invest stock, fe** 时间效应、模型的筛选和罕有问题*目录* 时间效应（双向固定(随机)效应模型）* 模型的筛选* 面板数据罕有问题* 面板数据的转换** 时间效应** 单向固定效应模型* y_it = u_i + x_it*b + e_it* 双向固定效应模型* y_it = u_i + f_t + x_it*b + e_itqui tab year, gen(yr)drop yr1xtreg logy logk logl yr*, fe* 随机效应模型中的时间效应xtreg logy logk logl yr*, fe** 模型的筛选** 固定效应模型仍是Pooled OLS？xtreg logy logk logl yr*, fe /*Wald 查验*/qui tab id, gen(dum) /*LR查验*/reg logy logk logl /*POLS*/est store m_olsreg logy logk logl dum*,noconsest store m_felrtest m_ols m_feest table m_*, b(%6.3f) star(0.1 0.05 0.01)* RE vs Pooled OLS？* H0: Var(u) = 0* 办法一：BP 查验xtreg logy logk logl, rexttest0* FE vs RE?* y_it = u_i + x_it*b + e_it* Hausman 查验* 根本思想：如果 Corr(u_i,x_it) = 0, Fe 和 Re 都是一致的，但Re更有效* 如果 Corr(u_i,x_it)!= 0, Fe 仍然有效，但Re是有偏的* 根本步调***情形1：huasman为正数xtreg logy logk logl, feest store m_fextreg logy logk logl, reest store m_rehausman m_fe m_re*** 情形2：qui xtreg logy h inv gov open,feest store fequi xtreg logy h inv gov open,reest store rehausman fe re* Hausman 查验值为负怎么办？* 通常是因为RE模型的根本假定 Corr(x,u_i)=0 无法得到满足* 查验进程中两个模型的方差协方差矩阵都采取Fe模型的 hausman fe re, sigmaless* 两个模型的方差协方差矩阵都采取Re模型的hausman fe re, sigmamore*== 为何有些变量会被drop掉？use nlswork.dta, cleartsset idcode yearxtreg ln_wage hours tenure ttl_exp, fe /*正常执行*/* 产生种族虚拟变量tab race, gen(dum_race)xtreg ln_wage hours tenure ttl_exp dum_race2 dum_race3, fe * 为何 dum_race2 和 dum_race3 会被 dropped ?* 固定效应模型的设定：y_it = u_i + x_it*b + e_it (1)* 由于个别效应 u_i 不随时间改动，* 因此若 x_it 包含了任何不随时间改动的变量，* 都会与 u_i 组成多重共线性，Stata会自动删除之.*******异方差、序列相关和截面相关问题* 简介* y_it = x_it*b + u_i + e_it** 由于面板数据同时统筹了截面数据和时间序列的特征，* 所以异方差和序列相关必定会存在于面板数据中；* 同时，由于面板数据中每个截面（公司、团体、国度、地区）之间还可能存在内在的联系，* 所以，截面相关性也是一个需要考虑的问题.** 此前的阐发依赖三个假定条件：* （1） Var[e_it] = sigma^2 同方差假定* (2) Corr[e_it, e_its] = 0 序列无关假定* (3) Corr[e_it, e_jt] = 0 截面不相关假定** 当这三个假定无法得到满足时，便辨别出现异方差、序列相关和截面相关问题；* 我们一方面要采取各类办法来查验这些假定是否得到了满足；* 另一方面，也要在这些假定无法满足时寻求公道的估量办法.* 假定查验*== 组间异方差查验（截面数据的特征）* Var(e_i) = sigma_i^2* Fe 模型xtreg logy logk logl, fexttest3* Re 模型* Re自己已经较大程度的考虑了异方差问题，主要体现在sigma_u^2上*== 序列相关查验* Fe 模型xtserial logy logk loglxtserial logy logk logl, output* Re 模型xtreg logy logk logl, rexttest1 /*提供多个统计查验量*/*== 截面相关查验* xttest2命令 H0: 所有截面残差的相关系数都相等xtreg logy logk logl, fexttest2* 由于查验进程中执行了SUE估量，所以要求T>Nxtreg logy logk logl if id<6, fexttest2* xtcsd 命令（提供了三种查验办法）xtreg logy logk logl, fextcsd , pesaran /*Pesaran()*/xtcsd , friedman /*Friedman(1937)*/xtreg logy logk logl, rextcsd , pesaran* 估量办法*== 异方差稳健型估量xtreg logy h inv gov open, fe robustest store fe_rbxtreg logy h inv gov open, fe robustest store fe* 结果对比esttab fe_rb fe, b(%6.3f) se(%6.3f) mtitle(fe_rb fe)*== 序列相关估量* 一阶自相关 xtregar, fe/re* 模型： y_it = u_i + x_it*b + v_it (1)* v_it = rho*v_it1 + z_it (2)xtregar logy h inv gov open, feest store fe_ar1xtregar logy h inv gov open,fe lbi /*BaltagiWu LBI test*/* 说明：* (1) 这里的DurbinWatson =1.280677 具有较为庞杂的散布，* 不合于时间序列中的DW统计量.* (2) 其临界值见Bhargava et al. (1982, The Review of Economic Studies 49:553549)* (3) BaltagiWu LBI = 1.4739834 根本上没有太大的参考价值，* 因为他们并未提供临界值表，而该统计量的散布又相当庞杂xtregar logy h inv gov open, reest store re_ar1* 两阶段估量xtregar logy h inv gov open, fe twostepest store fe_ar1_two* 结果对比xtreg logy h inv gov open, feest store felocal models "fe fe_ar1 re_ar1 fe_ar1_two "esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w corr)* 高阶自相关* newey2 命令newey2 logy h inv gov open, lag(2)*== 组间相关（截面相关）* cluster 选项use xtcs.dta, clearxtreg logy h inv gov open, fe cluster(id)est store fe_clusterxtreg logy h inv gov open, re cluster(id)est store re_cluster************看过来很晕，采取一种综合处理：* xtgls 命令* xtpcse 命令* 简介（Greene, 2000, chp15）** 模型* y = X*b + U* 重点在于考虑搅扰项 U 的结构，包含* (1) 异方差 (2) 序列相关 (3) 截面相关性* 应用范围：多用于“大T，小N”型面板数据，* 因为，此时截面的异质性其实不是重点存眷的，而时序特征则较为明显* 因此，模型设定中未考虑个别效果* | y_1 | | X_1 | | e_1 |* | y_2 | | X_2 | | e_2 |* | . | | . | | . |* | . | = | . | * b + | . |* | . | | . | | . |* | y_n | | X_n | | e_n |* 截面异方差* E[e_i*e_i'] = s_i^2** | s1^2 0 ... 0 |* | 0 s2^2 ... 0 |* | . |* V = | . |* | . |* | 0 0 ... sn^2 |* 截面相关* E[e_i*e_i'] = s_ij^2** | s_11 s_12 ... s_1n |* | s_21 s_22 ... s_2n |* | . |* V = | . | * sigma^2* | . |* | s_n1 s_n2 ... s_nn |* 序列相关* E[e_i*e_i'] = s_i^2 * M_i** | s1^2*M_1 0 ... 0 |* | 0 s2^2*M_2 ... 0 |* | . |* V = | . |* | . |* | 0 0 ... sn^2*M_n |* GLS 估量* b = [X'V^{1}*X]^{1}[X'V^{1}y]* Var[b] = [X'V^{1}*X]^{1}* 估量和查验*=== xtgls 命令use invest2.dta, clearxtgls market invest stock, panels(iid) /*iid, 等同于Pooled OLS*/est store g_0reg market invest stockest store g_olsxtgls market invest stock, panel(het) /*截面异方差*/est store g_phetxtgls market invest stock, corr(ar1) /*所有截面具有相同的自相关系数*/est store g_par1xtgls market invest stock, corr(psar1) /*每个截面有自己的自相关系数*/est store g_psar1xtgls market invest stock, panel(corr) /*截面间相关且异方差*/est store g_pcorrxtgls market invest stock, p(c) corr(ar1)est store g_all* 查验异方差xtgls market invest stock, panel(het) /*截面异方差*/xttest3* 查验序列相关xtserial market invest stock* 查验截面相关xtgls market invest stock, panel(het)xttest2* 结果对比xtreg market invest stock, feest store felocal models "fe g_0 g_ols"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w)local models "fe g_phet g_par1 g_psar1 g_pcorr g_all"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w) compress* 说明：* 为何 xtgls 不报告请示 R2 ?* 因为此时的R2未必介于0和1之间，不具有传统线性回归模型中R2的寄义*=== xtpcse 命令* 默认假定：存在截面异方差和截面相关* 估量办法：OLS 或 PraisWinsten 回归* 有别于xtgls(采取FGLS估量)* 更适于方块面板 N不大(1020),T不大(1040)* 与 xtgls 的区别：估量办法不合* xtgls 采取GLS进行估量，而xtpsce采取OLS.use invest2.dta, clearxtpcse invest market stockest store pcse_full /*OLS估量，调整异方差和截面相关后的尺度误*/xtgls invest market stock, panels(correlated)est store m_xtgls /*FGLS估量，异方差和截面相关*/ xtpcse invest market stock, correlation(ar1)est store pcse_ar1 /*Prais_Winsten估量，配合的自相关系数*/xtpcse invest market stock, correlation(ar1) hetonlyest store pcse_ar1 /*不考虑截面相关*/* 结果对比xtreg invest market stock, feest store felocal models "fe pcse_full m_xtgls pcse_ar1 pcse_ar1"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w)* xtpcse 的结果与 xtgls 很是相似，但前者可以报告请示R2 * 当N较大时，采取该办法会很是费时，* 因为方差协方差矩阵是采取OLS估量的残差计较的use xtcs.dta, clearxtdesxtpcse tl size ndts tang tobin npr /*大约58分钟*/est store xtpcsextreg tl size ndts tang tobin npr, feest store fe* 结果对比local models "fe xtpcse"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w)* 系数估量值有较大不同，但符号和显著性是一致的.***动态面板模型 Part I** 动态面板模型** 简介* 一阶差分IV估量量(Anderson and Hisao, 1982)* 一阶差分GMM估量量(Arellano and Bond, 1991)* 系统GMM估量量(AB,1995; BB,1998)* == 简介 ==** 模型： y[it] = a0*y[it1] + a1*x[it] + a2*w[it] + u_i + e[it]** 特征：解释变量中包含了被解释变量的一阶滞后项* 可以是非平行面板，但要包管时间连续* x[it] ——严非分特别生变量 E[x_it,e_is] =0 for all t and s* 即，所有搅扰项与x都不相关* w[it] ——先决变量 E[w_it,e_is]!=0 for s<t, butE[x_it,v_is]=0 for all s>=t* 即，前期搅扰项与当期x相关，但当期和未来期搅扰项与x不相关.* y[it1]——内生变量 E[x_it,e_is]!=0 for s<=t* 即，前期和当期，尤其是当期搅扰项与x相关* u_i 随机效应，在截面间是 iid 的.u_i 与 e[it] 独立.** 内生性问题：* (1) 若假定 u_i 为随机效应，则 Corr(y[i,t1], u_i) !=0* (2) 若假定 u_i 为个别效应，需要想办法去除之，因为数据为"大N小T"* 一阶差分： D.y[i,t1] = y[i,t1] y[i,t2]* D.e[i,t] = e[i,t] e[i,t1]* 显然： Corr(D.y[i,t1], D.e[i,t]) !=0, 差分方程存在内生问题；* 组内去心： ym[i,t1] = y[i,t1] 1/(T1)*(y[i,t1]+...+y[i,T])* em[i,t] = e[i,t] 1/T*(e[i,t]+e[i,t1]+...+e[i,T])* 显然： Corr(ym[i,t1], em[i,t]) !=0, 仍然存在内生性问题** 处理办法：IV估量或GMM估量，选择适合的东西变量** 矩条件： E[e_it,z_it] = 0*========================================*========= 一阶差分 IV 估量量 ============*========Anderson and Hisao(1982)========*========================================** 根本思想：采取一阶差分去除个别效应 u_i,* y 的滞后二阶作为 D.y[it1] 的东西变量* 同时，D.y[it2] 也可以作为 D.y[it1] 的东西变量use abdata.dta, cleardes /*变量的定义*/tsset id year* 模型: n_it = b1*n_it1 + b2*n_it2* + b3*w_it + b4*w_it1* + b5*k_it + b6*k_it1 + b7*k_it2* + b8*ys_it + b9*ys_it1 + b10*ys_it2*xtivreg n L2.n w L1.w k L1.k L2.k ys L1.ys L2.ysyr1981yr1984 ///(L.n = L3.n), fd** 等价于*xtivreg n L2.n L(0/1).w L(0/2).(k ys) yr1981yr1984 (L.n = L3.n), fd*====================================*========= 一阶差分GMM估量量 =========*==============AB91==================** L.Hansen (1982) 提出 GMM** Arellano and Bond (1991)** 模型：** y[it] = a0*y[it1] + a1*x[it] + a2*w[it] + u_i + v[it]** 假定条件：* 搅扰项 v[it] 不存在序列相关；** 适用范围：* 大N，小T* 随后，我们会介绍“小N大T”型动态面板的估量办法** 根本思想：** 在 Anderson and Hisao(1982) 根本上增加了更多可用的东西变量** 在 t=3 处，y_i1 可以作为所有滞后项的东西变量* 在 t=4 处, y_i1, y_i2 可以作为所有滞后项的东西变量** D.y[it] = a1*D.y[it1] + a2*D.X[it] + D.v[it] X_it = [x_it, w_it] ** 因此，所有东西变量组成的矩阵如下：** |y_i1 0 0 0 0 0 ... 0 ... 0 D.x_i3 |* | 0 y_i1 y_i2 0 0 0 ... 0 ... 0 D.x_i4 |* | 0 0 0 y_i1 y_i2 y_i3 ... 0 ... 0 D.x_i5 |* Z_i = | . . . . . . . . . . . |* | . . . . . . . . . . . |* | 0 0 0 0 0 0 ... y_i1 ... yiT2 D.x_iT |** Z_i 的行数为 T2* Z_i 的列数为 sum_(m=1)^(T2){m} + K, K 为 X 的列数** 以 T =7，K=3 为例，则 Z_i 的列数为 (1+2+3+4+5)+3 = 18 ** 设定东西变量的基来源根底则：** 对内生变量的处理：与上述办法类似，* 即滞后两阶以上的水平变量均可作为差分方程的东西变量 (GMM type)* 对先决变量的处理：滞后一阶以上的水平变量均可作为东西变量 (GMM type)* 对外生变量的处理：自己作为自己的东西变量 (Standard IV) *== 例1：一阶差分估量量的根本设定* 解释变量仅包含 y_it 的一阶滞后项，默认设定* 搅扰项同方差，一阶段估量use abdata.dta, clearxtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984est store ab_0* 结果释疑** 1 东西变量的个数是如何确定的？(xtdpd, p.74)** 外生变量的东西变量等于外生变量的个数* L(0/1).w L(0/2).(k ys) yr1980yr1984 共 13个* 内生变量的东西变量：共 27个*list id year n L2.n DL2.n if id == 140** 差分方程的可用东西变量** year of Years of Number of* difference equation instruments instruments* 1978 1976 1* 1979 19761977 2* 1980 19761978 3* 1981 19761979 4* 1982 19761980 5* 1983 19761981 6* 1984 19761982 7** 28个* 2 GMMtype 和 Standard 两种类型的东西变量有何差别？(xtabond,p.27)** GMMtype 是针对内生变量或先决变量而言的东西变量，有多列* Standard 是针对外生变量而言的东西变量，只有一列* 过度识别查验（东西变量的使用是否公道）*estat sargan** 说明：* H0: overidentifying restrictions are valid* 这里，我们拒绝了原假定，但AB91指出，当搅扰项存在异方差时，* Sargan查验倾向于过度拒绝原假定，因此此处得到的结论其实不成信.* 采取两阶段估量，然后再执行Sargan查验较为稳妥：*xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984,twostepestat sargan** 说明：不过，AB91发明，* 若存在异方差，在两阶段估量后执行Sargan查验往往倾向于* Underreject问题，即过度接受原假定.* 通常而言，这极可能是我们的模型设定不当，或是东西变量的选择不公道.* 搅扰项序列相关查验** AB91 一阶差分估量量要求原始模型的搅扰项不存在序列相关，* 显然，差分后的搅扰项必定存在一阶序列相关，* 因此，我们需要查验差分方程的残差是否存在二阶(或更高阶)序列相关便可** 默认，二阶序列相关查验xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984,vce(robust)estat abond* 说明：若存在二阶相关，则意味着选取的东西变量不公道 * 高阶序列相关查验xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984,vce(robust) artest(3)estat abond*== 稳健型估量xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) robustest store ab4_one_rb* 此时，无法 Sargan 统计量estat sargan*== 两阶段估量 AB91(Tab4(a2)) 考虑异方差问题* 利用第一阶段估量得到的残差机关方差协方差矩阵，进而重新估量模型*xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) twostep est store ab4_twostep* 此时，Sargan 查验无法拒绝原假定*estat sargan* AB91重要建议：* (1) 采取一阶段估量结果进行系数显著性的统计推断；* (2) 采取两阶段估量给出的 Sargan统计量进行模型筛选** 进一步的讨论：* 虽然AB91建议不要采取两阶段(非稳健)估量进行统计推断，* 但Windmeijer(,Journal of Econometrics)通过模拟阐发标明，* 采取纠偏(biascorrected,WC)后的稳健性VCE，可以更好地进行统计推断xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) twostep vce(robust)est store ab_wc_rb* 结果对比local mm "ab4_one_rb ab4_twostep ab_wc_rb"esttab `mm',mtitle(`mm')** 结论：* AB91_onestep_rb 的结果与 AB91_WC_rb 的参数估量相同，后者尺度误较大* 建议采取 Windmeijer() 两阶段纠偏稳健型估量量.*== 先决变量的设定* 由于当期搅扰项显然会影响后续 w 和 k，所以把它们设定为先决变量更加公道* 注意: 此时逗号前就不克不及再出现这两个变量了xtabond n L(0/1).ys yr1980yr1984, lags(2) twostep ///pre(w k)est store ab4_preestat sargan* 从 Sargan p值来看，将 w 和 k 设为先决变量似乎更加公道 * pre() 选项的设定xtabond n L(0/1).ys yr1980yr1984, lags(2) twostep ///pre(w,lag(1,3)) pre(k,lag(2,.))** 解释：* pre(w,lag(1,3))* lag(1,3) 中的 1 暗示 L.w 也会作为解释变量，* lag(1,3) 中的 3 暗示 L2.w 和 L3.w 可以作为 L.w 的东西变量，但 L4.w 不成以；* pre(k,lag(2,.))* lag(2,.) 中的 2 暗示 L1.k, L2.k 都会作为解释变量；* lag(2,.) 中的 . 暗示 L3.k, L4.k ... 都可以作为 L2.k 的东西变量* 说明：上述设定都可附加 vce(robust) 选项以便取得稳健型尺度误.*== 东西变量过量导致的问题* 过量的东西变量往往导致过度约束假定无法满足* 估量结果的有效性下降，因为部分东西变量与内生或先决变量的相关性很弱* 对矩阵尺寸的要求增加* 解决办法：限制最大的滞后阶数xtabond n L(0/1).ys yr1980yr1984, lags(2) twostep ///pre(w,lag(1,3)) pre(k,lag(2,3))*== 系数估量的上下限* 虽然 Pooled OLS 和 Fixed Effects 估量都是有偏的，* 但是两者却决定了 y_it1 真是估量值的上界和下界* 换言之， Pooled OLS 估量高估了真实值* 而 Fixed effects 估量则低估了真实值*=======================================*============= 系统GMM估量量 ===========*==============AB95,BB98===============*=======================================* Arellano and Bover (1995),* Blundell and Bond(1998)* Haha(1999), Judson and Owen(1999)** 适用范围：* 大N，小T** AB91 的局限* (1) 当 y[i,t1] 的系数较大，即 y[i,t] 表示出强烈的序列相关时；* (2) 当 Var[u_i]/Var[e_it] 较大时，即个别效应的动摇远大于常规搅扰项的动摇；* AB91 的表示欠佳.* 原因在于，水平滞后项是差分方程中内生变量的弱东西变量；* 因此，需要寻求更佳的东西变量**== 根本思想：** 几个概念** 水平值—— y x* 水平方程：y_it = b1*y_it1 + b2*x_it + u_i + v_it* 可用东西变量：D.y[i,t1] 可以作为 y[i,t1] 的东西变量* 可用东西变量：y[i,t2],y[i,t3]...都可以作为 D.y[i,t1]的东西变量** 差分GMM估量量与系统GMM估量量的区别** (1) 差分GMM估量量采取水平值的滞后项作为差分变量的东西变量；* 如 y_it3 是 D.y_it1 的东西变量* (2) 系统GMM估量量进一步采取差分变量的滞后项作为水平值的东西变量；* 相当于进一步增加了可用的东西变量，* 且估量进程中同时使用水平方程和差分方程* (3) 主要原因在于差分GMM的东西变量往往是弱东西变量，即 corr(X,Z) 太低** xtabond2 命令Roodman()** 既可以估量差分 GMM 估量量，也可以估量系统 GMM 估量量；* 同时可以估量一般化的回归模型* 提供两阶自相关查验，Sargan查验，Hansen查验，以及东西变量外生性查验** xtdpdsys 命令 Stata官方命令，以 xtabond2命令为根本** xtabond2 命令** 适用于 Stata810 各个版本* 既可以完成一阶差分GMM估量* 也可以完成系统GMM估量* 详细参考资料：* Roodman, D. . How to Do xtabond2:* An Introduction to "Difference" and "System" GMM in Stata. * Working Paper 103. Center for Global Development, Washington.*== 使用 xtabond2 命令得到一阶差分估量量* 附加 noleveleq 选项便可* 采取 xtabond2 估量 AB91 文中表4 的结果* Arellano and Bond (1991), Table 4* Column (a1)use abdata, clearxtabond2 n L(1/2).n L(0/1).w L(0/2).(k ys) yr1980yr1984, ///gmm(L.n) iv(L(0/1).w l(0/2).(k ys) yr1980yr1984) /// nomata noleveleq small* gmm(*) 填写内生变量的名称* iv(*) 填写所有外生变量以及自己设定的东西变量的名称* noleveleq 暗示估量进程中不使用水平方程，即为差分GMM估量量est store aba1_ab2xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2)est store aba1_abesttab aba1_ab2 aba1_ab, mtitle(aba1_ab2 aba1_ab)* Column (a2)* 两阶段估量xtabond2 n L(0/1).w L(0/2).(k ys) L(1/2).n yr1980yr1984, /// gmm(L.n) iv(L(0/1).w l(0/2).(k ys) yr1980yr1984) /// noleveleq small twostepest store aba2_ab2xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) twostep est store aba2_abesttab aba2_ab2 aba2_ab, mtitle(aba2_ab2 aba2_ab)*=== 一阶差分估量量部分化释变量内生* 一阶段估量xtabond2 n L.n L(0/1).(w k) yr1980yr1984, ///gmm(L.(w k n)) iv(yr1980yr1984) ///noleveleq noconstant small robustest store fd_1s* 两阶段估量xtabond2 n L.n L(0/1).(w k) yr1980yr1984, ///gmm(L.(w k n)) iv(yr1980yr1984) ///noleveleq robust small twostepest store fd_2sesttab fd_1s fd_2s, mtitle(fd_1s fd_2s)*== 系统 GMM 估量量xtabond2 n L.n L(0/1).(w k) yr1978yr1984, ///gmm(L.n) iv(L(0/1).(w k) yr1978yr1984) ///robust small** 解释：** gmm() 选项* 设定内生变量和先决变量，它们的东西变量将有多列，GMM** iv() 选项* 设定严非分特别生变量，作为自己的东西变量，在东西变量矩阵中仅占一列** 差分方程和水平方程* 默认情况下，差分方程和水平方程都介入估量** robust 选项* (1) 对于一阶段估量(不附加twostep选项)，* 采取传统异方差序列相关稳健型估量量计较尺度误；* (2) 对于两阶段估量(附加twostep选项)，* 采取Windmeijer()纠偏估量量计较尺度误；* Sargan查验* Sargan test of overid. restrictions: chi2(34)* 34 = 47 13 （13是外生变量的个数，包含常数项）* 可见，无论采取Sargan查验仍是Hansen J查验，都拒绝了东西变量公道的原假定* 指定东西变量应用于水平方程仍是差分方程* 例如，假定 w, k, 以及年度虚拟变量都是外生的(当然，这一假定可能其实不公道)*xtabond2 n L.n L(0/1).(w k) yr1978yr1984, gmm(L.n) ///iv(L(0/1).(w k) yr1978yr1984, eq(level)) ///robust small twostepest store sys_wkexg* 将 w 和 k 都设定为内生变量* yr dummies 仅出现在水平方程中xtabond2 n L.n L(0/1).(w k) yr1978yr1984, ///gmm(L.(w k n)) iv(yr1978yr1984, eq(level)) ///robust small twostepest store sys_wkendog_lev* yr dummies 同时出现在水平方程和差分方程中xtabond2 n L.n L(0/1).(w k) yr1978yr1984, ///gmm(L.(w k n)) iv(yr1978yr1984, eq(both)) ///robust small twostepest store sys_wkendog_both* 结果对比local mm "fd_1s fd_2s sys_wkexg sys_wkendog_levsys_wkendog_both"esttab `mm', mtitle(`mm') compress** xtdpdsys 命令** 仅适用于 Stata10 版本* 中国上市公司资本结构动态调整use xtcs.dta, clearqui tab year, gen(yr)drop yr1* Case I：假定所有解释变量均为外生变量(L.tl除外)*local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtdpdsys tl `xx', vce(robust) twostepdis ln(2) / (1 _b[L1.tl]) /*调整半周期*/est store dycs_2sys* 设定说明：* (1) 无需设定 L.tl, 因为 xtdpdsys 默认设定被解释变量的滞后一期为解释变量，* 并且该变量被自动设定为内生变量；* (2) 稳健型估量采取 vce(robust) 选项加以设定；* (3) 该命令不会自动进行 AR(2)序列相关查验和Sargan过度识别查验* 序列相关查验estat abond* 过度识别查验estat sargan /*稳健型估量下无法取得Sargan统计量*/* 正确办法local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtdpdsys tl `xx', twostepestat sargan* Case II：假定Tobin和npr为先决变量local xx "size tang ndts yr*" /*此处不该再包含 tobin和npr*/ xtdpdsys tl `xx', pre(tobin npr,lag(1,.)) twostepest store dycs_2preestat abondestat sargan* Case III：假定Tobin和npr为内生变量local xx "size tang ndts yr*" /*此处不该再包含 tobin和npr*/ xtdpdsys tl `xx', endog(tobin npr,lag(1,.)) twostepest store dycs_2endogestat abondestat sargan* Case IV: 假定除了年度虚拟变量和公司范围外，所有解释变量均为先决变量local xx "size yr*"xtdpdsys tl `xx', pre(tobin npr,lag(1,.)) ///pre(tang ndts) twostepest store dycs_2preAllestat abondestat sargan* 假定除 L.tl 外的所有解释变量外生最为适合.* OLS 估量(调整系数的上限)local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"reg tl L.tl `xx', robustest store dycs_2OLS* FE 估量(调整系数的下限)local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtreg tl L.tl `xx', robust feest store dycs_2FE* 结果对比local mm "dycs_2sys dycs_2pre dycs_2endog dycs_2preAll dycs_2OLS dycs_2FE"local ss "ar2 ar2p sargan sar_df sarganp"esttab `mm',mtitle(`mm') scalar(`ss') compress* 结论：* (1) 估量出的调整系数介于公道的范围内，即OLS和FE之间；* (2) 就模型设定而言，dycs_2sys 最为公道，即把所有解释变量均设定为外生变量.** 调整半周期为：local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtdpdsys tl `xx', vce(robust) twostepdis ln(2) / (1 _b[L1.tl]) /*调整半周期*/xtabond2 logy l.logy h inv gov open fdi yr4yr14, ///gmm(l.logy h) iv(gov open fdi yr4yr14)robust twostep。

stata命令大全(全)

********* 面板数据计量分析与软件实现 *********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计） * 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，侧重于比较C-D与Translog生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI 溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel 格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

(完整word版)stata命令语句

stata学习心得（网络版存盘）2009-03-25 18:06调整变量格式：format x1 %10.3f ——将x1的列宽固定为10，小数点后取三位format x1 %10.3g ——将x1的列宽固定为10，有效数字取三位format x1 %10.3e ——将x1的列宽固定为10，采用科学计数法format x1 %10.3fc ——将x1的列宽固定为10，小数点后取三位，加入千分位分隔符format x1 %10.3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符format x1 %-10.3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符，加入“-”表示左对齐合并数据：use "C:\Documents and Settings\xks\桌面\2006.dta", clearmerge using "C:\Documents and Settings\xks\桌面\1999.dta"——将1999和2006的数据按照样本（observation）排列的自然顺序合并起来use "C:\Documents and Settings\xks\桌面\2006.dta", clearmerge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort——将1999和2006的数据按照唯一的（unique）变量id来合并，在合并时对id进行排序（sort）建议采用第一种方法。

对样本进行随机筛选：sample 50在观测案例中随机选取50%的样本，其余删除sample 50,count在观测案例中随机选取50个样本，其余删除查看与编辑数据：browse x1 x2 if x3>3 （按所列变量与条件打开数据查看器）edit x1 x2 if x3>3 （按所列变量与条件打开数据编辑器）数据合并（merge）与扩展（append）merge表示样本量不变，但增加了一些新变量；append表示样本总量增加了，但变量数目不变。

stata命令大全(全)

********* 面板数据计量分析与软件实现 *********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计） * 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，侧重于比较C-D与Translog生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI 溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel 格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

stata命令大全(全)

*********面板数据计量分析与软件实现*********说明：以下do文件相当一部分容来自于大学连玉君STATA教程，感他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计）* 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，侧重于比较C-D与Translog 生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

stata命令大全(全)

*********面板数据计量分析与软件实现*********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计）* 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，侧重于比较C-D与Translog 生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

stata命令大全(全)

********* 面板数据计量分析与软件实现 *********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计） * 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，侧重于比较C-D与Translog生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI 溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel 格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

stata命令大全超实用（全）

stata命令大全超实用（全）*********面板数据计量分析与软件实现*********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA 教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计）* 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，侧重于比较C-D与Translog 生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/ tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

(完整word版)STATA面板数据模型操作命令要点

STATA 面板数据模型估计命令一览表一、静态面板数据的STATA 处理命令εαβit ++=x y it i it 固定效应模型μβit +=x y it itεαμit +=it it 随机效应模型（一）数据处理输入数据●tsset code year 该命令是将数据定义为“面板”形式●xtdes 该命令是了解面板数据结构●summarize sq cpi unem g se5 ln 各变量的描述性统计（统计分析）●gen lag_y=L.y /////// 产生一个滞后一期的新变量gen F_y=F.y /////// 产生一个超前项的新变量gen D_y=D.y /////// 产生一个一阶差分的新变量gen D2_y=D2.y /////// 产生一个二阶差分的新变量（二）模型的筛选和检验●1、检验个体效应（混合效应还是固定效应）（原假设：使用OLS混合模型）●xtreg sq cpi unem g se5 ln,fe对于固定效应模型而言，回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。

在我们这个例子中发现F统计量的概率为0.0000，检验结果表明固定效应模型优于混合OLS模型。

●2、检验时间效应（混合效应还是随机效应）（检验方法：LM统计量）（原假设：使用OLS混合模型）●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0可以看出，LM检验得到的P值为0.0000，表明随机效应非常显著。

可见，随机效应模型也优于混合OLS模型。

●3、检验固定效应模型or随机效应模型（检验方法：Hausman检验）原假设：使用随机效应模型（个体效应与解释变量无关）通过上面分析，可以发现当模型加入了个体效应的时候，将显著优于截距项为常数假设条件下的混合OLS模型。

但是无法明确区分FE or RE的优劣，这需要进行接下来的检验，如下：Step1：估计固定效应模型，存储估计结果Step2：估计随机效应模型，存储估计结果Step3：进行Hausman检验●qui xtreg sq cpi unem g se5 ln,feest store fequi xtreg sq cpi unem g se5 ln,reest store rehausman fe (或者更优的是hausman fe,sigmamore/ sigmaless)可以看出，hausman检验的P值为0.0000，拒绝了原假设，认为随机效应模型的基本假设得不到满足。

stata命令大全(全)

********* 面板数据计量分析与软件实现 *********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计） * 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，侧重于比较C-D与Translog生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI 溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel 格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

(完整word)Stata统计分析命令

Stata统计分析常用命令汇总一、winsorize极端值处理范围：一般在1%和99％分位做极端值处理,对于小于1%的数用1%的值赋值，对于大于99%的数用99％的值赋值。

1、Stata中的单变量极端值处理：stata 11。

0,在命令窗口输入“findit winsor”后,系统弹出一个窗口，安装winsor模块安装好模块之后，就可以调用winsor命令，命令格式：winsor var1, gen(new var） p(0。

01）或者在命令窗口中输入：ssc install winsor安装winsor命令.winsor命令不能进行批量处理。

2、批量进行winsorize极端值处理：打开链接：http://personal。

/judson。

caskey/data。

html,找到winsorizeJ，点击右键，另存为到stata中的ado/plus/目录下即可。

命令格式：winsorizeJ var1var2var3，suffix(w）即可,这样会生成三个新变量，var1w var2w var3w,而且默认的是上下1%winsorize。

如果要修改分位点，则写成如下格式：winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95）。

3、Excel中的极端值处理:（略）winsor2 命令使用说明简介：winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts（# #）。

In defult， new variables will be generated with a suffix "_w” or "_tr"， which can be changed by specifying suffix（） option。

(完整)stata命令总结,推荐文档

stata11常用命令注：JB统计量对应的p大于0.05，则表明非正态，这点跟sktest和swilk 检验刚好相反；dta为数据文件；gph为图文件；do为程序文件；注意stata要区别大小写；不得用作用户变量名：_all _n _N _skip _b _coef _cons _pi _pred _rc _weight doublefloat long int in if using with命令：读入数据一种方式input x y1 42 5.53 6.24 7.75 8.5endsu/summarise/sum x 或 su/summarise/sum x,d对分组的描述：sort groupby group:su x%%%%%tabstat economy,stats(max) %返回变量economy的最大值%%stats括号里可以是：mean，count(非缺失观测值个数)，sum(总和)，max，min，range，%% sd，var，cv(变易系数＝标准差/均值)，skewness，kurtosis，median，p1(1％分位%% 数，类似地有p10, p25, p50, p75, p95, p99)，iqr(interquantile range = p75 – p25)_all %描述全部_N 数据库中观察值的总个数。

_n 当前观察值的位置。

_pi 圆周率π的数值。

listgen/generate %产生数列egen wagemax=max(wage)clearuseby(分组变量)set more 1/0count %计数gsort +x (升序)gsort -x (降序)sort x 升序；并且其它变量顺序会跟着改变label var y "消费" %添加标签describe %描述数据文件的整体，包括观测总数，变量总数，生成日期，每个变量的存储类型(storage type)，标签(label)replace x5=2*y if x!=3 %替换变量值replace age = 25 in 107 %令第107个观测中age为25rename y2 u %改变变量名drop in 2 %删除全部变量的第2行drop if x==. 删去x为缺失值的所有记录keep if x<2 %保留小于2的数据，其余变量跟随x改变keep in 2/10 %保留第2-10个数keep x1-x5 %保留数据库中介于x1和x5间的所有变量 (包括x1和x5)，其余变量删除ci x1 x2,by(group) %算出置信区间,不过先前对group要先排序，即sort group；%by的意思逐个进行cii 12 3.816667 0.2710343, level(90) %已知均值，方差，计算90%的置信区间cii 10 2 %obs=10,mean=2,以二项分布形式，计算置信区间centile x,centile(2.5 25 50 75 97.5) %取分位数correlate/corr x y z %相关系数pwcorr x y,sig %给出原假设r=0的命令%如果变量非服从正态分布，则spearman x yregress/reg mean year %回归方程建立 reg y x,noconstant %无常数项predict meanhat %预测拟合值predict e,residual %得到残差estat hettest % 异方差检验dwstat % Durbin-Watson自相关检验vif % 方差膨胀因子logit y x1 x2 x3 (y取0或1，是被解释变量，x1-x3是被解释变量) %logit 回归probit y x1 x2 x3 (y取0或1，是被解释变量，x1-x3是被解释变量) %probit 回归tobit y x1 x2 x3 (y取值在0和1之间，是被解释变量，x1-x3是被解释变量) %tobit回归sktest e %残差正态性检验 p>0.05则接受原假设，即服从正态分布；%% sktest是基于变量的偏度和斜度(正态分布的偏度为0，斜度为3)swilk x %基于Shapiro-Wilk检验%%p值越小，越倾向于拒绝零假设，也就是变量越有可能不服从正态分布xi %生成虚拟变量tabulat gender,summ(math) %用gender指标对math进行分类，返回两类math 的mean、std、freqtabulate=tab %gen f=int((shengao-164)/3)*3+164 组距为3tabulate 变量名 [, generate(新变量) missing nofreq nolabel plot ] %%%%%generate(新变量) // 按分组变量产生哑变量nofreq // 不显示频数nolabel // 不显示数值标记plot // 显示各组频数图示missing // 包含缺失值cell // 显示各小组的构成比(小组之和为 1) column // 按栏显示各组之构成(各栏总计为 1)row // 按行显示各组之构成(各行总计为 1) %%%%%求和，求最小？mod(x,y) %求余数means %返回三种平均值di normprob(1.96)di invnorm(0.05)di binomial(20,5,0.5)di invbinomial(20,5,0.5)di tprob(10,2)di invt(10.0.05)di fprob(3,27,1)di invfprob(3,27,0.05)di chi2(3,5)di invchi2(3,0.05)stack x y z,into(e) %把三列合成一列xpose,clear %矩阵转置append using d:\0917.dta %把已打开的文件（x y z）跟0917里的（x y z）合并，是竖向合并，即观察值合并；merge using D:\0917.dta %把已打开的文件（x y z）跟0917里的（a b）合并，是横向合并，即变量合并；format x %9.2e %科学记数format x %9.2f %2位小数%产生随机数%1 产生20个在(0，1)区间上均匀分布的随机数uniform()set seed 100set obs 20gen r=uniform()list%clear 清除内存set seed 200 设置种子数为 200set obs 20 设置样本量为 20range no 1 20 建立编号 1 至 20gen r=uniform() 产生在(0,1)均匀分布的随机数gen group=1 设置分组变量 group 的初始值为 1sort r 对随机数从小到大排序replace group=2 in 11/20 设置最大的 10 个随机数所对应的记录为第2组，即：最小的10个随机数所对应的记录为第1组sort no 按照编号排序list 显示随机分组的结果也可以list if group==1和list no if group==1%2 产生10个服从正态分布N（100，6^2）的随机数invnorm(uniform())*sigma+u clear 清除内存set seed 200 设置种子数为 200set obs 10 设置样本量为 10 gen x=invnorm(uniform())*6+100 产生服从 N(100，6^2)的随机数list画图注意有些图前面要加histogram 直方图line 折线图scatter 散点图scatter y x,c(l) s(d) b2("(a)")graph twoway connected y x 连点图graph bar (sum) var2,over(var1) blabel(total) %条形图. graph bar p52 p72,by(d). graph bar p52 p72,over(d). graph bar p52 p72,by(d) stack. graph bar p52 p72,over(d) stack////////////数据如下%d p52 p72%1 163.2 27.4%2 72.5 83.6%3 57.2 178.2histogram x,bin(8) norm %画直方图，加正态分数线graph pie a b o ab if area==1,plabel(_all percent) %画饼图graph pie var2, over(var1) plabel(_all percent) %饼图graph pie p52 p72,by(d) %饼图graph box y1 %箱体图qnorm x %qq图lfit y x %回归直线graph matrix gender economy math 多变量散点图line yhat x||scatter y x,c(.l) s(O.) xline(12) yline(5.4) %线形图&散点图有一些通用的选项可以给图形“润色”：标题title(“string”) （string可为任意的字符串，下同）脚注note(“string”)横座标标题xtitle(“string”)纵座标标题ytitle(“sting”)横座标范围 xaxis(a,b) （a<b为两个数字，下同）纵座标范围 yaxis(a,b)插入文字 text （该命令既要指定插入文字的内容，也要指定插入的位置）插入图例 legend （该命令既要指定图例的内容，也要指定其位置）绘制散点图和线条的两个主要的选择项为：connect(c...c) //连接各散点的方式，c表示：或简写为c(c...c) . 不连接 (缺省值)l 用直线连接L 沿x方向只向前不向后直线连接m 计算中位数并用直线连接s 用三次平滑曲线连接J 以阶梯式直线条连接|| 用直线连接在同一纵向上的两点II 同 ||, 只是线的顶部和底部有一个短横Symbol(s...s) // 表示各散点的图形，s 表示：或简写为s(s...s) O 大圆圈 (缺省值)S 大方块T 大三角形o 小圆圈d 小菱形p 小加号. 小点i 无符号[varname] 用变量的取值代码表示[_n] 用点的记录号表示数学函数等都要与generate、replace、display一起使用，不能单独使用程序文件douse d:\0917.dtareg y xline y x,saving(d:\d4)按ctrl+D执行字符串操作函数：length(s) %长度函数，计算s的长度, 如，displength("ab")的结果是2substr(s,n1,n2) %子串函数，获得从s的n1个字符开始的n2个字符组成的字符串,disp substr("abcdef",2,3)的结果是"bcd"string(n) %将数值n转换成字符串函数，如，dispstring(41)+"f"的结果是"41f"real(s) %将字符串s转换成数值函数，如，dispreal("5.2")+1的结果是6.2upper(s) %转换成大写字母函数，如，disp upper("this")的结果是"THIS"lower(s) %转换成小写字母函数，如disp lower("THIS")的结果是"this"index(s1,s2) %子串位置函数，计算s2在s1中第一次出现的起始位置, 如果s2不在s1中, 则结果为0。

stata命令大全(全)

*********面板数据计量分析与软件实现*********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计）* 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，侧重于比较C-D与Translog 生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

(完整word版)Stata命令整理

Stata 命令语句格式：[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]1、[by varlist:]*如果需要分别知道国产车和进口车的价格和重量，可以采用分类操作来求得，sort foreign //按国产车和进口车排序. by foreign: sum price weight*更简略的方式是把两个命令用一个组合命令来写。

. by foreign, sort: sum price weight如果不想从小到大排序，而是从大到小排序，其命令为gsort。

. sort - price //按价格从高到低排序. sort foreign -price /*先把国产车都排在前，进口车排在后面，然后在国产车内再按价格从大小到排序，在进口车内部，也按从大到小排序*/2、[=exp]赋值运算. gen nprice=price+10 //生成新变量nprice，其值为price+10/*上面的命令generate(略写为gen) 生成一个新的变量，新变量的变量名为nprice,新的价格在原价格的基础上均增加了10 元。

. replace nprice=nprice-10 /*命令replace 则直接改变原变量的赋值，nprice 调减后与price 变量取值相等*/3、[if exp]条件表达式. list make price if foreign==0*只查看价格超过1 万元的进口车（同时满足两个条件），则. list make price if foreign==1 & price>10000*查看价格超过1 万元或者进口车（两个条件任满足一个）. list make price if foreign==1 | price>100004、[in range]范围筛选sum price in 1/5注意“1/5”中，斜杠不是除号，而是从1 到 5 的意思，即1，2，3，4，5。