stata 命令
STATA最常用命令大全
statasave命令FileSave As例1. 表1.为某一降压药临床试验数据,试从键盘输入Stata,并保存为Stata格式文件。
STATA数据库的维护排序SORT 变量名1 变量名2 ……变量更名rename 原变量名新变量名STATA数据库的维护删除变量或记录drop x1 x2 /* 删除变量x1和x2drop x1-x5 /* 删除数据库中介于x1和x5间的所有变量(包括x1和x5)drop if x<0 /* 删去x1<0的所有记录drop in 10/12 /* 删去第10~12个记录drop if x==. /* 删去x为缺失值的所有记录drop if x==.|y==. /* 删去x或y之一为缺失值的所有记录drop if x==.&y==. /* 删去x和y同时为缺失值的所有记录drop _all /* 删掉数据库中所有变量和数据STATA的变量赋值用generate产生新变量generate 新变量=表达式generate bh=_n /* 将数据库的内部编号赋给变量bh。
generate group=int((_n-1)/5)+1 /* 按当前数据库的顺序,依次产生5个1,5个2,5个3……。
直到数据库结束。
generate block=mod(_n,6) /* 按当前数据库的顺序,依次产生1,2,3,4,5,0。
generate y=log(x) if x>0 /* 产生新变量y,其值为所有x>0的对数值log(x),当x<=0时,用缺失值代替。
egen产生新变量set obs 12egen a=seq() /*产生1到N的自然数egen b=seq(),b(3) /*产生一个序列,每个元素重复#次egen c=seq(),to(4) /*产生多个序列,每个序列从1到#egen d=seq(),f(4)t(6) /*产生多个序列,每个序列从#1到#2encode 字符变量名,gen(新数值变量名)作用:将字符型变量转化为数值变量。
Stata常用15条命令
【命令1】:导入数据一般做实证分析使用的是excel中的数据,其后缀名为.xls,需要将其修改为.csvinsheet using name.csv, clear【命令2】:删除重复变量sort var1 var2duplicatesdrop var1 var2, force【命令3】:合并数据use data1, clearmerge m:m var1 var2 using data2drop if _merge==2drop if _merge==1drop _merge【命令4】:描述性统计分析tabstat var1var2, stat(n min mean median p25 p75 maxsd), if groupvar==0 or 1输出到word中:logout, save(name) word replace: tabstat var, stat(n min mean p50 max sd) col(stat)f(%9.2g)【命令5】:结果输出安装ssc install estout, replace单个回归reg y xesttab using name.rtf, compress nogap r2 ar2 star(* 0.1 ** 0.05 *** 0.01)多个回归一起reg y x1est store m1reg y x2est store m2esttab m1 m2 using name.rtf, compress nogap r2 ar2 star(* 0.1 ** 0.05 *** 0.01)【命令6】生成虚拟变量tab year, gen(year)tab industry, gen(industry)【命令7】数据缩尾处理findit winsor2之后安装winsor2 varname, replace cut(1 99)【命令8】异方差检验怀特检验ssc install whitetstreg y x1 x2estat imtest, white处理:“OLS+稳健标准差”reg y x1 x2 x3, robust【命令9】 DW检验gen id=_ntsset idestat dwatson【命令10】计算两个日期之间的间隔天数gen td=date(trading_date,'YMD')gen ed=date(eventdate,'YMD')form td ed %tdgen d=ed-td【命令11 】生成滞后、差分数据tsset code yeargen newvarname=l.varnamegen newvarname=d.varname【命令12】多重共线检验之方差膨胀因子reg y x1 x2 x3vif【命令13】多重共线修正之逐步回归stepwise, pe(0.1): reg y x【命令14】检验是否遗漏高次项reg y xestat ovtest或者estat ovtest, rhs【命令15】样本检验两样本均值T检验ttest var, by(groupvar)两样本中位数Z检验ranksum var, by(groupvar)。
stata命令大全(全)
********* 面板数据计量分析与软件实现 *********说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI 溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel 格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
STATA命令
STA TA 命令1、在约束和无约束的情况下观测值要一致,如果有缺省的要去掉,保持一致,生成一个新变量,然后去掉 egen 新变量名=rowmiss(缺省的变量名)drop if 缺省的变量 如c5.32、保留残差:predict g 或者e ,r (就是生成残差为r 的变量e 或者g )3、保留某些观测值:keep if 变量==条件 或者drop if ,keep in 1/200(保留观测值的前200个)4、cou if 变量==条件(表示计算满足条件的观测值个数)5、cor 变量A and 变量B (计算相关系数)6、求偏斜程度命令:sum 变量,detail ,偏斜程度用skewness 表示。
对数变换不能总是使一个恒为正的变量看上去更像正态分布。
7、求t 值、F 值:dis invttail(自由度,显著性水平),dis invFtail(q,n-k-1,显著性水平)根据t 、F 值求显著性水平 :dis ttail (自由度,t 值),dis Ftail (q ,n-k-1,F 值)(单侧情况)8、做直方图:histogram 变量9、对因变量进行预测(拟合值):predict yhat 或者predict y ,xb (xb 是stata 是默认的预测值的意思)10、当因变量为对数logy 时对y 的预测: 第一种方法求a :predict yi ,xb ;gen mi=exp (yi );gen mig=mi*mi ,gen k=mi*yi ;total mig ,total k ;dis total k/total mig 。
第二种方法求a ˆ:先做回归,然后predict e ,r ;gen n=exp (e );total n ;dis total n/样本个数(求均值),就是aˆ。
最后计算y ˆ=a或者a ˆ乘以某个特定取值处的exp (y ),就是y 的预测值。
通过对reg y ,mi ,可以求出R 调整方,即是通过logy 对y 的拟合程度,与水平情况下对y 的拟合程度对比,哪个更优。
stata命令大全(全)资料
stata命令大全(全)资料********* 面板数据计量分析与软件实现 *********说明:以下do文件相当一部分内容来自于中山大学连玉君STATA 教程,感谢他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI 溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel 格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
stata命令大全(全)
*********面板数据计量阐发与软件实现*********之五兆芳芳创作说明:以下do文件相当一部分外容来自于中山大学连玉君STATA教程,感激他的奉献.自己做了一定的修改与筛选.*面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE(pols混杂最小二乘估量)* 3.异方差、序列相关和截面相关查验* 4.动态面板模型(DIDGMM,SYSGMM)* 6.面板协整阐发(FMOLS,DOLS)*** 说明:15均用STATA软件实现, 6用GAUSS软件实现.* 生产效率阐发(尤其指TFP):数据包络阐发(DEA)与随机前沿阐发(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,偏重于比较CD与Translog生产函数,一步法与两步法的区别.常应用于地区经济差别、FDI溢出效应(Spillovers Effect)、产业行业效率状况等.* 空间计量阐发:SLM模型与SEM模型*说明:STATA与Matlab结合使用.常应用于空间溢出效应(R&D)、财务分权、地方政府公共行动等.** 一、经常使用的数据处理与作图** 指定面板格局xtset id year(id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改动量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格局出现*/sort year id /*是以DEA格局出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操纵时,year或id就不连续,为形成panel格局,需要用egen命令)egen year_new=group(year)xtset id year_new**保存变量或保存不雅测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格局出现sort year id /*是以DEA格局出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或xtdestsappend,add(5) /暗示在每个省份再追加5年,用于面板数据/ tsset*或tsdes.tsappend,add(8) /暗示追加8年,用于时间序列/*方差分化,比方三个变量Y,X,Z都是面板格局的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/gen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按纪律排列.可用命令aorder或order fdi open insti** 二、静态面板模型** 简介* 面板数据的结构(兼具截面资料和时间序列资料的特征)use product.dta, clearbrowsextset id yearxtdes** 固定效应模型** 实质上就是在传统的线性回归模型中参加 N1 个虚拟变量,* 使得每个截面都有自己的截距项,* 截距项的不合反应了个别的某些不随时间改动的特征** 例如: lny = a_i + b1*lnK + b2*lnL + e_it* 考虑中国29个省份的CD生产函数*******绘图**散点图+线性拟合直线twoway (scatter logy h) (lfit logy h)*散点图+二次拟合曲线twoway (scatter logy h) (qfit logy h)*散点图+线性拟合直线+置信区间twoway (scatter logy h) (lfit logy h) (lfitci logy h)*按不合个别画出散点图和拟合线,可以以做出fe vs re的初判断*twoway (scatter logy h if id<4) (lfit logy h if id<4) (lfit logy h if id==1) (lfit logy h if id==2) (lfit logy h if id==3)*按不合个别画散点图,so beautiful!!!*graph twoway scatter logy h if id==1 || scatter logy h ifid==2,msymbol(Sh) || scatter logy h if id==3,msymbol(T) || scatter logy h if id==4,msymbol(d) || , legend(position(11) ring(0) label(1 "北京") label(2 "天津") label(3 "河北") label(4 "山西")) **每个省份logy与h的散点图,并将各个图形归并twoway scatter logy h,by(id) ylabel(,format(%3.0f))xlabel(,format(%3.0f))*每个个别的时间趋势图*xtline h if id<11,overlay legend(on)* 一个例子:中国29个省份的CD生产函数的估量tab id, gen(dum)list* 回归阐发reg logy logk logl dum*,est store m_olsxtreg logy logk logl, feest store m_feest table m_ols m_fe, b(%6.3f) star(0.1 0.05 0.01)* Wald 查验test logk=logl=0test logk=logl* stata的估量办法解析* 目的:如果截面的个数很是多,那么采取虚拟变量的方法运算量过大* 因此,要寻求公道的方法去除掉个别效应* 因为,我们存眷的是 x 的系数,而非每个截面的截距项 * 处理办法:** y_it = u_i + x_it*b + e_it (1)* ym_i = u_i + xm_i*b + em_i (2) 组内平均* ym = um + xm*b + em (3) 样本平均* (1) (2), 可得:* (y_it ym_i) = (x_it xm_i)*b + (e_it em_i) (4) /*within estimator*/* (4)+(3), 可得:* (y_itym_i+ym) = um + (x_itxm_i+xm)*b + (e_item_i+em) * 可重新暗示为:* Y_it = a_0 + X_it*b + E_it* 对该模型执行 OLS 估量,便可得到 b 的无偏估量量**stata后台操纵,揭开fe估量的神秘面纱!!!egen y_meanw = mean(logy), by(id) /*个别内部平均*/egen y_mean = mean(logy) /*样本平均*/egen k_meanw = mean(logk), by(id)egen k_mean = mean(logk)egen l_meanw = mean(logl), by(id)egen l_mean = mean(logl)gen dyw = logy y_meanwgen dkw = logk k_meanwgen dlw=logll_meanwreg dyw dkw dlw,noconsest store m_statagen dy = logy y_meanw + y_meangen dk = logk k_meanw +k_meangen dl=logll_meanw+l_meanreg dy dk dlest store m_stataest table m_*, b(%6.3f) star(0.1 0.05 0.01)* 解读 xtreg,fe 的估量结果xtreg logy h inv gov open,fe* R^2* y_it = a_0 + x_it*b_o + e_it (1) pooled OLS* y_it = u_i + x_it*b_w + e_it (2) within estimator* ym_i = a_0 + xm_i*b_b + em_i (3) between estimator** > Rsq: within 模型(2)对应的R2,是一个真正意义上的R2 * > Rsq: between corr{xm_i*b_w,ym_i}^2* > Rsq: overall corr{x_it*b_w,y_it}^2***** sigma_u, sigma_e, rho* rho = sigma_u^2 / (sigma_u^2 + sigma_e^2)dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2)** 个别效应是否显著?* F(28, 373) = 338.86 H0: a1 = a2 = a3 = a4 = a29* Prob > F = 0.0000 标明,固定效应高度显著*如何得到调整后的 R2,即 adjR2 ?ereturn listreg logy h inv gov open dum**拟合值和残差* y_it = u_i + x_it*b + e_it* predict newvar, [option]/*xb xb, fitted values; the defaultstdp calculate standard error of the fitted valuesue u_i + e_it, the combined residualxbu xb + u_i, prediction including effectu u_i, the fixed or randomerror componente e_it, the overall error component */xtreg logy logk logl, fepredict y_hatpredict a , upredict res,epredict cres, uegen ares = a + reslist ares cres in 1/10** 随机效应模型** y_it = x_it*b + (a_i + u_it)* = x_it*b + v_it* 根本思想:将随机搅扰项分红两种* 一种是不随时间改动的,即个别效应 a_i* 另一种是随时间改动的,即通常意义上的搅扰项 u_it * 估量办法:FGLS* Var(v_it) = sigma_a^2 + sigma_u^2* Cov(v_it,v_is) = sigma_a^2* Cov(v_it,v_js) = 0* 利用Pooled OLS,Within Estimator, Between Estimator* 可以估量出sigma_a^2和sigma_u^2,进而采取GLS或FGLS* Re估量量是Fe估量量和Be估量量的加权平均* yr_it = y_it theta*ym_i* xr_it = x_it theta*xm_i* theta = 1 sigma_u / sqrt[(T*sigma_a^2 + sigma_u^2)]* 解读 xtreg,re 的估量结果use product.dta, clearxtreg logy logk logl, re* R2* > Rsq: within corr{(x_itxm_i)*b_r, y_itym_i}^2* > Rsq: between corr{xm_i*b_r,ym_i}^2* > Rsq: overall corr{x_it*b_r,y_it}^2* 上述R2都不是真正意义上的R2,因为Re模型采取的是GLS估量.** rho = sigma_u^2 / (sigma_u^2 + sigma_e^2)dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2)** corr(u_i, X) = 0 (assumed)* 这是随机效应模型的一个最重要,也限制该模型应用的一个重要假定* 然而,采取固定效应模型,我们可以粗略估量出corr(u_i, X) xtreg market invest stock, fe** 时间效应、模型的筛选和罕有问题*目录* 时间效应(双向固定(随机)效应模型)* 模型的筛选* 面板数据罕有问题* 面板数据的转换** 时间效应** 单向固定效应模型* y_it = u_i + x_it*b + e_it* 双向固定效应模型* y_it = u_i + f_t + x_it*b + e_itqui tab year, gen(yr)drop yr1xtreg logy logk logl yr*, fe* 随机效应模型中的时间效应xtreg logy logk logl yr*, fe** 模型的筛选** 固定效应模型仍是Pooled OLS?xtreg logy logk logl yr*, fe /*Wald 查验*/qui tab id, gen(dum) /*LR查验*/reg logy logk logl /*POLS*/est store m_olsreg logy logk logl dum*,noconsest store m_felrtest m_ols m_feest table m_*, b(%6.3f) star(0.1 0.05 0.01)* RE vs Pooled OLS?* H0: Var(u) = 0* 办法一:BP 查验xtreg logy logk logl, rexttest0* FE vs RE?* y_it = u_i + x_it*b + e_it* Hausman 查验* 根本思想:如果 Corr(u_i,x_it) = 0, Fe 和 Re 都是一致的,但Re更有效* 如果 Corr(u_i,x_it)!= 0, Fe 仍然有效,但Re是有偏的* 根本步调***情形1:huasman为正数xtreg logy logk logl, feest store m_fextreg logy logk logl, reest store m_rehausman m_fe m_re*** 情形2:qui xtreg logy h inv gov open,feest store fequi xtreg logy h inv gov open,reest store rehausman fe re* Hausman 查验值为负怎么办?* 通常是因为RE模型的根本假定 Corr(x,u_i)=0 无法得到满足* 查验进程中两个模型的方差协方差矩阵都采取Fe模型的 hausman fe re, sigmaless* 两个模型的方差协方差矩阵都采取Re模型的hausman fe re, sigmamore*== 为何有些变量会被drop掉?use nlswork.dta, cleartsset idcode yearxtreg ln_wage hours tenure ttl_exp, fe /*正常执行*/* 产生种族虚拟变量tab race, gen(dum_race)xtreg ln_wage hours tenure ttl_exp dum_race2 dum_race3, fe * 为何 dum_race2 和 dum_race3 会被 dropped ?* 固定效应模型的设定:y_it = u_i + x_it*b + e_it (1)* 由于个别效应 u_i 不随时间改动,* 因此若 x_it 包含了任何不随时间改动的变量,* 都会与 u_i 组成多重共线性,Stata会自动删除之.*******异方差、序列相关和截面相关问题* 简介* y_it = x_it*b + u_i + e_it** 由于面板数据同时统筹了截面数据和时间序列的特征,* 所以异方差和序列相关必定会存在于面板数据中;* 同时,由于面板数据中每个截面(公司、团体、国度、地区)之间还可能存在内在的联系,* 所以,截面相关性也是一个需要考虑的问题.** 此前的阐发依赖三个假定条件:* (1) Var[e_it] = sigma^2 同方差假定* (2) Corr[e_it, e_its] = 0 序列无关假定* (3) Corr[e_it, e_jt] = 0 截面不相关假定** 当这三个假定无法得到满足时,便辨别出现异方差、序列相关和截面相关问题;* 我们一方面要采取各类办法来查验这些假定是否得到了满足;* 另一方面,也要在这些假定无法满足时寻求公道的估量办法.* 假定查验*== 组间异方差查验(截面数据的特征)* Var(e_i) = sigma_i^2* Fe 模型xtreg logy logk logl, fexttest3* Re 模型* Re自己已经较大程度的考虑了异方差问题,主要体现在sigma_u^2上*== 序列相关查验* Fe 模型xtserial logy logk loglxtserial logy logk logl, output* Re 模型xtreg logy logk logl, rexttest1 /*提供多个统计查验量*/*== 截面相关查验* xttest2命令 H0: 所有截面残差的相关系数都相等xtreg logy logk logl, fexttest2* 由于查验进程中执行了SUE估量,所以要求T>Nxtreg logy logk logl if id<6, fexttest2* xtcsd 命令(提供了三种查验办法)xtreg logy logk logl, fextcsd , pesaran /*Pesaran()*/xtcsd , friedman /*Friedman(1937)*/xtreg logy logk logl, rextcsd , pesaran* 估量办法*== 异方差稳健型估量xtreg logy h inv gov open, fe robustest store fe_rbxtreg logy h inv gov open, fe robustest store fe* 结果对比esttab fe_rb fe, b(%6.3f) se(%6.3f) mtitle(fe_rb fe)*== 序列相关估量* 一阶自相关 xtregar, fe/re* 模型: y_it = u_i + x_it*b + v_it (1)* v_it = rho*v_it1 + z_it (2)xtregar logy h inv gov open, feest store fe_ar1xtregar logy h inv gov open,fe lbi /*BaltagiWu LBI test*/* 说明:* (1) 这里的DurbinWatson =1.280677 具有较为庞杂的散布,* 不合于时间序列中的DW统计量.* (2) 其临界值见Bhargava et al. (1982, The Review of Economic Studies 49:553549)* (3) BaltagiWu LBI = 1.4739834 根本上没有太大的参考价值,* 因为他们并未提供临界值表,而该统计量的散布又相当庞杂xtregar logy h inv gov open, reest store re_ar1* 两阶段估量xtregar logy h inv gov open, fe twostepest store fe_ar1_two* 结果对比xtreg logy h inv gov open, feest store felocal models "fe fe_ar1 re_ar1 fe_ar1_two "esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w corr)* 高阶自相关* newey2 命令newey2 logy h inv gov open, lag(2)*== 组间相关(截面相关)* cluster 选项use xtcs.dta, clearxtreg logy h inv gov open, fe cluster(id)est store fe_clusterxtreg logy h inv gov open, re cluster(id)est store re_cluster************看过来很晕,采取一种综合处理:* xtgls 命令* xtpcse 命令* 简介(Greene, 2000, chp15)** 模型* y = X*b + U* 重点在于考虑搅扰项 U 的结构,包含* (1) 异方差 (2) 序列相关 (3) 截面相关性* 应用范围:多用于“大T,小N”型面板数据,* 因为,此时截面的异质性其实不是重点存眷的,而时序特征则较为明显* 因此,模型设定中未考虑个别效果* | y_1 | | X_1 | | e_1 |* | y_2 | | X_2 | | e_2 |* | . | | . | | . |* | . | = | . | * b + | . |* | . | | . | | . |* | y_n | | X_n | | e_n |* 截面异方差* E[e_i*e_i'] = s_i^2** | s1^2 0 ... 0 |* | 0 s2^2 ... 0 |* | . |* V = | . |* | . |* | 0 0 ... sn^2 |* 截面相关* E[e_i*e_i'] = s_ij^2** | s_11 s_12 ... s_1n |* | s_21 s_22 ... s_2n |* | . |* V = | . | * sigma^2* | . |* | s_n1 s_n2 ... s_nn |* 序列相关* E[e_i*e_i'] = s_i^2 * M_i** | s1^2*M_1 0 ... 0 |* | 0 s2^2*M_2 ... 0 |* | . |* V = | . |* | . |* | 0 0 ... sn^2*M_n |* GLS 估量* b = [X'V^{1}*X]^{1}[X'V^{1}y]* Var[b] = [X'V^{1}*X]^{1}* 估量和查验*=== xtgls 命令use invest2.dta, clearxtgls market invest stock, panels(iid) /*iid, 等同于Pooled OLS*/est store g_0reg market invest stockest store g_olsxtgls market invest stock, panel(het) /*截面异方差*/est store g_phetxtgls market invest stock, corr(ar1) /*所有截面具有相同的自相关系数*/est store g_par1xtgls market invest stock, corr(psar1) /*每个截面有自己的自相关系数*/est store g_psar1xtgls market invest stock, panel(corr) /*截面间相关且异方差*/est store g_pcorrxtgls market invest stock, p(c) corr(ar1)est store g_all* 查验异方差xtgls market invest stock, panel(het) /*截面异方差*/xttest3* 查验序列相关xtserial market invest stock* 查验截面相关xtgls market invest stock, panel(het)xttest2* 结果对比xtreg market invest stock, feest store felocal models "fe g_0 g_ols"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w)local models "fe g_phet g_par1 g_psar1 g_pcorr g_all"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w) compress* 说明:* 为何 xtgls 不报告请示 R2 ?* 因为此时的R2未必介于0和1之间,不具有传统线性回归模型中R2的寄义*=== xtpcse 命令* 默认假定:存在截面异方差和截面相关* 估量办法:OLS 或 PraisWinsten 回归* 有别于xtgls(采取FGLS估量)* 更适于方块面板 N不大(1020),T不大(1040)* 与 xtgls 的区别:估量办法不合* xtgls 采取GLS进行估量,而xtpsce采取OLS.use invest2.dta, clearxtpcse invest market stockest store pcse_full /*OLS估量,调整异方差和截面相关后的尺度误*/xtgls invest market stock, panels(correlated)est store m_xtgls /*FGLS估量,异方差和截面相关*/ xtpcse invest market stock, correlation(ar1)est store pcse_ar1 /*Prais_Winsten估量,配合的自相关系数*/xtpcse invest market stock, correlation(ar1) hetonlyest store pcse_ar1 /*不考虑截面相关*/* 结果对比xtreg invest market stock, feest store felocal models "fe pcse_full m_xtgls pcse_ar1 pcse_ar1"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w)* xtpcse 的结果与 xtgls 很是相似,但前者可以报告请示R2 * 当N较大时,采取该办法会很是费时,* 因为方差协方差矩阵是采取OLS估量的残差计较的use xtcs.dta, clearxtdesxtpcse tl size ndts tang tobin npr /*大约58分钟*/est store xtpcsextreg tl size ndts tang tobin npr, feest store fe* 结果对比local models "fe xtpcse"esttab `models', b(%6.3f) se(%6.3f) mtitle(`models') r2sca(r2_w)* 系数估量值有较大不同,但符号和显著性是一致的.***动态面板模型 Part I** 动态面板模型** 简介* 一阶差分IV估量量(Anderson and Hisao, 1982)* 一阶差分GMM估量量(Arellano and Bond, 1991)* 系统GMM估量量(AB,1995; BB,1998)* == 简介 ==** 模型: y[it] = a0*y[it1] + a1*x[it] + a2*w[it] + u_i + e[it]** 特征:解释变量中包含了被解释变量的一阶滞后项* 可以是非平行面板,但要包管时间连续* x[it] ——严非分特别生变量 E[x_it,e_is] =0 for all t and s* 即,所有搅扰项与x都不相关* w[it] ——先决变量 E[w_it,e_is]!=0 for s<t, butE[x_it,v_is]=0 for all s>=t* 即,前期搅扰项与当期x相关,但当期和未来期搅扰项与x不相关.* y[it1]——内生变量 E[x_it,e_is]!=0 for s<=t* 即,前期和当期,尤其是当期搅扰项与x相关* u_i 随机效应,在截面间是 iid 的.u_i 与 e[it] 独立.** 内生性问题:* (1) 若假定 u_i 为随机效应,则 Corr(y[i,t1], u_i) !=0* (2) 若假定 u_i 为个别效应,需要想办法去除之,因为数据为"大N小T"* 一阶差分: D.y[i,t1] = y[i,t1] y[i,t2]* D.e[i,t] = e[i,t] e[i,t1]* 显然: Corr(D.y[i,t1], D.e[i,t]) !=0, 差分方程存在内生问题;* 组内去心: ym[i,t1] = y[i,t1] 1/(T1)*(y[i,t1]+...+y[i,T])* em[i,t] = e[i,t] 1/T*(e[i,t]+e[i,t1]+...+e[i,T])* 显然: Corr(ym[i,t1], em[i,t]) !=0, 仍然存在内生性问题** 处理办法:IV估量或GMM估量,选择适合的东西变量** 矩条件: E[e_it,z_it] = 0*========================================*========= 一阶差分 IV 估量量 ============*========Anderson and Hisao(1982)========*========================================** 根本思想:采取一阶差分去除个别效应 u_i,* y 的滞后二阶作为 D.y[it1] 的东西变量* 同时,D.y[it2] 也可以作为 D.y[it1] 的东西变量use abdata.dta, cleardes /*变量的定义*/tsset id year* 模型: n_it = b1*n_it1 + b2*n_it2* + b3*w_it + b4*w_it1* + b5*k_it + b6*k_it1 + b7*k_it2* + b8*ys_it + b9*ys_it1 + b10*ys_it2*xtivreg n L2.n w L1.w k L1.k L2.k ys L1.ys L2.ysyr1981yr1984 ///(L.n = L3.n), fd** 等价于*xtivreg n L2.n L(0/1).w L(0/2).(k ys) yr1981yr1984 (L.n = L3.n), fd*====================================*========= 一阶差分GMM估量量 =========*==============AB91==================** L.Hansen (1982) 提出 GMM** Arellano and Bond (1991)** 模型:** y[it] = a0*y[it1] + a1*x[it] + a2*w[it] + u_i + v[it]** 假定条件:* 搅扰项 v[it] 不存在序列相关;** 适用范围:* 大N,小T* 随后,我们会介绍“小N大T”型动态面板的估量办法** 根本思想:** 在 Anderson and Hisao(1982) 根本上增加了更多可用的东西变量** 在 t=3 处,y_i1 可以作为所有滞后项的东西变量* 在 t=4 处, y_i1, y_i2 可以作为所有滞后项的东西变量** D.y[it] = a1*D.y[it1] + a2*D.X[it] + D.v[it] X_it = [x_it, w_it] ** 因此,所有东西变量组成的矩阵如下:** |y_i1 0 0 0 0 0 ... 0 ... 0 D.x_i3 |* | 0 y_i1 y_i2 0 0 0 ... 0 ... 0 D.x_i4 |* | 0 0 0 y_i1 y_i2 y_i3 ... 0 ... 0 D.x_i5 |* Z_i = | . . . . . . . . . . . |* | . . . . . . . . . . . |* | 0 0 0 0 0 0 ... y_i1 ... yiT2 D.x_iT |** Z_i 的行数为 T2* Z_i 的列数为 sum_(m=1)^(T2){m} + K, K 为 X 的列数** 以 T =7,K=3 为例,则 Z_i 的列数为 (1+2+3+4+5)+3 = 18 ** 设定东西变量的基来源根底则:** 对内生变量的处理:与上述办法类似,* 即滞后两阶以上的水平变量均可作为差分方程的东西变量 (GMM type)* 对先决变量的处理:滞后一阶以上的水平变量均可作为东西变量 (GMM type)* 对外生变量的处理:自己作为自己的东西变量 (Standard IV) *== 例1:一阶差分估量量的根本设定* 解释变量仅包含 y_it 的一阶滞后项,默认设定* 搅扰项同方差,一阶段估量use abdata.dta, clearxtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984est store ab_0* 结果释疑** 1 东西变量的个数是如何确定的?(xtdpd, p.74)** 外生变量的东西变量等于外生变量的个数* L(0/1).w L(0/2).(k ys) yr1980yr1984 共 13个* 内生变量的东西变量:共 27个*list id year n L2.n DL2.n if id == 140** 差分方程的可用东西变量** year of Years of Number of* difference equation instruments instruments* 1978 1976 1* 1979 19761977 2* 1980 19761978 3* 1981 19761979 4* 1982 19761980 5* 1983 19761981 6* 1984 19761982 7** 28个* 2 GMMtype 和 Standard 两种类型的东西变量有何差别?(xtabond,p.27)** GMMtype 是针对内生变量或先决变量而言的东西变量,有多列* Standard 是针对外生变量而言的东西变量,只有一列* 过度识别查验(东西变量的使用是否公道)*estat sargan** 说明:* H0: overidentifying restrictions are valid* 这里,我们拒绝了原假定,但AB91指出,当搅扰项存在异方差时,* Sargan查验倾向于过度拒绝原假定,因此此处得到的结论其实不成信.* 采取两阶段估量,然后再执行Sargan查验较为稳妥:*xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984,twostepestat sargan** 说明:不过,AB91发明,* 若存在异方差,在两阶段估量后执行Sargan查验往往倾向于* Underreject问题,即过度接受原假定.* 通常而言,这极可能是我们的模型设定不当,或是东西变量的选择不公道.* 搅扰项序列相关查验** AB91 一阶差分估量量要求原始模型的搅扰项不存在序列相关,* 显然,差分后的搅扰项必定存在一阶序列相关,* 因此,我们需要查验差分方程的残差是否存在二阶(或更高阶)序列相关便可** 默认,二阶序列相关查验xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984,vce(robust)estat abond* 说明:若存在二阶相关,则意味着选取的东西变量不公道 * 高阶序列相关查验xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984,vce(robust) artest(3)estat abond*== 稳健型估量xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) robustest store ab4_one_rb* 此时,无法 Sargan 统计量estat sargan*== 两阶段估量 AB91(Tab4(a2)) 考虑异方差问题* 利用第一阶段估量得到的残差机关方差协方差矩阵,进而重新估量模型*xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) twostep est store ab4_twostep* 此时,Sargan 查验无法拒绝原假定*estat sargan* AB91重要建议:* (1) 采取一阶段估量结果进行系数显著性的统计推断;* (2) 采取两阶段估量给出的 Sargan统计量进行模型筛选** 进一步的讨论:* 虽然AB91建议不要采取两阶段(非稳健)估量进行统计推断,* 但Windmeijer(,Journal of Econometrics)通过模拟阐发标明,* 采取纠偏(biascorrected,WC)后的稳健性VCE,可以更好地进行统计推断xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) twostep vce(robust)est store ab_wc_rb* 结果对比local mm "ab4_one_rb ab4_twostep ab_wc_rb"esttab `mm',mtitle(`mm')** 结论:* AB91_onestep_rb 的结果与 AB91_WC_rb 的参数估量相同,后者尺度误较大* 建议采取 Windmeijer() 两阶段纠偏稳健型估量量.*== 先决变量的设定* 由于当期搅扰项显然会影响后续 w 和 k,所以把它们设定为先决变量更加公道* 注意: 此时逗号前就不克不及再出现这两个变量了xtabond n L(0/1).ys yr1980yr1984, lags(2) twostep ///pre(w k)est store ab4_preestat sargan* 从 Sargan p值来看,将 w 和 k 设为先决变量似乎更加公道 * pre() 选项的设定xtabond n L(0/1).ys yr1980yr1984, lags(2) twostep ///pre(w,lag(1,3)) pre(k,lag(2,.))** 解释:* pre(w,lag(1,3))* lag(1,3) 中的 1 暗示 L.w 也会作为解释变量,* lag(1,3) 中的 3 暗示 L2.w 和 L3.w 可以作为 L.w 的东西变量,但 L4.w 不成以;* pre(k,lag(2,.))* lag(2,.) 中的 2 暗示 L1.k, L2.k 都会作为解释变量;* lag(2,.) 中的 . 暗示 L3.k, L4.k ... 都可以作为 L2.k 的东西变量* 说明:上述设定都可附加 vce(robust) 选项以便取得稳健型尺度误.*== 东西变量过量导致的问题* 过量的东西变量往往导致过度约束假定无法满足* 估量结果的有效性下降,因为部分东西变量与内生或先决变量的相关性很弱* 对矩阵尺寸的要求增加* 解决办法:限制最大的滞后阶数xtabond n L(0/1).ys yr1980yr1984, lags(2) twostep ///pre(w,lag(1,3)) pre(k,lag(2,3))*== 系数估量的上下限* 虽然 Pooled OLS 和 Fixed Effects 估量都是有偏的,* 但是两者却决定了 y_it1 真是估量值的上界和下界* 换言之, Pooled OLS 估量高估了真实值* 而 Fixed effects 估量则低估了真实值*=======================================*============= 系统GMM估量量 ===========*==============AB95,BB98===============*=======================================* Arellano and Bover (1995),* Blundell and Bond(1998)* Haha(1999), Judson and Owen(1999)** 适用范围:* 大N,小T** AB91 的局限* (1) 当 y[i,t1] 的系数较大,即 y[i,t] 表示出强烈的序列相关时;* (2) 当 Var[u_i]/Var[e_it] 较大时,即个别效应的动摇远大于常规搅扰项的动摇;* AB91 的表示欠佳.* 原因在于,水平滞后项是差分方程中内生变量的弱东西变量;* 因此,需要寻求更佳的东西变量**== 根本思想:** 几个概念** 水平值—— y x* 水平方程:y_it = b1*y_it1 + b2*x_it + u_i + v_it* 可用东西变量:D.y[i,t1] 可以作为 y[i,t1] 的东西变量* 可用东西变量:y[i,t2],y[i,t3]...都可以作为 D.y[i,t1]的东西变量** 差分GMM估量量与系统GMM估量量的区别** (1) 差分GMM估量量采取水平值的滞后项作为差分变量的东西变量;* 如 y_it3 是 D.y_it1 的东西变量* (2) 系统GMM估量量进一步采取差分变量的滞后项作为水平值的东西变量;* 相当于进一步增加了可用的东西变量,* 且估量进程中同时使用水平方程和差分方程* (3) 主要原因在于差分GMM的东西变量往往是弱东西变量,即 corr(X,Z) 太低** xtabond2 命令Roodman()** 既可以估量差分 GMM 估量量,也可以估量系统 GMM 估量量;* 同时可以估量一般化的回归模型* 提供两阶自相关查验,Sargan查验,Hansen查验,以及东西变量外生性查验** xtdpdsys 命令 Stata官方命令,以 xtabond2命令为根本** xtabond2 命令** 适用于 Stata810 各个版本* 既可以完成一阶差分GMM估量* 也可以完成系统GMM估量* 详细参考资料:* Roodman, D. . How to Do xtabond2:* An Introduction to "Difference" and "System" GMM in Stata. * Working Paper 103. Center for Global Development, Washington.*== 使用 xtabond2 命令得到一阶差分估量量* 附加 noleveleq 选项便可* 采取 xtabond2 估量 AB91 文中表4 的结果* Arellano and Bond (1991), Table 4* Column (a1)use abdata, clearxtabond2 n L(1/2).n L(0/1).w L(0/2).(k ys) yr1980yr1984, ///gmm(L.n) iv(L(0/1).w l(0/2).(k ys) yr1980yr1984) /// nomata noleveleq small* gmm(*) 填写内生变量的名称* iv(*) 填写所有外生变量以及自己设定的东西变量的名称* noleveleq 暗示估量进程中不使用水平方程,即为差分GMM估量量est store aba1_ab2xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2)est store aba1_abesttab aba1_ab2 aba1_ab, mtitle(aba1_ab2 aba1_ab)* Column (a2)* 两阶段估量xtabond2 n L(0/1).w L(0/2).(k ys) L(1/2).n yr1980yr1984, /// gmm(L.n) iv(L(0/1).w l(0/2).(k ys) yr1980yr1984) /// noleveleq small twostepest store aba2_ab2xtabond n L(0/1).w L(0/2).(k ys) yr1980yr1984, lags(2) twostep est store aba2_abesttab aba2_ab2 aba2_ab, mtitle(aba2_ab2 aba2_ab)*=== 一阶差分估量量部分化释变量内生* 一阶段估量xtabond2 n L.n L(0/1).(w k) yr1980yr1984, ///gmm(L.(w k n)) iv(yr1980yr1984) ///noleveleq noconstant small robustest store fd_1s* 两阶段估量xtabond2 n L.n L(0/1).(w k) yr1980yr1984, ///gmm(L.(w k n)) iv(yr1980yr1984) ///noleveleq robust small twostepest store fd_2sesttab fd_1s fd_2s, mtitle(fd_1s fd_2s)*== 系统 GMM 估量量xtabond2 n L.n L(0/1).(w k) yr1978yr1984, ///gmm(L.n) iv(L(0/1).(w k) yr1978yr1984) ///robust small** 解释:** gmm() 选项* 设定内生变量和先决变量,它们的东西变量将有多列,GMM** iv() 选项* 设定严非分特别生变量,作为自己的东西变量,在东西变量矩阵中仅占一列** 差分方程和水平方程* 默认情况下,差分方程和水平方程都介入估量** robust 选项* (1) 对于一阶段估量(不附加twostep选项),* 采取传统异方差序列相关稳健型估量量计较尺度误;* (2) 对于两阶段估量(附加twostep选项),* 采取Windmeijer()纠偏估量量计较尺度误;* Sargan查验* Sargan test of overid. restrictions: chi2(34)* 34 = 47 13 (13是外生变量的个数,包含常数项)* 可见,无论采取Sargan查验仍是Hansen J查验,都拒绝了东西变量公道的原假定* 指定东西变量应用于水平方程仍是差分方程* 例如,假定 w, k, 以及年度虚拟变量都是外生的(当然,这一假定可能其实不公道)*xtabond2 n L.n L(0/1).(w k) yr1978yr1984, gmm(L.n) ///iv(L(0/1).(w k) yr1978yr1984, eq(level)) ///robust small twostepest store sys_wkexg* 将 w 和 k 都设定为内生变量* yr dummies 仅出现在水平方程中xtabond2 n L.n L(0/1).(w k) yr1978yr1984, ///gmm(L.(w k n)) iv(yr1978yr1984, eq(level)) ///robust small twostepest store sys_wkendog_lev* yr dummies 同时出现在水平方程和差分方程中xtabond2 n L.n L(0/1).(w k) yr1978yr1984, ///gmm(L.(w k n)) iv(yr1978yr1984, eq(both)) ///robust small twostepest store sys_wkendog_both* 结果对比local mm "fd_1s fd_2s sys_wkexg sys_wkendog_levsys_wkendog_both"esttab `mm', mtitle(`mm') compress** xtdpdsys 命令** 仅适用于 Stata10 版本* 中国上市公司资本结构动态调整use xtcs.dta, clearqui tab year, gen(yr)drop yr1* Case I:假定所有解释变量均为外生变量(L.tl除外)*local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtdpdsys tl `xx', vce(robust) twostepdis ln(2) / (1 _b[L1.tl]) /*调整半周期*/est store dycs_2sys* 设定说明:* (1) 无需设定 L.tl, 因为 xtdpdsys 默认设定被解释变量的滞后一期为解释变量,* 并且该变量被自动设定为内生变量;* (2) 稳健型估量采取 vce(robust) 选项加以设定;* (3) 该命令不会自动进行 AR(2)序列相关查验和Sargan过度识别查验* 序列相关查验estat abond* 过度识别查验estat sargan /*稳健型估量下无法取得Sargan统计量*/* 正确办法local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtdpdsys tl `xx', twostepestat sargan* Case II:假定Tobin和npr为先决变量local xx "size tang ndts yr*" /*此处不该再包含 tobin和npr*/ xtdpdsys tl `xx', pre(tobin npr,lag(1,.)) twostepest store dycs_2preestat abondestat sargan* Case III:假定Tobin和npr为内生变量local xx "size tang ndts yr*" /*此处不该再包含 tobin和npr*/ xtdpdsys tl `xx', endog(tobin npr,lag(1,.)) twostepest store dycs_2endogestat abondestat sargan* Case IV: 假定除了年度虚拟变量和公司范围外,所有解释变量均为先决变量local xx "size yr*"xtdpdsys tl `xx', pre(tobin npr,lag(1,.)) ///pre(tang ndts) twostepest store dycs_2preAllestat abondestat sargan* 假定除 L.tl 外的所有解释变量外生最为适合.* OLS 估量(调整系数的上限)local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"reg tl L.tl `xx', robustest store dycs_2OLS* FE 估量(调整系数的下限)local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtreg tl L.tl `xx', robust feest store dycs_2FE* 结果对比local mm "dycs_2sys dycs_2pre dycs_2endog dycs_2preAll dycs_2OLS dycs_2FE"local ss "ar2 ar2p sargan sar_df sarganp"esttab `mm',mtitle(`mm') scalar(`ss') compress* 结论:* (1) 估量出的调整系数介于公道的范围内,即OLS和FE之间;* (2) 就模型设定而言,dycs_2sys 最为公道,即把所有解释变量均设定为外生变量.** 调整半周期为:local xx "size tang ndts L(0/1).tobin L(0/1).npr yr*"xtdpdsys tl `xx', vce(robust) twostepdis ln(2) / (1 _b[L1.tl]) /*调整半周期*/xtabond2 logy l.logy h inv gov open fdi yr4yr14, ///gmm(l.logy h) iv(gov open fdi yr4yr14)robust twostep。
stata命令大全(全)
*********面板数据计量分析与软件实现*********说明:以下do文件相当一部分容来自于大学连玉君STATA教程,感他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计)* 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog 生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
stata命令大全(全)
********* 面板数据计量分析与软件实现 *********说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI 溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel 格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
stata命令大全超实用(全)
表示追加 8年,用于时ห้องสมุดไป่ตู้序列 /
* 方差分解, 比如三个变量 Y,X,Z 都是面板格式的数据, 和Cov( Z,Y ) bysort year:corr Y X Z,cov
且满足 Y=X+Z,求方差 var(Y),
协方差 Cov(X,Y)
** 生产虚拟变量 * 生成年份虚拟变量 tab year,gen(yr) * 生成省份虚拟变量 tab id,gen(dum)
* ---------------------------------
* --------
固定效应模型 -----------
* ---------------------------------
* 实质上就是在传统的线性回归模型中加入
N-1 个虚拟变量,
* 使得每个截面都有自己的截距项 ,
* 截距项的不同反映了个体的某些不随时间改变的特征
*** 说明: DEA由DEAP2.1软件实现, SFA由 Frontier4.1 实现,尤其后者,侧重于比较 C-D与 Translog
生产函数,一步法与两步法的区别。常应用于地区经济差异、
FDI 溢出效应( Spillovers Effect )、
工业行业效率状况等。
* 空间计量分析: SLM模型与 SEM模型 * 说明: STATA与Matlab 结合使用 。常应用于空间溢出效应 ( R&D)、财政分权、 地方政府公共行为等。
* 散点图 +线性拟合直线 +置信区间 twoway (scatter logy h) (lfit logy h) (lfitci logy h)
* 按不同个体画出散点图和拟合线,可以以做出 twoway (scatter logy h if id<4) (lfit logy h if id<4) logy h if id==2) (lfit logy h if id==3)
stata命令总结
stata命令总结.docStata命令总结引言Stata是一款强大的统计分析软件,广泛应用于经济学、社会学、医学等领域。
Stata命令是进行数据处理、统计分析、图形展示等操作的基础。
本文将对Stata中常用的命令进行总结,以帮助用户更高效地使用Stata进行数据分析。
Stata基础命令1. 数据管理导入数据:import excel, import delimited导出数据:export excel, export delimited数据集保存:save, saveold2. 变量管理创建变量:generate, egen修改变量:replace删除变量:drop3. 数据清洗数据类型转换:destring, encode, format缺失值处理:mvdecode, drop if missing()异常值检测:tabulate, summarize描述性统计分析1. 基本统计量描述性统计:summarize频率统计:tabulate相关系数:correlate2. 分组统计分组描述:bysort, xtsum 分组汇总:collapse3. 数据转换数据长格式:reshape long 数据宽格式:reshape wide 推断性统计分析1. 假设检验t检验:ttest方差分析:anova卡方检验:tabulate, chi2 2. 回归分析线性回归:regress逻辑回归:logit泊松回归:poisson3. 时间序列分析时间序列描述:tsreport自回归模型:arima高级统计分析1. 面板数据分析面板数据描述:xtset, xtsum固定效应模型:xtreg fe随机效应模型:xtreg re2. 多层次模型多层次线性模型:xtmelogit3. 结构方程模型结构方程模型:sem绘图与可视化1. 基本图形散点图:scatter线图:line柱状图:bar2. 高级图形箱线图:boxplot直方图:histogram核密度估计图:kdensity3. 交互式图形交互式图形:twoway, graph edit编程与自动化1. 循环与条件语句循环:foreach, forvalues条件语句:if, else2. 脚本与批处理脚本编写:do-file批处理:batch3. 宏与用户定义命令宏:macro用户定义命令:program define结语Stata命令的掌握是进行高效数据分析的前提。
stata命令大全(全)
********* 面板数据计量分析与软件实现 *********说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI 溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel 格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
stata常用命令资料
stata常用命令资料Stata是一种广泛使用的统计分析软件,它提供了丰富的数据处理、统计计算和图形绘制功能。
下面是一些常用的Stata命令及其用法,以帮助您更好地使用Stata进行数据分析。
1. 数据导入与导出- `import excel:从Excel文件中导入数据。
- `import delimited:从文本文件中导入数据。
- `save:保存当前数据集。
- `use:加载已保存的数据集。
- `export excel:将数据导出到Excel文件。
2. 数据处理与清洗- `drop:删除变量或观察。
- `keep:保留指定变量或观察。
- `rename:重命名变量。
- `egen:生成新变量,如求和、平均值等。
- `egen group:按照指定的变量进行分组。
3. 描述统计- `summarize:计算变量的描述统计量,如均值、标准差等。
- `tabulate:制表统计,用于计算分类变量的频数和百分比。
- `histogram:绘制直方图。
- `correlate:计算变量之间的相关系数。
- `egen:生成新的汇总统计量,如总和、均值等。
4. 统计模型- `regress:线性回归分析。
- `logit:二项逻辑回归分析。
- `probit:概率回归模型。
- `ttest:单样本或双样本t检验。
- `anova:方差分析。
5. 数据可视化- `scatter:绘制散点图。
- `line:绘制折线图。
- `bar:绘制柱状图。
- `histogram:绘制直方图。
- `graph combine:将多个图形合并为一个图形。
6. 数据管理- `sort:对数据进行排序。
- `merge:合并两个数据集。
- `reshape:改变数据集的结构。
- `append:将多个数据集追加到一个数据集中。
- `collapse:将数据按照指定的变量进行折叠。
7. 循环与条件语句- `foreach:循环变量的值。
Stata常用命令100条
Stata常用命令100条数据管理设置工作路径:cd导入间隔符为制表符或逗号等格式的文本文件:insheet 导入固定列格式的文件:infix导入自由格式的文本文件:infile导入XML格式文件:xmluse更改变量的存储格式:recast建立新变量:generate或egen重命名变量rename变量排序:order删除变量或观测值:drop生成分类变量:recode字符串与数值变量间转换:destring或encode升序或降序排列:gsort升序排列:sort检查数据是否存在重复观测值:isid报告、标记或删除重复观测值:duplicates长数据与宽数据间转换:reshape生成变量的统计指标数据:collapse横向合并数据:merge纵向添加数据:append根据组内配对合并变量:joinby标量:scalar随机抽样:sample有放回的抽样:bsample从多元正态分布随机变量中抽样:drawnorm 生成特定相关结构的变量:corr2data统计制图直方图:histogram一般绘图命令:graph或twoway对称图:symplot分位数图:quantile正态分布分位数图:qmormQQ分位数图:qqplot标准化正态概率图:pnorm卡方概率图:pchi37条外部命令:传送门描述统计数据概要描述:summarize或describe生成汇总统计表:tabstat或tabulate相关性:correlate或pwcorr假设检验t检验:ttest方差检验:sdtest比率检验:prtest二项概率检验:bitestK-S检验:ksmirnov符号检验:signtestWilcoxon符号秩检验:signrankWilcoxon秩和检验:ranksumKruskal-Wallis:H检验:kwallis方差分析方差分析:anova单因素方差分析:oneway多元统计分析主成分分析:pca主成分散点图:loadingplot因子分析:factor因子旋转:rotate模型适切度检验:estat smc及estat anti及estat kmo 计算主成分得分或因子得分:predict碎石图:screeplot聚类分析:cluster典型相关分析:canon回归分析OLS线性回归:regress受约束的线性回归:cnsreg非线性最小二乘估计:nl多变量回归:mvreg似不相关回归:suregProbit回归:probitLogistic回归:logit定序probit模型:oprobit定序logit模型:ologit归并模型:cnregTobit模型:tobit多层线性模型:mixed泊松回归:poisson负二项回归:nbreg时间序列分析定义时间序列:tssetARIMA,ARMAX和其它动态回归模型:arima 自相关:ac偏自相关:pac预测:predict时间序列图:tsline蒙特卡罗模拟:simulateADF单位根检验:dfullerPP单位根检验pperronDF-GLS单位根检验:dfgls跨相关图:xcorr结构向量自回归模型:svar自回归条件异方差模型:arch门限回归:threg状态空间模型:sspace面板数据分析定义面板:xtset面板数据结构:xtdescribe面板OLS模型:xtreg面板GLS模型:xtgls面板GEE模型:xtgee面板probit模型:xtprobit面板logit模型:xtlogit差分GMM模型:xtabond系统GMM模型:xtdpdsysHausman检验:hausman似然比检验:lrtest空间计量从截面数据到空间面板:传送门。
stata基本命令
stata基本命令
Stata是一种数据分析软件,常用于统计分析、经济学和社会科学研究中。
以下是一些Stata基本命令的解释:
1. use命令:用于打开数据文件,例如:“use data.dta”。
2. describe命令:用于查看数据文件的结构和变量信息,例如:“describe data”。
3. summarize命令:用于统计变量的描述性统计量(如均值、标准差、最大最小值等),例如:“summarize var1 var2”。
4. tabulate命令:用于制作交叉表和频数表,例如:“tabulate var1 var2”。
5. regress命令:用于进行回归分析,例如:“regress depvar indepvar”。
6. scatter命令:用于制作散点图,例如:“scatter depvar indepvar”。
7. histogram命令:用于制作直方图,例如:“histogram var”。
8. twoway命令:用于制作多种类型的图表,例如:“twoway scatter
depvar indepvar”。
9. merge命令:用于将两个数据文件按照某一变量合并,例如:“merge 1:1 var using data.dta”。
10. sort命令:用于对数据文件按照某一变量进行排序,例如:“sort var”。
以上是Stata基本命令的简单解释,使用这些命令可以进行数据的读取、处理和分析。
在实际应用中,还需要结合具体情况选择合适的命令进行使用。
stata常用命令总结
stata常用命令总结Stata是一款广泛应用于数据分析与统计建模的统计软件,具有强大的功能和广泛的应用领域。
在Stata中,我们可以通过命令来完成数据的读取、整理、分析和可视化等任务。
本文将对一些常用的Stata命令进行总结和介绍,以帮助读者更好地理解和应用Stata软件。
一、数据的读取与整理1. 读取数据文件:- use 文件名:读取已经存在的Stata数据文件。
- import delimited 文件名:读取以逗号、制表符或其他分隔符分隔的文本文件。
2. 显示数据:- describe:显示数据文件的基本信息,包括变量名、数据类型、有效观测数等。
- browse:以表格形式显示数据文件的部分观测值。
3. 数据整理:- generate 新变量名=计算公式:创建新的变量,并根据指定公式进行计算。
- egen 新变量名=计算函数:根据指定的计算函数对现有变量进行计算,并创建新的变量。
二、数据的统计分析与建模1. 描述性统计:- summarize 变量名:对指定变量进行描述性统计,包括均值、标准差、最小值、最大值等。
- tabulate 变量名:生成指定变量的频数表和百分比表。
2. 数据筛选与子集选择:- keep 如果条件:保留符合条件的观测值,删除不满足条件的观测值。
- drop 如果条件:删除符合条件的观测值,保留不满足条件的观测值。
- qui keep 如果条件:以无输出方式保留符合条件的观测值并生成新数据集。
- qui drop 如果条件:以无输出方式删除符合条件的观测值并生成新数据集。
3. 参数估计与假设检验:- regress 因变量自变量1 自变量2 ...:进行普通最小二乘回归分析。
- ttest 变量名, by(分组变量):进行两组样本均值差异的t检验。
4. 数据可视化:- scatter 变量1 变量2:绘制散点图。
- histogram 变量名:绘制直方图。
- graph twoway line 变量1 变量2:绘制折线图。
stata 常用命令
stata 常用命令Stata是一款经济学和统计学分析软件,它拥有一个广泛的命令库,可用于数据分析、统计建模、可视化等。
在Stata中,我们可以使用很多命令来完成各种任务。
以下是一些常用的Stata命令:1. import 命令import 命令用于导入数据到Stata中。
我们可以使用 import 命令来导入各种文件格式,如 Excel、CSV、SPSS 等。
如果我们想要导入Excel 文件,我们可以使用以下命令:import excel "data.xlsx", sheet("Sheet1") firstrow clear该命令将导入 data.xlsx 文件中的 Sheet1 中的数据到 Stata 中。
指定的 firstrow 参数将告诉 Stata 该文件中的第一行是变量名,因此我们可以让 Stata 自动读取变量名称。
2. summarize 命令summarize 命令用于计算一个或多个变量的描述性统计量,如均值、标准差、最小/最大值等。
该命令的语法如下:summarize variable1 variable2 variable3…例如,要计算变量 x 的均值、标准差和最大值,我们可以使用以下命令:summarize x, detail3. sort 命令sort 命令用于按一个或多个变量对数据进行排序。
该命令的语法如下:sort variable1 variable2 variable3…例如,要按变量 x 排序数据集,我们可以使用以下命令:sort x4. tabulate 命令tabulate 命令用于计算一个或多个变量的频率分布表(也称为列联表)。
该命令的语法如下:tabulate varia ble1 [variable2] [variable3]…例如,要计算变量 x 和 y 的频率分布表,我们可以使用以下命令:tabulate x y5. regress 命令regress 命令用于估计回归模型。
STATA常用命令总结(34个含使用示例)
STATA常用命令总结(34个含使用示例)1. sum:计算变量的简要统计信息,如均值、标准差等。
示例:sum variable2. tabulate:生成变量的频数表。
示例:tabulate variable3. describe:显示数据集的基本信息,如变量名和数据类型。
示例:describe dataset4. drop:删除数据集中的变量。
示例:drop variable5. keep:保留数据集中的变量,删除其他变量。
示例:keep variable6. rename:重命名变量。
示例:rename variable newname7. gen:根据已有变量生成新的变量。
示例:gen newvar = expression8. egen:根据已有变量生成新的变量,可以使用更复杂的函数和运算符。
示例:egen newvar = function(variable)9. recode:对变量的取值进行重新编码。
示例:recode variable (oldvalues= newvalues) 10. dropif:根据条件删除观测。
示例:dropif condition11. keepif:根据条件保留观测。
示例:keepif condition12. sort:对数据集按指定变量进行排序。
示例:sort variable13. merge:将两个数据集按照共享变量合并。
示例:merge 1:1 variable using dataset214. reshape:将数据从宽格式转换为长格式或反之。
示例:reshape long var, i(id) j(year)15. regress:进行线性回归分析。
示例:regress dependent_var independent_vars 16. logistic:进行逻辑回归分析。
示例:logistic dependent_var independent_vars 17. probit:进行Probit回归分析。
STATA常用命令总结(34个含使用示例)
STATA常用命令总结(34个含使用示例)1. clear:清空当前工作空间中的数据。
示例:clear2. use:加载数据文件。
示例:use "data.dta"3. describe:查看数据文件的基本信息。
示例:describe4. summarize:统计数据的描述性统计量。
示例:summarize var1 var2 var35. tabulate:制作数据的列联表。
示例:tabulate var1 var26. scatter:绘制散点图。
示例:scatter x_var y_var7. histogram:绘制直方图。
示例:histogram var8. boxplot:绘制箱线图。
示例:boxplot var1 var29. ttest:进行单样本或双样本t检验。
示例:ttest var, by(group_var)10. regress:进行最小二乘法线性回归分析。
示例:regress dependent_var independent_var1 independent_var211. logistic:进行逻辑斯蒂回归分析。
示例:logistic dependent_var independent_var1 independent_var212. anova:进行方差分析。
示例:anova dependent_var independent_var13. chi2:进行卡方检验。
示例:chi2 var1 var214. correlate:计算变量之间的相关系数。
示例:correlate var1 var2 var315. replace:替换数据中的一些值。
示例:replace var = new_value if condition16. drop:删除变量或观察。
示例:drop var17. rename:重命名变量。
示例:rename old_var new_var18. generate:生成新变量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.odbc load,dsn("Excel Files;DBQ=D:\1.xls") table("sheet1$") clear lowercase2.winsorizeJ lrate btd tacc hhi pmc com roa major size size_1 inv inv_1 cash_1 lev lev_1 nwcret ret_1 nwc_1 seo , suffix(w) cuts(1 99)winsorizeJ tobinq_1daixizhaiwu tobinq_1jingzhaiwu , suffix(w) cuts(1 98.5)3.生成Dbtd和inINV之前先看下数据情况tabstat lratew btdw taccw hhiw pmcw comw roaw majorw sizew levw nwcw retw seow , stat( max min mean sd median )col(stat)tabstatinvw inv_1w cash_1w size_1w lev_1w nwc_1w tobinq_1daixizhaiwuw tobinq_1jingzhaiwuw , stat( max min mean sd median )col(stat)4. bysort time ind: egen lratewmean =mean( lratew )gen lratewfenlei=lratew – lratewmeangen lratewxuni = lratewfenleireplace lratewxuni = 1 if lratewfenlei >0replace lratewxuni = 0 if lratewfenlei <0drop lratewmean5. reg btdw taccw,noconpredict Dbtd,rbys time ind: egen Dbtdmean =mean( Dbtd )gen Dbtdfenlei=Dbtd – Dbtdmeangen Dbtdxuni = 1 if Dbtdfenlei > 0replace Dbtdxuni = 0 if Dbtdxuni == .drop Dbtdmean6. bysort time : count if lratewfenlei > 0bysort time : count if Dbtdfenlei > 07. tab year, gen(dummy_year)drop dummy_year1tab ind, gen(dummy_ind)drop dummy_ind58.reg invw age_1 inv_1w cash_1w size_1w lev_1w tobinq_1daixizhaiwuw ret_1w dummy*predict inINV_daixi,rreg invw age_1 inv_1w cash_1w size_1w lev_1w tobinq_1jingzhaiwuw ret_1w dummy*predict inINV_jing,r9. logout, save(test) word replace: tabstat invw enINV lratew Dbtd btdw hhiw pmcw comw qwopportunityw cfw majorw levw sizew nwcNw roaw seow , stat( max min mean sd median ) col(stat)10.logout, save(test) word replace:pwcorr inINV_jing lratew Dbtd hhiw pmcw tobinq_1jingzhaiwuwfcfw majorw levw sizew nwcw roaw seow ,sig star(.05)logout, save(test) word replace:spearman invw enINV lratew Dbtd hhiw pmcw comw tobinqw opportunityw cfw majorw levw sizew nwcw,star(.05)11. sktest lratew lratewfenlei ,noadjust 正态分布检验ttest lratew,by (soexuni1) unequal12.probit lratewxuni sizew levw tobinq_1daixizhaiwuw roaw age dummy*predict w1,xbgen imr=normalden(w1)/normal(w1)drop w1 生产IMR系数已重新修改IMR的模型,按照避税和tobinq的不同生成了六个IMR13. logout, save(test) word replace:reg abs_inINV lratew pmcw fcfw NEG fcfneg majorw retwtobinq_1jingzhaiwuw levw sizew nwcw age imr2 seow dummy*logout, save(test) word replace:reg abs_inINV Dbtd pmcw fcfw NEG fcfneg majorw retw tobinq_1jingzhaiwuw levw sizew nwcw age imr5 seow dummy*logout, save(test) word replace:reg abs_inINV lratew hhiw fcfw NEG fcfneg majorw retw tobinq_1jingzhaiwuw levw sizew nwcw age imr2 seow dummy*logout, save(test) word replace:reg abs_inINV Dbtd hhiw fcfw NEG fcfneg majorw retw tobinq_1jingzhaiwuw levw sizew nwcw age imr5 seow dummy*根据性质分成国有和民营与分成中央、地方和民营,结果是一样的,中央和地方没有差异14. xtset zq time15. logout, save(test) word replace:xtreg abs_inINV Dbtd pmcw fcfw fcfneg majorw retwtobinq_1jingzhaiwuw levw sizew nwcw age imr seow dummy*使用面板和非面板数据结果是一致的16.分组检验sort soe0 (分组前必须先排序,否则by命令用不了,如果替换为bys命令,则不用先sort)logout, save(test) word replace:by soe0:reg abs_inINV lratew pmcw fcfw NEG fcfneg majorw retw tobinq_1jingzhaiwuw levw sizew nwcw age imr2 seow dummy*logout, save(test) word replace:by soe0:reg abs_inINV Dbtd pmcw fcfw NEG fcfneg majorw retw tobinq_1jingzhaiwuw levw sizew nwcw age imr5 seow dummy*logout, save(test) word replace:by soe0:reg abs_inINV lratew hhiw fcfw NEG fcfneg majorw retw tobinq_1jingzhaiwuw levw sizew nwcw age imr2 seow dummy*logout, save(test) word replace:by soe0:reg abs_inINV Dbtd hhiw fcfw NEG fcfneg majorw retw tobinq_1jingzhaiwuw levw sizew nwcw age imr5 seow dummy*17.生成交互项gen TC1= lratew * pmcwgen TC2= Dbtd *pmcwgen TC3= lratew *hhiwgen TC4= Dbtd *hhiw18.设置用于将投资效率进行分组的变量gen Dbtdxuni = 1 if Dbtdfenlei > 0replace Dbtdxuni = 0 if Dbtdxuni == .1为投资过度,0为投资不足19.检验假设3,区分投资过度与投资不足sort inv_xuni_jinglogout, save(test) word replace:by inv_xuni_jing: reg inINV_jing lratew pmcw TC1 tobinq_1jingzhaiwuw levw age fcfw majorw sizew retw inv_1w imr2 dummy*logout, save(test) word replace:by inv_xuni_jing: reg inINV_jing Dbtd pmcw TC2 tobinq_1jingzhaiwuw levw age fcfw majorw sizew retw inv_1w imr5dummy*logout, save(test) word replace:by inv_xuni_jing: reg inINV_jing lratew hhiw TC3 tobinq_1jingzhaiwuw levw age fcfw majorw sizew retw inv_1w imr2 dummy*logout, save(test) word replace:by inv_xuni_jing: reg inINV_jing Dbtd hhiw TC4 tobinq_1jingzhaiwuw levw age fcfw majorw sizew retw inv_1w imr5 dummy*20.进一步检验,区分国有和民营投资不足logout, save(test) word replace:bys soe0 : reg inINV_jing lratew pmcw TC1 tobinq_1jingzhaiwuw levw age fcfw majorw sizew retw inv_1w imr2 dummy* if inv_xuni_jing ==0logout, save(test) word replace: bys soe0: reg inINV_jing Dbtd pmcw TC2 tobinq_1jingzhaiwuw levw age fcfw majorw sizew retw inv_1w imr5dummy*if inv_xuni_jing ==0logout, save(test) word replace: bys soe0: reg inINV_jing lratew hhiw TC3tobinq_1jingzhaiwuw levw age fcfw majorw sizew retw inv_1w imr2 dummy*if inv_xuni_jing ==0logout, save(test) word replace: bys soe0: reg inINV_jing Dbtd hhiw TC4 tobinq_1jingzhaiwuw levw age fcfw majorw sizew retw inv_1w imr5 dummy*if inv_xuni_jing ==0投资过度logout, save(test) word replace:bys soe0 : reg inINV_jing lratew pmcw TC1 tobinq_1jingzhaiwuw levw age fcfw majorw sizew retw inv_1w imr2 dummy* if inv_xuni_jing ==1logout, save(test) word replace: bys soe0: reg inINV_jing Dbtd pmcw TC2 tobinq_1jingzhaiwuw levw age fcfw majorw sizew retw inv_1w imr5dummy*if inv_xuni_jing ==1logout, save(test) word replace: bys soe0: reg inINV_jing lratew hhiw TC3tobinq_1jingzhaiwuw levw age fcfw majorw sizew retw inv_1w imr2 dummy*if inv_xuni_jing ==1logout, save(test) word replace: bys soe0: reg inINV_jing Dbtd hhiw TC4 tobinq_1jingzhaiwuw levw age fcfw majorw sizew retw inv_1w imr5 dummy*if inv_xuni_jing ==1新回归命令:①基础调整阶段encode code, gen(zq)encode time, gen(ztime)xtset zq ztimedrop code time time_1 time_2winsorizeJ jzinv jzinv_1 , suffix(w) cuts(1 99)winsorizeJ roa fcf , suffix(w) cuts(5 95)logout, save(test) excel replace: tabstat lrate btd dbtd hhi pmc com size top1 gqzh seolev roaw fcfw jzinvw jzinv_1winv inv_1 roa_1 growth_1 size_1 lev_1 nwc_1 ret_1 cash_1 age_1 jzinv jzinv_1 , stat( max min mean sd median )col(stat)tab year, gen(dummy_year)tab ind, gen(dummy_ind)drop dummy_ind10drop dummy_year1order zq ztime chanquan1 zcjz zcjz_1 zcjz_2 chanquan2 lrate btd dbtd hhi pmc com size top1 gqzh seo growth lev roaw fcfw jzinvw jzinv_1w inv inv_1 roa_1 growth_1 size_1 lev_1 nwc_1 ret_1 cash_1 age_1 year inddrop jzinv jzinv_1 roa fcfrename jzinvw jzinvrename jzinv_1w jzinv_1rename roaw roarename fcfw fcf②表格回归阶段logout, save(test) excel replace: reg inv inv_1 growth_1 lev_1 ret_1 cash_1 age_1 size_1 dummy* reg inv inv_1 growth_1 lev_1 ret_1 cash_1 age_1 size_1 dummy*predict e, residgen invxl= 1 if e > 0replace invxl = 0 if invxl == .rename ztime timebysort time ind: egen lratewmean =mean( lrate )gen lratewfenlei=lrate–lratewmeangen lratewxuni = lratewfenleireplace lratewxuni = 1 if lratewfenlei >0replace lratewxuni = 0 if lratewfenlei <0drop lratewmeanprobit lratewxuni size lev growth_1 roa age_1 dummy*predict w1,xbgen imr=normalden(w1)/normal(w1)drop w1gen absinvxl=abs( e )bys invxl :reg absinvxl lrate size top1 seo growth_1 lev ret_1 fcf age_1 dummy*。