计量经济学软件STATA命令集
STATA常用命令大全
STATA 常用命令大全调整变量格式:format x1 %10.3f ——将x1的列宽固定为10,小数点后取三位format x1 %10.3g ——将x1的列宽固定为10,有效数字取三位format x1 %10.3e ——将x1的列宽固定为10,采用科学计数法format x1 %10.3fc ——将x1的列宽固定为10,小数点后取三位,加入千分位分隔符format x1 %10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符format x1 %-10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符,加入“-”表示左对齐合并数据:use "C:\Documents and Settings\xks\桌面\2006.dta", clearmerge using "C:\Documents and Settings\xks\桌面\1999.dta"——将1999和2006的数据按照样本(observation)排列的自然顺序合并起来use "C:\Documents and Settings\xks\桌面\2006.dta", clearmerge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort——将1999和2006的数据按照唯一的(unique)变量id来合并,在合并时对id进行排序(sort)建议采用第一种方法。
对样本进行随机筛选:sample 50在观测案例中随机选取50%的样本,其余删除sample 50,count在观测案例中随机选取50个样本,其余删除查看与编辑数据:browse x1 x2 if x3>3 (按所列变量与条件打开数据查看器)edit x1 x2 if x3>3 (按所列变量与条件打开数据编辑器)数据合并(merge)与扩展(append)merge表示样本量不变,但增加了一些新变量;append表示样本总量增加了,但变量数目不变。
stata命令大全(全)
********* 面板数据计量分析与软件实现 *********说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计)* 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
湘潭大学计量经济学stata常用命令
replace bolck=6 if block==0 /*将block=0的数全部替换为6。
replace z=. if z<0 /*将所有小于0的z值用缺失值代替。
replace age = 25 in 17/*将第17条记录中的变量age替换为25。
for var x* : replace X=0 if X==. /*将所有第一个字母为x的变量替换为0,如果该变量的值为缺失值
bar /*条图、百分条图
pie /*圆(饼)图
box /*箱式图
star /*星形图
常用选项
bin(#) /*将数据分几组,缺省为5。
freq /*指定纵轴用频数表示,否则为频率。
normal /*给直方图加上相应正态曲线。
xlab/ylab/[(#,……,#)] /*指定坐标轴的界点。
b2/l2[(“字符串”)] /*指定坐标轴的副标题。
egen b=seq(),b(3) /*产生一个序列,每个元素重复#次
egen c=seq(),to(4) /*产生多个序列,每个序列从1到#
egen d=seq(),f(4)t(6) /*产生多个序列,每个序列从#1到#2
encode字符变量名,gen(新数值变量名)
作用:将字符型变量转化为数值变量。
ttesti #obs #mean #sd #val
直线相关和回归分析
correlate [变量名]
pwcorr [变量名] , [sig star(#) ]
regress因变量自变量
predict新变量, [stdp] [stdf]
stdp计算估计值的标准误
stdf估计预测值y的标准差
stata 常用命令
stata 常用命令Stata是一个流行的统计分析软件,广泛应用于各个领域的数据分析和研究。
它提供了丰富的命令和功能,可帮助用户处理、分析和可视化数据。
在本文中,我将向您介绍一些常用的Stata命令,以及它们在数据分析中的应用。
1. 数据导入与导出在使用Stata进行数据分析之前,我们需要将数据导入软件环境中。
Stata支持多种数据格式,如Excel、CSV、SPSS等。
对于Excel数据,我们可以使用命令"import excel"将数据导入到Stata中;对于CSV数据,可以使用"import delimited"命令。
Stata还提供了"export"命令,可将分析结果导出为Excel、CSV等格式,便于与其他软件进行交互。
2. 数据清洗与处理在数据分析过程中,数据清洗是一个重要的步骤。
Stata提供了一系列命令来处理和净化数据。
"drop"命令可以删除数据集中的变量或观察值;"replace"命令用于修改变量的取值;"gen"命令可以创建新的变量等。
"merge"命令可用于合并不同数据集,"sort"命令可用于排序数据等。
3. 描述性统计分析Stata提供了简单而强大的描述性统计分析命令,帮助用户了解数据的基本特征。
"summarize"命令可用于计算变量的均值、标准差等统计量;"tabulate"命令可用于制作交叉分类表;"histogram"命令可绘制变量的直方图等。
这些命令使我们能够更好地理解数据的分布和特征。
4. 统计模型估计Stata是一个强大的统计软件,支持各种常见的统计模型估计。
"regress"命令可用于进行线性回归分析;"logit"命令可用于二元逻辑回归分析;"heckman"命令可用于处理选择模型等。
stata命令大全(全)
********* 面板数据计量分析与软件实现 *********说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI 溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel 格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
stata命令大全(全)
*********面板数据计量分析与软件实现*********说明:以下do文件相当一部分容来自于大学连玉君STATA教程,感他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计)* 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog 生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
上海海洋大学计量经济学应用软件STATA命令集
计量经济学应用软件STATA 命令集一、 基本操作 des y x (数据描述)(查看数据内部结构)● gen lny=log(y) ● gen lnx=log(x)● corr lnx1 lnx2 lnx3 lnx4 lnx5(多重共线性lnx 的相关系数) ● gen x1=x[_n-1]replace di=1 if year<=1990 replace di=0 if di==.● reg y x (一元函数回归模型)● reg y x1 x2 x3(多元函数回归模型)● summarize y x (一元回归预测的统计描述)(查看变量的基本统计量)● predict yhat (一元回归的y 预测值 就是输入两个给的x 之后算的东西)f Y 平均值置信度95%的预测区间为:^^2f Y t ασ个别值置信度95%的预测区间为:^^2f Y t ασ ●● predict e, r 【异方差的生成残差平方序列】 ● gen e2=e*e ● corr y x二、检验● estat imtest, white 【异方差的white 检验】● tsset year (按照时间序列排列在画图之前,是虚拟变量,自相关所用) ● estat dwatson 【自相关 dw 】二、 违反经典假设的处理方法【异方差的修正】●gen w1=1/x●gen w2=1/(x*x)●gen w3=1/sqrt(x)●reg y x [aw=w1]●reg y x [aw=w2]●reg y x [aw=w3]●prais y x, corc【为解决自相关问题,选用科克伦—奥克特(CO)迭代法】●prais y x, nolog 【为解决自相关问题,用普莱斯-温斯滕(Prais-Winsten)PW估计法。
】●两个方法谁大谁好●iveg y (x=x1)四、画图●scatter e x【异方差画散点图】●histogram q, width(8000) frequency●graph twoway (scatter y x)(lfit y x) 【一元散点图只有y x的】●graph twoway connect x y year, msymbol(circle) msymbol(triangle)【多元回归散点图y x1 x2 这样的】predict e,r●line e year【自相关的残差与时间t的散点图】●gen e1=L.e【残差与残差滞后的散点图】●twoway (scatter e e1) (lfit e e1)五、DW检验决策规则六 虚拟变量德宾—沃森d 统计量:在0.05显著性水平上L d 和U d 的显著点。
stata 计量方法(一)
stata 计量方法(一)Stata 计量方法Stata 是一种常用的统计软件,尤其在计量经济学领域得到广泛的应用。
本文将介绍使用 Stata 进行计量方法分析的基本步骤和常用命令。
回归分析回归分析是计量经济学中最基础的方法之一,用于探究一个或多个自变量对一个因变量的影响程度。
在 Stata 中,可以使用reg命令进行回归分析。
reg dependent_variable independent_variable1 independent_variable2 ...例如,以下命令将运行一个简单线性回归,其中自变量为x,因变量为y:reg y x多元回归分析多元回归分析是指使用多个自变量来解释因变量。
在 Stata 中,可以使用reg命令进行多元回归分析。
reg dependent_variable independent_variable1 independent_variable2 ...例如,以下命令将运行一个多元回归模型,其中自变量为x1和x2,因变量为y:reg y x1 x2差分处理差分处理是指对两个或多个时间点的数据进行比较。
在 Stata 中,可以使用diff命令进行差分处理。
diff variable, difference_option例如,以下命令将计算变量x的一阶差分:diff x, difference(1)仪器变量回归仪器变量回归是用于处理自变量与因变量之间存在内生性问题的一种方法。
在 Stata 中,可以使用ivreg命令进行仪器变量回归。
ivreg dependent_variable (endogeneous_variable = instruments) independent_variable1 independent_variable2 ...例如,以下命令将运行一个仪器变量回归模型,其中自变量为x,因变量为y,仪器变量为z:ivreg y (x = z) other_variables总结本文介绍了 Stata 中常用的计量方法分析,包括回归分析、多元回归分析、差分处理和仪器变量回归。
stata命令大全(全)
*********面板数据计量分析与软件实现*********说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计)* 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog 生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
stata命令大全超实用(全)
stata命令大全超实用(全)*********面板数据计量分析与软件实现*********说明:以下do文件相当一部分内容来自于中山大学连玉君STATA 教程,感谢他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计)* 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog 生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/ tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
Stata命令
Stata语句11.reg y x1 x2predict xxx 返回先前回归中因变量的拟合值,xxx随意变量名。
predict newvar, stdp 预测拟合值的标准差predict aaa,re 返回先前回归中因变量的残差,aaa为随意变量名。
predict newvar, stdr 预测残差的标准差predict newvar, xb 产生一个新变量其值为由上面回归方程计算的被解释变量的预测值。
predict newvar, residual 产生一个新变量其值为由上面回归方程计算出的残差test x1 检验变量x1的显著性,返回当X1系数为零时的F值,F 值为回归报告中t值平方。
test x1=x2 检验x1 x2变量的系数是否相等。
test x1*a=x2*b a,b为任意常数,检验变量x1与x2是否存在某种线性关系。
2.tab x1,gen(x1) 产生x1的虚拟变量。
gen fsize1=fize==1 产生虚拟变量,如果family size为1,则令fsize1=1,否则为零。
下同。
gen fsize2=fsize==2gen fsize3=fsize==3gen fsize4=fsize==4gen fsize5=fsize>=53.reg y x1 x2 x3,level(99) 返回回归报告中99%的置信区间。
set level 97 在以后的回归中都默认返回97的置信区间。
reg y x1 x2 x3,noconstant 无常数回归。
4.display fprob(q, n-k-1, F) 返回值为F,分子自由度为q,分母自由度为n-k-1的p 值di tprob(n-k-1,t) 返回值为t,自由度为n-k-1的p值5.stata中缺失值为无穷大值。
reg bwght cigs parity faminc if fatheduc<. & motheduc<.6.标准化变量egen stdprice=std(price)/可以添加语句:egen stdprice=std(price),mean (0)std(0)/reg y x1 x2 x3,beta7. 将回归结果输入到test.docreg bwght cigs famincoutreg2 using test.doc, nolabel replacereg bwghtlbs cigs famincoutreg2 using test.doc, nolabel appendreg bwght packs famincoutreg2 using test.doc, nolabel append8.逻辑表达式:缺失值用“.”表示关系运算符:==,!=(不等于),~=(约等于),>,<,<=,>=逻辑运算符:&(与),|(或),~(非)9.对现有变量重新赋值replace oldvar =exp [if] [in] [, nopromote]10.describe:报告样本容量、变量个数、变量名称等11.sort x1 x2 依次按升序排列gsort -x1 按x1降序排列12.excle转为stata时日期变量的处理gen date(或任一新变量名)=date(‘原变量名’,‘YMD’/'DMY'/..)form date %td12. 删掉重复记录duplicates drop13.独立样本均值差异检验 ttestStata语句2* Introduction to Statalog using stata_fall.txt, text replace*使用日志(log)。
(最新整理)Stata常用命令
Stata常用命令编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(Stata常用命令)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为Stata常用命令的全部内容。
Stata常用命令大学期间觉得学的最有用的软件之一就是stata了,对stata基本是在血和泪的尝试中爬过,到了最后基本属于只要stata不出现红字错误命令就开心得不得了.顺便整理一下常用的stata命令如下,应该对付计量方向第一学期的入门问题不大(求stata大神不虐。
),所以就只写了一部分常用的,有时间后面再补充吧。
主要就是分为基本操作和回归统计两部分:1、基本操作import/use/insheet/merge:基本常用的导入文件就是这四个了,建议直接从stata的menu菜单中导入,导入xlsx和csv这种常见的格式时还有一些备用选项可以自己体验一下(比如string和把第一行视为变量名之类)。
merge需要单独说一下,因为是将两个数据库合并为一个,原理也比较简单,两个数据库中根据一些相同的变量把其他数据“加”到原来的数据库中,也是建议直接菜单操作,不要用命令。
在Data的Combine datasets的merge two datasets中,分为1:1、m:1、1:m各种形式,基本用两次就差不多能搞懂。
help:一定第一个学的是这个!啥不会就help一下,不知道函数了就help function,不知道回归细节就help regress,多读help文件!gen/egen:最常用的建立函数的命令,这两个不同之处在于gen一般是初等函数,egen的函数会复杂一些.常用的函数包括数学函数和其他函数,比如count/tag之类,建议直接到菜单里Data下Create data的create new variable或create new variable(extended)直接生成函数,会方便的多。
stata命令大全(全)
********* 面板数据计量分析与软件实现*********说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计)* 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现,6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省20xx年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
(完整)stata命令总结,推荐文档
(完整)stata命令总结,推荐文档stata11 常用命令注:JB统计量对应的p大于0.05 ,则表明非正态,这点跟sktest 和swilk 检验刚好相反;dta 为数据文件;gph 为图文件;do 为程序文件;注意stata 要区别大小写;不得用作用户变量名:_all _n _N _skip _b _coef _cons _pi _pred _rc _weight double float long int in if using with 命令:读入数据一种方式input x y142 5.53 6.247.758.5endsu/summarise/sum x 或su/summarise/sum x,d 对分组的描述:sort group by group:su x%%%%%tabstat economy,stats(max)%返回变量economy的最大值%%stats括号里可以是:mean,count(非缺失观测值个数),sum(总和),max,min,range ,%% sd ,var ,cv(变易系数=标准差/ 均值),skewness,kurtosis ,median,p1(1 %分位%% 数,类似地有p10, p25, p50, p75, p95, p99),iqr (interquantile range = p75 –p25)_all %描述全部_N 数据库中观察值的总个数。
_n 当前观察值的位置。
_pi 圆周率π 的数值。
list gen/generate % 产生数列egen wagemax=max(wage)clearuseby(分组变量)set more 1/0count % 计数 gsort +x ( 升序 ) gsort -x ( 降序 ) sort x 升序;并且其它变量顺序会跟着改变label var y " 消费 " %添加标签describe %描述数据文件的整体,包括观测总数,变量总数,生成日期,每个变量的存储类型 (storage type) ,标签 (label) replace x5=2*y if x!=3 % 替换变量值replace age = 25 in 107 %令第 107 个观测中 age 为 25rename y2 u %改变变量名drop in 2 %删除全部变量的第 2 行drop if x==. 删去 x 为缺失值的所有记录keep if x<2 %保留小于 2 的数据,其余变量跟随 x 改变 keep in 2/10 %保留第 2-10 个数 keep x1-x5 %保留数据库中介于 x1 和 x5 间的所有变量 ( 包括 x1 和 x5) ,其余变量删除ci x1 x2,by(group) %算出置信区间 , 不过先前对 group 要先排序,即sort group ;%by 的意思逐个进行cii 12 3.816667 0.2710343, level(90) %已知均值,方差,计算 90%的置信区间cii 10 2%obs=10,mean=2,以二项分布形式,计算置信区间centile x,centile(2.5 25 50 75 97.5) %取分位数correlate/corr x y z%相关系数pwcorr x y,sig %给出原假设 r=0 的命令%如果变量非服从正态分布,则spearman x y regress/reg mean year % 回归方程建立 reg y x,noconstant % 无常数项 predict meanhat %预测拟合值predict e,residual % 得到残差estat hettest % 异方差检验dwstat % Durbin-Watson 自相关检验 vif % 方差膨胀因子取 0或 1,是被解释变量, x1-x3 是被解释变量 ) %logit取 0 或 1 ,是被解释变量, x1-x3 是被解释变量 ) %probit 取值在 0和 1之间,是被解释变量, x1-x3 是被解释变sktest e % 残差正态性检验p>0.05 则接受原假设,即服从正态分布; %% sktest 是基于变量的偏度和斜度 (正态分布的偏度为 0,斜度为 3) swilk x %基于 Shapiro-Wilk 检验%%p 值越小,越倾向于拒绝零假设,也就是变量越有可能不服从正态分布 xi %生成虚拟变量tabulat gender,summ(math) %用 gender 指标对 math 进行分类,返回两类 mathlogit y x1 x2 x3 (y回归 probit y x1 x2 x3 (y 回归tobit y x1 x2 x3 (y 量 ) %tobit 回归的mean、std 、freqtabulate=tab %gen f=int((shengao-164)/3)*3+164 组距为3 tabulate 变量名[, generate( 新变量) missing nofreq nolabel plot ] %%%%%generate( 新变量) // 按分组变量产生哑变量nofreq // 不显示频数nolabel// 不显示数值标记plot // 显示各组频数图示missing // 包含缺失值cell // 显示各小组的构成比( 小组之和为1) column // 按栏显示各组之构成( 各栏总计为1) row // 按行显示各组之构成( 各行总计为1) %%%%% 求和,求最小?mod(x,y) % 求余数means %返回三种平均值di normprob(1.96) di invnorm(0.05) di binomial(20,5,0.5) di invbinomial(20,5,0.5) di tprob(10,2) di invt(10.0.05) di fprob(3,27,1) di invfprob(3,27,0.05) di chi2(3,5) di invchi2(3,0.05) stack x y z,into(e)%把三列合成一列xpose,clear %矩阵转置append using d:\0917.dta %把已打开的文件(x y z )跟0917 里的(x y z )合并,是竖向合并,即观察值合并;merge using D:\0917.dta %把已打开的文件(x y z )跟0917 里的( a b )合并,是横向合并,即变量合并;format x %9.2e %科学记数format x %9.2f %2 位小数%产生随机数%1 产生20 个在(0 ,1)区间上均匀分布的随机数uniform()set seed 100set obs 20gen r=uniform()list%clear 清除内存set seed 200 设置种子数为200 set obs 20 设置样本量为20 range no 1 20gen r=uniform()gen group=1为1sort rreplace group=2 in 11/20建立编号 1 至20产生在(0,1) 均匀分布的随机数设置分组变量group 的初始值对随机数从小到大排序设置最大的10 个随机数所对应的记录为第 2 组,即:最小的10 个随机数所对应的记录为第 1 组sort no list 按照编号排序显示随机分组的结果也可以list if group==1 和list no if group==1%2 产生10 个服从正态分布N( 100,6^2)的随机数invnorm(uniform())*sigma+u clear清除内存set seed 200 set obs 10设置种子数为200设置样本量为10gen x=invnorm(uniform())*6+100 产生服从N(100 ,6^2) 的随机数list画图注意有些图前面要加histogram 直方图line 折线图scatter 散点图scatter y x,c(l) s(d) b2("(a)") graph twoway connected y x 连点图graph bar (sum) var2,over(var1) blabel(total) % 条形图. graph bar p52 p72,by(d) . graph bar p52 p72,over(d) . graph bar p52p72,by(d) stack . graph bar p52 p72,over(d) stack //////////// 数据如下%d p52 p72 %1 163.2 27.4 %2 72.5 83.6 %3 57.2 178.2 histogram x,bin(8) norm%画直方图,加正态分数线graph pie a b o ab if area==1,plabel(_all percent) % 画饼图graph pie var2, over(var1) plabel(_all percent) %饼图graph pie p52 p72,by(d) % 饼图graph box y1 % 箱体图qnorm x %qq 图 lfit y x %回归直线graph matrix gender economy math 多变量散点图line yhat x||scatter y x,c(.l) s(O.) xline(12) yline(5.4) %线形图 & 散点图有一些通用的选项可以给图形“润色”:标题title( “string ” ) ( string 可为任意的字符串,下同) 脚注note( “string ”) 横座标标题xtitle( “string ”) 纵座标标题ytitle( “sting ”) 横座标范围xaxis(a,b) (a// 连接各散点的方式, c 表示: . 不连接 ( 缺省值 ) l L m s J || [varname] 用变量的取值代码表示 [_n] 用点的记录号表示数学函数等都要与 generate 、 replace 、display 一起使用,不能单独使用程序文件 do use d:\0917.dta reg y xconnect(c...c) 或简写为 c(c...c)II 同 ||,个短横Symbol(s...s)// 表示各散点的图形, s 表示:或简写为 s(s...s) O 大圆圈 ( 缺省值 )S 大方块 T 大三角形 o 小圆圈 d 小菱形p 小加号用直线连接沿x 方向只向前不向后直线连接计算中位数并用直线连接用三次平滑曲线连接以阶梯式直线条连接用直线连接在同一纵向上的两点只是线的顶部和底部有一 i 小点无符号corr y xline y x,saving(d:\d4) 按ctrl+D 执行字符串操作函数:length(s)%长度函数,计算s 的长度, 如,disp length("ab") 的结果是substr(s,n1,n2)%子串函数,获得从s 的n1 个字符开始的n2个字符成的字符串,dispsubstr("abcdef",2,3)的结果是"bcd"string(n)%将数值n 转换成字符串函数,如,dispstring(41)+"f" 的结果是"41f"real(s)%将字符串s 转换成数值函数,如,dispreal("5.2")+1 的结果是6.2upper(s)%转换成大写字母函数,如,dispupper("this")的结果是"THIS"lower(s)%转换成小写字母函数,如displower("THIS")的结果是"this"index(s1,s2)%子串位置函数,计算s2 在s1 中第一次出现的起始位置, 如果s2 不在s1 中, 则结果为0。
stata命令简表3
STATA命令简表基本命令符号#delimit用来改变命令结束符 (8)Aanova方差与协方差分析 (9)append合并样本数据 (12)Bbrowse用数据编辑器查看数据 (4)Ccd 改变stata的工作路径 (2)Chi2相关关系检验 (10)ci计算指定变量的置信区间 (9)clear清除当前stata使用的内存数据信息 . 3 clonevar克隆现有变量 (3)codebook显示指定变量的编码、取值信息 4 collapse按组生成新的指定统计信息表 (14)compress压缩数据 (8)contract按组生成新的频率分布信息表 (14)correlate显示相关矩阵或者协方差矩阵 (10)cross一一交叉 (14)Ddescribe描述内存或者文件中的数据 (4)destring/tostring 字符变量和数字变量的转换 (15)dir显示当前目录下的文件信息 (3)display显示文字或者数据运算结果 (3)do执行命令文件 (5)drop删除变量或者对象 (7)duplicates重复数据处理 (14)Eegen是generate的扩展形式..................... 16 encode/ decode变量类型转换 (6)expand 数据伸缩,根据指令吧每个数据行复制n份来取代原来的数据行 (14)Fforeach逐项循环命令 (10)format改变数据输出格式 (6)forvalues让特定命令在指定数字系列里重复执行 (11)Ggenerate创建新变量 (3)gsort升序或者降序排列数据 (7)Hhelp帮助命令 (5)Iif表达式 (17)infile/outfile将格式自由的数据读入内存/数据文本格式数据 (4)infix将格式固定的数据读入内存 (5)input从命令窗口输入数据 (15)Insheet/outsheet用电子数据表从外部输入原始数据/ 输出数据表格格式数据 (4)Jjoinby组内交叉合并 (13)Kkeep选择保留变量或者对象 (8)Llabel data数据标签 (5)label value数值标签 (6)label variable变量标签 (6)1list列出指定变量的取值 (4)local (17)log记录开关 (15)lookfor寻找变量名或者标签 (8)Mmean估计期望值 (9)merge横向合并数据,样本不变,增加变量个数 (13)move把变量移动到指定位置 (7)mvencode 缺失值的数值编码 (6)Nnote 变量注释 (6)notes 数据注释 (6)Oorder重新排列变量排列顺序 (7)Pprogram创建新命令 (12)pwcorr显示所有pairwise相关系数 (10)Qquery查看运行环境参数设定 (15)Rrecode重新定义变量中的取值 (3)refix批量更名 (8)regress线性回归 (10)rename变量更名 (8)replace变量重新赋值 (3)reshape 长宽格式转换 ............................... 14 Ssave保存内存数据 (5)set设置系统参数或者数据变量 (3)sort升序排列数据 (7)summary显示数据统计信息摘要 (4)Ttabstat显示连续变量的摘要统计信息 (8)tabulate/table列表显示定类或定序变量的统计描述 (9)ttest期望值比较检验 (9)Uuse数据读入stata (5)Xxi 类别变量/交叉项自动生成命令 (16)七划找第几个观测值 (17)找第几个变量 (17)系统变量 (15)八划制图命令 (16)取子字符串 (17)十一划常用函数 (15)常用概率函数 (16)✓cd 改变stata的工作路径⏹cd 命令用来改变stata的工作路径⏹用法◆指定全路径:cd e:\data◆指定相对路径(如果当前路径已经指向e:\那么下面命令将达到和上面全路径命令同样效果):cd data◆cd .. 返回上一级目录2✓dir显示当前目录下的文件信息⏹显示当前目录下的文件信息⏹用法◆dir✓clear清除当前stata使用的内存数据信息⏹清除当前stata使用的内存数据信息⏹用法◆直接清除:clear◆清除后执行相关命令:,clear✓display显示文字或者数据运算结果⏹display命令用来显示文字或者数据运算结果⏹用法◆显示文字(文字外围需要加引号):display “a song sb”◆显示运算结果:display 25*10✓set设置系统参数或者数据变量⏹set命令用来设置系统参数或者数据变量⏹用法◆设置系统参数:set memory 100m◆设置数据变量:set obs 100✓generate创建新变量⏹创建新变量⏹用法◆generate [type] newvar[:lblname] =exp [if] [in]◆eg:generate x = 13✓clonevar克隆现有变量⏹克隆现有变量(包括显示格式等所有特征)⏹用法◆clonevar newvar = varname [if] [in]✓replace变量重新赋值⏹变量重新赋值⏹用法◆replace oldvar =exp [if] [in] [, nopromote]◆replace x = 0 if x==1◆replace x = x + 1✓recode重新定义变量中的取值⏹重新定义变量中的取值⏹用法◆基本语法:recode varlist (rule) [(rule) ...] [, generate(newvar)]3◆完全语法:recode varlist (erule) [(erule) ...] [if] [in] [, options]◆recode x1 (1 = 2) (2 = 1), gen(nx1)◆recode x2 (1 2 = 1) (3 = 2) (4/7 = 3), gen(nx2)◆recode x* min/0 = 0 * 2◆recode sex (1-0 “female”) (2=1 “male”),label(gender)◆在recode中1/12代表1-12;min/12代表小于等于12;12/max代表大于等于12;missing代表缺失值;nonmissing代表非缺失值✓browse用数据编辑器查看数据⏹用数据编辑器查看数据⏹用法◆browse✓list列出指定变量的取值⏹列出指定变量的取值⏹用法◆list [varlist] [if] [in] [, options]✓describe描述内存或者文件中的数据⏹描述内存或者文件中的数据(样本数、变量类型等信息)⏹用法◆描述内存数据:describe [varlist] [, memory_options]◆描述文件数据:describe [varlist] using filename [, file_options]✓codebook显示指定变量的编码、取值信息⏹显示指定变量的编码、取值信息⏹用法◆codebook varlist✓summary显示数据统计信息摘要⏹显示数据统计信息摘要(样本数、均值、标准差、最大最小值)⏹用法◆不能处理字符变量◆summarize [varlist] [if] [in] [weight] [, options]◆by contin :sum(gdp)【按照contin分组,然后显示每组的gdp统计信息】✓Insheet/outsheet用电子数据表从外部输入原始数据/ 输出数据表格格式数据⏹用电子数据表从外部输入原始数据/ 输出数据表格格式数据⏹用法◆原始数据必须每行一个对象,并且用分隔符分开◆insheet [varlist] using filename [, options]◆insheet using hdr2004a.raw,comma (读入由,号作为分隔符的文本数据)◆insheet rank nation contin hdi gdp using hdr2004a.raw◆outsheet [varlist] using filename [if] [in] [,opt]✓infile/outfile将格式自由的数据读入内存/数据文本格式数据4⏹将格式自由的数据读入内存/数据文本格式数据⏹用法◆数据组织格式可以自由,一个对象可以分散在多行,对象之间可以用自定义分隔符分开◆Infile varlist using filename◆Infile rank nation contin hdi gdp using hdr2004b.raw (读入空格分隔的文本数据,文本中要求没有变量名所以应该在读入时指定)◆Outfile [varlist] using filename [,opt]✓infix将格式固定的数据读入内存⏹将格式固定的数据读入内存⏹用法◆用infix读入的原始数据,其变量对应文件列的位置范围必须固定◆infix [var1 1-4 var2 5-9 var3 10-12] using filename [if] [in]◆infix rank 1-2 contin 3-4 hdi 5-10 using filename✓use数据读入stata⏹数据读入stata⏹用法◆use [varlist] [if] [in] using filename [, clear nolabel]◆use rank nation contin using d:\data\hdr2004◆use in 1/50 using d:\data\hdr2004◆use if contin==3 using d:\data\hdr2004✓save保存内存数据⏹保存内存数据⏹用法◆save [filename] [, save_options]◆options可以是replace✓help帮助命令⏹帮助命令,用来查看命令的使用方法⏹用法◆help cmd✓do执行命令文件⏹执行命令文件⏹用法◆do filename✓label data数据标签⏹作用◆帮助其他用户理解数据文件⏹用法◆长度限制为80字节,支持中文◆查看标签:use 或者describe命令5◆添加标签:label data “标签内容”✓notes 数据注释⏹作用◆帮助合作者理解数据更新的时间、内容、问题等⏹用法:◆查看注释:notes◆添加注释:notes:注释内容✓note 变量注释⏹用法:◆note hdi: by UNDP:> .8 high; >.5 as medium; <.5 low◆note gdp: per capita gdp in US$ in 2002.✓label variable变量标签⏹给变量加上标签⏹用法◆添加标签:label variable “标签”◆查看标签:describe和notes命令✓encode/ decode变量类型转换(字符变量变数字变量时使用,不能用于数字字符转数字格式)⏹字符到数字:encode 变量名,generate(新变量名)⏹数字到字符:decode 变量名,generate(新变量名)⏹纯数字的字符变量到数字变量:generate 新变量名= real(新变量名)✓mvencode 缺失值的数值编码⏹mvencode varlist [if] [in], mv(mvc)⏹mvdecode _all, mv(-1=.a\-2=.b\-3=.c\-4=.d)⏹mvdecode 与mvencode功能相反✓label value数值标签⏹作用◆记录取值的内容和含义⏹用法◆首先定义标签内容:label define 标签名1 “内容”2 “内容”(1,2可以是任意数字)◆然后给变量添加标签:label value 变量名标签名◆查看数值标签名:describe命令◆查看数值标签定义:label list 标签名◆修改标签定义:label define 标签名1 “内容”2 “内容”,modify◆添加标签定义:label define 标签名4 “内容”6 “内容”,add✓format改变数据输出格式⏹改变数据输出格式⏹用法◆format varlist %fmt6◆format %fmt varlist◆format gdp %9.2e◆format gdp %9.2f◆format gdp %9.2g◆format gdp %9.2gc◆format gdp %-15s◆e科学记数法;f固定格式;g普通格式;c要求给出逗号;-左对齐;15显示前15个字符。
计量经济学stata操作指南
计量经济学stata操作(实验课)第一章stata基本知识1、stata窗口介绍2、基本操作(1)窗口锁定:Edit-preferences-general preferences-windowing-lock splitter (2)数据导入(3)打开文件:use E:\example.dta,clear(4)日期数据导入:gen newvar=date(varname, “ymd”)format newvar %td 年度数据gen newvar=monthly(varname, “ym”)format newvar %tm 月度数据gen newvar=quarterly(varname, “yq”)format newvar %tq 季度数据(5)变量标签Label variable tc ` “total output” ’(6)审视数据describelist x1 x2list x1 x2 in 1/5list x1 x2 if q>=1000drop if q>=1000keep if q>=1000(6)考察变量的统计特征summarize x1su x1 if q>=10000su q,detailsutabulate x1correlate x1 x2 x3 x4 x5 x6(7)画图histogram x1, width(1000) frequencykdensity x1scatter x1 x2twoway (scatter x1 x2) (lfit x1 x2)twoway (scatter x1 x2) (qfit x1 x2)(8)生成新变量gen lnx1=log(x1)gen q2=q^2gen lnx1lnx2=lnx1*lnx2gen larg=(x1>=10000)rename larg largeg large=(q>=6000)replace large=(q>=6000)drop ln*(8)计算功能display log(2)(9)线性回归分析regress y1 x1 x2 x3 x4vce #显示估计系数的协方差矩阵reg y1 x1 x2 x3 x4,noc #不要常数项reg y1 x1 x2 x3 x4 if q>=6000reg y1 x1 x2 x3 x4 if largereg y1 x1 x2 x3 x4 if large==0reg y1 x1 x2 x3 x4 if ~largepredict yhatpredict e1,residualdisplay 1/_b[x1]test x1=1 # F检验,变量x1的系数等于1test (x1=1) (x2+x3+x4=1) # F联合假设检验test x1 x2 #系数显著性的联合检验testnl _b[x1]= _b[x2]^2(10)约束回归constraint def 1 x1+x2+x3=1cnsreg y1 x1 x2 x3 x4,c(1)cons def 2 x4=1cnsreg y1 x1 x2 x3 x4,c(1-2)(11)stata的日志File-log-begin-输入文件名log off 暂时关闭log on 恢复使用log close 彻底退出(12)stata命令库更新Update allhelp command第二章有关大样本ols的stata命令及实例(1)ols估计的稳健标准差reg y x1 x2 x3,robust(2)实例use example.dta,clearreg y1 x1 x2 x3 x4test x1=1reg y1 x1 x2 x3 x4,rtestnl _b[x1]=_b[x2]^2第三章最大似然估计法的stata命令及实例(1)最大似然估计help ml(2)LR检验lrtest #对面板数据中的异方差进行检验(3)正态分布检验sysuse auto #调用系统数据集auto.dtahist mpg,normalkdensity mpg,normalqnorm mpg*手工计算JB统计量sum mpg,detaildi (r(N)/6)*((r(skewness)^2)+[(1/4)*(r(kurtosis)-3)^2])di chi2tail(自由度,上一步计算值)*下载非官方程序ssc install jb6jb6 mpg*正态分布的三个检验sktest mpgswilk mpgsfrancia mpg*取对数后再检验gen lnmpg=log(mpg)kdensity lnmpg, normaljb6 lnmpgsktest lnmpg第四章处理异方差的stata命令及实例(1)画残差图rvfplotrvfplot varname*例题use example.dta,clearreg y x1 x2 x3 x4rvfplot # 与拟合值的散点图rvfplot x1 # 画残差与解释变量的散点图(2)怀特检验estat imtest,white*下载非官方软件ssc install whitetst(3)BP检验estat hettest #默认设置为使用拟合值estat hettest,rhs #使用方程右边的解释变量estat hettest [varlist] #指定使用某些解释变量estat hettest,iidestat hettest,rhs iidestat hettest [varlist],iid(4)WLSreg y x1 x2 x3 x4 [aw=1/var]*例题quietly reg y x1 x2 x3 x4predict e1,resgen e2=e1^2gen lne2=log(e2)reg lne2 x2,nocpredict lne2fgen e2f=exp(lne2f)reg y x1 x2 x3 x4 [aw=1/e2f](5)stata命令的批处理(写程序)Window-do-file editor-new do-file#WLS for examplelog using E:\wls_example.smcl,replaceset more offuse E:\example.dta,clearreg y x1 x2 x3 x4predict e1,resgen e2=e1^2g lne2=log(e2)reg lne2 x2,nocpredict lne2fg e2f=exp(lne2f)*wls regressionreg y x1 x2 x3 x4 [aw=1/e2f]log closeexit第五章处理自相关的stata命令及实例(1)滞后算子/差分算子tsset yearl.l2.D.D2.LD.(2)画残差图scatter e1 l.e1ac e1pac e1(3)BG检验estat bgodfrey(默认p=1)estat bgodfrey,lags(p)estat bgodfrey,nomiss0(使用不添加0的BG检验)(4)Ljung-Box Q检验reg y x1 x2 x3 x4predict e1,residwntestq e1wntestq e1,lags(p)* wntestq指的是“white noise test Q”,因为白噪声没有自相关(5)DW检验做完OLS回归后,使用estat dwatson(6)HAC稳健标准差newey y x1 x2 x3 x4,lag(p)reg y x1 x2 x3 x4,cluster(varname)(7)处理一阶自相关的FGLSprais y x1 x2 x3 x4 (使用默认的PW估计方法)prais y x1 x2 x3 x4,corc (使用CO估计法)(8)实例use icecream.dta, cleartsset timegraph twoway connect consumption temp100 time, msymbol(circle) msymbol(triangle) reg consumption temp price incomepredict e1, resg e2=l.e1twoway (scatter e1 e2) (lfit e1 e2)ac e1pac e1estat bgodfreywntestq e1estat dwatsonnewey consumption temp price income, lag (3)prais consumption temp price income, corcprais consumption temp price income, nologreg consumption temp l.temp price incomeestat bgodfreyestat dwatson第六章模型设定与数据问题(1)解释变量的选择reg y x1 x2 x3estat ic*例题use icecream.dta, clearreg consumption temp price incomeestat icreg consumption temp l.temp price incomeestat ic(2)对函数形式的检验(reset检验)reg y x1 x2 x3estat ovtest (使用被解释变量的2、3、4次方作为非线性项)estat ovtest, rhs (使用解释变量的幂作为非线性项,ovtest-omitted variable test)*例题use nerlove.dta, clearreg lntc lnq lnpl lnpk lnpfestat ovtestg lnq2=lnq^2reg lntc lnq lnq2 lnpl lnpk lnpfestat ovtest(3)多重共线性estat vif*例题use nerlove.dta, clearreg lntc lnq lnpl lnpk lnpfestat vif(4)极端数据reg y x1 x2 x3predict lev, leverage (列出所有解释变量的lev值)gsort –levsum levlist lev in 1/3*例题use nerlove.dta, clearquietly reg lntc lnq lnpl lnpk lnpfpredict lev, leveragesum levgsort –levlist lev in 1/3(5)虚拟变量gen d=(year>=1978)tabulate province, generate (pr)reg y x1 x2 x3 pr2-pr30(6)经济结构变动的检验方法1:use consumption_china.dta, cleargraph twoway connect c y year, msymbol(circle) msymbol(triangle)reg c yreg c y if year<1992reg c y if year>=1992计算F统计量方法2:gen d=(year>1991)gen yd=y*dreg c y d ydtest d yd第七章工具变量法的stata命令及实例(1)2SLS的stata命令ivregress 2sls depvar [varlist1] (varlist2=instlist)如:ivregress 2sls y x1 (x2=z1 z2)ivregress 2sls y x1 (x2 x3=z1 z2 z3 z4) ,r firstestat firststage,all forcenonrobust (检验弱工具变量的命令)ivregress liml depvar [varlist 1] (varlist2=instlist)estat overid (过度识别检验的命令)*对解释变量内生性的检验(hausman test),缺点:不适合于异方差的情形reg y x1 x2estimates store olsivregress 2sls y x1 (x2=z1 z2)estimates store ivhausman iv ols, constant sigmamore*DWH检验estat endogenous*GMM的过度识别检验ivregress gmm y x1 (x2=z1 z2) (两步GMM)ivregress gmm y x1 (x2=z1 z2),igmm (迭代GMM)estat overid*使用异方差自相关稳健的标准差GMM命令ivregress gmm y x1 (x2=z1 z2), vce (hac nwest[#])(2)实例use grilic.dta,clearsumcorr iq sreg lw s expr tenure rns smsa,rreg lw s iq expr tenure rns smsa,rivregress 2sls lw s expr tenure rns smsa (iq=med kww mrt age),restat overidivregress 2sls lw s expr tenure rns smsa (iq=med kww),r firstestat overidestat firststage, all forcenonrobust (检验工具变量与内生变量的相关性)ivregress liml lw s expr tenure rns smsa (iq=med kww),r*内生解释变量检验quietly reg lw s iq expr tenure rns smsaestimates store olsquietly ivregress 2sls lw s expr tenure rns smsa (iq=med kww)estimates store ivhausman iv ols, constant sigmamoreestat endogenous (存在异方差的情形)*存在异方差情形下,GMM比2sls更有效率ivregress gmm lw s expr tenure rns smsa (iq=med kww)estat overidivregress gmm lw s expr tenure rns smsa (iq=med kww),igmm*将各种估计方法的结果存储在一张表中quietly ivregress gmm lw s expr tenure rns smsa (iq=med kww)estimates store gmmquietly ivregress gmm lw s expr tenure rns smsa (iq=med kww),igmmestimates store igmmestimates table gmm igmm第八章短面板的stata命令及实例(1)面板数据的设定xtset panelvar timevarencode country,gen(cntry) (将字符型变量转化为数字型变量)xtdesxtsumxttab varnamextline varname,overlay*实例use traffic.dta,clearxtset state yearxtdesxtsum fatal beertax unrate state yearxtline fatal(2)混合回归reg y x1 x2 x3,vce(cluster id)如:reg fatal beertax unrate perinck,vce(cluster state)estimates store ols对比:reg fatal beertax unrate perinck(3)固定效应xtreg y x1 x2 x3,fe vce(cluster id)xi:reg y x1 x2 x3 i.id,vce(cluster id) (LSDV法)xtserial y x1 x2 x3,output (一阶差分法,同时报告面板一阶自相关)estimates store FD*双向固定效应模型tab year, gen (year)xtreg fatal beertax unrate perinck year2-year7, fe vce (cluster state)estimates store FE_TWtest year2 year3 year4 year5 year6 year7(4)随机效应xtreg y x1 x2 x3,re vce(cluster id) (随机效应FGLS)xtreg y x1 x2 x3,mle (随机效应MLE)xttest0 (在执行命令xtreg, re 后执行,进行LM检验)(5)组间估计量xtreg y x1 x2 x3,be(6)固定效应还是随机效应:hausman testxtreg y x1 x2 x3,feestimates store fextreg y x1 x2 x3,reestimates store rehausman fe re,constant sigmamore (若使用了vce(cluster id),则无法直接使用该命令,解决办法详见P163)estimates table ols fe_robust fe_tw re be, b se (将主要回归结果列表比较)第九章长面板与动态面板(1)仅解决组内自相关的FGLSxtpcse y x1 x2 x3 ,corr(ar1) (具有共同的自相关系数)xtpcse y x1 x2 x3 ,corr(psar1) (允许每个面板个体有自身的相关系数)例题:use mus08cigar.dta,cleartab state,gen(state)gen t=year-62reg lnc lnp lnpmin lny state2-state10 t,vce(cluster state)estimates store OLSxtpcse lnc lnp lnpmin lny state2-state10 t,corr(ar1) (考虑存在组内自相关,且各组回归系数相同)estimates store AR1xtpcse lnc lnp lnpmin lny state2-state10 t,corr(psar1) (考虑存在组内自相关,且各组回归系数不相同)estimates store PSAR1xtpcse lnc lnp lnpmin lny state2-state10 t, hetonly (仅考虑不同个体扰动性存在异方差,忽略自相关)estimates store HETONL Yestimates table OLS AR1 PSAR1 HETONL Y, b se(2)同时处理组内自相关与组间同期相关的FGLSxtgls y x1 x2 x3,panels (option/iid/het/cor) corr(option/ar1/psar1) igls注:执行上述xtpcse、xtgls命令时,如果没有个体虚拟变量,则为随机效应模型;如果加上个体虚拟变量,则为固定效应模型。
STATA常用命令总结(34个含使用示例)
STATA常用命令总结(34个含使用示例)1. sum:计算变量的简要统计信息,如均值、标准差等。
示例:sum variable2. tabulate:生成变量的频数表。
示例:tabulate variable3. describe:显示数据集的基本信息,如变量名和数据类型。
示例:describe dataset4. drop:删除数据集中的变量。
示例:drop variable5. keep:保留数据集中的变量,删除其他变量。
示例:keep variable6. rename:重命名变量。
示例:rename variable newname7. gen:根据已有变量生成新的变量。
示例:gen newvar = expression8. egen:根据已有变量生成新的变量,可以使用更复杂的函数和运算符。
示例:egen newvar = function(variable)9. recode:对变量的取值进行重新编码。
示例:recode variable (oldvalues= newvalues) 10. dropif:根据条件删除观测。
示例:dropif condition11. keepif:根据条件保留观测。
示例:keepif condition12. sort:对数据集按指定变量进行排序。
示例:sort variable13. merge:将两个数据集按照共享变量合并。
示例:merge 1:1 variable using dataset214. reshape:将数据从宽格式转换为长格式或反之。
示例:reshape long var, i(id) j(year)15. regress:进行线性回归分析。
示例:regress dependent_var independent_vars 16. logistic:进行逻辑回归分析。
示例:logistic dependent_var independent_vars 17. probit:进行Probit回归分析。
STATA常用命令总结(34个含使用示例)
STATA常用命令总结(34个含使用示例)1. clear:清空当前工作空间中的数据。
示例:clear2. use:加载数据文件。
示例:use "data.dta"3. describe:查看数据文件的基本信息。
示例:describe4. summarize:统计数据的描述性统计量。
示例:summarize var1 var2 var35. tabulate:制作数据的列联表。
示例:tabulate var1 var26. scatter:绘制散点图。
示例:scatter x_var y_var7. histogram:绘制直方图。
示例:histogram var8. boxplot:绘制箱线图。
示例:boxplot var1 var29. ttest:进行单样本或双样本t检验。
示例:ttest var, by(group_var)10. regress:进行最小二乘法线性回归分析。
示例:regress dependent_var independent_var1 independent_var211. logistic:进行逻辑斯蒂回归分析。
示例:logistic dependent_var independent_var1 independent_var212. anova:进行方差分析。
示例:anova dependent_var independent_var13. chi2:进行卡方检验。
示例:chi2 var1 var214. correlate:计算变量之间的相关系数。
示例:correlate var1 var2 var315. replace:替换数据中的一些值。
示例:replace var = new_value if condition16. drop:删除变量或观察。
示例:drop var17. rename:重命名变量。
示例:rename old_var new_var18. generate:生成新变量。