stata命令总结
STATA常用命令大全
![STATA常用命令大全](https://img.taocdn.com/s3/m/eb80fe866529647d27285292.png)
STATA 常用命令大全调整变量格式:format x1 %10.3f ——将x1的列宽固定为10,小数点后取三位format x1 %10.3g ——将x1的列宽固定为10,有效数字取三位format x1 %10.3e ——将x1的列宽固定为10,采用科学计数法format x1 %10.3fc ——将x1的列宽固定为10,小数点后取三位,加入千分位分隔符format x1 %10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符format x1 %-10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符,加入“-”表示左对齐合并数据:use "C:\Documents and Settings\xks\桌面\2006.dta", clearmerge using "C:\Documents and Settings\xks\桌面\1999.dta"——将1999和2006的数据按照样本(observation)排列的自然顺序合并起来use "C:\Documents and Settings\xks\桌面\2006.dta", clearmerge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort——将1999和2006的数据按照唯一的(unique)变量id来合并,在合并时对id进行排序(sort)建议采用第一种方法。
对样本进行随机筛选:sample 50在观测案例中随机选取50%的样本,其余删除sample 50,count在观测案例中随机选取50个样本,其余删除查看与编辑数据:browse x1 x2 if x3>3 (按所列变量与条件打开数据查看器)edit x1 x2 if x3>3 (按所列变量与条件打开数据编辑器)数据合并(merge)与扩展(append)merge表示样本量不变,但增加了一些新变量;append表示样本总量增加了,但变量数目不变。
计量经济学stata命令汇总
![计量经济学stata命令汇总](https://img.taocdn.com/s3/m/35025827591b6bd97f192279168884868662b846.png)
计量经济学stata命令汇总1. 数据处理与描述性统计summarize 变量1 变量2…计算变量的均值、中位数等统计量tabulate 变量1 变量2…制表histogram 变量画单变量直方图scatter 变量1 变量2…画双变量散点图graph twoway 程序名变量1 变量2…绘制双变量图形sort 变量按照变量排序by 变量: 命令按照变量拆分数据并执行命令replace 变量=表达式替换变量中的值generate 新变量=表达式生成新变量egen 新变量=函数(变量) 生成新变量2. 回归分析regress 因变量自变量1 自变量2…普通最小二乘回归reg 相关变量,robust 异方差鲁棒性回归logit 因变量自变量1 自变量2…二元Logit模型probit 因变量自变量1 自变量2…二元Probit模型tobit 因变量自变量1 自变量2… 截尾变量(下界或上界)cens(下界或上界) 截尾Tobit模型heckman 因变量自变量1 自变量2… 难以观察到自变量矩阵决策过程变量名称=接收权值做二阶段回归Heckman选择模型pheckman 因变量自变量1 自变量2… 难以观察到自变量矩阵决策过程经验Bayes做二阶段回归Pooled Heckman选择模型xtset 变量1 变量2…指定面板数据xtreg 因变量自变量1 自变量2…, fe/be/fevd/arellano间隔估计xtlogit 因变量自变量1 自变量2…, fe面板Logit模型xtprobit 因变量自变量1 自变量2…, fe面板Probit模型3. 时间序列分析dfuller 变量单位根检验tsset 变量指定时间序列数据tsline 变量绘制时间序列图arma 阶数, lags(*laglist*) ARMA过程估计arima 阶数, lags(*laglist*) 差分阶数(*diff*) 现有模型(*model*) ARIMA模型估计arch hq/aic, lags(*laglist*) ARCH模型估计garch q=p o=r t=m, arch(q) garch(p) GARCH模型估计ivregress (2SLS)因变量自变量1(内生变量)编号=gmm/cluster(varname) 内生变量外生变量IV或2SLS回归分析4. 面板数据分析&横截面数据分析xtsum 等对面板数据的描述统计量xttest0 2个变量计算相对于H0的t值,考虑了异方差和面板数据结构(前提是两个变量符合随机效应或固定效应假设)xttobit 因变量自变量1 自变量2… 下界 cens(下界或上界)面板Tobit模型xtreg 因变量自变量1 自变量2…, fe/be/fevd/arellano面板回归模型xtlogit/xtprobit 因变量自变量1 自变量2…, fe面板分类模型5. 高级统计方法cluster 变量聚类分析pca 变量1 变量2…, components(4)主成分分析mvreg 因变量向量1 向量2…, clustervar(cluster)多元回归及聚类分析multilevel 因变量自变量1 自变量2…, mle 内部命令(通常是cov)多层线性模型分析glm 因变量自变量1 自变量2…, family(binomial) 连接函数(logit/probit) 难以观察到自变量(即随机拦截模型)其他选项广义线性模型分析heckprob/reg3 因变量自变量1 自变量2… 等随机效应模型分析。
stata命令总结
![stata命令总结](https://img.taocdn.com/s3/m/187b1112e97101f69e3143323968011ca300f705.png)
表2-1: 回归分析相关命令一览命令用途anova 方差和协方差分析heckman Heckman筛选模型intreg离散型变量模型,包括Tobit、cnreg 和intregivreg 工具变量法(IV 或2SLS)newey Newey-West 标准差设定下的回归prais 针对序列相关的P rais-W insten, Cochran e-Orcutt, or Hildret h-Lu 回归qreg 分量回归reg OLS 回归sw 逐步回归法reg3 三阶段最小二乘回归rreg 稳健回归(不同于方差稳健型回归,即White方法)sureg 似无相关估计svyheck man 调查数据的Heckman筛选模型svyintr eg 调查数据的间断变量回归svyregr ess 调查数据的线性回归tobit Tobit 回归treatre g treatme nt 效应模型truncre g 截断回归表2-2: 时间序列命令一览命令用途clemao1允许结构突变的单位根检验zandrew sdfullerdfglspperroncoin 单方程协整检验dwstat参考dwstat2 , durbina2durbinh表2-3: Panel Data 模型相关命令一览I命令模型统计描述相关命令:xtdes 变量类型,数据类型描述xtsum 基本统计量xttab 按表格形式列示xtpatte rn 面板数据的模式估计相关命令:xtreg 面板数据模型(固定效应、随机效应)xtregar含有AR(1) 干扰项的固定效应和随机效应面板数据模型xtgls 截面-时序混合模型,可处理异方差、组内序列相关和组间相关性xtpcseOLS or Prais-Winsten modelswith panel-correct ed standar d errorsxtrchhHildret h-Houck randomcoeffic ientsmodelsxtivreg面板模型的工具变量或两阶段最小二乘法估计xtabond Arellan o-Bond(1991) 线性动态面板数据模型估计xtabond2 Arellan o-Bover(1995) 系统GMM 动态面板数据模型估计xttobit Tobit 随机效应面板模型xtintre g Random-effects interva l data regress ion modelsxtlogit Fe, Re, Pa logit modelsxtprobi t Re, Pa probitmodelsxtclogl og Re, Pa cloglog modelsxtpoiss on Fe, Re, Pa Poisson modelsxtnbreg Fe, Re, Pa negativ e binomia l modelsxtfront ier 面板随机前沿模型xthtylo r Hausman-Taylorestimat or for error-compone nts models表2-4: Panel Data 模型相关命令一览II命令模型假设检验相关:test Wald 检验,如时间效应联合显著性检验xttest0随机效应检验xttest1面板序列相关检验xttest2 adsxtseria l Wooldri dge 一阶序列相关检验xtab Arellan o 面板一阶序列相关检验hausman Hausman检验面板单位根和协整相关:xtunitstata提供的检验方法ipshinIPS(2003)面板单位根检验levilin Levin,Lin和Chu(LLC, 2002)面板单位根检验madfull er Sarno-Taylor(1998) 面板单位根检验xtfishe r Maddala和Wu(1999),基于P 值的面板单位根检验表2-5: Post-estimat ion Command s命令名称用途adjust列示预测结果的均质,适于多种回归分析,可分组列示estimat es 估计结果的存储、再显示、列表比较等hausman Hausman模型识别检验lincom获得参数的线性组合,在Logit模型中可以获得系数线性组合的OR 值linktes t 但方程link识别检验,用y 对O y 和O y2 回归lrtest似然比(LR)检验mfx 计算边际效应和弹性系数nlcom 系数的非线性组合predict获得拟合值、残差等predict nl 获得非线性估计的拟合值、残差等test 线性约束的假设检验,Wald 检验testnl非线性约束的假设检验vce 列示参数估计值的方差-协方差矩阵表2-6: 二维图种类一览图形种类简单描述scatter scatter plotline line plotconnect ed connect ed-line plotscatter i scatter with immedia te argumen tsarea line plot with shadingbar bar plotspike spike plotdroplin e droplin e plotdot dot plotrarea range plot with area shadingrbar range plot with barsrspikerange plot with spikesrcap range plot with cappedspikesrcapsym range plot with spikescappedwith symbols rscatte r range plot with markersrline range plot with linesrconnec ted range plot with lines and markerstslinetime-seriesplottsrline time-seriesrange plotmband median-band line plotmspline splineline plotlowessLOWESSline plotlfit linearpredict ion plotqfit quadrat ic predict ion plotfpfit fractio nal polynom ial plotlfitcilinearpredict ion plot with CIsqfitciquadrat ic predict ion plot with CIsfpfitci fractio nal polynom ial plot with CIsfunctio n line plot of functio nhistogr am histogr am plotkdensit y kerneldensity plot表2-7: 二维图选项一览选项类别简单描述added line options draw lines at specifi ed y or x valuesadded text optiondisplay text at specifi ed (y,x) value axis options labels, ticks, grids, log scalestitle options titles, subtitl es, notes, caption slegendoptionlegendexplain ing what means what scale(#) resizetext, markers, and line widthsregionoptions outlini ng, shading, aspectratio, sizeaspectoptionconstra in aspectratio of plot regionscheme(schemen ame) overall lookby(varlist, ...) repeatfor subgrou psnodrawsuppres s display of graphname(name, ...) specify name for graphsaving(filenam e, ...) save graph in fileadvance d options difficu lt to explain表2-9: 模拟分析相关命令一览命令用途备注抽样相关:corr2da ta 产生具有指定相关性的数据仅适用于模拟相关分析drawnor minvnorm(uniform()) 产生服从标准正态分布的随机数函数,可调节均值和方差matunif orm(r,c) 产生均匀分布函数sample从现有数据中进行非重复随机抽样参考bsamplesim arma 产生服从ARI MA 过程的随机变量需要下载Bootstr ap 相关:bootstr apbsbstatbsampleMC 相关:simulat e MC simulat ionjknife类似于MCpermutepostfil e 存储MC 的结果statsbyexp list。
Stata常用15条命令
![Stata常用15条命令](https://img.taocdn.com/s3/m/38da598bf12d2af90242e6af.png)
【命令1】:导入数据一般做实证分析使用的是excel中的数据,其后缀名为.xls,需要将其修改为.csvinsheet using name.csv, clear【命令2】:删除重复变量sort var1 var2duplicatesdrop var1 var2, force【命令3】:合并数据use data1, clearmerge m:m var1 var2 using data2drop if _merge==2drop if _merge==1drop _merge【命令4】:描述性统计分析tabstat var1var2, stat(n min mean median p25 p75 maxsd), if groupvar==0 or 1输出到word中:logout, save(name) word replace: tabstat var, stat(n min mean p50 max sd) col(stat)f(%9.2g)【命令5】:结果输出安装ssc install estout, replace单个回归reg y xesttab using name.rtf, compress nogap r2 ar2 star(* 0.1 ** 0.05 *** 0.01)多个回归一起reg y x1est store m1reg y x2est store m2esttab m1 m2 using name.rtf, compress nogap r2 ar2 star(* 0.1 ** 0.05 *** 0.01)【命令6】生成虚拟变量tab year, gen(year)tab industry, gen(industry)【命令7】数据缩尾处理findit winsor2之后安装winsor2 varname, replace cut(1 99)【命令8】异方差检验怀特检验ssc install whitetstreg y x1 x2estat imtest, white处理:“OLS+稳健标准差”reg y x1 x2 x3, robust【命令9】 DW检验gen id=_ntsset idestat dwatson【命令10】计算两个日期之间的间隔天数gen td=date(trading_date,'YMD')gen ed=date(eventdate,'YMD')form td ed %tdgen d=ed-td【命令11 】生成滞后、差分数据tsset code yeargen newvarname=l.varnamegen newvarname=d.varname【命令12】多重共线检验之方差膨胀因子reg y x1 x2 x3vif【命令13】多重共线修正之逐步回归stepwise, pe(0.1): reg y x【命令14】检验是否遗漏高次项reg y xestat ovtest或者estat ovtest, rhs【命令15】样本检验两样本均值T检验ttest var, by(groupvar)两样本中位数Z检验ranksum var, by(groupvar)。
必须记住的Stata常用命令
![必须记住的Stata常用命令](https://img.taocdn.com/s3/m/cc44c1179b89680202d825c8.png)
必须记着的时常使用下令之阳早格格创做
请记着底下那些时常使用的基原下令.记着那些下令之后,当没有知其简直用法时,不妨用help去觅供助闲.
必须记着的常有下令
需要助闲
•help 助闲
•net search 搜集助闲
•search 搜集觅供助闲
加进某路径
•cd
设定内存
•set memory 20m 树立STATA的内存空间为20m
挨启战死存数据
•clear 浑空内存数据
•use 挨启STATA方法的数据文献
•compress 将内存中的数据压缩
•save 死存内存中的数据
导进数据
•input 录进数据
•edit 编写数据
•infile 导进数据
•infix 导进数据
•insheet 导进数据
沉整数据
•append 将有相共截止的数据纵背拼交(瞅察值拼交)
•merge 将二个数据文献横背拼交
•xpose 数据转置
•reshape
•generate 死成新的数据
•egen 死成新的数据
•rename 变量沉下令
•drop 简略变量或者瞅察值
•keep 死存变量或者瞅察值
•sort 对于瞅察值按从小到大程序沉新排列
•encode 数值型数据变换为字符型数据。
stata命令总结
![stata命令总结](https://img.taocdn.com/s3/m/ecdabed933d4b14e85246858.png)
表2-1: 回归分析相关命令一览命令用途anova 方差和协方差分析heckman Heckman 筛选模型intreg 离散型变量模型,包括Tobit 、cnreg 和intregivreg 工具变量法(IV 或2SLS)newey Newey-West 标准差设定下的回归prais 针对序列相关的Prais-Winsten, Cochrane-Orcutt, or Hildreth-Lu 回归qreg 分量回归reg OLS 回归sw 逐步回归法reg3 三阶段最小二乘回归rreg 稳健回归(不同于方差稳健型回归,即White 方法)sureg 似无相关估计svyheckman 调查数据的Heckman 筛选模型svyintreg 调查数据的间断变量回归svyregress 调查数据的线性回归tobit Tobit 回归treatreg treatment 效应模型truncreg 截断回归表2-2: 时间序列命令一览命令用途clemao1 允许结构突变的单位根检验zandrewsdfullerdfglspperroncoin 单方程协整检验dwstat 参考dwstat2 , durbina2durbinh表2-3: Panel Data 模型相关命令一览I命令模型统计描述相关命令:xtdes 变量类型,数据类型描述xtsum 基本统计量xttab 按表格形式列示xtpattern 面板数据的模式估计相关命令:xtreg 面板数据模型(固定效应、随机效应)xtregar 含有AR(1) 干扰项的固定效应和随机效应面板数据模型xtgls 截面-时序混合模型,可处理异方差、组内序列相关和组间相关性xtpcse OLS or Prais-Winsten models with panel-corrected standard errorsxtrchh Hildreth-Houck random coefficients modelsxtivreg 面板模型的工具变量或两阶段最小二乘法估计xtabond Arellano-Bond(1991) 线性动态面板数据模型估计xtabond2 Arellano-Bover(1995) 系统GMM 动态面板数据模型估计xttobit Tobit 随机效应面板模型xtintreg Random-effects interval data regression modelsxtlogit Fe, Re, Pa logit modelsxtprobit Re, Pa probit modelsxtcloglog Re, Pa cloglog modelsxtpoisson Fe, Re, Pa Poisson modelsxtnbreg Fe, Re, Pa negative binomial modelsxtfrontier 面板随机前沿模型xthtylor Hausman-Taylor estimator for error-components models表2-4: Panel Data 模型相关命令一览II命令模型假设检验相关:test Wald 检验,如时间效应联合显著性检验xttest0 随机效应检验xttest1 面板序列相关检验xttest2 adsxtserial Wooldridge 一阶序列相关检验xtab Arellano 面板一阶序列相关检验hausman Hausman 检验面板单位根和协整相关:xtunit stata提供的检验方法ipshin IPS(2003)面板单位根检验levilin Levin,Lin和Chu(LLC, 2002)面板单位根检验madfuller Sarno-Taylor(1998) 面板单位根检验xtfisher Maddala和Wu(1999),基于P 值的面板单位根检验表2-5: Post-estimation Commands命令名称用途adjust 列示预测结果的均质,适于多种回归分析,可分组列示estimates 估计结果的存储、再显示、列表比较等hausman Hausman 模型识别检验lincom 获得参数的线性组合,在Logit 模型中可以获得系数线性组合的OR 值linktest 但方程link 识别检验,用y 对O y 和O y2 回归lrtest 似然比(LR)检验mfx 计算边际效应和弹性系数nlcom 系数的非线性组合predict 获得拟合值、残差等predictnl 获得非线性估计的拟合值、残差等test 线性约束的假设检验,Wald 检验testnl 非线性约束的假设检验vce 列示参数估计值的方差-协方差矩阵表2-6: 二维图种类一览图形种类简单描述scatter scatterplotline line plotconnected connected-line plotscatteri scatter with immediate argumentsarea line plot with shadingbar bar plotspike spike plotdropline dropline plotdot dot plotrarea range plot with area shadingrbar range plot with barsrspike range plot with spikesrcap range plot with capped spikesrcapsym range plot with spikes capped with symbols rscatter range plot with markersrline range plot with linesrconnected range plot with lines and markerstsline time-series plottsrline time-series range plotmband median-band line plotmspline spline line plotlowess LOWESS line plotlfit linear prediction plotqfit quadratic prediction plotfpfit fractional polynomial plotlfitci linear prediction plot with CIsqfitci quadratic prediction plot with CIsfpfitci fractional polynomial plot with CIsfunction line plot of functionhistogram histogram plotkdensity kernel density plot表2-7: 二维图选项一览选项类别简单描述added line options draw lines at specified y or x values added text option display text at specified (y,x) value axis options labels, ticks, grids, log scalestitle options titles, subtitles, notes, captionslegend option legend explaining what means what scale(#) resize text, markers, and line widthsregion options outlining, shading, aspect ratio, sizeaspect option constrain aspect ratio of plot regionscheme(schemename) overall lookby(varlist, ...) repeat for subgroupsnodraw suppress display of graphname(name, ...) specify name for graphsaving(filename, ...) save graph in fileadvanced options difficult to explain表2-9: 模拟分析相关命令一览命令用途备注抽样相关:corr2data 产生具有指定相关性的数据仅适用于模拟相关分析drawnorminvnorm(uniform()) 产生服从标准正态分布的随机数函数,可调节均值和方差matuniform(r,c) 产生均匀分布函数sample 从现有数据中进行非重复随机抽样参考bsamplesim arma 产生服从ARIMA 过程的随机变量需要下载Bootstrap 相关:bootstrapbsbstatbsampleMC 相关:simulate MC simulationjknife 类似于MCpermutepostfile 存储MC 的结果statsbyexp list。
stata常用命令总结
![stata常用命令总结](https://img.taocdn.com/s3/m/2657afc1760bf78a6529647d27284b73f24236ff.png)
Stata常用命令总结Stata是一种统计分析软件,广泛用于社会科学、经济学、生物医学等领域的数据分析。
它具有丰富的功能和灵活的数据处理能力,能够进行各种统计分析、数据可视化和模型建立。
本文将总结Stata的常用命令,包括重要观点、关键发现和进一步思考,帮助读者更好地理解和使用Stata。
一、数据导入和处理e命令:用于导入Stata数据文件(.dta)。
2.import命令:用于导入其他格式的数据文件(如Excel、CSV等)。
3.save命令:用于保存当前数据文件。
4.drop命令:用于删除变量或观察值。
5.keep命令:用于保留指定的变量或观察值。
重要观点:在数据导入和处理阶段,要注意数据的完整性和准确性。
需要检查数据的缺失值、异常值和数据类型,做好数据清洗和预处理工作。
二、数据描述和统计分析1.summarize命令:用于计算变量的描述性统计量,如均值、标准差、最大值、最小值等。
2.tabulate命令:用于制作交叉表和列联表。
3.correlate命令:用于计算变量之间的相关系数。
4.regress命令:用于进行线性回归分析。
5.logit命令:用于进行二分类的逻辑回归分析。
重要观点:在进行数据描述和统计分析时,要根据研究问题选择合适的方法和指标。
同时要注意解释统计结果的意义,避免过度解读和误导。
三、数据可视化1.histogram命令:用于绘制直方图。
2.scatter命令:用于绘制散点图。
3.twoway命令:用于绘制多种类型的图形,如线图、柱状图、饼图等。
4.graph export命令:用于将图形导出为图片文件。
重要观点:数据可视化是数据分析的重要手段,能够直观地展示数据的分布和关系。
在进行数据可视化时,要选择合适的图形类型和参数,使图形简洁明了,易于理解和解释。
四、面板数据分析1.xtset命令:用于设置面板数据的时间和单位。
2.xtreg命令:用于进行面板数据的固定效应或随机效应模型分析。
stata最常用命令大全
![stata最常用命令大全](https://img.taocdn.com/s3/m/e0c6abc3370cba1aa8114431b90d6c85ec3a889f.png)
statasave命令FileSave A s例1. 表1.为某一降压药临床试验数据,试从键盘输入S tata,并保存为S tata格式文件。
STATA数据库的维护排序SORT变量名1 变量名2……变量更名r ename 原变量名新变量名STAT A数据库的维护删除变量或记录drop x1 x2 /* 删除变量x1和x2d rop x1-x5/* 删除数据库中介于x1和x5间的所有变量(包括x1和x5)drop if x<0 /* 删去x1<0的所有记录drop in 10/12 /* 删去第10~12个记录drop if x==. /* 删去x为缺失值的所有记录drop if x==.|y==. /* 删去x或y之一为缺失值的所有记录dropif x==.&y==. /* 删去x和y同时为缺失值的所有记录drop _all /* 删掉数据库中所有变量和数据STATA的变量赋值用generat e产生新变量gen erate 新变量=表达式genera te bh=_n /* 将数据库的内部编号赋给变量bh。
gener ate group=int((_n-1)/5)+1 /* 按当前数据库的顺序,依次产生5个1,5个2,5个3……。
直到数据库结束。
generate block=mod(_n,6) /* 按当前数据库的顺序,依次产生1,2,3,4,5,0。
gener ate y=log(x) if x>0/* 产生新变量y,其值为所有x>0的对数值log(x),当x<=0时,用缺失值代替。
e gen产生新变量s et obs 12egen a=seq() /*产生1到N的自然数egenb=seq(),b(3) /*产生一个序列,每个元素重复#次egen c=seq(),to(4) /*产生多个序列,每个序列从1到#egen d=se q(),f(4)t(6) /*产生多个序列,每个序列从#1到#2encode字符变量名,gen(新数值变量名)作用:将字符型变量转化为数值变量。
stata常用命令总结
![stata常用命令总结](https://img.taocdn.com/s3/m/8770dd34ae45b307e87101f69e3143323968f57f.png)
说明:(1)在最前面加上“*”号表示该行为注释语句,STATA 将只显示不执行;(2)在一个命令的中间加入注释,要用:/*注释内容*/(3)对较长的命令或者为便于阅读,将一行命令写成几行时,用///来分开(4)在命令行的后面加入注释://注释语句将一部分内容变成注释内容,前后用/*被注释掉的语句*/ */about *查看所安装的Stata所属版本update all *更新stata命令库sysuse *打开系统自带的示例数据use *打开用户自己的统计数据,默认打开C:\data或D:\data中的数据use"D:\abc" *打开其他文件夹的数据,等价于菜单file--open--abc insheet using D:\1.csv, clear *导入其他格式的数据insheet using D:\1.csv, double clear *对导入数据的精度要求很高outsheet using myresult.txt *导出数据outsheet using myresult.asc *导出数据*此时建立的文件myresult.txt第一行为变量名,第2~6 行为变量值。
变量列间用Tab键分隔。
如果不希望在第一行存储变量名,则可以使用nonames 选项。
如果文件已经存在,则需要使用replace 选项outsheet using myresult.asc, nonamesoutsheet using myresult.asc, nonames replaceclear //清空内存中现有数据describe //描述数据概貌edit *利用数据编辑器进行数据编辑list *类似于edit,但只能显示不能修改数据display *显示计算结果dispay log(2) *当计算器用drop_all *drop data from memoryset obs *定义样本个数(使用前一定要用drop或clear命令清空当前样本)summarize y *求某个变量的观察值个数、平均值、标准差、最小值和最大值summarize y,detail *显示某个变量更多的指标(峰度、偏度等)scatter y x *生成两个变量的散点图line y x *生成两个变量的折线图*用双Y 轴,将降雨量用左纵轴表示,将单产用右纵轴表示。
stata命令总结
![stata命令总结](https://img.taocdn.com/s3/m/0a856670492fb4daa58da0116c175f0e7dd11962.png)
stata命令总结.docStata命令总结引言Stata是一款强大的统计分析软件,广泛应用于经济学、社会学、医学等领域。
Stata命令是进行数据处理、统计分析、图形展示等操作的基础。
本文将对Stata中常用的命令进行总结,以帮助用户更高效地使用Stata进行数据分析。
Stata基础命令1. 数据管理导入数据:import excel, import delimited导出数据:export excel, export delimited数据集保存:save, saveold2. 变量管理创建变量:generate, egen修改变量:replace删除变量:drop3. 数据清洗数据类型转换:destring, encode, format缺失值处理:mvdecode, drop if missing()异常值检测:tabulate, summarize描述性统计分析1. 基本统计量描述性统计:summarize频率统计:tabulate相关系数:correlate2. 分组统计分组描述:bysort, xtsum 分组汇总:collapse3. 数据转换数据长格式:reshape long 数据宽格式:reshape wide 推断性统计分析1. 假设检验t检验:ttest方差分析:anova卡方检验:tabulate, chi2 2. 回归分析线性回归:regress逻辑回归:logit泊松回归:poisson3. 时间序列分析时间序列描述:tsreport自回归模型:arima高级统计分析1. 面板数据分析面板数据描述:xtset, xtsum固定效应模型:xtreg fe随机效应模型:xtreg re2. 多层次模型多层次线性模型:xtmelogit3. 结构方程模型结构方程模型:sem绘图与可视化1. 基本图形散点图:scatter线图:line柱状图:bar2. 高级图形箱线图:boxplot直方图:histogram核密度估计图:kdensity3. 交互式图形交互式图形:twoway, graph edit编程与自动化1. 循环与条件语句循环:foreach, forvalues条件语句:if, else2. 脚本与批处理脚本编写:do-file批处理:batch3. 宏与用户定义命令宏:macro用户定义命令:program define结语Stata命令的掌握是进行高效数据分析的前提。
stata命令大全(全)
![stata命令大全(全)](https://img.taocdn.com/s3/m/1fbed347227916888486d7c3.png)
********* 面板数据计量分析与软件实现 *********说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI 溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel 格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
STATA最常用命令大全
![STATA最常用命令大全](https://img.taocdn.com/s3/m/b8fd0c3c763231126edb1162.png)
statasave命令FileSave As例1. 表1.为某一降压药临床试验数据,试从键盘输入Stata,并保存为Stata格式文件。
STATA数据库的维护排序SORT 变量名1 变量名2 ……变量更名rename 原变量名新变量名STATA数据库的维护删除变量或记录drop x1 x2 /* 删除变量x1和x2drop x1-x5 /* 删除数据库中介于x1和x5间的所有变量(包括x1和x5)drop if x<0 /* 删去x1<0的所有记录drop in 10/12 /* 删去第10~12个记录drop if x==. /* 删去x为缺失值的所有记录drop if x==.|y==. /* 删去x或y之一为缺失值的所有记录drop if x==.&y==. /* 删去x和y同时为缺失值的所有记录drop _all /* 删掉数据库中所有变量和数据STATA的变量赋值用generate产生新变量generate 新变量=表达式generate bh=_n /* 将数据库的内部编号赋给变量bh。
generate group=int((_n-1)/5)+1 /* 按当前数据库的顺序,依次产生5个1,5个2,5个3……。
直到数据库结束。
generate block=mod(_n,6) /* 按当前数据库的顺序,依次产生1,2,3,4,5,0。
generate y=log(x) if x>0 /* 产生新变量y,其值为所有x>0的对数值log(x),当x<=0时,用缺失值代替。
egen产生新变量set obs 12egen a=seq() /*产生1到N的自然数egen b=seq(),b(3) /*产生一个序列,每个元素重复#次egen c=seq(),to(4) /*产生多个序列,每个序列从1到#egen d=seq(),f(4)t(6) /*产生多个序列,每个序列从#1到#2encode 字符变量名,gen(新数值变量名)作用:将字符型变量转化为数值变量。
stata常用命令总结
![stata常用命令总结](https://img.taocdn.com/s3/m/b4d9d72c0a4e767f5acfa1c7aa00b52acfc79c9e.png)
stata常用命令总结Stata是一种统计分析软件,常用于数据处理、数据分析和统计建模等领域。
以下是一些常用的Stata命令的总结:1. 数据加载与保存:- `use`:加载Stata数据文件。
- `import`:导入其他文件格式的数据。
- `save`:保存当前数据文件。
- `export`:将数据导出到其他文件格式。
2. 数据处理与变量操作:- `generate`:创建新变量。
- `replace`:替换变量值。
- `drop`:删除变量或观测。
- `rename`:重命名变量。
- `sort`:对数据进行排序。
- `merge`:合并数据集。
3. 描述性统计与数据分析:- `summarize`:计算变量的描述性统计量。
- `tabulate`:制表统计。
- `regress`:进行线性回归分析。
- `logit`:进行Logistic回归分析。
- `anova`:进行方差分析。
- `ttest`:进行双样本t检验。
4. 绘图与可视化:- `histogram`:绘制直方图。
- `scatter`:绘制散点图。
- `line`:绘制折线图。
- `boxplot`:绘制箱线图。
- `graph combine`:组合多个图形。
5. 循环与条件语句:- `forvalues`:进行循环操作。
- `if`:根据条件进行数据筛选。
- `foreach`:对变量进行循环操作。
这只是一些常用的Stata命令的总结,Stata还有很多其他强大的功能和命令。
你可以参考Stata官方文档或其他相关资源,深入了解更多命令和用法。
stata命令总结
![stata命令总结](https://img.taocdn.com/s3/m/195e49350812a21614791711cc7931b765ce7b14.png)
表2-1: 回归剖析有关命令一览命令用途anova 方差和协方差剖析heckman Heckman 挑选模型intreg 失散型变量模型,包含Tobit 、 cnreg 和 intregivreg 工具变量法( IV 或 2SLS)newey Newey-West 标准差设定下的回归prais 针对序列有关的 Prais-Winsten, Cochrane-Orcutt, or Hildreth-Lu 回归qreg 重量回归reg OLS 回归sw 逐渐回归法reg3 三阶段最小二乘回归rreg 稳重回归(不一样于方差稳重型回归,即White 方法)sureg 似无有关预计svyheckman 检查数据的 Heckman 挑选模型svyintreg 检查数据的中断变量回归svyregress 检查数据的线性回归tobit Tobit回归treatreg treatment 效应模型truncreg 截断回归表2-2: 时间序列命令一览命令用途clemao1 同意构造突变的单位根查验zandrewsdfullerdfglspperroncoin 单方程协整查验dwstat 参照 dwstat2 , durbina2durbinh表2-3: Panel Data 模型有关命令一览 I命令模型统计描绘有关命令:xtdes 变量种类,数据种类描绘xtsum 基本统计量xttab 按表格形式列示xtpattern 面板数据的模式预计有关命令:xtreg 面板数据模型(固定效应、随机效应)xtregar 含有 AR(1) 扰乱项的固定效应和随机效应面板数据模型xtgls 截面 -时序混淆模型,可办理异方差、组内序列有关和组间有关性xtpcse OLS or Prais-Winsten models with panel-corrected standard errors精选文库xtrchh Hildreth-Houck random coefficients models xtivreg面板模型的工具变量或两阶段最小二乘法预计 xtabondArellano-Bond(1991) 线性动向面板数据模型预计xtabond2 Arellano-Bover(1995) 系统 GMM 动向面板数据模型预计xttobit Tobit 随机效应面板模型xtintreg Random-effects interval data regression modelsxtlogit Fe, Re, Pa logit modelsxtprobit Re, Pa probit modelsxtcloglog Re, Pa cloglog modelsxtpoisson Fe, Re, Pa Poisson modelsxtnbreg Fe, Re, Pa negative binomial modelsxtfrontier面板随机前沿模型xthtylor Hausman-Taylor estimator for error-components models表2-4: Panel Data 模型有关命令一览 II命令模型假定查验有关:test Wald 查验,如时间效应结合明显性查验xttest0 随机效应查验xttest1 面板序列有关查验xttest2 adsxtserial Wooldridge一阶序列有关查验xtab Arellano 面板一阶序列有关查验hausman Hausman 查验面板单位根和协整有关:xtunit stata 供给的查验方法ipshin IPS(2003) 面板单位根查验levilin Levin , Lin 和 Chu(LLC, 2002) 面板单位根查验madfuller Sarno-Taylor(1998)面板单位根查验xtfisher Maddala 和 Wu(1999), 鉴于 P 值的面板单位根查验表2-5: Post-estimation Commands命令名称用途adjust 列示展望结果的均质,适于多种回归剖析,可分组列示estimates 预计结果的储存、再显示、列表比较等 hausmanHausman 模型辨别查验lincom 获取参数的线性组合,在 Logit 模型中能够获取系数线性组合的 OR 值linktest 但方程 link 辨别查验,用 y 对Oy 和Oy2回归lrtest 似然比( LR )查验mfx 计算边沿效应和弹性系数nlcom 系数的非线性组合predict 获取拟合值、残差等predictnl 获取非线性预计的拟合值、残差等test 线性拘束的假定查验,Wald 查验精选文库testnl 非线性拘束的假定查验vce 列示参数预计值的方差-协方差矩阵表2-6: 二维图种类一览图形种类简单描绘scatter scatterplotline line plotconnected connected-line plotscatteri scatter with immediate argumentsarea line plot with shadingbar bar plotspike spike plotdropline dropline plotdot dot plotrarea range plot with area shadingrbar range plot with barsrspike range plot with spikesrcap range plot with capped spikesrcapsym range plot with spikes capped with symbolsrscatter range plot with markersrline range plot with linesrconnected range plot with lines and markerstsline time-series plottsrline time-series range plotmband median-band line plotmspline spline line plotlowess LOWESS line plotlfit linear prediction plotqfit quadratic prediction plotfpfit fractional polynomial plotlfitci linear prediction plot with CIsqfitci quadratic prediction plot with CIsfpfitci fractional polynomial plot with CIsfunction line plot of functionhistogram histogram plotkdensity kernel density plot表2-7: 二维图选项一览选项类型简单描绘added line options draw lines at specified y or x valuesadded text option display text at specified (y,x) valueaxis options labels, ticks, grids, log scalestitle options titles, subtitles, notes, captionslegend option legend explaining what means whatscale(#) resize text, markers, and line widths精选文库region options outlining, shading, aspect ratio, sizeaspect option constrain aspect ratio of plot regionscheme(schemename) overall lookby(varlist, ...) repeat for subgroupsnodraw suppress display of graphname(name, ...) specify name for graphsaving(filename, ...) save graph in fileadvanced options difficult to explain表2-9: 模拟剖析有关命令一览命令用途备注抽样有关:corr2data 产生拥有指定有关性的数据仅合用于模拟有关剖析drawnorminvnorm(uniform())产生听从标准正态散布的随机数函数,可调理均值和方差matuniform(r,c)产生平均散布函数sample 从现有数据中进行非重复随机抽样参照 bsamplesim arma 产生听从 ARIMA 过程的随机变量需要下载Bootstrap 有关:bootstrapbsbstatbsampleMC 有关:simulate MC simulationjknife近似于MCpermutepostfile 储存 MC 的结果statsbyexp list。
(完整)stata命令总结,推荐文档
![(完整)stata命令总结,推荐文档](https://img.taocdn.com/s3/m/831d844402020740be1e9b80.png)
stata11常用命令注:JB统计量对应的p大于0.05,则表明非正态,这点跟sktest和swilk 检验刚好相反;dta为数据文件;gph为图文件;do为程序文件;注意stata要区别大小写;不得用作用户变量名:_all _n _N _skip _b _coef _cons _pi _pred _rc _weight doublefloat long int in if using with命令:读入数据一种方式input x y1 42 5.53 6.24 7.75 8.5endsu/summarise/sum x 或 su/summarise/sum x,d对分组的描述:sort groupby group:su x%%%%%tabstat economy,stats(max) %返回变量economy的最大值%%stats括号里可以是:mean,count(非缺失观测值个数),sum(总和),max,min,range,%% sd,var,cv(变易系数=标准差/均值),skewness,kurtosis,median,p1(1%分位%% 数,类似地有p10, p25, p50, p75, p95, p99),iqr(interquantile range = p75 – p25)_all %描述全部_N 数据库中观察值的总个数。
_n 当前观察值的位置。
_pi 圆周率π的数值。
listgen/generate %产生数列egen wagemax=max(wage)clearuseby(分组变量)set more 1/0count %计数gsort +x (升序)gsort -x (降序)sort x 升序;并且其它变量顺序会跟着改变label var y "消费" %添加标签describe %描述数据文件的整体,包括观测总数,变量总数,生成日期,每个变量的存储类型(storage type),标签(label)replace x5=2*y if x!=3 %替换变量值replace age = 25 in 107 %令第107个观测中age为25rename y2 u %改变变量名drop in 2 %删除全部变量的第2行drop if x==. 删去x为缺失值的所有记录keep if x<2 %保留小于2的数据,其余变量跟随x改变keep in 2/10 %保留第2-10个数keep x1-x5 %保留数据库中介于x1和x5间的所有变量 (包括x1和x5),其余变量删除ci x1 x2,by(group) %算出置信区间,不过先前对group要先排序,即sort group;%by的意思逐个进行cii 12 3.816667 0.2710343, level(90) %已知均值,方差,计算90%的置信区间cii 10 2 %obs=10,mean=2,以二项分布形式,计算置信区间centile x,centile(2.5 25 50 75 97.5) %取分位数correlate/corr x y z %相关系数pwcorr x y,sig %给出原假设r=0的命令%如果变量非服从正态分布,则spearman x yregress/reg mean year %回归方程建立 reg y x,noconstant %无常数项predict meanhat %预测拟合值predict e,residual %得到残差estat hettest % 异方差检验dwstat % Durbin-Watson自相关检验vif % 方差膨胀因子logit y x1 x2 x3 (y取0或1,是被解释变量,x1-x3是被解释变量) %logit 回归probit y x1 x2 x3 (y取0或1,是被解释变量,x1-x3是被解释变量) %probit 回归tobit y x1 x2 x3 (y取值在0和1之间,是被解释变量,x1-x3是被解释变量) %tobit回归sktest e %残差正态性检验 p>0.05则接受原假设,即服从正态分布;%% sktest是基于变量的偏度和斜度(正态分布的偏度为0,斜度为3)swilk x %基于Shapiro-Wilk检验%%p值越小,越倾向于拒绝零假设,也就是变量越有可能不服从正态分布xi %生成虚拟变量tabulat gender,summ(math) %用gender指标对math进行分类,返回两类math 的mean、std、freqtabulate=tab %gen f=int((shengao-164)/3)*3+164 组距为3tabulate 变量名 [, generate(新变量) missing nofreq nolabel plot ] %%%%%generate(新变量) // 按分组变量产生哑变量nofreq // 不显示频数nolabel // 不显示数值标记plot // 显示各组频数图示missing // 包含缺失值cell // 显示各小组的构成比(小组之和为 1) column // 按栏显示各组之构成(各栏总计为 1)row // 按行显示各组之构成(各行总计为 1) %%%%%求和,求最小?mod(x,y) %求余数means %返回三种平均值di normprob(1.96)di invnorm(0.05)di binomial(20,5,0.5)di invbinomial(20,5,0.5)di tprob(10,2)di invt(10.0.05)di fprob(3,27,1)di invfprob(3,27,0.05)di chi2(3,5)di invchi2(3,0.05)stack x y z,into(e) %把三列合成一列xpose,clear %矩阵转置append using d:\0917.dta %把已打开的文件(x y z)跟0917里的(x y z)合并,是竖向合并,即观察值合并;merge using D:\0917.dta %把已打开的文件(x y z)跟0917里的(a b)合并,是横向合并,即变量合并;format x %9.2e %科学记数format x %9.2f %2位小数%产生随机数%1 产生20个在(0,1)区间上均匀分布的随机数uniform()set seed 100set obs 20gen r=uniform()list%clear 清除内存set seed 200 设置种子数为 200set obs 20 设置样本量为 20range no 1 20 建立编号 1 至 20gen r=uniform() 产生在(0,1)均匀分布的随机数gen group=1 设置分组变量 group 的初始值为 1sort r 对随机数从小到大排序replace group=2 in 11/20 设置最大的 10 个随机数所对应的记录为第2组,即:最小的10个随机数所对应的记录为第1组sort no 按照编号排序list 显示随机分组的结果也可以list if group==1和list no if group==1%2 产生10个服从正态分布N(100,6^2)的随机数invnorm(uniform())*sigma+u clear 清除内存set seed 200 设置种子数为 200set obs 10 设置样本量为 10 gen x=invnorm(uniform())*6+100 产生服从 N(100,6^2)的随机数list画图注意有些图前面要加histogram 直方图line 折线图scatter 散点图scatter y x,c(l) s(d) b2("(a)")graph twoway connected y x 连点图graph bar (sum) var2,over(var1) blabel(total) %条形图. graph bar p52 p72,by(d). graph bar p52 p72,over(d). graph bar p52 p72,by(d) stack. graph bar p52 p72,over(d) stack////////////数据如下%d p52 p72%1 163.2 27.4%2 72.5 83.6%3 57.2 178.2histogram x,bin(8) norm %画直方图,加正态分数线graph pie a b o ab if area==1,plabel(_all percent) %画饼图graph pie var2, over(var1) plabel(_all percent) %饼图graph pie p52 p72,by(d) %饼图graph box y1 %箱体图qnorm x %qq图lfit y x %回归直线graph matrix gender economy math 多变量散点图line yhat x||scatter y x,c(.l) s(O.) xline(12) yline(5.4) %线形图&散点图有一些通用的选项可以给图形“润色”:标题title(“string”) (string可为任意的字符串,下同)脚注note(“string”)横座标标题xtitle(“string”)纵座标标题ytitle(“sting”)横座标范围 xaxis(a,b) (a<b为两个数字,下同)纵座标范围 yaxis(a,b)插入文字 text (该命令既要指定插入文字的内容,也要指定插入的位置)插入图例 legend (该命令既要指定图例的内容,也要指定其位置)绘制散点图和线条的两个主要的选择项为:connect(c...c) //连接各散点的方式,c表示:或简写为c(c...c) . 不连接 (缺省值)l 用直线连接L 沿x方向只向前不向后直线连接m 计算中位数并用直线连接s 用三次平滑曲线连接J 以阶梯式直线条连接|| 用直线连接在同一纵向上的两点II 同 ||, 只是线的顶部和底部有一个短横Symbol(s...s) // 表示各散点的图形,s 表示:或简写为s(s...s) O 大圆圈 (缺省值)S 大方块T 大三角形o 小圆圈d 小菱形p 小加号. 小点i 无符号[varname] 用变量的取值代码表示[_n] 用点的记录号表示数学函数等都要与generate、replace、display一起使用,不能单独使用程序文件douse d:\0917.dtareg y xline y x,saving(d:\d4)按ctrl+D执行字符串操作函数:length(s) %长度函数,计算s的长度, 如,displength("ab")的结果是2substr(s,n1,n2) %子串函数,获得从s的n1个字符开始的n2个字符组成的字符串,disp substr("abcdef",2,3)的结果是"bcd"string(n) %将数值n转换成字符串函数,如,dispstring(41)+"f"的结果是"41f"real(s) %将字符串s转换成数值函数,如,dispreal("5.2")+1的结果是6.2upper(s) %转换成大写字母函数,如,disp upper("this")的结果是"THIS"lower(s) %转换成小写字母函数,如disp lower("THIS")的结果是"this"index(s1,s2) %子串位置函数,计算s2在s1中第一次出现的起始位置, 如果s2不在s1中, 则结果为0。
stata常用命令总结
![stata常用命令总结](https://img.taocdn.com/s3/m/163f0a800d22590102020740be1e650e52eacfd2.png)
stata常用命令总结Stata是一款广泛应用于数据分析与统计建模的统计软件,具有强大的功能和广泛的应用领域。
在Stata中,我们可以通过命令来完成数据的读取、整理、分析和可视化等任务。
本文将对一些常用的Stata命令进行总结和介绍,以帮助读者更好地理解和应用Stata软件。
一、数据的读取与整理1. 读取数据文件:- use 文件名:读取已经存在的Stata数据文件。
- import delimited 文件名:读取以逗号、制表符或其他分隔符分隔的文本文件。
2. 显示数据:- describe:显示数据文件的基本信息,包括变量名、数据类型、有效观测数等。
- browse:以表格形式显示数据文件的部分观测值。
3. 数据整理:- generate 新变量名=计算公式:创建新的变量,并根据指定公式进行计算。
- egen 新变量名=计算函数:根据指定的计算函数对现有变量进行计算,并创建新的变量。
二、数据的统计分析与建模1. 描述性统计:- summarize 变量名:对指定变量进行描述性统计,包括均值、标准差、最小值、最大值等。
- tabulate 变量名:生成指定变量的频数表和百分比表。
2. 数据筛选与子集选择:- keep 如果条件:保留符合条件的观测值,删除不满足条件的观测值。
- drop 如果条件:删除符合条件的观测值,保留不满足条件的观测值。
- qui keep 如果条件:以无输出方式保留符合条件的观测值并生成新数据集。
- qui drop 如果条件:以无输出方式删除符合条件的观测值并生成新数据集。
3. 参数估计与假设检验:- regress 因变量自变量1 自变量2 ...:进行普通最小二乘回归分析。
- ttest 变量名, by(分组变量):进行两组样本均值差异的t检验。
4. 数据可视化:- scatter 变量1 变量2:绘制散点图。
- histogram 变量名:绘制直方图。
- graph twoway line 变量1 变量2:绘制折线图。
stata命令汇总
![stata命令汇总](https://img.taocdn.com/s3/m/e20ba655f01dc281e53af0d2.png)
一、建立stata数据集(dataset)1、用键盘建立小型数据集①input 命令input str2sex age y x1-x3end②打开Data Editor,采用copy & paste方法二、数据管理1、显示当前数据(观测或变量)list sex y in 1/102、变量排序sort三、描述统计1、tabulatetab sex2、histogram -- Histogramshistogram y3、summarize -- Summary statisticssum x14、tabstat -- Display table of summary statisticstabstat y x1, statistics(n mean sd var q)二、数据管理6、egen -- Extensions to generate三、单变量描述统计量——数字特征3、summarize -- Summary statistics常用描述量【Variable,Obs,Mean,Std. Dev.,Min,Max】summarize varlist基本描述量【Percentiles(1%、5%、10%、25%、50%、75%、90%、95%、99%),Smallest,Largest,Obs,Sum of Wgt.,Mean,Std. Dev.,Variance,Skewness,Kurtosis】summarize varlist, detail4、tabstat -- Display table of summary statistics分位数和分位数差tabstat varlist, statistics(min p1 p5 p10 q p90 p95 p99 max range iqr)矩描述量tabstat varlist, statistics(n sum mean sd variance cv skewness kurtosis semean)三、单变量描述统计量——数字特征1、summarizesummarize [varlist] [, options]2、tabstattabstat varlist[,statistics(statname [...])]三、描述统计8、原始数据图示法——茎叶图stem varname[,options]9、原始数据图示法——箱线图(盒须图)graph box yvars[,options]10、数字特征(描述统计量)示意图graph bar yvar [, options]一、建立stata数据集(dataset)2、读*.txt文件中的数据建立数据集insheet x1-x20using“K:\insdata\Data\Dayhugp20070903.txt”, clear二、数据管理3、generate——由数学函数生成新变量gen x1x2=x1*x2描述统计1、tabulate -- for one-way tables of frequenciestab sex2、单变量描述统计——连续分布直方图histogram x, start(#) w(#) freq addlabels单变量描述统计——数字型离散分布条形图histogram x, discrete freq addlabels gap(5)5、单变量描述统计——单项式单向次数分布表tab1varlist6、单变量描述统计——离散分布条形图twoway bar yvar xvar—— displays numeric (y,x) data as bars.Example:contract x, freq(xfreq)twoway bar xfreq x7、单变量描述统计——分类型离散分布条形图graph bar yvars, over( categories ) —— draws vertical bar charts. In a vertical bar chart, the y axis is numerical, and the x axis is categorical.Example:gen frequency=1graph bar (count)frequency, over(categories)8、单变量描述统计——离散分布饼图graph pie, over( varname)1、简单随机样本:设X是有密度f(x)的随机变量,若n个随机变量X1、X2、…、X n相互独立且有相同密度f(x),则称X1、X2、…、X n是来自总体X的容量为n的简单随机样本,简称样本(sample)。
STATA常用命令总结(34个含使用示例)
![STATA常用命令总结(34个含使用示例)](https://img.taocdn.com/s3/m/29b2457f5627a5e9856a561252d380eb6394236f.png)
STATA常用命令总结(34个含使用示例)1. sum:计算变量的简要统计信息,如均值、标准差等。
示例:sum variable2. tabulate:生成变量的频数表。
示例:tabulate variable3. describe:显示数据集的基本信息,如变量名和数据类型。
示例:describe dataset4. drop:删除数据集中的变量。
示例:drop variable5. keep:保留数据集中的变量,删除其他变量。
示例:keep variable6. rename:重命名变量。
示例:rename variable newname7. gen:根据已有变量生成新的变量。
示例:gen newvar = expression8. egen:根据已有变量生成新的变量,可以使用更复杂的函数和运算符。
示例:egen newvar = function(variable)9. recode:对变量的取值进行重新编码。
示例:recode variable (oldvalues= newvalues) 10. dropif:根据条件删除观测。
示例:dropif condition11. keepif:根据条件保留观测。
示例:keepif condition12. sort:对数据集按指定变量进行排序。
示例:sort variable13. merge:将两个数据集按照共享变量合并。
示例:merge 1:1 variable using dataset214. reshape:将数据从宽格式转换为长格式或反之。
示例:reshape long var, i(id) j(year)15. regress:进行线性回归分析。
示例:regress dependent_var independent_vars 16. logistic:进行逻辑回归分析。
示例:logistic dependent_var independent_vars 17. probit:进行Probit回归分析。
STATA常用命令总结(34个含使用示例)
![STATA常用命令总结(34个含使用示例)](https://img.taocdn.com/s3/m/c5a6110c2f3f5727a5e9856a561252d380eb2081.png)
STATA常用命令总结(34个含使用示例)1. clear:清空当前工作空间中的数据。
示例:clear2. use:加载数据文件。
示例:use "data.dta"3. describe:查看数据文件的基本信息。
示例:describe4. summarize:统计数据的描述性统计量。
示例:summarize var1 var2 var35. tabulate:制作数据的列联表。
示例:tabulate var1 var26. scatter:绘制散点图。
示例:scatter x_var y_var7. histogram:绘制直方图。
示例:histogram var8. boxplot:绘制箱线图。
示例:boxplot var1 var29. ttest:进行单样本或双样本t检验。
示例:ttest var, by(group_var)10. regress:进行最小二乘法线性回归分析。
示例:regress dependent_var independent_var1 independent_var211. logistic:进行逻辑斯蒂回归分析。
示例:logistic dependent_var independent_var1 independent_var212. anova:进行方差分析。
示例:anova dependent_var independent_var13. chi2:进行卡方检验。
示例:chi2 var1 var214. correlate:计算变量之间的相关系数。
示例:correlate var1 var2 var315. replace:替换数据中的一些值。
示例:replace var = new_value if condition16. drop:删除变量或观察。
示例:drop var17. rename:重命名变量。
示例:rename old_var new_var18. generate:生成新变量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
stata11常用命令注:JB统计量对应的p大于0.05,则表明非正态,这点跟sktest和swilk 检验刚好相反;dta为数据文件;gph为图文件;do为程序文件;注意stata要区别大小写;不得用作用户变量名:_all _n _N _skip _b _coef _cons _pi _pred _rc _weight doublefloat long int in if using with命令:读入数据一种方式input x y1 42 5.53 6.24 7.75 8.5endsu/summarise/sum x 或 su/summarise/sum x,d对分组的描述:sort groupby group:su x%%%%%tabstat economy,stats(max) %返回变量economy的最大值%%stats括号里可以是:mean,count(非缺失观测值个数),sum(总和),max,min,range,%% sd,var,cv(变易系数=标准差/均值),skewness,kurtosis,median,p1(1%分位%% 数,类似地有p10, p25, p50, p75, p95, p99),iqr(interquantile range = p75 – p25)_all %描述全部_N 数据库中观察值的总个数。
_n 当前观察值的位置。
_pi 圆周率π的数值。
listgen/generate %产生数列egen wagemax=max(wage)clearuseby(分组变量)set more 1/0count %计数gsort +x (升序)gsort -x (降序)sort x 升序;并且其它变量顺序会跟着改变label var y "消费" %添加标签describe %描述数据文件的整体,包括观测总数,变量总数,生成日期,每个变量的存储类型(storage type),标签(label)replace x5=2*y if x!=3 %替换变量值replace age = 25 in 107 %令第107个观测中age为25rename y2 u %改变变量名drop in 2 %删除全部变量的第2行drop if x==. 删去x为缺失值的所有记录keep if x<2 %保留小于2的数据,其余变量跟随x改变keep in 2/10 %保留第2-10个数keep x1-x5 %保留数据库中介于x1和x5间的所有变量 (包括x1和x5),其余变量删除ci x1 x2,by(group) %算出置信区间,不过先前对group要先排序,即sort group;%by的意思逐个进行cii 12 3.816667 0.2710343, level(90) %已知均值,方差,计算90%的置信区间cii 10 2 %obs=10,mean=2,以二项分布形式,计算置信区间centile x,centile(2.5 25 50 75 97.5) %取分位数correlate/corr x y z %相关系数pwcorr x y,sig %给出原假设r=0的命令%如果变量非服从正态分布,则spearman x yregress/reg mean year %回归方程建立 reg y x,noconstant %无常数项predict meanhat %预测拟合值predict e,residual %得到残差estat hettest % 异方差检验dwstat % Durbin-Watson自相关检验vif % 方差膨胀因子logit y x1 x2 x3 (y取0或1,是被解释变量,x1-x3是被解释变量) %logit 回归probit y x1 x2 x3 (y取0或1,是被解释变量,x1-x3是被解释变量) %probit 回归tobit y x1 x2 x3 (y取值在0和1之间,是被解释变量,x1-x3是被解释变量) %tobit回归sktest e %残差正态性检验 p>0.05则接受原假设,即服从正态分布;%% sktest是基于变量的偏度和斜度(正态分布的偏度为0,斜度为3)swilk x %基于Shapiro-Wilk检验%%p值越小,越倾向于拒绝零假设,也就是变量越有可能不服从正态分布xi %生成虚拟变量tabulat gender,summ(math) %用gender指标对math进行分类,返回两类math 的mean、std、freqtabulate=tab %gen f=int((shengao-164)/3)*3+164 组距为3tabulate 变量名 [, generate(新变量) missing nofreq nolabel plot ] %%%%%generate(新变量) // 按分组变量产生哑变量nofreq // 不显示频数nolabel // 不显示数值标记plot // 显示各组频数图示missing // 包含缺失值cell // 显示各小组的构成比(小组之和为 1) column // 按栏显示各组之构成(各栏总计为 1)row // 按行显示各组之构成(各行总计为 1) %%%%%求和,求最小?mod(x,y) %求余数means %返回三种平均值di normprob(1.96)di invnorm(0.05)di binomial(20,5,0.5)di invbinomial(20,5,0.5)di tprob(10,2)di invt(10.0.05)di fprob(3,27,1)di invfprob(3,27,0.05)di chi2(3,5)di invchi2(3,0.05)stack x y z,into(e) %把三列合成一列xpose,clear %矩阵转置append using d:\0917.dta %把已打开的文件(x y z)跟0917里的(x y z)合并,是竖向合并,即观察值合并;merge using D:\0917.dta %把已打开的文件(x y z)跟0917里的(a b)合并,是横向合并,即变量合并;format x %9.2e %科学记数format x %9.2f %2位小数%产生随机数%1 产生20个在(0,1)区间上均匀分布的随机数uniform()set seed 100set obs 20gen r=uniform()list%clear 清除内存set seed 200 设置种子数为 200set obs 20 设置样本量为 20range no 1 20 建立编号 1 至 20gen r=uniform() 产生在(0,1)均匀分布的随机数gen group=1 设置分组变量 group 的初始值为 1sort r 对随机数从小到大排序replace group=2 in 11/20 设置最大的 10 个随机数所对应的记录为第2组,即:最小的10个随机数所对应的记录为第1组sort no 按照编号排序list 显示随机分组的结果也可以list if group==1和list no if group==1%2 产生10个服从正态分布N(100,6^2)的随机数invnorm(uniform())*sigma+u clear 清除内存set seed 200 设置种子数为 200set obs 10 设置样本量为 10 gen x=invnorm(uniform())*6+100 产生服从 N(100,6^2)的随机数list画图注意有些图前面要加histogram 直方图line 折线图scatter 散点图scatter y x,c(l) s(d) b2("(a)")graph twoway connected y x 连点图graph bar (sum) var2,over(var1) blabel(total) %条形图. graph bar p52 p72,by(d). graph bar p52 p72,over(d). graph bar p52 p72,by(d) stack. graph bar p52 p72,over(d) stack////////////数据如下%d p52 p72%1 163.2 27.4%2 72.5 83.6%3 57.2 178.2histogram x,bin(8) norm %画直方图,加正态分数线graph pie a b o ab if area==1,plabel(_all percent) %画饼图graph pie var2, over(var1) plabel(_all percent) %饼图graph pie p52 p72,by(d) %饼图graph box y1 %箱体图qnorm x %qq图lfit y x %回归直线graph matrix gender economy math 多变量散点图line yhat x||scatter y x,c(.l) s(O.) xline(12) yline(5.4) %线形图&散点图有一些通用的选项可以给图形“润色”:标题title(“string”) (string可为任意的字符串,下同)脚注note(“string”)横座标标题xtitle(“string”)纵座标标题ytitle(“sting”)横座标范围 xaxis(a,b) (a<b为两个数字,下同)纵座标范围 yaxis(a,b)插入文字 text (该命令既要指定插入文字的内容,也要指定插入的位置)插入图例 legend (该命令既要指定图例的内容,也要指定其位置)绘制散点图和线条的两个主要的选择项为:connect(c...c) //连接各散点的方式,c表示:或简写为c(c...c) . 不连接 (缺省值)l 用直线连接L 沿x方向只向前不向后直线连接m 计算中位数并用直线连接s 用三次平滑曲线连接J 以阶梯式直线条连接|| 用直线连接在同一纵向上的两点II 同 ||, 只是线的顶部和底部有一个短横Symbol(s...s) // 表示各散点的图形,s 表示:或简写为s(s...s) O 大圆圈 (缺省值)S 大方块T 大三角形o 小圆圈d 小菱形p 小加号. 小点i 无符号[varname] 用变量的取值代码表示[_n] 用点的记录号表示数学函数等都要与generate、replace、display一起使用,不能单独使用程序文件douse d:\0917.dtareg y xline y x,saving(d:\d4)按ctrl+D执行字符串操作函数:length(s) %长度函数,计算s的长度, 如,displength("ab")的结果是2substr(s,n1,n2) %子串函数,获得从s的n1个字符开始的n2个字符组成的字符串,disp substr("abcdef",2,3)的结果是"bcd"string(n) %将数值n转换成字符串函数,如,dispstring(41)+"f"的结果是"41f"real(s) %将字符串s转换成数值函数,如,dispreal("5.2")+1的结果是6.2upper(s) %转换成大写字母函数,如,disp upper("this")的结果是"THIS"lower(s) %转换成小写字母函数,如disp lower("THIS")的结果是"this"index(s1,s2) %子串位置函数,计算s2在s1中第一次出现的起始位置, 如果s2不在s1中, 则结果为0。