Stata教程:描述性统计命令与输出结果说明
Stata结果输出常用命令整理

Stata结果输出常用命令整理*1.描述性统计输出结果asdoc sum `varlist', save(Myfile.doc) replace stat(N mean sd min p50 max) dec(3) title(asdoc_Table: Descriptive statistics)sum2docx `varlist' using Myfile.docx,replace stats(N mean(%9.2f) sd(%9.3f)min(%9.2f) median(%9.2f) max(%9.2f)) title(sum2docx_Table: Descriptive statistics) outreg2 using Myfile, sum(detail) replace word eqkeep(N mean sd min p50 max)fmt(f) keep(`varlist') sortvar(wage age grade) title(outreg2_Table: Descriptive statistics)estpost summarize `varlist', detailesttab using Myfile.rtf, cells("count mean(fmt(2)) sd(fmt(2)) min(fmt(2))p50(fmt(2)) max(fmt(2))") noobs compress replace title(esttab_Table: Descriptive statistics)*2分组T 均值检验输出local common_exp "save(Myfile.doc) by(south) stat(obs mean p)"asdoc ttest wage, `common_exp' replace title(asdoc_Table: T_test by group)asdoc ttest age, `common_exp' rowappendasdoc ttest race, `common_exp' rowappendasdoc ttest married, `common_exp' rowappendasdoc ttest grade, `common_exp' rowappendasdoc ttest collgrad, `common_exp' rowappendasdoc ttest union, `common_exp' rowappendt2docx `varlist' using Myfile.docx,replace not by(south) title(t2docx_Table: T_test by group)logout, save(Myfile) word replace: ttable2 `varlist', by(south)estpost ttest `varlist', by(south)esttab using Myfile.rtf, cells("N_1 mu_1(fmt(3)) N_2 mu_2(fmt(3)) b(star fmt(3))") starlevels(* 0.10 ** 0.05 *** 0.01) noobs compress replace title(esttab_Table: T_test by group)*3.相关系数矩阵输出asdoc cor `varlist', save(Myfile.doc) replace nonum dec(3) title(asdoc_Table: correlation coefficient matrix)corr2docx `varlist' using Myfile.docx, replace spearman(ignore) pearson(pw) star title(corr2docx_Table: correlation coefficient matrix)logout, save(Myfile) word replace : pwcorr_a `varlist', star1(0.01) star5(0.05)star10(0.1)estpost correlate `varlist', matrixesttab using Myfile.rtf, unstack not noobs compress nogaps replace star(* 0.1 ** 0.05 *** 0.01) b(%8.3f) p(%8.3f) title(esttab_Table: correlation coefficient matrix)*4.回归结果输出asdoc reg wage age married occupation, save(Myfile.doc) nest replace cnames(OLS-1) rep(se) add(race, no)asdoc reg wage age married collgrad occupation, save(Myfile.doc) nest append cnames(OLS-2) add(race, no)asdoc reg wage age married collgrad occupation race_num*, save(Myfile.doc) nest append add(race, yes) cnames(OLS-3) dec(3) drop(occupation race_num*) stat(r2_a, F, rmse, rss) title(asdoc_Table: regression result)reg wage age married occupationest store m1reg wage age married collgrad occupationest store m2reg wage age married collgrad occupation race_num*est store m3reg2docx m1 m2 m3 using Myfile.docx, replace indicate("race=race_num*")b(%9.2f) se(%7.2f) scalars(r2(%9.3f) r2_a(%9.2f) N) drop(occupation)order(married) title(reg2docx_Table: regression result) mtitles("OLS-1" "OLS-2" "OLS-3")reg wage age married occupationoutreg2 using Myfile, word replace title(outreg2_Table: regression result)ctitle(OLS-1) `subexp' addtext(race, no)reg wage age married collgrad occupationoutreg2 using Myfile, word append ctitle(OLS-2) `subexp' addtext(race, no)reg wage age married collgrad occupation race_num*outreg2 using Myfile, word append ctitle(OLS-3) `subexp' addtext(race, yes)reg wage age married occupationest store m1reg wage age married collgrad occupationest store m2reg wage age married collgrad occupation race_num*est store m3*可利用addest自行增加统计量addest, name("chi2") value(`chi2')addest, textn("Industry") texts("Yes")estadd scalar Hausman= r(chi2),replaceestadd scalar Hausman_Test = r(p),replaceesttab m1 m2 m3 using Myfile.rtf, replace star( * 0.10 ** 0.05 *** 0.01 ) nogaps compress order(married) drop(occupation) b(%20.3f) se(%7.2f) r2(%9.3f) ar2 aic bic obslast scalars(F) indicate("race=race_num*") mtitles("OLS-1" "OLS-2" "OLS-3") title(esttab_Table: regression result)。
(完整版)Stata统计分析命令

Stata统计分析常用命令汇总一、winsorize极端值处理范围:一般在1%和99%分位做极端值处理,对于小于1%的数用1%的值赋值,对于大于99%的数用99%的值赋值。
1、Stata中的单变量极端值处理:stata 11。
0,在命令窗口输入“findit winsor”后,系统弹出一个窗口,安装winsor模块安装好模块之后,就可以调用winsor命令,命令格式:winsor var1, gen(new var) p(0.01)或者在命令窗口中输入:ssc install winsor安装winsor命令。
winsor命令不能进行批量处理.2、批量进行winsorize极端值处理:打开链接:http://personal.anderson。
/judson。
caskey/data。
html,找到winsorizeJ,点击右键,另存为到stata中的ado/plus/目录下即可。
命令格式:winsorizeJ var1var2var3,suffix(w)即可,这样会生成三个新变量,var1w var2w var3w,而且默认的是上下1%winsorize.如果要修改分位点,则写成如下格式:winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95).3、Excel中的极端值处理:(略)winsor2 命令使用说明简介:winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(##)。
In defult, new variables will be generated with a suffix ”_w" or "_tr", which can be changed by specifying suffix() option。
【原创汇总】stata中描述性统计表格的输出

【原创汇总】stata中描述性统计表格的输出导读:描述性统计通常对收集来的数据进行直接的频率、频数等描述,描述性统计分析一般对样本的最小值、最大值、平均值、标准偏差等进行分析,这些数据有助于了解样本数据特征,能够清晰的看到各个统计量的分布情况。
本文在stata培训会议的基础上,为大家再次呈现一些新的内容,作为补充。
-outreg-该命令描述为:outreg - reformat and write regression tables to a document file命令格式为outreg [using filename] [, options]将所有变量进行描述分析输出sysuse auto, clear(1978 Automobile Data).outreg2 using daqinxueshu.doc, replace sum(log)更多技能,指定变量,或者筛选,命令如下:以下数据来源于计量经济学服务中心stata论文写作专题中盈余管理数据outreg2 using daqinxueshu.doc, replace sum(log) ///keep(dacc rid tm size size debt14 eps)outreg2 using daqinxueshu3.doc, replace sum(log) ///keep(dacc rid tm size size )outreg2 using daqinxueshu3.doc, replace sum(log) /// keep(dacc rid tm size size ) eqkeep(N mean)outreg2 using daqinxueshu3.doc, replace sum(detail) /// keep(dacc rid tm size size debt14 eps)-描述性分析常用的统计量-mean,均值max,最大值min,最小值sd,标准差variance,方差semean,即sd/√n skewness,偏度kurtosis,峰度p1,第一分位数p5,第五分位数p10,第十分位数p50,中位数median,中位数range,max-min-技能-这个小技能你get到了吗global xx 'y x1 x2 x3 x4 x5 x6' des $xxtabstat $xx, stat(mean sd min max) columns(s) format(%4.2f) (XX已经代表了y x1 x2 x3 x4 x5 x6)tabstat y x1 x2 x3 x4 x5 x6tabstat y x1 x2 x3 x4 x5 x6,stats(mean p50 min max)tabstat y x1 x2 x3 x4 x5 x6, stats(mean med min max) col(s) format(%6.2f)tabstat y x1 x2 x3 x4 x5 x6, s(mean p25 med p75 min max) c(s) f(%6.2f)tabstat y x1 x2 x3 x4 x5 x6 , s(mean p25 med p75 min max) c(s) f(%6.2f) by(。
stata中如何导出描述性统计结果

Stata入门——如何导出描述性统计1.打开stata,进入do file 界面。
2.导入需要分析的数据// use “文件路径”,clear (文件路径可以通过shift+鼠标右键获得)3.输入描述性统计命令// tabstat 变量1 变量2 变量3......变量X, s(N mean sd min max)f(%12.3f) c(s) (其中tabstat是进行表格格式统计;s为statistics,其后面根据的是所需要的统计量内容,若需要其他统计量,可以键入help tabstat,运行后得出帮助;f为数据汇报表格格式format,c(s)代表用统计量名称作为列名)进行完上述操作之后,基本完成了变量的描述性统计,接下来需要做的是将上述得到的结果导出到excel导出命令有的软件需要事先安装,安装编码为ssc install logout,运行后可继续操作4.输入导出命令//logout,save(mytable)word replace:)(word代表保存的格式,可以代替为excel等,replace代表若已存在该文件则替代,无则直接保存)//导出结果可以导出到excel再复制到word再右键自动调整格式,这样得出的表格格式会相对美观。
综上,导出描述性统计的完整命令可以键入为:logout,save(mytable)word replace:)(word代表保存的格式,可以代替为excel等,replace代表若已存在该文件则替代,无则直接保存)tabstat 变量1 变量2 变量3......变量X, s(N mean sd min max)f(%12.3f) c(s) (其中tabstat是进行表格格式统计;s为statistics,其后面根据的是所需要的统计量内容,若需要其他统计量,可以键入help tabstat,运行后得出帮助;f为数据汇报表格格式format,c(s)代表用统计量名称作为列名)。
Stata—描述性统计

Stata—描述性统计1.资料的基本信息①summarizesummarize:汇总所有变量的名称,个案数⽬,均值,标准差等,缩写为sumformat age %6.2f:指定age变量的统计量输出时的保留2位⼩数sum age, format:结合上个命令,对年龄变量进⾏描述的汇总保留2位⼩数sum age,detail:汇总更加详细的信息②codebookcodebook没有sum详细codebook:汇总所有变量codebook var:汇总var变量③inspectinspect age:可以画出简单的直⽅图2.基本信息的统计①tabulate和table命令tabulate places:对places变量进⾏列表统计,此命令可缩写为tabtable places:只有频数统计,不可缩写为tabtab places price:统计不同地⽅的价格的列表tab places price:统计不同places的price的列表②tabstat命令tabstat price places:显⽰2个变量的平均值tabstat price places, stats(mean med min max):显⽰2个变量的平均值,中位数等统计量tabstat price places, stat(mean med min max p25) col(s) format(%6.2f):均值等统计量在表格的⾏中,并且将结果⼩数点保持在2位。
此命令也可以写为tabstat price places, s(mean med min max) c(s) f(%6.2f)。
tabstat price places, s(mean med min max) c(s) f(%6.2f) by (gender):根据性别分类来陈述上述的统计量。
③结果呈现(1)将Stata中的结果选中,右击⿏标选择Copy table,直接贴⼊Excel或者Word。
Stata统计分析报告命令

Stata统计分析常用命令汇总一、winsorize极端值处理范围:一般在1%和99%分位做极端值处理,对于小于1%的数用1%的值赋值,对于大于99%的数用99%的值赋值。
1、Stata中的单变量极端值处理:stata 11.0,在命令窗口输入“findit winsor”后,系统弹出一个窗口,安装winsor 模块安装好模块之后,就可以调用winsor命令,命令格式:winsor var1, gen(new var) p(0.01) 或者在命令窗口中输入:ssc install winsor安装winsor命令。
winsor命令不能进行批量处理。
2、批量进行winsorize极端值处理:打开链接:/judson.caskey/data.html,找到winsorizeJ,点击右键,另存为到stata中的ado/plus/目录下即可。
命令格式:winsorizeJ var1var2var3,suffix(w)即可,这样会生成三个新变量,var1w var2w var3w,而且默认的是上下1%winsorize。
如果要修改分位点,则写成如下格式:winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。
3、Excel中的极端值处理:(略)winsor2 命令使用说明简介:winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones.相比于winsor命令的改进:(1) 可以批量处理多个变量;(2) 不仅可以 winsor,也可以 trimming;(3) 附加了 by() 选项,可以分组 winsor 或 trimming;(4) 增加了 replace 选项,可以不必生成新变量,直接替换原变量。
Stata统计分析命令

Stata统计分析命令Stata是一种用于数据分析的统计软件,具有广泛的应用领域,可以用于社会科学、健康科学、金融等领域的数据分析。
Stata具有强大的数据处理和统计分析功能,可以对数据进行清洗、整理和分析,还可以进行数据可视化和报告制作。
本文将介绍一些常用的Stata统计分析命令,以供参考。
数据导入与清洗在进行数据分析之前,需要先将数据导入Stata软件中,并进行数据清洗。
以下是常用的数据导入和清洗命令:导入数据•use:使用已有的Stata数据集•import delimited:导入以逗号为分隔符或制表符为分隔符的纯文本数据•import excel:导入Excel数据文件•insheet:将文本文件读入数据集数据清洗•drop:删除变量或数据•keep:保存变量或数据•rename:重命名变量•egen:生成新的变量•recode:将变量值重新编码•merge:合并两个数据集描述性统计分析在进行数据分析之前,需要先对数据进行描述性分析。
以下是常用的描述性统计分析命令:•summarize:计算变量的基本统计量,如均值、标准差、最小和最大值、中位数、1/4和3/4位数•tabulate:计算变量的频数和百分比,可以进行交叉分析•graph box:绘制箱线图•graph scatter:绘制散点图统计分析在进行统计分析时,需要根据变量的类型和分析目的选择不同的统计方法。
以下是常用的统计分析命令:单样本统计分析•ttest:单样本t检验•onesamplewilcoxon:单样本Wilcoxon秩和检验双样本统计分析•ttest:双样本t检验•ranksum:Wilcoxon秩和检验相关分析•correlate:计算两个或多个变量之间的相关系数•pwcorr:计算Pearson相关系数矩阵回归分析•regress:运行普通最小二乘回归•logit:运行二元Logistic回归模型•oprobit:运行有序Logistic回归模型数据可视化数据可视化是Stata的另一个强大特性,可以使分析人员更清晰、更直观地了解数据分析结果。
Stata结果输出:outreg2命令详解

Stata结果输出:outreg2命令详解1.引⾔⼀篇实证论⽂中,最基本也是最重要的部分就是展⽰ Stata 中得出的统计分析、回归结果等表格。
但⾃⼰动⼿做表格往往⾮常繁琐,Word 排版也常常令⼈抓狂。
⽽outreg2命令可以让 Stata ⾃动输出我们想要的表格,为你解决所有结果输出的烦恼。
因此,熟练掌握outreg2命令对我们快速导出 Stata 结果,⼀步到位的完成实证结果展⽰有莫⼤帮助。
2. outreg2 命令代码及实例2.1 描述性分析⾸先我们介绍描述性统计分析表格的输出,⼀般实证论⽂都选择展⽰全部变量的⼀般统计指标,这⾥我们将各种情况都罗列出来,并利⽤ Stata ⾃带的 1978 年美国汽车交易数据 auto.dta 为⼤家进⾏实例演⽰,⽅便⼤家全⾯了解outreg2命令。
2.1.1全部变量⼀般统计指标outreg2 using xxx.doc,replace sum(log) title(Decriptive statistics)1. xxx.doc 为输出⽂件名为 xxx 的 word ⽂档命令。
类似得,如果需要输出为 excel 表格则更改代码为 xxx.xsl 即可。
2. sum(log)即输出⼀般统计指标命令,⼀般统计指标包括样本数、中值、标准误、最⼤值和最⼩值。
3. title(Decriptive statistics)为⾃定义输出表格的名称命令,可在括号内⾃⾏编辑表格名称。
2.1.2 部分变量⼀般统计指标输出代码outreg2 using xxx.doc, replace sum(log) keep(var1 var2 var3) title(Decriptive statistics)1. keep(var1 var2 var3)为保留部分变量输出命令,其中 var1var2var3 是我们所需要保留的变量名称。
2. xxx.doc 为输出⽂件名为 xxx 的 word ⽂档命令。
(完整版)STATA第二章描述性统计命令与输出结果说明

第二章描述性统计命令与输出结果说明上述数据也可以用变量x表示血磷测定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。
计算资料均数,标准差命令summarize,以述资料为例:. summarizeVariable Obs Mean Std. Dev. Min Maxx1 11 4.710909 1.302977 2.6 6.53x2 13 3.354615 1.304368 1.67 5.78Mean 均值;Std.Dev.标准差即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。
计算资料均数,标准差,中位数,低四分位数和高四分位数的命令summarize 以及子命令detail,仍以述资料为例:. summarize x1 x2,detailx1Percentiles Smallest1% 2.6 2.65% 2.6 3.2410% 3.24 3.73 Obs 1125% 3.73 3.73 Sum of Wgt. 1150% 4.73 Mean 4.710909Largest Std. Dev. 1.30297775% 5.78 5.5890% 6.4 5.78 Variance 1.69774995% 6.53 6.4 Skewness -.081344699% 6.53 6.53 Kurtosis 1.809951x2Percentiles Smallest1% 1.67 1.675% 1.67 1.9810% 1.98 1.98 Obs 1325% 2.33 2.33 Sum of Wgt. 1350% 3.6 Mean 3.354615Largest Std. Dev. 1.30436875% 4.17 4.1790% 4.82 4.57 Variance 1.70137795% 5.78 4.82 Skewness .296394399% 5.78 5.78 Kurtosis 1.875392.结果:Percentiles 显示了从1%到99%的分位数的取值。
stata:使用汇总命令的描述性统计

stata:使⽤汇总命令的描述性统计使⽤汇总命令的描述性统计这是⼀个使⽤summaryrize命令获取描述性统计信息的⽰例。
在第⼀个⽰例中,我们获得了名为female的0/1(虚拟)变量的描述性统计信息。
如果学⽣是⼥性,则此变量编码为1,否则编码为0。
在第⼆个例⼦中,我们得到⼀个名为write的连续变量的描述性统计,这是学⽣在写作测试中得到的分数。
我们使⽤详细信息选项来获取其他信息,包括百分位数,偏度和峰度。
您不必对所有连续变量使⽤detail选项。
use https:///stat/stata/notes/hsb2(highschool and beyond (200 cases))summarize femaleVariable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------female | 200 .545 .4992205 0 1Variable – 此列展⽰所描述的变量。
可以在 summarize 命令之后列出多个变量; 这样做时,将在输出的各⾏上看到每个变量。
Obs – 该列告诉您对该变量有效(即没有缺失)的观察值(或案例)的数量。
如果数据集中有200个观察值,但是变量female缺少10个值,那么这⼀列中的数字将是190。
Mean – 这是变量的平均值。
在这个样例中,我们的变量female的范围从0到1(最⼩值和最⼤值),因此均值实际上是编码为1的观测值的⽐例。
Std. Dev. – 这是变量的标准偏差。
这⾥给出了关于变量分布的扩展的信息。
summarize write, detailwriting score-------------------------------------------------------------Percentiles Smallest1% 31 315% 35.5 3110% 39 31 Obs 20025% 45.5 31 Sum of Wgt. 20050% 54 Mean 52.775Largest Std. Dev. 9.47858675% 60 6790% 65 67 Variance 89.8435995% 65 67 Skewness -.478415899% 67 67 Kurtosis 2.2385271% – 这是第⼀百分位数。
STATA第二章描述性统计命令与输出结果说明

第二章描述性统计命令与输出结果说明例:某地测定克山病患者与克山病健康人的血磷测定值如下表据。
上述数据也可以用变量x表示血磷测定值,分组变量gr oup=0表示患者组和grou p=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及gr oup为1),并假定这些数据已以ST ATA格式存入ex2a.dta文件中。
计算资料均数,标准差命令s u mmar ize,以述资料为例:. summarizeVariable Obs Mean Std. Dev. Min Maxx1 11 4.710909 1.302977 2.6 6.53x2 13 3.354615 1.304368 1.67 5.78Mean 均值;Std.Dev.标准差即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。
计算资料均数,标准差,中位数,低四分位数和高四分位数的命令summari ze 以及子命令det ail,仍以述资料为例:. summarize x1 x2,detailx1Percentiles Smallest1% 2.6 2.65% 2.6 3.2410% 3.24 3.73 Obs 1125% 3.73 3.73 Sum of Wgt. 1150% 4.73 Mean 4.710909Largest Std. Dev. 1.30297775% 5.78 5.5890% 6.4 5.78 Variance 1.69774995% 6.53 6.4 Skewness -.081344699% 6.53 6.53 Kurtosis 1.809951x2Percentiles Smallest1% 1.67 1.675% 1.67 1.9810% 1.98 1.98 Obs 1325% 2.33 2.33 Sum of Wgt. 1350% 3.6 Mean 3.354615Largest Std. Dev. 1.30436875% 4.17 4.1790% 4.82 4.57 Variance 1.70137795% 5.78 4.82 Skewness .296394399% 5.78 5.78 Kurtosis 1.875392.结果:Percen tiles显示了从1%到99%的分位数的取值。
stata输出命令全记录:描述性统计、相关性分析、回归结果

stata输出命令全记录:描述性统计、相关性分析、回归结果一、描述性统计ssc install outreg2【安装outreg2】sum var1 var2……【描述性统计命令sum 变量var1 var2……】outreg2 using test1.doc, replace sum(log)【将结果输出到test1.doc文件中】二、相关系数表方法1:ssc install logout【安装logout】logout, save(test2) word replace: pwcorr var1 var2……, sig star(0.1)【将结果输出到test2.rtf文件中,p值小于0.1的标*】方法2:ssc install logout【安装logout】网上下载pwcorr_a.ado文件,放入stata12\ado\base\p 文件夹中logout, save(test3) word replace: pwcorr_a var1 var2……, star1(0.01)star5(0.05)star10(0.1)【将结果输出到test3.rtf文件中,p值小于0.1的标*,小于0.05标**,小于0.01标***】需要注意的是,logout 命令得到的表格一般会存在错位和空行的现象,这就需要手动做一些调整,如将第一行的表头往右移一列,p 值向右移,并将多余的行删掉,同时还要对p 值加上括号,并在表的底端注明星号的含义。
三、回归结果qui reg y x(qui表示执行命令但不汇报回归结果)est sto ols(est sto表示储存回归结果,文件名为ols)est table ols,b se(选择项“b”表示显示回归系数,“se”表示显示标准误)用一颗星表示10%的显著性,两颗星表示5%的显著性,三颗星表示 1%的显著性,可使用如下命令:est table ols,star(0.1 0.05 0.01)Stata 官方命令“estimates table”无法同时显示回归系数、标准误与表示显著性的星号。
stata做描述统计步骤

stata做描述统计步骤
首先,导入数据集auto.dta通过存储文件打开该数据的stata命令为:use "D:\你自己存放auto.dta文件的路径\auto.dta"。
或者打开stata软件自带的数据集。
相应的Stata命令为sysuse auto,clear出现这样的结果表示数据导入成功。
数据导入成功以后,可先输入stata 命令:describe查看数据集的大致信息。
接下来,我们根据自己的研究需要,选择具体的变量或者全部的变量进行描述性分析。
Stata的操作演示如下:输入stata命令:summarize
summarize后可以跟具体变量的名称,如果不跟变量名称,则默认对全部变量进行描述性分析,两种结果如下:
(1)输入命令:summarize,得到全部变量的描述性统计结果。
(2)输入命令:summarize price mpg rep78 headroom,得到部分变量的描述性统计结果。
打开描述性统计结果1.doc文件对其进行整理,使之符合论文的要求以及更美观。
stata描述性统计代码

stata描述性统计代码
Stata是统计分析软件之一,其描述性统计功能应用广泛,可以快速地计算数据的基本统计量和一些描述性指标。
以下是Stata 描述性统计代码示例。
1. 导入数据
使用命令“use”或“import”导入数据,例如:
use 'C:Usersexampledata.dta'
2. 计算基本统计量
使用命令“summarize”或“su”计算变量的基本统计量,例如:
su var1 var2 var3
该命令将输出变量var1、var2和var3的均值、标准差、最小值、最大值和有效观测数量。
3. 计算频数和百分比
使用命令“tabulate”或“tab”计算分类变量的频数和百分比,例如:
tab var4
该命令将输出变量var4的频数和百分比,以及每个类别的有效观测数量。
4. 绘制直方图
使用命令“histogram”或“hist”绘制变量的直方图,例如: hist var5
该命令将输出变量var5的直方图,并计算出分布的峰值和中位数。
5. 计算相关系数
使用命令“correlate”或“corr”计算变量之间的相关系数,例如:
corr var1 var2 var3
该命令将输出变量var1、var2和var3之间的相关系数矩阵。
6. 计算回归分析
使用命令“regress”或“reg”进行回归分析,例如:
regress var1 var2 var3
该命令将输出变量var1、var2和var3的回归系数、标准误差、t值、p值和R-squared。
以上是Stata描述性统计代码示例,可以根据不同的数据和研究需求进行相应的调整和扩展。
Stata教程:描述性统计命令与输出结果说明

本节STATA命令摘要by分组变量:]summarize变量名1变量名2…变量名m[,detail]ci变量名1变量名2…变量名m[,level(#)binomialpoissonexposure(varname)by(分组变量)]cii样本量均数标准差[,level(#)]tab1变量名[,generate(变量名)]·资料特征描述(均数,中位数,离散程度)例:某地测定克山病患者与克山病健康人的血磷测定值如下表(数据摘自四川医学院主编的卫生统计学,1978出版,p21):患者2.63.243.733.734.324.735.185.585.786.406.53健康人1.671.981.982.332.342.503.603.734.144.174.574.825.78并假定这些数据已以STATA格式存入ex2.dta文件中,其中变量x1为患者的血磷测定值数据,变量x2为健康人的血磷测定值数据。
上述数据也可以用变量x表示血磷测定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。
计算资料均数,标准差命令summarize,以述资料为例:useex2,clearsummarizex1x2结果:变量样本数均数标准差最小值最大值Variable|ObsMeanStd.Dev.MinMax---------+x1|114.7109091.3029772.66.53x2|133.3546151.3043681.675.78即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。
stata中如何导出描述性统计结果

stata中如何导出描述性统计结果Stata入门——如何导出描述性统计1.打开stata,进入do file 界面。
2.导入需要分析的数据// use “文件路径”,clear (文件路径可以通过shift+鼠标右键获得)3.输入描述性统计命令// tabstat 变量1 变量2 变量3......变量X, s(N mean sd min max)f(%12.3f) c(s) (其中tabstat是进行表格格式统计;s为statistics,其后面根据的是所需要的统计量内容,若需要其他统计量,可以键入help tabstat,运行后得出帮助;f为数据汇报表格格式format,c(s)代表用统计量名称作为列名)进行完上述操作之后,基本完成了变量的描述性统计,接下来需要做的是将上述得到的结果导出到excel导出命令有的软件需要事先安装,安装编码为ssc install logout,运行后可继续操作4.输入导出命令//logout,save(mytable)word replace:)(word代表保存的格式,可以代替为excel等,replace代表若已存在该文件则替代,无则直接保存)//导出结果可以导出到excel再复制到word再右键自动调整格式,这样得出的表格格式会相对美观。
综上,导出描述性统计的完整命令可以键入为:logout,save(mytable)word replace:)(word代表保存的格式,可以代替为excel等,replace代表若已存在该文件则替代,无则直接保存)tabstat 变量1 变量2 变量3......变量X, s(N mean sd min max)f(%12.3f) c(s) (其中tabstat是进行表格格式统计;s为statistics,其后面根据的是所需要的统计量内容,若需要其他统计量,可以键入help tabstat,运行后得出帮助;f为数据汇报表格格式format,c(s)代表用统计量名称作为列名)。
统计描述的Stata实现

为制作频数表,键入 Stata 命令:
.gen f=int((x-160)/2)*2+160 .tab f 产生用以作频数表的新变量“f” 对变量“f”作频数表
“gen”命令产生新变量“f”,将各观察值转换成相应该组的下限值。 int 为取整函数,结果为括号内函数值的整数部分,如 int(3.24)=3。“160”为第 一 组 的 下 限 , “ 2 ” 为 组 距 。 以 第 一 例 观 察 值 160.1cm 为 例 , f=int((160.1-160)/2)*2+160=160,则它应归入“160~”组。 结果如下:
49 28 14 12 10 8 5 3 230
21.30 12.17 6.09 5.22 4.35 3.48 2.17 1.30
100.00
150 178 192 204 214 222 227 230 —
65.2 77.4 83.5 88.7 93.0 96.5 98.7 100.0 —
Stata 数据格式如下: x 1 2 3 4 5 6 7 8 9 10
数据格式如下:
x 1 2 3 4 5 6 7 8
164.4 175.5 171.7 171.8 172.2 176.4 164.3 169.9
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
结果如下:
.1 Density .02 0
160
.04
.06
.08
165
170 f
175
Stata—基本统计量输出、模型估计和结果输出

Stata—基本统计量输出、模型估计和结果输出1. 基本统计量的输出tabstat var, stats(mean sd min max p50 max) c(s) f(%6.2f)输⼊上述命令之后,会在stata的结果窗⼝呈现所需的描述性统计,那么如何直接将结果转到word中?⽅法如下:logout, save(mytable) word replace: tabstat var, stats(mean sd min max p50 max) c(s) f(%6.2f)上述命令中,mytable为⽂件名称;replace代表每次⽣成的word结果都会覆盖原有的mytable中的结果;var为变量名称;word可以替换为excel,从⽽将结果输出⾄excel中。
2. 相关系数矩阵logout, save(mytable) word replace: pwcorr var1 var2输⼊上述命令可见var1和var2的相关系数矩阵会储存到名为mytable的word⽂件中。
logout, save(mytable) word replace: pwcorr_a var1 var2此命令中的pwcorr_a是连⽟君博⼠编写的代码,相⽐于pwcorr,此命令则可以显⽰相关系数的显著性(带星号)。
3. 估计结果输出①est—估计模型reg sas gender:以sas作为因变量,gender作为⾃变量⾏回归分析。
est store a1:将估计结果储存在a1。
reg sas gender dp:以sas作为因变量,gender,dp作为⾃变量⾏回归分析。
est store a2:将估计结果储存在a2。
esttab a1 a2:在结果显⽰框中显⽰a1和a2结果,但是⽐较简单,未有呈现出回归中的重要信息。
esttab a1 a2, beta:呈现标准化回归系数。
esttab a1 a2, ar2 compress nogap star(*0.1 **0.05 ***0.01):ar2命令⽤来显⽰R⽅;compress使得结果呈现更加紧凑;nogap命令使得两个⾃变量之间的空⾏删除;star是将默认的显著性⽔平进⾏更改,也就是说将默认的“*0.05 **0.01 ***0.001”改为“*0.1 **0.05 ***0.01”。
Stata教程

Stata教程编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(Stata教程)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为Stata教程的全部内容。
第一章 Stata 概貌§1。
1 Stata的功能、特点和背景Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer Resource Center)研制。
从1985至1998的十四年时间里,已连续推出1.1,1.2,1.3,1.4,1。
5,……及2.0,2.1,3.0,3。
1,4.0,5.0,6.0等多个版本,通过不断更新和扩充,内容日趋完善。
它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格.Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。
Stata的突出特点是只占用很少的磁盘空间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或字处理软件如WORD等直接调用。
一、 Stata的数据管理能力1.Stata的数据管理空间受计算机的操作系统和计算机扩展内存的影响.对640k内存的微机,3.1版本的Stata可以管理2400个记录×99个变量,并随计算机扩展内存的增加而增加;对4.0的WINDOWS版本,Stata可以管理4800个记录×99个变量;对WINDOWS 95下的5。
0版本,可根据计算机的配置情况设置变量数和记录数,如32M扩展内存的计算机,可处理2千万个数据.变量数和记录数可以互相交易(trade),即减少记录数可以增加变量数,减少变量数可以增加记录数。
stata sum detail结果解读

stata sum detail结果解读Stata sum detail是Stata软件中sum命令的详细输出结果。
sum 命令用于计算描述性统计量,包括均值、中位数、标准差等。
sumdetail则提供了更详细的结果,包括最小值、最大值、百分位数等。
本文将对sum detail结果进行解读。
首先,sum detail的输出结果中最重要的是变量的描述性统计量。
其中包括均值(mean)、中位数(median)、最小值(minimum)、最大值(maximum)、标准差(std. dev.)、25%、75%等(百分位数)。
均值是变量的平均值,可以反映变量的集中趋势。
中位数是将变量按大小排列后,处于中间位置的数值,可以反映变量的中心位置。
最小值是变量的最小取值,可以反映变量的数据范围。
最大值是变量的最大取值,同样反映变量的数据范围。
标准差是变量的离散程度的度量,反映变量的数据分散程度。
百分位数是将变量按大小排列后,处于指定位置的数值,可以反映变量的分布情况。
例如,25%表示有25%的观测值小于此数值,75%表示有75%的观测值小于此数值。
除了描述性统计量,sum detail还提供了缺失值(missing values)和有效观测值(number of observations)的计算结果。
缺失值是在计算描述性统计量时被忽略的缺失观测值。
有效观测值是参与计算的非缺失观测值的个数。
另外,sum detail还输出了变量的标签(label)和格式(format)信息。
标签是对变量的解释性文字描述,便于理解变量的含义。
格式是变量在输出结果中的显示格式,例如小数位数和千位分隔符。
解读sum detail的过程可以从整体和局部两个层面进行。
整体层面,可以观察变量的均值、中位数、标准差,以及最小和最大值,从而对变量的整体分布情况有基本了解。
例如,均值与中位数的接近程度可以判断变量的分布是否对称;标准差的大小可以判断变量的离散程度;最大和最小值可以判断变量的取值范围。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本节STATA命令摘要by分组变量:]summarize变量名1变量名2…变量名m[,detail]ci变量名1变量名2…变量名m[,level(#)binomialpoissonexposure(varname)by(分组变量)]cii样本量均数标准差[,level(#)]tab1变量名[,generate(变量名)]·资料特征描述(均数,中位数,离散程度)例:某地测定克山病患者与克山病健康人的血磷测定值如下表(数据摘自四川医学院主编的卫生统计学,1978出版,p21):患者2.63.243.733.734.324.735.185.585.786.406.53健康人1.671.981.982.332.342.503.603.734.144.174.574.825.78并假定这些数据已以STATA格式存入ex2.dta文件中,其中变量x1为患者的血磷测定值数据,变量x2为健康人的血磷测定值数据。
上述数据也可以用变量x表示血磷测定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。
计算资料均数,标准差命令summarize,以述资料为例:useex2,clearsummarizex1x2结果:变量样本数均数标准差最小值最大值Variable|ObsMeanStd.Dev.MinMax---------+x1|114.7109091.3029772.66.53x2|133.3546151.3043681.675.78即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。
计算资料均数,标准差,中位数,低四分位数和高四分位数的命令summarize 以及子命令detail,仍以述资料为例:use ex2,clearsummarizex1x2,detail结果:x1PercentilesSmallest(最小值)1%2.65%2.63.2410%3.243.73Obs11(样本数)25%3.73(低四分位)3.73 SumofWgt.1150%4.73(中位数)(最大值)Mean4.710909(均数)LargestStd.Dev.1.302977(标准差)75%5.78(高四分位)5.5890%6.45.78Variance1.697749(方差)95%6.536.4Skewness-.0813446(偏度)99%6.536.53Kurtosis1.809951(峰度)x2④PercentilesSmallest1.671.675%1.671.9810%1.981.98Obs1325%①2.332.33SumofWgt.1350%②3.6Mean3.354615⑤⑥LargestStd.Dev.1.30436875%③4.174.1790%4.824.57⑥Variance1.70137795%5.784.82⑦Skewness.296394399%5.785.78⑧Kurtosis1.875392由上述结果可知:summarize命令并使用子命令detail,不仅可以得到各变量资料的均数和⑥标准差,而且可以得到主要的非参数描述指标:①低四分位(lowerquartile),②中位数(Median)以及③高四分位(upperquartile)。
对于非正态资料,一般不应用均数±标准差进行描述,而应使用中位数以及(低四分位-高四分位,称interquartilerange,IQR)进行描述。
如:若本资料不正态[1],则x1的Median以及IQR为:4.73(3.73-5.78)以及x2的Median以及IQR为:3.6(2.33-4.17)。
⑥为样本方差;⑦为偏度,偏度的绝对值越小,表明该数据的正态对称性越好;⑧峰度,峰度值越大表明该数据的正态峰越明显;④在该数据中最小的四个数据;⑤在该数据中最大的四个数据。
若调用ex2a.dta文件,进行描述性统计,可用下列命令:use ex2a,clearsortgroup(将资料以group变量为例从小到大排序)bygroup:summarizex结果:->group=xPercentilesSmallest1%2.62.65%2.63.2410%3.243.73Obs1125%3.733.73SumofWgt.1150%4.73Mean4.710909LargestStd.Dev.1.30297775%5.785.5890%5.78 Variance 1.697749 95%6.536.4 Skewness -.0813446 99%6.53 6.53 Kurtosis 1.809951 ->group= 1x Percentiles Smallest 1%1.67 1.675%1.67 1.9810%1.98 1.98Obs1325%2.33 2.33 SumofWgt.1350%3.6Mean 3.354615 Largest Std.Dev.1.304368 75%4.1790%4.824.57Variance1.70137795%5.784.82Skewness.296394399%5.785.78Kurtosis1.875392上述结果与前面的结果对应相同。
·根据样本数据计算可信限[2]95%可信限计算:正态数据:ci变量名0-1数据:ci变量名,binomialpoisson分布数据:ci变量名,poisson90%可信限计算(其它可信限类推)正态数据:ci变量名,level(90)0-1数据:ci变量名,level(90)binomialpoisson分布数据:ci变量名,level(90)poisson 以ex2.dta为例计算x1,x2的95%可信限。
use ex2.dta,clear①②③④Variable|ObsMeanStd.Err.[95%Conf.Interval]---------+x1|114.710909.39286243.8355575.586261x2|133.354615.36176672.5663934.142837以上结果中:①为样本数;②为均数;③为标准误;④为95%的可信限,因此x1的95%可信限为[3.8356,5.5863],x2的95%可信限为[2.5664,4.1428]。
·根据样本数,样本均数和标准差计算可信限[3]。
若数据服从正态分布,并已知样本均数和标准差以及样本数,则95%可信限计算为:cii样本数样本均数标准差[,level(#)]例:已知样本数为90样本均数为40以及样本标准差为12,则:计算该样本均数的95%可信限为cii904012Variable|ObsMeanStd.Err.[95%Conf.Interval]+|90401.26491137.4866542.51335该样本均数的90%可信限为[37.48665,42.51335]cii904012,level(90)Variable|ObsMeanStd.Err.[90%Conf.Interval]---------+|90401.26491137.8975242.10248·计数资料中频数和比例STATA命令:tab1变量名[,g(新变量名)因为该命令主要适用描述计数资料(即:属性资料),当使用子命令g(新变量),则产生属性指示变量。
在回归分析中经常需要这些指示变量作为亚元变量进行分析。
例:50只小鼠随机分配到5个不同饲料组,每组10只小鼠。
在喂养一定时间后,测定鼠肝中的铁的含量(mg/g)如表所示:试比较各组鼠肝中铁的含量是否有显著性差别(摘自医学统计方法,金丕焕主编,p220)。
用x表示鼠肝中铁的含量以及用group=1,2,3,4,5分别表示对应的5个组。
tab1group,g(a)->tabulationofgroup①②③group|Freq.PercentCum.+1|1020.0020.002|1020.0040.003|1020.0060.004|1020.0080.005|1020.00100.00+Total|50100.00①为各属性资料的频数;②为该属性占整个资料样本数的百分比;③为累计百分比。
本例中,总样本数为50,共有5组,每组有10个样本点,各占总样本数的10%。
因为使用了子命令g(a),从而产生5个指示变量(又可称亚元变量):a1,a2,a3,a4和a5。
变量a1用于指示第1组的资料:即:当资料属于第1组的(group=1),则a1=1;其它组的资料(group¹1),则a1=0。
变量a2用于指示第2组的资料,变量a3,a4和a5相应分别指示第3,4,5组的资料(详细见下表)。
[1]此处仅是举例而已,事实上该资料可以用正态检验证明近似服从正态分布。
[2]可信限是对总体均数的区间估计。
例:95%可信限表示它所给出的区间能包含总体均数的概率为0.95。
通俗地说:在同一个总体中,独立地抽样100次,每次抽取的样本量相同以及计算相应的95%可信限,则平均有95次抽样所得到的95%可信限所对应区间包含该总体均数。
[3]直接出现在统计命令中的数据称为立即数,相应的命令称为立即命令。