stata统计操作命令
STATA命令应用及详细解释

STATA命令应用及详细解释STATA是一种统计软件,被广泛应用于数据分析和统计建模。
在STATA中,有许多命令可以用来汇总数据并提取关键统计信息,以便更好地理解和解释数据。
下面将介绍一些常用的STATA命令,并详细解释其用途和功能。
1. summarize:summarize命令用于对数值变量进行简单的统计汇总。
它会输出变量的观测数、均值、标准差、最小值、最大值等统计量。
2. tabulate:tabulate命令用于对分类变量进行频数统计。
它会输出每个分类变量的取值及其频数,并可以计算相对频数和累计频数。
3. descriptives:descriptives命令可以同时对数值变量和分类变量进行统计汇总。
它会输出每个变量的观测数、缺失值数、均值、标准差、最小值、最大值、频数等统计量。
4. summarizeby:summarizeby命令可以按照一个或多个分类变量对数值变量进行分组统计。
它会输出每个分类组别的观测数、均值、标准差、最小值、最大值等统计量。
5. collapse:collapse命令用于对数据进行折叠操作,将数据按照指定的分类变量进行分组,并计算每组的汇总统计量。
它可以用于生成汇总数据集,以便后续分析。
6. bysort:bysort命令可以按照一个或多个变量对数据进行排序,然后对排序后的数据进行分组统计。
它可以与其他命令结合使用,如collapse、egen等。
7. egen:egen命令可以生成新的衍生变量,该变量可以基于原始数据进行计算。
它支持许多统计函数,如均值、标准差、总和、中位数等,并可以按照一个或多个分类变量进行分组计算。
8. tabstat:tabstat命令可以对数值变量进行多个统计量的计算,并将结果输出为一个表格。
它支持均值、标准差、最小值、最大值、中位数等统计量,并可以按照一个或多个分类变量进行分组计算。
9. corr:corr命令用于计算变量之间的相关系数。
stata频数统计命令

stata频数统计命令Stata是一个数据分析和统计软件包,广泛应用于社会科学和生物医学领域。
其中一个重要的功能是进行频数统计,也就是计算变量的每个值在数据中出现的次数。
频数统计在数据处理和描述性统计分析中十分常见,也是其他统计分析的基础。
Stata中进行频数统计的命令是"tabulate",通常缩写为"tab"。
它可以对单个变量进行频数统计,也可以对多个变量进行交叉分组的统计。
以下是一个简单的例子:```use "mydata.dta", clear* 对变量age进行频数统计tab age* 对变量gender和age进行交叉分组的频数统计tab gender age```在这个例子中,我们首先使用了"use"命令加载数据文件"mydata.dta",然后使用"tab"命令分别对变量"age"和"gender"、"age"进行了频数统计。
在Stata的输出中,我们可以看到每个值出现的次数,以及占总数的百分比。
除了"tabulate"命令,Stata还提供了其他相关的命令,如"table"、"tabstat"等。
这些命令可以对频数统计的结果进行进一步的处理和呈现,如计算百分比、排序、制作图表等。
熟练掌握这些命令,可以更加便捷地进行数据处理和展示。
总之,频数统计是数据分析和描述性统计中不可或缺的工具,Stata提供了强大而灵活的命令,能够满足不同的统计需求,为研究者提供了有力的支持。
Stata统计分析命令

Stata统计分析命令Stata是一种用于数据分析的统计软件,具有广泛的应用领域,可以用于社会科学、健康科学、金融等领域的数据分析。
Stata具有强大的数据处理和统计分析功能,可以对数据进行清洗、整理和分析,还可以进行数据可视化和报告制作。
本文将介绍一些常用的Stata统计分析命令,以供参考。
数据导入与清洗在进行数据分析之前,需要先将数据导入Stata软件中,并进行数据清洗。
以下是常用的数据导入和清洗命令:导入数据•use:使用已有的Stata数据集•import delimited:导入以逗号为分隔符或制表符为分隔符的纯文本数据•import excel:导入Excel数据文件•insheet:将文本文件读入数据集数据清洗•drop:删除变量或数据•keep:保存变量或数据•rename:重命名变量•egen:生成新的变量•recode:将变量值重新编码•merge:合并两个数据集描述性统计分析在进行数据分析之前,需要先对数据进行描述性分析。
以下是常用的描述性统计分析命令:•summarize:计算变量的基本统计量,如均值、标准差、最小和最大值、中位数、1/4和3/4位数•tabulate:计算变量的频数和百分比,可以进行交叉分析•graph box:绘制箱线图•graph scatter:绘制散点图统计分析在进行统计分析时,需要根据变量的类型和分析目的选择不同的统计方法。
以下是常用的统计分析命令:单样本统计分析•ttest:单样本t检验•onesamplewilcoxon:单样本Wilcoxon秩和检验双样本统计分析•ttest:双样本t检验•ranksum:Wilcoxon秩和检验相关分析•correlate:计算两个或多个变量之间的相关系数•pwcorr:计算Pearson相关系数矩阵回归分析•regress:运行普通最小二乘回归•logit:运行二元Logistic回归模型•oprobit:运行有序Logistic回归模型数据可视化数据可视化是Stata的另一个强大特性,可以使分析人员更清晰、更直观地了解数据分析结果。
stata常用命令总结

Stata常用命令总结Stata是一种统计分析软件,广泛用于社会科学、经济学、生物医学等领域的数据分析。
它具有丰富的功能和灵活的数据处理能力,能够进行各种统计分析、数据可视化和模型建立。
本文将总结Stata的常用命令,包括重要观点、关键发现和进一步思考,帮助读者更好地理解和使用Stata。
一、数据导入和处理e命令:用于导入Stata数据文件(.dta)。
2.import命令:用于导入其他格式的数据文件(如Excel、CSV等)。
3.save命令:用于保存当前数据文件。
4.drop命令:用于删除变量或观察值。
5.keep命令:用于保留指定的变量或观察值。
重要观点:在数据导入和处理阶段,要注意数据的完整性和准确性。
需要检查数据的缺失值、异常值和数据类型,做好数据清洗和预处理工作。
二、数据描述和统计分析1.summarize命令:用于计算变量的描述性统计量,如均值、标准差、最大值、最小值等。
2.tabulate命令:用于制作交叉表和列联表。
3.correlate命令:用于计算变量之间的相关系数。
4.regress命令:用于进行线性回归分析。
5.logit命令:用于进行二分类的逻辑回归分析。
重要观点:在进行数据描述和统计分析时,要根据研究问题选择合适的方法和指标。
同时要注意解释统计结果的意义,避免过度解读和误导。
三、数据可视化1.histogram命令:用于绘制直方图。
2.scatter命令:用于绘制散点图。
3.twoway命令:用于绘制多种类型的图形,如线图、柱状图、饼图等。
4.graph export命令:用于将图形导出为图片文件。
重要观点:数据可视化是数据分析的重要手段,能够直观地展示数据的分布和关系。
在进行数据可视化时,要选择合适的图形类型和参数,使图形简洁明了,易于理解和解释。
四、面板数据分析1.xtset命令:用于设置面板数据的时间和单位。
2.xtreg命令:用于进行面板数据的固定效应或随机效应模型分析。
Stata基本命令

Stata基本命令一、描述性统计命令:sum(var1 var2)二、独立样本t检验命令:ttest var1, by(group)三、回归(一)检测变量是否需要加对数1、C-D方程中基本都要加对数,除了0-1的小数和离散变量命令:gen lnvar1=log(var1),若var1有零值,则gen lnvar1=log(var1+1) 2、其他方程的变量检测(1)sktest var1,若PT(skewness)>0.05,则呈正态分布,不用加对数(2)ladder var1,若P(chi2)越大,就选这种形式。
(二)构建面板数据命令:xtset county year(三)回归1、随机效应模型命令:xtreg y var1 var2 DID t_2008 t_2007 t_2006 t_2005 south north,re 2、固定效应模型(地区变量不需要放进去)命令:xtreg y var1 var2 DID t_2008 t_2007 t_2006 t_2005,fe3、随机效应模型和固定效应模型的结果只能两者选其一,方法是Hausman检验,做法如下:第一步:固定效应模型回归 xtreg y var1 var2 DID t_2008 t_2007 t_2006 t_2005,fe第二步:存储固定效应值 est store fe第三步:随机效应模型回归 xtreg y var1 var2 DID t_2008 t_2007 t_2006 t_2005 south north,re第四步:存储随机效应值 est store re第五步:检测 hausman fe re,看prob>chi2的结果,若显著,则选择固定效应模型。
(一般都是选择固定效应模型)四、注意数据的保存和命令的保存Do命令的保存,可以使用英文的””在里面加注释。
stata描述性统计代码

stata描述性统计代码Stata是一种强大的数据分析软件,它提供了丰富的统计分析功能和数据处理工具。
在Stata中进行描述性统计分析是非常常见的一种数据处理任务,下面是一些常用的Stata描述性统计代码: 1. 描述性统计分析summarize varname通过summarize命令可以计算变量varname的描述性统计量,包括平均数、标准差、最小值、最大值、中位数等。
2. 频数统计tabulate varname通过tabulate命令可以计算变量varname的频数统计,包括每个取值的频数和频率。
3. 分组统计summarize varname, by(groupvar)通过by子句可以按照groupvar变量进行分组统计,计算每个组别内变量varname的描述性统计量。
4. 交叉统计tabulate varname1 varname2通过tabulate命令可以计算两个变量varname1和varname2的交叉统计表,包括每个组合的频数和频率。
5. 分组交叉统计tabulate varname1 varname2, by(groupvar)通过by子句可以按照groupvar变量进行分组交叉统计,计算每个组别内两个变量varname1和varname2的交叉统计表。
6. 相关分析correlate varname1 varname2通过correlate命令可以计算两个变量varname1和varname2之间的相关系数和协方差。
7. 回归分析regress depvar indepvar1 indepvar2...通过regress命令可以进行回归分析,其中depvar为因变量,indepvar1、indepvar2等为自变量。
以上是一些常用的Stata描述性统计代码,可以帮助你快速地完成数据分析任务。
stata描述性统计命令

stata描述性统计命令
Stata的描述性统计命令有多种,它们可以帮助研究者更好地了解数
据集的总体特征。
summarize命令用于描述变量的汇总统计。
它可以提供数据的总体基
本统计信息,包括变量的极值,求和和平均值,标准偏差,偏度和峰度等。
tabstat命令可以提供许多汇总统计,如平均数,极差,中位数,众数,标准偏差,偏度和峰度等。
means命令用于计算一般变量的平均值,可以指定组分的变量(空格
分隔),以计算某个变量对应不同组分的平均值。
summarize, tabstat和means命令都可以设置if和in选项,以按
某个条件或某组约束变量汇总统计。
假设检验命令可以用于检验某个假设是否为真。
t-test可以用来检
验均值之间是否存在显著差异;ranksum可以用来检验两个样本是否具有
相同或不同的数据分布;correlate可以用来检验两个变量之间是否存在
线性关系。
graph box可以创建箱线图,以显示一组数据的总体分布。
histogram可以创建一种特定的直方图,可以清楚地显示数据的分布
状况。
Stata还提供了其他描述性统计命令,比如contrast,prtest,correlate等,用于更深入地了解数据集的总体特征。
stata函数命令

stata函数命令Stata是一种广泛使用的统计软件,它提供了许多函数命令来支持数据分析和建模。
在本文中,我们将为您介绍一些常用的Stata函数命令。
一、描述统计量命令1. summarize命令Summarize命令提供了基本的描述性统计信息,例如平均值、标准偏差、最小值、最大值等。
语法:summarize var1 var2 var3 ...2. tabulate命令Tabulate命令提供了分类变量的频率统计信息。
它可以将分类变量按不同的组合列出。
语法:tabulate var1 var2, row column3. correlate命令Correlate命令提供了变量之间的相关系数,并生成相关系数矩阵。
它可以帮助分析变量之间的关系。
语法:correlate var1 var2 var3 ...二、数据处理命令1. generate命令Generate命令可以创建新的变量或改变原始变量的值。
它可以计算变量的平均值、差异、百分位数、标准化等。
语法:generate newvar = function(oldvar)2. drop命令Drop命令可以删除Stata数据集中的变量。
它可以删除一列或多列变量。
语法:drop var1 var2 var3 ...3. keep命令Keep命令可以仅保留数据集中的变量。
它可以保留一列或多列变量。
语法:keep var1 var2 var3 ...三、数据分析和建模命令1. regress命令Regress命令可以用来拟合一个线性回归模型,它可以根据数据集的给定变量来预测因变量。
语法:regress depvar indepvar1 indepvar2 ...2. logistic命令Logistic命令可以用来拟合一个逻辑回归模型,它可以预测二元变量的概率。
语法:logistic depvar indepvar1 indepvar2 ...3. cluster命令Cluster命令可以用来构建聚类分析模型,它可以将样本分成互不干扰的群组。
stata做描述统计步骤

stata做描述统计步骤
首先,导入数据集auto.dta通过存储文件打开该数据的stata命令为:use "D:\你自己存放auto.dta文件的路径\auto.dta"。
或者打开stata软件自带的数据集。
相应的Stata命令为sysuse auto,clear出现这样的结果表示数据导入成功。
数据导入成功以后,可先输入stata 命令:describe查看数据集的大致信息。
接下来,我们根据自己的研究需要,选择具体的变量或者全部的变量进行描述性分析。
Stata的操作演示如下:输入stata命令:summarize
summarize后可以跟具体变量的名称,如果不跟变量名称,则默认对全部变量进行描述性分析,两种结果如下:
(1)输入命令:summarize,得到全部变量的描述性统计结果。
(2)输入命令:summarize price mpg rep78 headroom,得到部分变量的描述性统计结果。
打开描述性统计结果1.doc文件对其进行整理,使之符合论文的要求以及更美观。
stata常用命令资料

stata常用命令资料Stata是一种广泛使用的统计分析软件,它提供了丰富的数据处理、统计计算和图形绘制功能。
下面是一些常用的Stata命令及其用法,以帮助您更好地使用Stata进行数据分析。
1. 数据导入与导出- `import excel:从Excel文件中导入数据。
- `import delimited:从文本文件中导入数据。
- `save:保存当前数据集。
- `use:加载已保存的数据集。
- `export excel:将数据导出到Excel文件。
2. 数据处理与清洗- `drop:删除变量或观察。
- `keep:保留指定变量或观察。
- `rename:重命名变量。
- `egen:生成新变量,如求和、平均值等。
- `egen group:按照指定的变量进行分组。
3. 描述统计- `summarize:计算变量的描述统计量,如均值、标准差等。
- `tabulate:制表统计,用于计算分类变量的频数和百分比。
- `histogram:绘制直方图。
- `correlate:计算变量之间的相关系数。
- `egen:生成新的汇总统计量,如总和、均值等。
4. 统计模型- `regress:线性回归分析。
- `logit:二项逻辑回归分析。
- `probit:概率回归模型。
- `ttest:单样本或双样本t检验。
- `anova:方差分析。
5. 数据可视化- `scatter:绘制散点图。
- `line:绘制折线图。
- `bar:绘制柱状图。
- `histogram:绘制直方图。
- `graph combine:将多个图形合并为一个图形。
6. 数据管理- `sort:对数据进行排序。
- `merge:合并两个数据集。
- `reshape:改变数据集的结构。
- `append:将多个数据集追加到一个数据集中。
- `collapse:将数据按照指定的变量进行折叠。
7. 循环与条件语句- `foreach:循环变量的值。
stata常用命令总结

stata常用命令总结Stata是一种统计分析软件,常用于数据处理、数据分析和统计建模等领域。
以下是一些常用的Stata命令的总结:1. 数据加载与保存:- `use`:加载Stata数据文件。
- `import`:导入其他文件格式的数据。
- `save`:保存当前数据文件。
- `export`:将数据导出到其他文件格式。
2. 数据处理与变量操作:- `generate`:创建新变量。
- `replace`:替换变量值。
- `drop`:删除变量或观测。
- `rename`:重命名变量。
- `sort`:对数据进行排序。
- `merge`:合并数据集。
3. 描述性统计与数据分析:- `summarize`:计算变量的描述性统计量。
- `tabulate`:制表统计。
- `regress`:进行线性回归分析。
- `logit`:进行Logistic回归分析。
- `anova`:进行方差分析。
- `ttest`:进行双样本t检验。
4. 绘图与可视化:- `histogram`:绘制直方图。
- `scatter`:绘制散点图。
- `line`:绘制折线图。
- `boxplot`:绘制箱线图。
- `graph combine`:组合多个图形。
5. 循环与条件语句:- `forvalues`:进行循环操作。
- `if`:根据条件进行数据筛选。
- `foreach`:对变量进行循环操作。
这只是一些常用的Stata命令的总结,Stata还有很多其他强大的功能和命令。
你可以参考Stata官方文档或其他相关资源,深入了解更多命令和用法。
stata常用命令总结

stata常用命令总结Stata是一款广泛应用于数据分析与统计建模的统计软件,具有强大的功能和广泛的应用领域。
在Stata中,我们可以通过命令来完成数据的读取、整理、分析和可视化等任务。
本文将对一些常用的Stata命令进行总结和介绍,以援助读者更好地理解和应用Stata软件。
一、数据的读取与整理1. 读取数据文件:- use 文件名:读取已经存在的Stata数据文件。
- import delimited 文件名:读取以逗号、制表符或其他分隔符分隔的文本文件。
2. 显示数据:- describe:显示数据文件的基本信息,包括变量名、数据类型、有效观测数等。
- browse:以表格形式显示数据文件的部分观测值。
3. 数据整理:- generate 新变量名=计算公式:创建新的变量,并依据指定公式进行计算。
- egen 新变量名=计算函数:依据指定的计算函数对现有变量进行计算,并创建新的变量。
二、数据的统计分析与建模1. 描述性统计:- summarize 变量名:对指定变量进行描述性统计,包括均值、标准差、最小值、最大值等。
- tabulate 变量名:生成指定变量的频数表和百分比表。
2. 数据筛选与子集选择:- keep 若果条件:保留符合条件的观测值,删除不满足条件的观测值。
- drop 若果条件:删除符合条件的观测值,保留不满足条件的观测值。
- qui keep 若果条件:以无输出方式保留符合条件的观测值并生成新数据集。
- qui drop 若果条件:以无输出方式删除符合条件的观测值并生成新数据集。
3. 参数预估与假设检验:- regress 因变量自变量1 自变量2 ...:进行平凡最小二乘回归分析。
- ttest 变量名, by(分组变量):进行两组样本均值差异的t检验。
4. 数据可视化:- scatter 变量1 变量2:绘制散点图。
- histogram 变量名:绘制直方图。
- graph twoway line 变量1 变量2:绘制折线图。
Stata教程:描述性统计命令与输出结果说明

本节STATA命令摘要by分组变量:]summarize变量名1变量名2…变量名m[,detail]ci变量名1变量名2…变量名m[,level(#)binomialpoissonexposure(varname)by(分组变量)]cii样本量均数标准差[,level(#)]tab1变量名[,generate(变量名)]·资料特征描述(均数,中位数,离散程度)例:某地测定克山病患者与克山病健康人的血磷测定值如下表(数据摘自四川医学院主编的卫生统计学,1978出版,p21):患者2.63.243.733.734.324.735.185.585.786.406.53健康人1.671.981.982.332.342.503.603.734.144.174.574.825.78并假定这些数据已以STATA格式存入ex2.dta文件中,其中变量x1为患者的血磷测定值数据,变量x2为健康人的血磷测定值数据。
上述数据也可以用变量x表示血磷测定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。
计算资料均数,标准差命令summarize,以述资料为例:useex2,clearsummarizex1x2结果:变量样本数均数标准差最小值最大值Variable|ObsMeanStd.Dev.MinMax---------+x1|114.7109091.3029772.66.53x2|133.3546151.3043681.675.78即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。
stata 统计缺失值

stata 统计缺失值
在Stata中,可以使用多种方法来统计缺失值。
下面是几个常用的方法:
1. `summarize` 命令:可以使用 `summarize` 命令来统计变量的缺失值情况。
使用 `summarize` 命令时,可以使用 `missing` 选项来计算缺失值的数量和比例。
例如,下面的命令将统计变量x 的缺失值情况:
```
summarize x, missing
```
2. `tabulate` 命令:可以使用 `tabulate` 命令来计算分类变量的缺失值数量和比例。
例如,下面的命令将统计变量 gender 的缺失值情况:
```
tabulate gender, missing
```
3. `egen` 命令:可以使用 `egen` 命令来创建新的变量来指示缺失值。
例如,下面的命令将创建一个新的变量
`missing_indicator`,其中值为 1 表示对应观测存在缺失值,值为 0 表示对应观测没有缺失值:
```
egen missing_indicator = anymissing(varlist)
```
4. `egen` 命令:还可以使用 `egen` 命令的 `missing(varlist)` 选项来统计多个变量的缺失值情况。
例如,下面的命令将统计变量 x 和 y 的缺失值情况:
```
egen missing_count = missing(x y)
```
以上是几个常用的方法,可以根据具体的需求选择适合的方法来统计缺失值。
STATA常用命令总结(34个含使用示例)

STATA常用命令总结(34个含使用示例)1. sum:计算变量的简要统计信息,如均值、标准差等。
示例:sum variable2. tabulate:生成变量的频数表。
示例:tabulate variable3. describe:显示数据集的基本信息,如变量名和数据类型。
示例:describe dataset4. drop:删除数据集中的变量。
示例:drop variable5. keep:保留数据集中的变量,删除其他变量。
示例:keep variable6. rename:重命名变量。
示例:rename variable newname7. gen:根据已有变量生成新的变量。
示例:gen newvar = expression8. egen:根据已有变量生成新的变量,可以使用更复杂的函数和运算符。
示例:egen newvar = function(variable)9. recode:对变量的取值进行重新编码。
示例:recode variable (oldvalues= newvalues) 10. dropif:根据条件删除观测。
示例:dropif condition11. keepif:根据条件保留观测。
示例:keepif condition12. sort:对数据集按指定变量进行排序。
示例:sort variable13. merge:将两个数据集按照共享变量合并。
示例:merge 1:1 variable using dataset214. reshape:将数据从宽格式转换为长格式或反之。
示例:reshape long var, i(id) j(year)15. regress:进行线性回归分析。
示例:regress dependent_var independent_vars 16. logistic:进行逻辑回归分析。
示例:logistic dependent_var independent_vars 17. probit:进行Probit回归分析。
STATA常用命令总结(34个含使用示例)

STATA常用命令总结(34个含使用示例)1. clear:清空当前工作空间中的数据。
示例:clear2. use:加载数据文件。
示例:use "data.dta"3. describe:查看数据文件的基本信息。
示例:describe4. summarize:统计数据的描述性统计量。
示例:summarize var1 var2 var35. tabulate:制作数据的列联表。
示例:tabulate var1 var26. scatter:绘制散点图。
示例:scatter x_var y_var7. histogram:绘制直方图。
示例:histogram var8. boxplot:绘制箱线图。
示例:boxplot var1 var29. ttest:进行单样本或双样本t检验。
示例:ttest var, by(group_var)10. regress:进行最小二乘法线性回归分析。
示例:regress dependent_var independent_var1 independent_var211. logistic:进行逻辑斯蒂回归分析。
示例:logistic dependent_var independent_var1 independent_var212. anova:进行方差分析。
示例:anova dependent_var independent_var13. chi2:进行卡方检验。
示例:chi2 var1 var214. correlate:计算变量之间的相关系数。
示例:correlate var1 var2 var315. replace:替换数据中的一些值。
示例:replace var = new_value if condition16. drop:删除变量或观察。
示例:drop var17. rename:重命名变量。
示例:rename old_var new_var18. generate:生成新变量。
stata的sum命令用法

stata的sum命令用法详解在Stata中,`sum`命令用于计算变量的统计摘要信息,例如均值、标准差、最小值、最大值等。
以下是`sum`命令的基本用法和一些常见选项的详解:1. 基本用法:```sum varname```其中,`varname`是你想要汇总统计信息的变量的名称。
这将生成有关该变量的基本统计信息,如均值、标准差、最小值、最大值等。
2. 选项:- detail:显示详细的统计信息,包括百分位数和其他一些详细的统计数据。
```sum varname, detail```- meanonly:只显示均值。
```sum varname, meanonly```- format:控制输出的格式。
```sum varname, format```- by():按照某个变量进行分组,并计算每个组的统计信息。
```sum varname, by(groupvar)```- weight():对数据进行加权汇总。
```sum varname [aweight=weightvar]```- fweights()、iweights()、pweights():分别使用频率权重、倒数权重和概率权重进行汇总。
```sum varname [fweight=weightvar]sum varname [iweight=weightvar]sum varname [pweight=weightvar]```- percentiles():指定要计算的百分位数。
```sum varname, percentiles(10 25 50 75 90)```3. 示例:-计算变量`income`的基本统计信息:```sum income```-计算变量`income`的均值,同时显示详细统计信息:```sum income, meanonly detail```-对变量`age`按照`gender`进行分组计算统计信息:```sum age, by(gender)```这些是`sum`命令的一些基本用法和选项,你可以根据自己的需求选择适当的选项。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一, 分类数据的整理:
1. 将softdrink 数据粘贴到stata 的data editor ,形成变量var1
2. 输入命令 generate var2 = 1,生成变量var2
3. 点击 statistics —summaries-tables —one way tables 输入var1,OK ,产生 频数分布表;或输入命令 tabulate var1
Total 50 100.00
Sprite 5 10.00 100.00 Pepsi-Cola 13 26.00 90.00 Dr. Pepper 5 10.00 64.00 Diet Coke 8 16.00 54.00Coke Classic 19 38.00 38.00
var1 Freq. Percent Cum.tabulate var1
4. 点击 graphics —bar chart –在main 下 选择sum var2,在catageries 下选择group1 var1,在bars 下,打钩 label with total bar height ,OK
产生条形图。
或命令:graph bar (sum) var2, over(var1) blabel(total)
s u m o f v a r 2
5. 输入命令 graph pie var2, over(var1) plabel(_all percent) 生成饼形图
二,数值型数据的整理:
1.将wageweb(50个营销副总裁的年薪1000$)粘贴到stata的data editor上。
2.输入:histogram var1, width(10) start(90) percent addlabel norm
或点击graphics—histogram,输入var1 ,在width of bin 输入10,在lower limited 输入90,在add height label 打钩,在density plot 下打钩normal,生成直方图。
3.点击graphics—box plot ,输入var1,生成箱线图
4.点击statistics—summaries-distributional plot—stem-and-leaf display 选择var1 产生茎叶图。
5,点击statistics—summaries-summary-summary statistics,选择var1,在display additional statistics项打钩,产生数据分布的概括性度量指标。
F r e q u e n c y
. stem var1
Stem-and-leaf plot for var1
9*35
10*24
11*23468
12*334477
13*124456788888
14*01122345588
15*14577
16*0255
17*038
. summarize var1, detail
var1
Percentiles Smallest
1% 93 93
5% 102 95
10% 112.5 102 Obs 50 25% 124 104 Sum of Wgt. 50 50% 138 Mean 137.4
Largest Std. Dev. 19.43067 75% 148 165
90% 163.5 170 Variance 377.551 95% 170 173 Skewness -.2050141 99% 178 178 Kurtosis 2.820951。