stata统计操作命令

合集下载

STATA命令应用及详细解释

STATA命令应用及详细解释STATA是一种统计软件，被广泛应用于数据分析和统计建模。

在STATA中，有许多命令可以用来汇总数据并提取关键统计信息，以便更好地理解和解释数据。

下面将介绍一些常用的STATA命令，并详细解释其用途和功能。

1. summarize:summarize命令用于对数值变量进行简单的统计汇总。

它会输出变量的观测数、均值、标准差、最小值、最大值等统计量。

2. tabulate:tabulate命令用于对分类变量进行频数统计。

它会输出每个分类变量的取值及其频数，并可以计算相对频数和累计频数。

3. descriptives:descriptives命令可以同时对数值变量和分类变量进行统计汇总。

它会输出每个变量的观测数、缺失值数、均值、标准差、最小值、最大值、频数等统计量。

4. summarizeby:summarizeby命令可以按照一个或多个分类变量对数值变量进行分组统计。

它会输出每个分类组别的观测数、均值、标准差、最小值、最大值等统计量。

5. collapse:collapse命令用于对数据进行折叠操作，将数据按照指定的分类变量进行分组，并计算每组的汇总统计量。

它可以用于生成汇总数据集，以便后续分析。

6. bysort:bysort命令可以按照一个或多个变量对数据进行排序，然后对排序后的数据进行分组统计。

它可以与其他命令结合使用，如collapse、egen等。

7. egen:egen命令可以生成新的衍生变量，该变量可以基于原始数据进行计算。

它支持许多统计函数，如均值、标准差、总和、中位数等，并可以按照一个或多个分类变量进行分组计算。

8. tabstat:tabstat命令可以对数值变量进行多个统计量的计算，并将结果输出为一个表格。

它支持均值、标准差、最小值、最大值、中位数等统计量，并可以按照一个或多个分类变量进行分组计算。

9. corr:corr命令用于计算变量之间的相关系数。

stata频数统计命令

stata频数统计命令Stata是一个数据分析和统计软件包，广泛应用于社会科学和生物医学领域。

其中一个重要的功能是进行频数统计，也就是计算变量的每个值在数据中出现的次数。

频数统计在数据处理和描述性统计分析中十分常见，也是其他统计分析的基础。

Stata中进行频数统计的命令是"tabulate"，通常缩写为"tab"。

它可以对单个变量进行频数统计，也可以对多个变量进行交叉分组的统计。

以下是一个简单的例子：```use "mydata.dta", clear* 对变量age进行频数统计tab age* 对变量gender和age进行交叉分组的频数统计tab gender age```在这个例子中，我们首先使用了"use"命令加载数据文件"mydata.dta"，然后使用"tab"命令分别对变量"age"和"gender"、"age"进行了频数统计。

在Stata的输出中，我们可以看到每个值出现的次数，以及占总数的百分比。

除了"tabulate"命令，Stata还提供了其他相关的命令，如"table"、"tabstat"等。

这些命令可以对频数统计的结果进行进一步的处理和呈现，如计算百分比、排序、制作图表等。

熟练掌握这些命令，可以更加便捷地进行数据处理和展示。

总之，频数统计是数据分析和描述性统计中不可或缺的工具，Stata提供了强大而灵活的命令，能够满足不同的统计需求，为研究者提供了有力的支持。

Stata统计分析命令

Stata统计分析命令Stata是一种用于数据分析的统计软件，具有广泛的应用领域，可以用于社会科学、健康科学、金融等领域的数据分析。

Stata具有强大的数据处理和统计分析功能，可以对数据进行清洗、整理和分析，还可以进行数据可视化和报告制作。

本文将介绍一些常用的Stata统计分析命令，以供参考。

数据导入与清洗在进行数据分析之前，需要先将数据导入Stata软件中，并进行数据清洗。

以下是常用的数据导入和清洗命令：导入数据•use：使用已有的Stata数据集•import delimited：导入以逗号为分隔符或制表符为分隔符的纯文本数据•import excel：导入Excel数据文件•insheet：将文本文件读入数据集数据清洗•drop：删除变量或数据•keep：保存变量或数据•rename：重命名变量•egen：生成新的变量•recode：将变量值重新编码•merge：合并两个数据集描述性统计分析在进行数据分析之前，需要先对数据进行描述性分析。

以下是常用的描述性统计分析命令：•summarize：计算变量的基本统计量，如均值、标准差、最小和最大值、中位数、1/4和3/4位数•tabulate：计算变量的频数和百分比，可以进行交叉分析•graph box：绘制箱线图•graph scatter：绘制散点图统计分析在进行统计分析时，需要根据变量的类型和分析目的选择不同的统计方法。

以下是常用的统计分析命令：单样本统计分析•ttest：单样本t检验•onesamplewilcoxon：单样本Wilcoxon秩和检验双样本统计分析•ttest：双样本t检验•ranksum：Wilcoxon秩和检验相关分析•correlate：计算两个或多个变量之间的相关系数•pwcorr：计算Pearson相关系数矩阵回归分析•regress：运行普通最小二乘回归•logit：运行二元Logistic回归模型•oprobit：运行有序Logistic回归模型数据可视化数据可视化是Stata的另一个强大特性，可以使分析人员更清晰、更直观地了解数据分析结果。

stata常用命令总结

Stata常用命令总结Stata是一种统计分析软件，广泛用于社会科学、经济学、生物医学等领域的数据分析。

它具有丰富的功能和灵活的数据处理能力，能够进行各种统计分析、数据可视化和模型建立。

本文将总结Stata的常用命令，包括重要观点、关键发现和进一步思考，帮助读者更好地理解和使用Stata。

一、数据导入和处理e命令：用于导入Stata数据文件（.dta）。

2.import命令：用于导入其他格式的数据文件（如Excel、CSV等）。

3.save命令：用于保存当前数据文件。

4.drop命令：用于删除变量或观察值。

5.keep命令：用于保留指定的变量或观察值。

重要观点：在数据导入和处理阶段，要注意数据的完整性和准确性。

需要检查数据的缺失值、异常值和数据类型，做好数据清洗和预处理工作。

二、数据描述和统计分析1.summarize命令：用于计算变量的描述性统计量，如均值、标准差、最大值、最小值等。

2.tabulate命令：用于制作交叉表和列联表。

3.correlate命令：用于计算变量之间的相关系数。

4.regress命令：用于进行线性回归分析。

5.logit命令：用于进行二分类的逻辑回归分析。

重要观点：在进行数据描述和统计分析时，要根据研究问题选择合适的方法和指标。

同时要注意解释统计结果的意义，避免过度解读和误导。

三、数据可视化1.histogram命令：用于绘制直方图。

2.scatter命令：用于绘制散点图。

3.twoway命令：用于绘制多种类型的图形，如线图、柱状图、饼图等。

4.graph export命令：用于将图形导出为图片文件。

重要观点：数据可视化是数据分析的重要手段，能够直观地展示数据的分布和关系。

在进行数据可视化时，要选择合适的图形类型和参数，使图形简洁明了，易于理解和解释。

四、面板数据分析1.xtset命令：用于设置面板数据的时间和单位。

2.xtreg命令：用于进行面板数据的固定效应或随机效应模型分析。

Stata基本命令

Stata基本命令一、描述性统计命令：sum(var1 var2)二、独立样本t检验命令：ttest var1, by(group)三、回归（一）检测变量是否需要加对数1、C-D方程中基本都要加对数，除了0-1的小数和离散变量命令：gen lnvar1=log(var1)，若var1有零值，则gen lnvar1=log(var1+1) 2、其他方程的变量检测（1）sktest var1，若PT(skewness)>0.05，则呈正态分布，不用加对数（2）ladder var1，若P(chi2)越大，就选这种形式。

（二）构建面板数据命令：xtset county year（三）回归1、随机效应模型命令：xtreg y var1 var2 DID t_2008 t_2007 t_2006 t_2005 south north,re 2、固定效应模型（地区变量不需要放进去）命令：xtreg y var1 var2 DID t_2008 t_2007 t_2006 t_2005,fe3、随机效应模型和固定效应模型的结果只能两者选其一，方法是Hausman检验，做法如下：第一步：固定效应模型回归 xtreg y var1 var2 DID t_2008 t_2007 t_2006 t_2005,fe第二步：存储固定效应值 est store fe第三步：随机效应模型回归 xtreg y var1 var2 DID t_2008 t_2007 t_2006 t_2005 south north,re第四步：存储随机效应值 est store re第五步：检测 hausman fe re，看prob>chi2的结果，若显著，则选择固定效应模型。

（一般都是选择固定效应模型）四、注意数据的保存和命令的保存Do命令的保存，可以使用英文的””在里面加注释。

stata描述性统计代码

stata描述性统计代码Stata是一种强大的数据分析软件，它提供了丰富的统计分析功能和数据处理工具。

在Stata中进行描述性统计分析是非常常见的一种数据处理任务，下面是一些常用的Stata描述性统计代码： 1. 描述性统计分析summarize varname通过summarize命令可以计算变量varname的描述性统计量，包括平均数、标准差、最小值、最大值、中位数等。

2. 频数统计tabulate varname通过tabulate命令可以计算变量varname的频数统计，包括每个取值的频数和频率。

3. 分组统计summarize varname, by(groupvar)通过by子句可以按照groupvar变量进行分组统计，计算每个组别内变量varname的描述性统计量。

4. 交叉统计tabulate varname1 varname2通过tabulate命令可以计算两个变量varname1和varname2的交叉统计表，包括每个组合的频数和频率。

5. 分组交叉统计tabulate varname1 varname2, by(groupvar)通过by子句可以按照groupvar变量进行分组交叉统计，计算每个组别内两个变量varname1和varname2的交叉统计表。

6. 相关分析correlate varname1 varname2通过correlate命令可以计算两个变量varname1和varname2之间的相关系数和协方差。

7. 回归分析regress depvar indepvar1 indepvar2...通过regress命令可以进行回归分析，其中depvar为因变量，indepvar1、indepvar2等为自变量。

以上是一些常用的Stata描述性统计代码，可以帮助你快速地完成数据分析任务。

stata描述性统计命令

stata描述性统计命令
Stata的描述性统计命令有多种，它们可以帮助研究者更好地了解数
据集的总体特征。

summarize命令用于描述变量的汇总统计。

它可以提供数据的总体基
本统计信息，包括变量的极值，求和和平均值，标准偏差，偏度和峰度等。

tabstat命令可以提供许多汇总统计，如平均数，极差，中位数，众数，标准偏差，偏度和峰度等。

means命令用于计算一般变量的平均值，可以指定组分的变量（空格
分隔），以计算某个变量对应不同组分的平均值。

summarize, tabstat和means命令都可以设置if和in选项，以按
某个条件或某组约束变量汇总统计。

假设检验命令可以用于检验某个假设是否为真。

t-test可以用来检
验均值之间是否存在显著差异；ranksum可以用来检验两个样本是否具有
相同或不同的数据分布；correlate可以用来检验两个变量之间是否存在
线性关系。

graph box可以创建箱线图，以显示一组数据的总体分布。

histogram可以创建一种特定的直方图，可以清楚地显示数据的分布
状况。

Stata还提供了其他描述性统计命令，比如contrast，prtest，correlate等，用于更深入地了解数据集的总体特征。

stata函数命令

stata函数命令Stata是一种广泛使用的统计软件，它提供了许多函数命令来支持数据分析和建模。

在本文中，我们将为您介绍一些常用的Stata函数命令。

一、描述统计量命令1. summarize命令Summarize命令提供了基本的描述性统计信息，例如平均值、标准偏差、最小值、最大值等。

语法：summarize var1 var2 var3 ...2. tabulate命令Tabulate命令提供了分类变量的频率统计信息。

它可以将分类变量按不同的组合列出。

语法：tabulate var1 var2, row column3. correlate命令Correlate命令提供了变量之间的相关系数，并生成相关系数矩阵。

它可以帮助分析变量之间的关系。

语法：correlate var1 var2 var3 ...二、数据处理命令1. generate命令Generate命令可以创建新的变量或改变原始变量的值。

它可以计算变量的平均值、差异、百分位数、标准化等。

语法：generate newvar = function(oldvar)2. drop命令Drop命令可以删除Stata数据集中的变量。

它可以删除一列或多列变量。

语法：drop var1 var2 var3 ...3. keep命令Keep命令可以仅保留数据集中的变量。

它可以保留一列或多列变量。

语法：keep var1 var2 var3 ...三、数据分析和建模命令1. regress命令Regress命令可以用来拟合一个线性回归模型，它可以根据数据集的给定变量来预测因变量。

语法：regress depvar indepvar1 indepvar2 ...2. logistic命令Logistic命令可以用来拟合一个逻辑回归模型，它可以预测二元变量的概率。

语法：logistic depvar indepvar1 indepvar2 ...3. cluster命令Cluster命令可以用来构建聚类分析模型，它可以将样本分成互不干扰的群组。

stata做描述统计步骤

stata做描述统计步骤
首先，导入数据集auto.dta通过存储文件打开该数据的stata命令为：use "D:\你自己存放auto.dta文件的路径\auto.dta"。

或者打开stata软件自带的数据集。

相应的Stata命令为sysuse auto,clear出现这样的结果表示数据导入成功。

数据导入成功以后，可先输入stata 命令：describe查看数据集的大致信息。

接下来，我们根据自己的研究需要，选择具体的变量或者全部的变量进行描述性分析。

Stata的操作演示如下：输入stata命令：summarize
summarize后可以跟具体变量的名称，如果不跟变量名称，则默认对全部变量进行描述性分析，两种结果如下：
（1）输入命令：summarize，得到全部变量的描述性统计结果。

（2）输入命令：summarize price mpg rep78 headroom，得到部分变量的描述性统计结果。

打开描述性统计结果1.doc文件对其进行整理，使之符合论文的要求以及更美观。

stata常用命令资料

stata常用命令资料Stata是一种广泛使用的统计分析软件，它提供了丰富的数据处理、统计计算和图形绘制功能。

下面是一些常用的Stata命令及其用法，以帮助您更好地使用Stata进行数据分析。

1. 数据导入与导出- `import excel：从Excel文件中导入数据。

- `import delimited：从文本文件中导入数据。

- `save：保存当前数据集。

- `use：加载已保存的数据集。

- `export excel：将数据导出到Excel文件。

2. 数据处理与清洗- `drop：删除变量或观察。

- `keep：保留指定变量或观察。

- `rename：重命名变量。

- `egen：生成新变量，如求和、平均值等。

- `egen group：按照指定的变量进行分组。

3. 描述统计- `summarize：计算变量的描述统计量，如均值、标准差等。

- `tabulate：制表统计，用于计算分类变量的频数和百分比。

- `histogram：绘制直方图。

- `correlate：计算变量之间的相关系数。

- `egen：生成新的汇总统计量，如总和、均值等。

4. 统计模型- `regress：线性回归分析。

- `logit：二项逻辑回归分析。

- `probit：概率回归模型。

- `ttest：单样本或双样本t检验。

- `anova：方差分析。

5. 数据可视化- `scatter：绘制散点图。

- `line：绘制折线图。

- `bar：绘制柱状图。

- `histogram：绘制直方图。

- `graph combine：将多个图形合并为一个图形。

6. 数据管理- `sort：对数据进行排序。

- `merge：合并两个数据集。

- `reshape：改变数据集的结构。

- `append：将多个数据集追加到一个数据集中。

- `collapse：将数据按照指定的变量进行折叠。

7. 循环与条件语句- `foreach：循环变量的值。

stata常用命令总结

stata常用命令总结Stata是一种统计分析软件，常用于数据处理、数据分析和统计建模等领域。

以下是一些常用的Stata命令的总结：1. 数据加载与保存：- `use`：加载Stata数据文件。

- `import`：导入其他文件格式的数据。

- `save`：保存当前数据文件。

- `export`：将数据导出到其他文件格式。

2. 数据处理与变量操作：- `generate`：创建新变量。

- `replace`：替换变量值。

- `drop`：删除变量或观测。

- `rename`：重命名变量。

- `sort`：对数据进行排序。

- `merge`：合并数据集。

3. 描述性统计与数据分析：- `summarize`：计算变量的描述性统计量。

- `tabulate`：制表统计。

- `regress`：进行线性回归分析。

- `logit`：进行Logistic回归分析。

- `anova`：进行方差分析。

- `ttest`：进行双样本t检验。

4. 绘图与可视化：- `histogram`：绘制直方图。

- `scatter`：绘制散点图。

- `line`：绘制折线图。

- `boxplot`：绘制箱线图。

- `graph combine`：组合多个图形。

5. 循环与条件语句：- `forvalues`：进行循环操作。

- `if`：根据条件进行数据筛选。

- `foreach`：对变量进行循环操作。

这只是一些常用的Stata命令的总结，Stata还有很多其他强大的功能和命令。

你可以参考Stata官方文档或其他相关资源，深入了解更多命令和用法。

stata常用命令总结

stata常用命令总结Stata是一款广泛应用于数据分析与统计建模的统计软件，具有强大的功能和广泛的应用领域。

在Stata中，我们可以通过命令来完成数据的读取、整理、分析和可视化等任务。

本文将对一些常用的Stata命令进行总结和介绍，以援助读者更好地理解和应用Stata软件。

一、数据的读取与整理1. 读取数据文件：- use 文件名：读取已经存在的Stata数据文件。

- import delimited 文件名：读取以逗号、制表符或其他分隔符分隔的文本文件。

2. 显示数据：- describe：显示数据文件的基本信息，包括变量名、数据类型、有效观测数等。

- browse：以表格形式显示数据文件的部分观测值。

3. 数据整理：- generate 新变量名=计算公式：创建新的变量，并依据指定公式进行计算。

- egen 新变量名=计算函数：依据指定的计算函数对现有变量进行计算，并创建新的变量。

二、数据的统计分析与建模1. 描述性统计：- summarize 变量名：对指定变量进行描述性统计，包括均值、标准差、最小值、最大值等。

- tabulate 变量名：生成指定变量的频数表和百分比表。

2. 数据筛选与子集选择：- keep 若果条件：保留符合条件的观测值，删除不满足条件的观测值。

- drop 若果条件：删除符合条件的观测值，保留不满足条件的观测值。

- qui keep 若果条件：以无输出方式保留符合条件的观测值并生成新数据集。

- qui drop 若果条件：以无输出方式删除符合条件的观测值并生成新数据集。

3. 参数预估与假设检验：- regress 因变量自变量1 自变量2 ...：进行平凡最小二乘回归分析。

- ttest 变量名, by(分组变量)：进行两组样本均值差异的t检验。

4. 数据可视化：- scatter 变量1 变量2：绘制散点图。

- histogram 变量名：绘制直方图。

- graph twoway line 变量1 变量2：绘制折线图。

Stata教程：描述性统计命令与输出结果说明

本节STATA命令摘要by分组变量：]summarize变量名1变量名2…变量名m[，detail]ci变量名1变量名2…变量名m[，level（#）binomialpoissonexposure（varname）by（分组变量）]cii样本量均数标准差[，level（#）]tab1变量名[，generate（变量名）]·资料特征描述（均数，中位数，离散程度）例：某地测定克山病患者与克山病健康人的血磷测定值如下表（数据摘自四川医学院主编的卫生统计学，1978出版，p21）：患者2．63．243．733．734．324．735．185．585．786．406．53健康人1．671．981．982．332．342．503．603．734．144．174．574．825．78并假定这些数据已以STATA格式存入ex2．dta文件中，其中变量x1为患者的血磷测定值数据，变量x2为健康人的血磷测定值数据。

上述数据也可以用变量x表示血磷测定值，分组变量group=0表示患者组和group=1表示健康组（如：患者组中第一个数据为2．6，则x=2．6，group=0；又如：健康组中第三个数据为1．98，则x为1．98以及group为1），并假定这些数据已以STATA格式存入ex2a．dta文件中。

计算资料均数，标准差命令summarize，以述资料为例：useex2，clearsummarizex1x2结果：变量样本数均数标准差最小值最大值Variable|ObsMeanStd．Dev．MinMax---------+x1|114．7109091．3029772．66．53x2|133．3546151．3043681．675．78即：本例中急性克山病患者组的样本数为11，血磷测定值均数为4．711（mg%），相应的标准差为1．303，最小值为2．6以及最大值为6．53；健康组的样本量为13，血磷测定值均数为3．3546，相应的标准差为1．3044，最小值为1．67以及最大值为5．78。

stata 统计缺失值

stata 统计缺失值
在Stata中，可以使用多种方法来统计缺失值。

下面是几个常用的方法：
1. `summarize` 命令：可以使用 `summarize` 命令来统计变量的缺失值情况。

使用 `summarize` 命令时，可以使用 `missing` 选项来计算缺失值的数量和比例。

例如，下面的命令将统计变量x 的缺失值情况：
```
summarize x, missing
```
2. `tabulate` 命令：可以使用 `tabulate` 命令来计算分类变量的缺失值数量和比例。

例如，下面的命令将统计变量 gender 的缺失值情况：
```
tabulate gender, missing
```
3. `egen` 命令：可以使用 `egen` 命令来创建新的变量来指示缺失值。

例如，下面的命令将创建一个新的变量
`missing_indicator`，其中值为 1 表示对应观测存在缺失值，值为 0 表示对应观测没有缺失值：
```
egen missing_indicator = anymissing(varlist)
```
4. `egen` 命令：还可以使用 `egen` 命令的 `missing(varlist)` 选项来统计多个变量的缺失值情况。

例如，下面的命令将统计变量 x 和 y 的缺失值情况：
```
egen missing_count = missing(x y)
```
以上是几个常用的方法，可以根据具体的需求选择适合的方法来统计缺失值。

STATA常用命令总结(34个含使用示例)

STATA常用命令总结（34个含使用示例）1. sum：计算变量的简要统计信息，如均值、标准差等。

示例：sum variable2. tabulate：生成变量的频数表。

示例：tabulate variable3. describe：显示数据集的基本信息，如变量名和数据类型。

示例：describe dataset4. drop：删除数据集中的变量。

示例：drop variable5. keep：保留数据集中的变量，删除其他变量。

示例：keep variable6. rename：重命名变量。

示例：rename variable newname7. gen：根据已有变量生成新的变量。

示例：gen newvar = expression8. egen：根据已有变量生成新的变量，可以使用更复杂的函数和运算符。

示例：egen newvar = function(variable)9. recode：对变量的取值进行重新编码。

示例：recode variable (oldvalues= newvalues) 10. dropif：根据条件删除观测。

示例：dropif condition11. keepif：根据条件保留观测。

示例：keepif condition12. sort：对数据集按指定变量进行排序。

示例：sort variable13. merge：将两个数据集按照共享变量合并。

示例：merge 1:1 variable using dataset214. reshape：将数据从宽格式转换为长格式或反之。

示例：reshape long var, i(id) j(year)15. regress：进行线性回归分析。

示例：regress dependent_var independent_vars 16. logistic：进行逻辑回归分析。

示例：logistic dependent_var independent_vars 17. probit：进行Probit回归分析。

STATA常用命令总结(34个含使用示例)

STATA常用命令总结（34个含使用示例）1. clear：清空当前工作空间中的数据。

示例：clear2. use：加载数据文件。

示例：use "data.dta"3. describe：查看数据文件的基本信息。

示例：describe4. summarize：统计数据的描述性统计量。

示例：summarize var1 var2 var35. tabulate：制作数据的列联表。

示例：tabulate var1 var26. scatter：绘制散点图。

示例：scatter x_var y_var7. histogram：绘制直方图。

示例：histogram var8. boxplot：绘制箱线图。

示例：boxplot var1 var29. ttest：进行单样本或双样本t检验。

示例：ttest var, by(group_var)10. regress：进行最小二乘法线性回归分析。

示例：regress dependent_var independent_var1 independent_var211. logistic：进行逻辑斯蒂回归分析。

示例：logistic dependent_var independent_var1 independent_var212. anova：进行方差分析。

示例：anova dependent_var independent_var13. chi2：进行卡方检验。

示例：chi2 var1 var214. correlate：计算变量之间的相关系数。

示例：correlate var1 var2 var315. replace：替换数据中的一些值。

示例：replace var = new_value if condition16. drop：删除变量或观察。

示例：drop var17. rename：重命名变量。

示例：rename old_var new_var18. generate：生成新变量。

stata的sum命令用法

stata的sum命令用法详解在Stata中，`sum`命令用于计算变量的统计摘要信息，例如均值、标准差、最小值、最大值等。

以下是`sum`命令的基本用法和一些常见选项的详解：1. 基本用法：```sum varname```其中，`varname`是你想要汇总统计信息的变量的名称。

这将生成有关该变量的基本统计信息，如均值、标准差、最小值、最大值等。

2. 选项：- detail：显示详细的统计信息，包括百分位数和其他一些详细的统计数据。

```sum varname, detail```- meanonly：只显示均值。

```sum varname, meanonly```- format：控制输出的格式。

```sum varname, format```- by()：按照某个变量进行分组，并计算每个组的统计信息。

```sum varname, by(groupvar)```- weight()：对数据进行加权汇总。

```sum varname [aweight=weightvar]```- fweights()、iweights()、pweights()：分别使用频率权重、倒数权重和概率权重进行汇总。

```sum varname [fweight=weightvar]sum varname [iweight=weightvar]sum varname [pweight=weightvar]```- percentiles()：指定要计算的百分位数。

```sum varname, percentiles(10 25 50 75 90)```3. 示例：-计算变量`income`的基本统计信息：```sum income```-计算变量`income`的均值，同时显示详细统计信息：```sum income, meanonly detail```-对变量`age`按照`gender`进行分组计算统计信息：```sum age, by(gender)```这些是`sum`命令的一些基本用法和选项，你可以根据自己的需求选择适当的选项。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一，分类数据的整理：
1. 将softdrink 数据粘贴到stata 的data editor ，形成变量var1
2. 输入命令 generate var2 = 1，生成变量var2
3. 点击 statistics —summaries-tables —one way tables 输入var1,OK ，产生频数分布表；或输入命令 tabulate var1
Total 50 100.00
Sprite 5 10.00 100.00 Pepsi-Cola 13 26.00 90.00 Dr. Pepper 5 10.00 64.00 Diet Coke 8 16.00 54.00Coke Classic 19 38.00 38.00
var1 Freq. Percent Cum.tabulate var1
4. 点击 graphics —bar chart –在main 下选择sum var2，在catageries 下选择group1 var1，在bars 下，打钩 label with total bar height ，OK
产生条形图。

或命令：graph bar (sum) var2, over(var1) blabel(total)
s u m o f v a r 2
5. 输入命令 graph pie var2, over(var1) plabel(_all percent) 生成饼形图
二，数值型数据的整理：
1.将wageweb（50个营销副总裁的年薪1000$）粘贴到stata的data editor上。

2.输入：histogram var1, width(10) start(90) percent addlabel norm
或点击graphics—histogram，输入var1 ，在width of bin 输入10，在lower limited 输入90，在add height label 打钩，在density plot 下打钩normal，生成直方图。

3.点击graphics—box plot ，输入var1，生成箱线图
4.点击statistics—summaries-distributional plot—stem-and-leaf display 选择var1 产生茎叶图。

5，点击statistics—summaries-summary-summary statistics，选择var1，在display additional statistics项打钩，产生数据分布的概括性度量指标。

F r e q u e n c y
. stem var1
Stem-and-leaf plot for var1
9*35
10*24
11*23468
12*334477
13*124456788888
14*01122345588
15*14577
16*0255
17*038
. summarize var1, detail
var1
Percentiles Smallest
1% 93 93
5% 102 95
10% 112.5 102 Obs 50 25% 124 104 Sum of Wgt. 50 50% 138 Mean 137.4
Largest Std. Dev. 19.43067 75% 148 165
90% 163.5 170 Variance 377.551 95% 170 173 Skewness -.2050141 99% 178 178 Kurtosis 2.820951。