Stata命令整理教学内容
零基础小白STATA数据分析实用常见命令整理
零基础⼩⽩STATA数据分析实⽤常见命令整理
STATA基础⼊门零基础实⽤命令整理
第⼀章数据的读⼊与熟悉
1.读⼊⽂件中的部分变量
. use[变量] using [⽂件名]
Eg . use age sex height weight using [⽂件名]
2.读⼊⽂件中的部分观察量
. use[⽂件名] in X/Y
. use "I:\stata\chapter3.dta" in 601/1000
软件只读⼊从第601个观察到第1000个观察之间的400个观察量
3.描述、管理数据的基本命令
命令功能
. describe描述数据的基本情况:样本总量、变量总数、
变量的格式等
. list
. list [变量名]-列出数据中所有变量的分布,从第⼀个样本到最后⼀个样本
-列出选定变量的分布
. list [变量名] in X/Y 列出数据中被选定的变量分布。in限定数据的
观察值范围。⽐如,若只想查看第100个-200
个观察值的分布,则将X/Y替换成100/200
. order [变量名]按选定变量排序。⽐如,样本的编号、年龄、
性别、教育程度,……,等
. aorder 将所有变量从 a-z 排序
. label variable给变量贴上标签
命令功能
. sort [变量名] -将某个变量的数值进⾏排序。⼀般情况下,排
序的⽅式是从⼩到⼤
-可同时排序多个变量
-Stata将缺失值描述为最⼤数值,故排列在最后. sort [变量名] [in] 对某些变量的某个取值范围进⾏排序;没有指定的取值范围保持在原地⽅
. gsort [+|-][变量名] -可从⼩到⼤和从⼤到⼩
STATA实用教程
STATA实用教程
STATA是一种统计分析软件,广泛应用于数据分析、统计建模、数据
可视化等领域。它具有强大的数据处理能力和丰富的统计功能,能够快速、准确地处理大规模的数据集。下面是一些STATA实用教程,帮助初学者快
速上手该软件。
1.STATA基本操作
STATA的基本操作包括数据导入和导出、数据集处理、变量管理等。
首先要学会使用STATA命令行界面和菜单栏来进行操作,了解STATA常用
的命令和语法,掌握STATA常用的数据结构,如数据集、变量类型等。同时,还需要学会使用STATA的帮助文档和网络资源,解决自己在使用过程
中遇到的问题。
2.数据的描述性统计
STATA可以进行各种描述性统计,例如计算均值、中位数、标准差、
四分位数等,了解数据的分布情况。可以利用summarize、describe等命
令来进行描述性统计,还可以使用tabulate、histogram等命令进行变量
的频数统计和画出直方图。
3.数据清洗和转换
在实际应用中,数据往往需要进行清洗和转换。STATA提供了一系列
的命令,用于数据的清洗和转换。比如,drop、keep命令可以删除不需
要的变量或观察值;rename、recode命令可以对变量进行重命名和重新
编码;reshape、merge命令可以进行数据重塑和合并等操作。
4.统计分析
STATA提供了许多常用的统计方法和模型,可以进行统计分析。例如,t检验、方差分析、线性回归、Logistic回归、生存分析、聚类分析等。
用户可以使用STATA内置的命令来进行统计分析,也可以使用STATA扩展
STATA面板数据模型操作命令讲解
STATA面板数据模型操作命令讲解
面板数据模型主要用于分析在一段时间内,多个个体上观察到的数据。在面板数据模型中,个体可以是个人、家庭、公司等。面板数据模型的分
析主要包括汇总统计、描述性统计、回归分析等。
下面是一些STATA中常用的面板数据分析命令的介绍和使用说明:
1. xtset命令:
该命令用于设置数据集的面板数据特征。在使用面板数据模型之前,
需要先将数据集设置为面板数据。使用xtset命令可以指定面板数据集的
个体维度和时间维度。
示例:xtset id year
该命令将数据集按照id(个体)和year(时间)进行分类。
2. xtsummary命令:
该命令用于生成面板数据的汇总统计信息,包括平均值、标准差、最
小值、最大值等。
示例:xtsummary var1 var2
该命令将变量var1和var2的汇总统计信息显示出来。
3. xtreg命令:
该命令用于进行固定效应模型(Fixed Effects Model)的估计,其
中个体效应被视为固定参数,时间效应被视为随机参数。
示例:xtreg y x1 x2, fe
该命令将变量y对x1和x2进行固定效应模型估计。
4. xtfe命令:
该命令用于进行固定效应模型的估计,并提供了更多的选项和功能。
示例:xtfe y x1 x2, vce(robust)
该命令将变量y对x1和x2进行固定效应模型估计,并使用鲁棒标准误。
5. xtlogit命令:
该命令用于进行面板Logistic回归分析,适用于因变量为二分类变
量的情况。
示例:xtlogit y x1 x2, re
STATA面板数据模型操作命令讲解
STATA面板数据模型操作命令讲解
1. xtset:该命令用于设置面板数据模型的数据结构。在使用面板数
据模型命令之前,需要先使用xtset命令来指定数据集的面板结构。例如,如果数据集中包含一列代表时间(年份)和一列代表个体(公司),则可
以使用以下命令指定数据结构:
2. xtreg:该命令用于估计面板数据模型的普通最小二乘回归系数。
以下是xtreg命令的一般形式:
xtreg dependent_var independent_vars, options
其中,dependent_var是依赖变量,independent_vars是自变量,options是可选参数。通过指定options参数,可以对估计结果进行调整
和控制,例如指定固定效应、随机效应或混合效应模型。
3. xtreg, fe:该命令用于估计固定效应模型。固定效应模型是一种
控制个体固定效应的面板数据模型。使用以下命令可以估计固定效应模型:xtreg dependent_var independent_vars, fe
通过指定fe参数,可以估计固定效应模型,并控制除个体固定效应
以外的其他混杂效应。
4. xtreg, re:该命令用于估计随机效应模型。随机效应模型是一种
允许个体固定效应和随机效应的面板数据模型。使用以下命令可以估计随
机效应模型:
xtreg dependent_var independent_vars, re
通过指定re参数,可以估计随机效应模型,并考虑个体固定效应和
随机效应对因变量的影响。
5. xtreg, mle:该命令用于估计混合效应模型。混合效应模型是一种允许个体固定效应和随机效应的面板数据模型,并且可以对效应参数进行最大似然估计。使用以下命令可以估计混合效应模型:
STATA面板数据模型操作命令要点
STATA面板数据模型操作命令要点
STATA是一种常用的统计分析软件,它提供了强大的面板数据模型操
作命令,方便用户进行数据分析和模型构建。面板数据模型是一种可以通
过同时考虑跨个体和跨时间的数据集来分析经济和社会现象的方法。以下
是STATA中面板数据模型操作命令的要点:
1.面板数据模型设置:
STATA中可以通过设置数据集的面板特征,包括个体维度和时间维度。个体维度通常表示被观测的个体,如公司、国家等;时间维度通常表示观
测的时间周期,如年度、季度等。可以使用STATA中的面板数据命令,如“xtset”来设置面板数据的个体和时间维度。
2.面板数据统计描述:
面板数据模型中,首先需要对数据进行统计描述,了解变量的分布情
况和相关性。可以使用STATA中的“xtsum”命令进行面板数据的统计描述,包括平均值、标准差、最大值、最小值等统计指标,还可以使用“xtcorr”命令计算变量之间的相关系数。
3.面板数据的面板单位固定效应模型:
面板单位固定效应模型是面板数据模型中常用的一种方法,可以通过
控制个体特定的时间不变因素来估计个体变量对于其他变量的影响。可以
使用STATA中的“xtreg”命令来估计面板单位固定效应模型。在命令中
需要指定固定效应变量,并使用特殊符号“i.”加在变量名称前。
4.面板数据的面板时间固定效应模型:
面板时间固定效应模型是面板数据模型中另一种常用的方法,可以通
过控制时间特定的个体不变因素来估计时间变量对于其他变量的影响。可
以使用STATA中的“xtreg”命令来估计面板时间固定效应模型。在命令
教你快速上手使用Stata进行数据处理和分析
教你快速上手使用Stata进行数据处理和分
析
快速上手使用Stata进行数据处理和分析
第一章:Stata软件的介绍和安装
Stata是一款功能强大的统计分析软件,广泛应用于各个学科领
域的数据处理和分析工作中。它提供了强大的数据管理、数据处
理和数据分析功能,能够帮助用户高效地完成各种统计任务。
1.1 Stata软件的特点和应用领域
Stata具有易于使用的界面、丰富的数据处理和分析功能,可以
满足不同用户对数据分析的需求。它被广泛应用于社会科学、经
济学、医学、生物学等领域的数据处理和分析工作中。
1.2 Stata软件的安装和系统要求
Stata软件的安装非常简单,只需按照安装向导进行操作即可。
同时,为了保证软件的正常运行,用户需要满足一定的系统要求,比如合适的操作系统版本、足够的内存和硬盘空间等。
第二章:Stata基本命令和语法
在使用Stata进行数据处理和分析之前,我们需要了解一些基
本的命令和语法。下面是一些常用的命令和语法:
2.1 数据导入和导出命令
Stata可以导入多种数据格式,如Excel、CSV、SPSS等,通过
命令"import"和"export"可以实现数据的导入和导出。
2.2 数据的描述性统计和图表命令
Stata提供了丰富的命令来计算和展示数据的描述性统计信息,
比如平均值、标准差、频数等。通过命令"summarize"和"graph"可
以生成相应的统计表和图表。
2.3 数据的清洗和转换命令
在实际的数据处理中,我们经常需要对数据进行清洗和转换。Stata提供了一系列的命令来处理缺失值、异常值、重复值等问题,比如命令"drop"和"replace"等。
stata 常用命令
stata 常用命令
Stata是一个流行的统计分析软件,广泛应用于各个领域的数据分析和研究。它提供了丰富的命令和功能,可帮助用户处理、分析和可视化
数据。在本文中,我将向您介绍一些常用的Stata命令,以及它们在
数据分析中的应用。
1. 数据导入与导出
在使用Stata进行数据分析之前,我们需要将数据导入软件环境中。Stata支持多种数据格式,如Excel、CSV、SPSS等。对于Excel数据,我们可以使用命令"import excel"将数据导入到Stata中;对于CSV
数据,可以使用"import delimited"命令。Stata还提供了"export"命令,可将分析结果导出为Excel、CSV等格式,便于与其他软件进行交互。
2. 数据清洗与处理
在数据分析过程中,数据清洗是一个重要的步骤。Stata提供了一系列命令来处理和净化数据。"drop"命令可以删除数据集中的变量或观察值;"replace"命令用于修改变量的取值;"gen"命令可以创建新的变
量等。"merge"命令可用于合并不同数据集,"sort"命令可用于排序数据等。
3. 描述性统计分析
Stata提供了简单而强大的描述性统计分析命令,帮助用户了解数据的基本特征。"summarize"命令可用于计算变量的均值、标准差等统计量;"tabulate"命令可用于制作交叉分类表;"histogram"命令可绘制变量的直方图等。这些命令使我们能够更好地理解数据的分布和特征。
4. 统计模型估计
Stata是一个强大的统计软件,支持各种常见的统计模型估计。"regress"命令可用于进行线性回归分析;"logit"命令可用于二元逻辑回归分析;"heckman"命令可用于处理选择模型等。这些命令可以帮
STATA面板数据模型操作命令讲解
STATA⾯板数据模型操作命令讲解
STATA ⾯板数据模型估计命令⼀览表
⼀、静态⾯板数据的STATA 处理命令
εαβit ++=x
y it
i
it
固定效应模型
µβit +=x
y it
it
ε
αµit
+=it
it
随机效应模型
(⼀)数据处理
输⼊数据
●tsset code year 该命令是将数据定义为“⾯板”形式●xtdes 该命令是了解⾯板数据结构
●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)
●gen lag_y=L.y /////// 产⽣⼀个滞后⼀期的新变量
gen F_y=F.y /////// 产⽣⼀个超前项的新变量
gen D_y=D.y /////// 产⽣⼀个⼀阶差分的新变量
gen D2_y=D2.y /////// 产⽣⼀个⼆阶差分的新变量
(⼆)模型的筛选和检验
●1、检验个体效应(混合效应还是固定效应)(原假设:使⽤OLS混合模型)●xtreg sq cpi unem g se5 ln,fe
对于固定效应模型⽽⾔,回归结果中最后⼀⾏汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例⼦中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。
●2、检验时间效应(混合效应还是随机效应)(检验⽅法:LM统计量)
(原假设:使⽤OLS混合模型)
●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第⼀幅图将不会呈现) xttest0
可以看出,LM检验得到的P值为0.0000,表明随机效应⾮常显著。可见,随机效应模型也优于混合OLS模型。
stata入门常用命令
stata入门常用命令
Stata是一款广泛应用于数据分析、统计建模和数据可视化的软件,它具有操作简单、图形化界面、支持多种数据格式等优点,因此备受研究者和学者的青睐。下面是一些Stata入门常用命令的介绍: 1. 数据读取命令:insheet, infile
insheet命令可以读取Excel表格中的数据,并将其导入Stata,infile命令可以读取纯文本文件中的数据。
2. 数据清理命令:drop, rename, recode, generate
drop命令可以用于删除不需要的变量和观测,rename命令可以修改变量的名称,recode命令可以将变量的取值进行重新编码,generate命令可以生成新的变量。
3. 描述性统计命令:summarize, tabulate, graph
summarize命令可以输出变量的基本统计量,如均值、中位数、标准差等,tabulate命令可以制作交叉表格,graph命令可以制作各种图形,如直方图、散点图等。
4. 回归分析命令:regress, logistic, probit
regress命令可以进行线性回归分析,logistic命令可以进行二元Logistic回归分析,probit命令可以进行二元Probit回归分析。
5. 面板数据分析命令:xtreg, xtlogit, xtpoisson
xtreg命令可以进行面板数据的线性回归分析,xtlogit命令可以进行面板数据的二元Logistic回归分析,xtpoisson命令可以进行面板数据的Poisson回归分析。
STATA实用教程
STATA实用教程
接下来,了解STATA的基本操作。在STATA窗口的命令行中,可以输
入分析的指令,按下回车键即可执行。同时,还可以通过菜单栏中的各种
选项来进行操作,比如导入数据、保存结果等。可以通过命令help来查
看STATA的帮助文档,帮助解决一些操作上的问题。
在进行数据分析前,需要先导入数据。STATA支持多种数据文件格式,比如CSV和Excel。可以通过命令import来导入数据文件,根据文件路
径和格式指定导入的方式。导入后,可以使用命令describe来查看数据
文件的基本情况,比如变量名、变量类型等。
数据导入完成后,可以进行各种统计分析。常用的命令包括:summarize(统计描述性统计量)、correlation(计算变量之间的相关系数)、regress(进行回归分析)、anova(进行方差分析)等。这些命令
可以根据具体的需求进行参数设置,比如指定自变量和因变量,进行分组
分析等。
数据分析完成后,可以进行结果的可视化。STATA提供了多种绘图函数,比如scatter plot、histogram、line plot等。可以通过相应的命
令来生成图表,同时可以根据需要进行样式和布局的调整。生成的图表可
以保存为图片格式,方便后续的使用和报告编写。
除了基本的数据分析和可视化外,STATA还支持一些高级的统计方法
和模型。比如面板数据分析、生存分析、因子分析等。可以通过命令进行
设置和估计,得到相应的结果。同时,STATA还支持编写自定义的程序和
命令,方便用户在需要时进行重复操作或扩展功能。
Stata软件操作教程
Stata软件操作教程
第15章:面板数据分析
面板数据是指在时间上具有一定连续性的多个个体观测值,例如不同地区连续多年的经济数据、同一个企业在多个时间点的财务数据等。面板数据具有时间序列和截面两个维度,因此在分析面板数据时需要考虑个体间的相关性和时间序列的影响。
在Stata中,面板数据的操作和分析可以使用如下的一些命令:
1. 导入面板数据:使用`use`命令导入面板数据文件,例如`use filename, clear`,其中filename为数据文件名。
2. 面板数据的描述性统计:使用`summarize`命令计算面板数据的平均值、标准差等描述性统计量。例如,`summarize varname, detail`计算变量varname的描述性统计量。
3. 面板数据的时间序列图:使用`tsline`命令绘制面板数据的时间序列图。例如,`tsline varname`绘制变量varname的时间序列图。
4. 固定效应模型(Fixed Effects Model):使用`xtreg`命令估计固定效应模型,该模型考虑了个体间的固定效应。例如,`xtreg dependent var independent var, fe`估计固定效应模型。
5. 随机效应模型(Random Effects Model):使用`xtreg`命令估计随机效应模型,该模型考虑了个体间的随机效应。例如,`xtreg dependent var independent var, re`估计随机效应模型。
6. 混合效应模型(Mixed Effects Model):使用`xtmixed`命令估计混合效应模型,该模型既考虑了个体间的固定效应,又考虑了个体间的
STATA面板数据模型操作命令讲解
STATA 面板数据模型估计命令一览表
一、静态面板数据的STATA 处理命令
固定效应模型
εαβit ++=x y it i it μβit +=x y it it
随机效应模型
εαμit +=it it (一)数据处理
输入数据
●tsset code year 该命令是将数据定义为“面板”形式
●xtdes 该命令是了解面板数据结构
●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)
●gen lag_y=L.y /////// 产生一个滞后一期的新变量
gen F_y=F.y /////// 产生一个超前项的新变量
gen D_y=D.y /////// 产生一个一阶差分的新变量
gen D2_y=D2.y /////// 产生一个二阶差分的新变量
(二)模型的筛选和检验
●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe
对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例子中发现F统计量的概率为
0.0000,检验结果表明固定效应模型优于混合OLS模型。
●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量)
(原假设:使用OLS混合模型)
●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现)
xttest0
可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。可见,随机效应模型也优于混合OLS模型。
stata常用命令总结
stata常用命令总结
Stata是一种统计分析软件,常用于数据处理、数据分析和统计建模等领域。以下是一些常用的Stata命令的总结:
1. 数据加载与保存:
- `use`:加载Stata数据文件。
- `import`:导入其他文件格式的数据。
- `save`:保存当前数据文件。
- `export`:将数据导出到其他文件格式。
2. 数据处理与变量操作:
- `generate`:创建新变量。
- `replace`:替换变量值。
- `drop`:删除变量或观测。
- `rename`:重命名变量。
- `sort`:对数据进行排序。
- `merge`:合并数据集。
3. 描述性统计与数据分析:
- `summarize`:计算变量的描述性统计量。
- `tabulate`:制表统计。
- `regress`:进行线性回归分析。
- `logit`:进行Logistic回归分析。
- `anova`:进行方差分析。
- `ttest`:进行双样本t检验。
4. 绘图与可视化:
- `histogram`:绘制直方图。
- `scatter`:绘制散点图。
- `line`:绘制折线图。
- `boxplot`:绘制箱线图。
- `graph combine`:组合多个图形。
5. 循环与条件语句:
- `forvalues`:进行循环操作。
- `if`:根据条件进行数据筛选。
- `foreach`:对变量进行循环操作。
这只是一些常用的Stata命令的总结,Stata还有很多其他强大的功能和命令。你可以参考Stata官方文档或其他相关资源,深入了解更多命令和用法。
STATA面板数据模型操作命令讲解
STATA面板数据模型操作命令讲解
STATA是一种常用的统计分析软件,可以用于面板数据模型的操作。
面板数据模型是一种用来分析涉及多个单位和多个时间点的数据的统计模型,其主要特点是能够考虑单位间和时间间的相关性。在STATA中,可以
使用一系列命令来进行面板数据模型的操作,包括数据导入、数据清洗、
模型估计和结果展示等。下面将详细介绍STATA中面板数据模型操作的常
用命令。
首先,要进行面板数据模型的操作,首先需要将数据导入到STATA中。STATA支持多种数据格式的导入,包括Excel、CSV和数据库等。常用的
导入命令包括:
1. use命令:用于导入STATA格式的数据文件。
例如:use data.dta
2. import命令:用于导入其他格式的数据文件。
例如:import excel data.xlsx, firstrow
导入数据后,接下来需要进行数据清洗和变量定义。可以使用一系列
命令对数据进行操作,例如生成新变量、删除缺失值和标识变量等。常用
的数据清洗命令包括:
1. generate命令:用于生成新变量。
例如:generate log_y = log(y)
2. drop命令:用于删除变量。
例如:drop x
3. replace命令:用于替换变量值。
例如:replace y = 0 if y < 0
数据清洗完成后,就可以开始估计面板数据模型。常用的估计命令包括固定效应模型(Fixed Effects Model)和随机效应模型(Random Effects Model)。下面分别介绍这两种模型的估计命令。
stata命令大全(全)[整理版]
*********面板数据计量分析与软件实现*********
说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。
*----------面板数据模型
* 1.静态面板模型:FE 和RE
* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计)
* 3.异方差、序列相关和截面相关检验
* 4.动态面板模型(DID-GMM,SYS-GMM)
* 5.面板随机前沿模型
* 6.面板协整分析(FMOLS,DOLS)
*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)
*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog 生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型
*说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------
* --------一、常用的数据处理与作图-----------
* ---------------------------------
* 指定面板格式
xtset id year (id为截面名称,year为时间名称)
stata常用命令总结
stata常用命令总结
Stata常用命令总结
Stata是一款广泛应用于数据分析与统计建模的统计软件,具有强大的功能和广泛的应用领域。在Stata中,我们可以通过命令来完成数据的读取、整理、分析和可视化等任务。本文将对一些常用的Stata命令进行总结和介绍,以帮助读者更好地理解和应用Stata软件。
一、数据的读取与整理
1. 读取数据文件:
- use 文件名:读取已经存在的Stata数据文件。
- import delimited 文件名:读取以逗号、制表符或其他分隔符分隔的文本文件。
2. 显示数据:
- describe:显示数据文件的基本信息,包括变量名、数
据类型、有效观测数等。
- browse:以表格形式显示数据文件的部分观测值。
3. 数据整理:
- generate 新变量名=计算公式:创建新的变量,并根据
指定公式进行计算。
- egen 新变量名=计算函数:根据指定的计算函数对现有
变量进行计算,并创建新的变量。
二、数据的统计分析与建模
1. 描述性统计:
- summarize 变量名:对指定变量进行描述性统计,包括
均值、标准差、最小值、最大值等。
- tabulate 变量名:生成指定变量的频数表和百分比表。
2. 数据筛选与子集选择:
- keep 如果条件:保留符合条件的观测值,删除不满足条件的观测值。
- drop 如果条件:删除符合条件的观测值,保留不满足条件的观测值。
- qui keep 如果条件:以无输出方式保留符合条件的观测值并生成新数据集。
- qui drop 如果条件:以无输出方式删除符合条件的观测值并生成新数据集。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Stata 命令语句格式:
[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]
1、[by varlist:]
*如果需要分别知道国产车和进口车的价格和重量,可以采用分类操作来求得,
sort foreign //按国产车和进口车排序
. by foreign: sum price weight
*更简略的方式是把两个命令用一个组合命令来写。
. by foreign, sort: sum price weight
如果不想从小到大排序,而是从大到小排序,其命令为gsort。
. sort - price //按价格从高到低排序
. sort foreign -price /*先把国产车都排在前,进口车排在后面,然后在国产车内再按价格从大小到排序,在进口车内部,也按从大到小排序*/
2、[=exp]赋值运算
. gen nprice=price+10 //生成新变量nprice,其值为price+10
/*上面的命令generate(略写为gen) 生成一个新的变量,新变量的变量名为
nprice,新的价格在原价格的基础上均增加了10 元。
. replace nprice=nprice-10 /*命令replace 则直接改变原变量的赋值,nprice 调减后与price 变量取值相等*/
3、[if exp]条件表达式
. list make price if foreign==0
*只查看价格超过1 万元的进口车(同时满足两个条件),则
. list make price if foreign==1 & price>10000
*查看价格超过1 万元或者进口车(两个条件任满足一个)
. list make price if foreign==1 | price>10000
4、[in range]范围筛选
sum price in 1/5
注意“1/5”中,斜杠不是除号,而是从1 到 5 的意思,即1,2,3,4,5。
如果要计算前10 台车中的国产车的平均价格,则可将范围和条件筛选联合使用。
. sum price in 1/10 if foreign==0
5、[weight] 加权
sum score [weight=num] 其中,num为每个成绩所对应的人数
6、[, options]其他可选项
例如,我们不仅要计算平均成绩,还想知道成绩的中值,方差,偏度和峰度等*/
. sum score, detail
. sum score, d //d 为detail 的略写,两个命令完全等价
. list price, nohead //不要表头
Stata 数据类型转换
1、字符型转化成数值型
destring, replace //全部转换为数值型,replace 表示将原来的变量(值)更新
destring date, replace ignore(“ ”) 将字符型数据转换为数值型数据:去掉字符间的空格destring price percent, gen(price2 percent2) ignore(“$ ,%”) 与date 变量类似,变量price 前面有美元符号,变量percent 后有百分号,换为数值型时需要忽略这些非数值型字符
2、数值型转化为字符型
tostring year day, replace //将年和日转化为字符型
gen date1=month+”/”+day+”/”+year //month day变为字符型后可以运算,将年月日构成一个新的日期变量
gen date2=date(date1,”mdy”) /* date()为日期函数,它以1960 年1 月1日为第0 天,计算从那天起直到括号中指定的某天date1一共过了多少天。”mdy”指定date1 的排列顺序,这里是按照月日年的顺序来表示日期。*/
数据显示格式
/*format 只控制数据的显示格式,并不改变内存中数据的大小。*/
变量的格式为%14s,表示右对齐,共14 个字符,%为固定用法(字符变量跟s,数值变量跟g)
ormat state %-14s // 该命令使stata 的显示格式左对齐,14 前面多了个负号
format pop %11.0gc /*pop 的显示格式为%11.0g,后面加上c,则每三位数间
用逗号分开,c 为comma 的意思.*/
format medage %8.1f //要求所有的medage 都显示一位小数
format id %05.0f //对于编号,我们希望前面用零使得位数对齐,通过在前面补零,所有的id 都成了5位数。
导入/导出其他格式数据
1、数据导入
insheet using 3origin.csv/txt, clear
insheet using 3origin.txt, double clear 当数据中某个变量的位数特别长或者对导入数据的精度要求很高的时候,需要在该命令后面加double 选项。
2、数据导出
outsheet using myresult.asc, nonames 如果不希望在第一行存储变量名,则可以使用nonames 选项
outsheet using myresult.asc, nonames replace 如果文件已经存在,则需要使用replace 选项
数据合并
1、纵向合并
use male, clear //打开记录男生信息的数据文件male
append using female //将记录女生信息的female 文件追加到当前数据集中
save mydata1, replace
2、横向合并
use economy,clear //打开经济学成绩数据文件
sort id //按学号排序
save economy, replace //重新保存一下
use student,c clear //打开学生基本信息数据文件
sort id //按学号排序
merge id using economy //以学号为关联,将学生的信息和成绩一一对应对接
tab _merge //显示对接情况,3 表示成功对接,1 和2 表示未成功对接
drop _merge //去掉标识对接是否成功变量_merge