STATA统计软件操作..演示教学

合集下载

Stata软件操作教程 (3)

generate newvar=runiform() 其中，generate为生成新变量的基本命令，newvar为新变量的名称，
runiform()是生成均匀分布于区间[0, 1)随机数的函数。需要注意的是， runiform()中没有参数，但括号却必不可少。如果要生成位于其他区间的均匀分布，我们可以进行简单的变形。例如，要生成均匀分布于区间[a, b)的随机数，相应的函数为： a+(b-a)* runiform() 要生成均匀分布于区间[a, b]的随机数，相应的函数为： a+int((b-a+1)* runiform()) 其中，函数int()表示取整。生成标准正态分布的随机数的函数为：
实验基本原理
通过计算机模拟从已知分布的总体中抽取大量随机样本的计算方法被统称为“蒙特卡罗方法”（Monte Carlo Methods）。
在计量经济学中，常使用蒙特卡罗法来确定统计量的小样本性质。我们知道，许多统计量的精确分布没有解析解。一种解决方法是使用大样本理论，用渐近分布来近似真实分布。然而，现实中的样本容量常常较小。
均值为3、方差为5且服从正态分布的序列，并将新生成的变量命名为norm。需要说明的一点是，如果不设定观测值个数，则新变量的观测值个数会与原序列的观测值个数相同；而未打开任何数据文件时，原观测值个数显然为0。下面，我们看一下变量norm的描述统计量。输入命令： sum norm
如果我们要作图看一下norm的分布，可输入命令： hist norm, normal 这里，hist表示做直方图，选项normal表示画出相应的正态分布。
3 分层抽样如果我们要令样本中包括100个女性和100个男性，可以采

Stata软件基本操作和数据分析入门（完整版讲义）

Stata软件基本操作和数据分析入门(完整版讲义)Stata软件基本操作和数据分析入门第一讲Stata操作入门张文彤赵耐青第一节概况Stata最初由美国计算机资源中心（Computer Resource Center）研制，现在为Stata公司的产品，其最新版本为7.0版。

它操作灵活、简单、易学易用，是一个非常有特色的统计分析软件，现在已越来越受到人们的重视和欢迎，并且和SAS、SPSS一起，被称为新的三大权威统计软件。

Stata最为突出的特点是短小精悍、功能强大，其最新的7.0版整个系统只有10M左右，但已经包含了全部的统计分析、数据管理和绘图等功能，尤其是他的统计分析功能极为全面，比起1G以上大小的SAS 系统也毫不逊色。

另外，由于Stata在分析时是将数据全部读入内存，在计算全部完成后才和磁盘交换数据，因此运算速度极快。

由于Stata的用户群始终定位于专业统计分析人员，因此他的操作方式也别具一格，在Windows席卷天下的时代，他一直坚持使用命令行／程序操作方式，拒不推出菜单操作系统。

但是，Stata的命令语句极为简洁明快，而且在统计分析命令的设置上又非常有条理，它将相同类型的统计模型均归在同一个命令族下，而不同命令族又可以使用相同功能的选项，这使得用户学习时极易上手。

更为令人叹服的是，Stata 语句在简洁的同时又拥有着极高的灵活性，用户可以充分发挥自己的聪明才智，熟练应用各种技巧，真正做到随心所欲。

除了操作方式简洁外，Stata的用户接口在其他方面也做得非常简洁，数据格式简单，分析结果输出简洁明快，易于阅读，这一切都使得Stata成为非常适合于进行统计教学的统计软件。

Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件（ADO文件），这些文件可以自行修改、添加和下载。

用户可随时到Stata网站寻找并下载最新的升级文件。

事实上，Stata 的这一特点使得他始终处于统计分析方法发展的最前沿，用户几乎总是能很快找到最新统计算法的Stata 程序版本，而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。

Stata软件基本操作和数据分析入门（完整版讲义）

另外，由于Stata在分析时是将数据全部读入内存，在计算全部完成后才和磁盘交换数据，因此运算速度极快。

更为令人叹服的是，Stata 语句在简洁的同时又拥有着极高的灵活性，用户可以充分发挥自己的聪明才智，熟练应用各种技巧，真正做到随心所欲。

Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件（ADO文件），这些文件可以自行修改、添加和下载。

用户可随时到Stata网站寻找并下载最新的升级文件。

Stata软件操作教程 (10)

下面，让我们通过例子来加深对命令的理解。拟合前面的约束回归： cnsreg mpg price weight displ gear_ratio foreign length, c(1-5) 命令中，cnreg代表进行约束回归，mpg是被解释变量的名称，
price weight displ gear_ratio foreign length为各个解释变量的名称，选项c(1-5)表示在1到5个约束之下进行回归。
利用nerlove的数据，我们分别用大样本理论和小样本
理论进行回归分析，以比较二者的不同，从而使用户更加深刻地理解这两个理论。
三、实验操作指导 1 模型的建立
2 使用小样本理论进行回归首先，我们假设数据符合小样本理论严格的假设，所
以可以直接运用小样本理论进行回归。使用use命令打开数据后，在命令窗口中输入回归命令如下： regress lntc lnq lnpl lnpk lnpf 这个命令的含义就是以lntc作为因变量，以lnq、lnpl、 lnpk、lnpf作为自变量建立线性回归模型。之后，我们就可以得到如图6.7所示的小样本理论下的回归结果了。
实验6-3：约束回归
一、实验基本原理
二、实验内容和实验数据
本实验中，我们将利用与实验6-1相同的数据，即本书
附带光盘data文件夹下的“usaauto.dta”文件中的数据，来研究回归系数存在约束的情况下，价格、汽车重量等因素对每加仑汽油所行驶的路程的影响。我们将介绍如何定义约束、列出已定义的约束、取消已定义的约束、以及在定义好约束后如何进行约束回归。
2 利用最小二乘法进行模型的估计对模型进行回归的仍然是采用命令方式进行操作，命
令的基本格式如下： regress depvar [indepvar] [if] [in] [weight] [,options] 其中regress代表“回归”的基本命令语句，depvar代表被解释变量（或称因变量）的名称，indepvar代表解释变量（或称自变量）的名称，if代表条件语句，in 代表范围语句，weight代表权重语句，options代表其他选项。

stata操作介绍之基础部分一讲述ppt课件

Stata 菜单栏简介
包含八项下拉菜单:文件、编辑、数据、绘图、统计分析、用户、窗口及帮助。
“雪亮工程"是以区（县）、乡（镇）、村（社区）三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程” 。
1.10 Stata文件格式
• Stata常用的文件格式：
文件类型
扩展名
数据文件
.dta
命令程序文件
.do
运行程序文件
.ado
帮助文件
.hlp
说明
stata使用的数据
一系列命令的集合
用于完成用户提交的数据处理与统计分析任务的程序文件
与相应的.ado文件有相同的文件名，形成一堆文件，并提供在线帮助
“雪亮工程"是以区（县）、乡（镇）、村（社区）三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程” 。
命令回顾窗口
结果窗口
命令窗口
变量名
窗口
“雪亮工程"是以区（县）、乡（镇）、村（社区）三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程” 。
1.4 Stata与其他软件的区别
“雪亮工程"是以区（县）、乡（镇）、村（社区）三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程” 。

Stata 简介及基本操作ppt课件

精选版课件ppt
12
此时，可以点击 Save 图标（也可以点击菜单“File”→ “Save”），将数据存为Stata 格式的文件（扩展名为dta），比如wanger_law.dta。
这样，以后就可以用Stata 直接打开这个数据集了（不需要再从Excel 表中粘贴过来）。
打开的方式有两种。可以点击Open 图标（也可以点击菜单“File”→“Open”），然后寻找要打开的dta 文件的位置。
kernel = epanechnikov, bandwidth = 6128.97
精选版课件ppt
17
如果想删除满足“year ≥2001”条件的观测值，则可使用命令: . drop if year>=2001
反之，如果只想保留满足“year≥2001”条件的观测值，而删去所有其他观测值: . keep if year>=2001
精选版课件ppt
18
5．考察变量的统计特征如果想看变量 gov、gcons和gdp的统计特征，可输入命令:
Max 76299.93 44396.9 340506.9
满足条件的统计： . summarize gov gcons gdp if year>2000
如果不指明变量，则将显示数据集中所有变量的统计指标。 summarize
如果要显示内存中某些变量之间的相关系数，可输入命令: . correlate gov gcons pop gdp
. clear 这样，内存中所有的当前数据都被清空，然后可以再打
开另外一个数据集。
精选版课件ppt
14
2．变量的标签在变量窗口，每个变量的“名字”（Name）旁边显示了
其“标签”（label）。但目前的标签过于简略，缺乏变量的解释信息。

《STATA简易操作》课件

收集生存时间数据和潜在影响因素。
使用Stata进行生存分析，包括数据导入、选择合适的生存分析模型、参数估计和结果解释。
分析生存曲线和风险函数，探究影响因素对生存时间的影响。
进行模型假设检验和模型比较。
案例三：面板数据分析
总结词：利用面板数据分析方
法，探究个体、时间和其他变
量的交互作用。
01
详细描述
绘制折线图
折线图用于展示随时间变化的数据趋势。
VS
在Stata中，可以通过输入“line yvar xvar”命令来绘制折线图。其中 yvar代表要展示的数据变量，xvar代表时间变量。还可以通过添加选项来修改线条样式、标记等。
05
Stata实战案例
案例一：线性回归分析
总结词：通过线性回归分析，探究自变量与因变量之间的关系。
01
确定研究问题，选择合适的自变量和因变量。
03
02
详细描述
04
使用Stata进行线性回归分析，包括数据导入、模型设定、参数估计和结果解释。
分析模型的拟合优度，如判定系数、调整判定系数等。
05
06
检验模型的假设条件，如线性关系、误差项独立同分布等。
案例二：生存分析
总结词：利用生存分析方法，研究生存时间与影响因素之间的关系。详细描述
多元回归
探讨多个自变量对因变量的影响，以及交互项和平方项的设定。
面板数据分析
面板数据介绍
阐述面板数据的概念、特点及其在经济学中的应用。
固定效应与随机效应模型
比较两种模型的适用场景和结果解释。
面板数据的单位根与协整检验
介绍用于检验数据稳定性和长期关系的检验方法。

Stata实验指导、统计分析与应用chap07PPT课件

是对模型进行回归估计，第三个命令就是进行信息准则值的计算，计算结果如图7.5所示，AIC值为635.10， BIC值为652.16。
14
为了对比分析，我们仍然采取Link检验中的方法，生成受教育年限educ和工作经验年限exper的平方项，建立新的模型
重新对其进行回归并计算，这时输入的命令如下： gen educ2=educ^2 gen exper2=exper^2 reg lwage educ exper tenure educ2 exper2 estat ic 这里不再赘述这些命令语句的含义，调整之后的计算
20
（2）计算相关系数的命令语句为： pwcorr [varlist] [if] [in] [weight] [,
pwcorr_options] 在这个命令语句中，pwcorr是计算相关系数的命令，
varlist为将要计算相关系数的变量，if为条件语句， in为范围语句，weight为权重语句，options选项如表 7.1所示。
（1）赤池信息准则，又称为AIC准则，其基本思想是通过选择解释变量的个数，使得如下目标函数最小。
11
在这个公式中，e代表残差序列，n代表样本
数量，K代表解释变量的个数。通过这个目标函数可以
看出，第一项是对拟合优度的奖励，即尽可能地使残
差平方和变小，第二项是对解释变量个数增多的惩罚，
因为目标函数是解释变量个数的增函数。
（1）计算膨胀因子的命令为：
estat vif [, uncentered]
在这个命令语句中，estat vif是计算膨胀因子的命令语句，uncentered选项通常使用在没有常数项的模型中。
在本实验中，在回归之后输入此命令，就可得到如图 7.8所示的膨胀因子数值。结果显示该模型的膨胀因子的平均值为14.50，远远大于经验值2，膨胀因子最大值为20.06，远远大于经验值10，所以可以认为该模பைடு நூலகம் 存在严重的多重共线性。

STATA简易操作

STATA操作示范
输入数据命令框
单击命令框按键，会出现下面的命令窗口
在窗口中输入命令，单击 Execute键，即可执行该命令。
1.点击“输入数据”按键，即可出现如下数据输入窗口。 2.将excel中的数据复制到该区域，注意：制后会出现一个对话框，选择将第一行设置为变量的选项。
STATA常用命令
• 1.设置面板数据 xtset year code xtset是命令，后接你设置的变量名称（这里一般按照年和证券代码回归） 2. 描述性统计 tabstat c cf qa lna nwca sdebta riskt, stat(max min mean p50 sd n)
STATA常用命令
新安装的STATA的命令并不完整，有些命令需要手动安装才可使用
findit logout（findit 后接你要安装的命令）
STATA常用命令
• • • • 6.缩尾处理（进行1%的缩尾处理） winsor sdebta,gen (sdebta1)p(0.01) 7.方差膨胀因子检验（多重共线性检测） vif, uncentered
• 3. 皮尔森相关性检验（在0.1的显著性水平） pwcorr c cf qa lna nwca sdebta riskt, star(.1) bonferroni 4. 多元线性回归命令（固定效应模型fe,随机效应用re） xtreg c cf qa lna nwca sdebta riskt,fe 5. 添加某命令

STATA教程

2.1数据的类型、压缩与转化
（3）打开数据文件中的部分样本有时，原始数据文件的样本数量过于庞大，例如人口
普查的数据动辄千百万，可是一般的研究大部分不需要全部的样本，只需要部分样本即可，所以这时候只需要打开部分样本。例如，只需要打开usaauto数据文件中第五到第十个样本的数据，可以使用如下命令： use “C:\data\usaauto.dta” in 5\10 其中use“C:\data\usaauto.dta”部分表示打开的数据文件名称及路径，in5\10部分表示选取的样本序号，即选取第5到第10个样本。如果用户使用此命令打开其他数据文件，所应用的命令相似，只需要把表示文件名称和样本序号的具体内容修改即可。
1.2 Stata窗口及基本操作
1.2.3Stata语法和命令
熟练地掌握Stata的基本语法和命令，是熟练应用Stata
做统计或计量分析的基础。首先，介绍一下Stata的基本命令语句的格式，具体形式如下： [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [, options] 基本命令语句中，[]中的内容表示可以省略的部分，因此我们可以看出，只有command是必不可少的，其他部分的内容用户可以根据自己的需要进行选择。
1.3Stata主要功能模块介绍
Stata软件具有数据处理、绘图、统计分析、回归分析和编

程处理这五大主要功能，其相互配合，可以完成系统完整的数据分析和处理任务。 1.3.1数据处理用户得到第一手数据之后要做的就是对数据进行基本的处理，主要包括数据的读入、类型的转换、压缩等，此外还可以对数据进行基本的描述分析，包括频数分布、离散趋势、集中趋势的分析等等。以上内容将在第二章中具体讲述。 1.3.2绘图绘图是进行数据分析的又一种重要的分析工具，Stata提供了强大的绘图功能，主要包括散点图、线图、条形图、直方图、饼图、箱线图、函数图等图形的绘制和相应设定，这些内容将会在第三章中具体讲述。

第一讲 Stata操作入门

Stata软件基本操作和数据分析入门第一讲Stata操作入门第一节概况Stata最初由美国计算机资源中心（Computer Resource Center）研制，现在为Stata公司的产品，其最新版本为7.0版。

Stata最为突出的特点是短小精悍、功能强大，其最新的7.0版整个系统只有10 MB左右，但已经包含了全部的统计分析、数据管理和绘图等功能，尤其是它的统计分析功能极为全面，即使与1G以上大小的SAS系统相比也毫不逊色。

另外，由于Stata在分析时是将数据全部读入内存，在计算全部完成后才和磁盘交换数据，因此运算速度极快。

由于Stata的用户群始终定位于专业统计分析人员，因此它的操作方式也别具一格，在Windows席卷天下的时代，它一直坚持使用命令行／程序操作方式，拒不推出菜单操作系统。

更为令人叹服的是，Stata语句在简洁的同时又拥有着极高的灵活性，用户可以充分发挥自己的聪明才智，熟练应用各种技巧，真正做到随心所欲。

除了操作方式简洁外，Stata的用户接口在其它方面也做得非常简洁，数据格式简单，分析结果输出简洁明快，易于阅读，这一切都使得Stata成为非常适合于统计教学的统计软件。

Stata的另一个特点是它的许多高级统计模块均是编程人员用其宏指令写成的程序文件（ADO文件），这些文件可以由用户修改、添加和下载。

用户可随时到Stata网站寻找并下载最新的升级文件。

事实上，Stata的这一特点使得它始终处于统计分析方法发展的最前沿，用户几乎总是能很快找到最新统计算法的Stata程序版本，而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。

使用Stata进行统计分析和数据可视化的教程

使用Stata进行统计分析和数据可视化的教程Stata是一种常用的统计分析软件，广泛应用于社会科学、经济学和健康科学等领域的数据分析和可视化。

本文将为大家提供一个使用Stata进行统计分析和数据可视化的教程，包括数据导入、数据处理、统计分析和数据可视化等内容。

首先，我们需要了解Stata软件的基本操作。

一、Stata软件的基本操作1. 安装与启动：将Stata软件下载并安装在电脑上，然后双击桌面上的图标启动程序。

2. 导入数据：在Stata中，可以通过多种方式导入数据，如Excel表格、文本文件和数据库等。

使用命令“import excel”导入Excel表格数据，命令“import delimited”导入文本文件数据。

导入数据后，可以使用“describe”命令查看数据的结构和变量的属性。

3. 数据浏览与修改：使用“browse”命令可以打开数据集的浏览窗口，查看数据的内容。

要对数据进行修改，可以使用“generate”或“replace”命令创建或修改变量的值。

4. 数据子集选择：使用“keep”和“drop”命令选择需要分析的变量或观测。

5. 数据排序：使用“sort”命令可以按照指定的变量对数据进行排序。

二、数据处理与统计分析1. 描述统计分析：使用“summarize”命令计算变量的均值、方差、最大值、最小值等统计指标。

可以使用“tabulate”命令生成频数表和交叉表。

使用“histogram”命令生成直方图，“scatter”命令生成散点图。

2. t检验与方差分析：使用“ttest”命令进行两样本t检验，使用“oneway”命令进行方差分析。

3. 回归分析：使用“regress”命令进行线性回归分析。

可以使用“predict”命令创建预测值，并使用“estat”命令计算回归结果的统计量。

4. 面板数据分析：对于面板数据，使用“xtset”命令设置面板数据的结构，然后使用面板数据专用的命令进行分析，如“xtreg”进行面板数据的固定效应模型分析。

STATA统计软件操作

模型诊断与优化
对建立的回归模型进行诊断，检查模型的假设条件是否满足，以及是否存在异常值、共线性等问题，进而对模型进行优化。
05
CATALOGUE
图形绘制与可视化
基本图形绘制
散点图
用于展示两个变量之间的关系，通过点的分布可以观察变量间是否存在线性或非线性关系。
直方图
用于展示单个变量的分布情况，可以直观地看出数据的分布形态，如正态分布、偏态分布等。
STATA统计软件操作
汇报人：XX
目录
• STATA软件简介 • STATA软件基本操作 • 数据处理与清洗 • 统计分析与建模 • 图形绘制与可视化 • 编程与自动化操作 • 案例分析与实战演练
01
CATALOGUE
STATA软件简介
STATA软件的发展历程
初创阶段
01
STATA软件由StataCorp公司开发，最初版本发布于1985年，
结果解读
解读模型的参数估计、标准误、t值和p值等统计量，评估模型的拟合优度和预测能力。同时，关注固定效应和随机效应的选择对结果的影响。
THANKS
感谢观看
掌握基本的调试技巧，优化代码性能，提高程序运行效率。
07
CATALOGUE
案例分析与实战演练
案例一：线性回归分析
数据准备
导入数据，检查数据完整性和准确性，处理缺失值和异常值
。
变量选择
根据研究目的和专业知识，选择合适的自变量和因变量。
模型构建
使用STATA的线性回归命令（如`regress`），构建线性回归模型。
结果解读
解读模型的参数估计、标准误、z值和p值等统计量，评估模型的预测能力和生存函数的形状。

STATA学习系列 ppt课件

Source | SS df -------------+-----------------------------Model | .00005593 3 Residual | .000027249 46 -------------+-----------------------------Total | .000083179 49

( 1) medage - 2.0 medagesq = 0.0
F( 1, 46) = 0.15 Prob > F = 0.7021
医学资料
8
1.Census数据,对模型分析

. vce
| medage medagesq pcturban _cons -------------+-----------------------------------medage | 1.5e-06 medagesq | -2.5e-08 4.2e-10 pcturban | 3.2e-07 -5.7e-09 6.9e-07 _cons | -.000022 3.7e-07 -5.0e-06 .00032
-----------------------------------------------------------------------------drate | Coef. Std. Err. t P>|t| -------------+---------------------------------------------------------------medage | .0006238 .0000658 9.48 0.000 pcturban | -.0035028 .0007731 -4.53 0.000 _cons | -.0076466 .0019034 -4.02 0.000 -----------------------------------------------------------------------------医学资料

stata软件meta分析操作详细攻略PPT学习教案

Stata是一个功能强大而又小巧玲珑的统计分析软件,最初由美国计算机资源中心(Computer Resource Center)研制,现为Stata公司的产品。从 1985年1.0 版问世以来,通过不断的更新和扩充,软件功能已日趋完善。
它操作灵活、简单、易用,同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,在许多方面别具一格,和SAS、 SPSS一起并称为新的三大权威统计软件。
stata软件meta分析操作详细攻略PPT课件
会计学
1
目录
1 Stata软件简介 2 Stata中二分类资料的Meta分析 3 Stata中连续性资料的Meta分析 4 异质性的处理 5 发表偏倚检验
*
第1页/共40页
23021/6/20
1 第一部分
Stata软件简介
3
第2页/共40页
1.1 stata软件简介
5.2 Begg法漏斗图
Begg's funnel plot with pseudo 95% confidence limits 4
2
logor
0
-2 0
*
.5
1
1.5
s.e. of: logor
第33页/共40页
5.3 Begg法检测发表偏倚（连续性）
连续性资料的不用取对数
图形显示依据权重大小
第19页/共40页
2021/6/20
异质性的处理
4 第四部
分
21
第20页/共40页
4. 1 亚组分析
按照用药方式分为两个亚组
*
第21页/共40页
4. 1 亚组分析菜单命令
输入亚组命令

《STATA第五讲》课件

总结词：在Stata编程中，宏和循环结构的使用可能会带来一些问题。
错误与调试
详细描述：熟悉常见的语法错误提示，根据错误提示检查代码；采用逐步调试方法，设置断点、单步执行和查看变量值，定位和修正逻辑错误。
2023
REPORTING
THANKS
感谢观看
2023
PART 06
Stata常见问题解答
REPORTING
数据处理问题解答
总结词
当遇到数据导入困难时，可能是由于文件格式、编码或分隔符不正确所致。
详细描述
确保数据文件格式（如.csv、.dta等）与 Stata软件兼容；检查文件编码（如UTF-8 、ANSI等），确保与软件设置一致；确认数据字段分隔符（如逗号、制表符等）是否正确。
Stata是一种统计分析软件，专门用于数据管理和统计分析。
02
它提供了广泛的数据分析工具，包括描述性统计、回归分析、方差分析、生存分析等。
03
Stata具有易于使用的界面和强大的编程语言，使数据分析变得简单而高效。
Stata的用途
数据分析
Stata提供了各种数据分析工具，可以帮助用户进行数据探索、描述性统计和复杂统计分析。
Cox比例风险模型
研究多个因素对生存时间的影响，并假设风险函数与时间无关。
ABCD
Kaplan-Meier曲线
非参数方法描述生存函数随时间的变化。
时间依赖性Cox模型
在某些情况下，风险函数可能随时间变化，可以使用此模型进行描述。
2023
PART 04
Stata编程基础
REPORTING
Stata命令基础
数据管理
Stata具有强大的数据管理功能，可以方便地导入、导出数据，进行数据清洗和整理。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

变量的生成与处理
注意事项：
不要使用新变量取代旧变量；充分了解原始变量的分布以及每个数值代表的含义；遵循不重不漏；将原始变量和新变量的取值进行对比，检查是否有误
；注意原始变量的缺失值。
使用gen…replace命令生成新变量；
gen…replace if共同使用形成分组变量
recode v , gen(nv)
增加存储空间（set mem 40m）清空存储空间（clear，相当于drop all）。
Stata数据的读入
数据的读入：
可直接读入下列尾缀形式的数据.dta/.txt/.raw/.xls；
读入文件中的部分变量：use a b c using“文件路径和名称”；
读入文件中的部分样本：use “文件路径和名称” in X/Y(X、Y表示个案序号)；
若使用update选项，还会有：
4＝观察值来自于主要数据和使用数据，且主要数据的缺失值得到更新，
5＝观察值来自于主要数据和使用数据，且两个数据的数值不匹配。
数据的转换（reshape）
数据的结构：
宽数据（wide format）长数据（long format）
菜单：
Data-Create or change variables-Other variable transformation commands-Convert data between wide & long。
读入文件中某些特征的样本：use“文件路径和名称”if 条件句；
数据库的描述
描述数据的基本情况：describe, d
describe, simple:只展示变量名； describe，short：报告变量总体情况； describe，detail：输出全部变量的全部信息； describe a b c：描述部分变量的情况。
认格式是float，前三种只保留整数，占空间最大到最小的顺序是double, float, lompress为压缩所有变量； Compress yr*为压缩共同前缀的变量； Compress a-c为压缩从a到c之间的所有变量。
数据库的描述
描述变量取值的基本命令参数：
inspect。
显示数据：
browse直接进入数据的浏览窗口； list最好指定变量，否则会输出数据中所有变量
的分布。
数据排序：
sort。例：比较城乡孩子的性别bysort urban: inspect
girl或者sort urban然后by urban: inspect girl.
recode v v的取值＝nv的取值 *=其他取值(*表示所有其他没有列出的数值)，gen（新变量名）
recode yrsch 0=0 11=1 12=2 13=3 14=4 15=5 16=6 21=7 *=.,gen (edu)
变量的生成与处理
生成分类变量：
egen 新变量命＝cut（旧变量名），at（取值的下限） eg：egen agegrp1=cut(age),at(0,7,13,16,20)
gen numobs=count(personid), by(personid year)
数据的合并（纵向）
纵向合并：
作用：增加样本量命令：append 菜单：Data-Combine datasets-Append datasets；程序：append using“文件路径和名称”；
关键变量名，save“文件路径和名称”，replace；再看主要数据，use“文件路径和名称”，sort关键变量
名；最后，合并数据：merge 关键变量名 using “文件路径
和名称”，keep（变量）。
数据的合并
（系统变量）
关于系统变量：_merge，它的取值限于
1＝观察值仅来自主要数据，使用数据没有匹配的样本， 2＝观察值仅来自使用数据，主要数据没有匹配的样本， 3＝观察值来自于主要数据和使用数据。
append using“文件路径和名称”，keep 变量名。
数据的合并（横向）
横向合并
作用：增加变量（merge）。菜单：Data-Combine datasets-Merge two datasets或Data-
Combine datasets-Merge multiple datasets 程序：先看使用数据：use “文件路径和名称”，sort
按照变量b的分类生成均值变量：
egen a_mean=mean(a),by (b)
生成一个变量b和c的行均值变量（avg），忽略缺失值：
egen avg＝rmean(b c)
生成标准数值：
egen zweight=std(weight)
计算每一年观察的样本，从而了解在每年的调查中，有多少相同的样本（或相同的个体）：
STATA统计软件操作..
Stata数据的读入
log文件。
创建文件：log using “文件路径和名称”，其后带 append表示在原有文件的基础上增加新内容，其后带replace表示取代原记录文件；
暂停：log off；再次开始：log on；关闭：log close。
数据的存储空间：
变量编码本：
codebook。 codebook+变量名：描述变量特征。
Stata数据类型及特点
与数据类型对应的是数据库中变量的存储类型（storage type）：。
字符型:保存格式为str…，省略表示的是字符位数数值型：保存格式有byte, int, long, float, double。默
数据转换：长——宽
程序：
reshape wide 变量名，i(观察值的标识符) j(次标识符)。 “变量名”表示一组同样内容的变量的共同的前缀，
即X_ij中的X，指定希望转换的变量名称；选项i及括号捏的变量一起，指定观察值的标识符，或表示取值独一无二、代表每个逻辑观察值的变量。 eg：
gsort mothid-age； by mothid：gen order=_n； reshape wide kidid age girl yob，i(mothid) (order)。