Stata简明讲义

合集下载

让你快速上手的stata讲义

Stata简明讲义王非中国经济研究中心ebwf@〇、写在前面的话关于学习Stata的意义，大家只需知道：目前，Stata是计量经济学、特别是微观计量经济学的主流软件。

因此，Stata很重要、很有用，而大家也会在使用Stata 的过程中慢慢体会到它的特点。

本讲义取名为“Stata简明讲义”，意在突出“简”和“明”两个字。

虽然讲义长达五十多页，但相比Stata的完全手册来说，还不及九牛之一毛，故为“简”。

实际上，完全手册中的很多内容都鲜有人（特别是计量经济学者）问津，而本讲义列出的内容则是大家经常用到的操作；所以，“简”也有“简”的好处。

即便如此，掌握这份讲义也并非易事。

所谓“明”，是明晰的意思。

本讲义本着“手把手教”的精神，力求把每项操作都说得具体明晰，以方便初学者（特别是没有程序操作经历的初学者）尽快上手。

至于本讲义在“简明”上做得怎么样，还需要各位读者来评判。

中心的一位学长邹传伟，曾经写过一份“Stata介绍”，在网上可以下载。

那份讲义比较全面，但不够具体明晰。

本讲义参照那份讲义，在框架上查漏补缺，并进一步地明晰化。

本讲义第二部分的“do文件”和第七部分的“残差分析”的相关内容均来自于中心的沈艳老师的相关讲义，而沈老师对于本讲义的成形给予了细致的指导。

本讲义附带了一些数据文件，其中“WAGE1.dta”和“WAGEPRC.dta”均来自Wooldridge的中级计量教材的数据集，而其他数据则为作者自己的杜撰。

尽管从别人那里拿来了许多好东西，但本讲义的任何错误仍源于作者自己的疏忽。

本讲义是这样安排的：第一部分讲Stata的界面，第二部分讲do文件，第三部分讲怎样把数据导入Stata，第四部分专门讲help和search命令以及帮助文件的阅读方法，第五部分讲数据的描述及管理，第六部分讲如何画图，第七部分讲初步的回归分析。

祝各位学习愉快。

一、Stata长什么样？首先，让我们看看Stata长什么样。

我们以Stata 9.1（以下简称Stata）为例。

stata入门简明课件

命令：inspect
5.4显示数据（list，browse）
Eg：命令：list A B C D，sep(10) noobs
list C if D>18
5.5排序数据（sort）
所谓排序，就是按关键变量数值的递增或递减次序进行排列。用作排序运算依据的关键变量可以是数字类型，也可以是字符类型。参与排序的变量可以只有一个，也可以有两个或者多个。
命令：tabulate var
菜单：statistics-summaries,tables,and tests-frequency tables-One-way table
注意：当tabulate的后边接两个变量的时候，则生成它们之间的交叉表
在使用tab进行频数分析的时候，常常会接多个变量，则得到“too many variables specified”的错误提示，下面区分一下tabtab1 tab2这三条命令：
命令：
logity x1 x2（参数估计）
logistic y x1 x2（提供发生比）
分析结果的实质是一样的，但输出结果的表现形式有所不同。
9.3时间序列
S
一、Stata安装及注意事项
1.1.下载stata13.rar软件后，请解压到D盘(其他盘id=1245846483&uk=604047888
二、数据清理以及问卷的信度与效度检验
三、界面介绍
菜单路径：Data-describe data-describe data contents(codebook)
命令： codebook
5.3描述变量的属性(inspect)
在了解变量的一些基本信息之后，还需要对变量的频数分布、中央趋势、离散趋势等进行描述。

Stata 简介及基本操作ppt课件

. clear 这样，内存中所有的当前数据都被清空，然后可以再打
开另外一个数据集。
精选版课件ppt
14
2．变量的标签在变量窗口，每个变量的“名字”（Name）旁边显示了
其“标签”（label）。但目前的标签过于简略，缺乏变量的解释信息。
如果想将变量“gov”的标签改为“government expenditures”，可进行如下操作。以鼠标的右键点击变量名 “gov”，然后选择“Edit variable label”，输入“government expenditures”即可。此时，再去看变量“gov”的标签，就已经改为“government expenditures”。另外，在右上角的结果窗口出现了以下一行命令：
打开Stata。此时可以看到，在最上方有一排菜单，即 “File Edit Data Graphics Statistics User Window Help”。在此之下，有四个窗口，分别为：
左上“Review”（历史窗口）：此窗口记录着自启动Stata以来执行过的命令。
左下“Variables”（变量窗口）：此窗口记录着目前 Stata 内存中的所有变量。
15
3．审视数据一个数据集可能很大，而我们常希望看到数据的概貌。
想看数据集中的变量名单、标签等，可以在命令窗口输入： . describe
如果想给整个数据集加上一个标签，以说明这个数据集来自“Wagner Law 1978-2009”，可输入命令： . label data "Wagner Law 1978-2009"
. summarize gov gcons gdp
Variable Obs gov 32 gcons 32 gdp 32

Stata讲义精要-聂辉华

5
二、数据管理
变量管理：对变量进行改变最重要的是产生新变量的命令generate or gen or g 表示运算的符号：等于、加、减、乘、除、乘方、指数、对数、滞后、领先和差分分别对应于=, +, -, *, / ,^ , exp, log, l., f., d.）。表示逻辑关系的符号：&表示and，|表示or，!= 表示不等，= =表示相等。表示大小关系的符号：>，<，>=，<=。表示条件关系的命令：if
四、计量分析
5、动态面板数据（Dynamic Panel Data）方程右边包含了因变量的滞后项（可以推广到多阶滞后），因此称之为动态面板模型。估计方法为GMM，包括差分GMM和系统 GMM 命令结构为：xtabond2 depvar varlist [if exp] [in range] [weight] [, level(#) twostep robust noconstant small noleveleq orthogonal gmmopt [gmmopt ...] ivopt [ivopt ...] artests(#) arlevels h(#) nodiffsargan nomata]
15
Cont’d
其他选项的说明：
level(#)表明了置信度，默认值为95% beta 表示去均值和标准差之后的beta系数 noconstant 无截距项回归 robust 产生一致性的标准差 (Huber/White/sandwich)
其它回归命令多方程回归：for var y1-y10 z1-z5:reg x x1x22，因变量分别为y1-y10 z1-z5，自变量均为 x1-x22，共有15个回归方程。分年度回归：by year: reg y x1 x2

STATA_讲义

STATA 讲义目录Stata入门教程：Stata概貌Stata 第一章数据输入，存盘和调用文件命令以及数据管理命令Stata第二章描述性统计命令与输出结果说明Stata第三章正态检验与作图命令Stata第四章 t检验和单因素方差分析（上）Stata第四章 t检验和单因素方差分析（下）Stata第五章多组计量资料比较的非参数检验命令与输出结果说明Stata第六章卡方检验Stata第七章相关分析Stata第八章单因素生存分析Stata第九章多因素方差分析命令与输出结果说明Stata第十章线性回归和逐步回归命令和输出结果说明Stata第十一章 Logistic回归分析命令与输出结果说明Stata第十二章 Cox回归分析命令与输出结果说明第一章 Stata 概貌§1.1 Stata的功能、特点和背景Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件，由美国计算机资源中心（Computer Resource Center）研制。

从1985至1998的十四年时间里，已连续推出1.1，1.2，1.3，1.4，1.5，……及2.0，2.1，3.0，3.1，4.0，5.0，6.0等多个版本，通过不断更新和扩充，内容日趋完善。

它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点，又在许多方面别具一格。

Stata融汇了上述程序的优点，克服了各自的缺点，使其功能更加强大，操作更加灵活、简单，易学易用，越来越受到人们的重视和欢迎。

Stata的突出特点是只占用很少的磁盘空间，输出结果简洁，所选方法先进，内容较齐全，制作的图形十分精美，可直接被图形处理软件或字处理软件如WORD等直接调用。

一、 Stata的数据管理能力1. Stata的数据管理空间受计算机的操作系统和计算机扩展内存的影响。

stata简单讲义第六讲

线性相关和回归赵耐青在实际研究中，经常要考察两个指标之间的关系，即：相关性。

现以体重与身高的关系为例，分析两个变量之间的相关性。

要求身高和体重呈双正态分布，既：在身高和体重平均数的附近的频数较多，远离身高和体重平均数的频数较少。

样本相关系数计算公式(称为Pearson 相关系数)：)()())((22YYXXXY L L L Y Y X X Y Y X X r =----=∑∑∑(1)1. 考察随机模拟相关的情况。

显示两个变量相关的散点图程序simur.ado （本教材配套程序,使用见前言）。

命令为simur 样本量总体相关系数如显示样本量为100，ρ=0的散点图本例命令为simur 100 0如显示样本量为200，ρ=0.8的散点图本例命令为simur 200 0.8如显示样本量为200，ρ=0.99的散点图本例命令为simur 200 0.99如显示样本量为200，ρ=-0.99的散点图本例命令为simur 200 -0.99例1. 测得某地15名正常成年男子的身高x（cm）、体重y（kg）如试计算x和y之间的相关系数r并检验H0：ρ＝0 vs H1: ρ≠0。

α=0.05数据格式为176.0 69.0175.0 74.0172.0 68.0170.0 64.0173.0 68.5168.0 56.0172.0 54.0170.0 62.0172.0 63.0173.0 67.0168.0 60.0171.0 68.0172.0 76.0173.0 65.0Stata命令pwcorr 变量1 变量2 …变量m，sig本例命令pwcorr x y,sigpwcorr x y,sigPearson相关系数=0.5994，P值=0.0182<0.05，因此可以认为身高与体重呈正线性相关。

注意：Pearson相关系数又称为线性相关系数并且要求X和Y双正态分布，通常在检查中要求X服从正态分布并且Y服从正态分布。

STATA简明讲义

中国经济研究中心王非
一、Stata 长什么样？
首先，让我们看看 Stata 长什么样。我们以 Stata 9.1（以下简称 Stata）为例。点击可执行文件“wstata.exe”，即可看到 Stata 的基本界面：
中间黑色背景的区域就是 Stata 的基本显示界面，数据分析的结果一般显示在这一区域中。在我看来，黑色的背景有助于减缓视觉疲劳。如果你不喜欢这种显示方式，可以把鼠标放在这一区域中，点击鼠标右键，进而设定自己喜欢的显示方式。
接下来便是开启新的 log 文件的命令。“log using”命令用来开启一个 log 文件，命令后面是 log 文件的路径和名称。值得强调的是，Stata 命令中出现文件的路径和名称时，可以用双引号包裹起来，也可以不用。命令最后“replace”的意思是：如果在那个路径下已经存在一个这样的文件，那么新开启的 log 文件把原文件完全覆盖；如果你想在已经存在的 log 文件后面继续记录，可以把“replace”换成 “append”。log 文件的操作还有其他常用命令。直接运行“log”命令可以查询当前 log 文件的工作状态；“log off”命令可以暂停 log 文件的运行，就像把录像机暂时关掉；“log on”可以重新开始 log 文件的运行，就像重新开动录像机；如果想查看 log 文件记录的内容，可以在“view”命令后面加上 log 文件的路径和
名称。此外，点击图标栏的图标，也可以对 log 文件进行一系列的操作。
接下来就是导入数据、进行各种操作了。后文会逐步介绍相关的内容。
那么，怎样写这样一个 do 文件呢？主要有两种方法：一、打开一个记事本文件，
5
Stata 简明讲义
中国经济研究中心王非

stata操作介绍之基础部分一讲述ppt课件

Stata 菜单栏简介
包含八项下拉菜单:文件、编辑、数据、绘图、统计分析、用户、窗口及帮助。
“雪亮工程"是以区（县）、乡（镇）、村（社区）三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程” 。
1.10 Stata文件格式
• Stata常用的文件格式：
文件类型
扩展名
数据文件
.dta
命令程序文件
.do
运行程序文件
.ado
帮助文件
.hlp
说明
stata使用的数据
一系列命令的集合
用于完成用户提交的数据处理与统计分析任务的程序文件
与相应的.ado文件有相同的文件名，形成一堆文件，并提供在线帮助
“雪亮工程"是以区（县）、乡（镇）、村（社区）三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程” 。
命令回顾窗口
结果窗口
命令窗口
变量名
窗口
“雪亮工程"是以区（县）、乡（镇）、村（社区）三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程” 。
1.4 Stata与其他软件的区别
“雪亮工程"是以区（县）、乡（镇）、村（社区）三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程” 。

stata讲义

Stata介绍作为流行的计量经济学软件，Stata的功能十分地全面和强大。

可以毫不夸张地说，凡是成熟的计量经济学方法，在Stata中都可以找到相应的命令，而这些命令都有许多选项以适应不同的环境或满足不同的需要。

即使是最详细的Stata手册，也难免有遗珠之憾，更何况本文仅是一个粗浅的介绍。

掌握Stata最好的办法是在实践中学习：Stata 本身提供了非常强大的帮助系统，并且关于Stata的书籍和网络资源都不少。

本文拟根据如下顺序介绍Stata：1．界面；2．文件和数据；3．语法和命令；4．数据管理；5．描述统计；6．画图；7．回归和回归分析；8．常用命令。

第3和第4部分是最体现Stata灵活性的地方，也是应用Stata的基础。

第5和第6部分介绍如何用Stata完成基本的统计功能。

Stata的功能很多，比如回归，曲线拟合，生存分析，主成分分析，因子分析，聚类分析，时间序列分析等等。

但回归无疑是其中最重要的功能。

第7部分介绍如何用Stata作线性回归和Logistic回归。

本文第2和第3部分包含了作者的观点，难免有偏颇之处。

其余部分主要来自文献的归纳和总结。

限于水平有限，错误在所难免，敬请原谅。

1．界面图1 Stata界面Stata有4个窗口：1． Stata Command（右下）用于向Stata输入命令；2． Stata Results（右上）用于显示运行结果；3． Review（左上）记录使用过的命令；4． Variables（左下）显示当前memory中的所有变量。

窗口上方是工具栏，其上的按钮依次为（从左到右）Open, Save, Print Graph/Print Log, Log Start/Stop/Suspend, Bring Log to Front, Bring Graph to Front, Do-file Editor, Data Editor, Data Browser, Clear –more- condition, Break。

Stata学习讲义

Stata学习讲义刘志阔一、如何导入数据Stata的数据处理功能是极其强大的，不过我们最好在excel中整理数据，然后导入到stata中就可以了。

命令：insheet using name.csv*注意，Stata只能用csv格式，另外把数据放到stata的目录中。

二、如何进行回归Stata中有很多命令，这些命令都是现成的，直接用就可以了。

不过，怎么用是个问题。

熟悉命令的基础上学会如何使用Help。

最简单的命令reg做ols回归，xtreg处理面板等。

命令：reg y x*注意，Stata命令的格式，自己回去看手册。

网络帮助可以采用如下命令获得findit scat3, net；search scat3, net三、如何导出结果Stata可以直接导出发表论文中回归结果，当然不是完全一样。

命令：outreg2 Results using name.word四、如何画图Stata的画图功能也是极其强大的，可以画出各种类型的图标。

命令：scatter y x || lfit y x五、如何存储结果Stata可以储存回归结果，便于分析。

命令：log using name log closed1.codebook可以查看数据有没有缺失2.xml_tab estout 可以输出结果3.qui tab year, gen(yr) 可以生产时间虚拟变量。

4.g q=quarterly( qtr,"YQ")5.form q %tq6.recode province (min/11=1) (12/19=2) (20/31=3)gen eastern=(province==1)gen middle=(province==2)gen western=(province==3)Logout 命令可以把界面内容存到word里面，而不用复制。

Logout,save(名称) word/excel replace:各种描述性命令,statsXml_tab可以输出Excel格式的结果。

《STATA简易操作》课件

收集生存时间数据和潜在影响因素。
使用Stata进行生存分析，包括数据导入、选择合适的生存分析模型、参数估计和结果解释。
分析生存曲线和风险函数，探究影响因素对生存时间的影响。
进行模型假设检验和模型比较。
案例三：面板数据分析
总结词：利用面板数据分析方
法，探究个体、时间和其他变
量的交互作用。
01
详细描述
绘制折线图
折线图用于展示随时间变化的数据趋势。
VS
在Stata中，可以通过输入“line yvar xvar”命令来绘制折线图。其中 yvar代表要展示的数据变量，xvar代表时间变量。还可以通过添加选项来修改线条样式、标记等。
05
Stata实战案例
案例一：线性回归分析
总结词：通过线性回归分析，探究自变量与因变量之间的关系。
01
确定研究问题，选择合适的自变量和因变量。
03
02
详细描述
04
使用Stata进行线性回归分析，包括数据导入、模型设定、参数估计和结果解释。
分析模型的拟合优度，如判定系数、调整判定系数等。
05
06
检验模型的假设条件，如线性关系、误差项独立同分布等。
案例二：生存分析
总结词：利用生存分析方法，研究生存时间与影响因素之间的关系。详细描述
多元回归
探讨多个自变量对因变量的影响，以及交互项和平方项的设定。
面板数据分析
面板数据介绍
阐述面板数据的概念、特点及其在经济学中的应用。
固定效应与随机效应模型
比较两种模型的适用场景和结果解释。
面板数据的单位根与协整检验
介绍用于检验数据稳定性和长期关系的检验方法。

Stata讲义

• save数据保存命令
– save,replace
• erase 删除数据命令
– 一定要加上扩展名
• describe 数据一般描述命令 • codebook 展示各变量情况的命令 • sum 展示各变量数量情况的命令 • generate 生成新变量命令 • rename 变量重命名命令 • drop 删除变量或观察值的命令 • keep 保留变量或观察值的命令 • sort 对某些变量按观察值大小进行排序的命令
– 从低到高 – 从高到低
• order 变量顺序的重新排列命令 • note 加标注命令
• replace 变量替换命令 • tabulate 联列表命令 • display 显示计算结果的命令 • count 报告共有多少观察值的命令 • log 日志文件命令 • mkdir 生成新路径命令 • cd 设置文件路径命令
• 与其它文件（SAS、SPSS）之间的互动
– Statransfer软件.
• 如何读取不知名的文件？
– .dat的文件？例子。 – Infix
• Set memory
– Infile1 – Infile2
• Help命令的用法。
简单的数据操作命令
• use打开数据库命令 • clear清空内存数据命令 • edit数据编辑命令 • input手动录入命令 • insheet、outsheet、infix等数据转换命令。 • set mem设置内存命令
?setmem设置内存命令?save数据保存命令savereplace?erase删除数据命令一定要加上扩展名?describe数据一般描述命令?codebook展示各变量情况的命令?sum展示各变量数量情况的命令?generate生成新变量命令?rename变量重命名命令?drop删除变量或观察值的命令?keep保留变量或观察值的命令?sort对某些变量按观察值大小进行排序的命令从低到高从高到低?order变量顺序的重新排列命令?note加标注命令?replace变量替换命令?tabulate联列表命令?display显示计算结果的命令?count报告共有多少观察值的命令?log日志文件命令?mkdir生成新路径命令?cd设置文件路径命令补充命令?rmdir移去某个文件夹mkdirgggrmdirggg很傻的命令?gsort扩展排序命令useautoclearsortpricesortpricegsortprice?saveold保存成老版本的格式?infile数据读取命令加权命令weight?计算加权平均值?scorenum?650193?64926?64823?64716?64621?64526?64432?64323?64238?64129?64038?sumscore?sumscoreweightnum补充命令?rmdir移去某个文件夹mkdirgggrmdirggg很傻的命令?gsort扩展排序命令useautoclearsortpricesortpricegsortprice?saveold保存成老版本的格式?infile数据读取命令加权命令weight?计算加权平均值?scorenum?650193?64926?64823?64716?64621?64526?64432?64323?64238?64129?64038?sumscore?sumscoreweightnum怎么样偷懒

Stata操作讲义_经济学_高等教育_教育专区

Stata操作讲义第一讲Stata操作入门第一节概况Stata最初由美国计算机资源中心（Computer Resource Center）研制，现在为Stata公司的产品，其最新版本为7.0版。

它操作灵活、简单、易学易用，是一个非常有特色的统计分析软件，现在已越来越受到人们的重视和欢迎，并且和SAS、SPSS一起，被称为新的三大权威统计软件。

Stata最为突出的特点是短小精悍、功能强大，其最新的7.0版整个系统只有10M左右，但已经包含了全部的统计分析、数据管理和绘图等功能，尤其是他的统计分析功能极为全面，比起1G以上大小的SAS系统也毫不逊色。

另外，由于Stata在分析时是将数据全部读入内存，在计算全部完成后才和磁盘交换数据，因此运算速度极快。

由于Stata的用户群始终定位于专业统计分析人员，因此他的操作方式也别具一格，在Windows席卷天下的时代，他一直坚持使用命令行／程序操作方式，拒不推出菜单操作系统。

但是，Stata的命令语句极为简洁明快，而且在统计分析命令的设置上又非常有条理，它将相同类型的统计模型均归在同一个命令族下，而不同命令族又可以使用相同功能的选项，这使得用户学习时极易上手。

更为令人叹服的是，Stata语句在简洁的同时又拥有着极高的灵活性，用户可以充分发挥自己的聪明才智，熟练应用各种技巧，真正做到随心所欲。

除了操作方式简洁外，Stata的用户接口在其他方面也做得非常简洁，数据格式简单，分析结果输出简洁明快，易于阅读，这一切都使得Stata成为非常适合于进行统计教学的统计软件。

Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件（ADO文件），这些文件可以自行修改、添加和下载。

用户可随时到Stata网站寻找并下载最新的升级文件。

事实上，Stata的这一特点使得他始终处于统计分析方法发展的最前沿，用户几乎总是能很快找到最新统计算法的Stata程序版本，而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。

stata1-5讲义

果一般而言是没有意义的并容易产生误导。可是如何让大家相信这种滥用和误用
计量模型所导致的偏误呢？
由于在社会科学中，被广泛认同的数理模型很少，讨论估计量是否一致或有
偏误的最好办法是假设我们已知某个理论公式及其相应参数，然后按照这个公式
通过蒙特卡洛方法生成假设数据，再来看在什么条件下用什么方法可以获得一致
(2)将其解压到 D:/stata9。 (3)点击 setup 安装>>改变安装路径到 D:/stata9>>选择 Stata/SE 版本。
1.2 启用和退出
(1) 程序→Stata，即可进入 Stata，启动后出现文件对话框，要求输入注册单位和密码等。
中国人民大学陈传波
9
chrisccb@
的或渐近正态的估计结果，这种方法已被国外的统计和计量教材大量采用。
本书正是在这两个方面突出了自己的特色。作者 9 年来潜心钻研 STATA，
利用 STATA 处理过农村住户数据、人口普查数据（部分）等大量数据，积累了
丰富的数据处理经验。本书的前 9 讲集中介绍数据处理的知识和技巧，后 9 讲通
过蒙特卡洛模拟帮助读者从直观上理解数理统计和计量的基本理论，并掌握相应
本书从第 10 讲开始，运用蒙特卡洛模拟方法，将基于随机变量的数理统计和计量经济学的核心思想和方法的黑箱打开，让读者在如同做游戏一样的感觉中深刻理解抽样分布、假设检验、回归分析等方法的强大魔力和无处不在的陷阱，这有利于读者批判性地理解他人基于统计数据得出的结论，也很利于读者在自己运用统计和计量分析时正确对待和解释估计结果。
中国人民大学陈传波
8
chrisccb@
STATA 十八讲１入门
1 STATA 入门

stata简单讲义第六讲

y|x x
表示在固定年龄情况下的身高总体均数。上述公式称为直线回归方程。其中为回归系数（ regression coefficient），或称为斜率（slope）；称为常数项（constant），或称为
截距（intercept）。回归系数表示 x 变化一个单位 y 平均变化个单位。
明显的离群点，故说明所建回归方程比较理想。
110.0 114.5 112.5 116.5 110.0 114.5 110.0 113.1
117.0 122.0 119.0 119.0 125.5 120.5 122.0 120.6
125.5 122.5 123.5 120.5 123.0 124.0 126.5 124.0
由于男孩的身高与年龄有关系，不同的年龄组的平均身高是不同
x | 1.0000
|
|
y | 0.5994 1.0000
| 0.0182
|
Pearson 相关系数=0.5994，P 值=0.0182<0.05，因此可以认为身高与体
重呈正线性相关。
注意：Pearson 相关系数又称为线性相关系数并且要求 X 和 Y 双正态
分布，通常在检查中要求 X 服从正态分布并且 Y 服从正态分布。
如果不满足双正态分布时，可以计算 Spearman 相关系数又称为非参
数相关系数。
Spearman 相关系数的计算基本思想为：用 X 和 Y 的秩代替它们的原
始数据，然后代入 Pearson 相关系数的计算公式并且检验与 Pearson
相关系数类同。
Stata 实现
spearman x y
Number of obs =
e|

stata入门中文讲义_经济学_高等教育_教育专区

Stata及数据处理目录第一章STATA基础 (3)1.1 命令格式 (4)1.2 缩写、关系式和错误信息 (6)1.3 do文件 (6)1.4 标量和矩阵 (7)1.5 使用Stata命令的结果 (8)1.6 宏 (10)1.7 循环语句 (11)1.8 用户写的程序 (15)1.9 参考文献 (15)1.10 练习 (15)第二章数据管理和画图 (18)2.1数据类型和格式 (18)2.2 数据输入 (19)2.3 画图 (21)第3章线性回归基础 (22)3.1 数据和数据描述 (22)3.1.1 变量描述 (23)3.1.2 简单统计 (23)3.1.3 二维表 (23)3.1.4 加统计信息的一维表 (26)3.1.5 统计检验 (26)3.1.6 数据画图 (27)3.2 回归分析 (28)3.2.1 相关分析 (28)3.2.2 线性回归 (29)3.2.3 假设检验 Wald test (30)3.2.4 估计结果呈现 (30)3.3 预测 (34)3.4 Stata 资源 (35)第4章数据处理的组织方法 (36)1、可执行程序的编写与执行 (36)方法1：do文件 (36)方法2：交互式-program-命令 (36)方法3：在do文件中使用program命令 (38)方法4：do文件合并 (39)方法5：ado 文件 (40)2、do文件的组织 (40)3、数据导入 (40)4、_n和_N的用法 (44)第一章STATA基础STATA的使用有两种方式，即菜单驱动和命令驱动。

菜单驱动比较适合于初学者，容易入学，而命令驱动更有效率，适合于高级用户。

我们主要着眼于经验分析，因而重点介绍命令驱动模式。

图1.1Stata12.1的基本界面关于STATA的使用，可以参考Stata手册，特别是[GS] Getting Started with Stata，尤其是第１章A sample session和第２章The Stata User Interface。

stata简明教程

以使用use命令打开。 • 4。放在其他目录的文件可以利用设置目录或
者“打开” 菜单打开。
第23页，共39页。
Stata数据类型
• 数值型：用0、1、2…9 及+、–（正负号）与小数点和( )来表示。
• 字符型：字符串变量由字母数字或一些特殊的符号组成（如地名、住址，职业等等）。
• 注意：数字不表示大小信息，如电话、身份证号等。字符型数据必须要加 “”。
• 我们的讲述以命令方式为主。
第9页，共39页。
安装指南
• 分为安装版和简易版 • 安装版：（部分vista机器不支持） • 解压 setup.rar • 运行 setup • 安装时选择 Stata SE • 安装到C盘或者D盘（最好D盘） • 安装完毕
第10页，共39页。
• 第一次运行会出现注册信息，此时需运行 keygen文件，将注册数据贴入。
第14页，共39页。
文件的打开
• 1。所有的系统示例数据可以利用sysuse命令打开。
• 2。用户自己的统计数据需要用use命令打开。 use命令默认打开 C:\data 或者 D:\data中的数据。
• 3。如果需要打开其他文件夹的数据，必须改变目录（例如，将自己的数据放入D:\abc）
• cd "D:\abc” • 或者直接 file------open
Stata有什么优势？
• 1。Stata 的命令语句极为简洁明快，易学易记。
• 2。强大的帮助信息。本地帮助 Help 命令名
在线帮助Findit 命令名
• 3。始终处于计量经济学和统计学的最前沿。许多Stata 程序员会针对计量经济学发展编写一些最新的程序（ADO 文件）， Stata提供了严谨、简练而灵活的程序语句，用户可以编写自己的命令和函数，同时可随时到Stata 网站寻找并下载最新的升级文件。下载后可以直接使用，也可以自行修改、添加功能。（例如当前流行的面板单位根和面板门限数据，均可以安装下载使用）

stata1-5讲义

本书从第 10 讲开始，运用蒙特卡洛模拟方法，将基于随机变量的数理统计和计量经济学的核心思想和方法的黑箱打开，让读者在如同做游戏一样的感觉中深刻理解抽样分布、假设检验、回归分析等方法的强大魔力和无处不在的陷阱，这有利于读者批判性地理解他人基于统计数据得出的结论，也很利于读者在自己运用统计和计量分析时正确对待和解释估计结果。
（2）然后点击倒数第四个按扭图标，弹出一个数据库窗口，显示的是 auto 数据文件包含的具体内容。
中国人民大学陈传波
11
chrisccb@
STATA 十八讲１入门
该数据集共有 12 列 74 行，每一列为一个变量，如第一列为汽车品牌，第二列为价格等；每一行为一辆汽车的相关信息，如第一行的汽车是 AMC Concord，价格为 4099 美元。
中国人民大学陈传波
8
chrisccb@
STATA 十八讲１入门
1 STATA 入门
Stata 统计软件包是目前世界上最著名的统计软件之一，与 SAS、SPSS 一起被并称为三大权威软件。它广泛的应用于经济、教育、人口、政治学、社会学、医学、药学、工矿、农林等学科领域，同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点，几乎可以完成全部复杂的统计分析工作。其功能非常强大且操作简单、使用灵活、易学易用、运行速度极快，在许多方面别具一格。
Stata 的另一个特点是他的许多高级统计模块均是编程人员用宏语言写成的程序文件（ADO 文件），这些文件可以自行修改、添加和下载。用户可随时到 Stata 网站寻找并下载最新的升级文件。这一特点使得 STATA 始终处于统计分析方法发展的最前沿，用户几乎总是能很快找到最新统计算法的 Stata 程序版本，而这也使得 Stata 自身成了几大统计软件中升级最多、最频繁的一个。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

因此，Stata很重要、很有用，而大家也会在使用Stata 的过程中慢慢体会到它的特点。

本讲义取名为“Stata简明讲义”，意在突出“简”和“明”两个字。

虽然讲义长达五十多页，但相比Stata的完全手册来说，还不及九牛之一毛，故为“简”。

即便如此，掌握这份讲义也并非易事。

所谓“明”，是明晰的意思。

本讲义本着“手把手教”的精神，力求把每项操作都说得具体明晰，以方便初学者（特别是没有程序操作经历的初学者）尽快上手。

至于本讲义在“简明”上做得怎么样，还需要各位读者来评判。

中心的一位学长邹传伟，曾经写过一份“Stata介绍”，在网上可以下载。

那份讲义比较全面，但不够具体明晰。

本讲义参照那份讲义，在框架上查漏补缺，并进一步地明晰化。

本讲义附带了一些数据文件，其中“WAGE1.dta”和“WAGEPRC.dta”均来自Wooldridge的中级计量教材的数据集，而其他数据则为作者自己的杜撰。

尽管从别人那里拿来了许多好东西，但本讲义的任何错误仍源于作者自己的疏忽。

祝各位学习愉快。

一、Stata长什么样？首先，让我们看看Stata长什么样。

我们以Stata 9.1（以下简称Stata）为例。

点击可执行文件“wstata.exe”，即可看到Stata的基本界面：中间黑色背景的区域就是Stata的基本显示界面，数据分析的结果一般显示在这一区域中。

在我看来，黑色的背景有助于减缓视觉疲劳。

如果你不喜欢这种显示方式，可以把鼠标放在这一区域中，点击鼠标右键，进而设定自己喜欢的显示方式。

围绕着黑色区域，有三个白色背景的框，左边两个，下边一个。

左下角的框的标题是“Variables”，这里会显示数据中所有变量的名称。

下边的框的标题是“Command”，这里用来输入各种操作命令，命令操作的结果一般会显示在黑色区域中。

左上角的框的标题是“Review”，这里会显示你曾经操作过的所有命令。

在三个框的右上角，均有这样一个小图标：。

点击它会使框隐藏起来，其效果类似于把QQ拖到屏幕的边上；再次点击会恢复原状。

而点击右上角另外一个图标，会把相应的框关掉；如果想再次打开，可以点击菜单栏的“Window”，并选择相应的框。

黑色屏幕上方的菜单栏和图标栏，下文会逐步涉及。

二、良好的习惯从do文件开始上文提到，Stata的Command框可以输入各种操作命令。

实际上，绝大多数初学者（甚至很多长时间使用Stata的人）都只是通过Command框一条一条地输入命令，边走边看。

这种做法的缺点在于：进行命令操作的时候具有盲目性，不易厘清自己将要做什么；而命令操作过后缺乏系统性，忘了自己曾经做过什么，而且别人也无法了解你的操作过程；另外，如果你想再次进行类似的操作，得重新输入曾经运行过的命令，比较繁琐。

因此，大家最好从一开始就养成一个良好的习惯：在进行任何程序操作之前，都要事先写好完整的操作计划书；这一操作计划书在Stata里叫做do文件，而Stata会自动运行do文件中计划好的所有操作。

下面是一个do文件的一部分（选自沈艳老师的相关讲义），我们借此看一下do 文件是个怎样的东西。

第一行是这个do文件的名称，do文件的后缀名是“do”。

第二行是这个do文件的作用，即你要通过这份操作计划书做什么事情。

这两行不是操作的内容，而是对操作的注释。

在do文件中，注释的部分用“/*”和“*/”包裹起来。

有编程经验的人都知道，注释在程序里非常重要。

从上面的do文件可以看出，注释不仅出现在开头，而且出现在每一段命令之前。

注释虽然不直接参与程序的运行，但却可以帮助你清晰地规划将要做的事情，也可以帮助你在事后准确地回忆起曾经做过的事情，还可以帮助他人较快地读懂你的操作计划。

一个好的注释必须简洁、清晰，能用短短几个词就准确地描述你要做的事情。

接下来，是“set more off”命令。

在程序的运行过程中，如果显示结果很长（如一屏显示不完），屏幕下方就会出现“—more—”的标记；这时，Stata会暂停显示；只有按任意键，结果才能继续显示下去。

而“set more off”就是把“—more—”标记去掉的命令；这样，do文件在运行的过程中就不会因为某项操作的显示结果太长而暂停运行。

接下来，是“cap log close”命令。

要明白这条命令，得先明白什么是log文件。

打个比方，开大会的时候，需要录像机全程录像，以备事后查用。

同样，运行操作程序的时候，也需要全程记录所有的操作命令和操作结果，以备事后查用。

log 文件就是Stata中的录像带，用来忠实记录整个操作过程。

如果准备拍新录像的时候，发现一盘旧录像带还在录像机里放着，那么就要先取出旧录像带，以便放入新录像带。

同样，如果在进行新的程序操作之前，Stata还在运行着某个以前的log文件，那么就得先把这个log文件关掉，以便开启新的log文件进行记录。

“log close”就是关闭旧的log文件的命令。

在“log close”前面加“cap”的原因是：如果原来没有log文件在运行，那么运行“log close”命令会产生错误信息，Stata也就会因此中止do文件的运行；而前面的“cap”可以阻止在“log close”命令运行过程中的任何错误信息的出现，从而保证do文件的运行不会因此中止。

接下来便是开启新的log文件的命令。

“log using”命令用来开启一个log文件，命令后面是log文件的路径和名称。

值得强调的是，Stata命令中出现文件的路径和名称时，可以用双引号包裹起来，也可以不用。

命令最后“replace”的意思是：如果在那个路径下已经存在一个这样的文件，那么新开启的log文件把原文件完全覆盖；如果你想在已经存在的log文件后面继续记录，可以把“replace”换成“append”。

log文件的操作还有其他常用命令。

直接运行“log”命令可以查询当前log文件的工作状态；“log off”命令可以暂停log文件的运行，就像把录像机暂时关掉；“log on”可以重新开始log文件的运行，就像重新开动录像机；如果想查看log文件记录的内容，可以在“view”命令后面加上log文件的路径和名称。

此外，点击图标栏的图标，也可以对log文件进行一系列的操作。

接下来就是导入数据、进行各种操作了。

后文会逐步介绍相关的内容。

那么，怎样写这样一个do文件呢？主要有两种方法：一、打开一个记事本文件，直接在里面编辑，编辑好之后另存为后缀名为“do”的文件即可。

二、用Stata 自身附带的do文件的编辑器进行编辑。

在Command框中输入“doed”，就可以打开do文件编辑器。

如果想编辑已经存在的do文件，需要在“doed”后面加上do文件的路径和名称。

另外，也可以直接点击Stata图标栏里的图标来编辑do文件。

编辑do文件的过程中，别忘了点击编辑器图标栏上的图标来保存编辑的成果。

如果用do文件编辑器编辑do文件，可以点击编辑器图标栏里的图标来试运行do文件（也可以运行“run”命令加do文件的路径和名称）。

试运行只会反馈do 文件中的错误，而不会显示do文件的运行结果，这便于对do文件的调试。

当do文件顺利通过试运行之后，便可以点击编辑器图标栏里的来正式运行（也可以运行“do”命令加do文件的路径和名称）。

正式运行会显示所有的运行结果。

此外，还可以通过Stata菜单栏中的“File Æ Do…”来运行一个do文件。

上面所讲的内容恐怕不易在短时间内被Stata的初学者（尤其是没有程序操作经历的初学者）完全接受。

但是大家应该试着从一开始就养成写do文件的好习惯，并在实践的过程中慢慢体会do文件的好处及其所涉及的各种操作。

三、怎样把数据导入Stata?想炒菜，得先把菜倒进锅里；同样，用Stata分析数据，得先把数据导入Stata。

Stata默认的数据文件是后缀名为“dta”的文件。

讲义附带的一个数据文件是“WAGE1.dta”，它可以直接用Stata打开。

打开的方式无非有以下几种：1、运行“use”命令加数据的路径和名称。

2、像上文中列出的do文件那样，先用“cd”命令进入数据所在的目录，然后用“use”命令直接加数据的名称来导入数据。

当要操作的许多的数据文件都在同一个目录下面时，用这样的方法导入数据比较方便——导入新数据时，只需改变“use”命令后的文件名即可，而不需改变数据的路径。

3、在菜单栏中选择“File Æ Open”，并选择数据所在的路径；4、点击图标栏的，并选择数据所在的路径。

在前两种方式中，“use”命令后面，往往需要加一个“clear”。

打个比方，想炒一锅新菜，得把原来的一锅菜倒出去；同样，想导入一个新数据，得把原来的数据清理出Stata。

“clear”就是把原来的数据清理出Stata的命令。

考虑到编辑do文件的需要，大家应掌握前两种数据导入方式。

通过一个do文件导入数据后，会看到如下的界面：我们看到，黑色区域显示出了do文件的所有操作及其结果。

Review框中显示出了曾经运行过的命令（打开do文件的命令）；如果你想再次操作曾经操作过的命令，直接双击Review框中的相应命令即可，就不必重新输入一遍了。

Variable 框中显示的就是“WAGE1.dta”所包含的变量，有工资（wage），教育水平（educ）和工作经验（exper）等。

但是，当按照上述方法打开另一个数据文件“c04adult.dta”时（该文件为中国健康和营养调查的2004年的成人数据。

因为太大，没有和讲义附在一起），显示界面中出现了红色的错误信息：这几行提示告诉我们，没有足够的空间容纳数据；此外，还给出了三种可行的方案：1、更有效地存储和压缩数据，2、删掉某些变量或观测值，3、增大分配给该数据的空间。

一般来说，我们选择第3种方案。

毕竟，许多人不愿意“委屈”菜的质量和分量，那就换口大锅吧。

“换大锅”的命令是：set memory xxM。