STATA的简单命令

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

STATA的简单命令
Stata中最重要的命令莫过于help和search了。

help用于查找精确的命令，而search是模糊查找。

例如：help regress
又如：我们记不清regress命令的全名，只记得regress的前半部分reg，
那么可以输入search reg
用户获得信息最有效的另一个途径是使用Statalist在线论坛，该论坛提供Stata用户交流的一个良好的平台。

要加入Statalist，我们可以给以下地址发个邮件：
majordomo@
邮件的内容为：subscribe Statalist
变量的命名：
1.变量名可达32个字符。

2.字符组成部分为A~Z、a~z、0~9与下划线“_”，这些字符以外的其他符号不可以出现
在变量名中。

3.变量名不能以数字开头。

4.变量名区分大小写。

5.倘若遵循以上原则依然无法正常命名变量，那么这个变量可能与Stata自身保留的供系
统使用的变量重复了。

创建数据文件的方法：
1.手动输入。

2.从excel等文件中复制粘贴到stata数据表中。

3.运用stata软件导入。

查看数据的概貌：
summarize x
codebook x
如果上面两个命令后面不加内容，那么显示的结果是所有变量的概貌。

对数据进行排序的命令：sort 标准1 标准2 标准3
生成数据的命令：gen
1.如果要得到一阶差分，可以用以下命令：gen Difference_invest（新变量的名称是任意的）
=d.invest（d.是运算符号，不得改变；invest是变量名称）
2.要想产生一个新的变量Lag_invest，也就是invest的一阶滞后，那么我们可以采用如下
命令：gen Lag_invest = l.invest
3.生成对数的命令：gen Ln_invest=ln(invest)
作散点图的命令：scatter
1.scatter x1 x2：scatter后的第一个变量是纵轴的变量，第二个变量是横轴的变量。

2.scatter x1 x2, connect(1)：以直线的方式连接相邻的两个点。

3.scatter x1 x2, connect(1) msymbol(i)：散点的显示方式为“看不见”。

相关性检验：
回归方程的斜率系数在一定程度上也是反映两个变量之间关系的密切程度，斜率系数的平方根就是相关系数。

1.pwcorr命令（用于计算Pearson相关系数），它的好处是尽可能使用两两变量中所有没有
缺失的数据，而不像correlate只采用没有任何缺失数据的完整的观测值。

pwcorr [varlist], sig star(.1)：star(.1)是为了对显著性超过0.1的相关系数打上星号
pwcorr [varlist], sig print (.1)：print (.1)则是仅仅显示这些显著的相关系数
2.spearman命令（用于计算Spearman相关系数）。

截面数据的估计命令
如何创建一个截面数据文件？只需要从excle中拷贝相应的数据到stata中即可，不需要特别的命令说明它是截面数据。

截面数据的回归主要需要注意以下几点：多重共线性（当样本量较小时，例如小于100）和异方差。

而且需要考察t统计值、R2（adj-R2）、F统计量。

1.检验自变量的相关性。

（第1步也可以暂时不做，等到回归结束以后再做）
pwcorr [varlist], sig print(.05)
2.对模型进行回归。

一个普通的回归命令：reg y x1 x2 x3 x4 x5, robust（截面数据一律加上robust）
倘若回归结果的经济学含义不合理（包括系数的正负号和显著性水平），而且前面的相关性检验中自变量的相关性十分高，那么有可能存在严重的多重共线性，为了精确起见，可以用vif来判断多重共线性是否严重（当vif的最大值大于10，同时各vif的平均值大于1时，表明多重共线性比较严重。

使用vif命令时一定要在回归命令执行以后再用）。

如何处理多重共线性？剔除变量法、逐步回归法以及增加样本容量。

3.运用剔除变量法进行回归。

4.运用逐步回归法进行回归。

逐步回归命令：
sw reg y x1 x2 x3 x4 x5, pr(.1)：逐步回归，从最不显著的变量开始删除，直到所有变量在设定水平下（0.1）显著。

sw reg y x1 x2 x3 x4 x5, pr(.1) lockterm1：逐步回归，从最不显著的变量开始删除，直到所有变量在设定水平下（0.1）显著；而且加入lockterm项，为了保证第一项自变量不被删除。

sw reg y x1 x2 x3 (x4 x5), pr(.1)：逐步回归，从最不显著的变量开始删除，直到所有变量在设定水平下（0.1）显著；而且加入（）项，为了保证x4和x5要么同时出现，要么同时不出现。

时间序列数据的估计命令
如何创建一个截面数据文件？先把数据转移到stata中，然后用tsset命令。

tsset time, yearly（或者weekly、monthly、quarterly）
此时，一定要保证表示时间的那一列数据（即年份）的名称为time。

时间序列数据的回归主要需要注意以下几点：多重共线性（当样本量较小时，例如小于100）和序列相关性。

而且需要考察t统计值、R2（adj-R2）、F统计量、D.W.值。

首先用reg命令进行回归，例如：reg y x1 x2 x3 x4 x5，并考察D.W.值（使用estat dwatson 这一命令），如果D.W.值严重远离2，那么要进行调整（调整方法如黄色底纹），直到调整到2附近，然后考察回归结果是否符合经济学含义，倘若不符合，那么要注意是否受到多重共线性的影响（通过相关系数和vif值来判断）。

在处理多重共线性时，可以用类似于处理截面数据的方法（剔除变量法），同时还要看D.W.值。

此外，还可以用差分法来处理多重共线性（此方法用得不多）。

检验DW值的命令：estat dwatson
用广义差分法考虑序列相关性的命令（即调整DW值的命令）：
reg y x1 x2 x3 x4 x5 L.y（后面还可以运用L.y L2.y）
用序列相关稳健标准误法考虑序列相关性的命令（即调整DW值的命令）：
reg y x1 x2 x3 x4 x5, robust
考虑多重共线性的方法除了以上截面数据中用到的方法以外，还可以用差分法，然后再看vif值。

reg D.y D.x1 D.x2 D.x3 D.x4 D.x5
面板数据的估计命令
如何创建一个面板数据文件？
录入数据
xtset id year
面板数据的回归主要需要注意：多重共线性（当样本量较小时），异方差和序列相关性在很多研究中可以不必深究。

而且需要考察t统计值、R2（adj-R2）、F统计量，选择固定效应（fixed effect）或随机效应（random effect）。

多重共线性的处理方法可以参照截面数据和时间序列数据的处理方法。

固定效应和随机效应的选择：（xtreg后面紧挨着的变量是被解释变量，然后接下来才是解释变量）
xtreg 被解释变量解释变量, fe
est store fe
xtreg 被解释变量解释变量, re
est store re
hausman fe
如果hausman检验的结果(Prob>chi2)小于0.1，那么选择固定效应；如果(Prob>chi2)大于0.1，或者chi2的值小于0，那么选择随机效应。

其它命令
GMM方法：
xtabond depvar indepvars
sargan 检验：
estat sargan
自相关检验：
estat abond
同时控制时间因素（year）和行业因素（industrycode），即自动加入虚拟变量的命令xi的用法：
xi i.year i.industrycode
加入自动生成的虚拟变量，并且运用稳健标准误进行固定效应回归的命令：
xtreg lnex lngdpcn lngdppartner educationjob iprrd lawhi i.year i.industrycode, fe robust
面板数据中2sls的命令（这可能是默认的命令，还可以根据具体情况更改）：
（1）xtivreg lnex lk tfp rd size fdi i.year i.id (finance=l.finance)，此时怀疑解释变量finance 是内生的，而且以finance的一阶滞后作为IV。

注意：括号前面必须有空格！
（2）xtivreg lnex lk tfp rd size fdi i.year i.id (finance=l.finance l2.finance)，此时怀疑解释变量finance是内生的，而且以finance的一阶滞后和二阶滞后作为IV。

注意：括号前面必须有空格！
如果用overid，需要安装overid ：ssc install overid, replace
如果用xtoverid，需要安装xtoverid ：ssc install xtoverid, replace
如果用ranktest，需要安装ranktest ：ssc install ranktest, replace
有时即使安装以后依然无法运用，可能是由于自变量太多导致的，例如控制行业固定效应、时间固定效应等固定效应时会增加几十个虚拟变量，这时可能由于模型无法运算而无法运用这些命令，GMM方法似乎也有类似情况。

例如：xtivreg lnex lngdpcn lngdppartner distance language border (fincountry=l.fincountry l2.fincountry) findep financefin,re
检验工具变量识别不足时用命令ranktest，以上例子应该是ranktest (fincountry) (l.fincountry l2.fincountry)【理想的结果是Kleibergen-Paap rk LM的p值小于0.1】
检验弱工具变量时也用命令ranktest，但要在后面加上wald，以上例子应该是ranktest (fincountry) (l.fincountry l2.fincountry),wald【理想的结果是Kleibergen-Paap Wald rk F的p值小于0.1】
检验过度识别时用命令xtoverid【理想的结果Sargan-Hansen检验的p值大于0.1】。