stata命令(两阶段最小二乘,弱工具变量检验)

合集下载

常用Stata命令

我常用到的stata命令1最重要的两个命令莫过于help和search了。

即使是经常使用stata的人也很难，也没必要记住常用命令的每一个细节，更不用说那些不常用到的了。

所以,在遇到困难又没有免费专家咨询时，使用stata自带的帮助文件就是最佳选择。

stata的帮助文件十分详尽，面面俱到，这既是好处也是麻烦.当你看到长长的帮助文件时，是不是对迅速找到相关信息感到没有信心？闲话不说了.help和search都是查找帮助文件的命令，它们之间的区别在于help用于查找精确的命令名，而search是模糊查找.如果你知道某个命令的名字，并且想知道它的具体使用方法，只须在stata的命令行窗口中输入help空格加上这个名字.回车后结果屏幕上就会显示出这个命令的帮助文件的全部内容。

如果你想知道在stata下做某个估计或某种计算，而不知道具体该如何实现，就需要用search命令了.使用的方法和help类似,只须把准确的命令名改成某个关键词.回车后结果窗口会给出所有和这个关键词相关的帮助文件名和链接列表。

在列表中寻找最相关的内容，点击后在弹出的查看窗口中会给出相关的帮助文件.耐心寻找，反复实验，通常可以较快地找到你需要的内容。

下面该正式处理数据了.我的处理数据经验是最好能用stata的do文件编辑器记下你做过的工作。

因为很少有一项实证研究能够一次完成,所以,当你下次继续工作时。

能够重复前面的工作是非常重要的。

有时因为一些细小的不同,你会发现无法复制原先的结果了。

这时如果有记录下以往工作的do文件将把你从地狱带到天堂。

因为你不必一遍又一遍地试图重现做过的工作.在stata窗口上部的工具栏中有个孤立的小按钮，把鼠标放上去会出现“bring do—file editor to front”，点击它就会出现do文件编辑器.为了使do文件能够顺利工作，一般需要编辑do文件的“头”和“尾"。

这里给出我使用的“头”和“尾”./＊（标签.简单记下文件的使命。

STATA命令应用及详细解释

STATA命令应用及详细解释1. summarize：该命令用于计算数值变量的描述性统计信息，包括均值、标准差、最小值、最大值等。

2. tabulate：该命令用于生成一个分类变量的频数和百分比表。

它可以计算单个变量的分布情况，也可以计算多个变量之间的交叉分布情况。

3. tabstat：该命令用于生成一个或多个数值变量的汇总统计信息，包括均值、标准差、中位数等。

与summarize命令相比，tabstat命令可以同时计算多个变量的统计量。

4. regress：该命令用于进行线性回归分析。

可以使用regress命令估计一个自变量和一个或多个因变量之间的线性关系，并生成回归系数、拟合优度等回归结果。

5. logistic：该命令用于进行逻辑回归分析。

逻辑回归分析常用于二分类问题，可以估计自变量对因变量的影响，并生成回归系数、odds比等结果。

6. ttest：该命令用于进行两样本独立样本的t检验。

可以比较两个独立样本的均值差异，并计算t值、p值等检验结果。

7. oneway：该命令用于进行单因素方差分析。

可以比较不同组别之间的均值差异，并进行方差齐性检验和多重比较。

8. twoway：该命令用于进行双因素方差分析。

可以同时比较两个因素及其交互作用对均值差异的影响，并进行方差齐性检验和多重比较。

9. nonparametric：该命令用于进行非参数统计分析。

包括Wilcoxon秩和检验、Kruskal-Wallis H检验、Mann-Whitney U检验等非参数假设检验方法。

10. generate：该命令用于创建一个新的变量，并根据已有变量和运算符生成新的值。

生成的变量可以用于后续的计算和分析。

11. replace：该命令用于替换数据集中指定变量的值。

可以根据条件语句来替换指定变量中的值。

12. bysort：该命令用于按照一个或多个变量的值对数据集进行排序，并按照排序后的次序执行其他STATA命令。

stata命令大全(全)Word版

*********面板数据计量分析与软件实现*********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计）* 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

* 生产效率分析（尤其指TFP）：数据包络分析（DEA）与随机前沿分析（SFA）*** 说明：DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，侧重于比较C-D与Translog 生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

stata工具变量法：使用2SLS进行ivreg2估计及其检验

stata⼯具变量法：使⽤2SLS进⾏ivreg2估计及其检验转⾃：作为OLS回归不符合假定的问题，还包括解释变量与随机扰动项不相关。

如果出现了违反该假设（即解释变量和随机扰动项相关了）的问题，就需要找⼀个和解释变量⾼度相关的、同时和随机扰动项不相关的变量，作为⼯具变量进⾏回归。

传统来讲，⼯具变量有两个要求：与内⽣变量⾼度相关、与误差项不相关，这两个要求缺⼀不可。

前者的违背会导致弱⼯具，这其中⼀个更有意思的问题是有很多的弱⼯具（many weak instruments）的情况。

⽽后者的违背会使得⼯具变的⽆效（Invalid）。

⼯具变量通常采⽤⼆阶段最⼩⼆乘法（2SLS）进⾏回归，当随机扰动项存在异⽅差或⾃相关的问题，2SLS就不是有效率的，就需要⽤GMM等⽅法进⾏估计，除此之外还需要对⼯具变量的弱⼯具性和内⽣性进⾏检验。

sysuse auto构造⼯具变量结构⽅程初始回归⽅程：mpg = β0+β1turn+β2gear_ratio+µ内⽣变量：turn=z0+z1weight+z2length+z3headroom+ε回归⽅程中内⽣变量为turn，⼯具变量为weight、length、headroom。

2SLS估计1.使⽤ivreg2进⾏2SLS估计ivreg2 mpg gear_ratio (turn=weight length headroom)这⾥运⾏时出现错误提⽰：原因：括号前⾯要有个空格。

结果显⽰：turn变量的估计系数是-1.246，z检验值为-6.33，p值0.000，⼩于0.05，说明turn系数显著，且与mpg呈现负相关。

Underidentification test，⽅程的不可识别检验，得到LM统计值为26.822，p值=0.000，⼩于0.05，强烈拒绝“不可识别”的原假设。

Weak identification test弱⼯具变量检验，得到得到Wald-F统计值为30.303，KP Wald-F统计值为42.063，⼤于所有临界值，说明拒绝“弱⼯具变量”的原假设，即⽅程不存在弱⼯具变量。

常用stata命令-好用

我常用到的stata命令最重要的两个命令莫过于help和search了。

即使是经常使用stata的人也很难，也没必要记住常用命令的每一个细节，更不用说那些不常用到的了。

所以，在遇到困难又没有免费专家咨询时，使用stata自带的帮助文件就是最佳选择。

stata的帮助文件十分详尽，面面俱到，这既是好处也是麻烦。

当你看到长长的帮助文件时，是不是对迅速找到相关信息感到没有信心？闲话不说了。

help和search都是查找帮助文件的命令，它们之间的区别在于help用于查找精确的命令名，而search是模糊查找。

如果你知道某个命令的名字，并且想知道它的具体使用方法，只须在stata的命令行窗口中输入help空格加上这个名字。

回车后结果屏幕上就会显示出这个命令的帮助文件的全部内容。

如果你想知道在stata下做某个估计或某种计算，而不知道具体该如何实现，就需要用search命令了。

使用的方法和help类似，只须把准确的命令名改成某个关键词。

回车后结果窗口会给出所有和这个关键词相关的帮助文件名和链接列表。

在列表中寻找最相关的内容，点击后在弹出的查看窗口中会给出相关的帮助文件。

耐心寻找，反复实验，通常可以较快地找到你需要的内容。

下面该正式处理数据了。

我的处理数据经验是最好能用stata的do文件编辑器记下你做过的工作。

因为很少有一项实证研究能够一次完成，所以，当你下次继续工作时。

能够重复前面的工作是非常重要的。

有时因为一些细小的不同，你会发现无法复制原先的结果了。

这时如果有记录下以往工作的do文件将把你从地狱带到天堂。

因为你不必一遍又一遍地试图重现做过的工作。

在stata窗口上部的工具栏中有个孤立的小按钮，把鼠标放上去会出现“bring do-file editor to front”，点击它就会出现do文件编辑器。

为了使do文件能够顺利工作，一般需要编辑do文件的“头”和“尾”。

这里给出我使用的“头”和“尾”。

/*（标签。

stata上机实验第五讲工具变量(IV)

xtreg invest mvalue kstock ,fe est store fixed xtreg invest mvalue kstock ,re est store random hausman fixed random 本题接受原假设，即应该用随机效应。
几个常见问题
1。既然固定效应每个个体都有单独的截距项，如何获得每个个体的截距项？ xi:reg invest mvalue kstock pany 即LSDV方法或者添加虚拟变量法。
机干扰项的设定上。
怎样选择固定效应和随机效应？
随机效严格要求个体效应与解释变量不相关，即
Cov(ai,XitB)=0 而固定效应模型并不需要这个假设条件。这是两种模型选择的关键。
面板数据基本命令
1。指定个体截面变量和时间变量：xtset 2。对数据截面个数、时间跨度的整体描述：
使用grilic.dta估计教育投资的回报率。
变量说明：lw80（80年工资对数），s80 （80年时受教育年限），expr80（80年时工龄），tenure80（80年时在现单位工作年限）， iq（智商），med（母亲的教育年限），kww（在‘knowledge of the World of Work’测试中的成绩），mrt（婚姻虚拟变量，已婚=1），age（年龄）。
ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age), first estat overid ivregress gmm lw80 expr80 tenure80 (s80 iq=med kww mrt age) estat overid
固定效应模型
对于特定的个体i而言，ai 表示那些不随时间改变的影响因素，如个人的消费习惯、国家的社会制度、地区的特征、性别等，一般称其为“个体效应” (individual effects)。如果把“个体效应”当作不随时间改变的固定性因素，相应的模型称为“固定效应”模型。

Stata统计分析命令..

Stata统计分析常用命令汇总一、winsorize极端值处理范围：一般在1%和99%分位做极端值处理，对于小于1%的数用1%的值赋值，对于大于99%的数用99%的值赋值。

1、Stata中的单变量极端值处理：stata 11.0，在命令窗口输入“findit winsor”后，系统弹出一个窗口，安装winsor模块安装好模块之后，就可以调用winsor命令，命令格式：winsor var1, gen(new var) p(0.01) 或者在命令窗口中输入：ssc install winsor安装winsor命令。

winsor命令不能进行批量处理。

2、批量进行winsorize极端值处理：打开链接：/judson.caskey/data.html，找到winsorizeJ，点击右键，另存为到stata中的ado/plus/目录下即可。

命令格式：winsorizeJ var1var2var3,suffix(w)即可，这样会生成三个新变量，var1w var2w var3w，而且默认的是上下1%winsorize。

如果要修改分位点，则写成如下格式：winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。

3、Excel中的极端值处理：（略）winsor2 命令使用说明简介：winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones.相比于winsor命令的改进：(1) 可以批量处理多个变量；(2) 不仅可以winsor，也可以trimming；(3) 附加了by() 选项，可以分组winsor 或trimming；(4) 增加了replace 选项，可以不必生成新变量，直接替换原变量。

stata两阶段最小二乘法

stata两阶段最小二乘法Stata的两阶段最小二乘法是一种经济学和社会科学中广泛使用的工具，用于处理内生性问题。

该方法的基本思想是将内生变量用其它无关变量的预测值来代替，从而消除内生性导致的估计偏误。

下面将介绍在Stata中如何进行两阶段最小二乘法的分析。

一、什么是内生性问题？内生性是指模型中某些变量与错误项存在相关性，导致OLS估计值偏误，常常涉及回归模型中的反向因果关系、遗漏变量等问题。

简单地说，就是我们预测的变量与错误项之间存在联系，这种错误项可以是观测不到的因素、回归中存在的遗漏变量、模型设定的不完整引起的偏差等。

二、两阶段最小二乘法的基本原理两阶段最小二乘法的基本思想是通过两个阶段来控制内生性。

第一阶段是用无关变量的预测值来代替内生变量，得到代理变量（即第一阶段回归的残差），进而解决内生性问题。

第二阶段是将代理变量代入OLS方程中得到新的OLS估计值，从而得到最终结果。

三、实现步骤1、进行第一阶段回归对于内生变量Y，找到一些与其相关的无关变量X，用X回归Y，得到代理变量YC，同时获得第一个偏误项e1，如下式所示：Y = a1 + b1X + e12、进行第二阶段回归将YC放入OLS方程中，代替内生变量Y，进行第二阶段回归，得到新的OLS估计值，如下式所示：Y = a2 + b2YC + e23、计算标准误为了表示估计量的精密程度，需要计算标准误，Stata提供了robust选项可以集约的进行估计，同时使用Ztest进行显著性检验。

四、实例下面以Stata自带的auto数据为例，将汽车重量视为内生变量，其它与之相关的无关变量包括发动机大小、车的长度、马力以及型号等。

代码及结果如下：1. 第一阶段回归. reg weight length foreign i.rep78Source | SS df MS Number of obs = 69-------------+------------------------------ F( 5, 63) = 10.69Model | 1376843.76 5 275368.752 Prob > F = 0.0000 Residual | 1510236.41 63 23973.0377 R-squared = 0.4580 -------------+------------------------------ Adj R-squared = 0.3961Total | 2887080.17 68 42409.1226 Root MSE = 154.89------------------------------------------------------------------------------weight | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------length | 5.032963 .5409479 9.31 0.000 3.958792 6.107134 foreign | -679.2849 443.8911 -1.53 0.132 -1570.793 212.2233 rep78 | 43.2 42.01968 1.03 0.307 -41.03434 127.4343|.2 | -1010.581 1183.211 -0.85 0.397 -3372.286 1351.125 .3 | -927.2727 923.5167 -1.00 0.322 -2764.875 910.332 .4 | -1364.143 951.0005 -1.43 0.157 -3265.986 537.6983 .5 | -1697.805 1191.16 -1.43 0.157 -4069.802 674.1911 .1 | -1947.606 2210.608 -0.88 0.383 -6350.943 2455.731 ------------------------------------------------------------------------------2. 第二阶段回归. reg price length foreign i.rep78 weightSource | SS df MS Number of obs = 69-------------+------------------------------ F( 7, 61) = 27.17Model | 1.9306e+10 7 2.75715e+09 Prob > F = 0.0000 Residual|2.5593e*************.5R-squared=0.7565 -------------+------------------------------ Adj R-squared = 0.7221Total | 2.18653e+10 68 3.21806e+08 Root MSE = 6486.8------------------------------------------------------------------------------price | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------length | 3445.206 1379.653 2.50 0.015 684.3083 7206.105 foreign | -5769.337 2799.351 -2.06 0.044 -11375.42 -183.2541 rep78-1 | -2730.523 3587.113 -0.76 0.450 -9922.015 3460.969 rep78-2 | -2961.91 1915.175 -1.55 0.127 -6775.392 851.5723 rep78-3 | -3343.736 2069.184 -1.62 0.112 -7492.528 805.0561 rep78-4 | -2398.657 1760.785 -1.36 0.178 -5916.741 1119.427 rep78-5 | -3449.77 2503.497 -1.38 0.172 -8433.247 533.7065 weight | 1.75391 .5261786 3.33 0.001 .6973425 2.810478 _cons | -29362.19 9932.129 -2.96 0.004 -49151.47 -953.9105 ------------------------------------------------------------------------------结果显示，第一阶段回归的结果表明，车的长度、是是否为进口车和型号与车的重量有相关性。

Stata统计分析命令

Stata统计分析命令S t a t a统计分析命令 Company number：【0089WT-8898YT-W8CCB-BUUT-202108】Stata统计分析常用命令汇总一、winsorize极端值处理范围：一般在1%和99%分位做极端值处理，对于小于1%的数用1%的值赋值，对于大于99%的数用99%的值赋值。

1、Stata中的单变量极端值处理：stata ，在命令窗口输入“findit winsor”后，系统弹出一个窗口，安装winsor模块安装好模块之后，就可以调用winsor命令，命令格式：winsor var1, gen(new var) p或者在命令窗口中输入：ssc install winsor安装winsor命令。

winsor命令不能进行批量处理。

2、批量进行winsorize极端值处理：打开链接：，找到winsorizeJ，点击右键，另存为到stata中的ado/plus/目录下即可。

命令格式：winsorizeJ var1var2var3,suffix(w)即可，这样会生成三个新变量，var1w var2w var3w，而且默认的是上下1%winsorize。

如果要修改分位点，则写成如下格式：winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。

3、Excel中的极端值处理：（略）winsor2 命令使用说明简介：winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones.相比于winsor命令的改进：(1) 可以批量处理多个变量；(2) 不仅可以 winsor，也可以 trimming；(3) 附加了 by() 选项，可以分组 winsor 或 trimming；(4) 增加了 replace 选项，可以不必生成新变量，直接替换原变量。

（完整word版）stata命令大全（全）

（完整word版）stata命令大全（全）*********面板数据计量分析与软件实现*********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA 教程，感谢他的贡献。

本人做了一定的修改与筛选。

常应用于地区经济差异、FDI溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/ tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

stata命令大全（全）[整理版]

*********面板数据计量分析与软件实现*********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

常应用于地区经济差异、FDI溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

工具变量法（IV）的Stata操作

⼯具变量法（IV）的Stata操作Stata操作⼯具变量法的难点在于找到⼀个合适的⼯具变量并说明其合理性，Stata操作其实相当简单，只需⼀⾏命令就可以搞定，我们通常使⽤的⼯具变量法的Stata命令主要就是ivregress命令和ivreg2命令。

ivregress命令ivregress命令是Stata⾃带的命令，⽀持两阶段最⼩⼆乘（2SLS）、⼴义矩估计（GMM）和有限信息最⼤似然估计（LIML）三种⼯具变量估计⽅法，我们最常使⽤的是两阶段最⼩⼆乘法（2SLS），因为2SLS最能体现⼯具变量的实质，并且在球形扰动项的情况下，2SLS是最有效率的⼯具变量法。

顾名思义，两阶段最⼩⼆乘法（2SLS）需要做两个回归：（1）第⼀阶段回归：⽤内⽣解释变量对⼯具变量和控制变量回归，得到拟合值。

（2）第⼆阶段回归：⽤被解释变量对第⼀阶段回归的拟合值和控制变量进⾏回归。

如果要使⽤2SLS⽅法，我们只需在ivregress后⾯加上2sls即可，然后将内⽣解释变量lnjinshipop和⼯具变量bprvdist放在⼀个⼩括号中，⽤=号连接。

选项first表⽰报告第⼀阶段回归结果，选项cluster()表⽰使⽤聚类稳健的标准误。

ivregress 2sls lneduyear (lnjinshipop=bprvdist) lnnightlight lncoastdist tri suitability lnpopdensity urbanrates i.provid , first cluster(provid)第⼀阶段回归结果First-stage regressions-----------------------Number of obs = 274No. of clusters = 28F( 7, 239) = 85.27Prob > F = 0.0000R-squared = 0.6487Adj R-squared = 0.5988Root MSE = 0.4442------------------------------------------------------------------------------| Robustlnjinshipop | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------lnnightlight | .183385 .0682506 2.690.008 .0489354 .3178346lncoastdist | .0350333 .0771580.450.650 -.1169634 .1870299tri | 1.06676 .5637082 1.890.060 -.0437105 2.177231suitability | -.0769726 .0549697 -1.400.163 -.1852596 .0313144lnpopdensity | .196144 .0843727 2.320.021 .0299349 .3623532urbanrates | 3.352916 1.687109 1.990.048 .029414 6.676419|provid |12 | .2051006 .0551604 3.720.000 .096438 .313763213 | -1.890425 .0951146 -19.880.000 -2.077795 -1.703055......64 | -1.301895 .1581021 -8.230.000 -1.613346 -.9904433|bprvdist | -.0846917 .0107859 -7.850.000 -.1059393 -.0634441_cons | 2.126233 .9791046 2.170.031 .1974567 4.05501------------------------------------------------------------------------------从表中可以看出，⼯具变量bprvdist的系数为-0.085，标准误为0.011，在1%的⽔平上显著。

stata的常用命令

stata的常用命令调整变量格式：format x1 .3f ——将x1的列宽固定为10，小数点后取三位format x1 .3g ——将x1的列宽固定为10，有效数字取三位format x1 .3e ——将x1的列宽固定为10，采用科学计数法format x1 .3fc ——将x1的列宽固定为10，小数点后取三位，加入千分位分隔符format x1 .3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符format x1 %-10.3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符，加入“-”表示左对齐合并数据：use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge using "C:\Documents and Settings\xks\桌面\1999.dta"——将1999和2006的数据按照样本（observation）排列的自然顺序合并起来use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort——将1999和2006的数据按照唯一的（unique）变量id来合并，在合并时对id进行排序（sort）建议采用第一种方法。

对样本进行随机筛选：sample 50在观测案例中随机选取50%的样本，其余删除sample 50,count在观测案例中随机选取50个样本，其余删除查看与编辑数据：browse x1 x2 if x3>3 （按所列变量与条件打开数据查看器）edit x1 x2 if x3>3 （按所列变量与条件打开数据编辑器）数据合并（merge）与扩展（append）merge表示样本量不变，但增加了一些新变量；append表示样本总量增加了，但变量数目不变。

Stata常用命令

Stata常用命令Stata常用命令大学期间觉得学的最有用的软件之一就是stata了，对stata基本是在血和泪的尝试中爬过，到了最后基本属于只要stata不出现红字错误命令就开心得不得了。

顺便整理一下常用的stata命令如下，应该对付计量方向第一学期的入门问题不大（求stata大神不虐..），所以就只写了一部分常用的，有时间后面再补充吧。

主要就是分为基本操作和回归统计两部分：1、基本操作import/use/insheet/merge：基本常用的导入文件就是这四个了，建议直接从stata的menu菜单中导入，导入xlsx和csv这种常见的格式时还有一些备用选项可以自己体验一下（比如string和把第一行视为变量名之类）。

merge需要单独说一下，因为是将两个数据库合并为一个，原理也比较简单，两个数据库中根据一些相同的变量把其他数据“加”到原来的数据库中，也是建议直接菜单操作，不要用命令。

在Data的Combine datasets的merge two datasets中，分为1:1、m:1、1:m各种形式，基本用两次就差不多能搞懂。

help：一定第一个学的是这个！啥不会就help一下，不知道函数了就help function，不知道回归细节就help regress，多读help文件！gen/egen:最常用的建立函数的命令，这两个不同之处在于gen 一般是初等函数，egen的函数会复杂一些。

常用的函数包括数学函数和其他函数，比如count/tag之类，建议直接到菜单里Data下Create data的create new variable或create newvariable(extended)直接生成函数，会方便的多。

mean/abs/sqrt/max/min/sum/sd：常用数学函数，分别是求均值、绝对值、方根、最大最小、求和、方差用的。

keep if/drop if：这两个也是最常用的，在数据需要进行筛选的时候，两个命令的区别也很明显，keep是留下哪些，drop是去掉哪些。

stata命令大全（全）

stata命令大全（全）********* 面板数据计量分析与软件实现 *********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA 教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计） * 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

常应用于地区经济差异、FDI 溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel 格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

stata工具变量检验代码

stata工具变量检验代码
变量的内生性是回归分析中的一个重要问题，为了解决内生性问题，需要使用工具变量来进行检验。

以下是stata工具变量检验的代码：
1. 首先，需要导入数据并进行描述统计分析：
use 'filename.dta', cleartt
describettt
summarizettt
2. 然后，需要定义工具变量并估计两个回归模型：
gen z = [定义工具变量]tt
reg y x ztttt
reg x z [工具变量回归方程]
3. 使用ivreg2命令估计工具变量回归模型，并进行内生性检验： ivreg2 y (x = z)tt
estat endogenous
4. 如果检验结果显示存在内生性问题，则需要进行外生性检验： estat overid
5. 最后，根据检验结果进行修正，重新估计回归模型：
ivreg2 y (x = z) if [外生性检验结果为显著]tt
以上就是stata工具变量检验的完整代码。

- 1 -。

stata命令总结

表2-1: 回归分析相关命令一览命令用途anova 方差和协方差分析heckman Heckman 筛选模型intreg 离散型变量模型，包括Tobit 、cnreg 和intregivreg 工具变量法（IV 或2SLS）newey Newey-West 标准差设定下的回归prais 针对序列相关的Prais-Winsten, Cochrane-Orcutt, or Hildreth-Lu 回归qreg 分量回归reg OLS 回归sw 逐步回归法reg3 三阶段最小二乘回归rreg 稳健回归（不同于方差稳健型回归，即White 方法）sureg 似无相关估计svyheckman 调查数据的Heckman 筛选模型svyintreg 调查数据的间断变量回归svyregress 调查数据的线性回归tobit Tobit 回归treatreg treatment 效应模型truncreg 截断回归表2-2: 时间序列命令一览命令用途clemao1 允许结构突变的单位根检验zandrewsdfullerdfglspperroncoin 单方程协整检验dwstat 参考dwstat2 , durbina2durbinh表2-3: Panel Data 模型相关命令一览I命令模型统计描述相关命令：xtdes 变量类型，数据类型描述xtsum 基本统计量xttab 按表格形式列示xtpattern 面板数据的模式估计相关命令：xtreg 面板数据模型（固定效应、随机效应）xtregar 含有AR(1) 干扰项的固定效应和随机效应面板数据模型xtgls 截面-时序混合模型，可处理异方差、组内序列相关和组间相关性xtpcse OLS or Prais-Winsten models with panel-corrected standard errorsxtrchh Hildreth-Houck random coefficients modelsxtivreg 面板模型的工具变量或两阶段最小二乘法估计xtabond Arellano-Bond(1991) 线性动态面板数据模型估计xtabond2 Arellano-Bover(1995) 系统GMM 动态面板数据模型估计xttobit Tobit 随机效应面板模型xtintreg Random-effects interval data regression modelsxtlogit Fe, Re, Pa logit modelsxtprobit Re, Pa probit modelsxtcloglog Re, Pa cloglog modelsxtpoisson Fe, Re, Pa Poisson modelsxtnbreg Fe, Re, Pa negative binomial modelsxtfrontier 面板随机前沿模型xthtylor Hausman-Taylor estimator for error-components models表2-4: Panel Data 模型相关命令一览II命令模型假设检验相关：test Wald 检验，如时间效应联合显著性检验xttest0 随机效应检验xttest1 面板序列相关检验xttest2 adsxtserial Wooldridge 一阶序列相关检验xtab Arellano 面板一阶序列相关检验hausman Hausman 检验面板单位根和协整相关：xtunit stata提供的检验方法ipshin IPS(2003)面板单位根检验levilin Levin，Lin和Chu(LLC, 2002)面板单位根检验madfuller Sarno-Taylor(1998) 面板单位根检验xtfisher Maddala和Wu(1999),基于P 值的面板单位根检验表2-5: Post-estimation Commands命令名称用途adjust 列示预测结果的均质，适于多种回归分析，可分组列示estimates 估计结果的存储、再显示、列表比较等hausman Hausman 模型识别检验lincom 获得参数的线性组合，在Logit 模型中可以获得系数线性组合的OR 值linktest 但方程link 识别检验，用y 对O y 和O y2 回归lrtest 似然比（LR）检验mfx 计算边际效应和弹性系数nlcom 系数的非线性组合predict 获得拟合值、残差等predictnl 获得非线性估计的拟合值、残差等test 线性约束的假设检验，Wald 检验testnl 非线性约束的假设检验vce 列示参数估计值的方差-协方差矩阵表2-6: 二维图种类一览图形种类简单描述scatter scatterplotline line plotconnected connected-line plotscatteri scatter with immediate argumentsarea line plot with shadingbar bar plotspike spike plotdropline dropline plotdot dot plotrarea range plot with area shadingrbar range plot with barsrspike range plot with spikesrcap range plot with capped spikesrcapsym range plot with spikes capped with symbols rscatter range plot with markersrline range plot with linesrconnected range plot with lines and markerstsline time-series plottsrline time-series range plotmband median-band line plotmspline spline line plotlowess LOWESS line plotlfit linear prediction plotqfit quadratic prediction plotfpfit fractional polynomial plotlfitci linear prediction plot with CIsqfitci quadratic prediction plot with CIsfpfitci fractional polynomial plot with CIsfunction line plot of functionhistogram histogram plotkdensity kernel density plot表2-7: 二维图选项一览选项类别简单描述added line options draw lines at specified y or x values added text option display text at specified (y,x) value axis options labels, ticks, grids, log scalestitle options titles, subtitles, notes, captionslegend option legend explaining what means what scale(#) resize text, markers, and line widthsregion options outlining, shading, aspect ratio, sizeaspect option constrain aspect ratio of plot regionscheme(schemename) overall lookby(varlist, ...) repeat for subgroupsnodraw suppress display of graphname(name, ...) specify name for graphsaving(filename, ...) save graph in fileadvanced options difficult to explain表2-9: 模拟分析相关命令一览命令用途备注抽样相关：corr2data 产生具有指定相关性的数据仅适用于模拟相关分析drawnorminvnorm(uniform()) 产生服从标准正态分布的随机数函数，可调节均值和方差matuniform(r,c) 产生均匀分布函数sample 从现有数据中进行非重复随机抽样参考bsamplesim arma 产生服从ARIMA 过程的随机变量需要下载Bootstrap 相关：bootstrapbsbstatbsampleMC 相关:simulate MC simulationjknife 类似于MCpermutepostfile 存储MC 的结果statsbyexp list。

stata命令大全(全)

********* 面板数据计量分析与软件实现 *********说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型* 1.静态面板模型：FE 和RE* 2.模型选择：FE vs POLS, RE vs POLS, FE vs RE （pols混合最小二乘估计） * 3.异方差、序列相关和截面相关检验* 4.动态面板模型（DID-GMM,SYS-GMM）* 5.面板随机前沿模型* 6.面板协整分析（FMOLS,DOLS）*** 说明：1-5均用STATA软件实现， 6用GAUSS软件实现。

常应用于地区经济差异、FDI 溢出效应（Spillovers Effect）、工业行业效率状况等。

* 空间计量分析：SLM模型与SEM模型*说明：STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year （id为截面名称，year为时间名称）xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel 格式，需要用egen命令）egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据（用于面板数据和时间序列）xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年，用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年，用于时间序列/*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var(Y),协方差Cov(X,Y)和Cov（Z,Y）bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项)，同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序，当变量太多，按规律排列。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

weak identification test的结果：197.042 大于5%那个临界值13.91就可以
xi: ivreg2 ln_wage i.race ttl_exp collgrad (union=c_city south not_smsa),robust
面板数据回归：
软件默认数据——截面数据
个人维度+时间维度组合起来可以确定唯一的观测值
xtset x——截面 t——时间
reg ln_wage L.ln_wage,robust
xtset idcode year——设置成面板数据
xtdes——看数据分布
过去的收入如何影响当前的工资：ln_wage L.ln_wage,robust L.ln_wage——上一期的工资
twoway connected mln_wage ind_code|| connected sdln_wage ind_code
twoway connected mln_wage ind_code|| connected sdln_wage ind_code,yaxis(2)
restore
时间序列数据设定——tset（后面加时间变量的信息）
工资的增长率如何受过去工资的影响：reg D.ln_wage L.ln_wage,robust
不同行业人的平均工资：
tabstat ln_wage,by(ind_code)——只有mean
tabstat ln_wage,by(ind_code) stats(mean median sd)——有其他的
reg ln_wage ttl_exp
help statsby
preserve
statsby coef=_b[ttl_exp],by(ind_code):reg ln_wage ttl_exp
list——看不同行业前面的系数
不同行业工作经验多一年，工资平均增加多少—— twoway connected coef ind_code
tab ind_code south,su(ln_wage)
tab ind_code south,su(ln_wage) nofreq mean——不同地区，不同行业的人的平均工资的列联表（只求均值，不求频数）
help table
table ind_code south,contents(mean ln_wage)
table ind_code south,contents(mean ln_wage) row col
table ind_code south union,contents(mean ln_wage) row col
preserve
画图：
collapse(mean) mln_wage=ln_wage (sd) sdln_wage=ln_wage,by(ind_code)
forvalues i=1/12{
reg ln_wage ttl_exp if ind_code==`i' i左边的符号是数字1左边那个，右边的是单引号
mat coef=nullmat(coef)\_b[ttl_exp]————输出结果是行拼接的
}
webuse nlswork(
两阶最小二乘；弱工具变量检验；collapse；table高级用法；面板数据的设定
help ivregress（实例看怎么用）
ssc install ivreg2
ssc install ranktest
d
ivregress 2sls ln_wage i.race ttl_exp collgrad (union=c_city south not_smsa)内生变量：是否加入公会，工具变量：后面3个
test (c_city=0) (south=0) (not_smsa=0)
F大于10——联合显著
扩展命令reg2没有i.这个命令生成虚拟变量
使用的旧的语法格式：
xi: ivreg2 ln_wage i.race ttl_exp collgrad (union=c_city south not_smsa)
restore
help forvalues
doedit
\行拼接逗号——列拼接
forvalues i=1/10{
display="`i'"
}
forvalues i=1/12{
reg ln_wage ttl_exp if ind_code=`i'
}
capture mat drop coef
ivregress 2sls ln_wage i.race ttl_exp collgrad (union=c_city south not_smsa),robust
稳健的方差（怀特）
弱工具变量检验：
reg union c_city south not_smsa
help test
test (c_city=0) (south=0) (not_smsa)

stata命令(两阶段最小二乘,弱工具变量检验)

常用Stata命令

STATA命令应用及详细解释

stata命令大全(全)Word版

stata工具变量法：使用2SLS进行ivreg2估计及其检验

常用stata命令-好用

stata上机实验第五讲 工具变量(IV)

Stata统计分析命令..

stata两阶段最小二乘法

Stata统计分析命令

（完整word版）stata命令大全（全）

stata命令大全（全）[整理版]

工具变量法（IV）的Stata操作

stata的常用命令

Stata常用命令

stata命令大全（全）

stata工具变量检验代码

stata命令总结

stata命令大全(全)

stata上机实验第五讲工具变量(IV)