stata第五讲【山大陈波】

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

静态面板数据
静态面板数据模型，是指解释变量中不包含被解释变量的滞后项(通常为一阶滞后项) 的情形。但严格地讲，随机干扰项服从某种序列相关的模型，如AR(1), AR(2), MA(1) 等，也不是静态模型。静态面板数据主要有两种模型------固定效应模型和随机效应模型。
面板数据的格式
company 1 1 1 1 2 2 2 2 3 3 3 3 year 1951 1952 1953 1954 1951 1952 1953 1954 1951 1952 1953 1954 invest 755.9 891.2 1304.4 1486.7 588.2 645.5 641 459.3 135.2 157.3 179.5 189.6 mvalue 4833 4924.9 6241.7 5593.6 2289.5 2159.4 2031.3 2115.5 1819.4 2079.7 2371.6 2759.9
究竟该用OLS 还是IV
即解释变量是否真的存在内生性？假设能够找到方程外的工具变量。 1。如果所有解释变量都是外生变量，则OLS 比IV 更有效。在这种情况下使用IV，虽然估计量仍然是一致的，会增大估计量的方差。2。如果存在内生解释变量，则OLS 是不一致的，而IV 是一致的。
豪斯曼检验（Hausman specification test）原假设： H0 ：所有解释变量均为外生变量。 H1：至少有一个解释变量为内生变量。 quietly reg lw80 s80 expr80 tenure80 iq est store ols quietly ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age) est store iv hausman iv ols
二阶段最小二乘法：2SLS
主要思想：进行两阶段回归。假设方程为： y=b1x1+b2x2+u 其中x1是外生变量，x2是内生变量，找到两个变量z1和z2，作为x2的工具变量。第一阶段回归：reg x2 x1 z1 z2 x2结合了z1 和z2的信息，此时取出x2的拟合值x2_hat。第二阶段回归： reg y x1 x2_hat
怎样选择固定效应和随机效应？随机效严格要求个体效应与解释变量不相关，即 Cov(ai,XitB)=0 而固定效应模型并不需要这个假设条件。这是两种模型选择的关键。
面板数据基本命令
1。指定个体截面变量和时间变量：xtset 2。对数据截面个数、时间跨度的整体描述： xtdes。 3。对每个个体分别显示该变量的时间序列图： xtline。 4。静态面板数据基本回归命令：xtreg。
invest2004
kstock2002
kstock2003
kstock2004
1 2 3 4 5 6
18.9 17.4 19 20 18.1 19.7
19.1 18.4 19.6 20.4 18.3 20
19.6 18.8 20.1 20.3 18.4 19.9
19.6 18.1 20.2 20.4 18.5 17.2
几个常见问题
1。既然固定效应每个个体都有单独的截距项，如何获得每个个体的截距项？ xi:reg invest mvalu量法。
2。非平衡面板如何处理？ use nlswork,clear xtset idcode year xtdes 这是一份典型的大n小t型非平衡面板数据。方法一：下载命令xtbalance提取成一个平衡面板数据，但不推荐使用，因为会损失大量样本。方法二：利用算法填补缺失值，需要经济理论和算法的支撑。
面板数据模型
考虑如下模型： Yit=Xitb+Uit uit=ai+εit 其中， i=1,2,… N ; t=1, 2,…T uit称为复合扰动项。
固定效应模型
对于特定的个体i而言，ai 表示那些不随时间改变的影响因素，如个人的消费习惯、国家的社会制度、地区的特征、性别等，一般称其为“个体效应” (individual effects)。如果把“个体效应”当作不随时间改变的固定性因素，相应的模型称为“固定效应”模型。
建立方程： lw80 = β s80 + β exp r80 + β tenure80 +ε 1 2 3 use grilic.dta,clear reg lw80 s80 expr80 tenure80 对方程进行分析： 1。遗漏变量问题：认为方程遗漏了“能力”这个变量，加入iq（智商）作为“能力”的代理变量。 2。测量误差问题：iq（智商）对“能力”的测量存在误差。 3。变量内生性问题：s80可能与扰动项中除“能力” 以外的其他因素相关，因此是内生变量。
广义矩估计法：GMM
基本思想：求解如下一般化目标函数,使之最小化 J(b_GMM) = n*g(b_GMM)'*W*g(b_GMM) 其中，W 为权重矩阵在球型扰动项的假定下，2SLS 是最有效的。但如果扰动项存在异方差或自相关，则广义矩估计方法效果更好。 GMM方法又分为两步GMM法和迭代GMM方法。
ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age), first estat firststage
过度识别检验
检验工具变量是否与干扰项相关，即工具变量是否为外生变量。目前仅限于在过度识别的情况下，进行过度识别检验。 2SLS 2SLS根据Sargan统计量进行过度识别检验，GMM Sargan GMM 使用Hansen J Test进行过度识别检验。命令均为： estat overid 检验工具变量的外生性 H0：所有工具变量都是外生的。 H1：至少有一个工具变量不是外生的，与扰动项相关。
3。面板数据格式不符合要求的处理。例如如下表格格式该如何处理？处理方法：扁平数据变长条数据的命令：reshape use invest2,clear edit reshape long invest kstock, i(company) j(year)
company
invest2002
invest2003
弱工具变量检验
工具变量Z与 X 的相关性较低时，2SLS 估计量存在偏误，Z 称为“弱工具变量”。检验方法： estat firststage 1。初步判断可以用偏R2(partial R2) (剔除掉模型中原有外生变量的影响)。 2。 Minimum eigenvalue statistic(最小特征值统计量)，经验上此数应该大于10。
一些面板数据教材
面板数据分析（美）萧政著横截面与面板数据的经济计量分析伍德里奇著，王忠玉译 Baltagi. Econometric Analysis of Panel Data 最新动态可关注期刊： Journal of Econometrics
面板数据一些前沿问题
面板向量自回归模型(Panel VAR) 面板单位根检验(Panel Unit Root test) 面板协整分析(Panel Cointegeration) 门槛面板数据模型(Panel Threshold) 面板联立方程组面板空间计量
ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age), first estat overid ivregress gmm lw80 expr80 tenure80 (s80 iq=med kww mrt age) estat overid
几点注意事项： 1。2SLS只能通过stata完成，利用定义手动计算的结果是错误的，因为残差序列是错误的。 2。不可能单独为每个内生变量指定一组特定的工具变量，所有外生变变量都作为自己的工具变量。 3。在大样本下，IV 估计是一致的，但在小样本下， IV 估计并非无偏估计量，有些情况下偏误可能很严重。
结果解读
固定效应随机效应特别注意： 1。三个R2哪个重要？ 2。固定效应为什么有两个F检验？ 3。corr(u_i, Xb) 的含义。 4。 sigma_u、sigma_e、rho的含义。
模型选择
固定效应还是混合OLS？可以直接观测F值随机效应还是混合OLS？先用随机效应回归，然后运行xttest0 固定效应还是随机效应？ Hausman检验
Hausman检验基本思想：如果 Corr(a_i,x_it) = 0, Fe 和 Re 都是一致的，但Re更有效。如果 Corr(a_i,x_it)!= 0, Fe 仍然一致，但Re 是有偏的。因此原假设是Corr(a_i,x_it) = 0，即应该采用随机效应。
xtreg invest mvalue kstock ,fe est store fixed xtreg invest mvalue kstock ,re est store random hausman fixed random 本题接受原假设，即应该用随机效应。
解决方法：使用med，kww，mrt，age作为内生解释变量iq与s80的工具变量。 1。使用2SLS。 ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age), first 2。使用两步GMM 。 ivregress gmm lw80 expr80 tenure80 (s80 iq=med kww mrt age) 3。使用迭代GMM 。 ivregress gmm lw80 expr80 tenure80 (s80 iq=med kww mrt age),igmm
use grunfeld,clear xtset company year xtdes xtline invest 混合回归：reg invest mvalue kstock 固定效应：xtreg invest mvalue kstock ,fe 随机效应：xtreg invest mvalue kstock ,re
固定效应模型
固定效应模型的公式变为： Yit=ai+Xitb+εit 回归结果是每个个体都有一个特定的截距项。
随机效应模型
随机效应模型将个体效应ai视为随机因素，即把个体效应设定为干扰项的一部分。公式将变为： Yit=Xitb+(ai+εit) 回归的结果是随机效应模型的所有的个体具有相同的截距项，个体的差异主要反应在随机干扰项的设定上。
Stata上机实验
工具变量（IV）
什么情况下需要工具变量？ 1。遗漏变量 2。变量内生性问题 3。测量误差使用这种方法的困难之处在于工具变量的 “搜寻”，而不是在技术方面。
工具变量选择的要求： 1。相关性：工具变量与内生解释变量高度相关，即Cov(xt,pt) ≠0。 2。外生性：工具变量与扰动项不相关，即 Cov(xt,ut) =0。使用工具变量有两种方法：二阶段最小二乘法(2SLS)和广义矩估计法(GMM)。
使用grilic.dta估计教育投资的回报率。变量说明：lw80（80年工资对数），s80 （80年时受教育年限），expr80（80年时工龄），tenure80（80年时在现单位工作年限）， iq（智商），med（母亲的教育年限），kww（在‘knowledge of the World of Work’测试中的成绩），mrt（婚姻虚拟变量，已婚=1），age（年龄）。
16.8 17.4 17 17.5 16.4 16.3
16.7 17 17.1 17.3 16.1 16.3
其他回归方法
1。聚类稳健的标准差通常可以假设不同个体之间的扰动项相互独立，但同一个体在不同时期的扰动项之间往往存在自相关。故须采用聚类稳健的标准差。 use grunfeld,clear xtset company year reg invest mvalue kstock,vce(cluster company) 同理有： xtreg invest mvalue kstock,fe vce(cluster company) xtreg invest mvalue kstock,re vce(cluster company)