连玉君:面板讲义(理论和在STATA中的操作)
STATA面板数据模型操作命令讲解(word文档良心出品)
STATA 面板数据模型估计命令一览表一、静态面板数据的STATA 处理命令εαβit ++=x y it i it 固定效应模型μβit +=x y it itεαμit +=it it 随机效应模型(一)数据处理输入数据●tsset code year 该命令是将数据定义为“面板”形式●xtdes 该命令是了解面板数据结构●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)●gen lag_y=L.y /////// 产生一个滞后一期的新变量gen F_y=F.y /////// 产生一个超前项的新变量gen D_y=D.y /////// 产生一个一阶差分的新变量gen D2_y=D2.y /////// 产生一个二阶差分的新变量(二)模型的筛选和检验●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。
在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。
●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量)(原假设:使用OLS混合模型)●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。
可见,随机效应模型也优于混合OLS模型。
●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验)原假设:使用随机效应模型(个体效应与解释变量无关)通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。
但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下:Step1:估计固定效应模型,存储估计结果Step2:估计随机效应模型,存储估计结果Step3:进行Hausman检验●qui xtreg sq cpi unem g se5 ln,feest store fequi xtreg sq cpi unem g se5 ln,reest store rehausman fe (或者更优的是hausman fe,sigmamore/ sigmaless)可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。
连玉君_Logit模型STATA
15.2.5 假设检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
15.2.6 模型的解释和拟合优度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
15.2.3 Logistic 模型
在完成了上述变换后,我们就可以定义 Logistic 回归模型了,此时我们假设概率 πi 的 Logit 变换 (而非概率 πi 本身) 服从线性模型,即
logit(πi ) = ln
πi 1 − πi
= xi β ,
(15-6)
其中,xi 为解释变量构成向量,β 为系数向量。
第十五章 LOGISTIC 模型
3
Odds Probability1001 Nhomakorabea80
.8
60
.6
40
.4
20
.2
0
0
0
.2
.4
.6
.8
1
−4
−2
0
2
4
Probability
Logit (log−odds)
图 15-1: logit 变换
由于 logit 变换是一一对应的,所以我们可以通过求取逆对数由 Logit 反向得到概率值 (通常 称为 antilogit)。 由 (15-6) 式可解得:
然函数:
n
ln L(β ) =
yi ln [π(xi )] + (1 − yi ) ln [1 − π(xi )]
i =1
(15-11)
一阶条件为:
Stata命令大全 面板数据计量分析与软件实现
Stata命令大全面板数据计量分析与软件实现说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI 溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel 格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
Stata_A_dofiles中山大学连玉君教授stata初级讲义
60
61 * 1.5 浏览资料
62 *
1.5.1 变量的名称
63 *
1.5.2 查看资料的结构
64 *
1.5.2.1 更改变量的存储类型
65 *
1.5.2.2 -list- 命令的使用
66 *
1.5.2.3 定义变量的显示格式
67 *
1.5.2.4 数据和变量的标签
68 *
1.5.2.5 附加说明文字
101 *
1.8.2.3 其他命令
102
103 * 1.9 do 文档: 高效快捷地执行命令
104 *
1.9.1 do 文档简介
105 *
1.9.1.1 打开 do 文档编辑器
106 *
1.9.1.2 保存和关闭
107 *
1.9.1.3 执行 do 文档
108 *
1.9.2 合理规划你的do文档
109 *
47 *
1.3.4 时间序列资料
48 *
1.3.5 面板资料
49 *
1.3.6 STATA官方提供的资料
50 *
1.3.7 其它软件中的数据
51
52 * 1.4 存储和导出数据
53 *
1.4.1 存储数据
54 *
1.4.2 导出和转换
55 *
1.4.2.1 -outfile-命令:导出为 .raw 文本格式
214 *
2.6.1.4 一个例子
215 *
2.6.2 横向关联: -joinby-
216 *
2.6.3 纵向合并:追加样本
217 *
2.6.4 大型数据的处理
218 *
2.6.5 一些有用的外部命令
面板数据stata处理步骤介绍
xA6_Panel_Data - Printed on 2011-11-25 10:43:02 149 reg y x dum1 dum2 dum3, nocons 150 est store m_pooldum3 151 152 *-M2:放入两个虚拟变量,三家公司有一个公共的截距项 153 reg y x dum2 dum3 154 est store m_pooldum2 155 156id t 158 xtreg y x, fe 159 est store m_fe 160 est table m_*, b(%6.3f) star(0.1 0.05 0.01) 161 162 163 *-6.1.4.3 stata的估计方法解析 164 165 * 目的:如果截面的个数非常多,那么采用虚拟变量的方式运算量过大 166 * 因此,要寻求合理的方式去除掉个体效应 167 * 因为,我们关注的是 x 的系数,而非每个截面的截距项 168 * 处理方法: 169 * 170 * y_it = u_i + x_it*b + e_it (1) 171 * ym_i = u_i + xm_i*b + em_i (2) 组内平均 172 * ym = um + xm*b + em (3) 样本平均 173 * (1) - (2), 可得: 174 * (y_it - ym_i) = (x_it - xm_i)*b + (e_it - em_i) (4)//within估计 175 * (4)+(3), 可得: 176 * (y_it-ym_i+ym) = um + (x_it-xm_i+xm)*b + (e_it-em_i+em) 177 * 可重新表示为: 178 * Y_it = a_0 + X_it*b + E_it 179 * 对该模型执行 OLS 估计,即可得到 b 的无偏估计量 180 181 egen y_meanw = mean(y), by(id) /*公司内部平均*/ 182 egen y_mean = mean(y) /*样本平均*/ 183 egen x_meanw = mean(x), by(id) 184 egen x_mean = mean(x) 185 gen dy = y - y_meanw + y_mean 186 gen dx = x - x_meanw + x_mean 187 reg dy dx 188 est store m_stata 189 190 est table m_*, b(%6.3f) star(0.1 0.05 0.01) 191 192 193 *-6.1.4.4 解读 xtreg,fe 的估计结果 194 195 use invest2.dta, clear 196 tsset id t 197 edit 198 xtreg market invest stock, fe 199 200 *-- R^2 201 * y_it = a_0 + x_it*b_o + e_it (1) pooled OLS 202 * y_it = u_i + x_it*b_w + e_it (2) within estimator 203 * ym_i = a_0 + xm_i*b_b + em_i (3) between estimator 204 * 205 * -> R-sq: within 模型(2)对应的R2,是一个真正意义上的R2 206 * -> R-sq: between corr{xm_i*b_w,ym_i}^2 207 * -> R-sq: overall corr{x_it*b_w,y_it}^2 208 209 *-- F(2,93) = 33.23 检验除常数项外其他解释变量的联合显著性 210 * 93 = 100-2-5 211 212 *-- corr(u_i, Xb) = 0.5256 213 214 *-- sigma_u, sigma_e, rho 215 * rho = sigma_u^2 / (sigma_u^2 + sigma_e^2) 216 dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2) 217 dis 1023.5914^2 / (1023.5914^2 + 370.9569^2) 218 219 *-- 个体效应是否显著?(假设检验) 220 * F(4, 93) = 97.68 H0: a1 = a2 = a3 = a4 = 0 221 * Prob > F = 0.0000 表明,固定效应高度显著 222 Page 3
STATA面板数据模型操作命令讲解
STATA 面板数据模型估计命令一览表一、静态面板数据的STATA处理命令y it i xit it 固定效应模型yit x it itit it it 随机效应模型(一)数据处理输入数据●tsset code year该命令是将数据定义为“面板”形式●xtdes该命令是了解面板数据结构● summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)● gen lag_y=L.y /////// 产生一个滞后一期的新变量gen F_y=F.y /////// 产生一个超前项的新变量gen D_y=D.y /////// 产生一个一阶差分的新变量gen D2_y=D2.y /////// 产生一个二阶差分的新变量(二)模型的筛选和检验●1、检验个体效应(混合效应还是固定效应)(原假设:使用 OLS 混合模型)●xtreg sq cpi unem g se5 ln,fe对于固定效应模型而言,回归结果中最后一行汇报的 F 统计量便在于检验所有的个体效应整体上显著。
在我们这个例子中发现 F 统计量的概率为 0.0000 ,检验结果表明固定效应模型优于混合 OLS模型。
● 2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量)(原假设:使用OLS混合模型)●qui xtreg sq cpi unem g se5( 加上“ qui ”之后第一幅图将不会呈现) ln,re xttest0可以看出, LM检验得到的 P 值为 0.0000 ,表明随机效应非常显著。
可见,随机效应模型也优于混合 OLS模型。
● 3、检验固定效应模型or 随机效应模型(检验方法:Hausman检验)原假设:使用随机效应模型(个体效应与解释变量无关)通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合 OLS模型。
但是无法明确区分 FE or RE 的优劣,这需要进行接下来的检验,如下:Step1 :估计固定效应模型,存储估计结果Step2 :估计随机效应模型,存储估计结果Step3 :进行 Hausman检验●qui xtreg sq cpi unem g se5ln,fe est store fequi xtreg sq cpi unem g se5 ln,reest store rehausman fe ( 或者更优的是 hausman fe,sigmamore/ sigmaless)可以看出, hausman检验的 P 值为 0.0000 ,拒绝了原假设,认为随机效应模型的基本假设得不到满足。
STATA面板数据模型操作命令(完整资料).doc
STATA⾯板数据模型操作命令(完整资料).doc 【最新整理,下载后即可编辑】STATA ⾯板数据模型估计命令⼀览表⼀、静态⾯板数据的STATA 处理命令εαβit ++=x y it i it 固定效应模型µβit +=x y it itεαµit +=it it 随机效应模型(⼀)数据处理输⼊数据●tsset code year 该命令是将数据定义为“⾯板”形式●xtdes 该命令是了解⾯板数据结构●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)●gen lag_y=L.y /////// 产⽣⼀个滞后⼀期的新变量gen F_y=F.y /////// 产⽣⼀个超前项的新变量gen D_y=D.y /////// 产⽣⼀个⼀阶差分的新变量gen D2_y=D2.y /////// 产⽣⼀个⼆阶差分的新变量(⼆)模型的筛选和检验●1、检验个体效应(混合效应还是固定效应)(原假设:使⽤OLS混合模型)●xtreg sq cpi unem g se5 ln,fe对于固定效应模型⽽⾔,回归结果中最后⼀⾏汇报的F统计量便在于检验所有的个体效应整体上显著。
在我们这个例⼦中发现F 统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。
●2、检验时间效应(混合效应还是随机效应)(检验⽅法:LM 统计量)(原假设:使⽤OLS混合模型)●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第⼀幅图将不会呈现)xttest0可以看出,LM检验得到的P值为0.0000,表明随机效应⾮常显著。
可见,随机效应模型也优于混合OLS模型。
●3、检验固定效应模型or随机效应模型(检验⽅法:Hausman 检验)原假设:使⽤随机效应模型(个体效应与解释变量⽆关)通过上⾯分析,可以发现当模型加⼊了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。
STATA面板数据模型操作命令讲解
STATA 面板数据模型估计命令一览表一、静态面板数据的STATA 处理命令固定效应模型εαβit ++=x y it i it μβit +=x y it it随机效应模型εαμit +=it it (一)数据处理输入数据●tsset code year 该命令是将数据定义为“面板”形式●xtdes 该命令是了解面板数据结构●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)●gen lag_y=L.y /////// 产生一个滞后一期的新变量gen F_y=F.y /////// 产生一个超前项的新变量gen D_y=D.y /////// 产生一个一阶差分的新变量gen D2_y=D2.y /////// 产生一个二阶差分的新变量(二)模型的筛选和检验●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。
在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。
●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量)(原假设:使用OLS混合模型)●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现)xttest0可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。
可见,随机效应模型也优于混合OLS模型。
●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验)原假设:使用随机效应模型(个体效应与解释变量无关)通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。
但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下:Step1:估计固定效应模型,存储估计结果Step2:估计随机效应模型,存储估计结果Step3:进行Hausman检验●qui xtreg sq cpi unem g se5 ln,feest store fequi xtreg sq cpi unem g se5 ln,reest store rehausman fe (或者更优的是hausman fe,sigmamore/ sigmaless)可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。
STATA高级视频教程简介(连玉君)
STATA高级视频教程简介培训目的:STATA高级视频教程的目的是使学员熟练使用STATA进行实证分析工作,主要包括:(1) 掌握多种常用的估计方法(如普通最小二乘法、广义最小二乘法、非线性最小二乘法、最大似然估计、IV估计和GMM);(2) 学会估计和分析时间序列和面板数据常用模型(如单位根检验、协整分析、VAR、固定效应模型、随机效应模型、动态面板模型、面板单位根检验和面板协整分析等等);(3) 学会编写一个完整的STATA程序;(4) 学会应用STATA进行抽样和模拟分析,包括Bootstrap和Monte Carlo 模拟分析。
课程简介:(详见课程目录)STATA高级视频教程共9讲,共48个视频文件,总计50余个学时。
第1-5讲介绍计量经济学中最为常用的五种估计方法,包括:普通最小二乘法(OLS)、广义最小二乘法(GLS)、非线性最小二乘法(NLS)、最大似然法(MLE)和广义矩估计法(GMM)。
第6讲介绍时间序列模型,包括:ARIMA模型、VAR模型、单位根检验、协整分析、误差修正模型、GARCH模型。
这些模型基本上涵盖了宏观时间序列、金融时间序列分析中的常用工具。
第7讲介绍面板数据模型,包括:固定效应模型、随机效应模型、异方差和序列相关、动态面板模型、面板随机系数模型、面板随机前沿模型、面板单位根检验、面板协整分析等。
这些模型由浅入深,基本上涵盖了目前文献中使用的多数面板分析方法。
第8讲介绍STATA编程技巧,包括:输入项、输出项的设定,子程序、可分组执行、可重复执行等程序高级功能,以及帮助文件的编写方法。
通过本讲的学习,学员将能够独立编写复杂的STATA程序,这些程序和STATA官方提供的程序完全一致。
第9讲介绍自抽样和模拟分析,包括:Bootstrap(自抽样)、组合检验(Permutation tests)、刀切法(Jackknife)和蒙特卡洛模拟。
不同于传统的假设检验和统计推断方法,这些方法都是以计算机模拟和抽样为基础的,在最近十年中得到了越来越广泛的应用。
STATA面板数据模型操作命令(完整资料).doc
【最新整理,下载后即可编辑】STATA 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令εαβit ++=x y it i it 固定效应模型μβit +=x y it itεαμit +=it it 随机效应模型(一)数据处理输入数据●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)●gen lag_y=L.y /////// 产生一个滞后一期的新变量gen F_y=F.y /////// 产生一个超前项的新变量gen D_y=D.y /////// 产生一个一阶差分的新变量gen D2_y=D2.y /////// 产生一个二阶差分的新变量(二)模型的筛选和检验●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。
在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。
●2、检验时间效应(混合效应还是随机效应)(检验方法:LM 统计量)(原假设:使用OLS混合模型)●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现)xttest0可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。
可见,随机效应模型也优于混合OLS模型。
●3、检验固定效应模型or随机效应模型(检验方法:Hausman 检验)原假设:使用随机效应模型(个体效应与解释变量无关)通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。
但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下:Step1:估计固定效应模型,存储估计结果Step2:估计随机效应模型,存储估计结果Step3:进行Hausman检验●qui xtreg sq cpi unem g se5 ln,feest store fequi xtreg sq cpi unem g se5 ln,reest store rehausman fe (或者更优的是hausman fe,sigmamore/sigmaless)可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。
STATA面板数据模型操作命令
STATA面板数据模型操作命令STATA是一个强大的统计分析软件,可以进行各种数据操作和模型建立。
对于面板数据,即具有时间序列和跨个体的数据,STATA提供了多种命令来进行数据的操作和模型的拟合。
以下是一些常用的STATA面板数据模型操作命令:1. xtset命令:用于设置数据集的面板结构,将数据按个体和时间次序排序。
例如,xtset country year可以将数据按照国家和年份排序。
2. xtreg命令:用于拟合面板数据的固定效应模型。
例如,xtreg y x1 x2, fe可以拟合一个包含固定效应的面板数据模型,其中y为因变量,x1和x2为解释变量。
3. xtfe命令:用于估计固定效应模型的固定效应,即个体固定效应模型。
例如,xtfe y x1 x2可以计算出个体固定效应。
4. xtgls命令:用于估计面板数据的一般化最小二乘回归模型。
例如,xtgls y x1 x2可以拟合一个包含一般固定效应的面板数据模型。
5. xtmixed命令:用于估计混合效应模型,即个体和时间固定效应模型。
例如,xtmixed y x1 x2 , country:, var(can)可以在个体和时间固定效应下估计一个模型。
6. xtreg, re命令:用于估计面板数据的随机效应模型。
例如,xtreg y x1 x2, re可以计算出随机效应模型。
7. xtivreg命令:用于估计面板数据的双向固定效应或双向随机效应的工具变量回归模型。
例如,xtivreg y (x1 = z1) (x2 = z2), fe可以计算出一个包含工具变量的双向固定效应模型。
8. xtdpd命令:用于估计面板数据的动态面板数据模型。
例如,xtdpd y x1 x2, lags(2)可以进行一个包含两期滞后的动态面板数据模型估计。
9. xtregar命令:用于估计拓展的面板数据模型。
例如,xtregar y x1 x2, fe(ec)可以在考虑了异方差和异方差的面板数据模型下进行估计。
连玉君_Logit模型STATA
第一步,我们依据概率 πi 来定义胜算比 (odds) :
i
=
1
πi − πi
,
(15-4)
即 yi = 1 的概率 πi 与 yi = 0 的概率 (1 − πi ) 的比值。显然,胜算比可以取任意非负值,如此便 可消除上限约束。
第二步,取对数以计算 logit 或 log-odds
logit(πi ) = ln(
第十五章 LOGISTIC 模型
3
Odds Probability
100
1
80
.8
60
.6
40
.4
20
.2
0
0
0
.2
.4
.6
.8
1
−4
−2
0
2
4
Probability
Logit (log−odds)
图 15-1: logit 变换
由于 logit 变换是一一对应的,所以我们可以通过求取逆对数由 Logit 反向得到概率值 (通常 称为 antilogit)。 由 (15-6) 式可解得:
15.3.4 模型的解释 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
15.4 STATA 中有关 Logitech 模型的命令概览 . . . . . . . . . . . . . . . . . . . . . . . . 33
15.2.1 二项分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
连玉君面板讲义
连玉君面板讲义连玉君:面板数据分析是一种经济学和社会科学研究中常用的工具。
面板数据是在不同个体或观察对象上重复测量的数据,一般包括个体维度和时间维度。
面板数据分析可以帮助研究者更好地理解个体之间的差异和时间序列的变化。
在理论上,面板数据分析有许多经典模型可以用来探索和解释数据。
其中最常用的是固定效应模型和随机效应模型。
固定效应模型假设个体之间存在固定差异,而随机效应模型则假设这些差异是随机的,并且与解释变量无关。
此外,面板数据还可以通过时间趋势分析、固定效应分解和误差分量模型等方法进行分析。
在实际操作中,STATA是一个强大的软件工具,可以支持各种面板数据分析方法。
首先,我们需要将数据导入到STATA中。
通常面板数据以长格式存储,即每个个体-时间组合作为一行。
可以使用STATA命令如"import"或"insheet"将数据导入到STATA中。
在导入数据之后,我们可以进行面板数据的描述性统计,比如计算个体和时间的数量、均值、标准差等。
STATA中的命令如"tabulate"、"summarize"和"tabstat"等可以实现这些功能。
面板数据中最常见的任务之一是估计模型。
常见的估计方法包括固定效应模型、随机效应模型、差分法和两步法等。
在STATA中,可以使用命令如"xtreg"、"xtreg,re"、"xtreg,fe"和"xtreg,re random"等进行估计。
其中"xtreg"为固定效应模型的命令,"xtreg,re"为随机效应模型的命令,"fe"代表固定效应模型,"re"代表随机效应模型。
除了估计模型,STATA还可以进行模型检验和诊断。
连玉君(2010) 一份不太长的Stata简介
一份不太长的Stata简介连玉君中山大学 岭南学院arlionn@2010-7-14目录1 Stata概貌 (1)2 为何选择Stata? (2)3 如何学习Stata? (4)4 最后的话 (7)参考文献 (7)附录A:一些有用的Stata链接 (9)附录B:43个不可不知的Stata命令 (12)附录C:Stata视频教程 (13)1Stata概貌自从2003年开始使用Stata以来,我一直把“Stata”读为“Stay-ta”。
有一次和一个从日本回来的朋友聊天,她把Stata读为“Star-ta”,让我甚感不适。
经查阅,方才发现,原来“Stata”并非数个单词的缩写(因此其正确拼写为Stata而非STATA),而是由“statistics”和“data”合成的一个新词,Stata公司的员工都将其读做“Stay-ta”。
从这个小小的趣闻中,可以看出Stata在问世之初(1985年)的主要功能在于统计分析和数据处理。
经历了二十余年的发展,Stata已经升级到第11.1版(表1),在不断强化上述功能的同时,Stata在矩阵运算、绘图、编程等方面的功能也在不断加强。
表1 Stata发展历程1.0 January 1985 6.0 January 19991.1 February 1985 7.0 December 20001.2 March 1985 8.0 January 20031.4 August 1986 8.1 July 20031.5 February 1987 8.2 October 20032.0 June 1988 9.0 April 20052.05 June 1989 9.1 September 20052.1 September 1990 9.2 April 20063.0 March 1992 10.0 June 20073.1 August 1993 10.1 August 20084.0 January 1995 11.0 July 20095.0 October 1996 11.1 June 2010Source: /support/faqs/res/history.htmlStata擅长数据处理、面板数据分析、时间序列分析、生存分析,以及调查数据分析,但其它方面的功能也并不逊色(表2)。
广义最小二乘法 连玉君
谢所有耐心读完这份笔记的同学,希望你们把发现的错误和不妥之处E-mail 给我以便于我做进 一步的修改。
[版权声明]
未经作者本人同意,任何人不得以商业目的翻印、复制本文。
目录
第四章 GLS—广义最小二乘法 4.1 4.2 4.3 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . OLS估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . GLS估计— 4.3.1 4.3.2 4.3.3 4.3.4 4.4 4.5 已知 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 4 5 7 7 8 8 9 9 10 10 15 23 27 27 30 30 31 31 32 33 33 33 34 36 37
ห้องสมุดไป่ตู้
使其不会随着样本数量的增加而变得无限大。我们在后面的分析中将用到各假设条件。 本章的结构安排如下:第 2 节介绍 OLS 估计无偏、一致但非有效性;第 3 节和第 4 节分别 介绍 GLS 和 FGLS 估计方法,前者适用于 已知的情况,后者适用于 未知的情况;第 5 节
介绍 GLS 的一个应用—异方差问题;第 6 节介绍 SURE 模型的估计,这也是一个 GLS 估计方 法的一个典型的应用.此外,在讲述相关理论的过程中,我们还将介绍如何利用 STATA8.0 软 件包实现这些估计方法。
Estimation with STATA
连玉君_公司金融研究中的内生性问题
公司金融中的内生性问题:如此之多!
• 一些值得考虑的问题
– 相关关系 因果关系? – 自然实验
• 一些潜伏着内生问题的研究主题
– 资本结构、投资行为、现金持有、公司价值(Tobin’s Q ) – 股权结构与公司价值 (maybe伪回归) – 经营绩效与社会责任 (因果关系不明朗) – 投资-现金流敏感性 (衡量偏误) – 股权激励、内部控制 (self-selection) – 建立政治关联有助于改善公司业绩吗? (self-selection) – 交叉上市具有治理效应吗? (self-selection)
•
Stata commands: xtreg, fe | xi: regress i.id
固定效应模型
Fixed Effects Model (FE)
• OLS估计的问题
' FE : yit i X it it
' OLS : yit 0 X it uit
uit i it
it it it 1
•
动态面板模型
Dynamic Panel Data Models
• 应用
– Aghion et al.(2009) |JM|,汇率波动、金融发展与生产率(规范) – Brown et al.(2009) |JF|,金融创新与企业成长(规范) – Wintoki et al.(2012) |JFE|,非常细致地探讨了公司治理中的内生性问题, 对各种动态面板估计方法进行了非常深入的对比分析(综合) – Flannery and Hankins(2013) |JCF|,综述:公司金融中的动态面板估计方法
– 尽量使用“丰满”一点的模型(要熟悉相关理论和文献) – IV or GMM (如何找?)
STATA初级视频教程说明书(连玉君)
STATA初级视频教程(2010版)使用说明连玉君(中山大学 岭南学院 金融系)arlionn@目 录1 课程简介 (1)2 课程特色 (2)3 课程配套资料 (2)4 配套资料的使用方法 (2)5 讨论和建议 (4)6 讲师介绍 (4)7 报名咨询 (4)8 培训优惠 (4)附录A:STATA初级视频目录(时间节点) (5)第一讲STATA简介 (5)第二讲数据处理 (9)第三讲Stata绘图 (13)第四讲矩阵操作 (16)第五讲STATA 编程初步 (18)附录B:STATA高级视频教程简介 (20)工欲善其事,必先利其器。
无论是经济学、管理学还是社会科学的其他学科,定量分析都变得越来越重要了。
作为一个较为年轻的计量软件,STATA自1985年问世以来,以其在数据处理、绘图、回归分析等方面的出色表现,赢得了越来越多的青睐。
然而,相比于SPSS、Eviews等以菜单操作为主的软件,以命令操作见长的STATA软件门槛相对较高。
由于进入国内的时间较短,相关的参考资料甚为有限,而STATA公司提供的近10000页的全英文使用手册更是令多数初学者望而生畏。
这也成为阻碍多数国内同仁学习这款功能强大的计量软件的主要障碍。
鉴于上述情况,我们分别于2007年11月和2008年10月推出了“STATA初级视频教程”和“STATA高级视频教程”,内容涉及STATA的基本操作、数据处理、绘图、编程、常用计量模型的估计,以及Bootstrap和Monte Carlo模拟等内容。
视频教学的直观性,加之课程的实用性导向,使这两套教程获得了广泛的好评。
承蒙广大STATA视频教程学员的积极参与和反馈,我在过去两年多的时间里收集到了100余条修改建议,历经半年多的制作,最终得以为大家呈现这套新版STATA初级视频——“STATA初级视频教程(2010版)”。
STATA初级视频教程(2010版)共5讲,包含36个视频文件,总计40余个学时。
3. 连玉君——面板门槛的介绍
~73~
Hansen_1999.do - Printed on 2012-7-1 21:26:47
69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136
Page 3
*--------------*-模拟数据的生成:单一门槛 *-模拟方法详见: Stata 高级视频, B9_MC_BS.do clear set obs 100 set seed 123456 gen e = invnorm(uniform()) // e~N(0,1) gen x = 3*invnorm(uniform()) // x~N(0,3^2) gen t = _n // t=1,2,3... gen y = . tsset t replace y = 1 + 2*x + e replace y = 1 + -2*x + e if t>50 save xtthres_sim1.dta, replace *------------*-基本统计分析 scatter y t scatter y x reg est reg est reg est y x store full y x if t<=50 store left y x if t>50 store right
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3
(8-3)
(8-4)
假设 1 表明干扰项 ε 与解释变量 x 的当期观察值、前期观察值以及未来的观察 值均不相关,也 就是说模型中所有的解释变量都是严格外生的。假设 2 就是一般的同方差假设,在此 假设下模 型 (8-1) 的 OLS 估计是 BLUE 的。当此假设无法满足时,我们就需要处理异方差或序列 相关以 便得到稳健性估计量。 组内估计量 上面我们已经提到,在假设 1 和假设 2 同时成立的情况下,模型 (8-1) 的 OLS 估计是 BLUE 的。 但在实际操作的过程中,如果 N 比较大,那么我们的模型中将包含 ( N + K ) 个解释变量, 4 计算的工作量往往很大,对于 N 相当大的情况 (如 N=10000 ) ,一般的计算机都 无法胜任。所 以我们有必要先进行一些变换以消除固定效应,进而对简化后的模型进行估计,本小节和下一 小节 介绍的这两种方法都是基于此目的进行的。 我们首先将所有观察值进行堆叠,于是模型 (8-1) 可用矩阵形式表示为: y = Da + Xβ + ε (8-5)
目录
第八章 面板数据模型 8.1 8.2 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 静态面板数据模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.1 8.2.2 8.2.3 8.2.4 8.3 8.3.1 8.3.2 8.3.3 8.4 8.5 8.6 8.7 固定效应模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 随机效应模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 假设检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . STATA 实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 异方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 序列相关 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 方差形式未知时的稳健性估计 . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 7 10 13 25 25 29 33 33 33 33 33
ε 1 , ε 2 , · · · , ε N ) , 均为 N T × 1 向量, D = I N ⊗ 1T , a = 其中, y = (y1 , y2 , · · · , y N ) , ε = (ε (a1 , a2 , · · · , a N ) 。考虑到 D 矩阵的构造形式,它事实上对应着 N 个虚拟变量。因此,模型 (8-5) 等价于在混合 OLS 模型 y = Xβ + ε 中加入 N 个虚拟变量。 在正式估计模型之前,我们先定义一些有用的矩阵运算,它们将在后面的分析中反复使 用。 定义 DD = I N ⊗ JT , 其中, JT = 1T 1T 为 T × T 维矩阵,每个元素均为 1。 同时,我 ¯T , J ¯T = (1/ T )JT 是 T × T 维矩阵,每个元素均为 1/ T ; 们定义 P = D(D D)−1 D = I N ⊗ J −1 Q = I N T − D(D D) D = I N T − P 。 矩阵 P 和 Q 都具有如下性质: (1) 对称、幂等性: P = P , 且 P2 = P ; (2) 正交性: PQ = 0 ; (3) 和为单位矩阵: P + Q = I N T . 我们可以从上述三个性质中的任意两个推导出第三个。易于证明, QD = 0 ,因此,我们可以 通过在等式 (8-5) 两边同时左乘 Q 以消除固定效应: Qy = QXβ + Qε (8-6)
Estimation with STATA
连玉君1 中山大学 岭南学院 金融系
arlionn@
2007.07
特别好的一篇文章丆希望我能学会STATA•C加油両
1 这是我在西安交通大学金禾中心读博期间整理的学习笔记。非常感谢我的导师钟经樊先生带我走进
计量经济学 的多彩世界,并介绍给我一非常难得的朋友 —- STATA。同时,也要感谢金禾中心的 程建博 AT X 软件的使 士 (现就职于建行总行博士后流动站) 和朱晓明博士 (现就职于国家开发银行北京总行) 在 L E 用方面给与的帮助。 如果发现笔记中有任何错误和不妥之处,或是对我还没有想出来的问题有任何解决 的建议, 烦请发邮件给我。同时,我已经完成的笔记 (共 12 章) 都可以在我的博客 ( http:// ) 中下载,欢迎光临。 由于这些笔记还在不断更新中,所以恳请各位将阅读过程中发现的小错误及时反 馈给我, 我会将你们的名字做成列表,定时发送最新版的笔记给你们。
1 如宁夏属于回族自治区,那里的回民因为信仰伊斯兰教,所以不允许饮酒的,而生活 在宁夏的许多汉民也往往
因为自己的回民朋友无法饮酒而无形中减少了啤酒的消费量。
2 如中国南部地区啤酒的消费量比较大,而北方很多地区只有在夏天才会饮用 较多的啤酒,冬天他们一般是只喝
白酒的。
1
8.2 静态面板数据模型
2
ห้องสมุดไป่ตู้
其中, i = 1, 2, · · · , N , t = 1, 2, · · · , T ;xit 为 K × 1 列向量, K 为解释变量的个 数,β 为 K × 1 系数列向量。 对于特定的个体 i 而言, ai 表示那些不随时间改变的影响因素,而这些因 素在多数情况下都是无法 直接观测或难以量化的,如个人的消费习惯、国家的社会制度等,我 们一般称其为“个体效应” (individual effects)。对“个体效应”的处理主要有两种方式:一种 是视其为不随时间改变的固定性因素, 相应的模型称为“固定效应”模型;另一种是视其为随 机因素,相应的模型称为“随机效应”模型。 这两种模型的差异主要反映在对“个体效应”的处理上。 固定效应模型中的个体差异反映 在每个个体都有一个特定的截距项 上;随机效应模型则假设所有的个体具有相同的截距项,个 体的差异主要反应在 随机干扰项的设定上,因此该模型通常也称为“误差成分模型”。基于 此,一种常见的观点认为,当我们 的样本来自一个较小的母体时,我们应该使用固定效应模 型,而当样本来自一个很大的母体时,应当采用 随机效应模型。比如在研究中国地区经济增长 的过程中,我们以全国 28 个省区为研究对象,可以认为这 28 个省区几乎代表了整个母体。同 时也可以假设在样本区间内,各省区的经济结构、人口素质等不可 观测的特质性因素是固定不 变的,因此采用固定效应模型是比较合适的。而当我们研究西安市居民的消费 行为时,即使样 本数为 10000 人,相对于西安市 600 万人口的母体而言仍然是个很小的样本。此时,可以 认为 不同的居民在个人能力、消费习惯等方面的差异是随机的,此时采用随机效应模型较为合适。 遗憾的是,很多情况下,我们并不能明确地区分我们的样本来自一个较大母体还是较小的 母体。因此有些 学者认为,区分固定效应模型和随机效应模型应当看使用二者的假设条件是否 满足。由于随机效应模型 把个体效应设定为干扰项的一部分,所以就要求解释变量与个体效应 不相关,而固定效应模型并不需要这个 假设条件。因此,如果我们的检验结果表明该假设满 足,那么就应该采用随机效应模型,因为它更为有效, 反之,就需要采用固定效应模型。 另外,有些学者认为具体采用哪一种模型主要决定于我们的分析目的。如果主要目的在于 估计模型的参数 ,而模型中个体的数目又不是很大,采用固定效应模型是个不错的选择,因 为它非常容易估计。 但当我们需要对模型的误差成分进行分析时 (通常分解为长期效果和短期 效果) ,就只能采用随机效应模型。 在这种情况下,即使模型中的部分解释变量与个体效应相 关,我们仍然可以通过工具变量法对模型进行估计。 简言之,两种模型有各自的优缺点和适用范围,在实证分析的过程中,我们一方面要根 据分析的目的选择 合适的模型,同时也要以 8.2.3 节中介绍的假设检验方法为基础进行模型筛 选。
8.2.1
固定效应模型
模型的基本设定和假设条件 若视 ai 为固定效应,模型 (8-1) 可以采用向量的形式表示为: yi = ai 1T + xi β + ε i (8-2)
其中, yi = ( yi 1 , yi 2 , · · · , yi T ) , xi = (xi 1 , xi 2 , · · · , xi T ) , ε i = (εi 1 , εi 2 , · · · , εi T ) , 1T 是一个所有元 素都为 1 的 T × 1 列向量。 我们有如下两个基本假设: 3
3 一般应用中,我们也常采用如下两个相对较弱的假设。 假设 1 : E[ε |x ] = 0 和 假设 2 : Var [ε |x ] = σ 2 I 。 i i i i T
第八章 面板数据模型
假设 1 : E[ε i |xi , ai ] = 0 假设 2 : Var [ε i |xi , ai ] = σ 2 IT
非均齐方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
动态面板模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 面板 VAR 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 面板门槛模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 面板单位根检验和协整分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .