连玉君:面板讲义(理论和在STATA中的操作)

合集下载

Stata命令大全 面板数据计量分析与软件实现

Stata命令大全 面板数据计量分析与软件实现

Stata命令大全面板数据计量分析与软件实现

说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。

*----------面板数据模型

* 1.静态面板模型:FE 和RE

* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验

* 4.动态面板模型(DID-GMM,SYS-GMM)

* 5.面板随机前沿模型

* 6.面板协整分析(FMOLS,DOLS)

*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。

* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)

*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI 溢出效应(Spillovers Effect)、工业行业效率状况等。

* 空间计量分析:SLM模型与SEM模型

*说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。

* ---------------------------------

* --------一、常用的数据处理与作图-----------

* ---------------------------------

* 指定面板格式

xtset id year (id为截面名称,year为时间名称)

Stata_A_dofiles中山大学连玉君教授stata初级讲义

Stata_A_dofiles中山大学连玉君教授stata初级讲义

2.8.4.2 例-1-:上市公司日期、行业代码和所在地的处理
237 *
2.8.4.3 例-2-:银企关系数据中银行名称的提取
238 *
2.8.4.4 例-3-:处理不规则的日期
239
240 * 2.9 类别变量的分析
241 *
2.9.1 类别数的统计
242 *
2.9.2 交叉类别变量的生成
243 *
2.9.3 分组统计量
244 *
2.9.3.1 单层分组统计量
245 *
2.9.3.2 二层次和三层次分组统计量
246 *
2.9.3.3 多层次分组统计量
247 *
2.9.4 计算分组统计量的其它方法
2.1.4.4 产生组内均值和中位数
171 *
2.1.4.5 跨变量的比较和统计
172 *
2.1.4.6 变量的标准化
173 *
2.1.4.7 变量的平滑化(Moving Average)
174 *
2.1.4.8 更多的 egen() 函数
175
176 * 2.2 分位数
177 *
2.2.1 分位数的基本概念
69 *
1.5.2.6 搜索变量
70 *
1.5.3 基本统计量
71 *
1.5.3.1 -summarize-命令

Stata命令大全-面板数据计量分析与软件实现

Stata命令大全-面板数据计量分析与软件实现

Stata命令大全面板数据计量分析与软件实现

说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。

*----------面板数据模型

* 1.静态面板模型:FE 和RE

* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验

* 4.动态面板模型(DID-GMM,SYS-GMM)

* 5.面板随机前沿模型

* 6.面板协整分析(FMOLS,DOLS)

*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。

* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)

*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。

* 空间计量分析:SLM模型与SEM模型

*说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。

* ---------------------------------

* --------一、常用的数据处理与作图-----------

* ---------------------------------

* 指定面板格式

xtset id year (id为截面名称,year为时间名称)

stata面板数据操作示例

stata面板数据操作示例
Estimation with STATA
连玉君 (西安交通大学金禾经济研究中心)
arlion@stu.xjtu.edu.cn 2005.10
目录
第八章 面板数据模型
2
8.1 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
组内估计量
上面我们已经提到,在假设 1 和假设 2 同时成立的情况下,模型 (8.1) 的 OLS 估计是 BLUE 的。但在实际操作的过程中,如果 N 比较大,那么我们的模型中将包含 (N+K) 个解释变 量,4计算的工作量往往很大,对于 N 相当大的情况(如 N=10000 ),一般的计算机都无法胜
8.2.2 随机效应模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
8.2.3 假设检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
另外,有些学者认为具体采用哪一种模型主要决定于我们的分析目的。如果主要目的在于
8.2. 静态面板数据模型
4
估计模型的参数,而模型中个体的数目又不是很大的情况下,采用固定效应模型是个不错的选 择,因为它非常容易估计。但当我们需要对模型的误差成分进行分析时(通常分解为长期效果 和短期效果),就只能采用随机效应模型。在这种情况下,即使模型中的部分解释变量与个体 效应相关,我们仍然可以通过工具变量法对模型进行估计。

连玉君_Logit模型STATA

连玉君_Logit模型STATA

的比例。 (2) 如果我们将 yi − πi 看作一般化残差 (generalized residual),则 (15-12) 式与线性回归
模型中的正交条件具有相似的含义。
采用牛顿迭代法可以很方便地得到参数的估计值。我们可以进一步求取二阶偏导如下:
H(β
)
=

∂2 ln L ∂β∂β
=−
n
πi (1 − πi )xi xi .
其主要缺陷在于:由于等式左边的 πi 表示概率,所以必须介于 0 和 1 之间,而右边的线性 组合项则可能取任何值,所以在不对模型做严格约束的情况下,我们很难保证模型的预测值介 于合理的范围内。
logit 变换
因此,我们必须对概率 πi 进行变换以消除对其取值范围的约束,继而把变换后的数值 设 定为解释变量 xi 的线性函数。处理过程包括两个步骤。
15.2.1 二项分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
15.2.2 Logit 变换 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
计量分析与 STATA 应用
钟经樊 连玉君
关于作者: 钟经樊 台湾中央研究院 经济研究所 连玉君 中山大学 岭南学院 金融系

Stata命令大全 面板数据计量分析与软件实现

Stata命令大全 面板数据计量分析与软件实现

Stata命令大全面板数据计量分析与软件实现

说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。

*----------面板数据模型

* 1.静态面板模型:FE 和RE

* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验

* 4.动态面板模型(DID-GMM,SYS-GMM)

* 5.面板随机前沿模型

* 6.面板协整分析(FMOLS,DOLS)

*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。

* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)

*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI 溢出效应(Spillovers Effect)、工业行业效率状况等。

* 空间计量分析:SLM模型与SEM模型

*说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。

* ---------------------------------

* --------一、常用的数据处理与作图-----------

* ---------------------------------

* 指定面板格式

xtset id year (id为截面名称,year为时间名称)

面板数据模型-一文读懂

面板数据模型-一文读懂

面板数据模型-一文读懂

导言:如下是连玉君老师上课的板书。你可以看出什么是「固定效应」,什么是「双向固定效应模型」,什么是「POLS」 v.s. 「FE」以及二者的差别。

所以,面板数据模型其实没有你想象的那么复杂!

常见的数据形式有时间序列数据( Time series data ),截面数据( Cross-sectional data )和面板数据( Panel data )。

从维度来看,时间序列数据和截面数据均为一维。面板数据可以看做为时间序列与截面混合数据,因此它是二维数据。数据形式如下:

世界是复杂的,所表现出来的行为特征也是复杂的,我们需要面板数据。

例如,欲研究影响企业利润的决定因素,我们认为企业规模 (截面维度)和技术进步(时间维度)是两个重要的因素。截面数据仅能研究企业规模对企业利润的影响程度,时间序列数据仅能研究技术进步对企业利润的影响,而面板数据同时考虑了截面和时间两个维度 (从哪个维度看都好看),可以同时研究企业规模和技术进步对企业利润的影响。

正因为面板数据所具有的独特优势,许多模型从截面数据扩展到面板数据框架下。通过findit panel data命令可以发现目前Stata已有许多相关面板数据模型命令,包括(不限于):

xtreg :普通面板数据模型,包括固定效应与随机效应

xtabond/xtdpdsys/xtabond2/xtdpdqml/xtlsdvc:动态面板数据模型

spxtregress/xsmle: 空间面板数据模型

xthreg:面板门限模型

xtqreg/qregpd/xtrifreg: 面板分位数模型

Stata命令大全-面板数据计量分析与软件实现

Stata命令大全-面板数据计量分析与软件实现

Stata命令大全面板数据计量分析与软件实现

说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。

*----------面板数据模型

* 1.静态面板模型:FE 和RE

* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验

* 4.动态面板模型(DID-GMM,SYS-GMM)

* 5.面板随机前沿模型

* 6.面板协整分析(FMOLS,DOLS)

*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。

* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)

*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI 溢出效应(Spillovers Effect)、工业行业效率状况等。

* 空间计量分析:SLM模型与SEM模型

*说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。

* ---------------------------------

* --------一、常用的数据处理与作图-----------

* ---------------------------------

* 指定面板格式

xtset id year (id为截面名称,year为时间名称)

STATA面板数据模型操作命令讲解

STATA面板数据模型操作命令讲解

STATA 面板数据模型估计命令一览表

一、静态面板数据的STATA 处理命令

固定效应模型

εαβit ++=x y it i it μβit +=x y it it

随机效应模型

εαμit +=it it (一)数据处理

输入数据

●tsset code year 该命令是将数据定义为“面板”形式

●xtdes 该命令是了解面板数据结构

●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)

●gen lag_y=L.y /////// 产生一个滞后一期的新变量

gen F_y=F.y /////// 产生一个超前项的新变量

gen D_y=D.y /////// 产生一个一阶差分的新变量

gen D2_y=D2.y /////// 产生一个二阶差分的新变量

(二)模型的筛选和检验

●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe

对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例子中发现F统计量的概率为

0.0000,检验结果表明固定效应模型优于混合OLS模型。

●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量)

(原假设:使用OLS混合模型)

●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现)

xttest0

可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。可见,随机效应模型也优于混合OLS模型。

STATA初级视频教程说明书(连玉君)

STATA初级视频教程说明书(连玉君)

STATA初级视频教程(2010版)

使用说明

连玉君

(中山大学 岭南学院 金融系)

arlionn@

目 录

1 课程简介 (1)

2 课程特色 (2)

3 课程配套资料 (2)

4 配套资料的使用方法 (2)

5 讨论和建议 (4)

6 讲师介绍 (4)

7 报名咨询 (4)

8 培训优惠 (4)

附录A:STATA初级视频目录(时间节点) (5)

第一讲STATA简介 (5)

第二讲数据处理 (9)

第三讲Stata绘图 (13)

第四讲矩阵操作 (16)

第五讲STATA 编程初步 (18)

附录B:STATA高级视频教程简介 (20)

工欲善其事,必先利其器。无论是经济学、管理学还是社会科学的其他学科,定量分析都变得越来越重要了。作为一个较为年轻的计量软件,STATA自1985年问世以来,以其在数据处理、绘图、回归分析等方面的出色表现,赢得了越来越多的青睐。然而,相比于SPSS、Eviews等以菜单操作为主的软件,以命令操作见长的STATA软件门槛相对较高。由于进入国内的时间较短,相关的参考资料甚为有限,而STATA公司提供的近10000页的全英文使用手册更是令多数初学者望而生畏。这也成为阻碍多数国内同仁学习这款功能强大的计量软件的主要障碍。

鉴于上述情况,我们分别于2007年11月和2008年10月推出了“STATA初级视频教程”和“STATA高级视频教程”,内容涉及STATA的基本操作、数据处理、绘图、编程、常用计量模型的估计,以及Bootstrap和Monte Carlo模拟等内容。视频教学的直观性,加之课程的实用性导向,使这两套教程获得了广泛的好评。承蒙广大STATA视频教程学员的积极参与和反馈,我在过去两年多的时间里收集到了100余条修改建议,历经半年多的制作,最终得以为大家呈现这套新版STATA初级视频——“STATA初级视频教程(2010版)”。

连玉君(2010) 一份不太长的Stata简介

连玉君(2010)  一份不太长的Stata简介

一份不太长的Stata简介

连玉君

中山大学 岭南学院

arlionn@

2010-7-14

目录

1 Stata概貌 (1)

2 为何选择Stata? (2)

3 如何学习Stata? (4)

4 最后的话 (7)

参考文献 (7)

附录A:一些有用的Stata链接 (9)

附录B:43个不可不知的Stata命令 (12)

附录C:Stata视频教程 (13)

1Stata概貌

自从2003年开始使用Stata以来,我一直把“Stata”读为“Stay-ta”。有一次和一个从日本回来的朋友聊天,她把Stata读为“Star-ta”,让我甚感不适。经查阅,方才发现,原来“Stata”并非数个单词的缩写(因此其正确拼写为Stata而非STATA),而是由“statistics”和“data”合成的一个新词,Stata公司的员工都将其读做“Stay-ta”。从这个小小的趣闻中,可以看出Stata在问世之初(1985年)的主要功能在于统计分析和数据处理。经历了二十余年的发展,Stata已经升级到第11.1版(表1),在不断强化上述功能的同时,Stata在矩阵运算、绘图、编程等方面的功能也在不断加强。

表1 Stata发展历程

1.0 January 1985 6.0 January 1999

1.1 February 1985 7.0 December 2000

1.2 March 1985 8.0 January 2003

1.4 August 1986 8.1 July 2003

1.5 February 1987 8.2 October 2003

面板数据stata处理步骤介绍

面板数据stata处理步骤介绍
ห้องสมุดไป่ตู้
xA6_Panel_Data - Printed on 2011-11-25 10:43:02 149 reg y x dum1 dum2 dum3, nocons 150 est store m_pooldum3 151 152 *-M2:放入两个虚拟变量,三家公司有一个公共的截距项 153 reg y x dum2 dum3 154 est store m_pooldum2 155 156 *-M3:面板固定效应模型(stata的估计方法) 157 tsset id t 158 xtreg y x, fe 159 est store m_fe 160 est table m_*, b(%6.3f) star(0.1 0.05 0.01) 161 162 163 *-6.1.4.3 stata的估计方法解析 164 165 * 目的:如果截面的个数非常多,那么采用虚拟变量的方式运算量过大 166 * 因此,要寻求合理的方式去除掉个体效应 167 * 因为,我们关注的是 x 的系数,而非每个截面的截距项 168 * 处理方法: 169 * 170 * y_it = u_i + x_it*b + e_it (1) 171 * ym_i = u_i + xm_i*b + em_i (2) 组内平均 172 * ym = um + xm*b + em (3) 样本平均 173 * (1) - (2), 可得: 174 * (y_it - ym_i) = (x_it - xm_i)*b + (e_it - em_i) (4)//within估计 175 * (4)+(3), 可得: 176 * (y_it-ym_i+ym) = um + (x_it-xm_i+xm)*b + (e_it-em_i+em) 177 * 可重新表示为: 178 * Y_it = a_0 + X_it*b + E_it 179 * 对该模型执行 OLS 估计,即可得到 b 的无偏估计量 180 181 egen y_meanw = mean(y), by(id) /*公司内部平均*/ 182 egen y_mean = mean(y) /*样本平均*/ 183 egen x_meanw = mean(x), by(id) 184 egen x_mean = mean(x) 185 gen dy = y - y_meanw + y_mean 186 gen dx = x - x_meanw + x_mean 187 reg dy dx 188 est store m_stata 189 190 est table m_*, b(%6.3f) star(0.1 0.05 0.01) 191 192 193 *-6.1.4.4 解读 xtreg,fe 的估计结果 194 195 use invest2.dta, clear 196 tsset id t 197 edit 198 xtreg market invest stock, fe 199 200 *-- R^2 201 * y_it = a_0 + x_it*b_o + e_it (1) pooled OLS 202 * y_it = u_i + x_it*b_w + e_it (2) within estimator 203 * ym_i = a_0 + xm_i*b_b + em_i (3) between estimator 204 * 205 * -> R-sq: within 模型(2)对应的R2,是一个真正意义上的R2 206 * -> R-sq: between corr{xm_i*b_w,ym_i}^2 207 * -> R-sq: overall corr{x_it*b_w,y_it}^2 208 209 *-- F(2,93) = 33.23 检验除常数项外其他解释变量的联合显著性 210 * 93 = 100-2-5 211 212 *-- corr(u_i, Xb) = 0.5256 213 214 *-- sigma_u, sigma_e, rho 215 * rho = sigma_u^2 / (sigma_u^2 + sigma_e^2) 216 dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2) 217 dis 1023.5914^2 / (1023.5914^2 + 370.9569^2) 218 219 *-- 个体效应是否显著?(假设检验) 220 * F(4, 93) = 97.68 H0: a1 = a2 = a3 = a4 = 0 221 * Prob > F = 0.0000 表明,固定效应高度显著 222 Page 3

STATA面板数据模型操作命令讲解(word文档良心出品)

STATA面板数据模型操作命令讲解(word文档良心出品)

STATA 面板数据模型估计命令一览表

一、静态面板数据的 STATA 处理命令

固定效应模型

随机效应模型

(一)数据处理

输入数据

• tsset code year 该命令是将数据定义为“面板”形式 • xtdes

该命令是了解面板数据结构

・ xtdes

code: 1i 2, ■■■( 20

n 工 20 year : 3004, 2005, ■…,2014

T =

11

Delta(year) =1 unit span(year) =11 periods

(code*year uniquely identifies each

observation)

Distributi

on of

:

min 8%

2璃

50^ 75% 95%

max

11

11 11

11

11

11 11

Freq. Percent Cum. Pattern

20 100.00 100.00 11111111111

20

100.00

XXXXXXXXXXX

・ summarize sc I cpi unem g

se5 In

variable

Obs Mean Std ・ Dev.

Mi n

Max sq 220 .Q142798 2.930346

4.75e-06

26.22301

cpi

220

1*10655 *032496 1.045 1. 25 unem

22Q .0349455 .0071556 .012 ,046 g

220

,10907 .0427523 0246 .2357

220 .0268541 011671? .0053

.0693

220

.1219364

.0240077

STATA高级视频教程简介(连玉君)

STATA高级视频教程简介(连玉君)

STATA高级视频教程简介

培训目的:

STATA高级视频教程的目的是使学员熟练使用STATA进行实证分析工作,主要包括:

(1) 掌握多种常用的估计方法(如普通最小二乘法、广义最小二乘法、非线性最小二乘法、最大似然估计、IV估计和GMM);

(2) 学会估计和分析时间序列和面板数据常用模型(如单位根检验、协整分析、VAR、固定效应模型、随机效应模型、动态面板模型、面板单位根检验和面板协整分析等等);

(3) 学会编写一个完整的STATA程序;

(4) 学会应用STATA进行抽样和模拟分析,包括Bootstrap和Monte Carlo 模拟分析。

课程简介:(详见课程目录)

STATA高级视频教程共9讲,共48个视频文件,总计50余个学时。

第1-5讲介绍计量经济学中最为常用的五种估计方法,包括:普通最小二乘法(OLS)、广义最小二乘法(GLS)、非线性最小二乘法(NLS)、最大似然法(MLE)和广义矩估计法(GMM)。

第6讲介绍时间序列模型,包括:ARIMA模型、VAR模型、单位根检验、协整分析、误差修正模型、GARCH模型。这些模型基本上涵盖了宏观时间序列、金融时间序列分析中的常用工具。

第7讲介绍面板数据模型,包括:固定效应模型、随机效应模型、异方差和序列相关、动态面板模型、面板随机系数模型、面板随机前沿模型、面板单位根检验、面板协整分析等。这些模型由浅入深,基本上涵盖了目前文献中使用的多数面板分析方法。

第8讲介绍STATA编程技巧,包括:输入项、输出项的设定,子程序、可分组执行、可重复执行等程序高级功能,以及帮助文件的编写方法。通过本讲的学习,学员将能够独立编写复杂的STATA程序,这些程序和STATA官方提供的程序完全一致。

stata命令大全(全)[整理版]

stata命令大全(全)[整理版]

*********面板数据计量分析与软件实现*********

说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。

*----------面板数据模型

* 1.静态面板模型:FE 和RE

* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计)

* 3.异方差、序列相关和截面相关检验

* 4.动态面板模型(DID-GMM,SYS-GMM)

* 5.面板随机前沿模型

* 6.面板协整分析(FMOLS,DOLS)

*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。

* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)

*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog 生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。

* 空间计量分析:SLM模型与SEM模型

*说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。

* ---------------------------------

* --------一、常用的数据处理与作图-----------

* ---------------------------------

* 指定面板格式

xtset id year (id为截面名称,year为时间名称)

3. 连玉君——面板门槛的介绍

3. 连玉君——面板门槛的介绍
Hansen_1999.do - Printed on 2012-7-1 21:26:47
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68
Page 2
*-典型的处理方法 * 加入解释变量的二次项,如 reg y x x^2 * 加入虚拟变量和交乘项,如 reg y x d d*x * 分组回归 *----------* 存在的问题:x 与 x^2 往往是高度共线性的; * 如何确定分组界点?错误的界点会导致严重的偏误 *-------*-1.1.2 面板门槛模型的设定 shellout "$path\Refs\Hansen_1999.pdf" * * * * ***{ u[i] + b1*X[it] + e[it] y[it] = { { u[i] + b2*X[it] + e[it] y[it] -- 被解释变量 X[it] -- 解释变量 q[it] -- 门槛变量 if q[it]<=gamma (1) if q[it]> gamma (d=1 if top1>0.5)
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

I
第八章
8.1 简介
面板数据模型
面板数据,简言之是时间序列和截面数据的混合。严格地讲是指对一组个体 (如居民、国 家、公司等) 连续观察多期得到的资料。所以很多时候我们也称其为“追踪资料”。近年来, 由于面板 数据资料的获得变得相对容易,使其应用范围也不断扩大。而关于面板数据的计量理 论也几乎涉及到了 以往截面分析和时间序列分析中所有可能出现的主题,如近年来发展出的面 板向量自回归模型 (Panel VAR) 、 面板单位根检验 (Panel Unit Root test) 、面板协整分析 (Panel Cointegeration) 、门槛面板数据 模型 (Panel Threshold) 等,都是在现有截面分析和时间序列分析 中的热点主题的基础上发展起来的。 采用面板数据模型进行分析的主要目的有二:一是控制不可观测的个体异质性;二是描述 和分析 动态调整过程,处理误差成分。 使用面板数据主要有以下几方面的优点: • 便于控制个体的异质性。比如,我们在研究全国 30 个省份居民人均消费青岛啤酒的数 量时。 可以选取居民的收入、当地的啤酒价格、上一年的啤酒消费量等变量作为解释变 量。但同时我们认为 民族习惯、1 风俗文化、2 广告投放等因素也会显著地影响居民的啤 酒消费量。对于特定的 个体而言,前两种因素不会随时间的推移而有明显的变化,通常 称为个体效应。而广告的投放往往通过电视 或广播,我们可以认为在特定的年份所有省 份所接受的广告投放量是相同的,通常称为时间效应。这些因素 往往因为难以获得数据 或不易衡量而无法进入我们的模型,在截面分析中者往往会引起遗漏变量的问题。 而面 板数据模型的主要用途之一就在于处理这些不可观测的个体效应或时间效应。 • 包含的信息量更大,降低了变量间共线性的可能性,增加了自由度和估计的有效性。 • 便于分析动态调整。
3 一般应用中,我们也常采用如下两个相对较弱的假设。 假设 1 : E[ε |x ] = 0 和 假设 2 : Var [ε |x ] = σ 2 I 。 i i i i T
第八章 面板数据模型
假设 1 : E[ε i |xi , ai ] = 0 假设 2 : Var [ε i |xi , ai ] = σ 2 IT
3
(8-3)
(8-4)
假设 1 表明干扰项 ε 与解释变量 x 的当期观察值、前期观察值以及未来的观察 值均不相关,也 就是说模型中所有的解释变量都是严格外生的。假设 2 就是一般的同方差假设,在此 假设下模 型 (8-1) 的 OLS 估计是 BLUE 的。当此假设无法满足时,我们就需要处理异方差或序列 相关以 便得到稳健性估计量。 组内估计量 上面我们已经提到,在假设 1 和假设 2 同时成立的情况下,模型 (8-1) 的 OLS 估计是 BLUE 的。 但在实际操作的过程中,如果 N 比较大,那么我们的模型中将包含 ( N + K ) 个解释变量, 4 计算的工作量往往很大,对于 N 相当大的情况 (如 N=10000 ) ,一般的计算机都 无法胜任。所 以我们有必要先进行一些变换以消除固定效应,进而对简化后的模型进行估计,本小节和下一 小节 介绍的这两种方法都是基于此目的进行的。 我们首先将所有观察值进行堆叠,于是模型 (8-1) 可用矩阵形式表示为: y = Da + Xβ + ε (8-5)
8.2.1
固定效应模型
模型的基本设定和假设条件 若视 ai 为固定效应,模型 (8-1) 可以采用向量的形式表示为: yi = ai 1T + xi β + ε i (8-2)
其中, yi = ( yi 1 , yi 2 , · · · , yi T ) , xi = (xi 1 , xi 2 , · · · , xi T ) , ε i = (εi 1 , εi 2 , · · · , εi T ) , 1T 是一个所有元 素都为 1 的 T × 1 列向量。 我们有如下两个基本假设: 3
ε 1 , ε 2 , · · · , ε N ) , 均为 N T × 1 向量, D = I N ⊗ 1T , a = 其中, y = (y1 , y2 , · · · , y N ) , ε = (ε (a1 , a2 , · · · , a N ) 。考虑到 D 矩阵的构造形式,它事实上对应着 N 个虚拟变量。因此,模型 (8-5) 等价于在混合 OLS 模型 y = Xβ + ε 中加入 N 个虚拟变量。 在正式估计模型之前,我们先定义一些有用的矩阵运算,它们将在后面的分析中反复使 用。 定义 DD = I N ⊗ JT , 其中, JT = 1T 1T 为 T × T 维矩阵,每个元素均为 1。 同时,我 ¯T , J ¯T = (1/ T )JT 是 T × T 维矩阵,每个元素均为 1/ T ; 们定义 P = D(D D)−1 D = I N ⊗ J −1 Q = I N T − D(D D) D = I N T − P 。 矩阵 P 和 Q 都具有如下性质: (1) 对称、幂等性: P = P , 且 P2 = P ; (2) 正交性: PQ = 0 ; (3) 和为单位矩阵: P + Q = I N T . 我们可以从上述三个性质中的任意两个推导出第三个。易于证明, QD = 0 ,因此,我们可以 通过在等式 (8-5) 两边同时左乘 Q 以消除固定效应: Qy = QXβ + Qε (8-6)
非均齐方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
动态面板模型 . . . . . . . . . . . . . . . . . . . . . . . . . Βιβλιοθήκη Baidu . . . . . . . . . . . . . 面板 VAR 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 面板门槛模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 面板单位根检验和协整分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation with STATA
连玉君1 中山大学 岭南学院 金融系
arlionn@163.com
2007.07
特别好的一篇文章丆希望我能学会STATA•C加油両
1 这是我在西安交通大学金禾中心读博期间整理的学习笔记。非常感谢我的导师钟经樊先生带我走进
计量经济学 的多彩世界,并介绍给我一非常难得的朋友 —- STATA。同时,也要感谢金禾中心的 程建博 AT X 软件的使 士 (现就职于建行总行博士后流动站) 和朱晓明博士 (现就职于国家开发银行北京总行) 在 L E 用方面给与的帮助。 如果发现笔记中有任何错误和不妥之处,或是对我还没有想出来的问题有任何解决 的建议, 烦请发邮件给我。同时,我已经完成的笔记 (共 12 章) 都可以在我的博客 ( http:// arlion.8j.cn ) 中下载,欢迎光临。 由于这些笔记还在不断更新中,所以恳请各位将阅读过程中发现的小错误及时反 馈给我, 我会将你们的名字做成列表,定时发送最新版的笔记给你们。
目录
第八章 面板数据模型 8.1 8.2 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 静态面板数据模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.1 8.2.2 8.2.3 8.2.4 8.3 8.3.1 8.3.2 8.3.3 8.4 8.5 8.6 8.7 固定效应模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 随机效应模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 假设检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . STATA 实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 异方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 序列相关 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 方差形式未知时的稳健性估计 . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 7 10 13 25 25 29 33 33 33 33 33
8.2
静态面板数据模型
我们一般所说的静态面板数据模型,是指解释变量中不包含被解释变量的滞后项 (通常为 一阶滞后项) 的情形。但严格地讲,随机干扰项服从某种序列相关的模型,如 AR(1), AR(2), MA(1) 等,也不是 静态模型。动态模型和静态模型在处理方法上往往有较大的差异。本节中我 们重点介绍两种最为常用 的静态模型 — 固定效应模型和随机效应模型。 考虑如下模型: yit u it = xit β + u it = ai + εit (8-1)
1 如宁夏属于回族自治区,那里的回民因为信仰伊斯兰教,所以不允许饮酒的,而生活 在宁夏的许多汉民也往往
因为自己的回民朋友无法饮酒而无形中减少了啤酒的消费量。
2 如中国南部地区啤酒的消费量比较大,而北方很多地区只有在夏天才会饮用 较多的啤酒,冬天他们一般是只喝
白酒的。
1
8.2 静态面板数据模型
2
其中, i = 1, 2, · · · , N , t = 1, 2, · · · , T ;xit 为 K × 1 列向量, K 为解释变量的个 数,β 为 K × 1 系数列向量。 对于特定的个体 i 而言, ai 表示那些不随时间改变的影响因素,而这些因 素在多数情况下都是无法 直接观测或难以量化的,如个人的消费习惯、国家的社会制度等,我 们一般称其为“个体效应” (individual effects)。对“个体效应”的处理主要有两种方式:一种 是视其为不随时间改变的固定性因素, 相应的模型称为“固定效应”模型;另一种是视其为随 机因素,相应的模型称为“随机效应”模型。 这两种模型的差异主要反映在对“个体效应”的处理上。 固定效应模型中的个体差异反映 在每个个体都有一个特定的截距项 上;随机效应模型则假设所有的个体具有相同的截距项,个 体的差异主要反应在 随机干扰项的设定上,因此该模型通常也称为“误差成分模型”。基于 此,一种常见的观点认为,当我们 的样本来自一个较小的母体时,我们应该使用固定效应模 型,而当样本来自一个很大的母体时,应当采用 随机效应模型。比如在研究中国地区经济增长 的过程中,我们以全国 28 个省区为研究对象,可以认为这 28 个省区几乎代表了整个母体。同 时也可以假设在样本区间内,各省区的经济结构、人口素质等不可 观测的特质性因素是固定不 变的,因此采用固定效应模型是比较合适的。而当我们研究西安市居民的消费 行为时,即使样 本数为 10000 人,相对于西安市 600 万人口的母体而言仍然是个很小的样本。此时,可以 认为 不同的居民在个人能力、消费习惯等方面的差异是随机的,此时采用随机效应模型较为合适。 遗憾的是,很多情况下,我们并不能明确地区分我们的样本来自一个较大母体还是较小的 母体。因此有些 学者认为,区分固定效应模型和随机效应模型应当看使用二者的假设条件是否 满足。由于随机效应模型 把个体效应设定为干扰项的一部分,所以就要求解释变量与个体效应 不相关,而固定效应模型并不需要这个 假设条件。因此,如果我们的检验结果表明该假设满 足,那么就应该采用随机效应模型,因为它更为有效, 反之,就需要采用固定效应模型。 另外,有些学者认为具体采用哪一种模型主要决定于我们的分析目的。如果主要目的在于 估计模型的参数 ,而模型中个体的数目又不是很大,采用固定效应模型是个不错的选择,因 为它非常容易估计。 但当我们需要对模型的误差成分进行分析时 (通常分解为长期效果和短期 效果) ,就只能采用随机效应模型。 在这种情况下,即使模型中的部分解释变量与个体效应相 关,我们仍然可以通过工具变量法对模型进行估计。 简言之,两种模型有各自的优缺点和适用范围,在实证分析的过程中,我们一方面要根 据分析的目的选择 合适的模型,同时也要以 8.2.3 节中介绍的假设检验方法为基础进行模型筛 选。
相关文档
最新文档