面板数据与STATA

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 面板数据模型的误差项由两部分组成:
i uit
• 一部分是与个体观察单位有关的,它概括了所有影响 被解释变量,但不随时间变化的因素,因此,面板数 据模型也常常被成为非观测效应模型; • 另外一部分概括了随截面随时间而变化的不可观测因 素,通常被成为特异性误差或特异扰动项
GDP
北京
江苏
估计结果
Source Model Residual Total gdp invest culture sci _cons
SS 277.493418 44.1514867 321.644904 Coef. -.1601206 .7163308 .5570057 5.392943
df 3 275 278
xit i uit
• RE认为个体的差异是随机的,其中
• 非观测的个体差异效应 i 与随机扰动项一样都是随 机变量
• 总结:如果把非观测效应看做是各个截面或个体特有 的可估计参数,并且不随时间而变化,则模型为固定 效应模型;
• 如果把非观测效应看作随机变量,并且符合一个特定 的分布,则模型为随机效应模型
四、stata软件简介
• STATA软件估计与应用:
• 打开数据库: • use "E:\Program Files\Stata10.0绿色软件\Stata10\东 部.dta“ • 或者重新输入数据:edit • 相关系数:cor gdp invest edu sci health • 简单回归:regress gdp invest culture sci • 无常数:regress gdp invest culture sci,noconstant
• 其中, i=1,2,3...N,截面标示; t=1,2,... T,时间标示 ;xit 为k×1解释变量,β为k×1系数列向量
• 对于特定的个体i 而言, ai表示那些不随时间改变的影响 因素,而这些因素在多数情况下都是无法直接观测或难以 量化的,如个人的消费习惯、地区的经济结构,法律和产 权制度等,一般称其为“个体效应” (individual effects)
• 例如,在研究中国地区经济增长的过程中,以全国28 个省区为研究对象,可以认为这28 个省区几乎代表 了整个总体
• 同时假设在样本区间内,各省区的
• 经济结构 • 人口素质 • 等不可观测的特质性因素是固定不变的,因此采用固 定效应模型是比较合适的
随机效应模型
• 2、而当我们研究某个县市居民的消费行为时,由于 样本数相对于江苏省几千万人口是个很小的样本,此 时,可以认为个体居民在个人能力、消费习惯等方面 的差异是随机的,采用随机效应模型较为合适 • 随机效应模型:yit
4203.555
8206.271 5522.762 4361.555 3890.580 4077.961 5317.862 3612.722 4360.420
4495.174
8654.433 6094.336 4457.463 4159.087 4281.560 5488.829 3914.080 4654.420
= = = = = =
279 576.13 0.0000 0.8627 0.8612 .40069
Std. Err. .0491087 .0613741 .0510007 .4420519
[95% Conf. Interval] -.2567974 .595508 .4566044 4.522707 -.0634438 .8371536 .6574071 6.263179
表1 1996-2002年中国东北、华北、华东15个省 级地区的居民家庭人均消费数据(不变价格)
地区人均消费 1996 1997 1998 1999 2000 2001 2002
CP-AH(安徽)
CP-BJ(北京) CP-FJ(福建) CP-HB(河北) CP-HLJ(黑龙江) CP-JL(吉林) CP-JS(江苏) CP-JX(江西) CP-LN(辽宁)
3282.466
5133.978 4011.775 3197.339 2904.687 2833.321 3712.260 2714.124 3237.275
3646.150
6203.048 4853.441 3868.319 3077.989 3286.432 4457.788 3136.873 3608.060
• 3、在实证分析中,一般通过hausman检验判断:由
于随机效应模型把个体效应设定为干扰项的一部分, 所以就要求解释变量与个体效应不相关,而固定效应 模型并不需要这个假设条件 • 因此,我们可以通过检验该假设条件是否满足,如果 满足,那么就应该采用随机效应模型,反之,就需要 采用固定效应模型
• Hausman检验的基本思想是:在固定效应u_i和其他 解释变数不相关的原假设下,用OLS估计的固定效应 模型和用GLS估计的随机效应模型的参数估计都是一 致的。反之,OLS是一致的,但GLS则不是 • 因此,在原假设下,二者的参数估计应该不会有系统 的差异,我们可以基于二者参数估计的差异构造统计 检验量。如果拒绝了原假设,我们就认为选择固定效 应模型是比较合适的。
• FE(Fixed Effects) Model
yit i xit uit (Replace with dummy variables)
• RE (Random Effects) Model
yit xit i uit
• 其中,i 是截距中的随机变量部分,代表个体的随机 影响
回归诊断:
• 是否存在异方差:estat
• • • • •
hettest 怀特检验: estat imtest,white 回归信息检验:estat imtest 是否遗漏重要解释变量:estat ovtest 拟合图: rvfplot 单一变量的相关图:cprplot invest
画图
• 菜单与命令结合 • twoway (scatter gdp invest) • twoway (scatter gdp invest||lfit gdp invest)
3877.345
5011.976 8651.893 3793.908 6145.622 6950.713
4170.596
5159.538 9336.100 4131.273 6904.368 7968.327
4850.180
5635.770 10411.94 4787.561 7220.843 8792.210
• Durbin-Watson 统计量:estat •
面板数据模型与stata软件的应用
• • • • • 一、什么是面板数据 二、面板数据模型的优势 三、面板模型的估计方法:FE和RE 四、stata软件简介 五、如何用stata估计面板模型:案例分析
一、面板数据类型
• 时间维度+截面维度 • 如我们在分析中国各省份的经济增长时,共有31个截 面,每个截面都取1979-1998共20年的数据,共有 620个观察值,这是一个典型的平行面板数据 • 上市公司财务数据,研究一段时期内(1998-2008) 上市公司股利的发放数额与股票账面价值之间的关系, 共有20 ×11=220个观测值 • 强调经济理论基础、强调微观行为基础
北京
江苏省
山西
山西省
基础设施更加完善,受教育程度 较好、经济结构以服务业为主、 法制更健全
X(Invest、edu)
面板模型选择:固定效应还是随机效应
• 对“个体效应”的处理主要有两种方式:一种是视其为不 随时间改变的固定性因素, 相应的模型称为“固定效应” 模型;另一种是视其为随机因素,相应的模型称为“随机 效应”模型 • 固定效应模型中的个体差异反映在每个个体都有一个特定 的截距项上; • 随机效应模型则假设所有的个体具有相同的截距项,个体 的差异主要反应在随机干扰项的设定上
4784.364
10473.12 6665.005 5120.485 4493.535 4998.874 6091.331 4544.775 5402.063
CP-NMG(内蒙古) 2572.342
CP-SD(山东) CP-SH(上海) CP-SX(山西) CP-TJ(天津) CP-ZJ(浙江) 3440.684 6193.333 2813.336 4293.220 5342.234
3777.410
6807.451 5197.041 3896.778 3289.990 3477.560 4918.944 3234.465 3918.167
3989.581
7453.757 5314.521 4104.281 3596.839 3736.408 5076.910 3531.775 4046.582
sheng = 2/sheng = 17 sheng = 4/sheng = 19 sheng = 6/sheng = 21 sheng = 8/sheng = 23 sheng = 10/sheng = 25 sheng = 12/sheng = 27 sheng = 14/sheng = 29
各省教育支出的增长趋势:1998-2006
MS 92.4978059 .160550861 1.15699606 t -3.26 11.67 10.92 12.20 P>|t| 0.001 0.000 0.000 0.000
Number of obs F( 3, 275) Prob > F R-squared Adj R-squared Root MSE
举例
• • • • • • 交通死亡率与酒后驾车人数(一段时间内江苏省各市) 其他的非观测(潜在)因素:南京与苏州 汽车本身状况 道路质量 当地的饮酒文化 单位道路的车辆密度
• 非观测效应导致估计结果不准确,面板数据可以控制 和估计非观测效应
• 面板数据模型形式:
yit i xit uit
2901.722
3930.574 6634.183 3131.629 5047.672 6002.082
3127.633
4168.974 6866.410 3314.097 5498.503 6236.640
3475.942
4546.878 8125.803 3507.008 5916.613 6600.749
表2 上市公司的投资与股票账面价值:N=20,T=4
面板数据模型和stata软件应用
• 二、面板数据模型有以下几个优点: • 第一,Panel Data 模型可以通过设置虚拟变量对个别 差异(非观测效应)进行控制;
• 第二,Panel Data 模型通过对不同横截面单元不同时 间观察值的结合,增加了自由度,减少了解释变量之 间的共线性,从而改进了估计结果的有效性; • 第三,Panel Data模型是对同一截面单元集的重复观 察, 能更好地研究经济行为变化的动态性
固定效应模型
• 1、例如,在研究财政支出与经济增长的关系,运用全国 的时间序列数据来检验财政支出与经济增长的关系可能存 在设定误差并且受统计资料的制约,仅用时间序列资料不 能够满足大样本的要求 • 同时,由于我国不同地区的体制变革和财政政策的不断调 整,造成各个地区财政支出结构随时间而不断变化 • 面板数据(Panel Data )从某种程度上克服了这一困难。 考虑到中国各省份财政支出结构与经济增长的关系存在明 显的地区差异,从时间序列的角度,考虑各省差异的动态 性,是面板数据模型的优势
14
10
16
18
20
11
12 invest gdp
13 Fitted values
14
15
基本建设支出与GDP的相关关系图
edu
11
Βιβλιοθήκη Baidu12
13
14
15
1998
2000
2002 t
2004
2006
sheng = 1/sheng = 16/sheng = 31 sheng = 3/sheng = 18 sheng = 5/sheng = 20 sheng = 7/sheng = 22 sheng = 9/sheng = 24 sheng = 11/sheng = 26 sheng = 13/sheng = 28 sheng = 15/sheng = 30
相关文档
最新文档