【信息化-精编】面板数据相关讲义
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
面板数据相关讲义
面板数据I——变截距模型
1.1PooledCrossSection数据
Pooledcrosssection数据是指不同时点(可能)不同截面的数据。而面板数据是指不同时点相同截面的数据。在面板数据中,同一截面不同时点的观测值不会是独立的。因为,这些数值可能受到共同因素的影响。Paneldata也叫做longitudinaldata。
混合数据增加了样本容量,因此提高了估计的精度和检验功效。同时,混合数据也被用于考察变量分布随着时间的变化,或者变量之间的关系随着时间的变化规律。考察的方法是加入时间虚拟变量。
例:NationalOpinionResearchCenter’sGeneralSocialSurvey搜集了1972~1984年妇女就业、家庭等相关数据。利用数据分析家庭小孩个数的变化规律。控制变量包括:教育程度、年龄、种族、地区、生活环境(农村、城镇、小城市等)。(数据文件:fertil1.raw)kids=β0+β1educ+β2age+β3age2+β4race+β5farm+β6town
+β7D74+β8D76+β9D78+β10D80+β11D82+β12D84+u t
例:接受教育程度对工资的影响以及工资的性别差异(;datafile:cps78_85.raw)
模型设定:
log(wage)=β0+β1y85+β2educ+β3y85 educ+β4exper+β5union
+β6female+β7y85female+u t
模型估计:
结论分析:
例:废物焚化厂对周边房屋价格的影响(;datafile:kielmc.raw)
KielandMcClain(1995)研究了废物焚化厂对周边(NorthAndover,Massachusetts)房屋价格的影响。1978年有消息流传要在NorthAndover建立废物焚化厂,1981年正式动工(1985年正式运营)。利用1978年、1981年的房屋价格数据检验:废物焚化厂周边的房屋价格低于远处的房屋价格。房屋价格为实际价格(排除物价指数的影响)。
要分析废物焚化厂对周边房屋价格的影响,不能简单回归如下模型:
rprice=β0+β1nearinc+u,
比如利用1981年的数据进行回归,那么β1体现了81年近处价格与远处价格的差异,但β1没有体现焚化厂对近处房屋价格的影响。因此,要分析焚化厂对近处房屋价格的影响,应该观察近处与远处的房屋价格在1981的差异年是否比1978年的差异有了明显的变化。方程设定如下:
rprice=β0+β1y81+β2nearinc+β3(y81 nearinc)+u,
其中,nearinc为0-1虚拟变量。
y81=0,nearinc=0,rprice=β0+u。因此,β0体现了1978年远处的房屋平均价格。
y81=0,nearinc=1,rprice=β0+β2+u。因此,(β0+β2)体现了1978年近处的房屋价格,β2体现了1978年近处房屋价格与远处房屋价格的差异。
y81=1,nearinc=0,rprice=β0+β1+u。(β0+β1)体现了1981年远处的房屋价格,β1体现了远处房屋价格在81年与78年的差异。
y81=1,nearinc=1,rprice=β0+β1+β2+β3+u。(β0+β1+β2+β3)体现了1981年近处的房屋价格,(β2+β3)体现了1981年近处与远处的房屋价格差异。
这样可以清晰地看出,β3体现了近处与远处的房屋价格在1981的差异年是否比1978
年的差异。问题就归结于检验β3的显著性。
练习题:
1.回归方程,进行检验并解释其含义。
Log(rprice)=β0+β1y81+β2nearinc+β3(y81 nearinc)+u
2.加入其它控制变量(房龄、距市中心距离、卧室数目等)重新回归方程进行检验。
1.2面板数据定义
时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据是同时在时间和截面上取得的二维数据。所以,面板数据(paneldata)也称时间序列截面数据(timeseriesandcrosssectiondata)或混合数据(pooldata)。面板数据示意图见图1。面板数据从横截面(crosssection)上看,是由若干个体(entity,unit,individual)在某一时期构成的截面观测值,从纵剖面(longitudinalsection)上看每个个体都是一个时间序列。
面板数据用双下标变量表示。例如
y it,i=1,2,…,N;t=1,2,…,T
N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i.,(i=1,2,…,N)是横截面上的N个随机变量;若固定i不变,y.t,(t=1,2,…,T)是纵剖面上的一个时间序列(个体)。
例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。
对于面板数据y it,i=1,2,…,N;t=1,2,…,T,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,或者每个个体的观测值个数是相同的,则称此面板数据为平衡面板数据(balancedpaneldata)。若在面板数据中缺失若干个观测值,则称此面板数据为非平衡面板数据(unbalancedpaneldata)。
例1:1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1和表2。数据是7年的,每一年都有15个数据,共105组观测值。
人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。
表11999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据(不变价格)
地区人均消费1996 1997 1998 1999 2000 2001 2002
CP-AH(安徽)3282.466 3646.150 3777.410 3989.581 4203.555 4495.174 4784.364 CP-BJ(北京)5133.978 6203.048 6807.451 7453.757 8206.271 8654.433 10473.12 CP-FJ(福建)4011.775 4853.441 5197.041 5314.521 5522.762 6094.336 6665.005 CP-HB(河北)3197.339 3868.319 3896.778 4104.281 4361.555 4457.463 5120.485 CP-HLJ(黑龙江)2904.687 3077.989 3289.990 3596.839 3890.580 4159.087 4493.535 CP-JL(吉林)2833.321 3286.432 3477.560 3736.408 4077.961 4281.560 4998.874 CP-JS(江苏)3712.260 4457.788 4918.944 5076.910 5317.862 5488.829 6091.331 CP-JX(江西)2714.124 3136.873 3234.465 3531.775 3612.722 3914.080 4544.775 CP-LN(辽宁)3237.275 3608.060 3918.167 4046.582 4360.420 4654.420 5402.063 CP-NMG(内蒙古) 2572.342 2901.722 3127.633 3475.942 3877.345 4170.596 4850.180 CP-SD(山东)3440.684 3930.574 4168.974 4546.878 5011.976 5159.538 5635.770 CP-SH(上海)6193.333 6634.183 6866.410 8125.803 8651.893 9336.100 10411.94 CP-SX(山西)2813.336 3131.629 3314.097 3507.008 3793.908 4131.273 4787.561