第16章:面板数据回归模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
暨南大学经济学院统计系 陈文静 2
如表1-1所示,表中列出了1990年和1991年 美国50个州的鸡蛋产量和鸡蛋价格。 对于给定的年份,则鸡蛋产量和鸡蛋价格数 据则代表着一个横截面样本。 对于给定的一个州,则可以得出关于鸡蛋产 量和价格的两个时间序列观测。 由横截面和时间序列样本联合就构成了面板 数据。
暨南大学经济学院统计系 陈文静 14
表
中国城乡居民消费——收入统计数据
城镇居民人均消费性支出(元, 1980年不变价) 农村居民人均纯收入(元,1980 年不变价) 农村居民人均消费性支出(元, 1980年不变价)
城镇居民人均可支配收入(元, 1980年不变价) 年度
1980 1981 1982 1983 1984 1985 1986 1987 1988 1989
暨南大学经济学院统计系 陈文静 26
独立混合横截面数据—注释
独立混合横截面数据的特征:都是由独立抽 取的观测值构成的,这排除了在不同的观测 中误差项有相关关系。 在不同时点上对总体进行随机抽样很可能导 致观测点不是同分布的情形。比如,随着时 间的流逝,大多数国家的工资和学历的分布 已经改变,此时,可以容许截距或斜率随时 间改变。
暨南大学经济学院统计系
陈文静
16
为什么使用面板数据?
(3)有助于提供动态分析的可靠性。 基于单个个体的时间序列数据进行动态分析, 一方面会受到采样区间的限制,另一方面其 研究结论也缺乏普适性。而基于面板数据, 则可以在较短的采样区间内反映多个个体共 同的动态变化特征,从而弱化样本区间的制 约得到更为可靠的分析结论。 如失业的动态变化、劳动力的流动,职业的 变换等研究采用面板数据研究的结论更可靠。
暨南大学经济学院统计系 2311.414
2440.815
陈文静 957.2960
1033.528
15
为什么使用面板数据?
(2).研究不同个体的异质性 将i取作不同的个人、厂商、省市以至于不同 的国家(称为不同的个体),这些不同的个体 具有异质性,如不同的消费倾向或偏好等, 面板数据将这些不同的个体的时间序列数据 组合在一起,通过对不同的个体设定相应的 变量,从而使基于面板数据模型可以用于研 究这些不同个体的异质性。
1999
2000 2001 2002 2003 2004 2005 2006 2007 2008
1580.370
1697.066 1838.988 2073.334 2244.518 2381.721 2595.461 2865.624 3187.472 3425.993
1246.127
1350.631 1423.288 1623.040 1724.927 1815.587 1964.684 2119.328
第16章 面板数据回归模型
暨南大学经济学院统计学系 陈文静
我们在前面所讨论的模型,从数据的角度看, 所使用的数据有时间序列数据,或者是横截面 数据,将时间序列数据和横截面数据混合,就 构成所谓面版(panel data)数据。 简言之,将所考察的不同的观测对象(横截单 位)的时间序列数据进行混合,构成的数据即 为面版数据,换言之,综列数据有空间和时间 维。
1990
1991 1992 1993 1994 1995 1996 1997 1998
776.3929
854.6437 972.7568 1088.072 1196.071 1246.998 1305.714 1358.477 1442.614
657.4940
730.6184 802.4212 891.0969 975.4604 1029.978 1057.618 1101.893 1151.836
暨南大学经济学院统计系
陈文静
11
为什么使用面板数据?
与时间序列数据或横截面数据相比较,基于
面板数据的研究具有很多优势,有以下几点:
暨南大学经济学院统计系
陈文静
12
为什么使用面板数据?
(1)扩大信息量,增加估计和检验统计量 的自由度。 面板数据是二维数据,它既包含同一观测个 体随时间的变化,也包含同一时间不同个体 之间的差异。这显著扩大了样本的信息量和 样本容量,有助于提高参数估计的精度和检 验结论的可靠性。
总之,与时间序列模型和横截面模型相比较, 综列模型可以丰富实证分析的内容,拓宽分 析的框架,但是面版模型所需要的数学知识 更多、更复杂,而且目前仍有大量的问题有 待研究。 以上的优势在以后的学习和文献阅读以及个 人的研究实践中将不断予以体现和加深理解。
暨南大学经济学院统计系
陈文静
24
面板数据模型
暨南大学经济学院统计系 陈文静 17
提供更多个体动态行为的信息。 面板数据有横截面和时间两个维度,有时 可以解决单独的横截面数据或时间序列数据 所不能解决的问题。
例如:如何区分规模效应与技术进步对企业生 产效率的影响? 对于截面数据,没有时间维度,无法观测 到技术进步;对于单个时间序列数据,无法 区分其生产效率的提高究竟有多少是由于规 模扩大,有多少是由于技术进步。
暨南大学经济学院统计系 陈文静 18
提供更多个体动态行为的信息 例如,对于失业问题,截面数据能告诉 我们在某个时点上哪些人失业,而时间序列 数据能告诉我们某个人就业与失业的历史, 但这两种数据均无法告诉我们是否失业的总 是同一批人(意味着低流转率,low turnover rate),还是失业的人群总在变动 (意味着高流转率,high turnover rate) 面板数据可能解决此类问题
陈文静
22
为什么使用面板数据?
(7)解决遗漏变量问题 在计量经济建模过程中,遗漏变量偏差是 一个普遍存在的问题,遗漏变量常常是不可 观测的个体差异或“异质性”造成的,如果 这种个体差异“不随时间而改变”,则面板 数据提供了解决遗漏变量的方法。
暨南大学经济学院统计系
陈文静
23
为什么使用面板数据?
352.8409
356.1099 376.3157 389.0615 417.7114 459.3653 519.7328 550.2303 574.9075
300.5505
311.4781 316.4172 324.9145 347.8568 381.5282 424.2052 425.7236 422.8841
在面板模型中,如果解释变量包含被解释变 量的滞后值,称为“动态面板”(dynamic panel)。
本章主要讲解的是静态面板模型
暨南大学经济学院统计系
陈文静
25
独立混合横截面数据—注释
独立混合横截面数据:在不同时点(经常但 不一定是不同的年份)从一个大的总体里进 行随机抽样的结果。 例如:每年从在职的工作人员总体里随机抽 取一个关于小时工资、学历、工作经验等的 随机样本。 例如,每年在不同大中小城市出售的住房中 随机抽取一个关于房价、面积、居住地等的 随机样本。
477.6000 488.1951 512.0038 529.4399 595.4147 627.1859 720.5337 754.6824 756.4338 738.1251
412.4400 445.6976 450.5022 474.4142 510.8094 571.2644 639.0028 666.0424 707.5816 650.5806
暨南大学经济学院统计系
陈文静
6
暨南大学经济学院统计系
陈文静
7
暨南大学经济学院统计系
陈文静
8
暨南大学经济学院统计系
陈文静
9
面板数据:同时具有空间纬度和时间纬度
暨南大学经济学院统计系
陈文静
10
面板数据—分类
面板数据中,个体n较大,观测的T较小,则称 为“短面板”(short panel); 面板数据中,个体n较小,观测的T较大,则称 为“长面板”(long panel); 在面板数据中,每个时期在样本中的个体时间 维度完全一样,则称为“平衡(balanced)面 板数据” ;反之,称为“非平衡面板”
暨南大学经济学院统计系 陈文静 20
为什么使用面板数据?
(5)面板数据模型有助于反映经济体的结 构性特征。
与总量数据相比,面板数据提供了更具微观层次的信息。 对很多经济问题的分析而言,某些变量涉及不同观测个 体之间的相互关系,例如资本和劳动在区域和产业之间 的流动,技术的溢出,通胀的相互影响等。使用面板数 据使得这些结构性变化信息的分析成为可能。 可以用于研究更为复杂的行为模型,如不同企业的规模 和技术进步。显然,用所有企业加总的时间序列或某个 时点的横截面数据不可能考察不同企业技术变化的行为。
暨南大学经济学院统计系
陈文静
3wk.baidu.com
暨南大学经济学院统计系
陈文静
4
如随机抽样100位暨南大学经济学院学生作为 研究的样本,研究学生的收入 X 和消费 Y 的关系,调查每一位同学大学4年X和Y的数 据,即有Yit 和X it,故有i 1, 2, 100, t 1, 2,3, 4。进一步,有 X11 Y11 X 21 Y21 X13 X13 X14 Y13 Y13 Y14 X 24 X 24 X 24 Y24 Y24 Y24
191.3000 217.9512 258.3453 290.5074 324.4147 337.3956 338.9523 348.3845 349.2465 323.1547
162.2100 186.1561 210.6456 232.8279 249.9993 269.3564 285.4862 299.9526 305.5090 287.6265
暨南大学经济学院统计系
陈文静
13
例如:在研究居民消费的例子中,我们若将 居民分为城镇和农村居民来分别考察其不同 的消费特征以及收入对消费的影响效应。如 果我们基于居民的时间序列数据进行分析, 样本容量为29。而基于城镇和农村的面板数 据,样本容量则为58,如果基于省市区的面 板数据,样本容量将更大,模型估计量和检 验统计量的自由度显著增加。更重要的是, 基于总量数据进行分析,无法反映两种居民 之间的差异性,其数据信息对于两种居民都 有显著的偏差。
596.7017
608.9515 634.4073 666.3562 694.7034 742.3025 805.1296 874.1382
425.8414
451.3265 466.7709 493.7344 514.8335 552.2650 632.0824 689.4214 745.4237 794.7323
暨南大学经济学院统计系
X1001 X1002 X1003 X1004
陈文静
Y1001 Y1002 Y1003 Y1004
5
即为面板数据。
若将全体同学(或样本即100个同学)的收 入和消费加总,即构成总量时间序列数据, 与时间序列数据相比较,这里是对样本中每 一个(同学)横截单位, 记录4年的收入与消 费的数据。 基于面版数据的回归模型即为面版回归模型。
暨南大学经济学院统计系
陈文静
19
为什么使用面板数据?
(4)有助于反映经济结构、经济制度的渐 进性变化。
对于所考察的经济体系而言,经济结构和经济 制度的变化通常是渐进性的,我们很难找到一 个量化的指标来反映这种渐进性变化。幸运的 是,使用面板数据时,时间效应是被解释变量 变化中不随个体变化而只随时间变化的部分, 它反映了所有个体所面对的共同因素的影响。 所以,时间效应是对经济结构和经济制度渐变 效应的一个很好的度量指标。
暨南大学经济学院统计系 陈文静 21
为什么使用面板数据?
(6)面板数据能将估计的偏差降低,推断 的结论更为可靠。 如前分析,面板数据由于样本数据的增多, 大大提高了估计的精度,降低了由于采用总 量数据研究偏差,从而使结论更加可靠。 总之,使用面版数据可以避免源于加总的误差 或使其最小。
暨南大学经济学院统计系
暨南大学经济学院统计系 陈文静 27
跨时独立混合横截面数据
许多关于个人、家庭和厂商的调查,每隔一 段时间,常常是每隔一年,重复进行一次。 比如:美国的当前人口调查(current population survey,CPS),它每年都对家庭 随机地抽取一次。 使用混合横截面,加大样本容量,获取更精 密的估计量和更有效的检验统计量。 注:仅当因变量和某些自变量保持着不随时 间而变的关系时,混合才会是有用的。
如表1-1所示,表中列出了1990年和1991年 美国50个州的鸡蛋产量和鸡蛋价格。 对于给定的年份,则鸡蛋产量和鸡蛋价格数 据则代表着一个横截面样本。 对于给定的一个州,则可以得出关于鸡蛋产 量和价格的两个时间序列观测。 由横截面和时间序列样本联合就构成了面板 数据。
暨南大学经济学院统计系 陈文静 14
表
中国城乡居民消费——收入统计数据
城镇居民人均消费性支出(元, 1980年不变价) 农村居民人均纯收入(元,1980 年不变价) 农村居民人均消费性支出(元, 1980年不变价)
城镇居民人均可支配收入(元, 1980年不变价) 年度
1980 1981 1982 1983 1984 1985 1986 1987 1988 1989
暨南大学经济学院统计系 陈文静 26
独立混合横截面数据—注释
独立混合横截面数据的特征:都是由独立抽 取的观测值构成的,这排除了在不同的观测 中误差项有相关关系。 在不同时点上对总体进行随机抽样很可能导 致观测点不是同分布的情形。比如,随着时 间的流逝,大多数国家的工资和学历的分布 已经改变,此时,可以容许截距或斜率随时 间改变。
暨南大学经济学院统计系
陈文静
16
为什么使用面板数据?
(3)有助于提供动态分析的可靠性。 基于单个个体的时间序列数据进行动态分析, 一方面会受到采样区间的限制,另一方面其 研究结论也缺乏普适性。而基于面板数据, 则可以在较短的采样区间内反映多个个体共 同的动态变化特征,从而弱化样本区间的制 约得到更为可靠的分析结论。 如失业的动态变化、劳动力的流动,职业的 变换等研究采用面板数据研究的结论更可靠。
暨南大学经济学院统计系 2311.414
2440.815
陈文静 957.2960
1033.528
15
为什么使用面板数据?
(2).研究不同个体的异质性 将i取作不同的个人、厂商、省市以至于不同 的国家(称为不同的个体),这些不同的个体 具有异质性,如不同的消费倾向或偏好等, 面板数据将这些不同的个体的时间序列数据 组合在一起,通过对不同的个体设定相应的 变量,从而使基于面板数据模型可以用于研 究这些不同个体的异质性。
1999
2000 2001 2002 2003 2004 2005 2006 2007 2008
1580.370
1697.066 1838.988 2073.334 2244.518 2381.721 2595.461 2865.624 3187.472 3425.993
1246.127
1350.631 1423.288 1623.040 1724.927 1815.587 1964.684 2119.328
第16章 面板数据回归模型
暨南大学经济学院统计学系 陈文静
我们在前面所讨论的模型,从数据的角度看, 所使用的数据有时间序列数据,或者是横截面 数据,将时间序列数据和横截面数据混合,就 构成所谓面版(panel data)数据。 简言之,将所考察的不同的观测对象(横截单 位)的时间序列数据进行混合,构成的数据即 为面版数据,换言之,综列数据有空间和时间 维。
1990
1991 1992 1993 1994 1995 1996 1997 1998
776.3929
854.6437 972.7568 1088.072 1196.071 1246.998 1305.714 1358.477 1442.614
657.4940
730.6184 802.4212 891.0969 975.4604 1029.978 1057.618 1101.893 1151.836
暨南大学经济学院统计系
陈文静
11
为什么使用面板数据?
与时间序列数据或横截面数据相比较,基于
面板数据的研究具有很多优势,有以下几点:
暨南大学经济学院统计系
陈文静
12
为什么使用面板数据?
(1)扩大信息量,增加估计和检验统计量 的自由度。 面板数据是二维数据,它既包含同一观测个 体随时间的变化,也包含同一时间不同个体 之间的差异。这显著扩大了样本的信息量和 样本容量,有助于提高参数估计的精度和检 验结论的可靠性。
总之,与时间序列模型和横截面模型相比较, 综列模型可以丰富实证分析的内容,拓宽分 析的框架,但是面版模型所需要的数学知识 更多、更复杂,而且目前仍有大量的问题有 待研究。 以上的优势在以后的学习和文献阅读以及个 人的研究实践中将不断予以体现和加深理解。
暨南大学经济学院统计系
陈文静
24
面板数据模型
暨南大学经济学院统计系 陈文静 17
提供更多个体动态行为的信息。 面板数据有横截面和时间两个维度,有时 可以解决单独的横截面数据或时间序列数据 所不能解决的问题。
例如:如何区分规模效应与技术进步对企业生 产效率的影响? 对于截面数据,没有时间维度,无法观测 到技术进步;对于单个时间序列数据,无法 区分其生产效率的提高究竟有多少是由于规 模扩大,有多少是由于技术进步。
暨南大学经济学院统计系 陈文静 18
提供更多个体动态行为的信息 例如,对于失业问题,截面数据能告诉 我们在某个时点上哪些人失业,而时间序列 数据能告诉我们某个人就业与失业的历史, 但这两种数据均无法告诉我们是否失业的总 是同一批人(意味着低流转率,low turnover rate),还是失业的人群总在变动 (意味着高流转率,high turnover rate) 面板数据可能解决此类问题
陈文静
22
为什么使用面板数据?
(7)解决遗漏变量问题 在计量经济建模过程中,遗漏变量偏差是 一个普遍存在的问题,遗漏变量常常是不可 观测的个体差异或“异质性”造成的,如果 这种个体差异“不随时间而改变”,则面板 数据提供了解决遗漏变量的方法。
暨南大学经济学院统计系
陈文静
23
为什么使用面板数据?
352.8409
356.1099 376.3157 389.0615 417.7114 459.3653 519.7328 550.2303 574.9075
300.5505
311.4781 316.4172 324.9145 347.8568 381.5282 424.2052 425.7236 422.8841
在面板模型中,如果解释变量包含被解释变 量的滞后值,称为“动态面板”(dynamic panel)。
本章主要讲解的是静态面板模型
暨南大学经济学院统计系
陈文静
25
独立混合横截面数据—注释
独立混合横截面数据:在不同时点(经常但 不一定是不同的年份)从一个大的总体里进 行随机抽样的结果。 例如:每年从在职的工作人员总体里随机抽 取一个关于小时工资、学历、工作经验等的 随机样本。 例如,每年在不同大中小城市出售的住房中 随机抽取一个关于房价、面积、居住地等的 随机样本。
477.6000 488.1951 512.0038 529.4399 595.4147 627.1859 720.5337 754.6824 756.4338 738.1251
412.4400 445.6976 450.5022 474.4142 510.8094 571.2644 639.0028 666.0424 707.5816 650.5806
暨南大学经济学院统计系
陈文静
6
暨南大学经济学院统计系
陈文静
7
暨南大学经济学院统计系
陈文静
8
暨南大学经济学院统计系
陈文静
9
面板数据:同时具有空间纬度和时间纬度
暨南大学经济学院统计系
陈文静
10
面板数据—分类
面板数据中,个体n较大,观测的T较小,则称 为“短面板”(short panel); 面板数据中,个体n较小,观测的T较大,则称 为“长面板”(long panel); 在面板数据中,每个时期在样本中的个体时间 维度完全一样,则称为“平衡(balanced)面 板数据” ;反之,称为“非平衡面板”
暨南大学经济学院统计系 陈文静 20
为什么使用面板数据?
(5)面板数据模型有助于反映经济体的结 构性特征。
与总量数据相比,面板数据提供了更具微观层次的信息。 对很多经济问题的分析而言,某些变量涉及不同观测个 体之间的相互关系,例如资本和劳动在区域和产业之间 的流动,技术的溢出,通胀的相互影响等。使用面板数 据使得这些结构性变化信息的分析成为可能。 可以用于研究更为复杂的行为模型,如不同企业的规模 和技术进步。显然,用所有企业加总的时间序列或某个 时点的横截面数据不可能考察不同企业技术变化的行为。
暨南大学经济学院统计系
陈文静
3wk.baidu.com
暨南大学经济学院统计系
陈文静
4
如随机抽样100位暨南大学经济学院学生作为 研究的样本,研究学生的收入 X 和消费 Y 的关系,调查每一位同学大学4年X和Y的数 据,即有Yit 和X it,故有i 1, 2, 100, t 1, 2,3, 4。进一步,有 X11 Y11 X 21 Y21 X13 X13 X14 Y13 Y13 Y14 X 24 X 24 X 24 Y24 Y24 Y24
191.3000 217.9512 258.3453 290.5074 324.4147 337.3956 338.9523 348.3845 349.2465 323.1547
162.2100 186.1561 210.6456 232.8279 249.9993 269.3564 285.4862 299.9526 305.5090 287.6265
暨南大学经济学院统计系
陈文静
13
例如:在研究居民消费的例子中,我们若将 居民分为城镇和农村居民来分别考察其不同 的消费特征以及收入对消费的影响效应。如 果我们基于居民的时间序列数据进行分析, 样本容量为29。而基于城镇和农村的面板数 据,样本容量则为58,如果基于省市区的面 板数据,样本容量将更大,模型估计量和检 验统计量的自由度显著增加。更重要的是, 基于总量数据进行分析,无法反映两种居民 之间的差异性,其数据信息对于两种居民都 有显著的偏差。
596.7017
608.9515 634.4073 666.3562 694.7034 742.3025 805.1296 874.1382
425.8414
451.3265 466.7709 493.7344 514.8335 552.2650 632.0824 689.4214 745.4237 794.7323
暨南大学经济学院统计系
X1001 X1002 X1003 X1004
陈文静
Y1001 Y1002 Y1003 Y1004
5
即为面板数据。
若将全体同学(或样本即100个同学)的收 入和消费加总,即构成总量时间序列数据, 与时间序列数据相比较,这里是对样本中每 一个(同学)横截单位, 记录4年的收入与消 费的数据。 基于面版数据的回归模型即为面版回归模型。
暨南大学经济学院统计系
陈文静
19
为什么使用面板数据?
(4)有助于反映经济结构、经济制度的渐 进性变化。
对于所考察的经济体系而言,经济结构和经济 制度的变化通常是渐进性的,我们很难找到一 个量化的指标来反映这种渐进性变化。幸运的 是,使用面板数据时,时间效应是被解释变量 变化中不随个体变化而只随时间变化的部分, 它反映了所有个体所面对的共同因素的影响。 所以,时间效应是对经济结构和经济制度渐变 效应的一个很好的度量指标。
暨南大学经济学院统计系 陈文静 21
为什么使用面板数据?
(6)面板数据能将估计的偏差降低,推断 的结论更为可靠。 如前分析,面板数据由于样本数据的增多, 大大提高了估计的精度,降低了由于采用总 量数据研究偏差,从而使结论更加可靠。 总之,使用面版数据可以避免源于加总的误差 或使其最小。
暨南大学经济学院统计系
暨南大学经济学院统计系 陈文静 27
跨时独立混合横截面数据
许多关于个人、家庭和厂商的调查,每隔一 段时间,常常是每隔一年,重复进行一次。 比如:美国的当前人口调查(current population survey,CPS),它每年都对家庭 随机地抽取一次。 使用混合横截面,加大样本容量,获取更精 密的估计量和更有效的检验统计量。 注:仅当因变量和某些自变量保持着不随时 间而变的关系时,混合才会是有用的。