面板数据、截面数据、时间序列数据

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

截面数据、时间序列数据、面板数据是最常见的三种样本数据形式，网上对于此类数据的介绍比较零散，我在此做一个汇总归纳，如有错误，欢迎指正，我在此只做简单介绍，并不涉及具体分析，特别是面板数据，分析比较复杂，有专门的书籍可以参阅。

一、截面数据（Cross Section data）

1.概念：

截面数据是指由同一时期、不同个体的一个或多个统计指标所组成的数据集。该数据强调同一时期，因此也称为静态数据，我们平时获取的样本数据，大都具有同期性，因此截面数据也是最常见的

样本数据。

例如：

2016年各省份人口

同一时期：2016年

不同个体：不同省份

一个统计指标：人口数

不同治疗方法的疼痛水平

这是一组常见的方差分析数据，

同一时期：此处虽然没有明确告知测量时间，一般是默认为同期测量或忽略时间效应，如果时间效应明确不能忽略，那么数据中要增加时间变量，此时就不再是截面数据了。

不同个体：不同的受试者

多个统计指标：此处有三个统计指标，其中包括两个分组测量，物理测试分为1组-拉伸锻炼，2组-力量锻炼，放松测试分为1组-肌肉放松，2组-意念引导，外加一个疼痛水平的测量数值。

2.分析方法

绝大多数统计分析方法都可以分析截面数据，可根据分析目的和截面数据类型做出选择，比如数据类型为连续型数据且为单个统计指标，可以使用描述性分析；数据类型为连续但是有多个统计指标，可以使用聚类分析、因子分析、回归分析等；统计指标有分组数据的，可使用方差分析、回归分析等。

3.注意的问题

<1>截面数据是不同个体，有时这些个体差异很大，比如不同的省份，由此很容易产生异方差问题，因此做回归分析时，需要对此进行检验

<2>要注意不同个体测量数据的一致性，这种一致性包括时期一致和统计指标一致。

==========================================================

二、时间序列数据（Time Series data）

1.概念：

时间序列数据是指不同时期，同一个体的一个或多个统计指标做组成的数据集。该数据强调不同时期，并且数据严格按照时间顺序排序，时期可以人为指定，如

月、日、季度、年度甚至分秒等。由于时间序列数据存在先后顺序，而这种顺序前后相承，当中必然隐含了一些信息，因此时间序列数据可用来研究分析事物的发展变化规律，在某些领域如经济学中非常常见。

例如：

北京市各年份GDP

不同时期：2000、2001、2002、2003、2004各年

同一个体：北京市

一个统计指标：GDP

不同时期：1950-1954...各年

同一个体：某地区

多个统计指标：avgmin、avgcov、unemp、gnp

2.分析方法

由于时间序列数据只针对单个个体，所有的测量实验都是围绕单个个体展开的，并且时间作为一个重要变量和因素，因此对时间序列数据基本上采用回归分析，并且有专门的时间序列模型。

3.注意的问题

由于时间序列数据使用回归分析，因此回归分析中需要注意的问题，在时间序列数据中也要注意，此外，时间序列数据还有一些自身的特点，如平稳性、模式识别等。

==========================================================

三、面板数据（panel data）

1.概念：

无论截面数据的同一时期，还是时间序列数据的同一个体，都说明这两类数据只有一个维度，而面板数据是二者的结合，是指在不同时期、不同个体的一个或多个统计指标做组成的数据集。具有个体和时间两个维度，也称为时间序列与截面混合数据或平行数据，是二维数据。面板数据可以理解为截面上的个体在不同时点的重复观测数据。如图

由于面板数据同时具有时间和个体两个维度，样本容量更大，携带的变异信息更多，既可以分析个体间的差异，也可以分析个体随时间的变化情况。此外，这种大量的变异信息也可以解决共线性问题。

2.分析方法

面板数据的分析主要是建立回归模型，一般形式如下：

上式中，由于样本量容量（自由度）=i*t，远小于参数个数=i*t*(K+1)+描述随机误差分布的参数个数，这使得模型无法估计，为了解决此问题，我们可以建立以下两类模型：

(1)以个体角度考虑，建立包含i个个体方程的面板数据模型

(2)以时间角度考虑，建立包含t个时间点截面方程的面板数据模型

上面两类模型在估计方法上类似，我们以(1)为例，根据不同的假设情况，又分为以下几种形式：

<1>.混合估计模型

该模型假设解释变量与随机误差不相关，随机误差项中既没有个体差异和没有时间差异，这样就可以直接把面板数据混合在一起用普通最小二乘法（OLS）估计参数。

混合估计模型的特点是无论对任何个体或截面，截距α和回归系数β都相同。混合估计模型的假设过于简单，既没有个体差异也没有时间差异的情况在实际中极少遇到。我们需要模型中能够体现出差异，无论是个体差异还是时间差异，因此衍生出下面的固定效应模型和随机效应模型

<2>.固定效应模型

固定效应是指随机误差项中的个体差异λi或时间差异γt和自变量存在相关性。分为个体固定、时间固定、个体+时间双固定三种。

个体固定是指模型中加入不随时间变化但个体间不同的变量，并分析其效应

时间固定是指模型中加入不随个体变化但时间不同的变量，并分析其效应

个体+时间双固定是指模型中同时加入个体固定变量和时间固定变量，并分析这些变量的效应

变截距是指模型在截面上存在个体差异的影响，而在时间上不存在差异，即不同的个体或不同的时