第七讲 面板数据模型(Fixed Effect, Random Effect)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i 2 i i k i i
k
)=0
E (ε ) = 0 Var (ε ) = σ ε i ≠ k Cov (ε , ε ) = E (ε ε ) = 0 ε 与回归量X 无关
i 2 it it ks it ks it
i≠k
k≠s
µ , ε 无关 Cov ( µ ,ε
i it i
it
)=0
关于w 的假定: 关于 it的假定:
X
*
E (Y
it
) − E (Y kt ) = α i − α k
不同个体的差异与 t 无关
对同一个个体: 对同一个个体:
E (Y
it
) − E (Y is ) = α i − α i = 0
同一个体在不同时期没有差异。 同一个体在不同时期没有差异。
对模型( 对模型(2)
当 X时 E (Y ) = α + γ + β X 从不同的个体来看 E (Y
随机效应模型( 随机效应模型(Random Effect) )
it i it it
Y =α + µ + β X +ε 截距项 α → α + µ , µ 随机的 模型可以改写为 : = α + β X + W Y 其中 W = µ + ε
i i it it it i it
it
混合影响
横截面对Y的干扰 横截面对 的干扰
纯收入 Y 2366.4 5025.5 5870.87 4582.34 3947.72 1971.18 2226.47 3769.79 2352.16 1973.37 1411.73 1508.61 1557.32 1404.01 2622.24 5601.55 6653.92 5389.04 4566.01 2214.55 2588.06 4054.58 2566.76 2267.65 1564.66 1673.05 1794.13 1690.76
=
e e
*
′
n−k
(3)单位内估计和单位间估计的关系
S
t
t XX
= S XX + S XX
W b
S
b
t XY
= S XY + S XY
W b
b =F b +F b
w w b
(F + F =
w b
b −1
I
)
F
F
w
= ( S XX + S XX )
w
S
b
w XX
b
= ( S XX + S XX )
w b
二. 固定效应模型
Y
it
模型 (1)截距项 α → α i 模型 (2)α → α i + γ t α i, γ t非随机的
当 X时 E (Y ) = α + β X 从不同的个体来看 E (Y
* * it i
=α i + β
X
it
+ ε it
对模型( 对模型(1)
X it =
) =α k + β kt
+ ... + α n D itn + β
X
it
+ ε it
3. 对固定效应的模型(2)设定和估计 对固定效应的模型( )
Y
it
=α i +γ + β
t
X
it
+ ε it
个虚拟变量) (1)设定(不含截距项,引进 +T-1个虚拟变量) )设定(不含截距项,引进n+ 个虚拟变量
Y
it
= α 1 D it1 + ... + α n D itn + γ
* * it i t
X it =
) =α k +γ + β kt
t
X
*
E (Y
E (Y
E (Y
it
it
) − E (Y kt ) = α i − α k
不同个体的差异与 t 无关
对同一个体不同时期: 对同一个体不同时期:
it
) − E (Y is ) = γ − γ
t
s
同一个体在不同时期有差异。 同一个体在不同时期有差异。
it
) + (ε − ε it )
it
得
∑ ∑ ( X − X )(Y − Y ˆ β = ∑ ∑ (X − ) X
it i. it i t 2 it i. i t
i.
)
再估计
α
i
i i.
ˆ α =Y
ˆ −β
ˆ σ
2
X
ε
i.
方差的估计量为: 方差的估计量为:
=
∑∑
i t
(e it − e i .) 2
3. 估计方法 OLS, GLS, FGLS, ML等 等 下面利用OLS介绍单位间估计和单位内估计 介绍单位间估计和单位内估计 下面利用
Between estimator和within estimator 和
OLS估计量 1. OLS估计量
b
t XX t XY
+
= (S
t XX
) −1 S XY
对不同个体不同时期: 对不同个体不同时期:
) − E (Y ks ) = (α − α k ) + (γ − γ )
i t s
不同个体不同时期有差异。 不同个体不同时期有差异。
1. 关于
ε
it
E Cov (ε ,ε
it
(ε it ) = 0
V ar
ks
(ε it ) = σ ε
2
)=0 i≠k
t ≠s
2
H
its
it 2
+ ... + γ
T
H
itT
+β
X
it
+ ε it
D
itk
=
1 i=k 0 i≠k
H
=
1 t=s 0 t≠s
+β
含截距项,引进 + 个虚拟变量 个虚拟变量: 含截距项,引进n+T-2个虚拟变量 Y it = + 2 D it 2 + ... + n D itn
α α +γ H
2
it 2
分解( 2. 分解(续) (2)单位间估计 用 Y it = α
+β′
X
b XY
it
+ ε it + u i
Y
i.
=α + β ′
X +ε
i.
i.
+ ui
b = (S
b
b XX
)
−1
S
其中 S S
ˆ σ
2
b XX
=∑
i
T (X T (X
i.
i.
−
X )( X
i.
i.
−
X
)
)′
b XY
=∑
i
*
−
X )(Y − Y
支出合计 C 1741.09 3552.07 4753.23 3479.17 2050.89 1475.16 1357.43 2703.36 1649.18 1554.59 1098.39 1127.37 1330.45 1123.71 1943.3 4147.3 4147.3 5669.57 4285.13 2319.52 1583.31 1644.79 2927.35 1801.63 1770.56 1185.17 1336.85 1563.15 1030.13
基本模型
Y
it
=α + β
X
it
+ ε it
i = 1,...n;
t = 1,...T
固定效应模型 (Fixed Effect或 LSDV) 或
Y
it
由截距项体现个体差异 模型 (1)截距项 α → α i 模型 (2)α → α i + γ t α i, γ t非随机的
=α i + β
X
it
+ ε it
固 基 固
若F 若F
≻ F α ( n − 1, nt − n − 1), 拒
H ≤ F α ( n − 1, nt − n − 1), 接 H
不选基本模型
0 0
不拒基本模型
个虚拟变量。 注:对含截距项模型,设定时引进n-1个虚拟变量。 对含截距项模型,设定时引进 个虚拟变量
Y
it
=α
+α D
2
it 2
Y =α + µ + β X +ε 截距项 α → α + µ , µ 随机的 模型可以改写为 : = α + β X + W Y 其中 W = µ + ε
it i it it i i it it it i it
it
2. 假定
E (µ ) = 0 Var ( µ ) = σ µ Cov ( µ , µ ) = E ( µ µ µ 与回归量X 无关
若接受, 若接受,则选基本模型
说明:用模型( )比较少。因为引进变量太多, 说明:用模型(2)比较少。因为引进变量太多, 参数估计太多,自由度减少。 参数估计太多,自由度减少。一般刻画时间上的 差异时直接引进 t。 。
随机效应模型( 三. 随机效应模型(Random Effect) ) 1. 模型
(2)估计 ) 估计(只要满足古典假设) ① OLS, ML 估计(只要满足古典假设) Y
OLS
D1
D2 … Dn X
分块估计(克服n 太大) ② 分块估计(克服 太大) 思路: 思路:先估计 β
Y Y
it
=α i + β
X X X
it
+ ε it
it
it
=α i + β
it
+ε
Y −Y
it
it
= β ( X it −
−1
S
XX
例:
一 、模型设定 被解释变量: 消费支出y 单位: 被解释变量 消费支出 单位:元 解释变量: 纯收入 单位: 解释变量 纯收入x 单位:元 模型形式: 模型形式:
y it = α + βxit + ε it
y it = α i + βxit + ε it
y it = α + u i + βxit + ε it
2. 对固定效应的模型(1)设定和估计 对固定效应的模型( )
Y
Y
it
=α i + β
X
it
+ ε it
个虚拟变量) (1)设定(不含截距项,引进 个虚拟变量) )设定(不含截距项,引进n个虚拟变量
it
= α 1 D it1 + ... + α n D itn + β
X
it
+ ε it
D
itk
=
1 i=k 0 i≠k
X +ε
i.
i.
+ ui
Y −Y
it
i.
it − X i .
) + (ε it − ε i .)
b = (S
w
)
−1
S
w XY
其中 S
w XX
=∑
∑ (X
it
it
−
i.
X )( X
i.
it
−
i.
X
i.
)′
S
ˆ σ
2
w XY
=∑
∑ (X
−
X )( X − Y
it
)′
ε
=
∑∑
nT − n − k
(e it − e i .) 2
面板数据模型( 第八章 面板数据模型(Panel Data ) • 问题和动机
– 遗漏重要变量或有明确的非观测效应 – 动态效应
• 原理
– 离差消除不可观测效应 – 综合利用截面和时间序列信息
• 方法 • 例子
一.面板数据定义
面板数据是同时在时间和截面空间上取得的二维数据。 面板数据是同时在时间和截面空间上取得的二维数据。 面板数据从横截面上看, 面板数据从横截面上看,是由若干个体在某一时刻构 成的截面观测值,从纵剖面上看是一个时间序列。 成的截面观测值,从纵剖面上看是一个时间序列。 面板数据用双下标变量表示。 面板数据用双下标变量表示。 例如 Yi t , i = 1, 2, …, n; t = 1, 2, …, T n 表示面板数据中含有 个个体。T 表示时间序列的 表示面板数据中含有n个个体 个个体。 最大长度。若固定t不变,Yi . , ( i = 1, 2, …, n) 是横 最大长度。若固定 不变, 不变 截面上的n个随机变量 若固定i不变 个随机变量; 不变, 截面上的 个随机变量;若固定 不变,Y. t 是纵剖面 个时间序列。 上的一个时间序列。
+ ... + γ
α
T
H
itT
X
it
+ ε it
(2)估计 ) 估计(只要满足古典假设) ① OLS, ML 估计(只要满足古典假设) ② 分块估计 不含截距项) (3)设定检验 (不含截距项 ) 不含截距项
H : α = α = ... = α γ 2 =γ 3=...=γ T
0 1 2 n
=0
E (w ) = 0 ( w ) = E ( w 2 ) =σ + σ ε Var it µ
it 2 it
2
Cov ( w , w Cov ( w , w
it it
ks is
) = E ( w it w is ) = σ µ
2
) = E ( w it w ks ) = 0 i ≠ k
不同个体无自相关;同一个个体有自相关。 不同个体无自相关;同一个个体有自相关。
t
其中 S S
=∑ =∑
∑ (X ∑ (X
∑X
t
it
− −
X )( X
it
it
−
X
)
)′
it
X )(Y − Y
Y
11 = ∑ nT i
X
11 = ∑ nT i
it
∑Y
t
it
2. 分解 (1)单位内估计 用 Y it = α
w XX
+β′
X
it
Leabharlann Baidu
+ ε it + u i
Y
= β ′ (X
i.
=α + β ′
nt − ( n + 1)
1 2 n
(3)设定检验 )
H : α = α = ... = α H : 至少有一个不等
0 1
基本模型 固定影响模型
线性约束检验( 个约束方程) 线性约束检验(有n-1个约束方程) 个约束方程
F
( e′e -e′e ) / n − 1 =
e′e / nt − (n + 1)
二、 样本 选自中国农业统计年鉴。 选自中国农业统计年鉴。
调用数据库 Panel data
各地区农村居民平均每人年生活消费支出及纯收入
t 2001 2001 2001 2001 2001 2001 2001 2001 2001 2001 2001 2001 2001 2001 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14
地 区 全 国 北 京 上 海 浙 江 天 津 重 庆 海 南 广 东 湖 北 内蒙古 贵 州 甘 肃 青 海 西 藏 全 国 北 京 上 海 浙 江 天 津 重 庆 海 南 广 东 湖 北 内蒙古 内蒙古 贵 州 甘 肃 青 海 西 藏
k
)=0
E (ε ) = 0 Var (ε ) = σ ε i ≠ k Cov (ε , ε ) = E (ε ε ) = 0 ε 与回归量X 无关
i 2 it it ks it ks it
i≠k
k≠s
µ , ε 无关 Cov ( µ ,ε
i it i
it
)=0
关于w 的假定: 关于 it的假定:
X
*
E (Y
it
) − E (Y kt ) = α i − α k
不同个体的差异与 t 无关
对同一个个体: 对同一个个体:
E (Y
it
) − E (Y is ) = α i − α i = 0
同一个体在不同时期没有差异。 同一个体在不同时期没有差异。
对模型( 对模型(2)
当 X时 E (Y ) = α + γ + β X 从不同的个体来看 E (Y
随机效应模型( 随机效应模型(Random Effect) )
it i it it
Y =α + µ + β X +ε 截距项 α → α + µ , µ 随机的 模型可以改写为 : = α + β X + W Y 其中 W = µ + ε
i i it it it i it
it
混合影响
横截面对Y的干扰 横截面对 的干扰
纯收入 Y 2366.4 5025.5 5870.87 4582.34 3947.72 1971.18 2226.47 3769.79 2352.16 1973.37 1411.73 1508.61 1557.32 1404.01 2622.24 5601.55 6653.92 5389.04 4566.01 2214.55 2588.06 4054.58 2566.76 2267.65 1564.66 1673.05 1794.13 1690.76
=
e e
*
′
n−k
(3)单位内估计和单位间估计的关系
S
t
t XX
= S XX + S XX
W b
S
b
t XY
= S XY + S XY
W b
b =F b +F b
w w b
(F + F =
w b
b −1
I
)
F
F
w
= ( S XX + S XX )
w
S
b
w XX
b
= ( S XX + S XX )
w b
二. 固定效应模型
Y
it
模型 (1)截距项 α → α i 模型 (2)α → α i + γ t α i, γ t非随机的
当 X时 E (Y ) = α + β X 从不同的个体来看 E (Y
* * it i
=α i + β
X
it
+ ε it
对模型( 对模型(1)
X it =
) =α k + β kt
+ ... + α n D itn + β
X
it
+ ε it
3. 对固定效应的模型(2)设定和估计 对固定效应的模型( )
Y
it
=α i +γ + β
t
X
it
+ ε it
个虚拟变量) (1)设定(不含截距项,引进 +T-1个虚拟变量) )设定(不含截距项,引进n+ 个虚拟变量
Y
it
= α 1 D it1 + ... + α n D itn + γ
* * it i t
X it =
) =α k +γ + β kt
t
X
*
E (Y
E (Y
E (Y
it
it
) − E (Y kt ) = α i − α k
不同个体的差异与 t 无关
对同一个体不同时期: 对同一个体不同时期:
it
) − E (Y is ) = γ − γ
t
s
同一个体在不同时期有差异。 同一个体在不同时期有差异。
it
) + (ε − ε it )
it
得
∑ ∑ ( X − X )(Y − Y ˆ β = ∑ ∑ (X − ) X
it i. it i t 2 it i. i t
i.
)
再估计
α
i
i i.
ˆ α =Y
ˆ −β
ˆ σ
2
X
ε
i.
方差的估计量为: 方差的估计量为:
=
∑∑
i t
(e it − e i .) 2
3. 估计方法 OLS, GLS, FGLS, ML等 等 下面利用OLS介绍单位间估计和单位内估计 介绍单位间估计和单位内估计 下面利用
Between estimator和within estimator 和
OLS估计量 1. OLS估计量
b
t XX t XY
+
= (S
t XX
) −1 S XY
对不同个体不同时期: 对不同个体不同时期:
) − E (Y ks ) = (α − α k ) + (γ − γ )
i t s
不同个体不同时期有差异。 不同个体不同时期有差异。
1. 关于
ε
it
E Cov (ε ,ε
it
(ε it ) = 0
V ar
ks
(ε it ) = σ ε
2
)=0 i≠k
t ≠s
2
H
its
it 2
+ ... + γ
T
H
itT
+β
X
it
+ ε it
D
itk
=
1 i=k 0 i≠k
H
=
1 t=s 0 t≠s
+β
含截距项,引进 + 个虚拟变量 个虚拟变量: 含截距项,引进n+T-2个虚拟变量 Y it = + 2 D it 2 + ... + n D itn
α α +γ H
2
it 2
分解( 2. 分解(续) (2)单位间估计 用 Y it = α
+β′
X
b XY
it
+ ε it + u i
Y
i.
=α + β ′
X +ε
i.
i.
+ ui
b = (S
b
b XX
)
−1
S
其中 S S
ˆ σ
2
b XX
=∑
i
T (X T (X
i.
i.
−
X )( X
i.
i.
−
X
)
)′
b XY
=∑
i
*
−
X )(Y − Y
支出合计 C 1741.09 3552.07 4753.23 3479.17 2050.89 1475.16 1357.43 2703.36 1649.18 1554.59 1098.39 1127.37 1330.45 1123.71 1943.3 4147.3 4147.3 5669.57 4285.13 2319.52 1583.31 1644.79 2927.35 1801.63 1770.56 1185.17 1336.85 1563.15 1030.13
基本模型
Y
it
=α + β
X
it
+ ε it
i = 1,...n;
t = 1,...T
固定效应模型 (Fixed Effect或 LSDV) 或
Y
it
由截距项体现个体差异 模型 (1)截距项 α → α i 模型 (2)α → α i + γ t α i, γ t非随机的
=α i + β
X
it
+ ε it
固 基 固
若F 若F
≻ F α ( n − 1, nt − n − 1), 拒
H ≤ F α ( n − 1, nt − n − 1), 接 H
不选基本模型
0 0
不拒基本模型
个虚拟变量。 注:对含截距项模型,设定时引进n-1个虚拟变量。 对含截距项模型,设定时引进 个虚拟变量
Y
it
=α
+α D
2
it 2
Y =α + µ + β X +ε 截距项 α → α + µ , µ 随机的 模型可以改写为 : = α + β X + W Y 其中 W = µ + ε
it i it it i i it it it i it
it
2. 假定
E (µ ) = 0 Var ( µ ) = σ µ Cov ( µ , µ ) = E ( µ µ µ 与回归量X 无关
若接受, 若接受,则选基本模型
说明:用模型( )比较少。因为引进变量太多, 说明:用模型(2)比较少。因为引进变量太多, 参数估计太多,自由度减少。 参数估计太多,自由度减少。一般刻画时间上的 差异时直接引进 t。 。
随机效应模型( 三. 随机效应模型(Random Effect) ) 1. 模型
(2)估计 ) 估计(只要满足古典假设) ① OLS, ML 估计(只要满足古典假设) Y
OLS
D1
D2 … Dn X
分块估计(克服n 太大) ② 分块估计(克服 太大) 思路: 思路:先估计 β
Y Y
it
=α i + β
X X X
it
+ ε it
it
it
=α i + β
it
+ε
Y −Y
it
it
= β ( X it −
−1
S
XX
例:
一 、模型设定 被解释变量: 消费支出y 单位: 被解释变量 消费支出 单位:元 解释变量: 纯收入 单位: 解释变量 纯收入x 单位:元 模型形式: 模型形式:
y it = α + βxit + ε it
y it = α i + βxit + ε it
y it = α + u i + βxit + ε it
2. 对固定效应的模型(1)设定和估计 对固定效应的模型( )
Y
Y
it
=α i + β
X
it
+ ε it
个虚拟变量) (1)设定(不含截距项,引进 个虚拟变量) )设定(不含截距项,引进n个虚拟变量
it
= α 1 D it1 + ... + α n D itn + β
X
it
+ ε it
D
itk
=
1 i=k 0 i≠k
X +ε
i.
i.
+ ui
Y −Y
it
i.
it − X i .
) + (ε it − ε i .)
b = (S
w
)
−1
S
w XY
其中 S
w XX
=∑
∑ (X
it
it
−
i.
X )( X
i.
it
−
i.
X
i.
)′
S
ˆ σ
2
w XY
=∑
∑ (X
−
X )( X − Y
it
)′
ε
=
∑∑
nT − n − k
(e it − e i .) 2
面板数据模型( 第八章 面板数据模型(Panel Data ) • 问题和动机
– 遗漏重要变量或有明确的非观测效应 – 动态效应
• 原理
– 离差消除不可观测效应 – 综合利用截面和时间序列信息
• 方法 • 例子
一.面板数据定义
面板数据是同时在时间和截面空间上取得的二维数据。 面板数据是同时在时间和截面空间上取得的二维数据。 面板数据从横截面上看, 面板数据从横截面上看,是由若干个体在某一时刻构 成的截面观测值,从纵剖面上看是一个时间序列。 成的截面观测值,从纵剖面上看是一个时间序列。 面板数据用双下标变量表示。 面板数据用双下标变量表示。 例如 Yi t , i = 1, 2, …, n; t = 1, 2, …, T n 表示面板数据中含有 个个体。T 表示时间序列的 表示面板数据中含有n个个体 个个体。 最大长度。若固定t不变,Yi . , ( i = 1, 2, …, n) 是横 最大长度。若固定 不变, 不变 截面上的n个随机变量 若固定i不变 个随机变量; 不变, 截面上的 个随机变量;若固定 不变,Y. t 是纵剖面 个时间序列。 上的一个时间序列。
+ ... + γ
α
T
H
itT
X
it
+ ε it
(2)估计 ) 估计(只要满足古典假设) ① OLS, ML 估计(只要满足古典假设) ② 分块估计 不含截距项) (3)设定检验 (不含截距项 ) 不含截距项
H : α = α = ... = α γ 2 =γ 3=...=γ T
0 1 2 n
=0
E (w ) = 0 ( w ) = E ( w 2 ) =σ + σ ε Var it µ
it 2 it
2
Cov ( w , w Cov ( w , w
it it
ks is
) = E ( w it w is ) = σ µ
2
) = E ( w it w ks ) = 0 i ≠ k
不同个体无自相关;同一个个体有自相关。 不同个体无自相关;同一个个体有自相关。
t
其中 S S
=∑ =∑
∑ (X ∑ (X
∑X
t
it
− −
X )( X
it
it
−
X
)
)′
it
X )(Y − Y
Y
11 = ∑ nT i
X
11 = ∑ nT i
it
∑Y
t
it
2. 分解 (1)单位内估计 用 Y it = α
w XX
+β′
X
it
Leabharlann Baidu
+ ε it + u i
Y
= β ′ (X
i.
=α + β ′
nt − ( n + 1)
1 2 n
(3)设定检验 )
H : α = α = ... = α H : 至少有一个不等
0 1
基本模型 固定影响模型
线性约束检验( 个约束方程) 线性约束检验(有n-1个约束方程) 个约束方程
F
( e′e -e′e ) / n − 1 =
e′e / nt − (n + 1)
二、 样本 选自中国农业统计年鉴。 选自中国农业统计年鉴。
调用数据库 Panel data
各地区农村居民平均每人年生活消费支出及纯收入
t 2001 2001 2001 2001 2001 2001 2001 2001 2001 2001 2001 2001 2001 2001 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14
地 区 全 国 北 京 上 海 浙 江 天 津 重 庆 海 南 广 东 湖 北 内蒙古 贵 州 甘 肃 青 海 西 藏 全 国 北 京 上 海 浙 江 天 津 重 庆 海 南 广 东 湖 北 内蒙古 内蒙古 贵 州 甘 肃 青 海 西 藏