7.1 选择性样本模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第7章说明
• 经典的单方程计量经济学模型理论与方法,限于常参数、 线性、揭示变量之间因果关系的单方程模型,被解释变量 是连续的随机变量,其抽样是随机和不受限制的,在模型 估计过程中或者只利用时间序列样本,或者只利用截面数 据样本,主要依靠对经济理论和行为规律的理解确定模型 的结构形式。
• 本章中,将讨论几种扩展模型,主要包括将被解释变量抽 样由完全随机扩展为受到限制的选择性样本模型,将被解 释变量是连续的扩展为离散的离散选择模型,将单一种类 的样本扩展为同时包含截面数据和时间序列数据的平行数 据样本(Panel Data)等。
– 例如农户贷款影响因素分析模型:如果调查了10000户, 其中只有6000户在一年内发生了贷款。仅以发生了贷 款的6000户的贷款额作为被解释变量观测值,显然是 将其它没有发生贷款的4000户“截断”掉了。
2、“归并” (censoring)问题
• 将被解释变量的处于某一范围的样本观测值都用 一个相同的值代替。
2、“归并”变量的正态分布
• 由于原始被解释变量y*服从正态分布,有
P( y
0)
P( y *
0)
1
P( y) P( y* ) 当y* 0
3、归并被解释变量数据模型的最大似然估计
ln
L
yi 0
1 2
ln(2 )
ln
2
( yi
Xi
2
)2
ln1 yi 0
X i
• 该似然函数由两部分组成,一部分对应于没有限 制的观测值,是经典回归部分;一部分对应于受 到限制的观测值。
James J Heckman USA
• “Shadow Prices, Market Wages and Labour Supply”, Econometrica 42 (4), 1974, P679-694 发现并提出“选择性样本”问题。
• “Sample Selection Bias as a Specification Error”, Econometrica 47(1), 1979, P153-161 证明了偏误的存在并提出了Heckman两步修正法。
– 经常出现在“检查”、“调查”活动中,因此也称为 “检查”(censoring) 问题。
– 例如需求函数模型:用实际消费量作为需求量的观测 值,如果存在供给限制,就出现“归并”问题。
– 被解释变量观测值存在最高和最低的限制。例如考试 成绩,最高100,最低0,出现“归并”问题。
二、“截断”问题的计量经济学模型
– 实际上忽略了一个非线性项; – 忽略了随机误差项实际上的异方差性。 – 这就造成参数估计量的偏误,而且如果不了解解释变
量的分布,要估计该偏误的严重性也是很困难的。
三、“归并”问题的计量经济学模型
1、思路
• 以一种简单的情况为例,讨论“归并”问题的计 量经济学模型。即假设被解释变量服从正态分布, 其样本观测值以0为界,凡小于0的都归并为0, 大于0的则取实际值。如果y*以表示原始被解释变 量,y以表示归并后的被解释变量,那么则有:
第7章说明
• 这些模型与方法,无论在计量经济学理论方面还是在实际 应用方面,都具有重要意义。但是,这些模型都形成了各 自丰富的内容体系,甚至是计量经济学的新分支学科,模 型方法的数学过程较为复杂。
• 本章只介绍其中最简单的模型,以了解这些模型理论与方 法的概念与思路。
§7.1 选择性样本模型
Selective Samples Model
• 这是一个非标准的似然函数,它实际上是离散分 布与连续分布的混合。
• 如何理解后一部分?
为什么要求和?
• 如果样本观测值不是以0为界,而是以某一个数值 a为界,则有
ya y y*
当y * a 当y * a
y* ~ N(, 2 )
估计原理与方法相同。
4、例7.1.2:城镇居民消费模型
人均收入 1000 1120 1310 1300 1430 1500 1670 2100 2370 2530 2790 2980 3200 3460 3630 3880 4040 4210 4390 4520
2、截断分布
f ( a) f () P( a)
α为随机变量ξ分布范围内的 一个常数
f ( c)
f ()
1 (b a)
1
P( c)
b
1 d
bc
ba
c
如果ξ服从均匀分布U(a, b),但是它只能在(c, b)内取得样本观测值,那么取得每一个样本
观测值的概率
f ( a) f () P( a) (2 2 ) 1 2 e ( )2 /(2 2 )
y0 y y*
当y * 0 当y * 0
y* ~ N(, 2 )
• 单方程线性“归并”问题的计量经济学模型为:
yi yi
Xi max(
i
yi* ,0)
i ~ N (0, 2 )
•如果能够得到yi的概率密度函数,那么就可以方便 地采用最大似然法估计模型,这就是研究这类问题
的思路。
•由于该模型是由Tobin于1958年最早提出的,所以 也称为Tobin模型。
ML估计:将样本看为在消费水平大于1000元、小于5000
元的特定人群中随机抽取的样本
截断点 选择
估计方法选择
样本类 型选择
Yi 556.70 0.5194Xi i 1, 2, ,57 R2 0.9775
5、为什么截断被解释变量数据模型不能采用 普通最小二乘估计
• 对于截断被解释变量数据计量经济学模型,如果 仍然把它看作为经典的线性模型,采用OLS估计,
一、经济生活中的选择性样本问题 二、“截断”问题的计量经济学模型 三、“归并”问题的计量经济学模型
The Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel 2000
"for his development of theory and methods for analyzing selective samples”
OLS估计:将样本看为在消费水平为1000元的归并样本
选择归 并值
选择归 并样本
Yi 545 .95 0.5178 X i
i 1,2,,60
Censored(11000) 估计
Dependent Variable: CONS Method: ML - Censored Normal (TOBIT) Date: 11/29/04 Time: 17:25 Sample: 1 31 Included observations: 31 Right censoring (value) series: 11000 Convergence achieved after 8 iterations Covariance matrix computed using second derivatives
X X
i i
) )
/ /
) )
ln
L
n 2
(ln(2
)
wenku.baidu.com
ln
2
)
1
2
2
n
( yi
i 1
Xi )2
n i 1
ln1
a
X
i
ln L
2
n i 1
yi
Xi
2
i
X
i
1
2 2
( yi
Xi )2
2 4
i i 2 2
n i 1
gi
0
i (a X i ) i (i ) (1 (i ))
人均消费 1000 1020 1150 1145 1230 1275 1385 1660 1840 1950 2110 2240 2380 2550 2660 2700 2730 2720 2850 2800
人均收入 1040 4640 4750 4800 4810 4990 5070 5130 5210 5300 5390 5450 5500 5570 5630 5690 5770 5860 5930 6000
会产生什么样的结果?
• 因为yi只能在大于a的范围内取得观测值,那么yi 的条件均值为:
E( yi yi a) yi( yi yi a)dyi
a
X i
((a X i ) / ) 1 ((a X i ) / )
E(yi yi a) Xi (i )
i
Xi
E( yi yi
Xi
a)
1、思路
• 如果一个单方程计量经济学模型,只能从“掐头” 或者“去尾”的连续区间随机抽取被解释变量的 样本观测值,那么很显然,抽取每一个样本观测 值的概率以及抽取一组样本观测值的联合概率, 与被解释变量的样本观测值不受限制的情况是不 同的。
• 如果能够知道在这种情况下抽取一组样本观测值 的联合概率函数,那么就可以通过该函数极大化 求得模型的参数估计量。
人均消费 3900 3950 4000 4030 4080 4130 4000 4200 4160 4210 4325 4385 4450 4500 4865 4880 4890 4920 4970
OLS估计:将样本看为不受任何限制下随机抽取的样本
Yi 604.93 0.5083Xi i 1, 2, ,57 R2 0.9777
人均消费 2900 2980 2970 3050 3200 3100 3175 3200 2450 3230 3310 3500 3510 3590 3600 3650 3720 3850 3800
人均收入 6090 6200 6330 6450 6570 6700 6840 7010 7170 7350 7500 7670 7840 8000 8190 8350 8500 8690 8830
人均消费 1000 2900 2980 2970 3050 3200 3100 3175 3200 2450 3230 3310 3500 3510 3590 3600 3650 3720 3850 3800
人均收入 1080 6090 6200 6330 6450 6570 6700 6840 7010 7170 7350 7500 7670 7840 8000 8190 8350 8500 8690 8830
d i di
i
Xi
(
2 i
i
i )
(1
2 i
i
i)
(1 (i ))
yi yi a E(yi yi a) ui Xi (i ) ui
Var(ui
)
2
(1
2 i
ii
)
2
(1 i
)
• 由于被解释变量数据的截断问题,使得原模型变 换为包含一个非线性项模型。
• 如果采用OLS直接估计原模型:
一、经济生活中的选择性样本问题
1、“截断”(truncation)问题
• 由于条件限制,样本不能随机抽取,即不能从全 部个体,而只能从一部分个体中随机抽取被解释 变量的样本观测值,而这部分个体的观测值都大 于或者小于某个确定值。 “掐头”或者“去尾”。
– 例如消费函数模型:由于抽样原因,被解释变量样本 观测值最低200元、最高10000元。
• 求解该1阶极值条件,即可以得到模型的参数估计 量。
• 由于这是一个复杂的非线性问题,需要采用迭代 方法求解,例如牛顿法。
4、例7.1.1:城镇居民消费模型
人均收入 1120 1310 1300 1430 1500 1670 2100 2370 2530 2790 2980 3200 3460 3630 3880 4040 4210 4390 4520
人均消费 1020 1150 1145 1230 1275 1385 1660 1840 1950 2110 2240 2380 2550 2660 2700 2730 2720 2850 2800
人均收入 4640 4750 4800 4810 4990 5070 5130 5210 5300 5390 5450 5500 5570 5630 5690 5770 5860 5930 6000
人均消费 1000 3900 3950 4000 4030 4080 4130 4000 4200 4160 4210 4325 4385 4450 4500 4865 4880 4890 4920 4970
OLS估计:将样本看为不受任何限制下随机抽取的样本
Yi 571 .83 0.5136 X i i 1,2,,60 R 2 0.9811
1 ( ) 1 ( ) 1 ( )
P( a) 1 ( a ) 1 ()
ξ服从正态 分布
Φ是标准 正态分 布条件 概率函

3、截断被解释变量数据模型的最大似然估计
yi Xi i
i ~ N (0, 2 )
yi Xi ~ N(Xi , 2 )
1
f
(
yi
)
(( yi
1 ((a
相关文档
最新文档