6.1 选择性样本模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 将被解释变量是连续的扩展为离散的离散被解释变量 模型(Model with Discrete Dependent Variable)。 包括:
• 离散选择模型(Discrete Choice Model) • 计数数据模型(Model for Count Data)
– 将单一截面的样本扩展为多个截面的面板数据模型 (Panel Data)。
Wi Xiβ1 1i
i 1, 2, , n1
经理报酬模型
- 为了修正偏误,在全部企业(包括上市和未上市)中随 机抽取n2个企业为样本,建立如下的二元离散选择模型:
Yi* Ziβ2 2i
i 1, 2, , n2
上市倾向模型
• 修正原理
E ( 1i Yi* 0) E ( 1i 2i Z i β 2 )
(( yi X i ) / )
n 1 2 ln L (ln(2 ) ln ) 2 2 2
i 1
n
( yi X i ) 2
a X i ln1 i 1
n
yi X i i Xi n 2 ln L 2 ( yi X i ) i i 1 i 1 2 2 4 2 2 2 2
• 如果能够知道在这种情况下抽取一组样本观测值 的联合概率函数,那么就可以通过该函数极大化 求得模型的参数估计量。
源自文库
2、截断分布
f ( ) f ( a) P( a)
α为随机变量ξ分布范围内的 一个常数
1 (b a ) f ( ) 1 f ( c) b P( c) bc 1 d ba
第六章 非经典截面数据计量经济学模型
说明
• 非经典截面数据计量经济学模型主要包括:
– 将被解释变量抽样由完全随机扩展为受到限制的受限 被解释变量模型(Model with Limited Dependent Variable)。包括:
• 选择性样本模型(Selective Samples Model) • 持续时间被解释变量模型(Model for Duration Data)
c
如果ξ服从均匀分布U(a, b),但是它只能在(c, b)内取得样本观测值,那么取得每一个样本 观测值的概率
f ( ) f ( a ) P( a ) (2 )
2
e 1 ( )
1 2
( ) 2 /( 2 2 )
ξ服从正态 分布
( ) 1 ( )
Y
2002.2 2181.0 1855.5 2179.0 2247.0 2032.4 3349.7 3304.1 4254.0 3902.9 4241.3 5800.0 3655.0 3532.7 4417.2 3388.5 3725.2 4020.8 4140.4 2422.0 2924.8 3349.2 2766.5 3347.9 3231.1
X2
1035.9 1189.8 966.2 1084.1 1224.4 469.9 2709.3 2324.2 2941.0 1829.2 1880.1 5062.3 2270.3 2380.7 2990.2 1916.6 2207.3 2652.4 2390.2 1462.3 1090.5 1867.6 1397.4 1937.0 1752.2
i
y i a )dy i
((a X i ) / ) X i 1 ((a X i ) / )
E ( yi yi a) X i (i )
X i i
E ( yi yi a) d i i Xi d i X i
Yi 0 1 X1i 2 X 2i i i 1,2,L ,50
Y
X1
1258.3 1738.9 1607.1 1188.2 2560.8 2026.1 2623.2 2622.9 3330.2 1497.9 1403.1 1472.8 1691.4 1609.2 1948.2 1844.6 1934.6 1342.6 1313.9 1596.9 2213.2 1234.1 1405 961.4 1570.3
g
i 1
n
i
0
i (a X i )
i (i ) (1 (i ))
• 求解该1阶极值条件,即可以得到模型的参数估计 量。 • 由于这是一个复杂的非线性问题,需要采用迭代 方法求解,例如牛顿法。
4、演示例题—农村居民消费模型
• 根据对农民消费行为的分析,发现农民的消费水 平(Y)既取决于来自于农业生产经营的持久收 入(X1),也受到来自于从事非农生产的瞬时收 入(X2)的影响。现有某地区50户农户的人均消 费、人均持久收入和人均瞬时收入的样本观测值, 试图建立该地区农民消费模型。
• 样 本 观 测 值
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
5800.0 3341.1 2495.3 2253.3 2772.0 3066.9 2700.7 2618.2 5015.7 4135.2 5800.0 2420.9 3591.4 2676.6 3143.8 2229.3 2732.5 3013.3 3886.0 2413.9 2232.2 2205.2 2395.0 1627.1 2195.6
逆米尔斯比 inverse mills ratio
E (Wi X i , Yi * 0) X i β 1 E ( 1i 2i Z i β 2 ) E (Wi X i , Yi * 0) X i β 1 1i
( i
Ziβ2
2
) )
Wi Xi β1 1i i
1
P( a) 1 (
a
) 1 ()
Φ是标准 正态分 布条件 概率函 数
3、截断被解释变量数据模型的最大似然估计
yi X i i
i ~ N (0, 2 )
yi X i ~ N (X i , )
2
1 f ( yi )
1 ((a X i ) / )
( 2 i i i )
(1 2 i i i ) (1 ( i ))
yi yi a E ( yi yi a) ui X i ( i ) ui
Var (ui ) 2 (1 i2 i i ) 2 (1 i )
• 被解释变量样本观测值受到限制。
二、“截断”数据计量经济学模型
1、思路
• 如果一个单方程计量经济学模型,只能从“掐头” 或者“去尾”的连续区间随机抽取被解释变量的 样本观测值,那么很显然,抽取每一个样本观测 值的概率以及抽取一组样本观测值的联合概率, 与被解释变量的样本观测值不受限制的情况是不 同的。
X1
1399.1 1070.4 1167.9 1274.3 1535.7 2267.4 2440.4 1919.8 3017.3 3436.7 3326.7 2938.7 2238.6 2681.3 3129.3 2890.6 2828.5 2257.3 2072.9 1537.6 2279.0 1570.1 1583.2 2111.6 2228.5
§6.1
选择性样本计量经济学模型
一、经济生活中的选择性样本问题 二、“截断”问题的计量经济学模型 三、“归并”问题的计量经济学模型
一、社会经济生活中的选择性样本问题
1、“截断”(truncation)问题
• 不能从全部截面个体,而只能从一部分个体中随 机抽取被解释变量的样本观测值。
• 分为两种情况:
• 由于被解释变量数据的截断问题,使得原模型变 换为包含一个非线性项模型。
• 如果采用OLS直接估计原模型:
– 实际上忽略了一个非线性项; – 忽略了随机误差项实际上的异方差性。 – 这就造成参数估计量的偏误,而且如果不了解解释变 量的分布,要估计该偏误的严重性也是很困难的。
6、一点说明
• 如果对截断被解释变量数据计量经济学模型采用 最大似然估计,必须首先求得“截断分布”,为 此,必须存在明确的“截断点”。
2、“归并” (censoring)问题
• 将被解释变量的处于某一范围的样本观测值都用 一个相同的值代替。
– 经常出现在“检查”、“调查”活动中,因此也称为 “检查”(censoring) 问题。 – 需求函数模型中用实际消费量作为需求量的观测值, 如果存在供给限制,就出现“归并”问题。 – 被解释变量观测值存在最高和最低的限制。例如考试 成绩,最高100,最低0,出现“归并”问题。
• 在实际的截断数据模型中,这个条件经常不能被 满足,诸如利用上市公司为样本研究全部企业的 行为,就不存在明确的被解释变量的“截断点”。
• 关于这类模型的估计,Heckman于1979年提出 了两步修正法。
• 下面以一个实例说明两步修正法的原理和步骤。
• 模型
– 为了研究企业经理报酬W与影响因素X之间的关系,在 上市公司中随机抽取n1个企业为样本,建立如下的模 型:
i 1,2,, n1
(
Ziβ2
2
该模型已经修正了选择性偏误,可以采用OLS进行估计。
• 具体步骤
– 第一步:利用从全部企业(包括上市和未上市)中随 机抽取的样本,估计上市倾向模型 ;并利用估计结果 计算逆米尔斯比的值。 – 第二步,利用选择性样本观测值和计算得到的逆米尔 斯比的值,将(ρσ1)作为一个待估计参数,估计经理报 酬模型,得到β1的估计。 – 注意,在抽取样本时间必须保证所有选择性样本包含 于全部样本之中。
X2
7317.2 4489.0 2194.7 1992.7 781.1 2064.3 1017.9 929.5 3350.0 4315.3 5531.7 1496.3 3143.4 1850.3 2420.1 1416.4 1484.8 2047.0 3765.9 1173.6 1042.3 1639.7 1597.4 1023.2 680.2 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
– 一是,所抽取的部分个体的观测值都大于或者小于某 个确定值,即出现“掐头”或者“去尾”的现象,与 其它个体的观测值相比较,存在明显的“截断点”。 – 二是,所抽取的样本观测值来自于具有某些特征的部 分个体,但是样本观测值的大小与其它个体的观测值 相比较,并不存在明显的“截断点”。
• 样本选择受到限制。
• 非经典截面数据计量经济学模型也被称为微观计 量经济学模型
– 研究对象: • 家庭、个人、企业等微观主体的行为; • 微观主体具有异质性。 – 数据特征: • 截面数据、面板数据; • 微观数据的来源主要不是统计,而是调查; • 表征家庭、个人等微观主体行为的数据经常是离散 的; • 样本选择和观测值的赋值经常是受到限制的; • 样本数量大。
5、为什么截断被解释变量数据模型不能采用 普通最小二乘估计
• 对于截断被解释变量数据计量经济学模型,如果 仍然把它看作为经典的线性模型,采用OLS估计, 会产生什么样的结果?
• 因为yi只能在大于a的范围内取得观测值,那么yi 的条件均值为:
E ( yi yi a )
y ( y
i a
• 选择截断数据ML估计
• 将样本视为不受限制的随机抽取
• 将样本视为人均消费大于1500元的范围内随机抽取
• 将样本视为在人均消费大于1500元、小于6000元的范围 内随机抽取
• 比较3种假设下的对数似然函数值可见,随着截断 区间的缩小,抽取同一个样本的概率增大,致使 对数似然函数值增大。