第十二讲 受限被解释变量
课程使用的教材及教学参考资料使用的教材:计量经济学(Basic Econometrics) 第三版,[美]古扎拉蒂(DamodarN.Gujarati) 著,林少宫译,中国人民大学2000年3月第1版。
第 14 章受限被解释变量
第 14 章受限被解释变量被解释变量的取值范围有时受限制,称为“受限被解释变量”(Limited Dependent Variable)。
14.1 断尾回归对线性模型yi =xi'β +εi,假设只有满足yi≥c 的数据才能观测到。
被解释变量在100,000 处存在“左边断尾”。
2⎨断尾随机变量的概率分布随机变量 y 断尾后,其概率密度随之变化。
记 y 的概率密度为 f ( y ) ,在 c 处左边断尾后的条件密度函数为⎧ f ( y ) 若 y > c f ( y | y > c ) = ⎪⎪⎩P( y 0, > c ) , 若 y ≤ c由于概率密度曲线下面积为 1,故断尾变量的密度函数乘以因子1 。
P( y > c )图14.1 断尾的效果3断尾分布的期望也发生变化。
对于最简单情形,y ~ N (0, 1),可证明(参见附录)E( y |y >c) = φ(c)1 -Φ(c)对于任意实数c,定义“反米尔斯比率”(Inverse Mill’s Ratio,简记IMR)为则E( y | y >c) =λ(c)。
λ(c) ≡φ(c)1 -Φ(c)4图14.2 反米尔斯比率56对 于 正 态 分 布 y ~ N (μ, σ 2) , 定 义 y - μz ≡σ~ N (0, 1) , 则y = μ + σ z 。
故E( y | y > c ) = E(μ + σ z | μ + σ z > c ) = E ⎡⎣μ + σ z z > (c - μ) ⎤⎦= μ + σ E ⎣⎡ z z > (c - μ) σ ⎦⎤ = μ + σ ⋅ λ [(c - μ) σ ]对于模型y = x 'β + ε ,ε | x ~ N (0, σ 2 ),则y | x ~ N ( x 'β , σ 2),故iiiiiiiiE( y i | y i > c ) = x i 'β + σ ⋅ λ [(c - x i 'β ) σ ]如 果 用 OLS 估 计 y i = x i 'β + εi , 则 遗 漏 了 非 线 性 项σ ⋅ λ [(c - x i 'β ) σ ],与x i 相关,导致 OLS 不一致。
理论: 由于被解释变量某些值取不到,故存在断尾,导致概率密度函数和期望等都发生变化……仍用极大似然函数进行估计。
内容页 若该值很大,为正,则用零膨胀;很小,为负,则用标准。 命令:p205中(零膨胀泊松、零膨胀负二项) 2、案例 被解释变量的分布 use CRIME1.dta,clear tab narr86 OLS回归 reg narr86 pcnv avgsen tottime ptime86 qemp86 inc86 black hispan born60,r 泊松回归 poisson narr86 pcnv avgsen tottime ptime86 qemp86 inc86 black hispan born60,r nolog 计算泊松的边际效应:mfx
(2) 进行ordered Logit估计: ologit rating83c ia83 dia,nolog 预测、列出结果: predict r2 r3 r4 r5 (option pr assumed;predicted probabilties) list r2 r3 r4 r5 in 1/1
1、潜变量:不可观测。 2、随机效用法:由于存在很多决定效用的未知因素以及未来的不确定性,So效用方程中包含一个扰动项,故曰"随机' 3、比较:二者都可依据累积分布函数的分布形式不同各自采取Probit或logit模型;但随机效用法比较容易推广到多值选择的情形。
第14章 受限被解释变量被解释变量的取值范围有时受限制,称为“受限被解释变量”(Limited Dependent Variable)。
14.1 断 尾 回 归对线性模型i i i y ε'=+x β,假设只有满足i y c ≥的数据才能观测到。
例:i y 为所有企业的销售收入,而统计局只收集规模以上企业2数据,比如100,000i y ≥。
断尾随机变量的概率分布随机变量y 断尾后,其概率密度随之变化。
记y 的概率密度为()f y ,在c 处左边断尾后的条件密度函数为(),P()(|)0,若若f y y c y c f y y c y c ⎧>⎪>>=⎨⎪≤⎩由于概率密度曲线下面积为1,故断尾变量的密度函数乘以因子1P()y c >。
3图14.1 断尾的效果4断尾分布的期望也发生变化。
对于最简单情形,~(0,1)y N ,可证明(参见附录)()E(|)1()c y y c c φ>=-Φ对于任意实数c ,定义“反米尔斯比率”(Inverse Mill ’s Ratio ,简记IMR)为()()1()c c c φλ≡-Φ则E(|)()y y c c λ>=。
5图14.2 反米尔斯比率6对于正态分布2~(,)y N μσ,定义~(0,1)y z N μσ-≡,则y z μσ=+。
故[]E(|)E(|)E ()E ()()y y c z z c z z c z z c c μσμσμσμσμσμσμσλμσ⎡⎤>=++>=+>-⎣⎦⎡⎤=+>-=+⋅-⎣⎦对于模型i i i y ε'=+x β,2|~(0,)i i N εσx ,则2|~(,)i i i y N σ'x x β,故[]E(|)()i i i i y y c c σλσ''>=+⋅-x x ββ如果用OLS 估计i i iy ε'=+x β,则遗漏了非线性项[]()i c σλσ'⋅-x β,与i x 相关,导致OLS 不一致。
第十二讲 受限被解释变量
原理同PROBIT模型,需要了解似然函数的一阶条 件和广义残差 广义残差的定义
N ˆ / ˆi ˆ) ( xi' log L G ˆ x x i i i x i 0 ' ˆ ˆ ˆ) iI 0 1 ( xi / iI1 i 1 2 N ˆ (x' ˆ / ˆ ˆ xi' ) log L i G ( 2) i ˆ ( 1 ) 0 i 2 2 ' ˆ ˆ 1 ( xi / ˆ ˆ ) iI1 iI 0变量取正数和0 2)又称censored regression model 3)例如:y表示买汽车的支出,工作时间,工资 y=0+1x1+…+xk+u, y=0, 4)标准TOBIT模型,潜变量原则上可以取负值, 只是观测不到。
例如工资问题,假设工资小于0,是不合适的,实际情况是 观测到被解释变量取值,不是因为归并,而是消费者的 选择,选择不工作。 W1=A1x+u1消费者希望得到的工资 W2=A2x+u2消费者可以得到的工资 实际情况是如果W2 > W1,工作工资等于W2 。否则不工作工 资等于0 W= A2x+u2 , u2 - u1 > A1x- A2x W=0
例 假设考虑已婚妇女是否参加工作,假设有3种选择: 不工作,兼职,全职。有序多元选择模型 yi* xi' i
y1 1 if yi* 0 2 if 0 yi* 3 if yi*
P( y i 1 | xi ) P( yi * 0 | xi ) ( xi' ) P( y i 2 | xi ) P( y i * 0 | xi ) ( xi' ) ( xi' ) P( y i 3 | xi ) P( yi * | xi ) 1 ( xi' )
案例分析:P193上 以womenwk.dta为例 1、Ols估计: Use womenwk.dta,clear Reg work age married children education 2、Probit估计 Probit work age married children education,nolog 计算其边际效应mfx 计算其准确预测的比率estat clas 3、Logit估计 Logit work age married children education,nolog Estat clas
高级计量经济学及STATA应用: 离散因变量模型
标准的Probit模型和Logit模型都是假设扰动项同方差,再据此写出似然函数,但实际并非总是如此,扰动项可能存在异方差,需进行似然比检验(LR检验) 1、原假设H0:扰动项同方差 2、结果:看p值,若接受H0,则可使用同方差的probit模型;否则使用异方差的probit模型。 3、异方差情况下的probit估计的命令为: hetprob y x1 x2 x3,het(varlist) 4、案例:
第14章 受限被解释变量被解释变量的取值范围有时受限制,称为“受限被解释变量”(Limited Dependent Variable)。
断 尾 回 归对线性模型i i i y ε'=+x β,假设只有满足i y c ≥的数据才能观测到。
例:i y 为所有企业的销售收入,而统计局只收集规模以上企业数据,比如100,000i y ≥。
断尾随机变量的概率分布随机变量y 断尾后,其概率密度随之变化。
记y 的概率密度为()f y ,在c 处左边断尾后的条件密度函数为(),P()(|)0,若若f y y c y c f y y c y c ⎧>⎪>>=⎨⎪≤⎩由于概率密度曲线下面积为1,故断尾变量的密度函数乘以因子1P()y c >。
对于最简单情形,~(0,1)y N ,可证明(参见附录)()E(|)1()c y y c c φ>=-Φ对于任意实数c ,定义“反米尔斯比率”(Inverse Mill ’s Ratio ,简记IMR)为()()1()c c c φλ≡-Φ则E(|)()y y c c λ>=。
图反米尔斯比率对于正态分布2~(,)y N μσ,定义~(0,1)y z N μσ-≡,则y z μσ=+。
故[]E(|)E(|)E ()E ()()y y c z z c z z c z z c c μσμσμσμσμσμμσλμσ⎡⎤>=++>=+>-⎣⎦⎡⎤=+>-=+⋅-⎣⎦对于模型i i i y ε'=+x β,2|~(0,)i i N εσx ,则2|~(,)i i i y N σ'x x β,故[]E(|)()i i i i y y c c σλ''>=+⋅-x x ββ如果用OLS 估计i i i y ε'=+x β,则遗漏了非线性项[]()i c σλσ'⋅-x β,与i x 相关,导致OLS 不一致。
第十二讲 受限被解释变量
y1 1 if yi* 0 2 if 0 yi* 3 if yi*
P( y i 1 | xi ) P( yi * 0 | xi ) ( xi' ) P( y i 2 | xi ) P( y i * 0 | xi ) ( xi' ) ( xi' ) P( y i 3 | xi ) P( yi * | xi ) 1 ( xi' )
已婚妇女工作时间长度,使用TOBIT模型。 因变量:工作时间(小时) 解释变量 线性模型(OLS) TOBIT(ML) Nwifeinc -3.45 -8.81 Educ 28.76 80.65 Exper 65.67 131.56 Exper2 -0.7 -1.86 Age -30.51 -54.41 Kidslt6 -442.09 -894.02 Kidsge6 -32.78 -16.22 C 1330.48 3819.09
1)被解释变量取正数和0 2)又称censored regression model 3)例如:y表示买汽车的支出,工作时间,工资 y=0+1x1+…+xk+u, y=0, 4)标准TOBIT模型,潜变量原则上可以取负值, 只是观测不到。
例如工资问题,假设工资小于0,是不合适的,实际情况是 观测到被解释变量取值,不是因为归并,而是消费者的 选择,选择不工作。 W1=A1x+u1消费者希望得到的工资 W2=A2x+u2消费者可以得到的工资 实际情况是如果W2 > W1,工作工资等于W2 。否则不工作工 资等于0 W= A2x+u2 , u2 - u1 > A1x- A2x W=0
是拟合的标准误,并将预测值命名为p;第三步预测的是预测的 标准误,并将其命名为f;最后一步列出原序列值whrs和各预测 值的前10个观测值。
这里,我们主要是为了和后面断尾回归的结果进行比 较。
2 断尾回归的操作
truncreg depvar [indepvar] [if] [in] [weight] [,options]
其中,truncreg代表“断尾回归”的基本命令语句, depvar代表被解释变量的名称,indepvar代表解释变 量的名称,if代表条件语句,in代表范围语句,weight 代表权重语句,options代表其他选项。表11.2显示了 各options选项及其含义。
regress mpg wgt 其中,第一步为生成一个新变量wgt,其值为变量
2 截取回归的操作
tobit depvar [indepvar] [if] [in] [weight], ll[(#)] ul[(#)] [options]
对于“laborsupply.dta”的数据而言,1975年没有工作 的妇女的劳动时间都被设定为0,事实上也就是其具 体劳动时间的数据没有被统计到,这样,我们可以进 行一个左端断尾的回归,命令如下:
truncreg whrs kl6 k618 wa we, ll(0)
, j 1,2,... M
优点:解释变量可以是不同选择的特征,例如交通方式, 不同交通方式对同一个人花费的时间是不同的;另外可 以是消费者的特征,不同收入,不同性别的人会选择不 同的交通方式,例如其他情况相同时,男性比女性更爱 选择开车旅行。
该模型的一个主要缺陷是independent of irrelevant alternatives(IIA) 即pi/pj与其他选择无关。 例如选择交通工具:例如选择1表示选家庭汽车, 选择2表示选蓝色长途公共汽车,根据 Multinomial logit model,不管其他选择是选择 火车还是选择红色长途公共汽车, p1/p2是一样 的。
PROBIT模型假设存在一个潜在模型 y*=0+1x1+…+xk+u,u~N(0,1) y=1,如果y*>0 y=0,如果y*0 如果当y*>0时,可以观测到数据,得到一个新模型 y*=0+1x1+…+xk+u,u~N(0,2) y=y*,如果y*>0 y=0,如果y*0
例 假设考虑已婚妇女是否参加工作,假设有3种选择: 不工作,兼职,全职。有序多元选择模型 y i* xi' i
y1 1 if y i* 0 2 if 0 y i* 3 if y i*
P( yi 1 | xi ) P( yi * 0 | xi ) ( xi' ) P( yi 2 | xi ) P( yi * 0 | xi ) ( xi' ) ( xi' ) P( yi 3 | xi ) P( yi * | xi ) 1 ( xi' )
已婚妇女工作时间长度,使用TOBIT模型。 因变量:工作时间(小时) 解释变量 线性模型(OLS) TOBIT(ML) Nwifeinc -3.45 -8.81 Educ 28.76 80.65 Exper 65.67 131.56 Exper2 -0.7 -1.86 Age -30.51 -54.41 Kidslt6 -442.09 -894.02 Kidsge6 -32.78 -16.22 C 1330.48 3819.09
1)被解释变量取正数和0 2)又称censored regression model 3)例如:y表示买汽车的支出,工作时间,工资 y=0+1x1+…+xk+u, y=0, 4)标准TOBIT模型,潜变量原则上可以取负值, 只是观测不到。
例如工资问题,假设工资小于0,是不合适的,实际情况是 观测到被解释变量取值,不是因为归并,而是消费者的 选择,选择不工作。 W1=A1x+u1消费者希望得到的工资 W2=A2x+u2消费者可以得到的工资 实际情况是如果W2 > W1,工作工资等于W2 。否则不工作工 资等于0 W= A2x+u2 , u2 - u1 > A1x- A2x W=0
只要比率相同,计算出的概率就相同。为了唯一 确定参数,假设1=0,=1
Multinomial logit model(independent logit model)
P( yi j )
' exp( xij )
1 exp( x ) ... exp( x )
log L( , ) f ( y i | y i 0)
2 i 1 N
1 2
( y i xi' ) 2 xi' exp{ }] log ( )} 2 2
Ordered response models
假设有多项选择,并且存在顺序,例如信用评级。 存在一个潜变量,假设有M种选择
假设模型为 y i* 0 xi' i , i ~ N (0, 2 )
y1 1 if y i* 1 2 if 1 y i* 2 3 if y i* 2
1 0 ' P ( y i 1 | xi ) P ( y i * 1 | xi ) ( xi )
1)OLS法和TOBIT模型的系数符号一致 2)技术条件期望的边际影响利用公式=0.645,所 以教育每更加1年的边际影响是( 0.451 ) (80.65) 3)对TOBIT模型的基本判断。可以构造一个 PROBIT 模型,当y》0时,另y=1。PROBIT模 型的系数=/。如果它们差别很大说明模型有 问题。
y x i
* i ' i
yi j if j 1 yi* j
0 , 1 0, M
如果假设扰动项独立同分布的标准正态分布得到ordered probit model;如果假设时逻辑分布得到ordered logit model
Ordered response models
ˆi xi' e
ˆiG ( 2) iG z i' ˆ ˆ
G ( 2) i
ˆ e i x
' i
G ( 2) ' i i
y*=0+1x1+…+xk+u,u~N(0,2) y=y*,如果y*>0 (y,x)观测不到,如果y*0 似然函数
Hale Waihona Puke TOBIT模型的识别检验原理同PROBIT模型,需要了解似然函数的一阶条 件和广义残差 广义残差的定义
N ˆ ˆ ˆ ( xi' / ) i log L ˆ xi xi iG xi 0 ' ˆ ˆ ˆ iI 0 1 ( xi / ) iI1 i 1 N ˆ ˆ ˆ ˆ xi' ( xi' / ) log L 2i ˆ ( 2 1) iG ( 2) 0 2 ' ˆ ˆ ˆ ˆ iI 0 1 ( xi / ) iI1 i 1
log L( , ) log[1 (
2 iI 0
)] log[
1 2
( y i xi' ) 2 exp{ }] 2 2
P( y i 0) xi' k ( ) xik E ( y i ) xi' k ( ) xik