第八讲 离散因变量模型(LPM,Probit,Logit)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 2
F ( X i B) 1 F ( X i B)
E ( yi X i ) P F ( X i B) r 斜率: x j x j x j dF ( X i B) ( X i B) f ( X i B) j d ( X i B) x j
(四) 分布函数F的选取
Interval] 1.359199 5.373068 1.593967
score .6770611 d1 -.4766044 _cons -242.4575
(3)得到估计式:
注:括号里是p值。
p ln( ) 242.4576 0.6771Score 0.4766 D1 1 p
(0.052) (0.052)
选取分布函数F的原则:
0 F ( X i B) 1
X iLeabharlann BaiduB
F ( X i B) 1
X i B
F是单调函数
F ( X i B) 0
按照上述原则F取作累计分布函数。 下面介绍三种不同分布函数下的计量模型: LPM, Probit, Logit
1、 线性概率模型(LPM)
(2) Probit 模型的边际分析
自变量的变化对响应概率(p)的影响:
dp 1 2Z2 f (Z ) e dZ 2
'
eZ ∵ ( Z ) 1 eZ pi ln( ) XiB 1 pi
得到:
pi ( X i B) e Xi B 1 pi 1 ( X i B)
yi 取1或0
取值范围
Li X i B i
pi 0,1
pi 其中 Li ln 1 pi
机会比率odds
具有以上分布函数的二元选择模型称为Logit模型。
(2) Logit 模型的设定 Z e yi F ( X i B) i F (Z ) ( Z ) Z
1 e
模型 yi ( X i B) i 线性化 pi ( X i B)
eZ f (Z ) F (Z ) ( Z )(1 ( Z )) Z 2 (1 e )
F ( X i B) ( X i B)
Xi B
(2 )
12
e
( x2 2)
dx
模型
yi ( X i B) i
X B 是x的线性函数,Y 是X 的非线性函数
i
Z
pi ( X i B)
1
Xi B
(2 )
12
e
( x2 2)
dx
Zi F ( pi ) X i B i
2、对Logit模型系数的解释:
p odds ln( ) L ln(odds) 1 p odds j x j x j x j x j
当 xj 增加一个单位时机会比率的增长率为
j
例 1:
南开大学国际经济研究所1999级研究生考试分 数及录取情况见数据表(N = 95)。
Li ,
P为y取1时的概率
(3) Logit 模型的边际分析 1、自变量的变化对响应概率(p)的影响:
dp e f (Z ) dZ (1 e Z )2
Z
p d ln( ) dZ 1 p j dx j dx j
p dp Z eZ f (Z ) j j (z)(1-(z)) j Z 2 x j dZ x j (1 e )
模型形如:
(调用数据库和程序E:\logit)
Log likelihood =
-3.979482
y
Coef.
Std. Err. 0.348036 2.984581 124.5184
z 1.95 -0.16 -1.95
P>z 0.052 0.873 0.052
[95% Conf. -.0050766 -6.326276 -486.509
LPM在实际的回归当中应用很少,用于理论模型的比较。
2、 Logit 模型
(1) Logit 模型的分布函数 如果选择
eZ 1 1 F (Z ) 1 1 eZ 1 eZ 1 e Z
1 0.8 0.6 0.4 0.2 0 0 5 10 15 20 25 30
Logistic分布函数
(0.873)
(4)检验:可以直接根据括弧里的 p 值进行判断,也可以 利用正态分布表查临界值进行检验。
检验假设 H :
0
2
0
p
H0
z
z 1
2 1
表查出的1- 其中 z 为由正态N(0,1)
2
2
分位点。
当=0.1时查表可得 z
1
2
1.65
2
当=0.05时查表可得 z
一、 二元选择模型
二元选择模型的理论模型 二元选择模型经济计量的一般模型 线性概率模型(LPM) Logit 模型 Probit 模型
(一) 二元选择模型的理论模型
选择理论:效用是不可观测的,只能观测到选择行为
U i1 X i 1 i1
第i个个体选择1的效用
U i0 X i 0 i0 第i个个体不选择1(选择0)的效用
1
1.96
因为 Z=2.05>1.96,所以score 变量在0.05的显著水平下 对Y的影响是显著的。 (5) 对参数加以解释:
2
0.6771
说明当考生分数增加一分,被录取的机会比率增长率增加0.6771. 另外,是否应届生对录取与否没有显著影响。
3. Probit模型
如果选择
F (t )
线性概率模型存在的问题及适用性
随机误差项是异方差:Var ( i ) pi (1 pi )
办法:可用WLS估计。 拟合值可能不在0-1之间,有可能大于1或小于0: 办法:强令预测值相应等于0或1 进行约束估计。
1
y
* i
y
0
i
Xi B 1 0 Xi B 1 Xi B 0
1 0.8 0.6
(2 )
t
12
e
( x2 2)
dx
0.4 0.2 0 -4 -2 0 2 4
累积正态概率分布曲线
Probit曲线和logit曲线很相似。两条曲线都是在pi = 0.5处有拐点, 但logit曲线在两个尾部要比Probit曲线厚。
(1) Probit 模型的设定
yi F ( X i B) i
对于回归模型: yi F ( X i B) i
E(i ) 1 F ( X i B) F ( X i B) F ( X i B) 1 F ( X i B) 0
Var ( i ) E ( i2 ) 1 F ( X i B) F ( X i B) F ( X i B) 1 F ( X i B)
第九章 离散因变量模型
实际经济分析当中的离散变量问题 对于单个方案的取舍购买决策、职业的选择、贷 款决策; 对于两个方案的选择。例如,两种出行方式的选 择,两种商品的选择。由决策者的属性和备选方 案的属性共同决定。 农业经济分析当中的离散因变量问题 农民技术采用、农村选举等等
内容
二元选择模型的三类模型介绍 二元选择模型的估计: 二元选择模型的检验: 二元选择模型的应用
E( yi X i ) 1 P 0 (1 P) F (Xi )
F ( t ) 1 F (t )
Y E (Y X )
总体回归模型
Y F ( XB)
样本回归模 型 F(X y
i
i
B) i (i 1, 2......n)
(三) 二元选择模型随机误差项及斜率
U i1 U i0 X i (1 0 ) (i1 i0 )
y Xi
* i
i
yi 1( yi 0) y 0( y i 0) i
选择1
不选择1 (选择0)
(二) 二元选择的经济计量一般模型
P ( yi 1 X i ) P ( yi* 0) P ( i* Xi ) 1 P ( i* Xi ) 1 F ( X i ) F ( X i )
如果选择 F ( X i B) X i B
yi X i B i
yi E( yi X i ) i
E( yi X i ) E( X i B i ) X i B
P( yi 1 X i ) pi
E ( yi X i )
P( yi 0 X i ) 1 pi
定义变量: Y :考生录取为1,未录取为0; SCORE :考生考试分数; D1:应届生为1,非应届生为0。
数据表
obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Y 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 SCORE 401 401 392 387 384 379 378 378 376 371 362 362 361 359 358 356 356 355 354 354 353 350 349 349 348 D1 1 0 1 0 1 0 0 0 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 0 1 obs 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 347 347 344 339 338 338 336 334 332 332 332 331 330 328 328 328 321 321 318 318 316 308 308 304 303 D1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 0 1 obs 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 303 299 297 294 293 293 292 291 291 287 286 286 282 282 282 278 275 273 273 272 267 266 263 261 260 D1 1 1 1 0 1 1 0 1 1 1 1 0 1 1 0 0 0 0 1 1 0 1 1 1 0 obs 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 256 252 252 245 243 242 241 239 235 232 228 219 219 214 210 204 198 189 188 182 166 123 D1 0 0 1 1 1 0 0 1 0 0 1 1 1 1 1 1 0 1 1 1 1 0
1* P( yi 1 X i ) 0* P( yi 0 X i ) 1 pi 0 (1 pi ) pi
yi E ( yi X i ) i pi i X i B i
xj
对响应概率(p)的偏效应: j LPM的估计方法:OLS
(1)模型
Y
1
2
Score D1
3
(2)估计:用 logit 法估计。
模型结果:
Logit estimates
Y ( x)
Stata 命令:logit y score d1
Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 97 72.11 0 0.9006
F ( X i B) 1 F ( X i B)
E ( yi X i ) P F ( X i B) r 斜率: x j x j x j dF ( X i B) ( X i B) f ( X i B) j d ( X i B) x j
(四) 分布函数F的选取
Interval] 1.359199 5.373068 1.593967
score .6770611 d1 -.4766044 _cons -242.4575
(3)得到估计式:
注:括号里是p值。
p ln( ) 242.4576 0.6771Score 0.4766 D1 1 p
(0.052) (0.052)
选取分布函数F的原则:
0 F ( X i B) 1
X iLeabharlann BaiduB
F ( X i B) 1
X i B
F是单调函数
F ( X i B) 0
按照上述原则F取作累计分布函数。 下面介绍三种不同分布函数下的计量模型: LPM, Probit, Logit
1、 线性概率模型(LPM)
(2) Probit 模型的边际分析
自变量的变化对响应概率(p)的影响:
dp 1 2Z2 f (Z ) e dZ 2
'
eZ ∵ ( Z ) 1 eZ pi ln( ) XiB 1 pi
得到:
pi ( X i B) e Xi B 1 pi 1 ( X i B)
yi 取1或0
取值范围
Li X i B i
pi 0,1
pi 其中 Li ln 1 pi
机会比率odds
具有以上分布函数的二元选择模型称为Logit模型。
(2) Logit 模型的设定 Z e yi F ( X i B) i F (Z ) ( Z ) Z
1 e
模型 yi ( X i B) i 线性化 pi ( X i B)
eZ f (Z ) F (Z ) ( Z )(1 ( Z )) Z 2 (1 e )
F ( X i B) ( X i B)
Xi B
(2 )
12
e
( x2 2)
dx
模型
yi ( X i B) i
X B 是x的线性函数,Y 是X 的非线性函数
i
Z
pi ( X i B)
1
Xi B
(2 )
12
e
( x2 2)
dx
Zi F ( pi ) X i B i
2、对Logit模型系数的解释:
p odds ln( ) L ln(odds) 1 p odds j x j x j x j x j
当 xj 增加一个单位时机会比率的增长率为
j
例 1:
南开大学国际经济研究所1999级研究生考试分 数及录取情况见数据表(N = 95)。
Li ,
P为y取1时的概率
(3) Logit 模型的边际分析 1、自变量的变化对响应概率(p)的影响:
dp e f (Z ) dZ (1 e Z )2
Z
p d ln( ) dZ 1 p j dx j dx j
p dp Z eZ f (Z ) j j (z)(1-(z)) j Z 2 x j dZ x j (1 e )
模型形如:
(调用数据库和程序E:\logit)
Log likelihood =
-3.979482
y
Coef.
Std. Err. 0.348036 2.984581 124.5184
z 1.95 -0.16 -1.95
P>z 0.052 0.873 0.052
[95% Conf. -.0050766 -6.326276 -486.509
LPM在实际的回归当中应用很少,用于理论模型的比较。
2、 Logit 模型
(1) Logit 模型的分布函数 如果选择
eZ 1 1 F (Z ) 1 1 eZ 1 eZ 1 e Z
1 0.8 0.6 0.4 0.2 0 0 5 10 15 20 25 30
Logistic分布函数
(0.873)
(4)检验:可以直接根据括弧里的 p 值进行判断,也可以 利用正态分布表查临界值进行检验。
检验假设 H :
0
2
0
p
H0
z
z 1
2 1
表查出的1- 其中 z 为由正态N(0,1)
2
2
分位点。
当=0.1时查表可得 z
1
2
1.65
2
当=0.05时查表可得 z
一、 二元选择模型
二元选择模型的理论模型 二元选择模型经济计量的一般模型 线性概率模型(LPM) Logit 模型 Probit 模型
(一) 二元选择模型的理论模型
选择理论:效用是不可观测的,只能观测到选择行为
U i1 X i 1 i1
第i个个体选择1的效用
U i0 X i 0 i0 第i个个体不选择1(选择0)的效用
1
1.96
因为 Z=2.05>1.96,所以score 变量在0.05的显著水平下 对Y的影响是显著的。 (5) 对参数加以解释:
2
0.6771
说明当考生分数增加一分,被录取的机会比率增长率增加0.6771. 另外,是否应届生对录取与否没有显著影响。
3. Probit模型
如果选择
F (t )
线性概率模型存在的问题及适用性
随机误差项是异方差:Var ( i ) pi (1 pi )
办法:可用WLS估计。 拟合值可能不在0-1之间,有可能大于1或小于0: 办法:强令预测值相应等于0或1 进行约束估计。
1
y
* i
y
0
i
Xi B 1 0 Xi B 1 Xi B 0
1 0.8 0.6
(2 )
t
12
e
( x2 2)
dx
0.4 0.2 0 -4 -2 0 2 4
累积正态概率分布曲线
Probit曲线和logit曲线很相似。两条曲线都是在pi = 0.5处有拐点, 但logit曲线在两个尾部要比Probit曲线厚。
(1) Probit 模型的设定
yi F ( X i B) i
对于回归模型: yi F ( X i B) i
E(i ) 1 F ( X i B) F ( X i B) F ( X i B) 1 F ( X i B) 0
Var ( i ) E ( i2 ) 1 F ( X i B) F ( X i B) F ( X i B) 1 F ( X i B)
第九章 离散因变量模型
实际经济分析当中的离散变量问题 对于单个方案的取舍购买决策、职业的选择、贷 款决策; 对于两个方案的选择。例如,两种出行方式的选 择,两种商品的选择。由决策者的属性和备选方 案的属性共同决定。 农业经济分析当中的离散因变量问题 农民技术采用、农村选举等等
内容
二元选择模型的三类模型介绍 二元选择模型的估计: 二元选择模型的检验: 二元选择模型的应用
E( yi X i ) 1 P 0 (1 P) F (Xi )
F ( t ) 1 F (t )
Y E (Y X )
总体回归模型
Y F ( XB)
样本回归模 型 F(X y
i
i
B) i (i 1, 2......n)
(三) 二元选择模型随机误差项及斜率
U i1 U i0 X i (1 0 ) (i1 i0 )
y Xi
* i
i
yi 1( yi 0) y 0( y i 0) i
选择1
不选择1 (选择0)
(二) 二元选择的经济计量一般模型
P ( yi 1 X i ) P ( yi* 0) P ( i* Xi ) 1 P ( i* Xi ) 1 F ( X i ) F ( X i )
如果选择 F ( X i B) X i B
yi X i B i
yi E( yi X i ) i
E( yi X i ) E( X i B i ) X i B
P( yi 1 X i ) pi
E ( yi X i )
P( yi 0 X i ) 1 pi
定义变量: Y :考生录取为1,未录取为0; SCORE :考生考试分数; D1:应届生为1,非应届生为0。
数据表
obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Y 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 SCORE 401 401 392 387 384 379 378 378 376 371 362 362 361 359 358 356 356 355 354 354 353 350 349 349 348 D1 1 0 1 0 1 0 0 0 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 0 1 obs 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 347 347 344 339 338 338 336 334 332 332 332 331 330 328 328 328 321 321 318 318 316 308 308 304 303 D1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 0 1 obs 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 303 299 297 294 293 293 292 291 291 287 286 286 282 282 282 278 275 273 273 272 267 266 263 261 260 D1 1 1 1 0 1 1 0 1 1 1 1 0 1 1 0 0 0 0 1 1 0 1 1 1 0 obs 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 256 252 252 245 243 242 241 239 235 232 228 219 219 214 210 204 198 189 188 182 166 123 D1 0 0 1 1 1 0 0 1 0 0 1 1 1 1 1 1 0 1 1 1 1 0
1* P( yi 1 X i ) 0* P( yi 0 X i ) 1 pi 0 (1 pi ) pi
yi E ( yi X i ) i pi i X i B i
xj
对响应概率(p)的偏效应: j LPM的估计方法:OLS
(1)模型
Y
1
2
Score D1
3
(2)估计:用 logit 法估计。
模型结果:
Logit estimates
Y ( x)
Stata 命令:logit y score d1
Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 97 72.11 0 0.9006