10离散选择模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

16
1 0.8 0.6
1 0.8 0.6 0.4 0.2 0
0.4 0.2 0 -4 -2 0 2
4 0
5
10
15
20
25
3
累积正态概率分布曲线
logistic曲线
17
1 0.8 0.6
logit曲线
0.4 0.2 0 -6 -4 -2 0 2 4 6
Probit曲线
Probit曲线、logit曲线比较示意图
• pi = F(yi) =
1
1 e (243.7362 0.6794 xi )
32
1. 2
YFLOGI
1. 0 0. 8 0. 6 0. 4 0. 2 0. 0 -0. 2 100 SC OR E 200 300 400
Logit模型预测值
33
• 在估计Probit模型过程中,D1的系数也没有显著性。剔除 D1,Probit模型最终估计结果是
• 上两式说明,误差项的期望为零,方差具有异方差。当pi 接近0或1时,ui具有较小的方差,当pi接近1/2时,ui具有 较大的方差。
13
• 线性概率模型回归系数的OLS估计量具有无 偏性和一致性,但不具有有效性。
14
• 假设用模型pi = + xi进行预测,当预测值落在 [0,1] 区 间之内时,则没有什么问题;但当预测值落在[0,1] 区间 之外时,则会暴露出该模型的严重缺点。因为概率的取值 范围是 [0,1],所以此时必须强令预测值(概率值)相应 等于0或1(见图)。
力非农就业的可能性。劳动力教育程度越高,非农就业的机会越多, 非农就业的倾向也就越高。此外,还有其他许多因素影响农村劳动力 的非农就业。如 • (1)农村居民家庭所在地区的区位条件。在其他条件保持不变的条 件下,离中心城市越近,非农产业越发达,提供的非农就业机会就越 多。同时农户进入非农产业就业的成本越低。这种家庭中的劳动力进 入非农业就业的可能性也越大。
20
21
• logit曲线计算上也比较方便,所以Logit模型 比Probit模型更常用。
22
23
• 使用普通最小二乘法估计参数的基本要求
是对于X的每一个取值,ni至少要等于5,对
于某一选择的频率接近于0或1的X的取值,
最小二乘法近似效果最差。
24
• 对于Logit模型使用极大似然法估计参数是一个很好的选择。 首先分析含有两个参数( 和)的随机试验。假设被估 计的模型如下: 1 1 • pi = ( xi ) = 1 e 1 e yi
• 由决策者的属性和备选方案的属性共同决定决 定。
7

当被解释变量为定性变量时怎样建立
模型呢?这就是要介绍的二元选择模型或
多元选择模型,统称离散选择模型。这里
主要介绍线性概率模型,Probit(概率单位)
模型和Logit模型。
8
二元离散选择模型
9
• 1.线性概率模型
• 模型的形式如下, • yi = + xi + ui • 其中ui为随机误差项,xi为定量解释变量。yi为二元选择变量。 如利息税、机动车的费改税问题等。
• 在样本中pi是观测不到的。相对于xi的值,只能得到因变量
yi取值为0或1的信息。
25
• 极大似然估计的出发点就是寻找样本观测值最有可能发生条件 下的 和 的估计值。从样本看,如果第一种选择发生了n次, 第二种选择发生了N-n次。设采取第一种选择的概率是pi。采取
Fra Baidu bibliotek
第二种选择的概率是(1- pi)。重新将样本数据排列,使前n个
• 设 • • yi = •
1 (若是第一种选择) 0 (若是第二种选择)
10
1. 2 Y 1. 0 0. 8 0. 6 0. 4 0. 2 0. 0 X -0. 2 330 340 350 360 370 380
11
• 对yi取期望, • E(yi) = + xi (2) • 因为yi只能取两个值,0和1,所以yi 服从两点分布。把yi的 分布记为, • P ( yi = 1) = pi • P ( yi = 0) = 1 - pi • 则 • E(yi) = 1 (pi) + 0 (1 - pi) = pi (3)
19
• 3.logit模型
• 该模型是McFadden于1973年首次提出。其采用的是logistic 概率分布函数。其形式是 • pi = F(yi) = F( + xi) =
1 1 e yi
1 1 e
( xi )
=
(7)
• 对于给定的xi,pi表示相应个体做出某种选择的概率。 • Probit曲线和logit曲线很相似。两条曲线都是在pi = 0.5处有 拐点,但logit曲线在两个尾部要比Probit曲线厚。
D1 1 0 1 0 1 0 0 0 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 0 1
obs 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58
Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
18
• 2.Probit(概率单位)模型,仍假定
• yi = + xi , • 而 p i = F ( yi) =
1 2

t2 yi e 2
dt
(6)
• 累积概率分布函数曲线在pi = 0.5附近的斜率最大。 对应yi在实轴上的值,相应概率值永远大于0、小 于1。显然Probit模型比线性概率模型更合理。 • Probit模型需要假定yi 服从正态分布。
i 1 i n 1
26
n
N
• 便可求到 和 的极大似然估计值。 和 的极大 似然估计量具有一致性和渐近有效性,且都是渐 近正态的。
27
• 拟合程度:
28
例:
• 某经济研究所2009级研究生考试分数及录取情况见数据表 (N = 95)。定义变量SCORE :考生考试分数;Y :考生录 取为1,未录取为0;虚拟变量D1:应届生为1,非应届生 为0。
SCORE 332 332 332 331 330 328 328 328 321 321 318 318 316 308 308 304 303 303 299 297 294 293 293 292 291
D1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 0 1 1 1 1 0 1 1 0 1
Y 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0
SCORE 401 401 392 387 384 379 378 378 376 371 362 362 361 359 358 356 356 355 354 354 353 350 349 349 348
离散选择模型
1

如果回归模型的解释变量中含有定性变
量,则可以用虚拟变量处理之。

在实际经济问题中,被解释变量也可能
是定性变量。如通过一系列解释变量的观 测值观察人们对某项动议的态度,某件事 情的成功和失败等。
2

如果回归模型的解释变量中含有定性变
量,则可以用虚拟变量处理之。

在实际经济问题中,被解释变量也可能
• 选择结果与影响因素之间的关系:
• 影响因素包括两部分:决策者的属性和备 选方案的属性。 • 对于两个方案的选择。例如,两种出行方 式的选择,两种商品的选择。由决策者的 属性和备选方案的属性共同决定
6
• • • • •
对于单个方案的取舍。例如: 购买者对某种商品的购买决策问题; 求职者对某种职业的选择问题; 投票人对某候选人的投票决策; 银行对某客户的贷款决策。
1.2 Y 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 100 SC OR E 200 300 400
29
• 得Logit模型估计结果如下 • (EViews命令:Quick, estimate equation分 别选Probit或Logit):
30
31
• 因为D1的系数没有显著性。说明“应届生”和“非应届生” 不是决定是否录取的重要因素。剔除D1。得Logit模型估计 结果如下:
15
• 由于线性概率模型的上述缺点,希望能找到一种变换方法, (1)使解释变量xi所对应的所有预测值(概率值)都落在 (0,1)之间。
• (2)同时对于所有的xi,当xi增加时,希望yi也单调增加或
单调减少。显然累积概率分布函数F(zi) 能满足这样的要求。 采用累积正态概率分布函数的模型称作Probit模型。用正 态分布的累积概率作为Probit模型的预测概率。另外 logistic函数也能满足这样的要求。采用logistic函数的模型 称作logit模型。
355
359 360 365 370
-1.43
0.00 0.59 2.60 4.62
0.0764
0.5000 0.7224 0.9953 0.9999
-2.55
0.00 0.85 4.24 7.64
0.0738
0.5000 0.7032 0.9858 0.9995
36
obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
是定性变量。如通过一系列解释变量的观 测值观察人们对某项动议的态度,某件事 情的成功和失败等。
4

在大多数调查中,行为回答都是分类型的:
如人们在选举时投支持支持或否决票,乘地
铁、公共汽车、或轿车,在业或失业等。

二元离散选择模型假设每一个个体都 面临二者挑一的选择,并且其选择依赖于
可分辨的特征。
5
D1 0 0 1 1 0 1 1 1 0 0 0 1 1 1 0 0 1 0 0 1 1 1 1 1 37 1
• 例:农户劳动力的非农业就业模型。
• 主要任务是要考察影响农村居民家庭劳动力非农业就业的主要因素, 尤其重点考察教育程度对非农业就业的影响。
• 一般而言,在劳动力市场发育相对成熟的条件下,教育可以提高劳动

pi = F(yi) = F (-144.456 + 0.4029 xi)
1. 2 Y F PR OB 1. 0 0. 8 0. 6 0. 4 0. 2 0. 0 -0. 2 100 SC OR E 200 300 400
Probit模型预测值
34
35
• 两种估计模型的若干预测结果如下表:
score 350 Probit模型 Y pi -3.44 0.0003 Logit模型 Y -5.95 pi 0.0026
• 由(2)和(3)式有 • p i = + xi (4) • (yi的样本值是0或1,而预测值是概率) • 以pi = - 0.2 + 0.05 xi 为例,说明xi 每增加一个单位,则采 用第一种选择的概率增加0.05。 • 现在分析模型误差的分布。
12
• 由模型(1)有,
1 xi , • ui = yi - - xi = x i ,
yi 1 yi 0
• E(ui) = (1- - xi) pi + (- - xi) (1 - pi) = pi - - xi=0
• 因为yi只能取0, 1两个值,所以, • E(ui2) = (1- - xi)2 pi + (- - xi)2 (1 - pi) • = (1- - xi)2 ( + xi) + ( + xi)2 (1 - - xi), • = (1- - xi) ( + xi) = pi (1 - pi) , • = E(yi) [1- E(yi) ]
观测值为第一种选择,后N-n个观测值为第二种选择(观测值是 0,1的,但相应估计的概率却各不相同),则似然函数是
• L(, ) = P (y1, y2, …, yN) = P (y1) P (y2) … P (yN) = p1 … pn (1 - pn + 1)
…(1 – pN )
pi (1 pi )
obs 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91
Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
SCORE 275 273 273 272 267 266 263 261 260 256 252 252 245 243 242 241 239 235 232 228 219 219 214 210 204
相关文档
最新文档