第五章 离散选择模型

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 1、线性概率模型的概念。 • 设家庭购买住房的选择主要受到家庭的收入水平,则用如
下模型表示
Yi 1 2 X i ui
Yi 为家庭购买住房的选择,即 • 其中 X i为家庭的收入水平,
1 Y 0 家庭已购买住房 家庭无购买住房
• 则 Y的分布为
YΒιβλιοθήκη Baidu
概率
0
1-p
1
p
• 则Y 的数学期望为
析中最大似然估计法可以得到与最小二乘法一致的结果。但是,
与最小二乘法相比,最大似然估计法既可以用于线性模型,又 可以用于非线性模型,由于Logit回归模型是非线性模型,因此, 最大似然估计法是估计Logit回归模型最常用的方法。下面,以 单变量为例,说明具体的估计方法。
假设有 n 个样本观测数据 ( X i , Yi ), i 1,2,, n , 由于样本是随机抽取, 所以, 在给定 X i 条件下得到的 Yi 1 和 Yi 0 的概率分别是 pi 和 1 pi 。于是,一个观测 值的概率为
• (1)随着 X i 的减小, pi 趋近0的速度会越来越慢;反过
来随着 X i 的增大,pi 接近1的速度也越来越慢,而当 X i 增加很快时,pi的变化会比较快。故 pi与 X i之间应呈非线 性关系。
• (2) pi 的变化始终在0和1之间
p
X
图 5.1 一个累积分布函数的图形
• (3)设
1 2 X i Y ( X ) ln(1 e ) 2 i i 1
i 1 n
ˆ和 称上式为对数似然函数。为了估计能使 ln L(1, 2 ) 有最大的总体参数估计 1 ˆ ,先分别对 , 求偏导数,然后令其为 0,得 1 2 2
5.2 Logit模型
• 一、Logit模型的产生 • 1、产生Logit模型的背景 • 对于线性概率模型来说,存在一些问题 • (1)古典假定不再成立 • (2)
0 E(Yi X i ) 1
• (3)经济意义也不能很好地得到体现 • 购买住房的可能性与收入之间应该是一种非线性关系
• 2、Logit模型的含义
题、就业问题、购买行为等经济决策领域的研究。
• 2、被解释变量取值是连续的,但取值的范围受到限制,
或者将连续数据转化为类型数据。
• 在研究居民储蓄时,调查数据只有存款一万元以上的帐户, 这时就不能以此代表所有居民储蓄的情况,这种数据称为 截断数据。这两种数据所建立的模型称为受限被解释变量 模型。
• 二、线性概率模型
1, 跳槽 Y 0, 不跳槽
• 例5.3 对某项建议进行投票。建议对投票者的利益影响是 无法知道的,但可以观察到投票者的行为只有三种,即
1, 支持 Y 2, 反对 3, 弃权
• 从上述被解释变量所取的离散数据看,如果变量只有两个
选择,则建立的模型为二元离散选择模型,又称二元型响 应模型;如果变量有多于二个的选择,则为多元选择模型。 本章主要介绍二元离散选择模型。 • 1962年,Warner首次将它应用于经济研究领域,用于研究 公共交通工具和私人交通工具的选择问题。70-80年代, 离散选择模型被普遍应用于经济布局、企业选点、交通问
ui Yi 1 2 X i Yi 1, Yi 0, ui 1 1 2 X i ui 1 2 X i
• (2) u i 的异方差性
Var (ui ) E (ui E (ui )) 2 E (ui2 ) ( 1 2 X i )2 (1 p) (1 1 2 X i ) 2 p p 2 (1 p) (1 p) 2 p p(1 p)[ p 1 p] p(1 p)
E (Y ) 0 (1 p) 1 p
P(Y 1 X i ) p E(Y )
E(Y X i ) 1 2 X i p
• 因此, 家庭选择购买住房的概率是家庭收入的一个线性函 数。我们称这一关系式为线性概率函数。 • 2、线性概率函数的估计 • (1)随机误差项的非正态性表现
将其作为 pi 的估计,并代入对数机会比,有
ˆi p ln( ) ˆi 1 p p l n (i 1 pi )
于是,样本回归函数为
ˆi p ˆ ˆ X ln( ) 1 2 i ˆi 1 p
对上式可直接运用 OLS 法估计未知参数了。
• 2、最大似然估计方法。
• 在线性回归中估计总体未知参数时主要采用OLS方法,这一 方法的原理是根据线性回归模型选择参数估计,使被解释变量 的观测值与模型估计值之间的离差平方值为最小。而最大似然 估计方法则是统计分析中常用的经典方法之一,在线性回归分
• 二、Logit模型的估计
p 为了估计 Logit 模型,除了 X i 外,我们还应有 ln( ) 的数值。由于 pi 只取 1 p p 值为 1 和 0,使得 ln( ) 无意义,所以直接对 Logit 模型进行估计有困难。 这 1 p
时,通常有以下估计方法。 1、根据数据类型选用 OLS 方法。
• 三、Logit 回归模型的评价和参数的统计检验
• 1、模型的拟合优度检验
(1)McFadden R 2 在前面的介绍中,已经提到对于离散选择模型,通常的拟合优度 R 2 没有多
2 大意义。在 EViews 软件里,有一种方法即 McFadden R 2 ,简记为 RMcF 。其计
算公式为
R
2 McF
n
n
• 将上式两端取对数得
n Yi (1Yi ) ln L( 1 , 2 ) ln pi (1 pi ) i 1 Yi ln pi (1 Yi ) ln(1 pi )
i 1 n n
pi Yi ln( ) ln(1 pi ) 1 pi i 1 n e 1 2 X i Yi ( 1 2 X i ) ln(1 ) 1 2 X i 1 e i 1
第五章 离散选择模型
5.1 线性概率模型(LPM) 5.2 Logit模型 5.3 Probit模型
5.1 线性概率模型(LPM)
• 一、问题的提出
• 在研究社会经济现象时,常常遇见一些特殊的被解释变量, 其表现是选择与决策问题,是定性的,没有观测数据所对
应;或者其观测到的是受某种限制的数据。
• 1、被解释变量是定性的选择与决策问题,可以用离散数
(2)期望-预测表检验。 该方法的原理是,在模型参数估计后,选取适当的截断值 p(0 p 1) ,将观测数
ˆ ˆX。 据分成两组, 一组为 1/(1 e Z ) ≤ p , 另一组为 1/(1 e Z ) > p , 其中, Zi 1 2 i
如果样本中的一个观测数据的 Y 数值为 0,并且该样本属于第 1
• (3)利用加权最小二乘法修正异方差
wi p(1 p) ( 1 2 X i )(1 1 2 X i ) Yi wi
1
wi
2
Xi wi

ui wi
• 3、 R 2 可决系数 的非真实性
• 4、 0 E(Yi X i ) 1不成立
• 5 一个例子
p ) 对 X i 为线性函数。 (2) ln( 1 p p ) 为正的时候, (3) 当 ln( 意味着随着 X i 的增加, 选择 1 的可能性也增大了。 1 p p ) 为负的时候,随着 X i 的增加,选择 1 的可能性将减小。换言之,当机 当 ln( 1 p p ) 会变负并且在幅度上越来越大;当机会比由 1 变到 会比由 1 变到 0 时, ln( 1 p p ) 为正,并且也会越来越大。 无穷时, ln( 1 p
n
0 X i 0
对于 Logit 回归中的上述两个方程是关于 1 , 2 的非线性函数,求解十分困难
• Logit回归最大似然估计的统计性质
• (1)参数估计具有一致性,即当样本观测增大时,模型
的参数估计值将比较接近参数的真值。 • (2)参数估计为渐近有效,即当样本观测增大时,参数 估计的标准误相应减小。 • (3)参数估计满足渐近正态性,即随着样本观测的增大, 估计的分布近似于正态分布。这意味着,可以利用这一性 质对未知参数进行假设检验和区间估计了。
LIFur 1 LIFr
式中, LIFur 为模型中包含所有解释变量的无约束对数似然函数值, LIFr 为模型 中仅含有截距项的有约束的对数似然函数值。从概念上讲, LIFur 和 LIFr 分别等
2 价于普通线性回归模型中的 TSS 和 RSS。 与 R 2 一样, 也在 0 到 1 之间变动。 RMcF
ln L( 1 , 2 )
e 1 2 X i Yi 1 1 e 1 2 X i i 1 ln L( 1 , 2 ) n e 1 2 X i Yi 1 2 X i 2 1 e i 1
• 其中
pi 1 pi
(*)
为机会概率比(简称机会比,下同),即事件发
生与不发生所对应的概率之比。称(*)式为Logit模型
• 3、Logit模型的特点
p (1)随着 P 从 0 变到 1(亦即 Zi 从 变到 ) , ln( ) 从 变到 。可 1 p
以看出,在 LPM 中概率必须在 0 与 1 之间,但在 Logit 模型并不受此约束。
• 组,或者一个观测数据的 数值为1,并且属于第2组,就称 这个观测数据是分组恰当的,否则就称这个观测数据是分
组不恰当的。如果模型估计与实际观测数据比较一致,则
大多数的观测数据应该是分组恰当的,反之,如果分组不 恰当的观测数据所占的比重很大,说明模型估计与实际观 测数据的拟合程度较差,模型需要调整。因此,该方法的 思想是利用分组恰当与否,得到观测数据占总样本的比重
1 1 pi F ( zi ) zi 1 e 1 e ( 1 2 X i )
当 Zi 时, pi 1 ; 当 Zi 时, pi 0 ; 当 Zi 0 时, pi
1 。 2
• (4)Logit模型
1 1 1 pi , 1 pi 1 Zi Zi 1 e 1 e 1 e Zi pi 1 e Zi Zi e 1 pi 1 e Zi pi ln( ) Zi 1 2 X i 1 pi
P(Yi ) piYi (1 pi )1Yi
其中, Yi 1 或 Yi 0 。因为,各项观察相互独立,则 n 次观察所得的样本数据的 联合分布可表示为各边际分布的连乘积
L( 1 , 2 ) P(Yi ) piYi (1 pi )(1Yi )
i 1 i 1
ˆi 可通过市场调查获得分组或重复数据资料,用相对频数 p ri 作为 pi 的估计。 ni
以购买住房为例, 将购买住房的情况分组, 假设第 i 组共有 ni 个家庭, 收入为 X i , 其中有 ri 个家庭已购买住房,其余未购买。则收入为 X i 的家庭,购买住房的频率 为
ri ˆi p ni
据表示,即取值是不连续的。
• 例5.1 研究家庭是否购买住房。由于,购买住房行为要受
到许多因素的影响,不仅有家庭收入、房屋价格,还有房 屋的所在环境、人们的购买心理等,所以人们购买住房的 心理价位很难观测到,但我们可以观察到是否购买了住房, 即

1, 购买 Y 0, 不购买
• 例5.2 分析公司员工的跳槽行为。员工是否愿意跳槽到另 一家公司,取决于薪资、发展潜力等诸多因素的权衡。员 工跳槽的成本与收益是多少,我们无法知道,但我们可以 观察到员工是否跳槽,即
相关文档
最新文档