第6讲_离散因变量模型2

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

模型的基本框架
• 强调决策主体
– 在多元选择模型中,每一个观察对象都是决策 主体
– 所观察到的因变量取值都是理性个人的选择结 果
– 用i={1,2,...,n}表示决策者 – 用向量xi表示第i个抉择者或个人所拥有的个人
特征
• 如:性别、收入、受教育水平等等
• 对选项的表示
– 决策主体在进行选择时,所面临的选择集为: S=(1,2,⋯,J)
– zj无疑是影响消费者选择的重要因素,并假定zj 的变化不随i的不同而变化
• 对选择结果的表示
– 我们用yi表示第i个人的选择结果,yi=j表示个人 i选择了选项j
– 这个结果总能够被观察到
– 我们也可以用一个虚拟变量来表示,即:
• 随机效用函数
– 个人i选择了选项j得到的效用具有随机形式 Uij = xi β j + zj δ + uij = Vij + uij
– 效用最大化假设使多元选择模型的推导具有更 加清晰的微观理论依据
– 根据效用最大化假设,我们有:
yi=j 当且仅当 Uij≥Uis, ∀j≠s – 即决策者将选择带给他最大效用的那个选项
• 选择概率
– 给定决策者的个人特征xi以及选项的性能指标 zj,决策者i选择j的概率可以表述为:
pij = Pr( yi =j | xi , z j ) = Pr( yij = 1 | xi , z j ) = Pr(Uij ≥ Uis ,∀s ≠j) = Pr(uis ≤ uij + Vij −Vis ,∀s ≠j)
• 其密度函数和分布函数分别为: f(u)=exp(-u)⋅exp(-exp(-u)) F(u)=exp(-exp(-u))
• uij独立于个人和选项
选择概率
• 选择概率为:
• 可以证明,在Logit模型中:
ML估计
• Logit模型的对数似然函数具有相对简单的 形式,即:
• 对数似然函数对于所有参数是全局凹的, 因此估计值存在且唯一
检验结果输出:
Testing parallel lines assumption using the .05 level of significance...
Step 1: Constraints for parallel lines imposed for male (P Value = 0.3676) Step 2: Constraints for parallel lines are not imposed for
样本量
2002年 2005年 2008年 2011年 最小值 最大值
0.574 0.567 0.498 0.479
0
1
0.426 0.433 0.502 0.521
0
1
0.574 0.567 0.498 0.479
0
1
0.262 0.280 0.324 0.340
0
1
0.164 0.153 0.178 0.181
• 在这一节中,离散因变量的取值多于两个, 为多元情况
• 不仅如此,我们把因变量的取值结果放在消 费者决策的背景下进行讨论
– 也就是说,因变量y的取值是由理性消费者基于效 用最大化考虑所作出的选择
– 我们把这类模型称为多元选择模型
例子
• 多元选择的例子在现实中随处可见
– 消费者对于同类商品不同品牌的选择 – 大学生毕业时对于工作、国内深造还是出国深造 的选择 – 人们出行时对于公共汽车、地铁、出租车以及自 驾等不同交通模式的选择 – 网民搜索信息时,对于google,yahoo,百度,以 及其它搜索引擎的选择 – 消费者对于商店、网络和邮购等购物方式的选择 – 消费者对于不同金融投资产品的选择
• 老年人更偏好前者,年轻人则更接受后者 • 随着年龄的增加,有线电话的边际效用会大于网络 电话,
•β1 > β2
– δ是固定参数,它不随选项而变化
• 选项的性能带给消费者的边际效用是固定的 • 例如,汽车的油耗水平、宽敞舒适度
• 效用最大化假设
– 当我们强调决策主体为理性个人时,意味着个 人在进行选择决策时,他们最终所选择的选 项,一定使他们的效用在约束条件下达到最大
0
1
来自百度文库
3.95
3.98
3.93
3.92
1
11
77.93 78.36 78.71 78.55
60
90
0.501 0.496 0.509 0.518
0
1
0.538 0.558 0.606 0.524
0
1
8,703 9,010 9,289 5,882
Ordered Logit回归指令
ologit nest childsurv married trueage male rural if period==2002
就需要考虑分层选择模型
Multinomial Logit 模型
• 效用函数
Uij = xi β j + uij – 效用仅仅取决于决策者个人的特征,与选项的
特征无关
• 选择概率
– 模型只能识别βs-βj,而不能识别βj
• 如果将β1标准化为零,即将选项1作为基 准选项或对比组时,我们有:
– 这个结果非常类似于二元Logit模型的形式,因 此对参数的解释也具有类似的内容
多元Logit模型
(Multinomial Logit)
• 对uij的分布假设 • 选择概率 • ML估计(maximum likelihood) • IIA假设(Independent and irrelevant alternatives)
对uij的分布假设
• 假设uij独立同分布于极端值分布,即 uij ∼ type I extreme value distribution
probably, not sure, probably not, definitely not
模型设定
概率分配:
Ordered Logit
~ N(0,1)
应用实例
因变量:老年空巢情况 1)两分法: nest01=0:未空巢 nest01=1:空巢 2)三分法: nest=0:未空巢 nest=1:半空巢 nest=2:完全空巢 自变量: childsurv:目前存活子女数量 trueage:老人年龄 male:男性(女性=0) rural:居住在农村(城镇=0)
IIA假设
• 假设消费者在集合(s,j)中进行选择,由Logit模型 可以得到:
• 个人i选择j和s的机会比只与j和s两个选项有关, 而与其它选项无关
– 这意味着如果我们从选择集中,去掉或加入其它的选项 ,都不会影响个人i选择j和s的机会比
– 这个假设成立的条件就是随机效用函数中的uij相互独立 – 被称为无关选项独立性假设(IIA, Independence of
– 在计量软件包的Multinomial Logit 模型估计结 果输出中,给出的通常是选定对比组后的相对 参数估计值
对参数的解释
• 如果将β1标准化为零, 有
• 它表示相对于选项1,xi对选择j和1的概率 比对数的边际影响
边际影响
• xi对于pij的影响不仅取决于βj而且取决于所 有选项的参数
样本量
2002年 2005年 2008年 2011年 最小值 最大值
0.574 0.567 0.498 0.479
0
1
0.426 0.433 0.502 0.521
0
1
0.574 0.567 0.498 0.479
0
1
0.262 0.280 0.324 0.340
0
1
0.164 0.153 0.178 0.181
机会比
• 在多元选择模型中, 定义机会比为消费者 对选项j和被标准化的选项1的选择概率比:
应用实例
因变量:老年空巢情况 1)两分法: nest01=0:未空巢 nest01=1:空巢 2)三分法: nest=0:未空巢 nest=1:半空巢 nest=2:完全空巢 自变量: childsurv:目前存活子女数量 trueage:老人年龄 male:男性(女性=0) rural:居住在农村(城镇=0)
( 1) [0]male - [1]male = 0
chi2( 1) = 0.81 Prob > chi2 = 0.3676
An insignificant test statistic indicates that the final model does not violate the proportional odds/ parallel lines assumption
输出边际效应: mfx
检验ordered Logit模型的平行性假设 (proportional odds assumption,使用parallel line test):
• 首先,需要在Stata软件中安装gologit2模块 ssc install gologit2
• 接下来,使用命令: gologit2 nest childsurv married trueage male rural if period==2002, autofit
Irrelevant Alternatives)
• IIA假设要求在控制可观测变量的基础上, 任何两个选项的效用是独立的
• 当IIA假设能够满足时,即使J很大,我们也 可以利用所观察到的消费者对其子集中的 部分选项的选择结果,对模型的参数进行 估计
• 但是IIA假设在有些情况下与现实并不相符 • 当引入相似的选项时,IIA假定会被破坏,
childsurv (P Value = 0.00000) married (P Value = 0.00027) trueage (P Value = 0.00028) rural (P Value = 0.00000)
Wald test of parallel lines assumption for the final model:
• 其中,j={0,1,...,J}为选择集中的选项
• 这些选项是有限的,互斥的,并且没有遗漏的可能
– 向量zj表示第j个选项所具有性能指标或技术参 数
• 例如,当网民对搜索引擎进行选择时,会考虑到搜索 速度;页面是否简洁、友好;弹出广告是否频繁;支 持语言的种类等等,这些指标就构成选项的 性能向 量z
0
1
3.95
3.98
3.93
3.92
1
11
77.93 78.36 78.71 78.55
60
90
0.501 0.496 0.509 0.518
0
1
0.538 0.558 0.606 0.524
0
1
8,703 9,010 9,289 5,882
Multinomial Logit回归指令
mlogit nest childsurv married trueage male rural if period==2002
– 消费者i选择j的效用,只与本人的个人特征以及 选项j的性能指标有关
– zj的变化只影响消费者选择j的效用,而不影响 她选择s的效用
– uij的分布形式将决定我们后面选择概率的形式 和结果
– βj会随选项的不同而不同
• 举例而言,在有线电话(记作选项1)和网络电话 (记作选项2)的两种通讯方式中,年龄对于效用的 边际影响是不同的
– Educational data: level of schooling: grade school graduate, high school graduate, some college education, college graduate, some advanced degree
– Employment data: unemployed, part-time, full time. – Bond ratings – Nonmarket valuation: WTP questions – definitely,
输出边际效应: mfx
定序Logit模型(Ordered Logit)
• Ordered responses arise in many empirical settings
– Opinion surveys: asking if you strongly agree, slightly agree, slightly disagree, or strongly disagree with a statement.
第六讲
离散因变量模型2:多元选择模型
主要内容
• 多元选择模型的基本框架与符号表示 • Multinomial Logit 模型 • Ordered Choice 模型 • Conditional Logit 模型 • Nested Logit 模型
什么是多元选择模型
• 在上一节,我们讨论了因变量为二元离散 变量的情形
相关文档
最新文档