离散选择模型

合集下载

离散选择模型完整版

离散选择模型HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】第五章离散选择模型在初级计量经济学里，我们已经学习了解释变量是虚拟变量的情况，除此之外，在实际问题中，存在需要人们对决策与选择行为的分析与研究，这就是被解释变量为虚拟变量的情况。

我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型，本章主要介绍这一类模型的估计与应用。

本章主要介绍以下内容：1、为什么会有离散选择模型。

2、二元离散选择模型的表示。

3、线性概率模型估计的缺陷。

4、Logit模型和Probit模型的建立与应用。

第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时，常常遇见一些特殊的被解释变量，其表现是选择与决策问题，是定性的，没有观测数据所对应；或者其观测到的是受某种限制的数据。

1、被解释变量是定性的选择与决策问题，可以用离散数据表示，即取值是不连续的。

例如，某一事件发生与否，分别用1和0表示；对某一建议持反对、中立和赞成5种观点，分别用0、1、2表示。

由离散数据建立的模型称为离散选择模型。

2、被解释变量取值是连续的，但取值的范围受到限制，或者将连续数据转化为类型数据。

例如，消费者购买某种商品，当消费者愿意支付的货币数量超过该商品的最低价值时，则表示为购买价格；当消费者愿意支付的货币数量低于该商品的最低价值时，则购买价格为0。

这种类型的数据成为审查数据。

再例如，在研究居民储蓄时，调查数据只有存款一万元以上的帐户，这时就不能以此代表所有居民储蓄的情况，这种数据称为截断数据。

这两种数据所建立的模型称为受限被解释变量模型。

有的时候，人们甚至更愿意将连续数据转化为上述类型数据来度量，例如，高考分数线的设置，就把高出分数线和低于分数线划分为了两类。

下面是几个离散数据的例子。

例研究家庭是否购买住房。

由于，购买住房行为要受到许多因素的影响，不仅有家庭收入、房屋价格，还有房屋的所在环境、人们的购买心理等，所以人们购买住房的心理价位很难观测到，但我们可以观察到是否购买了住房，即我们希望研究买房的可能性，即概率(1)P Y =的大小。

《离散选择模型》课件

极大似然估计法
通过最大化似然函数，估计模型的参数值。
差分法估计法
通过对变量的差分进行估计，减少了共线性问题的影响。
一般化估计方程法
通过建立一般化估计方程，对参数进行估计。
离散选择模型的应用
公共交通出行方式选择
分析人们在选择公共交通出行方式时的决策行为，为政府制定交通政策提供依据。
食品品牌选择
确定性
选择结果是确定的，参与者不受随机因素的影响。
离散选择模型的数学模型
1Байду номын сангаас
多项式Logit模型
通过对选择概率进行建模，预测参与者选择各个选项的概率。
2
二项式Logit模型
基于二项分布，预测参与者是否选择某个选项。
3
线性概率模型
使用线性回归方法，预测选择某个选项的概率。
离散选择模型的参数估计方法
离散选择模型是一种描述人们在面临离散选择时决策行为的数学模型。
2 离散选择模型的应用领域
离散选择模型被广泛应用于诸多领域，如公共交通、市场营销和行为经济学等。
离散选择模型的基本假设
可比性
各个选择项之间可以进行比较，存在客观标准用于决策。
独立性
参与者之间的选择行为是独立的，不受其他参与者的影响。
《离散选择模型》PPT课件
离散选择模型是一种用于分析人们在面临离散选择时的决策行为的统计模型。本课件将介绍离散选择模型的定义、基本假设、数学模型、参数估计方法、应用、不足及未来发展方向。
什么是离散选择模型
离散选择模型是一种用于研究人们在面临可选项时所作出的离散决策行为的统计模型。
1 离散选择模型的定义
将离散选择模型与其他决策模型进行结合，以提高模型的准确性和解释能力。

Discrete Choice Modeling 培训课件

例如，可以研究劳动者在选择工作时对工资、工作条件、职业发展前景等因素的偏好和选择行为，从而为政府和企业提供劳动力市场政策建议。
产品差异化研究
产品差异化研究是离散选择模型在市场营销领域的应用。
通过离散选择模型，可以分析消费者对不同品牌或型号产品的偏好和选择行为，并探究产品差异化的影响。
例如，可以研究消费者在购买手机时对品牌、型号、功能、价格等方面的偏好和选择行为，从而为手机制造商提供产品定位和市场策略建议。
在离散选择模型中，广义最小二乘法可以用于处理选择概率与模
型参数之间的非线性关系。
该方法通过对误差项的方差进行调整，以考虑选择概率的非线性影响，从而更准确地估计参数。
工具变量法
工具变量法是一种用于处理内生性问题的参数估计方法。
在离散选择模型中，工具变量法可以用于处理选择误差与模型解释变量之间的
面板数据模型
总结词
面板数据模型是一种利用时间序列和截面数据的离散选择模型，用于分析时间和个体异质性的影响。
详细描述
面板数据模型利用时间和个体两个维度来扩展离散选择模型。通过利用时间序列数据，面板数据模型可以估计时间和个体异质性对选择行为的影响。这种模型适用于具有时间和个体变化特征的数据，例如消费者行为、投资决策等。面板数据模型可以帮助我们更
相关性问题。
该方法通过引入一个或多个与内生解释变量相关，但与误差项无关的工具变量来估计参数。工具变量的选择应满足与内生解释变量相关，但与误差项无关的
条件。
04
离散选择模型的扩展和应用
混合模型
总结词ห้องสมุดไป่ตู้
混合模型是一种将离散选择模型与连续变量相结合的模型，用于同时估计离散选择和连续变量的影响。

离散选择模型和连续选择模型的比较分析

离散选择模型和连续选择模型的比较分析一、引言选择模型是指通过研究个体选择行为来预测市场需求的一种模型。

根据选择的属性是否可测，选择模型可以分为离散选择模型和连续选择模型。

离散选择模型是指选择行为的结果是分类的，例如选择是A、B还是C。

而连续选择模型是指选择行为的结果是连续的，例如选择的数量是多少。

本文将对离散选择模型和连续选择模型进行比较分析。

二、离散选择模型离散选择模型常用于解释市场需求中的离散选择行为，包括二项选择模型、多项选择模型、有序多项选择模型等。

1、二项选择模型二项选择模型常用来解释个体在两个选项之间进行选择的概率。

其模型设定为，在两个选项中，个体选择第一个选项1的概率为P，选择第二个选项2的概率为1-P，二者之和为1。

该模型假设个体根据其效用（utility）差异进行选择，即个体会选择能够获得最大效用的选项。

2、多项选择模型多项选择模型常用来解释个体在多个选项之间进行选择的概率。

其模型设定为，对于N个选项，个体选择第i个选项的概率为Pi，所有选项的概率之和为1。

该模型假设个体会选择能够获得最大效用的项，效用函数通常采用对数线性模型（Logit Model）。

3、有序多项选择模型有序多项选择模型常用来解释个体在多个选项之间进行有序选择的概率。

例如，当个体面对三个不同价格的产品时，个体有可能在选择第一价格区间的产品、第二价格区间的产品或者第三价格区间的产品。

该模型假设选择的概率是对价值的一次函数，因此需要先对选项进行排序以确定选择的顺序，然后再推导选择的概率。

三、连续选择模型连续选择模型常用于解释市场需求中的连续选择行为，包括对数线性模型、线性规划模型等。

1、对数线性模型对数线性模型是一种常用的连续选择模型。

它假设个体的效用函数是一个对数线性函数，其中因变量是一个连续变量，例如价格、数量等。

对数函数可以将效用函数转化为线性形式，从而便于分析。

2、线性规划模型线性规划模型是一种常用的数学优化模型，用于解决连续选择问题。

离散选择模型解释

离散选择模型解释离散选择模型，听起来是不是有点高大上，有点让人摸不着头脑？其实啊，它没那么神秘！咱们先来说说啥是离散选择模型。

就好比你去逛街买衣服，面对一排五颜六色、款式各异的衣服，你只能选一件。

这时候你的选择就是离散的，要么选这件，要么选那件，不可能同时选好几件穿在身上。

离散选择模型就是研究像这样的选择行为的。

比如说，你要出门旅游，有几个目的地可以选：海边、山区、城市。

那影响你最终决定的因素可能有很多，比如海边风景美但可能人多；山区空气好但交通不太方便；城市热闹但消费高。

离散选择模型就能帮我们分析这些因素是怎么影响你的最终决定的。

这就好像是一场内心的拔河比赛。

各种因素在你心里较着劲，有的使劲把你往海边拉，有的拼命把你往山区拽，还有的用力把你往城市推。

最后哪个因素的力量大，你就选择了对应的地方。

再举个例子，你每天早上纠结吃包子还是油条。

包子馅种类多，油条口感酥脆。

价格、营养、喜好等等都会影响你的选择。

离散选择模型就是要搞清楚这些因素到底谁占了上风，让你做出了决定。

你想想，要是商家能搞懂消费者在他们的产品里是怎么做出离散选择的，那他们不就能更好地迎合消费者的需求，赚更多的钱啦？反过来，政府也能通过这个模型了解大家对公共服务的选择偏好，从而提供更合大家心意的服务。

离散选择模型可不只是在经济领域有用哦。

比如说交通规划，是修地铁还是建公交专线？教育方面，是选择传统教学还是在线课程？甚至在医疗领域，选择哪种治疗方案，都能通过这个模型来分析。

所以说，离散选择模型就像是一个神奇的透视镜，能让我们看清那些看似随机的选择背后隐藏的规律和影响因素。

它能帮助我们做出更明智的决策，无论是个人生活中的小选择，还是社会发展中的大决策。

你说，这么有用的模型，咱能不好好研究研究，好好利用利用吗？。

离散选择模型步骤

离散选择模型步骤离散选择模型是一种决策分析方法，用于在给定的有限选项中选择最佳决策。

它在经济学、管理学、工程学等领域得到广泛应用。

本文将介绍离散选择模型的主要步骤。

1. 确定决策问题：首先，需要明确决策问题的目标和限制条件。

决策问题可以是各种各样的，比如选择投资项目、确定市场定价策略等。

明确问题是为了确保模型的设计和应用是有针对性的。

2. 收集决策信息：在进行决策分析之前，需要收集相关的信息和数据。

这些信息可以来自于市场调研、历史数据、专家意见等。

信息的准确性和全面性对于模型的建立和分析至关重要。

3. 确定决策变量：决策变量是指影响决策结果的因素。

在离散选择模型中，决策变量通常是一组有限的选项。

例如，在选择投资项目时，决策变量可以是不同的项目选项。

4. 制定决策准则：决策准则是指用于评估和比较不同选项的标准。

决策准则可以是单一的，也可以是多个综合考虑的因素。

常见的决策准则包括效益、成本、风险等。

5. 构建数学模型：离散选择模型可以使用多种数学方法进行建模，例如概率论、决策树、多属性决策等。

根据具体情况选择合适的方法，并建立相应的数学模型。

6. 分析决策结果：通过对模型进行求解，得到不同选项的决策结果。

分析决策结果可以包括对每个选项的评估、比较不同选项的优劣等。

还可以进行灵敏度分析，研究模型对参数变化的敏感性。

7. 做出最佳决策：根据分析结果，选择最佳决策。

最佳决策应该是在给定目标和限制条件下，使得决策准则达到最优的选项。

8. 验证和调整模型：一旦做出决策，需要验证模型的有效性，并根据实际情况对模型进行调整。

如果模型的预测结果和实际结果存在较大差异，可能需要重新收集数据或重新制定决策准则。

总结起来，离散选择模型的步骤包括确定决策问题、收集决策信息、确定决策变量、制定决策准则、构建数学模型、分析决策结果、做出最佳决策以及验证和调整模型。

通过这些步骤，可以帮助决策者更好地理解问题、分析选项，并做出科学合理的决策。

离散选择模型

在这个回归结果图中log likelihood即对数似然值，不断的试错迭代是 logit模型的估计方法，在逐步进行回归时，通过比较不同模型的-2LL 判断模型的拟合优度，选择取值更小的模型。LR chi2(4)是卡方检验的统计量，也就是回归模型无效假设所对应的似然比检验量；其中4 为自由度，Prob>chi2 是其对应的P值，在这个估计结果显示以p=0 显著说明模型的有效性。其实这两个指标与线性回归结果中F统计量和P值的功能是大体一致的。另外结果中的Pseudo R2是准R2，虽然不等于R2,但可以用来检验模型对变量的解释力，因为二值选择模型是非线性模型，无法进行平方和分解，所以没有，但是准衡量的是对数似然函数的实际增加值占最大可能增加值的比重，所以也可以很好的衡量模型的拟合准确度。此logit模型中拟合优度为0.1882。 coef是自变量对应的系数估计值，OLS通过t检验来检验估计量是否显著，logit模型通过z检验来判断其显著性；通过z检验结果可以看到此模型中系数均以p=0显著不为0。
二实验操作指导 1.选择合理模型在Stata中将数据按照某个或某几个变量进行分类并按这个变量获得其频数分布的命令如下： tab varlist 其中varlist表示按照其分类的变量或者变量组合。在本实验中，打开数据文件并将数据按brand取值分类，在Stata命令窗口中输入如下命令 use brand ,clear tab brand 读图可知brand取值有三个，分别是1，2，3。由于所要探究的问题female和age对brand的影响，且假定了选择各个品牌之间是相互独立的，那么建立多值选择模型来分析问题是合理的。
二实验内容和数据来源
本实验来自某统计资料，统计在购物时所选品牌与性别、年龄的关系。变量主要有brand（品牌），female（性别），age（年龄）。完整的数据在本书附带光盘data文件夹下“brand.dta” 中。本实验用此数据来以female和age为解释变量， brand为被解释变量，brand的取值是离散的，且有三个取值，应建立多值选择模型进行相关分析。

动态离散选择模型贝尔曼公式

动态离散选择模型贝尔曼公式
动态离散选择模型通常指的是使用离散选择模型来处理时间序列数据中的动态选择问题。

这种模型通常用于预测在给定一系列选项（例如，不同产品或服务）中，决策者在不同时间点上的选择行为。

至于贝尔曼公式，它是以理查·贝尔曼（Richard E. Bellman）的名字命名的，是数值最优化方法中的一个必要条件，也被称为动态规划。

贝尔曼公式以一些初始选择的收益以及根据这些初始选择的结果导致的之后的决策问题的“值”，来给出一个决策问题在某一个时间点的“值”。

这样可以把一个动态规划问题离散成一系列的更简单的子问题，这就是贝尔曼优化准则。

因此，动态离散选择模型和贝尔曼公式都涉及到对时间序列数据的分析和预测，但是它们的关注点和应用领域略有不同。

动态离散选择模型主要关注决策者在给定选项下的选择行为，而贝尔曼公式则更侧重于通过一系列的子问题来求解最优解。

stata上机实验第六讲离散选择模型(共43张PPT)

第二十六页，共43页。
左边断尾：truncreg y x1 x2 x3,ll(#) 右边(yòu bian)断尾：truncreg y x1 x2 x3,ul(#) 双边断尾：truncreg y x1 x2 x3,ll(#) ul(#)、
sysuse auto,clear truncreg price weight length gear_ratio, ll(10000) reg price weight length gear_ratio if price>=10000
第四页，共43页。
1。获得个体取值为1的概率。 predict p1,pr list p1 foreign 比照一下结果，判断(pànduàn)有正有误 2。对预测准确率的判断(pànduàn) estat class 结果解读
第五页，共43页。
敏感性〔Sensitivity〕指 Pr(yˆi 1|yi 1) 即真实值取1而预测准确的概率(gàilǜ)；特异性〔Specificity〕是指Pr(y ˆi 0|yi 0) 即真实值取0而预测准确的概率(gàilǜ)。默认的门限值为0.5。
第二十八页，共43页。
tobit y x1 x2 x3,ll(#) 〔变量<#的被左截断(jié duàn)〕
tobit y x1 x2 x3,ul(#)〔变量>#的被右截断(jié duàn)〕
tobit y x1 x2 x3,ll(#) ul(#)〔l同时定义下限和上限〕
第二十九页，共43页。
123，情况会发生变化。
第三十二页，共43页。
set seed 12345 gen x3 = uniform() set seed 12345 gen x4 = uniform() list x3 x4 in 1/50

计量经济学4种常用模型

计量经济学4种常用模型计量经济学是经济学的一个重要分支，主要研究经济现象的数量关系及其解释。

在计量经济学中，常用的模型有四种，分别是线性回归模型、时间序列模型、面板数据模型和离散选择模型。

下面将对这四种模型进行详细介绍。

第一种模型是线性回归模型，也是计量经济学中最常用的模型之一。

线性回归模型是通过建立自变量与因变量之间的线性关系来解释经济现象的模型。

在线性回归模型中，自变量通常包括经济学理论认为与因变量相关的变量，通过最小二乘法估计模型参数，得到经济现象的解释。

线性回归模型的优点是简单易懂，计算方便，但其前提是自变量与因变量之间存在线性关系。

第二种模型是时间序列模型，它主要用于分析时间序列数据的模型。

时间序列模型假设经济现象的变化是随时间演变的，通过分析时间序列的趋势、周期性和随机性，可以对经济现象进行预测和解释。

时间序列模型的常用方法包括自回归移动平均模型（ARMA）、自回归条件异方差模型（ARCH）等。

时间序列模型的优点是能够捕捉到时间的动态变化，但其局限性是对数据的要求较高，需要足够的时间序列观测样本。

第三种模型是面板数据模型，也称为横截面时间序列数据模型。

面板数据模型是将横截面数据和时间序列数据结合起来进行分析的模型。

面板数据模型可以同时考虑个体间的差异和时间的变化，因此能够更全面地解释经济现象。

面板数据模型的常用方法包括固定效应模型、随机效应模型等。

面板数据模型的优点是能够控制个体间的异质性，但其需要对个体间的相关性进行假设。

第四种模型是离散选择模型，它主要用于分析离散选择行为的模型。

离散选择模型假设个体在面临多种选择时，会根据一定的规则进行选择，通过建立选择概率与个体特征之间的关系，可以预测和解释个体的选择行为。

离散选择模型的常用方法包括二项Logit模型、多项Logit模型等。

离散选择模型的优点是能够分析个体的选择行为，但其局限性是对选择行为的假设较强。

综上所述，计量经济学中常用的模型有线性回归模型、时间序列模型、面板数据模型和离散选择模型。

离散选择模型的原理与应用

离散选择模型的原理与应用1. 引言离散选择模型是一种常用的决策分析方法，广泛应用于市场调研、运输规划、投资决策等领域。

本文将介绍离散选择模型的基本原理和几种常用的模型，并探讨其在实际应用中的作用和局限性。

2. 离散选择模型的原理离散选择模型基于个体对不同选择项的偏好和决策方式进行建模，通过建立数学模型来分析个体的选择行为，并预测不同选择条件下个体的选择概率。

其基本原理可以概括为以下几个要素：2.1 选择集合离散选择模型的第一个要素是选择集合，即个体面临的可供选择的项。

选择集合可以是商品、服务、出行方式等，根据具体情况确定。

2.2 受益函数受益函数描述了个体对于每个选择项的效用或满意度。

受益函数可以使用线性函数或非线性函数来表示。

线性函数常用于描述简单选择问题，而非线性函数则更适用于复杂的选择问题。

2.3 随机效用个体的选择行为除了受益函数之外，还受到一些随机因素的影响。

离散选择模型通过引入随机效用来模拟这种随机性，通常使用正态分布或其他概率分布来表示随机效用。

2.4 选择概率选择概率是离散选择模型中的核心要素，用于预测个体做出某个选择的概率。

选择概率可以通过最大似然估计等方法来估计。

3. 常用的离散选择模型离散选择模型有多种类型，常见的包括二项式模型、多项式模型和概率模型。

以下将介绍其中几种典型的模型：3.1 二项式模型二项式模型是最简单的离散选择模型，适用于只有两个选择项的情况。

该模型基于个体对两个选择项的效用进行比较，假设个体根据效用差异做出选择。

3.2 多项式模型多项式模型适用于有多个选择项的情况。

该模型基于个体对每个选择项的效用进行比较，采用多项式对效用进行建模。

3.3 概率模型概率模型是离散选择模型的一种扩展形式，考虑了个体在做出选择时的不确定性。

该模型基于概率论的基本原理，将选择概率建模为个体特征和选择项属性之间的函数关系。

4. 离散选择模型的应用离散选择模型在实际应用中具有广泛的应用价值，以下将介绍几个常见的应用场景：4.1 市场调研离散选择模型可用于市场调研中，帮助企业了解消费者的偏好和选择行为，从而优化产品设计、定价策略等，并进行市场预测。

离散选择模型的缺点

离散选择模型的缺点
离散选择模型是一种用于预测个体在给定选择集合中做出的选
择的模型。

尽管离散选择模型在许多情况下都能够提供有用的信息，但它们也存在一些缺点。

首先，离散选择模型的一个缺点是对数据的要求比较严格。

这
种模型需要大量的数据来进行估计，并且需要数据具有一定的质量
和可靠性，否则模型的预测结果可能会出现偏差。

其次，离散选择模型在处理大规模数据时可能会面临计算复杂
度的问题。

由于这种模型通常需要对选择行为进行建模，并且需要
估计大量的参数，因此在处理大规模数据时需要消耗大量的计算资
源和时间。

此外，离散选择模型可能存在对特征的假设限制。

这些模型通
常基于一些假设，比如独立性假设、线性假设等，这些假设在某些
情况下可能会限制模型的适用性和准确性。

另外，离散选择模型可能无法很好地处理选择集合的变化。

当
选择集合发生变化时，模型的参数估计和预测结果可能会出现偏差，
因此在实际应用中需要对选择集合的变化进行及时的调整和修正。

最后，离散选择模型在解释能力上可能存在局限性。

虽然这种模型能够对选择行为进行预测，但对于预测结果的解释可能相对困难，特别是在涉及到复杂的选择行为和影响因素时。

总的来说，离散选择模型虽然在许多情况下能够提供有用的预测和分析结果，但也存在一些缺点，包括对数据的严格要求、计算复杂度高、对特征的假设限制、对选择集合变化的敏感性以及解释能力的局限性。

在实际应用中需要充分考虑这些缺点，并结合具体情况进行模型选择和分析。

离散选择模型举例122

一．二元离散选择模型1．二元响应模型 (Binary response model) 我们往往关心响应概率y 1x yx G 0 1x 1 ... k x k G z ，其中 x 表示各种影响因素(各种解释变量，包括虚拟变量) 。

根据不同的函数形式可以分为下面三类模型：线性概率模型( Linear probability model ， LPM )、对数单位模型( logit )、概率单位模型 (probit)：三种模型估计的系数大约有以下的关系：2．偏效应(1)如果解释变量是一个连续型变量，那么他对 p(x)=p(y=1|x) 的偏效应可以通过求下面的偏导数得出来： p x g 0 xj,g z dG z ，偏效应的符x j dz号和该解释变量对应的系数的符号一致；两个解释变量偏效应之比等于它们各自的估计系数之比。

(2)如果解释变量是一个离散性变量，则 x k 从c k 变化到 c k +1 时对概率的影响大小为：上面的其他解释变量的取值往往取其平均值。

3．估计方法与约束检验极大似然估计；三种常见的大样本检验：拉格朗日乘数检验、比检验。

4．Stata 程序语法(以 Probit 为例)probit depvar [indepvars] [weight] [if exp] [in range] [, level(#) nocoef noconstant robust cluster(varname) score(newvar) asis offset(varname) maximize_options ] predict [type] newvarname [if exp] [in range] [, statistic rules asif nooffset ] where statistic isp predicted probability of a positive outcome; the default xb linear predictionstdpstandard error of the prediction．具体的例子1．数据：美国 1988年的 CPS 数据 2．模型：估计成为工会成员的可能性，模型形式如下：参加工会的概率 =F （潜在经验 potexp 、经验的平方项 potexp2、受教育年限 grade 、婚否 married 、工会化程度 high ）；logit1.6probit ,probit2.5LPM1x1k c k1 G 01x1wald 检验、似然解释变量：Potexp=年龄-受教育年限-5；grade=完成的受教育年限；married： 1 表示婚，0 未婚；high：1 表示高度工会化的行业，否则为0。

离散选择模型分析

(4-4)
两元选择模型和多元选择模型
离散因变量是指因变量只有有限多个类别或有限多种取值。当因变量只有两个类别或两种取值时，这种离散因变量的模型称为两元选择模型(如例4-1)。而当因变量有两个以上类别或两种以上取值时，相应的离散因变量模型称为多元选择模型(例4-3)。
两元选择模型
对于两元选择模型，因变量 y i 的取值记为1或0，于是
本章讨论离散因变量模型和截取回归模型。
第二节离散因变量模型
前二章讨论的回归模型，因变量都是连续变量，如产量、收入和价格等。但在许多的实际问题中，所研究的因变量是离散的，或是非数值型。对于这一类因变量，古典的回归分析方法已不完全适用。
例 4—1
一家公司的人事部门研究高级人才是否接受招聘与招聘条件(如
于是1??最大似然估计themethodofmaximumlikelihoodiiyiniyinnxxyyyyyypl??????????????1122111????nn415probit模型的似然函数而对数似然函数1ln1lnln11????iiiiiixyxyl??????????lln?011ln11????????????????iniiiiiniiiixxxyxxxyl?????????ml??420421最大似然估计是使l或达到最大的值即满足如下的似然方程组牛顿法newtonsmethod??????????????????????????????????????????kkllllllh????????????lnlnlnlnlnln1211201202102002???417由于probit模型为非线性从而似然方程4021只能用迭代法求解
2 ln L
0
0
2 ln L

logit模型

Logit模型(Logit model，也译作"评定模型"，"分类评定模型"，又作Logistic regression，"逻辑回归")是离散选择法模型之一，Logit 模型是最早的离散选择模型，也是目前应用最广的模型。

是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

Logit模型（Logit模型，也翻译为“评估模型”，“分类评估模型”，也称为Logistic回归，“ logistic回归”）是离散选择方法模型之一，属于多元分析，社会学，生物统计学，临床，定量心理学，计量经济学，市场营销等统计实证分析的常用方法。

物流分配公式P（Y =1│X= x）= exp（x'β）/（1 + exp（x'β））通常通过最大似然来估计参数β。

Logit模型是最早的离散选择模型，也是使用最广泛的模型。

Logit模型首先由Luce（1959）根据IIA特性得出。

Marschark （1960）用最大效用理论证明了Logit模型的一致性。

Marley（1965）研究了模型形式与非确定效用项的分布之间的关系，证明了极值分布可以推导模型的Logit形式。

McFadden（1974）反过来证明，具有Logit形式的模型的非确定性项必须服从极值分布。

从那时起，Logit模型已在心理学，社会学，经济学和交通运输领域得到广泛使用，并且衍生并开发了其他离散选择模型以形成完整的离散选择模型系统，例如Probit模型和NL模型（Nest Logit模型）。

），混合Logit模型等。

该模型假定单个n对选择分支j的效用包括两部分：效用决定因素项和随机项：Logit模型得到广泛应用的原因主要是由于其概率表达式的显着特征，模型的快速求解速度以及便捷的应用。

当模型选择集不发生变化时，仅当每个变量的级别发生变化时（例如行进时间发生变化），就可以轻松解决新环境中每个选择分支的概率。

离散选择模型

领域里的突出贡献而获得了2000年的诺贝尔经济学奖。
离散选择模型在实际生活中的应用例如，公共交通和私人交通的选择问题对某种商品的购买决定问题大学生对职业的选择问题
一、基本概念
1.变量的取值 logistic回归要求应变量（Y）取值为分类变量（两分类或多个分类）自变量（Xi）称为危险因素或暴露因素，可为连续变量、等级变量、分类变量。可有m个自变量X1， X2，… Xm
估计。
对模型* 估计之后，如何计算指定收入水平下拥有住房的概率？
回归结果如下：
. reg Lhat Source Model Residual Total Lhat x _cons x SS 7.91931987 .173522962 8.09284283 Coef. .0791661 -1.65867 df 1 8 9 MS 7.91931987 .02169037 .899204759 t 19.11 -17.32 P>|t| 0.000 0.000 Number of obs F( 1, 8) Prob > F R-squared Adj R-squared Root MSE = = = = = = 10 365.11 0.0000 0.9786 0.9759 .14728
*
二、logit模型的估计
1.一般情况下的估计为了估计事件发生的概率之比Li，除了需要知道解释变量的数据之外，还得知道Li的数值。此时，该如何处理？
依然以是否拥有自有住房为例进行说明，不同的收入水平下
有很多个家庭N，在这一收入水平下有n个家庭拥有自己的住房，其余N-n个家庭没有自己的住房，那么我们就可以用事件发生的相对频率作为事件发生概率的估计值Pi ，并利用这个估计值得到Li 。事实上，当样本容量足够大的时候，这样的频率将是概率的良好

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Yi 0 1GPAi 2 INCOMEi ui
其中：
1 Yi 0
第i个学生拿到学士学位后三年内去读研该生三年内未去读研
GPA=第i个学生本科平均成绩 INCOME=第i个学生家庭年收入（单位：千美元）
设回归结果如下（所有系数值均在10%水平统计上显著）：
ˆ Yi 0.7 0.4GPAi 0.002 INCOMEi
yi 0 yi 1
函数可以简化为：
L (1 F ( X ))1 yi F ( X ) yi
yi 1
对方程左右取对数我们便得到：
ln L [ yi ln F ( X ) (1 yi ) ln(1 F ( X ))]
i 1
n
似然函数为
fi ln L n yi fi [ (1 yi ) ]xi 0 Fi 1 Fi i 1
Pr ob(Y 1 X ) X F ( X ) f ( X ) X
因此我们在遇到二元响应模型时，估计出参数我们不能盲目的将其解释为：解释变量变动一个单位，相对应的因变量变化参数个单位。
为了解决偏效应的问题我们引入调整因子的概念。在上式中的 f ( X ) 我们便称为比例因子或调整因子，它与全部的解释变量有关，为了方便起见，我们要找一个适用于模型所有斜率的调整因子。有两种方法可以解决：（1）用解释变量的观测值计算偏效应的表达式，调整因子为：
四、二元选择模型的估计
1.除了LPM模型以外，二元选择模型的估计都是以极大似然法为基础的。由前面的讨论我们知道：
P(Y 1 X ) F ( X )
由此我们可以得到模型的似然函数为：
P(Y1 y1 ,Yn yn X ) (1 F ( X )) F ( X )
带( yi i )xi 0 i 1
然后我们运用迭代法来估计系数

，所得MLE为一致、渐近正态和渐近有效。
2.偏效应问题
在二元响应模型的大多数应用中，我们首要的目标是解释X对响应概率P的影响。在效应模型中X对潜变量的偏效应是，而对响应概率P的偏效应是 f ( X )
三、Probit和Logit模型
1.Logit和Probit模型的设定基于上述LPM的缺点，在现实应用中，一般不能直接将其作为实际研究的二元选择模型。我们可以使用二元响应模型可以克服这些缺点。将LPM模型变换：令第i个个体在二元选择时选“是”（记“是”=1）的效用为U i1 则：
U i1 X i 1 1
3.线性概率模型存在的问题
（1）因变量的期望值与Xβ的取值范围不同（2）异方差问题（3）随机扰动项不再是正态分布，而是服从二项分布。（4）LPM模型假定自变量和Y=1的概率之间存在线性关系，而此关系往往不是线性的。
（5） 2 或 R 2 调整的不适合用来测度拟合优度。 R 通常用“模型正确预测的观测值的百分比”来代替。
模型检验
模型检验
2.整个方程的显著性检验采用LR（最大似然比）统计量和LM（拉格朗日乘子）统计量，通常值越大则越拒绝原假设（H0：方程不显著）
【注意】第一，二元选择模型输入的是y的值，但输出的是y*的值。
第二，二元选择模型中的系数不能被解释成对因变量的边际影响，只能从符号上判断，如果为正，表明解释变量越大，因变量取1的概率越大，反之，如果系数为负，表明相应的概率将越小。
ˆ ˆ ˆ ˆ g ( x ) g ( 0 1 X 1 k X k )
（2）计算每个观测值的偏效应，然后取平均：
1 n ˆ ˆ g ( x ) g ( X i ) n i 1
模型检验
1.拟合优度的测度如同线性概率模型一样，Probit模型和Logit模型也可以计算正确预测的百分比这一指标作为拟合优度的测度。但通常计算软件采用的拟合优度的测度是用各种pseudo-R2 。其中最常用的是McFadden(1974)提出的 McFadden-R2。
于是我们选择F不同的形式得到不同的经验模型注：在这里我们以Logit模型为例来说明二元选择模型的估计对于Logit模型我们有：分布函数 F ( X )
exp( X ) exp( x) ( x) ，密度函数 f ( x) ( x)(1 ( x)) 2 1 exp( X ) (1 exp( x))
Company
LOGO
离散选择模型
主讲人:
曹庆明
主要内容
1 3 2 离散选择模型的定义线性概率模型
3
4 5
Probit和Logit模型
二元选择模型的估计
假设检验
一、离散选择模型
1.离散选择模型的定义
简单的说，以定性变量为被解释变量的计量模型。因变量取值为0、1、2…….。 ①、在大多数的情况下，这些数据是有无意义的，只是某些变量的替代，定性的结果：比如，性别、年龄、劳动力是否参与、对立法的态度。 ②、少数情况下，这些数值也是有意义的：比如，计数模型中的数据：专利数….
2.模型估计
一般我们对于模型的估计，我们常用下面的框架：
Pr ob(事件j的发生) Prob(Y j) F (有关影响参数)
定性选择研究集中于对事件发生的概率模型进行适当的设定、估计和使用，在大多数情形中，“事件”就是一个人在一组选项中的选择。
二、线性概率模型
1.二元选择模型
在DCM中，我们只研究：解释变量存在两种选择的模型称为二元选择模型。(binary choice model) 其中最简单的二元选择模型是线性概率模型。
2.线性概率模型（Linear Probability Models）
LPM是最简单的二元选择模型，它的解释变量的变动与因变量值为1的概率线性相关。其一般表达形式如下：
Y X u
(Y的观测值为0或1)
对于某个观测值有 Yi X i ui 例子如下
（其中E(u)=0）
【例1】：什么样的本科毕业生会读研？下面用一个关于是否读研究生的例子来说明如何理解线性概率模型。假设模型为：
假设学生甲的平均分为3.5，家庭年收入为5万美元，Y的拟合
值为
ˆ Yi 0.7 0.4 3.5 0.002 50 0.8
第一：如何解释0.8?
这里因变量只能取两个值：0或1。可是该学生的的拟合值或预测值为0.8。我们将其解释为该生决定读研的概率的估计值。因此，该生决定读研的可能性或概率的估计值为0.8。需要注意的是，这种概率不是我们能观测到的数字，能观测的是读研还是不读研的决定。
0
令选“否”（记“否”=0）的效用为 U i 则：
U i0 X i 0 0
两式相减得：
U i1 U i0 X i ( 1 0 ) ( 1 0 )
其中 U i1 U i0 ，观测值应为1； i1 U i0 ，观测值应为0 U
上式可以转换为：
Y * X i ui*
x

1 e 2

z2 2
dz P( z x)
exp( x) F ( x) ( x) 1 exp( x)
2. Probit模型与Logit模型
做了上述变换后我们估计模型就方便了很多
（1）Probit模型
在最终的效用模型y =Xβ+μ中，假定u的分布为标准正态分布，则该模型称为Probit模型。
【例题2】市长竞选，谁会投您的票？
数据如下
面板数据模型的设定与检验
根据以上数据我们得到如下结果：
根据上述回归结果，我们可以得出如下结论：年老一些、富裕一些的选民更喜欢投票给候选人甲。
“模型正确预测的观测值的百分比”的计算
列表给出CAND1的拟合值，每个大于等于0.5的拟合值计入 CAND1为1的预测，而小于0.5的拟合值则计入CAND1为0的预测。汇总统计30个观测值中，27个(或90%)预测正确。选甲的 14人中，12人(或85.7%)预测正确。选乙的16人中，15人(或 2 93.8%)预测正确。而R 是0.58，表明模型解释了因变量的58% 的变动，这远低于90%的正确预测比例。
对比原始模型我们有：
p( yi 1) p( yi* 0) p(ui* X i )
很明显，我们要得到事件发生的概率就必须知道随即扰动项的概率分布，通常假定u服从下列两种分布，于是我们便得到了Probit和Logit模型：标准正态分布 F ( x) ( x) Logistic分布
p( yi 1) p( yi* 0) p(ui* X i ) 1 F ( X ) F ( X )
所以有：
P(Y 1 X ) F ( X )
exp( X ) 1 exp( X )
其中逻辑分布的密度函数为：
f ( x) exp( x) exp( x) ( x)(1 ( x)) 2 2 (1 exp( x)) (1 exp( x))
Probit模型的另一种表述为：
p( yi 1) p( yi* 0) p(ui* X i ) 1 F ( X ) F ( X )
所以有
P (Y 1 X ) F ( X )
X

1 e 2

z2 2
dz
(2) Logit模型在最终的效用模型Y=Xβ+μ中，假定u的分布为逻辑分布，则该模型称为Logit模型。 Logit模型的另一种表述为：
模型检验
类似R2
类似F检验
第二，如何解释斜率系数？
在LPM中，斜率系数表示其他解释变量不变的情况下，该解释变量的单位变动引起的因变量等于1的概率的变动。CPA的系数估计值0.4意味着家庭收入不变的情况下，一个学生的增加一个点（如从3.0到4.0），该生决定去读研的概率的估计值增加0.4。 INCOME的系数估计值0.002表明，一个学生的成绩不变，而家庭收入增加1000美元（单位为千美元），该生决定去读研的概率的估计值增加0.002。所以，解释变量的变动与因变量值为1的概率线性相关，因而称该类模型为线性概率模型（LPM）。

离散选择模型

离散选择模型完整版

《离散选择模型》课件

Discrete Choice Modeling 培训课件

离散选择模型和连续选择模型的比较分析

离散选择模型解释

离散选择模型步骤

离散选择模型

动态离散选择模型 贝尔曼公式

stata上机实验第六讲 离散选择模型(共43张PPT)

计量经济学4种常用模型

离散选择模型的原理与应用

离散选择模型的缺点

离散选择模型举例122

离散选择模型分析

logit模型

离散选择模型

动态离散选择模型贝尔曼公式

stata上机实验第六讲离散选择模型(共43张PPT)