离散选择模型1121
第十八章-离散选择模型和受限因变量模型
第18章 离散选择模型和受限因变量模型 18.1概述在经典计量经济学模型中,被解释变量通常被假定为连续变量,但在现实的经济决策中经常面临许多选择问题。
在这样的决策问题中,或者选择问题中,人们必须对可供选择的方案作出选择。
通常被解释变量是连续的变量,但此时的因变量只取有限多个离散的值。
例如:人们对交通工具的选择,是选择坐轻轨、地铁还是公共汽车;某大型企业是否合并另一企业;对某一方案的建议持强烈反对、反对、中立、支持和强烈支持5种态度,可以分别用0,1,2,3和4表示。
以这样的选择结果作为被解释变量建立的计量经济学模型,称为离散被解释变量数据计量经济学模型(models with discrete dependent variables ),或称为离散选择模型(DCM ,discrete choice model )。
如果被解释变量只能有两种选择,称为二元选择模型(binary choice model );如果被解释变量有多种选择,称为多元选择模型(multiple choice model )。
20世纪70和80年代,离散选择模型普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。
在实际中,还会经常遇到因变量受到某种限制的情况,这种情况下,取得样本数据来自总体的一个子集,可能不能完全反映总体。
例如,小时工资、住房价格和名义利率都必须大于零。
这时需要建立的经济计量模型称为受限因变量模型(limited dependent variable model )。
这两类模型经常用于调查数据的分析中。
本章将讨论三类模型及其估计方法和软件操作。
一是定性(观测值为离散的或者表示排序);二是截取或者截断问题;三是观测值为整数值的计数模型。
18.2二元因变量模型在这个模型中,被解释变量只取两个值,可以是代表某件事发生与否的虚拟变量,也可以是两个决策中选一个,称为二元因变量模型。
例如:对样本个体是否就业的研究,个体的年龄、教育背景、种族、婚姻状况以及其他可观测的特征,作为解释变量,目的是研究个体这些特征对个体就业概率的研究。
离散选择模型
二元选择模型
解释变量与因变量的关系
解释变量与因变量的关系
在二元选择模型中,解释变量与因变量之间的关系
如何描述呢? 首先,我们可以将模型写成如下形式:
P Y 1 F x
但是由于 F x 不一定是线性函数,因此x对于Y的 影响不能简单的用 表示。
二元选择模型
二元选择模型的一个例子
分析劳动力就业情况,Y=1表示就业,Y=0表示失
业,若x为影响因素,β为参数向量,则劳动力就业 的概率与影响因素的关系就可以表示为:
P Y 1 F x, P Y 0 1 F x,
其中,F (x, β)是与x和β有关的分布函数。
解释变量与因变量的关系
由于有
P Y 1 E Y F x
所以x对于事件Y 1 发生的概率,即 P Y 1 的影响
为:
E Y dF x f x x d x
解释变量与因变量的关系
由于变量Y是一个二元变量,因此有:
N1 E Y P Y 1 E Y F x, N
二元选择模型
分布函数的几种不同形式
线性概率模型
线性概率模型即假设分布函数为线性形式: 因此有:
F x, x
Y E Y Y E Y
Pij P Yi j P U ij U i j
Logit模型
与二元选择模型的思路一样,我们使用一种特定的
分布函数来描述这一概率,假设 ij 独立同分布,且 服从Weibull分布,分布函数的形式为:
F t exp e t
第十三章 离散选择模型和受限因变量模型
y i − F (x ′ ∂l (β ) N iβ) ) = ∑ f (x ′ i β xi =0 1 − F ( x′ ∂β i =1 F (x ′ i β )( i β ))
(13.2.4)
ˆ 。在概率单 我们可以从等式(13.2.4 )中解出参 数β 的最大似然估计量 β pb ˆ 位模型中, F (x ′ i β ) 是正态密度的累计分布函数,要解出最大似然估计量 β pb ,需 要运用数值运算方法。 在线性概率模型的情形下,等式(13.2.4)变成: ∂l (β ) N y i − xi′β = ∑ x =0 ′ i ∂β i =1 x ′ i β (1 − x i β ) (13.2.5)
(13.1.5)
y i = 1 , 如果 y ∗ i >0;
y i = 0 , 如果 y ∗ i ≤0 。 从(13.1.5)中,我们有: Pr {y i = 1 | x i } = Pr{ε i > − x i′β | xi } = 1.3 Logit 模型 如果我们选择 F (•) 为标准 logistic 分布函数时,这时 ′ F (x′ i β ) = G (x i β ) = e x′i β 1 + e x′i β (13.1.7)
N y i − F (x ′ iβ) =∑ f (x i′β ) xi 1 − F ( x′ i =1 F (x ′ i β )( i β ))
(13.2.3)
′ ′ 这里, f (x ′ i β ) = F ( xi β ) 是分布密度函数。让(13.2.3)式等于0,我们得到一阶 条件:
∗ 于 y∗ i >0;当当我们观测到 y i = 0 ,实际上就等价于 yi ≤ 0 。
离散选择模型
Yi 0 1GPAi 2 INCOMEi ui
其中:
1 Yi 0
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPA=第i个学生本科平均成绩 INCOME=第i个学生家庭年收入(单位:千美元)
设回归结果如下(所有系数值均在10%水平统计上显著):
ˆ Yi 0.7 0.4GPAi 0.002 INCOMEi
yi 0 yi 1
函数可以简化为:
L (1 F ( X ))1 yi F ( X ) yi
yi 1
对方程左右取对数我们便得到:
ln L [ yi ln F ( X ) (1 yi ) ln(1 F ( X ))]
i 1
n
似然函数为
fi ln L n yi fi [ (1 yi ) ]xi 0 Fi 1 Fi i 1
Pr ob(Y 1 X ) X F ( X ) f ( X ) X
因此我们在遇到二元响应模型时,估计出参数我们不能盲目的 将其解释为:解释变量变动一个单位,相对应的因变量变化参 数个单位。
为了解决偏效应的问题我们引入调整因子的概念。 在上式中的 f ( X ) 我们 便称为比例因子或调整因子,它与全部 的解释变量有关,为了方便起见,我们要找一个适用于模型所有 斜率的调整因子。有两种方法可以解决: (1)用解释变量的观测值计算偏效应的表达式,调整因子为:
四、二元选择模型的估计
1.除了LPM模型以外,二元选择模型的估计都是以极大似然法为基础 的 。由前面的讨论我们知道:
P(Y 1 X ) F ( X )
由此我们可以得到模型的似然函数为:
P(Y1 y1 ,Yn yn X ) (1 F ( X )) F ( X )
离散选择模型完整版
离散选择模型HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】第五章离散选择模型在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。
我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。
本章主要介绍以下内容:1、为什么会有离散选择模型。
2、二元离散选择模型的表示。
3、线性概率模型估计的缺陷。
4、Logit模型和Probit模型的建立与应用。
第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。
1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。
例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。
由离散数据建立的模型称为离散选择模型。
2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。
例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。
这种类型的数据成为审查数据。
再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。
这两种数据所建立的模型称为受限被解释变量模型。
有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。
下面是几个离散数据的例子。
例研究家庭是否购买住房。
由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即我们希望研究买房的可能性,即概率(1)P Y =的大小。
《离散选择模型》课件
极大似然估计法
通过最大化似然函数,估计模型 的参数值。
差分法估计法
通过对变量的差分进行估计,减 少了共线性问题的影响。
一般化估计方程法
通过建立一般化估计方程,对参 数进行估计。
离散选择模型的应用
公共交通出行方式选择
分析人们在选择公共交通出行方式时的决策行为,为政府制定交通政策提供依据。
食品品牌选择
确定性
选择结果是确定的,参与者 不受随机因素的影响。
离散选择模型的数学模型
1Байду номын сангаас
多项式Logit模型
通过对选择概率进行建模,预测参与者选择各个选项的概率。
2
二项式Logit模型
基于二项分布,预测参与者是否选择某个选项。
3
线性概率模型
使用线性回归方法,预测选择某个选项的概率。
离散选择模型的参数估计方法
离散选择模型是一种描述人们在面临离散选择时决策行为的数学模型。
2 离散选择模型的应用领域
离散选择模型被广泛应用于诸多领域,如公共交通、市场营销和行为经济学等。
离散选择模型的基本假设
可比性
各个选择项之间可以进行比 较,存在客观标准用于决策。
独立性
参与者之间的选择行为是独 立的,不受其他参与者的影 响。
《离散选择模型》PPT课 件
离散选择模型是一种用于分析人们在面临离散选择时的决策行为的统计模型。 本课件将介绍离散选择模型的定义、基本假设、数学模型、参数估计方法、 应用、不足及未来发展方向。
什么是离散选择模型
离散选择模型是一种用于研究人们在面临可选项时所作出的离散决策行为的统计模型。
1 离散选择模型的定义
将离散选择模型与其他决策模 型进行结合,以提高模型的准 确性和解释能力。
离散选择模型
六、二元选择模型的参数检验 6.1 单个系数的显著性检验
一个解释变量(对二元决策的概率)是否有显著性影响的检验,如同正态
线性回归分析的单个系数的检验类似,根据模型中的待估系数与其方差计算 z 统计量,并检验假设 H0 : βi = 0 。
6.2 总体显著性检验 由于 Logit 模型、Probit 模型是非线性的,在同时检验多个系数是否为 0 时,
33潜回归我们假设存在一个不可观察的潜在变量称为决策倾向是指标变量的连续性函数记为iy它与指标变量ix之间具有如下线性关系i1kkiiiyxxu该方程称为潜回归方程其中iu是随机扰动项1ikixx??????????1k??????????34量变临界值选取量变到多少时个体才进行选择呢
离散选择模型
郑安
是估计系数的协方差
矩阵, βˆ 是无约束模型得到的估计值。可以证明,W 渐进服从 χ 2 (k −1) 分布。
所以 W 检验只需要估计无约束模型 (2)对数似然比检验(只适用于线性约束) H0 : β2 = β3 = " = βk = 0
检验统计量: LR = −2[ln L(βˆR ) − ln L(βˆ)]
其中,ln L(βˆR ) 是约束模型的最大对数似然函数值,ln L(βˆ) 是非约束模型的最大
对数似然函数值。可以证明,在零假设下,LR 渐进服从 χ 2 (k −1) 分布。所以 LR
检验既需要估计有约束模型,又需要估计无约束模型 (3)拉格朗日乘子检验(适用于线性和非线性约束) H0 : β2 = β3 = " = βk = 0
离散选择模型起源于 Fechner 于 1860 年进行的动物条件二元反射研究。1962 年,Warner 首次应用于经济领域。20 世纪 70 和 80 年代,离散选择模型普遍应 用于经济布局、交通问题、就业问题、购买决策问题等经济决策领域的研究。 模型的估计方法主要发展于 20 世纪 80 年代初期,远远滞后于模型的应用,并 且至今还在不断改进,它属于微观计量经济学——即研究大量个人、家庭或企 业的经济信息,McFadden 因为在微观计量经济学领域的贡献而获得 2000 年诺 贝尔经济学奖。
离散选择模型和连续选择模型的比较分析
离散选择模型和连续选择模型的比较分析一、引言选择模型是指通过研究个体选择行为来预测市场需求的一种模型。
根据选择的属性是否可测,选择模型可以分为离散选择模型和连续选择模型。
离散选择模型是指选择行为的结果是分类的,例如选择是A、B还是C。
而连续选择模型是指选择行为的结果是连续的,例如选择的数量是多少。
本文将对离散选择模型和连续选择模型进行比较分析。
二、离散选择模型离散选择模型常用于解释市场需求中的离散选择行为,包括二项选择模型、多项选择模型、有序多项选择模型等。
1、二项选择模型二项选择模型常用来解释个体在两个选项之间进行选择的概率。
其模型设定为,在两个选项中,个体选择第一个选项1的概率为P,选择第二个选项2的概率为1-P,二者之和为1。
该模型假设个体根据其效用(utility)差异进行选择,即个体会选择能够获得最大效用的选项。
2、多项选择模型多项选择模型常用来解释个体在多个选项之间进行选择的概率。
其模型设定为,对于N个选项,个体选择第i个选项的概率为Pi,所有选项的概率之和为1。
该模型假设个体会选择能够获得最大效用的项,效用函数通常采用对数线性模型(Logit Model)。
3、有序多项选择模型有序多项选择模型常用来解释个体在多个选项之间进行有序选择的概率。
例如,当个体面对三个不同价格的产品时,个体有可能在选择第一价格区间的产品、第二价格区间的产品或者第三价格区间的产品。
该模型假设选择的概率是对价值的一次函数,因此需要先对选项进行排序以确定选择的顺序,然后再推导选择的概率。
三、连续选择模型连续选择模型常用于解释市场需求中的连续选择行为,包括对数线性模型、线性规划模型等。
1、对数线性模型对数线性模型是一种常用的连续选择模型。
它假设个体的效用函数是一个对数线性函数,其中因变量是一个连续变量,例如价格、数量等。
对数函数可以将效用函数转化为线性形式,从而便于分析。
2、线性规划模型线性规划模型是一种常用的数学优化模型,用于解决连续选择问题。
离散选择模型ppt课件
PYi 1 / X i
6
例如,我们对一个是否拥有自有住房的案例进行回归,
结果如下: Yi 1.2009 0.1056X i (0.1483 ) (0.0087) R 0.8078
2
回归拟合的很好,经济学意义也非常明确,收入Xi每增加1单位 (1万元人民币),平均拥有住房的概率将增加10.56%:
11
2.解释变量同样为定性变量的情况
ቤተ መጻሕፍቲ ባይዱ
Pi Li ln 1 P 0 1 X i ui i P 1 ˆ Xi=1时: L1 ln 1 P 0 1 (1) 1 P0 ˆ Xi=0时: L0 ln 1 P 0 (2) 0 P 1 1 P 1 如果定义: OR P0 1 P 0 1 ˆ L ˆ 那么就有: lnOR L OR e 1 0 1
15
回归的结果如下:
. logit y x Iteration Iteration Iteration Iteration 0: 1: 2: 3: log log log log likelihood likelihood likelihood likelihood = = = = -253.69187 -242.36572 -242.32729 -242.32729 Number of obs LR chi2(1) Prob > chi2 Pseudo R2 Std. Err. .2910729 .1179409 z 4.50 -2.10 P>|z| 0.000 0.036 = = = = 366 22.73 0.0000 0.0448
这意味着在其他条件都相同的情况下,抽烟人士患食道癌的 可能性是不抽烟人士的3.7倍还要多。
离散选择模型解释
离散选择模型解释离散选择模型,听起来是不是有点高大上,有点让人摸不着头脑?其实啊,它没那么神秘!咱们先来说说啥是离散选择模型。
就好比你去逛街买衣服,面对一排五颜六色、款式各异的衣服,你只能选一件。
这时候你的选择就是离散的,要么选这件,要么选那件,不可能同时选好几件穿在身上。
离散选择模型就是研究像这样的选择行为的。
比如说,你要出门旅游,有几个目的地可以选:海边、山区、城市。
那影响你最终决定的因素可能有很多,比如海边风景美但可能人多;山区空气好但交通不太方便;城市热闹但消费高。
离散选择模型就能帮我们分析这些因素是怎么影响你的最终决定的。
这就好像是一场内心的拔河比赛。
各种因素在你心里较着劲,有的使劲把你往海边拉,有的拼命把你往山区拽,还有的用力把你往城市推。
最后哪个因素的力量大,你就选择了对应的地方。
再举个例子,你每天早上纠结吃包子还是油条。
包子馅种类多,油条口感酥脆。
价格、营养、喜好等等都会影响你的选择。
离散选择模型就是要搞清楚这些因素到底谁占了上风,让你做出了决定。
你想想,要是商家能搞懂消费者在他们的产品里是怎么做出离散选择的,那他们不就能更好地迎合消费者的需求,赚更多的钱啦?反过来,政府也能通过这个模型了解大家对公共服务的选择偏好,从而提供更合大家心意的服务。
离散选择模型可不只是在经济领域有用哦。
比如说交通规划,是修地铁还是建公交专线?教育方面,是选择传统教学还是在线课程?甚至在医疗领域,选择哪种治疗方案,都能通过这个模型来分析。
所以说,离散选择模型就像是一个神奇的透视镜,能让我们看清那些看似随机的选择背后隐藏的规律和影响因素。
它能帮助我们做出更明智的决策,无论是个人生活中的小选择,还是社会发展中的大决策。
你说,这么有用的模型,咱能不好好研究研究,好好利用利用吗?。
离散选择模型
在这个回归结果图中log likelihood即对数似然值,不断的试错迭代是 logit模型的估计方法,在逐步进行回归时,通过比较不同模型的-2LL 判断模型的拟合优度,选择取值更小的模型。LR chi2(4)是卡方检验 的统计量,也就是回归模型无效假设所对应的似然比检验量;其中4 为自由度,Prob>chi2 是其对应的P值,在这个估计结果显示以p=0 显著说明模型的有效性。其实这两个指标与线性回归结果中F统计量 和P值的功能是大体一致的。另外结果中的Pseudo R2是准R2,虽然 不等于R2,但可以用来检验模型对变量的解释力,因为二值选择模型 是非线性模型,无法进行平方和分解,所以没有,但是准衡量的是对 数似然函数的实际增加值占最大可能增加值的比重,所以也可以很好 的衡量模型的拟合准确度。此logit模型中拟合优度为0.1882。 coef是自变量对应的系数估计值,OLS通过t检验来检验估计量是否 显著,logit模型通过z检验来判断其显著性;通过z检验结果可以看到 此模型中系数均以p=0显著不为0。
二实验操作指导 1.选择合理模型 在Stata中将数据按照某个或某几个变量进行分类 并按这个变量获得其频数分布的命令如下: tab varlist 其中varlist表示按照其分类的变量或者变量组合。 在本实验中,打开数据文件并将数据按brand取 值分类,在Stata命令窗口中输入如下命令 use brand ,clear tab brand 读图可知brand取值有三个,分别是1,2,3。由 于所要探究的问题female和age对brand的影响, 且假定了选择各个品牌之间是相互独立的,那么 建立多值选择模型来分析问题是合理的。
二 实验内容和数据来源
本实验来自某统计资料,统计在购物时所选品牌 与性别、年龄的关系。变量主要有brand(品 牌),female(性别),age(年龄)。完整的 数据在本书附带光盘data文件夹下“brand.dta” 中。 本实验用此数据来以female和age为解释变量, brand为被解释变量,brand的取值是离散的,且 有三个取值,应建立多值选择模型进行相关分析。
离散选择模型的原理与应用
离散选择模型的原理与应用1. 引言离散选择模型是一种常用的决策分析方法,广泛应用于市场调研、运输规划、投资决策等领域。
本文将介绍离散选择模型的基本原理和几种常用的模型,并探讨其在实际应用中的作用和局限性。
2. 离散选择模型的原理离散选择模型基于个体对不同选择项的偏好和决策方式进行建模,通过建立数学模型来分析个体的选择行为,并预测不同选择条件下个体的选择概率。
其基本原理可以概括为以下几个要素:2.1 选择集合离散选择模型的第一个要素是选择集合,即个体面临的可供选择的项。
选择集合可以是商品、服务、出行方式等,根据具体情况确定。
2.2 受益函数受益函数描述了个体对于每个选择项的效用或满意度。
受益函数可以使用线性函数或非线性函数来表示。
线性函数常用于描述简单选择问题,而非线性函数则更适用于复杂的选择问题。
2.3 随机效用个体的选择行为除了受益函数之外,还受到一些随机因素的影响。
离散选择模型通过引入随机效用来模拟这种随机性,通常使用正态分布或其他概率分布来表示随机效用。
2.4 选择概率选择概率是离散选择模型中的核心要素,用于预测个体做出某个选择的概率。
选择概率可以通过最大似然估计等方法来估计。
3. 常用的离散选择模型离散选择模型有多种类型,常见的包括二项式模型、多项式模型和概率模型。
以下将介绍其中几种典型的模型:3.1 二项式模型二项式模型是最简单的离散选择模型,适用于只有两个选择项的情况。
该模型基于个体对两个选择项的效用进行比较,假设个体根据效用差异做出选择。
3.2 多项式模型多项式模型适用于有多个选择项的情况。
该模型基于个体对每个选择项的效用进行比较,采用多项式对效用进行建模。
3.3 概率模型概率模型是离散选择模型的一种扩展形式,考虑了个体在做出选择时的不确定性。
该模型基于概率论的基本原理,将选择概率建模为个体特征和选择项属性之间的函数关系。
4. 离散选择模型的应用离散选择模型在实际应用中具有广泛的应用价值,以下将介绍几个常见的应用场景:4.1 市场调研离散选择模型可用于市场调研中,帮助企业了解消费者的偏好和选择行为,从而优化产品设计、定价策略等,并进行市场预测。
第五章离散选择模型(虚拟变量回归)(20140429)
第五章离散选择模型(虚拟变量回归)(20140429)第五章离散选择模型(虚拟变量回归)第一节虚拟变量的概念一、问题的提出计量经济学模型对变量的要求——可观测、可计量。
但在现实经济问题中,存在定性影响因素,比如1、属性(品质)因素的表达在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。
如收入在形成过程中,不同的性别所得到的收入是不一样的;在城乡、不同地区等收入存在差距;再比如,在我国,经济的发展水平对于不同的区域有不同的表现。
2、异常值现象当经济运行过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。
3、季节因素的影响有的经济现象存在明显的季节特征,如啤酒的消费。
那么,在建模过程中,季节变动这一因素怎样考虑?4、离散选择现象的描述如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。
第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。
称前一种情况为虚拟解释变量,后一种为虚拟被解释变量。
本章主要介绍虚拟解释变量的内容。
二、虚拟变量的定义1、定义设变量D表示某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D取值为0。
记为=不具有该属性类型具有某种属性类型01D 2、虚拟变量引入的规则(1)在模型里存在截距项的条件下,如果一个属性存在m 个相互排斥类型(非此即彼),则在模型里引入m-1个虚拟变量。
否则,会出现完全的多重共线性。
但要注意,在模型无截距项的情况下,如果一个属性存在m 个类型,即便引入m 个变量,不会出现多重共线性问题。
(请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。
而虚拟变量取值为1,代表与基础类型相比较的类型,称为比较类型。
例如“有学历”D 为1,“无学历”D 为0,则“无学历”就是基础类型,“有学历”为比较类型。
(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0,第一个类型;D=1,第二个类型;……D=m-1,第m 个类型。
离散选择模型
第五章离散选择模型在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。
我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。
本章主要介绍以下内容:1、为什么会有离散选择模型。
2、二元离散选择模型的表示。
3、线性概率模型估计的缺陷。
4、Logit模型和Probit模型的建立与应用。
第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。
1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。
例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。
由离散数据建立的模型称为离散选择模型。
2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。
例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。
这种类型的数据成为审查数据。
再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。
这两种数据所建立的模型称为受限被解释变量模型。
有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。
下面是几个离散数据的例子。
例5.1 研究家庭是否购买住房。
由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即我们希望研究买房的可能性,即概率(1)P Y =的大小。
stata上机实验第六讲 离散选择模型(共43张PPT)
第一页,共43页。
离散(lísàn)选择模型
1。二项选择模型 主要(zhǔyào)包括: Probit模型〔标准正态分布〕 Logit模型〔逻辑分布〕
第二页,共43页。
Logit 模型(móxíng)
Logit模型假定模型的误差项服从Logistic分布
e x iβ
第十四页,共43页。
排序选择(xuǎnzé)模型
根据GSS的调查数据,不同的家庭母亲与子 女之间的关系也不同。根据调查显示,有的 家庭母子〔女〕关系比较紧张,有的比较融 洽。变量包括:warm=关系融洽度〔0、1、2、 3〕;educ=子女接受教育的程度;age=子女 年龄(niánlíng);male=儿子;prst=职业威望; white=白人;y89=89年调查结果。分析不同 因素对母子〔女〕关系的融洽程度有何影响。
第二十三页,共43页。
nbreg daysabs langarts male 命令结果中将提供一个LR 检验, 原假设:不存在过度分散,应该使用泊松回 归(huíguī)。此时alpha=0。 备那么假设: alpha<>0,不能使用泊松回归 (huíguī)。
第二十四页,共43页。
受限因变量模型(móxíng)
第二十八页,共43页。
tobit y x1 x2 x3,ll(#) 〔变量<#的被左截断(jié duàn)〕
tobit y x1 x2 x3,ul(#)〔变量>#的被右截断(jié duàn)〕
tobit y x1 x2 x3,ll(#) ul(#)〔l同时定义下限和 上限〕
第二十九页,共43页。
利用womenwork.dta的数据进行普通OLS回 归和截取回归。被解释变量(biànliàng)为lwf 〔log of wage if working and 0 if not working〕。解释变量(biànliàng)为age〔年 龄〕, married〔婚否〕, children〔子女数〕, education〔教育年限〕。
一离散因变量模型形式二二元选择模型
三 二元选择模型的参数估计
对于二元选择模型中参数的估计,主要 采用最大似然法。
关键问题是如何找出似然函数。
如果得到一组样本观察值 y1, y2 , yn , 它们是0与1 的序列,那么似然函数即样 本出现的联合概率就是
β'x
F (x, β) (β' x) (t)dt
其中 与 分别为标准正态分布的分布函 数与概率密度。
(3)Logit模型
假定F的分布为
F
(x,
β)
(β'
x)
1
e β'x eβ'x
β'x
(t)dt
其中 与 分别为logistic分布的分布函数 与概率密度
一 离散因变量模型形式
由于因变量数据的离散性,无法直接进 行回归分析。一般的模型形式为
P(事件j发生) P(Y j) F(相关变量与参数 )
二 二元选择模型
首先考虑最简单的情况,即因变量的取 值只有两个,为方便,我们总选择0与1 。 此时要建立的模型就是二元选择模型。
二元选择模型的基本形式
另一种估计量基于海塞矩阵的期望值。
Logit模型的海塞矩阵不包含yi所以 E(H)=H。但对于Probit模型,情况复杂
一些,但可以证明
E(H) 0i 1i xi xi '
i
称海塞矩阵的期望矩阵的负矩阵为信息 矩阵:
I E(H)
最大似然估计量的渐近协方差矩阵为信 息矩阵的逆矩阵。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Logistic回归在SPSS中应用讲课人:***Email:***************.cm办公室:通博楼B座2111内容第一节模型的种类和形式第二节模型系数的检验和拟合优度第三节应用SPSS完成模型估计和输出解读2第一节模型的种类和形式当遇到被解释变量是分类变量时,我们可能选择离散选择模型来建立变量间的因果关系,而不是用线性回归方程。
这类模型可以用来了解客户的信用度、消费者的消费行为、癌症是否转移、医生是否选择多点从业和出行选择何种交通工具等。
根据被解释变量分类变量和概率分布函数的类型,产生了不同的离散选择模型。
3二元Logistic模型—如果被解释变量是二分变量,连接分布函数(link function)为逻辑斯蒂函数。
多元Logistic模型—如果被解释变量是多分类无序次变量,连接分布函数为逻辑斯蒂函数。
有序Logistic模型—如果被解释变量是多分类有序次变量,连接分布函数为逻辑斯蒂函数。
Probit模型—连接分布函数是标准正态分布函数。
为了说明这类模型的机理,我们以二元Logistic回归为例,介绍模型形成过程。
从而理解一些概念。
45一、二元Logistic 模型在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。
10yes y no⎧=⎨⎩ 考虑某个家庭在一定的条件下是否购买住房问题时,表示状态的虚拟变量作为一个被说明对象的因变量出现在经济模型中。
后面变量下标i 表示各不同的样本点,取值0或l 的因变量i y 表示第i 个样本点具体选择,而影响其进行选择的自变量i x 。
如果选择响应YES 的概率为(1/)i p y =i x ,则经济主体选择响应NO 的概率为1(1/)i i p y -=x 。
则(/)1(1/)0(0/)i i i i i i E y p y p y =⨯=+⨯=x x x =(1/)i i p y x =。
6根据经典线性回归,我们知道其总体回归方程是根据条件期望建立的,这使我们想象可以构造线性概率模型011(1/)(/)i i i i i i k ik i p y x E y x x x u βββ'====++++x β根据统计数据得到的回归结果,预测概率并不一定能够保证界于[0,1]。
如果通过回归模型式得到的因变量拟合值完全偏离0或l 两个数值,则描述两项选择的回归模型的实际用途就受到很大的限制。
为避免出现回归模型的因变量预测值偏离0或1的情形,需要限制因变量的取值范围并对回归模型进行必要的修正。
为了使得二元选择问题的有进一步研究可能,首先建立一个效用函数。
在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。
用1i U 表示第i 个人选择买房的效用,0i U 表示第i 个人选择不买房的效用。
其效用均为随机变量,于是有7 11110000(1)(2)i i i i U u U u αα'⎧=++⎪⎨'=++⎪⎩i i X βX β将(1)-(2),得()10101012()()i i i i U U u u αα'-=-+-+-i X ββ记:*10i i i y U U =-*12ααα=-*10=-βββ*10i i i u u u =-则有 ****i i Y u α'=++i X β,格林称该模型为潜回归方程。
这是二元选择模型的切入点。
称*i Y 为过渡变量(潜在的),这个变量是不可观测8 的。
当效用差*i Y 大于零,则应该选“1”,即购房;当效用差*i Y 小于零,则应该选“0”,即不购房。
故()****(1)(0)()1i i i p Y p Y P u F αα**''==>=>-=--i i X βX β--()****(0)(0)()i i i p Y p Y P u F αα**''==≤=≤-=-i i X βX β-- 此处已经通过*i Y ,将自变量与事件发生的概率联系起来了。
为概率提供了一个潜在的结构模型。
现在的问题是()F ⋅服从何种分布?()F ⋅既然是分布函数,则必须满足分布函数的条件。
称()F ⋅为连接函数,采用累积标准正态概率分布函数的模型称作Probit 模型,或概率单位模型,用正态分布的累积概率作为Probit 模型的预测概率。
另外logistic 函数也能满足这样的要求,采用logistic 函数的模型称作logit 模型,或对数单位模9 型。
logistic 函数形式为()1xxe F x e =+。
该模型的形式为(1)ln 1(1)i i i i p y u p y ='=+-=x β 011(1)ln ...1(1)i i ik k i i p y x x u p y βββ==++++-= 其中,xi 是第i 个样本点自变量观测向量,β是参数向量。
yi 是表示第i 个样本的取值。
xij 表示第i 个样本点第j 个自变量观测值。
模型的含义是:机率((1)1(1)i i p y p y =-=)的对数是解释变量的线性函数。
等价的模型为10 011(1)exp(...)1(1)i i ik k i i p y x x u p y βββ==++++-= 可解释为机率是解释变量的以e 为底的指数函数。
其系数解释为自变量增加一个单位,则机率增减EXP(βj)-1。
如果βj 是正的,则机率增加,如果βj 为负机率减少。
11二、多元Logistic 模型如果被解释变量的取值不止两个,比如出行的交通工具的选择,对政府的某项政策的态度,赞成、反对和弃权。
对于j=1,2,…,J 类的非序次反应模型,多项LOGIT 回归模型可以通过以下形式描述(|)ln ,1,2,...,1(|)i i p y j j J p y J ='==-=i j x x βx 多项LOGIT 回归模型以第J 个选择的概率为对比基准。
第j 个选择的概率与第J 个选择的概率之比的自然对数是解释变量的线性函数。
等价的模型为(|),1,2,...,1(|)i i p y j e j J p y J '===-=i j x βx x 这个模型最终会估计出J-1个常数项和J-1组系数向量。
第J 个选择的概率可以通过J 个选择的概率和为1来得到。
即(|)i p y J =x121(1|)(2|)...(1|)i i i p y p y p y J =-=-=--=-x x x系数的含义可以做如下的解释,因为(|)ln ,1,2,,1(|)i j i p y j j J p y J ⎡⎤='==-⎢⎥=⎣⎦i x x βx 所以(|),1,2,,1(|)i j i i p y j e j J p y J '===-=x βx x当其它条件不变的条件下,当k x 增加一个单位,则(|,,)(|,,),1,2,,1(|,,)(|,,11)jk k k k k p y j p y J e j J p y j J x x y x p x β====-==++可见其参数的解释为:当其它变量不变的条件下,第k 个变量k x 增加一个单位时,y=j 的概率与y=J 的概率比可望增加(减少)()1100%eβ-jk至于是增加还是减少,要视的符号而定。
1314三、有序Logistic 回归当被解释变量的取值之间有序次,比如饮料的口感好坏中差,客户的信用等级1,2,3,4和5。
这时模型要构造有序的离散选择模型。
不妨假设y 有J 个取值。
模型的结构为()ln ,1,2,...,11()j p y j j J p y j μ≤'=+=--≤i x β (),1,2,...,11()j p y j e j J p y j μ'+≤==--≤i x β 模型的含义是,选择小于等于j 的概率与选择大于j 的概率之比取对数后是解释变量的线性函数。
该模型会估计出J-1个常数项μj (j=1,2,…,J-1),SPSS 称其为门槛值,外加一组系数回归系数。
四、Probit模型更为一般的情形,如果选择分布函数F(.)为标准正态分布,则产生PROBIT 回归模型。
21(1/)())2ii i i ip p y t dt'-∞'===Φ=-⎰xβx xβ(二分类logistic回归)21(/)())2ii i i ip p y j t dt'-∞'=≤=Φ=-⎰xβx xβ(有序多分类logistic回归)15第二节模型系数的检验和拟合优度一、模型系数的检验模型系数的检验是基于卡方分布的WALD统计量,该统计量自由度为1。
实际上是系数的估计值与标准差之比的平方。
二、回归模型评价(一)拟合优度(Goodness of fit)1、皮尔逊2χ统计量(Pearson2χ)在回归分析中我们常常引入自变量,在这里称为协变量(covariate)。
在固定的样本规模n下,协变量类型越多,则每个协变量分组越多,则每组中的个案则越少。
皮尔逊2χ统计量检验协变量分组中,预测的次数与观测的次数之间是否拟合得很好。
160:H协变量类型中的实际观测值的与预测值没有差异1:H协变量类型中的实际观测值的与预测值有显著差异统计量为()2 21ˆˆ(1)nii i iresidualsnp p=χ=-∑当样本容量足够大是该统计量服从自由度为J-k-1的2χ分布。
其中J是种类数,k是自变量个数。
这个统计量是如何计算的呢?2、偏差观测值与预测值的拟合优度,还可以用对数似然函数表示。
以ˆSL为设定模型的极大似然函数,它概括了样本数据由这个模型所拟合的程度。
就如像在线性回归模型中我们有一个残差平方和21ˆ()ni iiy yn k=--∑一样,它想象最完美模型的预测值就是观测值1718本生。
在逻辑斯蒂回归模型中类似的统计量为22ln /~()S D L df n k =-χ- (8)0H :设定模型与最完美的模型没有显著性差异;1H :最完美的模型比设定模型好。
这个最完美的模型只可想象,是存在的,但不可及。
当S L 值相对较小时,则D 较大,支持设定模型与完美模型有显著的差异,设定模型不佳。
如果当S L 值相对完美几乎相等,则D 较小,设定模型拟合情况好。
实际上该检验的统计量是对数似然函数的-2倍除以(协变量类型个数减估计参数),即2ln /L df -。
注:局限性是不宜用在连续协变量情形。
当模型中的协变量为连续性变量时,D 和皮尔逊2χ统计量则不适合,因为协变量过多的拟合值,导致了过多的协变量类型。
193、Hosmer-Lemeshow 拟合指标Hosmer-Lemeshow 拟合指标仅仅针对二值响应的模型。