离散选择模型完整版

合集下载

离散选择模型ppt课件

离散选择模型ppt课件
2
因为通常情况下,我们考虑被解释变量为二元变
量的模型,这种模型也因此被称为二元选择模型或者离
散选择模型,如果为多元,则称之为多元选择模型。 离散选择模型起源于Fechner于1860年所进行的动
物条件二元反射研究,1962年Warner首次将这一方法
应用与经济研究领域。Mcfadden因为在离散选择模型
但问题是,当收入10万元,或者更少的情况下,平均拥有住房的
概率为负值,而当收入为20万元,或者更多的情况下,平均拥有 住房的概率大于1,因此,我们必须考虑相应的方法对这一问题 进行处理。
7
对同样的问题,我们采用如下的模型形式:
E (Yi / X i ) PYi 1 / X i
1
( 0 1 X i )
那么: 从而:
1 e Pi Li ln 1 P 0 1 X i ui i
1 ห้องสมุดไป่ตู้ Pi
1
0 1 X i
1 e e 0 1 X i 1 e 0 1 X i
参数的含义是什么?
这样的事件发生比Li,不仅对Xi是线性的,对参数也是线性的,而 且发生概率将永远落在0和1之间, Li就被称为logit,像*这样的模 型也就被称为logit模型。
Std. Err. .0041431 .0957771
[95% Conf. Interval] .069612 -1.879533 .0887202 -1.437808
e 1 e0.0792 1.082
这就意味着,当收入增加1万元时,根据该样本回归的结果认为, 拥有自有住房的发生比将增加8.2%
PYi 1 / X i
6

离散选择模型

离散选择模型

Yi 0 1GPAi 2 INCOMEi ui
其中:
1 Yi 0
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPA=第i个学生本科平均成绩 INCOME=第i个学生家庭年收入(单位:千美元)
设回归结果如下(所有系数值均在10%水平统计上显著):
ˆ Yi 0.7 0.4GPAi 0.002 INCOMEi
yi 0 yi 1
函数可以简化为:
L (1 F ( X ))1 yi F ( X ) yi
yi 1
对方程左右取对数我们便得到:
ln L [ yi ln F ( X ) (1 yi ) ln(1 F ( X ))]
i 1
n
似然函数为
fi ln L n yi fi [ (1 yi ) ]xi 0 Fi 1 Fi i 1
Pr ob(Y 1 X ) X F ( X ) f ( X ) X
因此我们在遇到二元响应模型时,估计出参数我们不能盲目的 将其解释为:解释变量变动一个单位,相对应的因变量变化参 数个单位。
为了解决偏效应的问题我们引入调整因子的概念。 在上式中的 f ( X ) 我们 便称为比例因子或调整因子,它与全部 的解释变量有关,为了方便起见,我们要找一个适用于模型所有 斜率的调整因子。有两种方法可以解决: (1)用解释变量的观测值计算偏效应的表达式,调整因子为:
四、二元选择模型的估计
1.除了LPM模型以外,二元选择模型的估计都是以极大似然法为基础 的 。由前面的讨论我们知道:
P(Y 1 X ) F ( X )
由此我们可以得到模型的似然函数为:
P(Y1 y1 ,Yn yn X ) (1 F ( X )) F ( X )

《离散选择模型》课件

《离散选择模型》课件

极大似然估计法
通过最大化似然函数,估计模型 的参数值。
差分法估计法
通过对变量的差分进行估计,减 少了共线性问题的影响。
一般化估计方程法
通过建立一般化估计方程,对参 数进行估计。
离散选择模型的应用
公共交通出行方式选择
分析人们在选择公共交通出行方式时的决策行为,为政府制定交通政策提供依据。
食品品牌选择
确定性
选择结果是确定的,参与者 不受随机因素的影响。
离散选择模型的数学模型
1Байду номын сангаас
多项式Logit模型
通过对选择概率进行建模,预测参与者选择各个选项的概率。
2
二项式Logit模型
基于二项分布,预测参与者是否选择某个选项。
3
线性概率模型
使用线性回归方法,预测选择某个选项的概率。
离散选择模型的参数估计方法
离散选择模型是一种描述人们在面临离散选择时决策行为的数学模型。
2 离散选择模型的应用领域
离散选择模型被广泛应用于诸多领域,如公共交通、市场营销和行为经济学等。
离散选择模型的基本假设
可比性
各个选择项之间可以进行比 较,存在客观标准用于决策。
独立性
参与者之间的选择行为是独 立的,不受其他参与者的影 响。
《离散选择模型》PPT课 件
离散选择模型是一种用于分析人们在面临离散选择时的决策行为的统计模型。 本课件将介绍离散选择模型的定义、基本假设、数学模型、参数估计方法、 应用、不足及未来发展方向。
什么是离散选择模型
离散选择模型是一种用于研究人们在面临可选项时所作出的离散决策行为的统计模型。
1 离散选择模型的定义
将离散选择模型与其他决策模 型进行结合,以提高模型的准 确性和解释能力。

离散选择模型讲义北大陈志刚

离散选择模型讲义北大陈志刚

多重选择模型
当存在多种选择,而且这些选择之间没有程度的 不同,不涉及排序问题,就应用多重的probit,或 logit 模型.
假设残差项独立.这意味着(控制可观测变量的 基础上),任何两个可选择的效用是独立的;问题 在于当多个选择相似时,例如交通方式的选择, 坐车,乘船,坐飞机;但是有人对颜色有不同的偏 好,就把每种方式菜系分为红黄蓝三色,此时有 六种选择,但是统一交通方式之间相似,这就不 能用多重选择模型,而要用分层选择模型.
married | .0622516 .1125836 0.55 0.580 -.1584083 .2829115 high | .5612953 .099662 5.63 0.000 .3659613 .7566292 _cons | -1.468412 .2958112 -4.96 0.000 -2.048192 -.8886332 ------------------------------------------------------------------------------
Prediction: P:probability of a positive outcome. Xb: calculate the linear predictioin.
stdp:standard error of linear prediction.
Output after dprobit
Probit model using stata
probit depvar [indepvar][weight][if exp][in range][,level(#) nocoef noconstant robust cluster(varname) score(newvarname) asis offset(varname) maximize_options]

离散选择模型ppt课件

离散选择模型ppt课件

PYi 1 / X i
6
例如,我们对一个是否拥有自有住房的案例进行回归,
结果如下: Yi 1.2009 0.1056X i (0.1483 ) (0.0087) R 0.8078
2
回归拟合的很好,经济学意义也非常明确,收入Xi每增加1单位 (1万元人民币),平均拥有住房的概率将增加10.56%:
11
2.解释变量同样为定性变量的情况
ቤተ መጻሕፍቲ ባይዱ
Pi Li ln 1 P 0 1 X i ui i P 1 ˆ Xi=1时: L1 ln 1 P 0 1 (1) 1 P0 ˆ Xi=0时: L0 ln 1 P 0 (2) 0 P 1 1 P 1 如果定义: OR P0 1 P 0 1 ˆ L ˆ 那么就有: lnOR L OR e 1 0 1
15
回归的结果如下:
. logit y x Iteration Iteration Iteration Iteration 0: 1: 2: 3: log log log log likelihood likelihood likelihood likelihood = = = = -253.69187 -242.36572 -242.32729 -242.32729 Number of obs LR chi2(1) Prob > chi2 Pseudo R2 Std. Err. .2910729 .1179409 z 4.50 -2.10 P>|z| 0.000 0.036 = = = = 366 22.73 0.0000 0.0448
这意味着在其他条件都相同的情况下,抽烟人士患食道癌的 可能性是不抽烟人士的3.7倍还要多。

离散选择模型举例12.2 精品

离散选择模型举例12.2 精品

一.二元离散选择模型1.二元响应模型(Binary response model)我们往往关心响应概率()()()()z G x x G x y x y k k =+++=E ==P βββ...1110,其中x 表示各种影响因素(各种解释变量,包括虚拟变量)。

根据不同的函数形式可以分为下面三类模型:线性概率模型(Linear probability model ,LPM )、对数单位模型(logit )、概率单位模型(probit):三种模型估计的系数大约有以下的关系:LPM probit probit it ββββ5.2,6.1log ==2.偏效应(1)如果解释变量是一个连续型变量,那么他对p(x)=p(y=1|x)的偏效应可以通过求下面的偏导数得出来:()()()()dzz dG z g x g x x p j j =+=∂∂,0βββ,偏效应的符号和该解释变量对应的系数的符号一致;两个解释变量偏效应之比等于它们各自的估计系数之比。

(2)如果解释变量是一个离散性变量,则k x 从k c 变化到k c +1时对概率的影响大小为:()()()k k k k c x G c x G ββββββ+++-++++...1 (110110)上面的其他解释变量的取值往往取其平均值。

3.估计方法与约束检验极大似然估计;三种常见的大样本检验:拉格朗日乘数检验、wald 检验、似然比检验。

4.Stata 程序语法(以Probit 为例)probit depvar [indepvars] [weight] [if exp] [in range] [, level(#) nocoef noconstant robust cluster(varname) score(newvar) asis offset(varname) maximize_options ] predict [type] newvarname [if exp] [in range] [, statistic rules asif nooffset ] where statistic isp predicted probability of a positive outcome; the default xb linear predictionstdp standard error of the prediction二.具体的例子1.数据:美国1988年的CPS 数据2.模型:估计成为工会成员的可能性,模型形式如下:参加工会的概率=F(潜在经验potexp 、经验的平方项potexp2、受教育年限grade 、婚否married 、工会化程度high);解释变量:Potexp=年龄-受教育年限-5; grade=完成的受教育年限; married :1表示婚,0未婚;high :1表示高度工会化的行业,否则为0。

09离散选择模型

09离散选择模型

ˆX 1 1 ˆ 2 X i2 X 2 ( X i X ) 2 n n
• 极大似然估计(ML):求使得似然函数取极大值的参数值 • 似然函数:令(X1, X2, …, XN)是概率密度函数为f(x|θ1, …, θk)的总体 的一个随机样本,则似然函数定义为:
L(θ | x1,, xn ) in1 f ( xi | θ)
6. 二元选择模型的估计
• 极大似然估计量的协方差矩阵有三种计算方法
• 一是负的海赛矩阵的逆在MLE处的值 2 n ln L • Probit模型 H i (i xiβ ) xi xi ββ i 1
qi qi xiβ i , qi 2 yi 1 (qi xiβ )
Linear Variable Constant GPA TUCE PSI Coefficient Slope −1.498 — 0.464 0.464 0.010 0.010 0.379 0.379
1.000
Logistic
Probit
Complementary log log
Coefficient Slope Coefficient Slope Coefficient Slope −13.021 — −7.452 — −10.631 — 2.826 0.534 1.626 0.533 2.293 0.477 0.095 0.018 0.052 0.017 0.041 0.009 2.379 0.450 1.426 0.468 1.562 0.325
E[ y | x ] ( xβ ) β x
• Logit模型的边际效应为:
E[ y | x ] ( x β )[1 ( x β )] β x

第七章(下) 二元离散选择模型

第七章(下) 二元离散选择模型

对于Logit模型,我 们有: 分布函数 F ( x) exp( x) Λ( x)
1 exp( x)
exp( x) 密度函数 f ( x) (1 exp( x))2 Λ( x)(1 Λ( x))
带入(*)式,我们得到: ln L


N
Yi
i 1
Λ( X i )X i
1 X i
(PXi i
)2
(1

Pi
)

Pi
(1

Pi
)
随机误差项ui非正态且存在异方差性
Yi 0 1 X1i k X ki ui X i ui
0 Pi E (Y i ) X i 1
可能不成立
当用线性概率模型进行预测,预测值 X i 落在区间 [0,1]之内时,则没有什么问题;但当预测值 X i 落
0 Pi E (Y i ) X i 1
可能不成立
所以此时必须强令预测值(概率值)相应等于0或1。
因此,线性概率模型常常写成下面的形式
Pi


X i
1
0
0 X i 1 X i 1 X i 0
1.2 Y
1.0
0.8
0.6
0.4
0.2
0.0
Yi 0 没有购买住房
Yi 0 1 X i ui i 1,2, , N
令 Pi P(Yi 1) 那么 1 Pi P(Yi 0)
家被庭解选释择变购量买Yi 住的房分的布概为率是解释变量-家庭收入的一
个线性函数。我们称这一关系式为线性概率函数。
Yi
0
1

离散选择模型(研究1025)

离散选择模型(研究1025)

离散选择模型§ 1 离散选择回归模型一、离散的变量如果我们用0,1,2,3,4,…说明企业每年的专利申请数,申请数是一个离散的变量,但是它是间隔尺度变量,该变量类型不在本章的讨论的被解释变量中。

但离散变量0和1可以用来说明企业每年是否申请专利的事项,类似表示状态的变量才在本章的讨论中。

在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个选择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态。

本专题讨论有序尺度变量和名义尺度变量的被解释变量。

二、离散的因变量在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。

离散选择模型 110yes x no⎧=⎨⎩ 如果x 作为说明某种具体经济问题的自变量,则应用以前介绍虚拟变量知识就足够了。

如果现在考虑某个家庭在一定的条件下是否购买住房问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。

因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房的问题。

因为在家庭是否购房问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为离散选择模型。

三、线性概率模型现在约定备择对象的0和1两项选择模型中,下标i 表示各不同的经济主体,取值0或l 的因变量表示经济主体的具体选择结果,而影响经济主体进行选择i y离散选择模型2i x (1/i p y =i x 1/)i i x (/)0(0/)i i E y p y +×=x (1/)i i p y x 的自变量。

如果选择响应YES 的概率为,则经济主体选择响应NO 的概率为1(,)p y −=则=1(1/)i i i i p y =×=x x =。

根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们想象可以构造线性概率模型(1/)(/)i i i i i p y x E y x ′===x β011i k ik x i x u βββ=++++L描述两个响应水平的线性概率回归模型可推知,根据统计数据得到的回归结果并不一定能够保证回归模型的因变量拟合值界于[0,1]。

离散选择模型

离散选择模型

在这个回归结果图中log likelihood即对数似然值,不断的试错迭代是 logit模型的估计方法,在逐步进行回归时,通过比较不同模型的-2LL 判断模型的拟合优度,选择取值更小的模型。LR chi2(4)是卡方检验 的统计量,也就是回归模型无效假设所对应的似然比检验量;其中4 为自由度,Prob>chi2 是其对应的P值,在这个估计结果显示以p=0 显著说明模型的有效性。其实这两个指标与线性回归结果中F统计量 和P值的功能是大体一致的。另外结果中的Pseudo R2是准R2,虽然 不等于R2,但可以用来检验模型对变量的解释力,因为二值选择模型 是非线性模型,无法进行平方和分解,所以没有,但是准衡量的是对 数似然函数的实际增加值占最大可能增加值的比重,所以也可以很好 的衡量模型的拟合准确度。此logit模型中拟合优度为0.1882。 coef是自变量对应的系数估计值,OLS通过t检验来检验估计量是否 显著,logit模型通过z检验来判断其显著性;通过z检验结果可以看到 此模型中系数均以p=0显著不为0。
二实验操作指导 1.选择合理模型 在Stata中将数据按照某个或某几个变量进行分类 并按这个变量获得其频数分布的命令如下: tab varlist 其中varlist表示按照其分类的变量或者变量组合。 在本实验中,打开数据文件并将数据按brand取 值分类,在Stata命令窗口中输入如下命令 use brand ,clear tab brand 读图可知brand取值有三个,分别是1,2,3。由 于所要探究的问题female和age对brand的影响, 且假定了选择各个品牌之间是相互独立的,那么 建立多值选择模型来分析问题是合理的。
二 实验内容和数据来源
本实验来自某统计资料,统计在购物时所选品牌 与性别、年龄的关系。变量主要有brand(品 牌),female(性别),age(年龄)。完整的 数据在本书附带光盘data文件夹下“brand.dta” 中。 本实验用此数据来以female和age为解释变量, brand为被解释变量,brand的取值是离散的,且 有三个取值,应建立多值选择模型进行相关分析。

第五章离散选择模型(虚拟变量回归)(20140429)

第五章离散选择模型(虚拟变量回归)(20140429)

第五章离散选择模型(虚拟变量回归)(20140429)第五章离散选择模型(虚拟变量回归)第一节虚拟变量的概念一、问题的提出计量经济学模型对变量的要求——可观测、可计量。

但在现实经济问题中,存在定性影响因素,比如1、属性(品质)因素的表达在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。

如收入在形成过程中,不同的性别所得到的收入是不一样的;在城乡、不同地区等收入存在差距;再比如,在我国,经济的发展水平对于不同的区域有不同的表现。

2、异常值现象当经济运行过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。

3、季节因素的影响有的经济现象存在明显的季节特征,如啤酒的消费。

那么,在建模过程中,季节变动这一因素怎样考虑?4、离散选择现象的描述如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。

第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。

称前一种情况为虚拟解释变量,后一种为虚拟被解释变量。

本章主要介绍虚拟解释变量的内容。

二、虚拟变量的定义1、定义设变量D表示某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D取值为0。

记为=不具有该属性类型具有某种属性类型01D 2、虚拟变量引入的规则(1)在模型里存在截距项的条件下,如果一个属性存在m 个相互排斥类型(非此即彼),则在模型里引入m-1个虚拟变量。

否则,会出现完全的多重共线性。

但要注意,在模型无截距项的情况下,如果一个属性存在m 个类型,即便引入m 个变量,不会出现多重共线性问题。

(请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。

而虚拟变量取值为1,代表与基础类型相比较的类型,称为比较类型。

例如“有学历”D 为1,“无学历”D 为0,则“无学历”就是基础类型,“有学历”为比较类型。

(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0,第一个类型;D=1,第二个类型;……D=m-1,第m 个类型。

stata上机实验第六讲 离散选择模型(共43张PPT)

stata上机实验第六讲 离散选择模型(共43张PPT)
Stata上机实验(shíyàn)
第一页,共43页。
离散(lísàn)选择模型
1。二项选择模型 主要(zhǔyào)包括: Probit模型〔标准正态分布〕 Logit模型〔逻辑分布〕
第二页,共43页。
Logit 模型(móxíng)
Logit模型假定模型的误差项服从Logistic分布
e x iβ
第十四页,共43页。
排序选择(xuǎnzé)模型
根据GSS的调查数据,不同的家庭母亲与子 女之间的关系也不同。根据调查显示,有的 家庭母子〔女〕关系比较紧张,有的比较融 洽。变量包括:warm=关系融洽度〔0、1、2、 3〕;educ=子女接受教育的程度;age=子女 年龄(niánlíng);male=儿子;prst=职业威望; white=白人;y89=89年调查结果。分析不同 因素对母子〔女〕关系的融洽程度有何影响。
第二十三页,共43页。
nbreg daysabs langarts male 命令结果中将提供一个LR 检验, 原假设:不存在过度分散,应该使用泊松回 归(huíguī)。此时alpha=0。 备那么假设: alpha<>0,不能使用泊松回归 (huíguī)。
第二十四页,共43页。
受限因变量模型(móxíng)
第二十八页,共43页。
tobit y x1 x2 x3,ll(#) 〔变量<#的被左截断(jié duàn)〕
tobit y x1 x2 x3,ul(#)〔变量>#的被右截断(jié duàn)〕
tobit y x1 x2 x3,ll(#) ul(#)〔l同时定义下限和 上限〕
第二十九页,共43页。
利用womenwork.dta的数据进行普通OLS回 归和截取回归。被解释变量(biànliàng)为lwf 〔log of wage if working and 0 if not working〕。解释变量(biànliàng)为age〔年 龄〕, married〔婚否〕, children〔子女数〕, education〔教育年限〕。

离散选择模型分析

离散选择模型分析

(4-4)
两元选择模型和多元选择模型
离散因变量是指因变量只有有限多个类别或有限多种取值。当 因变量只有两个类别或两种取值时,这种离散因变量的模型称为两 元选择模型(如例4-1)。 而当因变量有两个以上类别或两种以上取 值时,相应的离散因变量模型称为多元选择模型(例4-3)。
两元选择模型
对于两元选择模型,因变量 y i 的取值记为1或0,于是
本章讨论离散因变量模型和截取回归模型。
第二节 离散因变量模型
前二章讨论的回归模型,因变量都是连续变量,如产量、收入 和价格等。但在许多的实际问题中,所研究的因变量是离散的,或 是非数值型。对于这一类因变量,古典的回归分析方法已不完全适 用。
例 4—1
一家公司的人事部门研究高级人才是否接受招聘与招聘条件(如
于是1??最大似然估计themethodofmaximumlikelihoodiiyiniyinnxxyyyyyypl??????????????1122111????nn415probit模型的似然函数而对数似然函数1ln1lnln11????iiiiiixyxyl??????????lln?011ln11????????????????iniiiiiniiiixxxyxxxyl?????????ml??420421最大似然估计是使l或达到最大的值即满足如下的似然方程组牛顿法newtonsmethod??????????????????????????????????????????kkllllllh????????????lnlnlnlnlnln1211201202102002???417由于probit模型为非线性从而似然方程4021只能用迭代法求解
2 ln L
0
0
2 ln L

二元离散选择模型

二元离散选择模型

二元离散选择模型1.在一次选举中,由于候选人对高收入者有力,所以收入成为每个投票者表示同意或者反对的最主要影响因素。

以投票者的态度(y )作为被解释变量,以投票者的月收入(x )作为解释变量建立模型,同意者其观测值为1,反对者其观测值为0,样本数据见表7.1。

原始模型为:i i i y x αβµ=++。

利用Probit 二元离散选择模型估计参数。

表8.1样本观测值序号X Y 序号X Y 序号X Y 11000111100021210012200012120002222001330001313001232300144000141400024240015500015150012525001660001616000262600177000171700127270018800018180002828001990001919001292900110100020200013030001估计过程如下:输入变量名,选择Probit 参数估计。

得到如下输出结果:但是作为估计对象的不是原是模型,而是如下结果:1@[( 4.75390.003067*)]YF CONRM X =−−−+可以得到不通X 值下的Y 选择1的概率。

例如,当X=600时,查标准正态分布表,对应于2.9137的累积正态分布为0.9982;于是,Y 的预测值YF=1-0.9982=0.0018,即对应于该个人,投赞成票的概率为0.0018。

1.某商业银行从历史贷款客户中随机抽取78个样本,根据涉及的指标体系分别计算它们的“商业信用支持度”(XY)和“市场竞争地位等级”(SC),对它们贷款的结果(JG)采用二元离散变量,1表示贷款成功,0表示贷款失败。

样本观测值见表8.2。

目的是研究JG与XY、SC之间的关系,并为正确贷款决策提供支持。

表8.2样本观测值JG XY SC JGF JG XY SC JGF JG XY SC JGF 0125-2001500-20054-10 0599-200960014221 0100-201-80104200.0209 0160-200375-2011821 046-20042-1 6.50E-130801 6.40E-12 080-2015211-501 0133-200172-20032620 0350-101-801026110 12300.9979089-201-2-10.9999 060-200128-20014-2 3.90E-07 070-10160112200.9991 1-8010150-10011310 0400-201542114210.9987 07200028-2015720.9999 0120-1012500.9906014600 14010.999812300.997911501 13510.999911401026-2 4.40E-16 12611049-10089-20 115-10.4472014-10.54981511 069-100610 2.10E-121-9-11 010710140211411 12911030-20054-20 12110112-1013211 13710.9999078-200540 1.40E-07 053-1010010131-20 0194000131-2011501估计过程如下:输入变量名,选择Logit参数估计。

第七章(下) 二元离散选择模型

第七章(下) 二元离散选择模型
基于上述LPM的缺点,在现实应用中,原始 模型一般不能作为实际研究二元选择问题的模型。
我们考虑对线性概率模型进行一些变换,来克服 这些缺点。
效用模型

U
1 i
表示第
i个个体选择1的效用,U
0 i
表示第
i个
个体选择0的效用。其效用均为随机变量,于是有
UUi0i1

X i X i
1 0
Yi* X i ui*
中,假定ui*的分布为极值分布,则该模型称为 Extreme模型。
第二节 二元离散选择模型最大似然估计
下面我们来构造二元离散选择模型的似然函数。这 是二元离散选择模型最关键的问题。
我们假设有以Y 轴为对称的概率密度函数f(.),则
P(Yi 1 ) P(Yi* 0 ) P( u*i X i ) 1 F ( X i ) F ( X i )
Yi f ( Xi ) F ( Xi )

X
i
(*)
于是我们选择F不同的形式得到不同的经验模型
ln L


N i 1

(1

Yi
)
1
f ( Xi ) F ( Xi )

Yi f ( Xi ) F ( Xi )

X
i
(*)
一、 Logit模型的最大似然估计
标Yi准* 正X态i分布ui*
x
F ( x)
Yi
10e(xYYxpii**()
0 x)0
1
e

z2 2
dz
2 则
逻辑分布
F(x)
Λ( x)
P(Yi 1) P(Yi* 标0准) 正态P概1(u率i* 分ex布p曲(X线xi) )logi1stic分F布(曲X线i )
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

离散选择模型HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】第五章离散选择模型在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。

我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。

本章主要介绍以下内容:1、为什么会有离散选择模型。

2、二元离散选择模型的表示。

3、线性概率模型估计的缺陷。

4、Logit模型和Probit模型的建立与应用。

第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。

1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。

例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。

由离散数据建立的模型称为离散选择模型。

2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。

例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。

这种类型的数据成为审查数据。

再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。

这两种数据所建立的模型称为受限被解释变量模型。

有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。

下面是几个离散数据的例子。

例研究家庭是否购买住房。

由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即我们希望研究买房的可能性,即概率(1)P Y =的大小。

例 分析公司员工的跳槽行为。

员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。

员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即例 对某项建议进行投票。

建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即研究投票者投什么票的可能性,即(),1,2,3P Y j j ==。

从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。

本章主要介绍二元离散选择模型。

离散选择模型起源于Fechner 于1860年进行的动物条件二元反射研究。

1962年,Warner 首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。

70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。

模型的估计方法主要发展于20世纪80年代初期。

(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页)二、线性概率模型对于二元选择问题,可以建立如下计量经济模型。

1、线性概率模型的概念设家庭购买住房的选择主要受到家庭的收入水平,则用如下模型表示其中,i X 为家庭的收入水平,i Y 为家庭购买住房的选择,即由于Y 是取值为0和1的随机变量,并定义取Y 值为1的概率是p ,则Y 的分布为 即随机变量Y 服从两点分布。

根据两点分布,可得Y 的数学期望为显然从而 12(|)i i E Y X X p ββ=+=(5-1)上述数学模型的经济学解释是,因为选择购买住房变量取值是1,其概率是p ,并且这时对应p 的表示是一线性关系,因此,Y 在给定i X 下的条件期望()i E Y X 可解释为在给定i X 下,事件(家庭购买住房)将发生的条件概率为(1)i i P Y X =,亦即家庭选择购买住房的概率是家庭收入的一个线性函数。

我们称这一关系式为线性概率函数。

由于,Y 服从两点分布,所以,Y 的方差为2、线性概率函数的估计及存在的问题对线性概率函数直接运用OLS估计,会存在以下困难。

(1)随机误差项的非正态性表现 表明i u 服从两点分布。

而在经典计量经济学中,假定i u 服从正态分布。

(2)i u 的异方差性。

事实上,根据i u 服从两点分布则i u 的方差为()(1)i i i Var u p p =-。

表明i p 随着i 的变动是一个变量,则i u 的方差不是一个固定常数。

(3)利用加权最小二乘法修正异方差取权数为具有同方差。

在具体估计线性概率模型时,用ˆiY 作为p 的估计来计算权数w 的估计wˆ。

3、可决系数2R 的非真实性。

由于,被解释变量Y 只取值1或0,不可能有估计的线性概率模型能很好地拟合这些点,所以,这时计算的2R 会比1小许多,在大多数例子中,2R 介于与之间。

4、0≤()i i E Y X ≤1不成立。

克服这一问题可直接从对线性概率模型的估计,求出ˆi Y ,用人工的方法定义当ˆi Y >1时,取ˆi Y =1;当ˆi Y <0时,取ˆiY =0。

但要比较好地解决这类问题,只能考虑采用新的估计方法,这就是将要介绍的Logit 模型和Probit 模型。

第二节 Logit 模型一、Logit 模型的产生1、产生Logit 模型的背景由上述介绍可知,对于线性概率模型来说,存在一些问题,有的问题尽管可以用适当的方法加以弥补,但并不完善和理想。

(1)古典假定不再成立,如存在异方差性,可用加权OLS 方法加以弥补。

(2)在线性概率模型中,对于不满足0≤()i i E Y X ≤1的情况,用人工的方法处理,即当ˆi Y >1时,取ˆiY =1 当ˆi Y <0时,取ˆiY =0 虽然能够弥补不足,但仍然具有较强的主观因素。

(3)经济意义也不能很好地得到体现。

在线性概率模型12(|)i i E Y X X p ββ=+=中,概率(1)P Y =会随着i X 的变化而线性变化,但这与实际情况通常不符。

例如购买住房,通常收入很高或很低,对于购买住房的可能性都不会有太大的影响,而当收入增加很快时,对购买住房的影响将会很大。

所以,购买住房的可能性与收入之间并不是线性关系,有可能是一种非线性关系。

2、Logit 模型的含义综合上述讨论,我们所需要的是具有如下二分性质的模型。

(1)随着i X 的减小,i p 趋近0的速度会越来越慢;反过来随着i X 的增大,i p 接近1的速度也越来越慢,而当i X 增加很快时,i p 的变化会比较快。

故i p 与i X 之间应呈非线性关系。

(2)并且由概率的属性,i p 的变化应始终在0和1之间。

因此,一个很自然的想法是采用随机变量的分布函数来表示i p 与i X 的这种非线性关系。

从几何图形看,所需要的模型有点像图那样,概率位于0与1之间,并随着i X 非线性地变化。

图 一个累积分布函数的图形形如图所示的S 型曲线,就是随机变量的一个累积分布函数(CDF )。

因此,当回归中的被解释变量是取0和1的二分变量时,并且概率值的变化与解释变量i X 之间有上述变化特征,则可用CDF 去建立回归模型。

在二分被解释变量的研究中可使用多种分布函数(Cox ,1970)来表示。

但最常用的是Logistic 分布函数和标准正态分布函数,前者导出Logit 模型,后者导出Probit 模型。

(3)Logistic 分布函数设 12()11()11i i i i z X p F z e eββ--+===++ (5-2) 式中,12i i Z X ββ=+。

并且在该表达式中,有如下变动规律,当i Z →+∞时,1i p →;当i Z →-∞时,0i p →;当0i Z =时,12i p =。

称(5-2)式为Logistic 分布函数,它具有明显的S 型分布特征。

(4)Logit 模型以下是由Logistic 分布函数导出Logit 模型。

其中,1i ip p -为机会概率比(简称机会比,下同),即事件发生与不发生所对应的概率之比。

称(5-3)式为Logit 模型。

3、Logit 模型的特点(1)随着P 从0变到1,ln()1p p-从-∞变到∞(亦即i Z 从-∞变到∞)。

可以看出,在LPM 中概率必须在0与1之间,但对Logit 模型并不受此约束。

(2)ln()1p p-对i X 为线性函数。

(3)当ln()1p p -为正的时候,意味着随着i X 的增加,选择1的可能性也增大了。

当ln()1p p-为负的时候,随着i X 的增加,选择1的可能性将减小。

换言之,当机会比由1变到0时,ln()1p p-会变负并且在幅度上越来越大;当机会比由1变到无穷时,ln()1p p-为正,并且也会越来越大。

4、Logit 模型与线性回归模型的区别(1)Logit 模型为非线性模型,尽管等式右端看上去是线性形式,而普通回归模型是线性模型。

(2)线性回归模型研究被解释变量Y 的均值(|)i E Y X 与解释变量i X 之间的依存关系,而Logistic 分布函数研究的是事件发生的概率(1|)i P Y X =与解释变量i X 的依存关系。

(3)线性回归模型中包含随机误差项i u ,对i u 的要求是要满足基本假定,而Logistic 分布函数没有出现随机误差项,对模型没有这样的要求。

(4)在估计Logit 模型时,要求数据必须来自于随机样本,即各观测值相互独立,或者说要求样本分布与总体分布具有同一性,而对线性回归模型一般情况下并无这样严格的要求。

此外,Logit 模型与线性回归模型的一个相同的要求是,解释变量之间要无多重共线性,否则,会导致参数估计的方差变大和不稳定。

二、Logit 模型的估计为了估计Logit 模型,除了i X 外,我们还应有ln()1p p-的数值。

由于i p 只取值为1和0(即事件发生或不发生,如买房或不买房),使得ln()1p p -无意义,通常情况下,i p 没有具体的数据,所以直接对Logit 模型进行估计有困难。

这时,可有以下估计方法。

1、根据数据类型选用OLS 方法可通过市场调查获得分组或重复数据资料,用相对频数ˆi i ir p n =作为i p 的估计。

以购买住房为例,将购买住房的情况分组,假设第i 组共有i n 个家庭,收入为i X ,其中有i r 个家庭已购买住房,其余未购买。

则收入为i X 的家庭,购买住房的频率为 将其作为i p 的估计,并代入对数机会比,有于是,样本回归函数为对上式可直接运用OLS 法估计未知参数了。

相关文档
最新文档