第五章离散选择模型

合集下载

离散选择模型

离散选择模型

二元选择模型
解释变量与因变量的关系
解释变量与因变量的关系
在二元选择模型中,解释变量与因变量之间的关系
如何描述呢? 首先,我们可以将模型写成如下形式:
P Y 1 F x
但是由于 F x 不一定是线性函数,因此x对于Y的 影响不能简单的用 表示。
二元选择模型
二元选择模型的一个例子
分析劳动力就业情况,Y=1表示就业,Y=0表示失
业,若x为影响因素,β为参数向量,则劳动力就业 的概率与影响因素的关系就可以表示为:
P Y 1 F x, P Y 0 1 F x,
其中,F (x, β)是与x和β有关的分布函数。
解释变量与因变量的关系
由于有
P Y 1 E Y F x
所以x对于事件Y 1 发生的概率,即 P Y 1 的影响
为:
E Y dF x f x x d x
解释变量与因变量的关系
由于变量Y是一个二元变量,因此有:
N1 E Y P Y 1 E Y F x, N
二元选择模型
分布函数的几种不同形式
线性概率模型
线性概率模型即假设分布函数为线性形式: 因此有:
F x, x
Y E Y Y E Y
Pij P Yi j P U ij U i j


Logit模型
与二元选择模型的思路一样,我们使用一种特定的
分布函数来描述这一概率,假设 ij 独立同分布,且 服从Weibull分布,分布函数的形式为:
F t exp e t

第五章 离散模型

第五章 离散模型
由假设,

p11 0.8, p12 0.2, p21 0.7, p22 0.3,
再由于投保人处于健康状态,即 0 1 1, 0 2 0. 由此得到
n
0
1
2
3
4


n 1 1 0.8 0.78 0.778 0.7778 7 / 9. n 2 0 0.2 0.22 0.222 0.2222 2 / 9

x, y x y 1, 2.
y
2 1
o
1
2
3
x
在上图中, 实点即表示为容许状态的集合. 乘船的方案称为决策,仍然用向量
x, y 来表示,
即 x名商人和 y 名随从同坐一条船. 在这些决策中, 有
是符合条件的,称为容许决策。容许决策的全体组成集 合构成容许决策的集合,记为 D. 在这个问题中,容许决策的集合为
若投保人在开始时处于疾病状态,即0 1 0, 0 2 1. 则有
n
0
1
2
3
4


n 1 0 0.7 0.77 0.777 0.7777 7 / 9. n 2 1 0.3 0.23 0.223 0.2223 2 / 9
从两张表中可以看到,无论投保人在初始时处于什么 状态,当时间趋于无穷大时,该时刻的状态趋于稳定, 且与初始值无关。即
9
10 11 12
2, 2 0, 2 0,3 0,1 0, 2 0,0
2,0 0,1 0, 2 0,1 0, 2
分析
从上表中可以看到,该方案是可行的。
二、马氏链及其应用
1.一个简单的例子 我们知道,人寿保险公司最为关心的是投保人的健康

离散选择模型

离散选择模型

模型检验
类似R 类似 2
类似F检验 类似 检验
Company
LOGO
3.线性概率模型存在的问题
(1)因变量的期望值与Xβ的取值范围不同 (2)异方差问题 (3)随机扰动项不再是正态分布,而是服从二项分布。 (4)LPM模型假定自变量和Y=1的概率之间存在线性关系,而此 关系往往不是线性的。
(5) 2 或 R 2 调整的不适合用来测度拟合优度。 R 通常用“模型正确预测的观测值的百分比”来代替。
【例题2】市长竞选,谁会投您的票?
数据如下
面板数据模型的设定与检验
根据以上数据我们得到如下结果:
根据上述回归结果,我们可以得出如下结论:年老一些、 富裕一些的选民更喜欢投票给候选人甲。
“模型正确预测的观测值的百分比”的计算
列表给出CAND1的拟合值,每个大于等于0.5的拟合值计入 CAND1为1的预测,而小于0.5的拟合值则计入CAND1为0的预 测。汇总统计30个观测值中,27个(或90%)预测正确。选甲的 14人中,12人(或85.7%)预测正确。选乙的16人中,15人(或 2 93.8%)预测正确。而R 是0.58,表明模型解释了因变量的58% 的变动,这远低于90%的正确预测比例。
模型检验
模型检验
2.整个方程的显著性检验 整个方程的显著性检验 采用LR(最大似然比)统计量和 ( 采用 (最大似然比)统计量和LM(拉格 朗日乘子)统计量, 朗日乘子)统计量,通常值越大则越拒绝原假 设(H0:方程不显著) :方程不显著)
【注意】 注意】 第一,二元选择模型输入的是y的值,但输出的是y*的值。 第一,二元选择模型输入的是 的值,但输出的是 的值。 的值 的值 第二,二元选择模型中的系数不能被解释成对因变量的边际 第二, 影 响,只能从符号上判断,如果为正,表明解释变量越大,因变 只能从符号上判断,如果为正,表明解释变量越大, 量取1的概率越大,反之,如果系数为负,表明相应的概率将越小。 量取 的概率越大,反之,如果系数为负,表明相应的概率将越小。 的概率越大

离散选择模型

离散选择模型

Yi 0 1GPAi 2 INCOMEi ui
其中:
1 Yi 0
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPA=第i个学生本科平均成绩 INCOME=第i个学生家庭年收入(单位:千美元)
设回归结果如下(所有系数值均在10%水平统计上显著):
ˆ Yi 0.7 0.4GPAi 0.002 INCOMEi
yi 0 yi 1
函数可以简化为:
L (1 F ( X ))1 yi F ( X ) yi
yi 1
对方程左右取对数我们便得到:
ln L [ yi ln F ( X ) (1 yi ) ln(1 F ( X ))]
i 1
n
似然函数为
fi ln L n yi fi [ (1 yi ) ]xi 0 Fi 1 Fi i 1
Pr ob(Y 1 X ) X F ( X ) f ( X ) X
因此我们在遇到二元响应模型时,估计出参数我们不能盲目的 将其解释为:解释变量变动一个单位,相对应的因变量变化参 数个单位。
为了解决偏效应的问题我们引入调整因子的概念。 在上式中的 f ( X ) 我们 便称为比例因子或调整因子,它与全部 的解释变量有关,为了方便起见,我们要找一个适用于模型所有 斜率的调整因子。有两种方法可以解决: (1)用解释变量的观测值计算偏效应的表达式,调整因子为:
四、二元选择模型的估计
1.除了LPM模型以外,二元选择模型的估计都是以极大似然法为基础 的 。由前面的讨论我们知道:
P(Y 1 X ) F ( X )
由此我们可以得到模型的似然函数为:
P(Y1 y1 ,Yn yn X ) (1 F ( X )) F ( X )

第五章 离散选择模型

第五章 离散选择模型
1 2 X i Y ( X ) ln(1 e ) 2 i i 1
i 1 n
ˆ和 称上式为对数似然函数。为了估计能使 ln L(1, 2 ) 有最大的总体参数估计 1 ˆ ,先分别对 , 求偏导数,然后令其为 0,得 1 2 2
• 三、Logit 回归模型的评价和参数的统计检验
• 1、模型的拟合优度检验
(1)McFadden R 2 在前面的介绍中,已经提到对于离散选择模型,通常的拟合优度 R 2 没有多
2 大意义。在 EViews 软件里,有一种方法即 McFadden R 2 ,简记为 RMcF 。其计
算公式为
R
2 McF
ui Yi 1 2 X i Yi 1, Yi 0, ui 1 1 2 X i ui 1 2 X i
• (2) u i 的异方差性
Var (ui ) E (ui E (ui )) 2 E (ui2 ) ( 1 2 X i )2 (1 p) (1 1 2 X i ) 2 p p 2 (1 p) (1 p) 2 p p(1 p)[ p 1 p] p(1 p)
ln L( 1 , 2 )
e 1 2 X i Yi 1 1 e 1 2 X i i 1 ln L( 1 , 2 ) n e 1 2 X i Yi 1 2 X i 2 1 e i 1
LIFur 1 LIFr
式中, LIFur 为模型中包含所有解释变量的无约束对数似然函数值, LIFr 为模型 中仅含有截距项的有约束的对数似然函数值。从概念上讲, LIFur 和 LIFr 分别等
2 价于普通线性回归模型中的 TSS 和 RSS。 与 R 2 一样, 也在 0 到 1 之间变动。 RMcF

离散选择模型完整版

离散选择模型完整版

离散选择模型HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】第五章离散选择模型在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。

我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。

本章主要介绍以下内容:1、为什么会有离散选择模型。

2、二元离散选择模型的表示。

3、线性概率模型估计的缺陷。

4、Logit模型和Probit模型的建立与应用。

第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。

1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。

例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。

由离散数据建立的模型称为离散选择模型。

2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。

例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。

这种类型的数据成为审查数据。

再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。

这两种数据所建立的模型称为受限被解释变量模型。

有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。

下面是几个离散数据的例子。

例研究家庭是否购买住房。

由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即我们希望研究买房的可能性,即概率(1)P Y =的大小。

《离散选择模型》课件

《离散选择模型》课件

极大似然估计法
通过最大化似然函数,估计模型 的参数值。
差分法估计法
通过对变量的差分进行估计,减 少了共线性问题的影响。
一般化估计方程法
通过建立一般化估计方程,对参 数进行估计。
离散选择模型的应用
公共交通出行方式选择
分析人们在选择公共交通出行方式时的决策行为,为政府制定交通政策提供依据。
食品品牌选择
确定性
选择结果是确定的,参与者 不受随机因素的影响。
离散选择模型的数学模型
1Байду номын сангаас
多项式Logit模型
通过对选择概率进行建模,预测参与者选择各个选项的概率。
2
二项式Logit模型
基于二项分布,预测参与者是否选择某个选项。
3
线性概率模型
使用线性回归方法,预测选择某个选项的概率。
离散选择模型的参数估计方法
离散选择模型是一种描述人们在面临离散选择时决策行为的数学模型。
2 离散选择模型的应用领域
离散选择模型被广泛应用于诸多领域,如公共交通、市场营销和行为经济学等。
离散选择模型的基本假设
可比性
各个选择项之间可以进行比 较,存在客观标准用于决策。
独立性
参与者之间的选择行为是独 立的,不受其他参与者的影 响。
《离散选择模型》PPT课 件
离散选择模型是一种用于分析人们在面临离散选择时的决策行为的统计模型。 本课件将介绍离散选择模型的定义、基本假设、数学模型、参数估计方法、 应用、不足及未来发展方向。
什么是离散选择模型
离散选择模型是一种用于研究人们在面临可选项时所作出的离散决策行为的统计模型。
1 离散选择模型的定义
将离散选择模型与其他决策模 型进行结合,以提高模型的准 确性和解释能力。

第五周:离散选择模型分析技术——每周一讲多变量分析

第五周:离散选择模型分析技术——每周一讲多变量分析

第五周:离散选择模型分析技术——每周一讲多变量分析离散选择模型(Discrete Choice Model),也叫做基于选择的结合分析模型(Choice-Based Conjoint Analysis,CBC),是一种非常有效且实用的市场研究技术。

该模型是在实验设计的基础上,通过模拟所要研究产品/服务的市场竞争环境,来测量消费者的购买行为,从而获知消费者如何在不同产品/服务属性水平和价格条件下进行选择。

这种技术可广泛应用于新产品开发、市场占有率分析、品牌竞争分析、市场细分和价格策略等市场营销领域。

同时离散选择模型也是一种处理离散的、非线性的定性数据的复杂高级多元统计分析技术,它采用Multinomial Logit Model进行数据统计分析。

根据Sawtootch公司调查显示:在市场研究中,CBC方法正在快速增长,应用比传统的结合分析(联合分析)应用更多!离散选择模型主要用于测量消费者在实际或模拟的市场竞争环境下如何在不同产品/服务中进行选择。

通常是在正交实验设计的基础上,构造一定数量的产品/服务选择集(Choice Set),每个选择集包括多个产品/服务的轮廓(Profile),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平(Level)组合构成。

例如消费者购买手机的重要属性和水平可能包括:品牌(A,B,C)、价格(1500元,1750万元,2000元)、功能(短信,短信语音,图片短信)等,离散选择模型是测量消费者在给出不同的产品价格、功能条件下是选择购买品牌A,还是品牌B或者品牌C,还是什么都不选择。

离散选择模型的一个重要的假定是:消费者是根据构成产品/服务的多个属性来进行理解和作选择判断;另一个基本假定是:消费者的选择行为要比偏好行为更接近现实情况。

它与传统的全轮廓结合分析(Full Profiles Conjoint Analysis)都是在全轮廓的基础上采用分解的方法测量消费者对某一轮廓(产品)的选择与偏好,对构成该轮廓的多个属性和水平的选择与偏好,用效用值(Utilities)来描述。

离散选择模型解释

离散选择模型解释

离散选择模型解释离散选择模型,听起来是不是有点高大上,有点让人摸不着头脑?其实啊,它没那么神秘!咱们先来说说啥是离散选择模型。

就好比你去逛街买衣服,面对一排五颜六色、款式各异的衣服,你只能选一件。

这时候你的选择就是离散的,要么选这件,要么选那件,不可能同时选好几件穿在身上。

离散选择模型就是研究像这样的选择行为的。

比如说,你要出门旅游,有几个目的地可以选:海边、山区、城市。

那影响你最终决定的因素可能有很多,比如海边风景美但可能人多;山区空气好但交通不太方便;城市热闹但消费高。

离散选择模型就能帮我们分析这些因素是怎么影响你的最终决定的。

这就好像是一场内心的拔河比赛。

各种因素在你心里较着劲,有的使劲把你往海边拉,有的拼命把你往山区拽,还有的用力把你往城市推。

最后哪个因素的力量大,你就选择了对应的地方。

再举个例子,你每天早上纠结吃包子还是油条。

包子馅种类多,油条口感酥脆。

价格、营养、喜好等等都会影响你的选择。

离散选择模型就是要搞清楚这些因素到底谁占了上风,让你做出了决定。

你想想,要是商家能搞懂消费者在他们的产品里是怎么做出离散选择的,那他们不就能更好地迎合消费者的需求,赚更多的钱啦?反过来,政府也能通过这个模型了解大家对公共服务的选择偏好,从而提供更合大家心意的服务。

离散选择模型可不只是在经济领域有用哦。

比如说交通规划,是修地铁还是建公交专线?教育方面,是选择传统教学还是在线课程?甚至在医疗领域,选择哪种治疗方案,都能通过这个模型来分析。

所以说,离散选择模型就像是一个神奇的透视镜,能让我们看清那些看似随机的选择背后隐藏的规律和影响因素。

它能帮助我们做出更明智的决策,无论是个人生活中的小选择,还是社会发展中的大决策。

你说,这么有用的模型,咱能不好好研究研究,好好利用利用吗?。

第五章面板数据离散选择模型近偏误...

第五章面板数据离散选择模型近偏误...
寸卜oo.0寸∞oo.o 卜∞oo.0△∞oo.o 卜吼oo.0寸oHo.0∞=o.o △N_o.0寸n_o.o n田一o.0n∞_o.0∞一No.0o卜No.o 寸nno.0.【n 寸∞卜寸o.o n卜no.o 婚∞∞o.o oNo一.o no∞o.0
寸o∞o.0nooo.0no岭o.0no心o.0嘧。谚o.0卜。协o.0昏。婚o.0一一岭o.o 【I∞o.o 一一心o.0岭一心o.0卜一∞o.0寸一口o.0N_岭o.0NN崎o.0△N心o.0∞n母o.0岔n∞o.o 心心母o.0心寸o .nnoo.0N心oo.o 心心oo.0o卜oo.0∞卜oo.o 寸∞oo_0N岔oo.0卜。一o .岔N—o.o 寸寸10.0△口一o.o NoNo.o 心价No.0忑no.o 价一寸o.o N心寸o.0心寸no.0卜寸口o.o ∞岔△o.0No寸o.0

宁邑6宁§6宁邑6o皂c;宁邑6穹邑6宁邑6
¨
S
N 6
是§量斟吾量墨善兰跫§警楚§霸写§三甍善§
If
宁o、./s穹邑C、-,’、一
。、一
S
N N“I"-o n o o o。o—n守一。孓。一岔岔口G西6N寸。一n o o o。∞o西呐。一o o岔卜岔00o |I q寸9q 19q叫节q●1q●9q 9寸■9乜窨!
o 9o o 90o eo o eoo 9o o eo o 90芍
将捌昌
nL"-

量蚤蚤

婪婶
”∞NH∞o.0
吼o∞o.0N_∞o.00180.0一180.0一180.0寸180.0心【80.0卜_∞o.o 岔一∞o.o 仓一∞o_0NN∞o.o nN∞o.o 西H∞o_0∞一∞o.o 岔N∞o.0N寸∞o.0N价∞o-0N心∞o.0一乱∞o.o 寸卜oo.0

离散选择模型(研究1025)

离散选择模型(研究1025)

离散选择模型§ 1 离散选择回归模型一、离散的变量如果我们用0,1,2,3,4,…说明企业每年的专利申请数,申请数是一个离散的变量,但是它是间隔尺度变量,该变量类型不在本章的讨论的被解释变量中。

但离散变量0和1可以用来说明企业每年是否申请专利的事项,类似表示状态的变量才在本章的讨论中。

在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个选择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态。

本专题讨论有序尺度变量和名义尺度变量的被解释变量。

二、离散的因变量在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。

离散选择模型 110yes x no⎧=⎨⎩ 如果x 作为说明某种具体经济问题的自变量,则应用以前介绍虚拟变量知识就足够了。

如果现在考虑某个家庭在一定的条件下是否购买住房问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。

因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房的问题。

因为在家庭是否购房问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为离散选择模型。

三、线性概率模型现在约定备择对象的0和1两项选择模型中,下标i 表示各不同的经济主体,取值0或l 的因变量表示经济主体的具体选择结果,而影响经济主体进行选择i y离散选择模型2i x (1/i p y =i x 1/)i i x (/)0(0/)i i E y p y +×=x (1/)i i p y x 的自变量。

如果选择响应YES 的概率为,则经济主体选择响应NO 的概率为1(,)p y −=则=1(1/)i i i i p y =×=x x =。

根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们想象可以构造线性概率模型(1/)(/)i i i i i p y x E y x ′===x β011i k ik x i x u βββ=++++L描述两个响应水平的线性概率回归模型可推知,根据统计数据得到的回归结果并不一定能够保证回归模型的因变量拟合值界于[0,1]。

离散选择模型分析共39页文档

离散选择模型分析共39页文档

46、我们若已接受最坏的,就再没有什么损失。——卡耐基 47、书到用时方恨少、事非经过不知难。——陆游 48、书籍把我们引入最美好的社会,使我们认识各个时代的伟大智者。——史美尔斯 49、熟读唐诗三百首,不会作诗也会吟。——孙洙 50、谁和我一样用功,谁就会和我一样成功。——莫扎特
1、不要轻言放弃,否则对不起自己。
2、要冒一次险!整个生命就是一场冒险。走得最远的人,常是愿意 去做,并愿意去冒险的人。“稳妥”之船,从未能从岸边走远。-戴尔.卡耐基。
梦 境
3、人生就像一杯没有加糖的咖啡,喝起来是苦涩的,回味起来却有Байду номын сангаас久久不会退去的余香。
离散选择模型分析4、守业的最好办法就是不断的发展。 5、当爱不能完美,我宁愿选择无悔,不管来生多么美丽,我不愿失 去今生对你的记忆,我不求天长地久的美景,我只要生生世世的轮 回里有你。

第五章离散选择模型(虚拟变量回归)(20140429)

第五章离散选择模型(虚拟变量回归)(20140429)

第五章离散选择模型(虚拟变量回归)(20140429)第五章离散选择模型(虚拟变量回归)第一节虚拟变量的概念一、问题的提出计量经济学模型对变量的要求——可观测、可计量。

但在现实经济问题中,存在定性影响因素,比如1、属性(品质)因素的表达在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。

如收入在形成过程中,不同的性别所得到的收入是不一样的;在城乡、不同地区等收入存在差距;再比如,在我国,经济的发展水平对于不同的区域有不同的表现。

2、异常值现象当经济运行过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。

3、季节因素的影响有的经济现象存在明显的季节特征,如啤酒的消费。

那么,在建模过程中,季节变动这一因素怎样考虑?4、离散选择现象的描述如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。

第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。

称前一种情况为虚拟解释变量,后一种为虚拟被解释变量。

本章主要介绍虚拟解释变量的内容。

二、虚拟变量的定义1、定义设变量D表示某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D取值为0。

记为=不具有该属性类型具有某种属性类型01D 2、虚拟变量引入的规则(1)在模型里存在截距项的条件下,如果一个属性存在m 个相互排斥类型(非此即彼),则在模型里引入m-1个虚拟变量。

否则,会出现完全的多重共线性。

但要注意,在模型无截距项的情况下,如果一个属性存在m 个类型,即便引入m 个变量,不会出现多重共线性问题。

(请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。

而虚拟变量取值为1,代表与基础类型相比较的类型,称为比较类型。

例如“有学历”D 为1,“无学历”D 为0,则“无学历”就是基础类型,“有学历”为比较类型。

(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0,第一个类型;D=1,第二个类型;……D=m-1,第m 个类型。

离散选择模型

离散选择模型

领域里的突出贡献而获得了2000年的诺贝尔经济学奖。
离散选择模型在实际生活中的应用 例如,公共交通和私人交通的选择问题 对某种商品的购买决定问题 大学生对职业的选择问题
一、基本概念
1.变量的取值 logistic回归要求应变量(Y)取值为分类变量(两分 类或多个分类) 自变量(Xi)称为危险因素或暴露因素,可为连续变量、 等级变量、分类变量。 可有m个自变量X1, X2,… Xm
估计。
对模型* 估计之后,如何计算指定收入水平下拥有住房的概率?
回归结果如下:
. reg Lhat Source Model Residual Total Lhat x _cons x SS 7.91931987 .173522962 8.09284283 Coef. .0791661 -1.65867 df 1 8 9 MS 7.91931987 .02169037 .899204759 t 19.11 -17.32 P>|t| 0.000 0.000 Number of obs F( 1, 8) Prob > F R-squared Adj R-squared Root MSE = = = = = = 10 365.11 0.0000 0.9786 0.9759 .14728
*
二、logit模型的估计
1.一般情况下的估计 为了估计事件发生的概率之比Li,除了需要知道解释变量的数 据之外,还得知道Li的数值。此时,该如何处理?
依然以是否拥有自有住房为例进行说明,不同的收入水平下
有很多个家庭N,在这一收入水平下有n个家庭拥有自己的住房, 其余N-n个家庭没有自己的住房,那么我们就可以用事件发生的相 对频率作为事件发生概率的估计值Pi ,并利用这个估计值得到Li 。 事实上,当样本容量足够大的时候,这样的频率将是概率的良好
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第五章离散选择模型在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。

我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。

本章主要介绍以下内容:1、为什么会有离散选择模型。

2、二元离散选择模型的表示。

3、线性概率模型估计的缺陷。

4、Logit模型和Probit模型的建立与应用。

第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。

1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。

例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。

由离散数据建立的模型称为离散选择模型。

2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。

例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。

这种类型的数据成为审查数据。

再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。

这两种数据所建立的模型称为受限被解释变量模型。

有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。

下面是几个离散数据的例子。

例5.1 研究家庭是否购买住房。

由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即我们希望研究买房的可能性,即概率(1)P Y=的大小。

例5.2 分析公司员工的跳槽行为。

员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。

员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即例5.3 对某项建议进行投票。

建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即研究投票者投什么票的可能性,即(),1,2,3==。

P Y j j从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。

本章主要介绍二元离散选择模型。

离散选择模型起源于Fechner于1860年进行的动物条件二元反射研究。

1962年,Warner首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。

70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。

模型的估计方法主要发展于20世纪80年代初期。

(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页)二、线性概率模型对于二元选择问题,可以建立如下计量经济模型。

1、线性概率模型的概念设家庭购买住房的选择主要受到家庭的收入水平,则用如下模型表示其中,i X 为家庭的收入水平,i Y 为家庭购买住房的选择,即由于Y 是取值为0和1的随机变量,并定义取Y 值为1的概率是p ,则Y 的分布为 即随机变量Y 服从两点分布。

根据两点分布,可得Y 的数学期望为显然从而 12(|)i i E Y X X p ββ=+=(5-1)上述数学模型的经济学解释是,因为选择购买住房变量取值是1,其概率是p ,并且这时对应p 的表示是一线性关系,因此,Y 在给定i X 下的条件期望()i E Y X 可解释为在给定i X 下,事件(家庭购买住房)将发生的条件概率为(1)i i P Y X =,亦即家庭选择购买住房的概率是家庭收入的一个线性函数。

我们称这一关系式为线性概率函数。

由于,Y 服从两点分布,所以,Y 的方差为2、线性概率函数的估计及存在的问题对线性概率函数直接运用OLS 估计,会存在以下困难。

(1)随机误差项的非正态性表现表明i u 服从两点分布。

而在经典计量经济学中,假定i u 服从正态分布。

(2)i u 的异方差性。

事实上,根据i u 服从两点分布则i u 的方差为()(1)i i i Var u p p =-。

表明i p 随着i 的变动是一个变量,则i u 的方差不是一个固定常数。

(3)利用加权最小二乘法修正异方差取权数为具有同方差。

在具体估计线性概率模型时,用ˆiY 作为p 的估计来计算权数w 的估计wˆ。

3、可决系数2R 的非真实性。

由于,被解释变量Y 只取值1或0,不可能有估计的线性概率模型能很好地拟合这些点,所以,这时计算的2R 会比1小许多,在大多数例子中,2R 介于0.2与0.6之间。

4、0≤()i i E Y X ≤1不成立。

克服这一问题可直接从对线性概率模型的估计,求出ˆi Y ,用人工的方法定义当ˆi Y >1时,取ˆi Y =1;当ˆi Y <0时,取ˆiY =0。

但要比较好地解决这类问题,只能考虑采用新的估计方法,这就是将要介绍的Logit 模型和Probit 模型。

第二节 Logit 模型一、Logit 模型的产生1、产生Logit 模型的背景由上述介绍可知,对于线性概率模型来说,存在一些问题,有的问题尽管可以用适当的方法加以弥补,但并不完善和理想。

(1)古典假定不再成立,如存在异方差性,可用加权OLS 方法加以弥补。

(2)在线性概率模型中,对于不满足0≤()i i E Y X ≤1的情况,用人工的方法处理,即当ˆi Y >1时,取ˆiY =1 当ˆi Y <0时,取ˆiY =0 虽然能够弥补不足,但仍然具有较强的主观因素。

(3)经济意义也不能很好地得到体现。

在线性概率模型12(|)i i E Y X X p ββ=+=中,概率(1)P Y =会随着i X 的变化而线性变化,但这与实际情况通常不符。

例如购买住房,通常收入很高或很低,对于购买住房的可能性都不会有太大的影响,而当收入增加很快时,对购买住房的影响将会很大。

所以,购买住房的可能性与收入之间并不是线性关系,有可能是一种非线性关系。

2、Logit 模型的含义综合上述讨论,我们所需要的是具有如下二分性质的模型。

(1)随着i X 的减小,i p 趋近0的速度会越来越慢;反过来随着i X 的增大,i p 接近1的速度也越来越慢,而当i X 增加很快时,i p 的变化会比较快。

故i p 与i X 之间应呈非线性关系。

(2)并且由概率的属性,i p 的变化应始终在0和1之间。

因此,一个很自然的想法是采用随机变量的分布函数来表示i p 与i X 的这种非线性关系。

从几何图形看,所需要的模型有点像图5.1那样,概率位于0与1之间,并随着i X 非线性地变化。

图5.1 一个累积分布函数的图形形如图5.1所示的S 型曲线,就是随机变量的一个累积分布函数(CDF )。

因此,当回归中的被解释变量是取0和1的二分变量时,并且概率值的变化与解释变量i X 之间有上述变化特征,则可用CDF 去建立回归模型。

在二分被解释变量的研究中可使用多种分布函数(Cox ,1970)来表示。

但最常用的是Logistic 分布函数和标准正态分布函数,前者导出Logit 模型,后者导出Probit 模型。

(3)Logistic 分布函数设12()11()11i i i i z X p F z e e ββ--+===++ (5-2) 式中,12i i Z X ββ=+。

并且在该表达式中,有如下变动规律,当i Z →+∞时,1i p →;当i Z →-∞时,0i p →;当0i Z =时,12i p =。

称(5-2)式为Logistic 分布函数,它具有明显的S 型分布特征。

(4)Logit 模型以下是由Logistic 分布函数导出Logit 模型。

其中,1i ip p -为机会概率比(简称机会比,下同),即事件发生与不发生所对应的概率之比。

称(5-3)式为Logit 模型。

3、Logit 模型的特点(1)随着P 从0变到1,ln()1p p-从-∞变到∞(亦即i Z 从-∞变到∞)。

可以看出,在LPM 中概率必须在0与1之间,但对Logit 模型并不受此约束。

(2)ln()1p p-对i X 为线性函数。

(3)当l n ()1p p -为正的时候,意味着随着i X 的增加,选择1的可能性也增大了。

当ln()1p p-为负的时候,随着i X 的增加,选择1的可能性将减小。

换言之,当机会比由1变到0时,ln()1p p -会变负并且在幅度上越来越大;当机会比由1变到无穷时,ln()1p p-为正,并且也会越来越大。

4、Logit 模型与线性回归模型的区别(1)Logit 模型为非线性模型,尽管等式右端看上去是线性形式,而普通回归模型是线性模型。

(2)线性回归模型研究被解释变量Y 的均值(|)i E Y X 与解释变量i X 之间的依存关系,而Logistic 分布函数研究的是事件发生的概率(1|)i P Y X =与解释变量i X 的依存关系。

(3)线性回归模型中包含随机误差项i u ,对i u 的要求是要满足基本假定,而Logistic 分布函数没有出现随机误差项,对模型没有这样的要求。

(4)在估计Logit 模型时,要求数据必须来自于随机样本,即各观测值相互独立,或者说要求样本分布与总体分布具有同一性,而对线性回归模型一般情况下并无这样严格的要求。

此外,Logit 模型与线性回归模型的一个相同的要求是,解释变量之间要无多重共线性,否则,会导致参数估计的方差变大和不稳定。

二、Logit 模型的估计为了估计Logit 模型,除了i X 外,我们还应有ln()1p p-的数值。

由于i p 只取值为1和0(即事件发生或不发生,如买房或不买房),使得ln()1p p -无意义,通常情况下,i p 没有具体的数据,所以直接对Logit 模型进行估计有困难。

这时,可有以下估计方法。

1、根据数据类型选用OLS 方法 可通过市场调查获得分组或重复数据资料,用相对频数ˆi i ir p n =作为i p 的估计。

以购买住房为例,将购买住房的情况分组,假设第i 组共有i n 个家庭,收入为i X ,其中有i r 个家庭已购买住房,其余未购买。

则收入为i X 的家庭,购买住房的频率为 将其作为i p 的估计,并代入对数机会比,有于是,样本回归函数为对上式可直接运用OLS 法估计未知参数了。

相关文档
最新文档