第9讲 离散选择模型
离散选择模型
二元选择模型
解释变量与因变量的关系
解释变量与因变量的关系
在二元选择模型中,解释变量与因变量之间的关系
如何描述呢? 首先,我们可以将模型写成如下形式:
P Y 1 F x
但是由于 F x 不一定是线性函数,因此x对于Y的 影响不能简单的用 表示。
二元选择模型
二元选择模型的一个例子
分析劳动力就业情况,Y=1表示就业,Y=0表示失
业,若x为影响因素,β为参数向量,则劳动力就业 的概率与影响因素的关系就可以表示为:
P Y 1 F x, P Y 0 1 F x,
其中,F (x, β)是与x和β有关的分布函数。
解释变量与因变量的关系
由于有
P Y 1 E Y F x
所以x对于事件Y 1 发生的概率,即 P Y 1 的影响
为:
E Y dF x f x x d x
解释变量与因变量的关系
由于变量Y是一个二元变量,因此有:
N1 E Y P Y 1 E Y F x, N
二元选择模型
分布函数的几种不同形式
线性概率模型
线性概率模型即假设分布函数为线性形式: 因此有:
F x, x
Y E Y Y E Y
Pij P Yi j P U ij U i j
Logit模型
与二元选择模型的思路一样,我们使用一种特定的
分布函数来描述这一概率,假设 ij 独立同分布,且 服从Weibull分布,分布函数的形式为:
F t exp e t
离散选择模型
Yi 0 1GPAi 2 INCOMEi ui
其中:
1 Yi 0
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPA=第i个学生本科平均成绩 INCOME=第i个学生家庭年收入(单位:千美元)
设回归结果如下(所有系数值均在10%水平统计上显著):
ˆ Yi 0.7 0.4GPAi 0.002 INCOMEi
yi 0 yi 1
函数可以简化为:
L (1 F ( X ))1 yi F ( X ) yi
yi 1
对方程左右取对数我们便得到:
ln L [ yi ln F ( X ) (1 yi ) ln(1 F ( X ))]
i 1
n
似然函数为
fi ln L n yi fi [ (1 yi ) ]xi 0 Fi 1 Fi i 1
Pr ob(Y 1 X ) X F ( X ) f ( X ) X
因此我们在遇到二元响应模型时,估计出参数我们不能盲目的 将其解释为:解释变量变动一个单位,相对应的因变量变化参 数个单位。
为了解决偏效应的问题我们引入调整因子的概念。 在上式中的 f ( X ) 我们 便称为比例因子或调整因子,它与全部 的解释变量有关,为了方便起见,我们要找一个适用于模型所有 斜率的调整因子。有两种方法可以解决: (1)用解释变量的观测值计算偏效应的表达式,调整因子为:
四、二元选择模型的估计
1.除了LPM模型以外,二元选择模型的估计都是以极大似然法为基础 的 。由前面的讨论我们知道:
P(Y 1 X ) F ( X )
由此我们可以得到模型的似然函数为:
P(Y1 y1 ,Yn yn X ) (1 F ( X )) F ( X )
离散选择模型完整版
离散选择模型HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】第五章离散选择模型在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。
我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。
本章主要介绍以下内容:1、为什么会有离散选择模型。
2、二元离散选择模型的表示。
3、线性概率模型估计的缺陷。
4、Logit模型和Probit模型的建立与应用。
第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。
1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。
例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。
由离散数据建立的模型称为离散选择模型。
2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。
例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。
这种类型的数据成为审查数据。
再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。
这两种数据所建立的模型称为受限被解释变量模型。
有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。
下面是几个离散数据的例子。
例研究家庭是否购买住房。
由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即我们希望研究买房的可能性,即概率(1)P Y =的大小。
《离散选择模型》课件
极大似然估计法
通过最大化似然函数,估计模型 的参数值。
差分法估计法
通过对变量的差分进行估计,减 少了共线性问题的影响。
一般化估计方程法
通过建立一般化估计方程,对参 数进行估计。
离散选择模型的应用
公共交通出行方式选择
分析人们在选择公共交通出行方式时的决策行为,为政府制定交通政策提供依据。
食品品牌选择
确定性
选择结果是确定的,参与者 不受随机因素的影响。
离散选择模型的数学模型
1Байду номын сангаас
多项式Logit模型
通过对选择概率进行建模,预测参与者选择各个选项的概率。
2
二项式Logit模型
基于二项分布,预测参与者是否选择某个选项。
3
线性概率模型
使用线性回归方法,预测选择某个选项的概率。
离散选择模型的参数估计方法
离散选择模型是一种描述人们在面临离散选择时决策行为的数学模型。
2 离散选择模型的应用领域
离散选择模型被广泛应用于诸多领域,如公共交通、市场营销和行为经济学等。
离散选择模型的基本假设
可比性
各个选择项之间可以进行比 较,存在客观标准用于决策。
独立性
参与者之间的选择行为是独 立的,不受其他参与者的影 响。
《离散选择模型》PPT课 件
离散选择模型是一种用于分析人们在面临离散选择时的决策行为的统计模型。 本课件将介绍离散选择模型的定义、基本假设、数学模型、参数估计方法、 应用、不足及未来发展方向。
什么是离散选择模型
离散选择模型是一种用于研究人们在面临可选项时所作出的离散决策行为的统计模型。
1 离散选择模型的定义
将离散选择模型与其他决策模 型进行结合,以提高模型的准 确性和解释能力。
离散选择模型
六、二元选择模型的参数检验 6.1 单个系数的显著性检验
一个解释变量(对二元决策的概率)是否有显著性影响的检验,如同正态
线性回归分析的单个系数的检验类似,根据模型中的待估系数与其方差计算 z 统计量,并检验假设 H0 : βi = 0 。
6.2 总体显著性检验 由于 Logit 模型、Probit 模型是非线性的,在同时检验多个系数是否为 0 时,
33潜回归我们假设存在一个不可观察的潜在变量称为决策倾向是指标变量的连续性函数记为iy它与指标变量ix之间具有如下线性关系i1kkiiiyxxu该方程称为潜回归方程其中iu是随机扰动项1ikixx??????????1k??????????34量变临界值选取量变到多少时个体才进行选择呢
离散选择模型
郑安
是估计系数的协方差
矩阵, βˆ 是无约束模型得到的估计值。可以证明,W 渐进服从 χ 2 (k −1) 分布。
所以 W 检验只需要估计无约束模型 (2)对数似然比检验(只适用于线性约束) H0 : β2 = β3 = " = βk = 0
检验统计量: LR = −2[ln L(βˆR ) − ln L(βˆ)]
其中,ln L(βˆR ) 是约束模型的最大对数似然函数值,ln L(βˆ) 是非约束模型的最大
对数似然函数值。可以证明,在零假设下,LR 渐进服从 χ 2 (k −1) 分布。所以 LR
检验既需要估计有约束模型,又需要估计无约束模型 (3)拉格朗日乘子检验(适用于线性和非线性约束) H0 : β2 = β3 = " = βk = 0
离散选择模型起源于 Fechner 于 1860 年进行的动物条件二元反射研究。1962 年,Warner 首次应用于经济领域。20 世纪 70 和 80 年代,离散选择模型普遍应 用于经济布局、交通问题、就业问题、购买决策问题等经济决策领域的研究。 模型的估计方法主要发展于 20 世纪 80 年代初期,远远滞后于模型的应用,并 且至今还在不断改进,它属于微观计量经济学——即研究大量个人、家庭或企 业的经济信息,McFadden 因为在微观计量经济学领域的贡献而获得 2000 年诺 贝尔经济学奖。
Discrete Choice Modeling 培训课件
产品差异化研究
产品差异化研究是离散选择模型在市场营销领域的应用。
通过离散选择模型,可以分析消费者对不同品牌或型号产品的偏好和选择行为,并探究产品 差异化的影响。
例如,可以研究消费者在购买手机时对品牌、型号、功能、价格等方面的偏好和选择行为, 从而为手机制造商提供产品定位和市场策略建议。
在离散选择模型中,广义最小二 乘法可以用于处理选择概率与模
型参数之间的非线性关系。
该方法通过对误差项的方差进行 调整,以考虑选择概率的非线性 影响,从而更准确地估计参数。
工具变量法
工具变量法是一种用于处理内生性问题 的参数估计方法。
在离散选择模型中,工具变量法可以用 于处理选择误差与模型解释变量之间的
面板数据模型
总结词
面板数据模型是一种利用时间序列和截面数据的离散选择模型,用于分析时间和个体异 质性的影响。
详细描述
面板数据模型利用时间和个体两个维度来扩展离散选择模型。通过利用时间序列数据, 面板数据模型可以估计时间和个体异质性对选择行为的影响。这种模型适用于具有时间 和个体变化特征的数据,例如消费者行为、投资决策等。面板数据模型可以帮助我们更
相关性问题。
该方法通过引入一个或多个与内生解释 变量相关,但与误差项无关的工具变量 来估计参数。工具变量的选择应满足与 内生解释变量相关,但与误差项无关的
条件。
04
离散选择模型的扩展和应用
混合模型
总结词ห้องสมุดไป่ตู้
混合模型是一种将离散选择模型与连续变量相结合的模型,用于同时估计离散 选择和连续变量的影响。
离散选择模型讲义北大陈志刚
多重选择模型
当存在多种选择,而且这些选择之间没有程度的 不同,不涉及排序问题,就应用多重的probit,或 logit 模型.
假设残差项独立.这意味着(控制可观测变量的 基础上),任何两个可选择的效用是独立的;问题 在于当多个选择相似时,例如交通方式的选择, 坐车,乘船,坐飞机;但是有人对颜色有不同的偏 好,就把每种方式菜系分为红黄蓝三色,此时有 六种选择,但是统一交通方式之间相似,这就不 能用多重选择模型,而要用分层选择模型.
married | .0622516 .1125836 0.55 0.580 -.1584083 .2829115 high | .5612953 .099662 5.63 0.000 .3659613 .7566292 _cons | -1.468412 .2958112 -4.96 0.000 -2.048192 -.8886332 ------------------------------------------------------------------------------
Prediction: P:probability of a positive outcome. Xb: calculate the linear predictioin.
stdp:standard error of linear prediction.
Output after dprobit
Probit model using stata
probit depvar [indepvar][weight][if exp][in range][,level(#) nocoef noconstant robust cluster(varname) score(newvarname) asis offset(varname) maximize_options]
离散选择模型ppt课件
PYi 1 / X i
6
例如,我们对一个是否拥有自有住房的案例进行回归,
结果如下: Yi 1.2009 0.1056X i (0.1483 ) (0.0087) R 0.8078
2
回归拟合的很好,经济学意义也非常明确,收入Xi每增加1单位 (1万元人民币),平均拥有住房的概率将增加10.56%:
11
2.解释变量同样为定性变量的情况
ቤተ መጻሕፍቲ ባይዱ
Pi Li ln 1 P 0 1 X i ui i P 1 ˆ Xi=1时: L1 ln 1 P 0 1 (1) 1 P0 ˆ Xi=0时: L0 ln 1 P 0 (2) 0 P 1 1 P 1 如果定义: OR P0 1 P 0 1 ˆ L ˆ 那么就有: lnOR L OR e 1 0 1
15
回归的结果如下:
. logit y x Iteration Iteration Iteration Iteration 0: 1: 2: 3: log log log log likelihood likelihood likelihood likelihood = = = = -253.69187 -242.36572 -242.32729 -242.32729 Number of obs LR chi2(1) Prob > chi2 Pseudo R2 Std. Err. .2910729 .1179409 z 4.50 -2.10 P>|z| 0.000 0.036 = = = = 366 22.73 0.0000 0.0448
这意味着在其他条件都相同的情况下,抽烟人士患食道癌的 可能性是不抽烟人士的3.7倍还要多。
离散选择模型步骤
离散选择模型步骤离散选择模型是一种决策分析方法,用于在给定的有限选项中选择最佳决策。
它在经济学、管理学、工程学等领域得到广泛应用。
本文将介绍离散选择模型的主要步骤。
1. 确定决策问题:首先,需要明确决策问题的目标和限制条件。
决策问题可以是各种各样的,比如选择投资项目、确定市场定价策略等。
明确问题是为了确保模型的设计和应用是有针对性的。
2. 收集决策信息:在进行决策分析之前,需要收集相关的信息和数据。
这些信息可以来自于市场调研、历史数据、专家意见等。
信息的准确性和全面性对于模型的建立和分析至关重要。
3. 确定决策变量:决策变量是指影响决策结果的因素。
在离散选择模型中,决策变量通常是一组有限的选项。
例如,在选择投资项目时,决策变量可以是不同的项目选项。
4. 制定决策准则:决策准则是指用于评估和比较不同选项的标准。
决策准则可以是单一的,也可以是多个综合考虑的因素。
常见的决策准则包括效益、成本、风险等。
5. 构建数学模型:离散选择模型可以使用多种数学方法进行建模,例如概率论、决策树、多属性决策等。
根据具体情况选择合适的方法,并建立相应的数学模型。
6. 分析决策结果:通过对模型进行求解,得到不同选项的决策结果。
分析决策结果可以包括对每个选项的评估、比较不同选项的优劣等。
还可以进行灵敏度分析,研究模型对参数变化的敏感性。
7. 做出最佳决策:根据分析结果,选择最佳决策。
最佳决策应该是在给定目标和限制条件下,使得决策准则达到最优的选项。
8. 验证和调整模型:一旦做出决策,需要验证模型的有效性,并根据实际情况对模型进行调整。
如果模型的预测结果和实际结果存在较大差异,可能需要重新收集数据或重新制定决策准则。
总结起来,离散选择模型的步骤包括确定决策问题、收集决策信息、确定决策变量、制定决策准则、构建数学模型、分析决策结果、做出最佳决策以及验证和调整模型。
通过这些步骤,可以帮助决策者更好地理解问题、分析选项,并做出科学合理的决策。
离散选择模型(研究1025)
离散选择模型§ 1 离散选择回归模型一、离散的变量如果我们用0,1,2,3,4,…说明企业每年的专利申请数,申请数是一个离散的变量,但是它是间隔尺度变量,该变量类型不在本章的讨论的被解释变量中。
但离散变量0和1可以用来说明企业每年是否申请专利的事项,类似表示状态的变量才在本章的讨论中。
在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个选择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态。
本专题讨论有序尺度变量和名义尺度变量的被解释变量。
二、离散的因变量在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。
离散选择模型 110yes x no⎧=⎨⎩ 如果x 作为说明某种具体经济问题的自变量,则应用以前介绍虚拟变量知识就足够了。
如果现在考虑某个家庭在一定的条件下是否购买住房问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。
因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房的问题。
因为在家庭是否购房问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为离散选择模型。
三、线性概率模型现在约定备择对象的0和1两项选择模型中,下标i 表示各不同的经济主体,取值0或l 的因变量表示经济主体的具体选择结果,而影响经济主体进行选择i y离散选择模型2i x (1/i p y =i x 1/)i i x (/)0(0/)i i E y p y +×=x (1/)i i p y x 的自变量。
如果选择响应YES 的概率为,则经济主体选择响应NO 的概率为1(,)p y −=则=1(1/)i i i i p y =×=x x =。
根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们想象可以构造线性概率模型(1/)(/)i i i i i p y x E y x ′===x β011i k ik x i x u βββ=++++L描述两个响应水平的线性概率回归模型可推知,根据统计数据得到的回归结果并不一定能够保证回归模型的因变量拟合值界于[0,1]。
离散选择模型
在这个回归结果图中log likelihood即对数似然值,不断的试错迭代是 logit模型的估计方法,在逐步进行回归时,通过比较不同模型的-2LL 判断模型的拟合优度,选择取值更小的模型。LR chi2(4)是卡方检验 的统计量,也就是回归模型无效假设所对应的似然比检验量;其中4 为自由度,Prob>chi2 是其对应的P值,在这个估计结果显示以p=0 显著说明模型的有效性。其实这两个指标与线性回归结果中F统计量 和P值的功能是大体一致的。另外结果中的Pseudo R2是准R2,虽然 不等于R2,但可以用来检验模型对变量的解释力,因为二值选择模型 是非线性模型,无法进行平方和分解,所以没有,但是准衡量的是对 数似然函数的实际增加值占最大可能增加值的比重,所以也可以很好 的衡量模型的拟合准确度。此logit模型中拟合优度为0.1882。 coef是自变量对应的系数估计值,OLS通过t检验来检验估计量是否 显著,logit模型通过z检验来判断其显著性;通过z检验结果可以看到 此模型中系数均以p=0显著不为0。
二实验操作指导 1.选择合理模型 在Stata中将数据按照某个或某几个变量进行分类 并按这个变量获得其频数分布的命令如下: tab varlist 其中varlist表示按照其分类的变量或者变量组合。 在本实验中,打开数据文件并将数据按brand取 值分类,在Stata命令窗口中输入如下命令 use brand ,clear tab brand 读图可知brand取值有三个,分别是1,2,3。由 于所要探究的问题female和age对brand的影响, 且假定了选择各个品牌之间是相互独立的,那么 建立多值选择模型来分析问题是合理的。
二 实验内容和数据来源
本实验来自某统计资料,统计在购物时所选品牌 与性别、年龄的关系。变量主要有brand(品 牌),female(性别),age(年龄)。完整的 数据在本书附带光盘data文件夹下“brand.dta” 中。 本实验用此数据来以female和age为解释变量, brand为被解释变量,brand的取值是离散的,且 有三个取值,应建立多值选择模型进行相关分析。
离散选择模型举例-二元离散选择模型
一.二元离散选择模型1.二元响应模型(Binary response model)我们往往关心响应概率()()()()z G x x G x y x y k k =+++=E ==P βββ...1110,其中x 表示各种影响因素(各种解释变量,包括虚拟变量)。
根据不同的函数形式可以分为下面三类模型:线性概率模型(Linear probability model ,LPM )、对数单位模型(logit )、概率单位模型(probit):三种模型估计的系数大约有以下的关系:L PM probit probit it ββββ5.2,6.1log ==2.偏效应(1)如果解释变量是一个连续型变量,那么他对p(x)=p(y=1|x)的偏效应可以通过求下面的偏导数得出来:()()()()dzz dG z g x g x x p j j =+=∂∂,0βββ,偏效应的符号和该解释变量对应的系数的符号一致;两个解释变量偏效应之比等于它们各自的估计系数之比。
(2)如果解释变量是一个离散性变量,则k x 从k c 变化到k c +1时对概率的影响大小为:()()()k k k k c x G c x G ββββββ+++-++++...1 (110110)上面的其他解释变量的取值往往取其平均值。
3.估计方法与约束检验极大似然估计;三种常见的大样本检验:拉格朗日乘数检验、wald 检验、似然比检验。
4.Stata 程序语法(以Probit 为例)probit depvar [indepvars] [weight] [if exp] [in range] [, level(#) nocoef noconstant robust cluster(varname) score(newvar) asis offset(varname) maximize_options ] predict [type] newvarname [if exp] [in range] [, statistic rules asif nooffset ] where statistic isp predicted probability of a positive outcome; the default xb linear predictionstdp standard error of the prediction二.具体的例子1.数据:美国1988年的CPS 数据2.模型:估计成为工会成员的可能性,模型形式如下:参加工会的概率=F(潜在经验potexp 、经验的平方项potexp2、受教育年限grade 、婚否married 、工会化程度high);解释变量:Potexp=年龄-受教育年限-5;grade=完成的受教育年限;married :1表示婚,0未婚;high :1表示高度工会化的行业,否则为0。
mixtures of multinomal logit model离散选择 -回复
mixtures of multinomal logit model离散选择-回复mixtures of multinomial logit model离散选择,作为一种经济学模型,在决策环境中广泛应用。
在本文中,我们将一步一步回答有关这种模型的问题。
第一步,我们需要了解离散选择模型的基本概念。
离散选择模型是一种用于分析个体在面对多个选择时做出决策的经济学模型。
它假设个体根据其特定属性和环境条件对每个选择进行评估,并且选择具有最大效用的选项。
第二步,我们将介绍多项式逻辑回归模型。
在多项式逻辑回归模型中,我们假设个体的选择行为服从多项式分布。
这意味着每个选择的概率是选择的优势函数与共享参数的乘积。
根据选择的概率,我们可以使用最大似然估计来估计模型的参数。
第三步,我们引入混合多项式逻辑回归模型的概念。
在混合多项式逻辑回归模型中,我们假设选择行为背后存在多个子群体,每个子群体具有不同的选择行为模式。
这意味着选择的概率是每个子群体的选择概率与相应的子群体的权重之和。
第四步,我们将讨论如何估计混合多项式逻辑回归模型的参数。
为了估计混合模型的参数,我们可以使用最大似然估计或贝叶斯估计的方法。
最大似然估计的目标是找到使观测样本的似然函数最大化的参数值。
而贝叶斯估计则通过引入先验分布来估计参数,并在观测数据的基础上更新参数的分布。
第五步,我们将探讨混合多项式逻辑回归模型的应用。
混合多项式逻辑回归模型在许多领域都有广泛应用,如市场调研、消费者行为分析和交通选择模型等。
它可以帮助我们理解不同子群体的选择行为,预测个体的选择概率,并为决策制定者提供有关市场营销和政策制定的有用信息。
在最后一步,我们将总结这篇文章。
混合多项式逻辑回归模型是一种强大的分析工具,用于解释和预测离散选择行为。
通过将不同子群体的选择行为模式考虑在内,这种模型能够更好地反映真实的选择行为,并为决策制定者提供更准确和有效的决策支持。
离散选择模型logit模型实例stata分析.
THANK YOUa reorganize example
id mode distance
qtype
cost
time
223 rail
5
1
210000
14
223 truck
5
223 rail
5
1
280000
6
10
210000
19
223 truck
5
10
280000
7
los
choice
logcost5
los2
market segmentation makes the model more comprehensive. • The more variables model has, the more comprehensive model is.
❖ The model which is used 3 variables is more comprehensive than the model used 2 variables.
models.
SP Data set information
• Stated pointed: 2007 • Analysis commodity: steel • Analysis range: 30 people(row 600-1500) • Dependent variable: choice • Independent variables: cost [log(#/10^5)]
time [hour] LOS [#/10]
Modeling Scenarios Setting
Modeling scenarios
Market Segment?
09离散因变量模型
09离散因变量模型⽬录离散因变量模型要考察⼈们做出某种具体选择的情况及其影响因素时,可把这些离散的定性变量作为因变量进⾏分析,把影响因素作为⾃变量,这样建⽴的模型称之为离散选择模型。
如出⾏交通⼯具选择的情况。
还有⼀种是因变量是以离散计数的⽅式描述的,分析⾃变量对计数因变量的影响所建⽴的模型,称之为计数模型。
如发⽣交通事故的次数。
线性概率模型离散选择模型在⼴义线性模型(generalized linear model)的框架下展开,并依赖结果是两个或多个选择将模型分位⼆项选择、多项选择模型和受限因变量模型离散选择模型主要研究选择结果的概率与影响因素之间的关系,即Prob(事件i发⽣) = Prob(Y=i)=F(影响因素)其中,影响因素可能包含做出选择的主体属性和选择⽅案属性。
如选择何种交通⼯具出⾏,既受到选择主体收⼊程度、⽣活习惯等属性的影响,也收到交通⼯具的价格、便捷性等属性的影响。
⽰例:对影响⼿机购买意向的因素进⾏分析购买意向为定性变量,有两种选择:0表⽰不购买,1表⽰购买。
其影响因素可能有性别、年龄、收⼊、职位、⾏业等诸多因素。
设因变量y表⽰是否购买⼿机,则有y= \begin{cases} 0 & 不购买 \\ 1 & 购买 \end{cases}影响y的因素记为x=(x_1,x_2,\cdots, x_n),根据多元回归的思想,可得y = \beta_0 + \beta_1 x_1+\beta_2 x_2+\cdots +\beta_n x_n + \varepsilon其中,(\beta_1,\beta_1,\cdots, \beta_n)^T=\beta表⽰回归模型中的参数即回归系数,则简化为y = \beta_0 + \beta x + \varepsilon在因变量是离散变量的情况下,不能把\beta_i(i=1,2,\cdots,n)理解为保持其他因素不变的情况下对y的边际影响,因为y的取值为1或0。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)计算模型预测的百分比来计算模型的 拟合优度。
如果要检验这个分类的依据或者要获得每个预测值,可以 利用此二值模型进行预测分析,Stata中二值选择模型的 预测的命令语句如下所示: predict [type] newvar [if] [in] [,single_options] 其中predict是表示对模型进行预测的命令;newvar表示 预测新变量的名称,type可以表明设定新变量的类型;if 和in表示对此预测设定的条件和范围;single_options的 内容以下表所示:
三 实验操作指导
1.建立logit模型分析 (1)使用logit模型回归 Stata中使用logit模型回归的命令语句格式如下: logit y x1 x2 … [if] [in] [weight] [,options] 该命令中logit表示使用logit模型进行回归,相应y表示模型的被解释 变量,x表示模型的解释变量,if表示logit的回归条件,in表示回归的 范围,weight表示给观测值的加入权重,options的内容如下表所示:
第2节 多值选择模型
一 实验基本原理 1.多值选择模型 有时候人们面临的选择是多个的,比如交通选择,入读大 学的选择等等。假设个体可以选择的y=1,2,3,…,J ,其中J 是正整数。当研究的被解释变量是这样多值离散的,建立 的模型就是多值选择模型,而当J=2时,就是上节所说的 probit或者logit模型。 若将上面的二值logit模型推广开来,可以得到,
二实验操作指导 1.选择合理模型 在Stata中将数据按照某个或某几个变量进行分类 并按这个变量获得其频数分布的命令如下: tab varlist 其中varlist表示按照其分类的变量或者变量组合。 在本实验中,打开数据文件并将数据按brand取 值分类,在Stata命令窗口中输入如下命令 use brand ,clear tab brand 读图可知brand取值有三个,分别是1,2,3。由 于所要探究的问题female和age对brand的影响, 且假定了选择各个品牌之间是相互独立的,那么 建立多值选择模型来分析问题是合理的。
最后是godness-of-fit拟合优度检验,在 Stata命令窗口中输入如下命令: estat gof
3.二值选择模型的异方差问题 Stata中对probit二值选择模型进行异方差检验和 回归的命令语句如下: hetprob y x1 x2 …[if] [in] [weight] , het(varlist [offset(varname)]) [,options] 其中hetprob表示对模型进行异方差probit模型估 计和异方差检验,if和in表示对检测拟合优度时的 条件和范围的设定,weight表示对观测值的权重 设定,选择项 het(varilist)是影响扰动项的变量清 单,在该命令语句的输出结果里,会汇报LR检验 的结果,据此判断是否应该使用此异方差模型, options的内容如下表所示:
可以看到与前面的logit模型比较,两模型分析的 边际效应是大致相同的。然后来计算probit模型 的拟合优度,具体操作方法也与logit模型是一致 的。
ห้องสมุดไป่ตู้
计算准确预测百分比,Stata命令窗口输入如下命令: estat clas 此图的解读方法与上面logit模型得到的是完全一样的,显 然可以得到:sensitivity(敏感性)=87.64% ,specificity (特异性)=45.05%,correctly classified(正确预测百 分比)=73.65%。可以看到,这个结果与logit模型是完全 一致的。 另外为了检验这个结果,可以同样输入如下命令: predict p2, pr 此命令可以获得此模型的个体估计的值并记为新变量p2 list work p2
本实验中,在Stata命令窗口中输入如下预测命令,可以 得到预测结果图: predict p1, pr 此命令可以获得此模型的个体估计的值并记为新变量p1 list work p1 此命令可以将实际值与估计值对应罗列,对比看到预测值 和实际值的一致程度。
(1)ROC曲线(受试者操控曲线) 此曲线是指图9.3提到的敏感性与(1-特异性)的散点图, 即预测值等于1的准确率与错误率的散点图。Stata中绘画 该ROC曲线命令语句为: lroc [x] [if] [in] [weight] [,options] 其中lroc表示绘图ROC曲线命令,if和in表示对绘制图时 的条件和范围的设定,weight表示对观测值的权重设定, 另外命令中的自变量x不能单独使用,必须与options中 beta(matname)同时使用,而options的内容如下表所示:
本实验中,在进行logit模型回归估计后,在Stata 命令窗口中输入如下命令: mfx 此命令计算模型回归之后,解释变量取值在样本 均值处的边际效应。 此输出结果显示了每一个解释变量的平均边际影 响,另外读者可以自己设定计算在边际影响的点, 其原理就是命令语句options中的at(atlist)将其具 体化,例如“mfx, at (x1=0)”表示计算x1取值为0, 其他解释变量取值在样本均值处的边际效应;而 “mfx”默认是在所有解释变量在样本平均值处的 边际效应。
由于logit与probit模型得出的参数估计值不可直接 比较,根据本节开始介绍的原理已了解到两模型 的边际效应可以比较。Stata中probit模型的边际 效应得出方法与logit是相同的。 在Stata命令窗口中输入如下命令计算probit模型 回归后解释变量在样本均值处的边际效应: mfx
第9讲 离散被解释变量模型
主要内容
1-二值选择模型 2-多值选择模型
第1节 二值选择模型
一 实验基本原理
二 实验内容和数据来源 根据某统计资料,得到美国妇女就业的数据统计 集,形成数据文件“womenwork.dta”,用来研究 影响美国妇女就业的因素。被解释变量是work (就业work=1,不就业work=0),解释变量是 age(年龄),married(婚否),children(子女 数),education(教育年限)。完整的数据在本 书附带光盘里的data文件夹的“womenwork.dta” 工作文件中。 利用以上数据,建立合适模型对就业的影响因素 进行计量分析,由于被解释变量取值有两个可以 建立二值选择模型来分析问题。
在这个回归结果图中log likelihood即对数似然值,不断的试错迭代是 logit模型的估计方法,在逐步进行回归时,通过比较不同模型的-2LL 判断模型的拟合优度,选择取值更小的模型。LR chi2(4)是卡方检验 的统计量,也就是回归模型无效假设所对应的似然比检验量;其中4 为自由度,Prob>chi2 是其对应的P值,在这个估计结果显示以p=0 显著说明模型的有效性。其实这两个指标与线性回归结果中F统计量 和P值的功能是大体一致的。另外结果中的Pseudo R2是准R2,虽然 不等于R2,但可以用来检验模型对变量的解释力,因为二值选择模型 是非线性模型,无法进行平方和分解,所以没有,但是准衡量的是对 数似然函数的实际增加值占最大可能增加值的比重,所以也可以很好 的衡量模型的拟合准确度。此logit模型中拟合优度为0.1882。 coef是自变量对应的系数估计值,OLS通过t检验来检验估计量是否 显著,logit模型通过z检验来判断其显著性;通过z检验结果可以看到 此模型中系数均以p=0显著不为0。
二 实验内容和数据来源
本实验来自某统计资料,统计在购物时所选品牌 与性别、年龄的关系。变量主要有brand(品 牌),female(性别),age(年龄)。完整的 数据在本书附带光盘data文件夹下“brand.dta” 中。 本实验用此数据来以female和age为解释变量, brand为被解释变量,brand的取值是离散的,且 有三个取值,应建立多值选择模型进行相关分析。
本实验中,在Stata命令窗口中输入如下命令进行 异方差模型估计和检验,可以得到图9.12的运行 结果: hetprob work age education married children, het (age education married children) 结果显示LR检验的结果是接受原假设,即模型不 存在异方差问题。所以回归不应使用异方差回归 模型,可以直接应用probit模型进行估计。
其次是使用ROC曲线来检测预测的准确度, 在Stata命令窗口中输入如下命令,可以得 到ROC曲线: lroc
此图的读法与logit的ROC图是一致的,由 于logit模型与probit模型的sensitivity与 specificity是相同的,那么ROC曲线一定是 相同的,且曲线下方的面积同样是0.7806。
本实验中,在Stata命令窗口中输入如下命令。 use womenwork, clear 输入此命令来打开需要的数据文件。 logit work age education married children 输入此命令对被解释变量为work,解释变量为age、education、 married、children的模型使用logit模型进行回归估计。
本实验中,在以上工作后,在命令窗口中 输入如下命令绘制ROC曲线图 lroc 因为准确率就是曲线下面的面积,读此图 可以看到ROC曲线是完全在45度直线上面, 所以准确率高于错误率,即准确率大于0.5。 此图曲线下方面积=0.7806,就是预测的准 确率是0.7806。
(2)goodness-of-fit拟合优度检验 此检验是考察该模型对所用数据的拟合优度,在Stata中 命令语句为: estat gof [if] [in] [weight] [,group(#) all outsample table] 其中,if和in表示对检测拟合优度时的条件和范围的设定, weight表示对观测值的权重设定,group(#)表示使用合 理的#分位数进行检验;all表示对所有观测值进行检验, 若无后面可选项则默认就是all;outsample表示对估计区间 外的样本调整自由度,table表示各组列表。 本实验中在Stata命令窗口输入如下命令检验此模型的拟 合优度,然后可以得到检验结果: estat gof