二元选择模型
第1章二元选择模型
后者指用一种限制 不超越逻辑 带域“0—1”的方法去估计 LPM。结 果是,对这样的模型,按惯例算出 的 R2 很可能比1小很多。在大多数
在0到1这个逻辑界限内。
4.二分响应模型中的R2
在二分响应模型(dichotomous
response models)中,习惯计算的 R2 的
价值是有限的。为看出其中道理,考虑以
下图形,对于给定的X,Y 不是0就是1。 因此,所有的Y值必定要么落在X 轴上,要 么落在Y =1的一条直线上。
因此,一般地说,不能期望有任何 LPM能很好地拟合这样的散点;
Yi 1.2456 1 0.1196 X i
但是我们可用先前讨论过的加权最小
二乘(WLS)法以获得这些标准误的更
为有效的估计值。应用WL意,
Yi
由于某些是负的,和Y某i 些
大于1,
对于这Yi 些 来说wi , 将是负的。
因此,我们在WLS中不能使用这 些观测值(为什么?),从而在本例中 把观测值的个数从40减少到28。删 去这些观测值的WLS回归将是
假使我们想把成年男子的“劳动力参 与”(即是否就业)当作失业率、平均工资率、 家庭收入和教育等的一个函数。一个人或者 在劳动力行列中或者不在,从而劳动力参与 这个应变量只能取两个值:如果这个人在劳 动力行列中,则取值1;如果他不在其中, 则取值0。
另一个例子。假使我们想把学院教 授的工会会员资格当作若干个定量和定 性变量的一个函数,那么,一位学院教 授或者是工会会员或者不是工会会员。 因此,工会会员资格这个应变量就是一 个取值0或1的虚拟变量:0表示非工会 会员,1表示工会会员。
二元选择模型
• (2) 样本均值处的边际效应 (marginal effect at mean),即在
• X=均值处的边际效应。
• (3) 在某代表值处的边际效应 (marginal effect at a
二、限值因变量模型
限值因变量有哪些情形 (limited dependent variable
regression model, LDV)
• 当因变量为定性变量或不连续变量 或是受约束的变量时,统称为限值 因变量回归模型。
• 不同的限值因变量模型中,因变量的 情形不同,所使用的估计方法不同, 如非线性最小二乘法,但使用最大似 然估计法较多。
限值因变量有哪些情形
(limited dependent variable
regression model, LDV)
线性概率模型(linear probability model,LPM)、对数单位模型( logit model)、概率单位模型 (probit model)、托比模型(tobit model)、泊松模型(possion model) 、截取回归模型(censored regression model)、断尾回归模型 (truncated regression model)
二元选择模型(Binary outcome model)
一、线性概率模型
二、Logit model 三、probit model 二元选择模型下的参数估计、解释、系数
解释等。
2.1 线性概率模型
• 因变量是一个取值为0,1的二值结果的分 类变量
考虑模型:
回归分析二元选择模型
• 离散选择模型起源于Fechner于1860年进行的动 物条件二元反射研究。
• 1962年,Warner首次将它应用于经济研究领域, 用以研究公共交通工具和私人交通工具的选择问 题。
• 70、80年代,离散选择模型被普遍应用于经济布 局、企业定点、交通问题、就业问题、购买决策 等经济决策领域的研究。
二、二元离散选择模型
1、原始模型
• 对于二元选择问题,可以建立如下计量经济学模 型。其中Y为观测值为1和0的决策被解释变量;X 为解释变量,包括选择对象所具有的属性和选择
主体所具有的属性。
Y X yi Xi i
E(i ) 0 E(yi ) Xi
pi P( yi 1) 1 pi P( yi 0)
• 模型的估计方法主要发展于80年代初期。
一、二元离散选择模型的经济背景
实际经济生活中的二元选择问题
• 研究选择结果与影响因素之间的关系。 • 影响因素包括两部分:决策者的属性和备选方案
的属性。 • 对于单个方案的取舍。例如,购买者对某种商品
的购买决策问题 ,求职者对某种职业的选择问题, 投票人对某候选人的投票决策,银行对某客户的 贷款决策。由决策者的属性决定。 • 对于两个方案的选择。例如,两种出行方式的选 择,两种商品的选择。由决策者的属性和备选方 案的属性共同决定。
3、最大似然估计
• 欲使得效用模型可以估计,就必须为随机误差项 选择一种特定的概率分布。
• 两种最常用的分布是标准正态分布和逻辑 (logistic)分布,于是形成了两种最常用的二元 选择模型—Probit模型和Logit模型。
• 最大似然函数及其估计过程如下:
F(t) 1 F(t)
标准正态分布或逻 辑分布的对称性
二元选择模型
二元选择摸型如果回归模型的解释变量中含有定性变量,则可以用虚拟变量处理之。
在实际经济问题中,被解释变量也可能是定性变量。
如通过一系列解释变量的观测值观察人们对某项动议的态度,某件事情的成功和失败等。
当被解释变量为定性变量时怎样建立模型呢?这就是要介绍的二元选择模型或多元选择模型,统称离散选择模型。
这里主要介绍Tobit (线性概率)模型,Probit (概率单位)模型和Logit 模型。
1.Tobit (线性概率)模型 Tobit 模型的形式如下,y i = α + β x i + u i (1) 其中u i 为随机误差项,x i 为定量解释变量。
y i 为二元选择变量。
此模型由James Tobin 1958年提出,因此得名。
如利息税、机动车的费改税问题等。
设 1 (若是第一种选择) y i =0 (若是第二种选择)-0.20.00.20.40.60.81.01.2330340350360370380XY对y i 取期望,E(y i ) = α + β x i (2) 下面研究y i 的分布。
因为y i 只能取两个值,0和1,所以y i 服从两点分布。
把y i 的分布记为, P ( y i = 1) = p i P ( y i = 0) = 1 - p i 则E(y i ) = 1 (p i ) + 0 (1 - p i ) = p i (3) 由(2)和(3)式有p i = α + β x i (y i 的样本值是0或1,而预测值是概率。
) (4)以p i = - 0.2 + 0.05 x i 为例,说明x i 每增加一个单位,则采用第一种选择的概率增加0.05。
现在分析Tobit 模型误差的分布。
由Tobit 模型(1)有,u i = y i - α - β x i =⎩⎨⎧=--=--0,1,1i i i i y x y x βαβαE(u i ) = (1- α - β x i ) p i + (- α - β x i ) (1 - p i ) = p i - α - β x i 由(4)式,有E(u i ) = p i - α - β x i = 0因为y i 只能取0, 1两个值,所以,E(u i 2) = (1- α - β x i )2 p i + (- α - β x i )2 (1 - p i )= (1- α - β x i )2 (α + β x i ) + (α +β x i )2 (1 - α - β x i ), (依据(4)式) = (1- α - β x i ) (α + β x i ) = p i (1 - p i ) , (依据(4)式) = E(y i ) [1- E(y i ) ]上两式说明,误差项的期望为零,方差具有异方差。
二元选择模型
二元选择模型一 线性概率模型(LPM)如果应变量的取值是二元的,则我们可定义应变量的取值如下:⎩⎨⎧=择第二个方案个被观测的决策主体选如果第择第一个方案个被观测的决策主体选如果第i i Y i 0,, 1 如果我们直接用最小二乘法作应变量对解释变量的回归,这样得到的模型称为线性概率模型。
如用i X 2表示解释变量(为简单记,我们在模型中只引入一个解释变量,如果要用多个解释变量来说明第i 个决策者的选择行为,则只要进行简单推广即可),则线性概率模型为i i i u X Y ++=221ββ (1)其中i u 是相互独立且均值为零的随机变量。
由于应变量i Y 只取两个值,所以从总体上看i Y 的均值即i Y 的数学期望可直接由期望的定义获得:i i i i P P P Y E =-⨯+⨯=)1(01)(其中i P 为第i 个决策者选择第一个方案的概率。
另一方面,由(4.26)式可得i Y 的数学期望为i i X Y E 221)(ββ+=故线性概率模型可表示为i i X P 221ββ+= (2)但如对解释变量的范围没作任何限制,则(2)式右边的值有可能会超出区间[0,1]的范围,从而使该式没有意义。
为了解释这个问题,通常的做法是将线性概率模型写成如下形式:⎪⎩⎪⎨⎧≥+<+<+≤+=1 ,110 ,0 0221221221221i i i i i X X X X P ββββββββ当当当, (3)按最小二乘法,利用观测到的样本值,对1)式进行估计,得i Y 的预测方程ii X Y 221ˆˆˆββ+= (4) 该预测方程即为第i 个决策主体选择第一个方案的概率的估计值。
如果第i 个决策主体的解释变量的值为02X X i =,则该决策主体选择第一个方案的概率的估计值为021ˆˆˆX Y i ββ+=。
而斜率项系数的意义则是:当解释变量增加一个单位时,决策主体选择第一个方案的概率增加2β。
二元选择模型BinaryChoiceModel
1 X i 当yi 1,其概率为X i i X i 当yi 0,其概率为1 X i
具有异 方差性
• 由于存在这两方面的问题,所以原始模型不能作 为实际研究二元选择问题的模型。 • 需要将原始模型变换为效用模型。 • 这是离散选择模型的关键。
• 对第i个决策者重复观测n次,选择yi=1的次数比例为pi, 那么可以将pi作为真实概率Pi的一个估计量。
pi Pi ei F ( X i ) ei
定义“观测 到的”概率 单位
E ( ei ) 0 Var (ei ) pi (1 pi ) ni
vi F 1 ( pi ) F 1 ( Pi ei )
JG 0 0 1 0 0 1 0 1 0 0 1 0 1 0 1 1 1 0 0 0 1 0 0 0 1 0
XY 1500 96.00 -8.000 375.0 42.00 5.000 172.0 -8.000 89.00 128.0 6.000 150.0 54.00 28.00 25.00 23.00 14.00 49.00 14.00 61.00 40.00 30.00 112.0 78.00 0.000 131.0
Y X yi X i i
E( i ) 0 E ( yi ) X i
pi P( yi 1) 1 pi P( yi 0)
E( yi ) 1 P( yi 1) 0 P( yi 0) pi
E ( yi ) P( yi 1) X i
3、最大似然估计
• 欲使得效用模型可以估计,就必须为随机误差项 选择一种特定的概率分布。
• 两种最常用的分布是标准正态分布和逻辑 (logistic)分布,于是形成了两种最常用的二元 选择模型—Probit模型和Logit模型。 • 最大似然函数及其估计过程如下:
二元选择模型的建立
二元选择模型的建立
二元选择模型是一种用来评估两个不同选项的得失情况的模型,其中一个选项的得失会被衡量和评估,以帮助用户做出最佳决定。
建立二元选择模型的过程可分为以下几个步骤:
1. 确定问题:确定比较的问题,是跟踪投资回报,比较两个投资机会,还是决定所采取的目标市场等。
2. 建立模型:将所有与该问题有关的数据分类收集并且建立选择模型,是一个表格或图表,或者一个数学模型等。
3. 加入偏好因素:建立模型的过程中,应考虑偏好的因素,比如风险大小、可承受的损失,或者对未来收益的期望等。
4. 评估得失:用不同的指标评估每个选择的得失,评估模型中各个依据及其对失误机率及后果的影响等。
5. 做出最终决定:最后,根据二元选择模型的评估结果,作出最佳决定。
二元选择模型和二值响应模型
二元选择模型和二值响应模型
"二元选择模型"(Binary Choice Model)和"二值响应模型"(Binary Response Model)通常在统计学和计量经济学中使用,用于处理对一个二元结果的建模和分析。
尽管这两个术语有时可以互换使用,但它们通常涉及到略微不同的概念。
1.二元选择模型(Binary Choice Model):这个术语通常用于描述一类模型,其中观测值的因变量(响应变量)只有两个可能的取值,通常是0和1。
这个模型用于解释一个二元决策或选择的过程。
例如,考虑一个人是否购买某个产品(购买=1,不购买=0),这种情况下可以使用二元选择模型来建模。
2.常见的二元选择模型包括Logit模型(逻辑回归)和Probit模型(概率模型),它们都是处理二元结果的广泛应用的模型。
3.二值响应模型(Binary Response Model):这个术语更加通用,它指的是对于某个事件或观测结果的响应只有两个可能取值的模型。
这也可以包括那些不仅仅涉及到选择或决策的情境,还包括其他类型的二元结果。
例如,是否违约(违约=1,未违约=0)也可以用二值响应模型来建模。
4.二值响应模型可以包括二元选择模型,但不限于此,因为它可以应用于更广泛的情境,包括一些不涉及明确选择的问题。
总体而言,这两个术语都涉及到处理二元结果的模型,而具体使用哪一个取决于具体的上下文和研究问题。
逻辑回归和概率模型是处理这类问题时常见的方法,它们在许多领域,包括经济学、社会科学和医学等方面都有广泛的应用。
高级计量经济学 第五章 二元选择模型
一个问题是,由线性概率方程推断得出的概率值可能落在
区间[0,1]之外,因而只有在均值附近才较为可靠。
由于线性概率函数的取值仅为0或1,因而误差项与模型参
数β出现相关,即e或是等于-β΄X,或是等于1-β΄X,因而存
,现在已经很少使用线性 概率模型。
不同统计分布的特征
Probit 模型
G(z)的一种可选形式是标准正态累积分布函数, 此即Probit模型。
Pi GZi
1 2
e Zi u22du
式中u是误差项,假定服从标准正态分布;
P代表事件发生的概率。
估计指标Z,需要应用累计正态分布函数的逆函数
Z iG 1P iX i
由于Probit模型是参数非线性函数,因而需要用最 大似然法来估计。
不同的选择)或连续值(反映选择强度)。
二元选择模型是因变量取值仅为0或1的特殊情况。
二元行为选择
可以简化表述为涉及“是”或“否”的决策
例如是否攻读研究生
净效用函数:U读研 = +1 X1 + 2 X2 + 1 Z1 + 2 Z2+ e
当U读研>0,那么选择读研究生。
使用的数据
因变量基于显示出的偏好
高级计量经济学 第五章 二元选择模型
本章内容
反映选择行为的模型 线性概率模型 经典二元选择模型
PROBIT模型 LOGIT模型 极端值模型
拟合优度测定 案例分析
用计量经济模型反映选择行为
行为主体从事的每项活动都可以看作是一种选择; 每个行为主体都有其偏好; 人们的行为有其规则; 在经济分析中,通常认为选择基于效用最大化标准。 研究中需要考虑:
行为主体选择第一项活动意味着Ui1t > Ui2t
《二元选择模型》课件
与其他模型的比较研究
比较二元选择模型与其他分类模型的 优缺点,为实际应用提供参考。
应用领域的拓展
将二元选择模型应用于更多领域,如 生物医学、环境科学等,以挖掘更多 有价值的信息。
谢谢观看
实证结果分析
边际效应分析
通过实证分析,我们得到了每个解释变量的边际效应,这些边际效应可以帮助我们了解各 个变量对二元选择结果的影响程度。
条件概率分析
在二元选择模型中,我们计算了每个解释变量的条件概率,这些条件概率可以帮助我们了 解在控制其他变量的情况下,某个变量对二元选择结果的影响程度。
稳健性检验
Probit模型
另一种统计方法,与Logit模型类似,用于估计二元选择概率 的优势。Probit模型同样将因变量的取值概率为0到1之间的 连续变量转换为二分类的离散变量,并使用最大似然估计法 估计模型参数。
概率优势的检验方法
显著性检验
检验解释变量对概率优势的影响是否 显著。通过比较模型拟合优度、参数 估计值等指标,判断解释变量是否对 二元选择结果产生了显著影响。
最小二乘估计法
总结词
最小二乘估计法是一种线性回归分析中的参数估计方法,通过最小化预测值与实 际值之间的平方误差来估计参数。
详细描述
最小二乘估计法的基本思想是,对于一组样本数据,选择参数值使得预测值与实 际值之间的平方误差最小。通过最小化误差平方和,可以得到参数的估计值。这 种方法在二元选择模型中有时也被用来估计模型参数。
二元选择模型的重要性
预测和决策支持
二元选择模型能够预测二 元结果,帮助决策者了解 不同因素对结果的影响, 从而做出更好的决策。
深入了解影响因素
通过分析影响二元结果的 因素,可以深入了解这些 因素的作用机制和影响程 度。
二元选择模型-方匡南的个人网站
方匡南 朱建平 姜叶飞前面我们探讨了连续型的因变量建模分析,但实际中,并非所有的变量都是连续型的数据,有时因变量是离散型的数据,这时候我们需要用广义线性模型(generalized l inear m odel, G LM)。
离散因变量(Discrete D ependent V ariable)是指取值为0、1、2….等离散值的变量。
在多数情况下,这些取值一般没有实际的意义,仅代表某一事件的发生,或者是用于描述某一事件发生的次数。
根据取值的特点,离散因变量可以分为二元变量(binary v ariable)、多分变量和计数变量(count v ariable)。
二元变量的取值一般为1和0,当取值为1时表示某件事情的发生,取值为0则表示不发生,比如信用卡客户发生违约的记为1,不违约的记为0。
因变量为二元变量的模型称为二元选择模型(Binary C hoice M odel)。
例13-1。
为了考察一种新的经济学教学方法对学生成绩的影响,进行了调查,共得到了32个样本数据。
数据见表13-1。
GRADE取1表示新近学习成绩提高,0表示其他;GPA是平均积分点;TUCE是以往经济学成绩;PSI取1表示受到新的经济学教学方法的指导,0表示其他。
假如想要了解GPA,TUCE和PSI因素对学生成绩是否有影响?以及根据学生的GPA,TUCE和PSI预测学生成绩是否会提高?该如何建模分析? obs GRADE GPA TUCE PSI 10 2.66200 20 2.89220 30 3.28240 40 2.92120 51 4.00210 60 2.86170 70 2.76170 80 2.87210 90 3.03250 101 3.92290 110 2.63200 120 3.32230 130 3.57230 141 3.26250 150 3.53260 160 2.74190obs GRADE GPA TUCE PSI 170 2.75250 180 2.83190 190 3.12231 201 3.16251 210 2.06221 221 3.62281 230 2.89141 240 3.51261 251 3.54241 261 2.83271 271 3.39171 280 2.67241 291 3.65211 301 4.00231 310 3.10211 321 2.39191表13-1 新教学方法对成绩的影响数据 本例及例中的数据引自Greene(2000)第19章例19.1。
一离散因变量模型形式二二元选择模型
三 二元选择模型的参数估计
对于二元选择模型中参数的估计,主要 采用最大似然法。
关键问题是如何找出似然函数。
如果得到一组样本观察值 y1, y2 , yn , 它们是0与1 的序列,那么似然函数即样 本出现的联合概率就是
β'x
F (x, β) (β' x) (t)dt
其中 与 分别为标准正态分布的分布函 数与概率密度。
(3)Logit模型
假定F的分布为
F
(x,
β)
(β'
x)
1
e β'x eβ'x
β'x
(t)dt
其中 与 分别为logistic分布的分布函数 与概率密度
一 离散因变量模型形式
由于因变量数据的离散性,无法直接进 行回归分析。一般的模型形式为
P(事件j发生) P(Y j) F(相关变量与参数 )
二 二元选择模型
首先考虑最简单的情况,即因变量的取 值只有两个,为方便,我们总选择0与1 。 此时要建立的模型就是二元选择模型。
二元选择模型的基本形式
另一种估计量基于海塞矩阵的期望值。
Logit模型的海塞矩阵不包含yi所以 E(H)=H。但对于Probit模型,情况复杂
一些,但可以证明
E(H) 0i 1i xi xi '
i
称海塞矩阵的期望矩阵的负矩阵为信息 矩阵:
I E(H)
最大似然估计量的渐近协方差矩阵为信 息矩阵的逆矩阵。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
限值因变量有哪些情形 (limited dependent variable
regression model, LDV)
• 当因变量为定性变量或不连续变量 或是受约束的变量时,统称为限值 因变量回归模型。
• 不同的限值因变量模型中,因变量的 情形不同,所使用的估计方法不同, 如非线性最小二乘法,但使用最大似 然估计法较多。
representative value),即给定x*,在x=x*处的边际效应。
3、在非线性模型中,样本均值处的个体行为并不等于样本中个体 的平均行为(average behavior of individuals differs from
behavior of the average individual)。 4、对于政策分析而言,平均边际效应(Stata 的默认方法),或在某 • 代表值处的边际效应通常更有意义。
logit累积概率分布函数的斜率在pi= 0.5时最大 ,在累积分布两个尾端的斜率逐渐减小。说明 相对于pi= 0.5附近的解释变量xi的变化对概率 的变化影响较大,而相对于pi接近0和1附近的 xi值的变化对概率的变化影响较小。
对数单位模型的特点
1、P保证落在0-1之间。
2、虽然L对X是线性,但P对X并不是线性。
i 1
i n 1
log L n 1 pi N 1 pi 0
1
i1 pi 1 i1 1 pi 1
log L n 1 pi N 1 pi 0
2
i1 pi 2 i1 1 pi 2
1
1
pi 1 e yi 1 e(12 Xi )
的概率是(1- pi)。重新将样本数据排
列,使前n个观测值为第一种选择,后
N-n个观测值为第二种选择,则似然函
数是 L(1, 2 ) P(Y1,Y2,...YN ) P(Y1)P(Y2 )...P(YN )
n
N
pi (1 pi )
i1 in1
n
N
log L(1, 2 ) log pi log(1 pi )
example
设有两个规模各为25人的试验组,试验组 服用某种药物,控制组服用安慰剂。若 试验组中有2人感染了疾病,控制组中有 3人感染了疾病。则试验组的患病风险为 2/25=0.08,控制组为3/25=0.12,则 试验组相对于控制组的相对患病风险为 0.08/0.12=0.67.说明试验组的患病风险 大约为控制组的三分之二。
Weibull分布不假设对称性, P(Y=1|X)=exp(-exp(xb))(cdf)
Log-log分布: P(Y=1|X)=1-exp(exp(-xb))
Probit和logistic分布
• Probit曲线和logit曲线很相似。两条曲 线都是在pi= 0.5处有拐点,但logit曲线 在两个尾部要比Probit曲线厚。两种分 布的概率值分别见表1。
当事件发生的概率很小时,发生比率比常 被用来近似地表示相对风险。
Probit模型
为了解释二分因变量,除了逻辑斯蒂函数 以外,还可以采用正态分布函数。这就 是Probit模型,也称为概率单位模型。
P( y 1| x) G(1 2x1 ... k xk ) G(1 x )
Pˆ( y 1| x) g(ˆ0 xˆ)ˆj xj , g为密度函数.
• 通常是将 x j 的样本平均值带入上式来求。
Stata中,可通过margins的命令来求得边际效应 。
模型评价与比较
1、R2 的局限性:因变量本身不含有尺度信 息,是类别变量。
2、拟合优度检验 3、对数似然比统计量 4、嵌套模型比较
对于异方差问题,即使通过广义最小二乘 法得到异方差条件下的有效估计量,仍 有下面问题:
1、概率拟合值仍可能落在(0,1)之外。
2、因为随机扰动项的分布不是正态的, 是两点分布,所以该估计量不是有效估 计量,是渐近有效估计量。
线性概率模型的改进:
所估计的概率能落在[0,1]之间。同时对于 所有的xi,当xi增加时,希望yi也单调增 加或单调减少。显然累积概率分布函数 能满足这样的要求,常用的包括logistic 分布、正态分布、weibull分布、极值分 布,但probit和logit分布最常用。
• (1) 平均边际效应(average marginal effect),即分别计算在每 个样本观测值上的边际效应,然后进行简单算术平均。
• (2) 样本均值处的边际效应 (marginal effect at mean),即在
• X=均值处的边际效应。
• (3) 在某代表值处的边际效应 (marginal effect at a
模型回归系数解释
1.以发生比率比的方式解释logit参数估计值
(适用于虚拟变量)。
假设log( pˆi )=-1.92+0.012x+0.67female,1为女性. 1 pˆ i
因变量为是否参与投票.发生比率比为 : exp(0.67) 1.95
含义为:在控制了收入的情况下,女性参与投票的 发生几率几乎是男性的2倍。
ln L
n i 1
Yi fi Fi
(1
Yi
)
1
fi Fi
Xi
0
其中f表示概率密度函数。
模型回归系数的解释
1、由于Probit 与Logit 使用的分布函数不同,其参数估计值并不 直接可比。须计算边际效应,然后进行比较。
2、但对于非线性模型,边际效应不是常数,随着解释变量而变。 常用的边际效应概念:
G(z) exp(z) log it mod el 1 exp(z)
z
G(z) (z) (v) dv probitmodel
对数单位模型的特点
该模型是McFadden于1973年首次提出,采用的 是logistic概率分布函数。从logit模型可以看 出: logit模型的一个重要优点是把在 [0,1] 区间上预测概率的问题转化为在实数轴上预测 一个事件发生的机会比(也叫发生比率odds)问 题。
限值因变量有哪些情形
(limited dependent variable
regression model, LDV)
线性概率模型(linear probability model,LPM)、对数单位模型( logit model)、概率单位模型 (probit model)、托比模型(tobit model)、泊松模型(possion model) 、截取回归模型(censored regression model)、断尾回归模型 (truncated regression model)
3、斜率系数解释的是X的变化导致的L的变化, 而不是概率的变化。
4、但我们关心的是X的变化导致的概率的变化
,如何导出?在估计出系数后,利用
Pi
1 1 ezi
1
1 e ( 1
2x)
推导出。
5、如何估计
2.3 LOGIT模型的估计
• 采用极大似然估计法。为什么采用极大 似然估计法?
• Stata命令:
logit depvar [indepvars] [if] [in] [weight] [, options]
• 极大似然估计的出发点就是寻找样本观 测值最有可能发生条件下的 的估计值
。从样本看,如果第一种选择发生了n次
,第二种选择发生了N-n次。设采取第
一种选择的概率是pi。采取第二种选择
• Logit and probit model 都可以由潜变 量模型推导出来。
• 以公共交通工具和私人交通工具的选择
为例。如果某一个体选择公共交通工具
或私人交通工具的效用分别表示为U
,
U
1 i
Xi1
1 i
,Ui0
Xi
0
0 i
1和U 0
i
i
U
1 i
U
0 i
Xi (1
0)
(
发生比率(odds)概念的延伸
1、发生比率比(odds ratio) 如男性相对于女性的失业发生比率比为:
pm / (1 pm ) p f / (1 p f )
2、相对风险(relative risk) 指某一暴露期内(exposure interval)的
相对发生概率。风险是指所关注事件在 某一给定时期内的发生概率。
若G采取如下形式
z
G(z) (z) (v)dv
这样可得到Probit model。Probit模型的
估计:极大似然估计法
• STATA命令: probit depvar [indepvars]
[if] [in] [weight] [, probit_options]
2.4 潜变量模型导出的 logit和probit模型
二元选择模型(Binary outcome model)
一、线性概率模型
二、Logit model 三、probit model 二元选择模型下的参数估计、解释、系数
解释等。
2.1 线性概率模型
• 因变量是一个取值为0,1的二值结果的分 类变量
考虑模型:
y 0 1x1 ... k xk u
2.2 Logit模型
在线性概率模型LPM中,假定响应概率对 一系列参数 j 是线性的。
Logit模型也称为对数单位模型,表示为:
1
1
Pi 1 e yi 1 e(12x)
1 1 Pi 1 e(12x)