第六章 二元选择模型

合集下载

二元选择模型

二元选择模型
• (1) 平均边际效应(average marginal effect),即分别计算在每 个样本观测值上的边际效应,然后进行简单算术平均。
• (2) 样本均值处的边际效应 (marginal effect at mean),即在
• X=均值处的边际效应。
• (3) 在某代表值处的边际效应 (marginal effect at a
二、限值因变量模型
限值因变量有哪些情形 (limited dependent variable
regression model, LDV)
• 当因变量为定性变量或不连续变量 或是受约束的变量时,统称为限值 因变量回归模型。
• 不同的限值因变量模型中,因变量的 情形不同,所使用的估计方法不同, 如非线性最小二乘法,但使用最大似 然估计法较多。
限值因变量有哪些情形
(limited dependent variable
regression model, LDV)
线性概率模型(linear probability model,LPM)、对数单位模型( logit model)、概率单位模型 (probit model)、托比模型(tobit model)、泊松模型(possion model) 、截取回归模型(censored regression model)、断尾回归模型 (truncated regression model)
二元选择模型(Binary outcome model)
一、线性概率模型
二、Logit model 三、probit model 二元选择模型下的参数估计、解释、系数
解释等。
2.1 线性概率模型
• 因变量是一个取值为0,1的二值结果的分 类变量
考虑模型:

二元选择模型

二元选择模型

二元选择摸型如果回归模型的解释变量中含有定性变量,则可以用虚拟变量处理之。

在实际经济问题中,被解释变量也可能是定性变量。

如通过一系列解释变量的观测值观察人们对某项动议的态度,某件事情的成功和失败等。

当被解释变量为定性变量时怎样建立模型呢?这就是要介绍的二元选择模型或多元选择模型,统称离散选择模型。

这里主要介绍Tobit (线性概率)模型,Probit (概率单位)模型和Logit 模型。

1.Tobit (线性概率)模型 Tobit 模型的形式如下,y i = α + β x i + u i (1) 其中u i 为随机误差项,x i 为定量解释变量。

y i 为二元选择变量。

此模型由James Tobin 1958年提出,因此得名。

如利息税、机动车的费改税问题等。

设 1 (若是第一种选择) y i =0 (若是第二种选择)-0.20.00.20.40.60.81.01.2330340350360370380XY对y i 取期望,E(y i ) = α + β x i (2) 下面研究y i 的分布。

因为y i 只能取两个值,0和1,所以y i 服从两点分布。

把y i 的分布记为, P ( y i = 1) = p i P ( y i = 0) = 1 - p i 则E(y i ) = 1 (p i ) + 0 (1 - p i ) = p i (3) 由(2)和(3)式有p i = α + β x i (y i 的样本值是0或1,而预测值是概率。

) (4)以p i = - 0.2 + 0.05 x i 为例,说明x i 每增加一个单位,则采用第一种选择的概率增加0.05。

现在分析Tobit 模型误差的分布。

由Tobit 模型(1)有,u i = y i - α - β x i =⎩⎨⎧=--=--0,1,1i i i i y x y x βαβαE(u i ) = (1- α - β x i ) p i + (- α - β x i ) (1 - p i ) = p i - α - β x i 由(4)式,有E(u i ) = p i - α - β x i = 0因为y i 只能取0, 1两个值,所以,E(u i 2) = (1- α - β x i )2 p i + (- α - β x i )2 (1 - p i )= (1- α - β x i )2 (α + β x i ) + (α +β x i )2 (1 - α - β x i ), (依据(4)式) = (1- α - β x i ) (α + β x i ) = p i (1 - p i ) , (依据(4)式) = E(y i ) [1- E(y i ) ]上两式说明,误差项的期望为零,方差具有异方差。

二元选择模型

二元选择模型

Λ ( β1 + β 2 ( q + 10) + β3v )
Λ ( β1 + β 2 q + β3v )
结论:数量分析成绩相对平均成绩增加 分可提高 分可提高20%被录取的可能性 结论:数量分析成绩相对平均成绩增加10分可提高 被录取的可能性
计算词汇能力成绩相对平均分增加10分时被录取概率增加值 计算词汇能力成绩相对平均分增加 分时被录取概率增加值
线性概率模型
修正
转换函数 Probit模型 模型
yt = F ( xt β ) + ut
Logit模型 模型
例题
讨论GRE考试成绩与研究生入学情况的关系 考试成绩与研究生入学情况的关系 讨论 成绩( 将GRE成绩(数量分析成绩和词汇能力成绩)与取得研究生入学资格的概率作为 成绩 数量分析成绩和词汇能力成绩) 二元选择模型的研究对象
β1 + β 2 q + β3v
'数量分析成绩相对平均分高出 分时被录取的概率 数量分析成绩相对平均分高出10分时被录取的概率 数量分析成绩相对平均分高出 分时被录取的概率' series xqplus2=@cnorm(common2+eq2.@coefs(2)*(@mean(q)+10-@mean(q))) '数量分析成绩达到平均分时被录取的概率 数量分析成绩达到平均分时被录取的概率' 数量分析成绩达到平均分时被录取的概率 series xq2=@cnorm(common2) '计算数量分析成绩相对平均分增加 分时被录取概率增加值 计算数量分析成绩相对平均分增加10分时被录取概率增加值 计算数量分析成绩相对平均分增加 分时被录取概率增加值' series var12=xqplus2-xq2

二元选择模型

二元选择模型

二元选择模型一 线性概率模型(LPM)如果应变量的取值是二元的,则我们可定义应变量的取值如下:⎩⎨⎧=择第二个方案个被观测的决策主体选如果第择第一个方案个被观测的决策主体选如果第i i Y i 0,, 1 如果我们直接用最小二乘法作应变量对解释变量的回归,这样得到的模型称为线性概率模型。

如用i X 2表示解释变量(为简单记,我们在模型中只引入一个解释变量,如果要用多个解释变量来说明第i 个决策者的选择行为,则只要进行简单推广即可),则线性概率模型为i i i u X Y ++=221ββ (1)其中i u 是相互独立且均值为零的随机变量。

由于应变量i Y 只取两个值,所以从总体上看i Y 的均值即i Y 的数学期望可直接由期望的定义获得:i i i i P P P Y E =-⨯+⨯=)1(01)(其中i P 为第i 个决策者选择第一个方案的概率。

另一方面,由(4.26)式可得i Y 的数学期望为i i X Y E 221)(ββ+=故线性概率模型可表示为i i X P 221ββ+= (2)但如对解释变量的范围没作任何限制,则(2)式右边的值有可能会超出区间[0,1]的范围,从而使该式没有意义。

为了解释这个问题,通常的做法是将线性概率模型写成如下形式:⎪⎩⎪⎨⎧≥+<+<+≤+=1 ,110 ,0 0221221221221i i i i i X X X X P ββββββββ当当当, (3)按最小二乘法,利用观测到的样本值,对1)式进行估计,得i Y 的预测方程ii X Y 221ˆˆˆββ+= (4) 该预测方程即为第i 个决策主体选择第一个方案的概率的估计值。

如果第i 个决策主体的解释变量的值为02X X i =,则该决策主体选择第一个方案的概率的估计值为021ˆˆˆX Y i ββ+=。

而斜率项系数的意义则是:当解释变量增加一个单位时,决策主体选择第一个方案的概率增加2β。

第六章 二元选择模型

第六章 二元选择模型
0 P i E ( Y i ) X i 1 可 能 不 成 立
当用线性概率模型进行预测,预测值 X i 落在区间
[0,1]之内时,则没有什么问题;但当预测值 X i 落 在区间 [0,1] 之外时,则会暴露出该模型的严重缺点, 此模型由 James Tobin 1958年提出。 James Tobin 所以此时必须强令预测值(概率值)相应等于 0 或1 。 1981年获诺贝尔经济学奖。 因此,线性概率模型常常写成下面的形式
Yi 和Yi*的关系为:
1 Y i* 0 Yi * 0 Y i 0
Yi* X i ui*
1 Y i* 0 Yi * 0 Y i 0

P(Yi 1) P(Yi* 0) P(ui* X i ) 1 F ( X i )
是二元离散选择模型最关键的问题。 我们假设有以Y 轴为对称的概率密度函数f(.),则
P(Yi 1) 1 F ( X i ) F ( X i )
P(Yi 0) F ( X i ) 1 F ( X i )
于是模型的似然函数为
P(Y1,Y2, Yn ) [1 F ( X i )] F ( X i )
分析公司员工的跳槽行为。 员工是否愿意跳槽到另一家公司,取决于薪 资、发展潜力等诸多因素的权衡。员工跳槽的成本 与收益是多少,我们无法知道,但我们可以观察到 员工是否跳槽,即
1 跳槽 Yi 0 不跳槽
对某项建议进行投票。 建议对投票者的利益影响是无法知道的,但可 以观察到投票者的行为只有三种,即
随机干扰项ui非正态且存在异方差性
由于随机干扰项具有异方差性。修正异方差 的一个方法就是使用加权最小二乘估计。但是加 ˆ 在 [0,1] 之间, 权最小二乘法无法保证预测值 Y i 这是线性概率模型的一个严重缺陷。

二元选择模型

二元选择模型
ˆ 0.586 0.0034nwifeinc 0.038educ 0.039exper 0.0006exper 2 inlf 0.016age 0.262kidslt6 0.013kidsage 6 n 753 R 2 0.264
线性概率模型的缺陷
1、干扰项的非正态性
2.3 LOGIT模型的估计
• 采用极大似然估计法。为什么采用极大 似然估计法?
• Stata命令:
logit depvar [indepvars] [if] [in] [weight] [, options]
• 极大似然估计的出发点就是寻找样本观 的估计值 测值最有可能发生条件下的 。从样本看,如果第一种选择发生了n次 ,第二种选择发生了N-n次。设采取第 一种选择的概率是pi。采取第二种选择 的概率是(1- pi)。重新将样本数据排 列,使前n个观测值为第一种选择,后 N-n个观测值为第二种选择,则似然函 数是 L(1 , 2 ) P(Y1 , Y2 ,...YN ) P(Y1 ) P(Y2 )...P(YN )
Probit模型
为了解释二分因变量,除了逻辑斯蒂函数 以外,还可以采用正态分布函数。这就 是Probit模型,也称为概率单位模型。
P( y 1| x) G(1 2 x1 ... k xk ) G(1 x )
若G采取如下形式 G( z) ( z) (v)dv 这样可得到Probit model。Probit模型的 估计:极大似然估计法 • STATA命令: probit depvar [indepvars]
模型回归系数的解释
1、由于Probit 与Logit 使用的分布函数不同,其参数估计值并不 直接可比。须计算边际效应,然后进行比较。 2、但对于非线性模型,边际效应不是常数,随着解释变量而变。 常用的边际效应概念: • (1) 平均边际效应(average marginal effect),即分别计算在每 个样本观测值上的边际效应,然后进行简单算术平均。 • (2) 样本均值处的边际效应 (marginal effect at mean),即在 • X=均值处的边际效应。 • (3) 在某代表值处的边际效应 (marginal effect at a representative value),即给定x*,在x=x*处的边际效应。 3、在非线性模型中,样本均值处的个体行为并不等于样本中个体 的平均行为(average behavior of individuals differs from behavior of the average individual)。 4、对于政策分析而言,平均边际效应(Stata 的默认方法),或在某 • 代表值处的边际效应通常更有意义。

7.2 二元选择模型

7.2 二元选择模型

12/54
三、二元Probit离散选择模型及其参数估计 1、标准正态分布的概率分布函数
t
F (t )


(2 )
12
exp( x 2 2)dx
f ( x) (2 )
1
2
exp( x 2 2)
Yong Mou
Information Management&Information System AUST
1、原始模型
• 对于二元选择问题,可以建立如下计量经济学模 型。其中Y为观测值为1和0的决策被解释变量;X 为解释变量,包括选择对象所具有的属性和选择 主体所具有的属性。
Y X yi X i i
E( i ) 0 E ( yi ) X i
pi P( yi 1) 1 pi P( yi 0)
Yong Mou
Information Management&Information System AUST
15/54
三、二元Probit离散选择模型及其参数估计
例7.2.2 贷款决策模型
• 分析与建模:某商业银行从历史贷款客户中随机抽取78 个样本,根据设计的指标体系分别计算它们的“商业信 用支持度”(CC)和“市场竞争地位等级”(CM), 对它们贷款的结果(JG)采用二元离散变量,1表示贷 款成功,0表示贷款失败。目的是研• 最大似然函数及其估计过程如下:
Yong Mou
Information Management&Information System AUST
9/54
二、二元离散选择模型
F ( t ) 1 F (t )
标准正态分布或逻 辑分布的对称性

7.2 二元选择模型

7.2 二元选择模型

标准正态分布或逻 辑分布的对称性
P( y i 1) P( y i* 0) P( i* X i ) 1 P( i* X i ) 1 F ( X i ) F ( X i )
P ( y1 , y 2 , , y n )
n
(1 F ( X )) F ( X )
3、最大似然估计
• 欲使得效用模型可以估计,就必须为随机误差项 选择一种特定的概率分布。
• 两种最常用的分布是标准正态分布和逻辑 (logistic)分布,于是形成了两种最常用的二元 选择模型—Probit模型和Logit模型。 • 最大似然函数及其估计过程如下:
F (t ) 1 F (t )
2
exp( x 2 2)
2、重复观测值不可以得到情况下二元Probit 离散选择模型的参数估计
ln L
fi fi Xi Xi 1 Fi F y 0 y 1 i

i

i
q i f ( q i X i ) Xi F ( q i X i ) i 1
§7.2 二元选择模型 Binary Choice Model
一、二元离散选择模型的经济背景 二、二元离散选择模型 三、二元Probit离散选择模型及其参数估计 四、二元Logit离散选择模型及其参数估计 五、二元离散选择模型的检验
说明
• 在经典计量经济学模型中,被解释变量通常被假 定为连续变量。
左右端矛盾
1 X i 当y i 1,其概率为X i i X i 当y i 0,其概率为1 X i
具有异 方差性
• 由于存在这两方面的问题,所以原始模型不能作 为实际研究二元选择问题的模型。 • 需要将原始模型变换为效用模型。 • 这是离散选择模型的关键。

2011管理统计 二元选择模型和受限因变量

2011管理统计 二元选择模型和受限因变量

模型框架
1 若某结果出现 yi 0 若某结果不出现
随机变量形式
1 yi 0 以概率p出现某结果 以概率1-p不出现某结果
二元选择模型的目的:考察X对于观察到 y=1的概率的影响。
E(y|x) 1 p+0 ( 1 p) p
Y的条件期望就是y=1的概率 因此二元选择模型又被称为概率模型
2、Logit模型
随机扰动项去Logistic分布, 称为Logit模型
e 1 F ( ) 1 e 1 e
Pi F (a bxi )
1 1 e ( a bxi )
利用极大似然估计方法求解
参数的含义
a bx e 机会比: P 1 e a bx p 机会比: e a bx, 1 p
离散因变量模型
我们经常会遇到被解释变量的取值是离散的 ,分类的或者顺序的情形。 本节讲述离散因变量模型中最简单的一种— —二元选择模型
一、二元选择模型
很多现象都可以用二元变量描述
学生是否选择某选修课程,选或者不选 消费者对某种商品的选择,买或者不买 农民是否加入合作医疗保险,加入或者不加入
即:y min( y* , c)
例如,在电影或者球赛的门票销售中,由于受到场地的限 制,门票的需求量超过了座位数C时,我们只能观察到 Y=C。
(2)下截取(左截取) 定义类似于上截取模型。一个特殊的下截取 模型,TOBIT模型
0 yi * yi if if yi* 0 yi* 0
E (Y | Y 0) ( x ) x ' ( x )
' '
( x )[ x ' ( x )]

《二元选择模型》课件

《二元选择模型》课件

与其他模型的比较研究
比较二元选择模型与其他分类模型的 优缺点,为实际应用提供参考。
应用领域的拓展
将二元选择模型应用于更多领域,如 生物医学、环境科学等,以挖掘更多 有价值的信息。
谢谢观看
实证结果分析
边际效应分析
通过实证分析,我们得到了每个解释变量的边际效应,这些边际效应可以帮助我们了解各 个变量对二元选择结果的影响程度。
条件概率分析
在二元选择模型中,我们计算了每个解释变量的条件概率,这些条件概率可以帮助我们了 解在控制其他变量的情况下,某个变量对二元选择结果的影响程度。
稳健性检验
Probit模型
另一种统计方法,与Logit模型类似,用于估计二元选择概率 的优势。Probit模型同样将因变量的取值概率为0到1之间的 连续变量转换为二分类的离散变量,并使用最大似然估计法 估计模型参数。
概率优势的检验方法
显著性检验
检验解释变量对概率优势的影响是否 显著。通过比较模型拟合优度、参数 估计值等指标,判断解释变量是否对 二元选择结果产生了显著影响。
最小二乘估计法
总结词
最小二乘估计法是一种线性回归分析中的参数估计方法,通过最小化预测值与实 际值之间的平方误差来估计参数。
详细描述
最小二乘估计法的基本思想是,对于一组样本数据,选择参数值使得预测值与实 际值之间的平方误差最小。通过最小化误差平方和,可以得到参数的估计值。这 种方法在二元选择模型中有时也被用来估计模型参数。
二元选择模型的重要性
预测和决策支持
二元选择模型能够预测二 元结果,帮助决策者了解 不同因素对结果的影响, 从而做出更好的决策。
深入了解影响因素
通过分析影响二元结果的 因素,可以深入了解这些 因素的作用机制和影响程 度。

高级计量经济学二元选择模型

高级计量经济学二元选择模型
高级计量经济学二元选择模 型
本章内容
反映选择行为的模型 线性概率模型 经典二元选择模型
PROBIT模型 LOGIT模型 极端值模型
拟合优度测定 案例分析
用计量经济模型反映选择行为
行为主体从事的每项活动都可以看作是一种选择; 每个行为主体都有其偏好; 人们的行为有其规则; 在经济分析中,通常认为选择基于效用最大化标准。 研究中需要考虑:
不同统计分布的特征
Probit 模型
G(z)的一种可选形式是标准正态累积分布函数, 此即Probit模型。
Pi GZi
1 2
e Zi u22du
式中u是误差项,假定服从标准正态分布;
P代表事件发生的概率。
估计指标Z,需要应用累计正态分布函数的逆函数
Z iG 1P iX i
由于Probit模型是参数非线性函数,因而需要用最 大似然法来估计。
我们可以估计有系数限制和没有系数限制的模型,然后利 用得到的两个对数似然值进行检验,相应的统计值为:
LR = 2(Lur – Lr) ~ χ2q
拟合优度
对于线性概率模型,可以直接用得到R2来判断拟合优度; Probit 模型和Logit模型没有R2,因而需要利用其他方法来
反映拟合优度。 一种方法是利用对数似然值计算伪R2(pseudo R2),该值
推断个人的行为
哪些学生最有可能报考研究生
二元选择模型可用于评价政策
在评价某项政策计划(或技术应用)产生的影响 时,常常可以用虚变量作为模型的因变量,例如:
是否参与某政策计划:
当所分析对象参与该某政策计划时D=1,否则D=0;
是否采纳某种(新)技术
当所分析对象采纳该技术时D=1,否则D=0;
也被称作对数似然值比值指数,定义为1 – Lur/Lr

一离散因变量模型形式二二元选择模型

一离散因变量模型形式二二元选择模型
尽管两者的形式与参数有很大的差异, 但在分析解释变量对因变量的边际影响 时,对于多数的应用问题,两者的实际 差异并不是很大。因此,应当具体选用 哪一个模型,并没有严格的标准。
三 二元选择模型的参数估计
对于二元选择模型中参数的估计,主要 采用最大似然法。
关键问题是如何找出似然函数。
如果得到一组样本观察值 y1, y2 , yn , 它们是0与1 的序列,那么似然函数即样 本出现的联合概率就是
β'x
F (x, β) (β' x) (t)dt
其中 与 分别为标准正态分布的分布函 数与概率密度。
(3)Logit模型
假定F的分布为
F
(x,
β)

(β'
x)

1
e β'x eβ'x

β'x
(t)dt

其中 与 分别为logistic分布的分布函数 与概率密度
一 离散因变量模型形式
由于因变量数据的离散性,无法直接进 行回归分析。一般的模型形式为
P(事件j发生) P(Y j) F(相关变量与参数 )
二 二元选择模型
首先考虑最简单的情况,即因变量的取 值只有两个,为方便,我们总选择0与1 。 此时要建立的模型就是二元选择模型。
二元选择模型的基本形式
另一种估计量基于海塞矩阵的期望值。
Logit模型的海塞矩阵不包含yi所以 E(H)=H。但对于Probit模型,情况复杂
一些,但可以证明
E(H) 0i 1i xi xi '
i
称海塞矩阵的期望矩阵的负矩阵为信息 矩阵:
I E(H)
最大似然估计量的渐近协方差矩阵为信 息矩阵的逆矩阵。

4.2 二元选择模型-高级应用计量经济学课件

4.2 二元选择模型-高级应用计量经济学课件

ln L
fi yi 0 1 Fi
Xi
yi 1
fi Fi
Xi
n i 1
qi
f
(qi
Xi) Βιβλιοθήκη F (qi X i ) Xi
n
i X i
i 1
0
qi 2yi 1
• 关于参数的非线性函数,不能直接求解,需采用 完全信息最大似然法中所采用的迭代方法。
• 应用计量经济学软件。
• 这里所谓“重复观测值不可以得到”,是指对每 个决策者只有一个观测值。如果有多个观测值, 也将其看成为多个不同的决策者。
4、重复观测值可以得到情况下二元Probit离 散选择模型的参数估计
• 思路
– 对每个决策者有多个重复(例如10次左右)观测值。 – 对第i个决策者重复观测ni次,选择yi=1的次数比例为pi,
那么可以将pi作为真实概率Pi的一个估计量。 – 建立 “概率单位模型” ,采用广义最小二乘法估计 。 – 实际中并不常用。
1 -5.000
0
0.0000
0 326.0
2
1.0000
0 261.0
1
0.0000
1 -2.000 -1
0.0000
0 14.00 -2
1.0000
1 22.00
0
0.0000
0 113.0
1
1.0000
1 42.00
1
0.0000
1 57.00
2
0.9906
0 146.0
0
0.9979
1 15.00
• 本节只介绍二元选择模型。
• 离散选择模型起源于Fechner于1860年进行的动物 条件二元反射研究。

空间二元选择模型及其估计方法

空间二元选择模型及其估计方法

Hao Xiaojuan
Abstract: We known that classical multi- valued selection mod- in the research of economics, and has
many methods of estimation. In the paper, we will mainly discuss


对于 SEL 模型 g(.)中的 . 为( %,,')' 、M 一般取 g(.)的渐近方
差可得
M=
1 n2
H' (H
SAL
M=
1 n2
X' (X
SAE
由此我们可得:
S(.)=[ 1 n
H'(y- F(Z.))]'

1 n2
H'(H]-1 [ 1 n
H'(y- F(Z.))]
SAL
S(.)=[
1 n
计空间选择模型的参数似乎是很困难的。我们可以利用 GMM 的
方法来估计参数。
3 空间二元选择模型参数的估计
我 们 可 以 假 设 示 性 变 量 取 值 的 概 率 令 P(yi=1)=F(xi,,), 则 P (yi=0)=1- F(xi,,)其 中 是 F(·)是 与 xi,, 有 关 的 一 个 分 布 函 数 , 如 是 F(·)的形式确定的话, 那么模型也就可以确定了。我们假定 F(xi,,) =F(xi,),F(xi,)不一定是 xi 的线性函数。可求得 E(yi)=F(xi,)
X'(y- F(X,))]'

1 n2
X' (X]-1 [ 1 n
X'(y- F(X,))]
SAE
通过计算 /S(.) =0 即可求得参数的估计。 /(.)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 二元选择模型
第一节 线性概率模型模型
第二节 二元Logit离散模型 第三节 二元Probit离散模型模型 第四节 受限Tobit模型
二元离散选择模型的经济背景 实际经济生活中,人们经常遇到二元选择问题。 研究家庭是否购买住房。 由于购买住房行为要受到许多因素的影响,不 仅有家庭收入、房屋价格,还有房屋的所在环境、 人们的购买心理等,所以人们购买住房的心理价位 很难观测到,但我们可以观察到是否购买了住房, 1 购买住房 即 Yi 0 不购买住房
Logit模型的另一种表述为:
三、Probit模型
在最终的效用模型
* Y X i ui * i
中,假定ui*的分布为标准正态分布,则该模型称为 Probit模型。 Probit模型的另一种表述为:
P(Yi 1) P(Yi* 0) P(ui* X i ) 1 ( X i )
( X i )
X i

1 2
e dz
z2
2
五、 Extreme 模型 在最终的效用模型
* Y X i ui * i
中,假定ui*的分布为极值分布,则该模型称为
Extreme模型。
第二节
二元离散选择模型最大似然估计
下面我们来构造二元离散选择模型的似然函数。这
分析公司员工的跳槽行为。 员工是否愿意跳槽到另一家公司,取决于薪 资、发展潜力等诸多因素的权衡。员工跳槽的成本 与收益是多少,我们无法知道,但我们可以观察到 员工是否跳槽,即
1 跳槽 Yi 0 不跳槽
对某项建议进行投票。 建议对投票者的利益影响是无法知道的,但可 以观察到投票者的行为只有三种,即
U i1 X i 1 ui1 (1) 将(1)-(2),得 0 0 0 (2) U i X i ui 1 0 1 0 1 0 Ui Ui X i ( ) (ui ui ) 记
Yi* Ui1 Ui0 , 1 0 , ui* ui1 ui0
ˆ 具有渐进正态分布,因此 由于超大样本条件下 j
ˆ ) / SE ( ˆ ) 渐进服从标准正态分布,其中 Z ( j j j ˆ ) 是 ˆ SE ( j j 的标准误差,对于给定的显著性水平
1 ,参数 j 的置信区间为 :
ˆ Z SE ( ˆ ), ˆ Z SE ( ˆ )) ( j 2 j j 2 j
ln L (1 Yi ) ln1 F ( X i ) Yi lnF ( X i )
i 1
N
二、 Probit模型、Extreme 模型的最大似然估计 如果是正态分布,则对数似然函数为
ln L (1 Yi ) ln1 ( X i ) Yi ln ( X i )
X i (1, X1i , X 2i ,, X ki )
( 0 , 1 ,, k )
Pi P(Yi 1) E(Yi ) X i
Yi的样本值是0或1 。
现在来分析线性概率模型随机干扰项ui的分布
Yi 0 1 X1i k X ki ui X i ui
(1)极大似然估计为一致估计,当样本容量很大
时,模型的参数估计值将比较接近真值; (2)极大似然估计为渐进有效的,当样本容量 增大时,参数估计的方差相对缩小,当样本容量 N 时,极大似然的方差不大于用其它方法得到的参 数估计的方差; (3)极大似然估计为渐进正态的,当样本容量较 大时,可以采用正态假设来构造模型参数的显著性 检验与估计参数的置信区间等。
e xp(x ) Λ( x )(1 Λ( x )) 密度函数 f ( x ) 2 (1 e xp(x ))
ln L N Yi Λ (X i )X i 0 带入(*)式,我们得到: i 1
然后运用迭代法来估计系数 。
Logistic回归参数的极大似然估计值有如下性质
0 P i E ( Y i ) X i 1 可 能 不 成 立
当用线性概率模型进行预测,预测值 X i 落在区间
[0,1]之内时,则没有什么问题;但当预测值 X i 落 在区间 [0,1] 之外时,则会暴露出该模型的严重缺点, 此模型由 James Tobin 1958年提出。 James Tobin 所以此时必须强令预测值(概率值)相应等于 0 或1 。 1981年获诺贝尔经济学奖。 因此,线性概率模型常常写成下面的形式
Yi 0 Yi 1
模型的似然函数为
L P(Y1,Y2, Yn ) [1 F ( X i )] F ( X i )
Yi 0
1 F ( X i )
i 1
N
1Yi
Yi 1
[F ( X i )]Yi
两边同时取自然对数,则
ln (1 Yi ) ln1 1 F ( X i ) Yi lnF ( X i ) Yi L 0Pi 1 0
0 X i 1 X i 1 X i 0
Y 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 0 5 10 15 20 25 X 30
效用模型 U i0 表示第 i个 用 U i1 表示第 i个个体选择1的效用, 个体选择0的效用。其效用均为随机变量,于是有
随机干扰项ui非正态且存在异方差性
由于随机干扰项具有异方差性。修正异方差 的一个方法就是使用加权最小二乘估计。但是加 ˆ 在 [0,1] 之间, 权最小二乘法无法保证预测值 Y i 这是线性概率模型的一个严重缺陷。
Yi 0 1 X1i k X ki ui X i ui
Yi 和Yi*的关系为:
1 Y i* 0 Yi * 0 Y i 0
Yi* X i ui*
1 Y i* 0 Yi * 0 Y i 0

P(Yi 1) P(Yi* 0) P(ui* X i ) 1 F ( X i )
P (Yi 1 ) * 其中 为机会概率比(简称机会比), P(Yi 1) P(Yi 0 ) P(ui* X i ) 1 F ( X i ) 1 P (Yi 1) e xp(X i ) 即事件发生与不发生所对应的概率之比。 F ( X i ) 1 e xp(X i )
1 X i ui Yi X i X i
Yi 1 Yi 0
E(ui ) 0 Xi 1 X i ui 随机干扰项ui的方差为 概率2 1-Pi 2 Pi 2 E(ui ) ( X i ) (1 P ) (1 X ) P i i i P i (1 P i)
i 1
N
如果是极值分布,则对数似然函数为
Probit模型、 Extreme 模型的最大似然估计就是使 上式有最大值时的 。具体求解过程这里不再赘 述。
需要指出的是,不同的分布假设虽然给参数估 计带来了很大的不同,但对于研究者,他们所感兴 趣的估计效应则没有太大的差别。
例1 考虑Greene给出的斯佩克特和马泽欧(1980) 的例子。
于是我们选择F不同的形式得到不同的经验模型
(*)
f ( X i ) Yi f ( X i ) ln L N (1 Yi ) Xi 1 F ( X i ) F ( X i ) i 1
(*)
一、 Logit模型的最大似然估计 对于Logit模型,我 们有: e xp(x ) Λ( x ) 分布函数 F ( x ) 1 e xp(x )
第一节 线性概率模型 一、线性概率模型形式 设家庭购买住房的选择主要受到家庭收入水平的影
响,则用如下模型表示
Yi 0 1 X i ui
i 1,2,, N
其中:Xi为家庭的收入水平,Yi为家庭购买住房的选择
1 已购买了住房 Yi 0 没有购买住房
Yi 0 1 X i ui
i 1,2,, N
Pi P (Yi 1) 令 那么 1 Pi P(Y i 0) 家庭选择购买住房的概率是解释变量 -家庭收入的一 个线性函数。我们称这一关系式为线性概率函数。 被解释变量 Yi 的分布为
Yi 概率 0 1-Pi 1 Pi
于是 E(Yi ) 1 P(Yi 1) 0 P(Yi 0) Pi 又因为 E (ui ) 0 所以
则有 Yi* X i ui* 格林称该模型为潜回归
* Y X i ui 作为研究对象的二元选择模型 * i
这是二元选择模型的切入点。称Yi*为潜在变量。
这个变量是不可观测的。
当效用差Yi*大于零,则Yi 应该选 “ 1 ”
当效用差Yi*不大于零,则Yi 应该选 “ 0 ”
i 1
N
概率
1-Pi
Pi
(1 Pi )
i
Pi
i
ln L (1 Yi ) ln1 F ( X i ) Yi lnF ( X i )
i 1
N
对数似然函数最大化的条件是
f ( X i ) Yi f ( X i ) ln L N (1 Yi ) Xi 1 F ( X i ) F ( X i ) i 1
是二元离散选择模型最关键的问题。 我们假设有以Y 轴为对称的概率密度函数f(.),则
P(Yi 1) 1 F ( X i ) F ( X i )
P(Yi 0) F ( X i ) 1 F ( X i )
于是模型的似然函数为
P(Y1,Y2, Yn ) [1 F ( X i )] F ( X i )
很明显,我们要得到事件发生的概率就必须知 道随机干扰项ui*的概率分布,通常假定ui*服从下列 二种分布,于是我们便得到了Logit 、 Probit模型: 逻辑分布
相关文档
最新文档