离散选择模型完整版
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
离散选择模型
HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】
第五章离散选择模型
在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。
我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。
本章主要介绍以下内容:
1、为什么会有离散选择模型。
2、二元离散选择模型的表示。
3、线性概率模型估计的缺陷。
4、Logit模型和Probit模型的建立与应用。
第一节模型的基础与对应的现象
一、问题的提出
在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。
1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。
例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。
由离散数据建立的模型称为离散选择模型。
2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。
例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。
这种类型的数据成为审查数据。
再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。
这两种数据所建立的模型称为受限被解释变量模型。
有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。
下面是几个离散数据的例子。
例研究家庭是否购买住房。
由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住
房的心理价位很难观测到,但我们可以观察到是否购买了住房,即
我们希望研究买房的可能性,即概率(1)P Y =的大小。
例 分析公司员工的跳槽行为。
员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。
员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即
例 对某项建议进行投票。
建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即
研究投票者投什么票的可能性,即(),1,2,3P Y j j ==。
从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。
本章主要介绍二元离散选择模型。
离散选择模型起源于Fechner 于1860年进行的动物条件二元反射研究。
1962年,Warner 首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。
70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。
模型的估计方法主要发展于20世纪80年代初期。
(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页)
二、线性概率模型
对于二元选择问题,可以建立如下计量经济模型。
1、线性概率模型的概念
设家庭购买住房的选择主要受到家庭的收入水平,则用如下模型表示
其中,i X 为家庭的收入水平,i Y 为家庭购买住房的选择,即
由于Y 是取值为0和1的随机变量,并定义取Y 值为1的概率是p ,则Y 的分布为 即随机变量Y 服从两点分布。
根据两点分布,可得Y 的数学期望为
显然
从而 12(|)i i E Y X X p ββ=+=
(5-1)
上述数学模型的经济学解释是,因为选择购买住房变量取值是1,其概率是p ,并且这时对应p 的表示是一线性关系,因此,Y 在给定i X 下的条件期望()i E Y X 可解释为在给定i X 下,事件(家庭购买住房)将发生的条件概率为(1)i i P Y X =,亦即家庭选择购买住房的概率是家庭收入的一个线性函数。
我们称这一关系式为线性概率函数。
由于,Y 服从两点分布,所以,Y 的方差为
2、线性概率函数的估计及存在的问题
对线性概率函数直接运用OLS
估计,会存在以下困难。
(1)随机误差项的非正态性
表现 表明i u 服从两点分布。
而在经典计
量经济学中,假定i u 服从正态分布。
(2)i u 的异方差性。
事实上,根据i u 服从两点分布
则i u 的方差为()(1)i i i Var u p p =-。
表明i p 随着i 的变动是一个变量,则i u 的方差不是一个固定常数。
(3)利用加权最小二乘法修正异方差
取权数为
具有同方差。
在具体估计线性概率模型时,用ˆi
Y 作为p 的估计来计算权数w 的估计w
ˆ。
3、可决系数2R 的非真实性。
由于,被解释变量Y 只取值1或0,不可能有估计的线性概率模型能很好地拟合这些点,所以,这时计算的2R 会比1小许多,在大多数例子中,2R 介于与之间。
4、0≤()i i E Y X ≤1不成立。
克服这一问题可直接从对线性概率模型的估计,求出ˆi Y ,用人工的方法定义当ˆi Y >1时,取ˆi Y =1;当ˆi Y <0时,取ˆi
Y =0。
但要比较好地解决这类问题,只能考虑采用新的估计方法,这就是将要介绍的Logit 模型和Probit 模型。
第二节 Logit 模型
一、Logit 模型的产生
1、产生Logit 模型的背景
由上述介绍可知,对于线性概率模型来说,存在一些问题,有的问题尽管可以用适当的方法加以弥补,但并不完善和理想。
(1)古典假定不再成立,如存在异方差性,可用加权OLS 方法加以弥补。
(2)在线性概率模型中,对于不满足0≤()i i E Y X ≤1的情况,用人工的方法处理,即
当ˆi Y >1时,取ˆi
Y =1 当ˆi Y <0时,取ˆi
Y =0 虽然能够弥补不足,但仍然具有较强的主观因素。
(3)经济意义也不能很好地得到体现。
在线性概率模型12(|)i i E Y X X p ββ=+=中,概率(1)P Y =会随着i X 的变化而线性变化,但这与实际情况通常不符。
例如购买住房,通常收入很高或很低,对于购买住房的可能性都不会有太大的影响,而当收入增加很快时,对购买住房的影响将会很大。
所以,购买住房的可能性与收入之间并不是线性关系,有可能是一种非线性关系。
2、Logit 模型的含义
综合上述讨论,我们所需要的是具有如下二分性质的模型。
(1)随着i X 的减小,i p 趋近0的速度会越来越慢;反过来随着i X 的增大,i p 接近1的速度也越来越慢,而当i X 增加很快时,i p 的变化会比较快。
故i p 与i X 之间应呈非线性关系。
(2)并且由概率的属性,i p 的变化应始终在0和1之间。
因此,一个很自然的想法是采用随机变量的分布函数来表示i p 与i X 的这种非线性关系。
从几何图形看,所需要的模型有点像图那样,概率位于0与1之间,并随着i X 非线性地变化。
图 一个累积分布函数的图形
形如图所示的S 型曲线,就是随机变量的一个累积分布函数(CDF )。
因此,当回归中的被解释变量是取0和1的二分变量时,并且概率值的变化与解释变量i X 之间有上述变化特征,则可用CDF 去建立回归模型。
在二分被解释变量的研究中可使用多种分布函数(Cox ,1970)来表示。
但最常用的是Logistic 分布函数和标准正态分布函数,前者导出Logit 模型,后者导出Probit 模型。
(3)Logistic 分布函数
设 12()11()11i i i i z X p F z e e
ββ--+===++ (5-2) 式中,12i i Z X ββ=+。
并且在该表达式中,有如下变动规律,
当i Z →+∞时,1i p →;
当i Z →-∞时,0i p →;
当0i Z =时,12
i p =。
称(5-2)式为Logistic 分布函数,它具有明显的S 型分布特征。
(4)Logit 模型
以下是由Logistic 分布函数导出Logit 模型。
其中,1i i
p p -为机会概率比(简称机会比,下同),即事件发生与不发生所对应的概率之比。
称(5-3)式为Logit 模型。
3、Logit 模型的特点
(1)随着P 从0变到1,ln()1p p
-从-∞变到∞(亦即i Z 从-∞变到∞)。
可以看出,在LPM 中概率必须在0与1之间,但对Logit 模型并不受此约束。
(2)ln()1p p
-对i X 为线性函数。
(3)当ln(
)1p p -为正的时候,意味着随着i X 的增加,选择1的可能性也增大了。
当ln()1p p
-为负的时候,随着i X 的增加,选择1的可能性将减小。
换言之,当机
会比由1变到0时,ln()1p p
-会变负并且在幅度上越来越大;当机会比由1变到无穷时,ln()1p p
-为正,并且也会越来越大。
4、Logit 模型与线性回归模型的区别
(1)Logit 模型为非线性模型,尽管等式右端看上去是线性形式,而普通回归模型是线性模型。
(2)线性回归模型研究被解释变量Y 的均值(|)i E Y X 与解释变量i X 之间的依存关系,而Logistic 分布函数研究的是事件发生的概率(1|)i P Y X =与解释变量i X 的依存关系。
(3)线性回归模型中包含随机误差项i u ,对i u 的要求是要满足基本假定,而Logistic 分布函数没有出现随机误差项,对模型没有这样的要求。
(4)在估计Logit 模型时,要求数据必须来自于随机样本,即各观测值相互独立,或者说要求样本分布与总体分布具有同一性,而对线性回归模型一般情况下并无这样严格的要求。
此外,Logit 模型与线性回归模型的一个相同的要求是,解释变量之间要无多重共线性,否则,会导致参数估计的方差变大和不稳定。
二、Logit 模型的估计
为了估计Logit 模型,除了i X 外,我们还应有ln()1p p
-的数值。
由于i p 只取值为1和0(即事件发生或不发生,如买房或不买房),使得ln(
)1p p -无意义,通常情况下,i p 没有具体的数据,所以直接对Logit 模型进行估计有困难。
这时,可有以下估计方法。
1、根据数据类型选用OLS 方法
可通过市场调查获得分组或重复数据资料,用相对频数ˆi i i
r p n =作为i p 的估计。
以购买住房为例,将购买住房的情况分组,假设第i 组共有i n 个家庭,收入为i X ,其中有i r 个家庭已购买住房,其余未购买。
则收入为i X 的家庭,购买住房的频率为 将其作为i p 的估计,并代入对数机会比,有
于是,样本回归函数为
对上式可直接运用OLS 法估计未知参数了。
具体应用可参见Damodar N. Gujarati 《计量经济学基础》(第四版)下册,中国人民大学出版社,2005年。
第559页-第560页。
2、最大似然估计方法
在线性回归中估计总体未知参数时主要采用OLS 方法,这一方法的原理是根据线性回归模型选择参数估计,使被解释变量的观测值与模型估计值之间的离差平方值为最小。
而最大似然估计方法则是统计分析中常用的经典方法之一,它是建立在由联合密度函数所导出的似然函数,并对其求极值而得到参数估计的一种方法。
在线性回归分析中最大似然估计法可以得到与最小二乘法一致的结果。
但是,与最小二乘法相比,最大似然估计法既可以用于线性模型,又可以用于非线性模型,由于Logit 回归模型是非线性模型,因此,最大似然估计法是估计Logit 回归模型最常用的方法。
下面,以单变量为例,说明该方法的运用。
假设有n 个样本观测数据(,),1,2,,i i X Y i n =,由于样本是随机抽取,所以,在给定i X 条件下得到的1i Y =和0i Y =的概率分别是i p 和1i p -。
于是,一个观测值的概率为
其中,1i Y =或0i Y =。
因为,各项观察相互独立,则n 次观察所得的样本数据的联合分布可表示为各边际分布的连乘积
称上式为n 次观察的似然函数。
由最大似然估计法的原理知,最大似然估计就是求解出具有最大可能取所给定的样本观测数据的参数估计。
于是,最大似然估计的关键是
估计出1
ˆβ和2ˆβ,使得上述表达式取得最大值。
将上式两端取对数得
称上式为对数似然函数。
为了估计能使[]12ln (,)L ββ有最大的总体参数估计1
ˆβ和2ˆβ,先分别对12,ββ求偏导数,然后令其为0,得
在线性回归中,似然函数是通过把偏离差平方和分别对12,ββ求偏导数得到,它对于未知参数都是线性的,因此,很容易求解。
但是对于Logit 回归中的上述两个方程是关于12,ββ的非线性函数,求解十分困难。
随着现代计算机技术的发展,许多计量经济学和统计学的软件包均有Logit 回归的参数最大似然估计值,常用的EViews 软件就含有该估计方法。
3、Logit 回归最大似然估计的统计性质
(1)参数估计具有一致性,即当样本观测增大时,模型的参数估计值将比较接近参数的真值。
(2)参数估计为渐近有效,即当样本观测增大时,参数估计的标准误相应减小。
(3)参数估计满足渐近正态性,即随着样本观测的增大,估计的分布近似于正态分布。
这意味着,可以利用这一性质对未知参数进行假设检验和区间估计了。
有关证明可参见Aldrich, John & Forrest D. Nelson. 1984. Linear
Probability, Logit, and Probit Models. Newbury Park, Sage Publications. 三、Logit 回归模型的评价和参数的统计检验
与一般线性回归模型一样,在得到Logit 回归模型的参数估计后,还应对模型进行评价和相应的统计检验。
1、模型的拟合优度检验
模型估计完成以后,需要对模型是否有效地描述了模型与观测数据的匹配程度进行评价。
如果模型的预测值(拟合值)能够与对应的观测值有较高的一致性,就认为该模型能拟合数据,否则,将不接受这一模型。
对Logit 回归模型的评价有多种方法,不同的计算软件给出的评价结果也有差异。
这里,我们将根据EViews 软件,介绍模型拟合优度的检验方法。
(1)McFadden 2R
在前面的介绍中,已经提到对于离散选择模型,通常的拟合优度2R 没有多大意
义。
在EViews 软件里,有一种方法即McFadden 2R ,简记为2McF R 。
其计算公式为
式中,ur LIF 为模型中包含所有解释变量的无约束对数似然函数值,r LIF 为模型中仅
含有截距项的有约束的对数似然函数值。
从概念上讲,ur LIF 和r LIF 分别等价于普通
线性回归模型中的RSS 和TSS 。
2McF R 与2R 一样,也在0到1之间变动。
(2)期望-预测表检验
该方法的原理是,在模型参数估计后,选取适当的截断值(01)p p <<,将观测数据分成两组,一组为1/(1)Z e -+≤p ,另一组为1/(1)Z e -+>p ,其中,
12ˆˆi i
Z X ββ=+。
如果样本中的一个观测数据Y 的数值为0,并且该样本属于第1组,同时另一个观测数据Y 的数值为1,并且属于第2组,就称这个观测数据是分组恰当的,否则就称这个观测数据是分组不恰当的。
该方法的思想是利用分组恰当与否,得到观测数据占总样本的比重来检验模型的拟合优度。
如果模型估计与实际观测数据比较一致,则大多数的观测数据应该是分组恰当的,反之,如果分组不恰当的观测数据所占的比重很大,说明模型估计与实际观测数据的拟合程度较差,模型就需要调整。
利用软件EViews 进行期望-预测表检验的步骤如下:
第一步,在估计好模型的窗口中按此路径选择View/Expectation Prediction Table 。
第二步,出现一个对话框,在对话框里输入一个截断值(01)p p <<,系统默认的截断值是。
通常情况下,可取i Y 为1的次数在总观测次数中所占的比例作为截断值的估计值。
第三步,点击OK 后可生成对应的期望-预测表。
这时便可利用该表进行拟合优度的判断。
有关Logit 回归模型的拟合优度其它检验方法,如皮尔逊2χ检验、偏差检验、Hosmer Lemeshow -拟合优度指标和信息测量指标等。
可参见相关文献,如王济川、郭志刚,Logistic 回归模型——方法与应用,高等教育出版社,2001年,第58页——第89页。
2、参数的显着性检验
对模型中参数的显着性检验,就是决策判断某个解释变量对事件的发生(即选取1Y =)是否有显着性影响。
如果检验结果表明该解释变量对选取1Y =的发生有显着
性影响,则认为将该解释变量放入Logit 回归模型中是恰当的。
否则,需要对模型进行适当的调整。
(1)Z 检验
以一元Logit 回归模型为例,设模型为
对该模型中的参数2β的显着性检验的原假设为02:0H β=,即解释变量i X 对事件1Y =发生的概率没有显着性影响。
根据参数的最大似然估计性质可知,在大样本条件
下,2
ˆβ渐近服从正态分布,于是,在02:0H β=成立的前提下,检验统计量为 渐近服从标准正态分布。
式中,2ˆ()se β为最大似然估计2
ˆβ的标准误差。
因此,可按常规查标准正态分布表,对原假设进行判断,从而检验模型中参数的显着性。
(2)Wald 检验
对模型中参数显着性检验还可使用Wald 检验,其检验统计量为
在02:0H β=下,W 渐近服从自由度为1的2χ分布。
因此,可根据2χ分布表,在给定的显着性水平α下,得到相应的临界值,从而判断参数的显着性。
可参阅Hauck, W. W. & A. tests as applied to hypotheses in logit analysis. Journal of the American Statistical Association,:851-853.
(3)似然比检验
统计学上已经证明,在大样本情况下,两个模型之间如果具有嵌套关系,则两个模型之间的对数似然值乘以-2的结果之差近似服从2χ分布。
这一统计量就是似然比统计量。
该检验的思想是,假设一个模型记为1Model 中有解释变量j X ,另一个模型记为2Model 包含了1Model 中所有其它解释变量,而没有包含j X ,则称2Model 嵌套于1Model ,亦即1Model 中包含了2Model 。
通过这一模型之间嵌套关系,我们实际上需要判断的是j X 出现在模型1Model 中是否合适。
Hanushek & Jackson ,1977; Aldrich & Nelso, 1984; Greene, 1990; Long, 1997分别证实了似然比统计量为
其中,mod 1ˆln()el L 为所设定的原模型(即包含了所有解释变量——“有约束”)的最大
似然函数的对数值, mod 2ˆln()el L 为省略模型(即省略了解释变量
j X ——“无约束”)的最大似然函数的对数值,两者之间的差乘以-2近似地服从2χ分布,其自由度为省
略了的解释变量的个数。
接下来,可根据2χ分布表,在给定的显着性水平α下,得到临界值,从而判断参数的显着性。
例分析某种教学方法对成绩影响的有效性,被解释变量GRADE为接受新教学方法后成绩是否改善,如果改善取1,否则取0;GPA为平均分数;TUCE为测验得分;PSI为是否接受新教学方法,如果接受取1,否则取0。
运用EViews软件中Logit模型估计方法得到如下结果
1、由表格写出估计表达式
2、参数的显着性检验
包括截距项在内的4个参数估计的标准差分别为
它们的z统计量分别是
给定0.05
α=,表明除了变量TUCE外,其它两个变量对机会比均有显着性的正影响。
3、模型的显着性检验
(1)由计算表格知,拟合优度指标20.3743
McF
R=,表明模型有一定的拟合优度。
(2)期望-预测表检验。
因为,接受新方法成绩有所改善的比例为%,所以选取截断值为。
在建好模型的窗口按前述的路径得到如下结果
由上表可知,左边给出的是对观测数值分组的结果,归入第1组的观测数值共为19个,其中,分组恰当的为17个,分组不恰当的为2个,即对被解释变量0
Y=的观测
数值(总共21个)来讲,模型分组恰当的比率为%(17
21
);归入第2组的观测数值
为13个,其中,分组恰当的为9个,分组不恰当的为4个,即对被解释变量1
Y=的
观测数值(总共11个)来讲,模型分组的恰当比率为%(
911);由此得到模型所有观测数值总的分组恰当比率为%(2632
),说明估计的模型有较好的拟合优度。
四、Logit 模型回归系数的解释
由前面的推导可知,将事件发生的条件概率定义为(1|)i i P Y X p ==,则我们可得到如下模型 12()121
1(1|)11exp()i i X i P Y X e X ββββ-+===++-- (5-3)
进一步,在发生比的基础上,我们还可得到如下模型 12ln()1i i i
p X p ββ=+- (5-4) 对模型(5-4),由于等式右端为线性表示,则可完全按照线性回归模型系数那样来解释。
一个解释变量的作用如果是增加对数发生比的话,也就增加了事件发生的概率。
具体来讲, Logit 模型的系数如果是正的并且统计显着,则在控制其它变量的情况下,对数发生比随对应的解释变量值增加而增加,相反,一个显着的负系数代表对数发生比随对应解释变量的增加而减少。
如果系数的统计性质不显着,说明对应解释变量的作用在统计上与0无差异。
1、按发生比率来解释Logit 模型的系数
对Logit 模型的回归系数进行解释时,很难具体把握以对数单位测量的作用幅度,所以通常是将Logit 作用转换成对应的发生比来解释。
设模型为
转换成发生比的形式(还原成以e 为底的指数函数)
12211i i X X i i
p e e e p ββββ+==⨯- (5-5) 式中,截距1β可以作为基准发生比的对数。
基准的意思是指当Logit 模型中没有任何解释变量时所产生的发生比。
或者,除了常量外,所有解释变量都取0值时所产生的发生比。
对于解释变量的作用的解释,由(5-5)式看出,各项作用之间已经由加法的关系转变为乘法关系。
因此,系数2β的作用可解释为,当2β为正值时,2e β将大于1,则在其它条件不变的情况下,i X 每增加一个单位值时发生比会相应增加;当2β为
负值时,2e β将小于1,说明i X 每增加一个单位值时发生比会相应减少;而当2β为0时,2e β将等于1,那么i X 不论怎样变化发生比都不会变化。
例如,在新教学方法采纳的分析中,已估计的方程可按指数运算法则转变为 由上述表达式可以看出,由于GPA>0,则 2.82611e >,因此,在其它条件不变的情况下,平均分数每增加一个单位,将导致接受新教学方法后成绩有所改善的发生比会相应提高。
同理,对于变量TUCE 也可作类似的讨论;由于PSI 为虚拟解释变量,表示是否接受新教学方法,如果接受取1,否则取0,因此,在其它条件不变的情况下,当PSI=1时,则将会使接受新教学方法后,学习成绩改善的发生比有所提高,而当PSI=0时,则将会使接受新教学方法后,学习成绩改善的发生比保持不变。
2、用概率来解释Logit 模型的系数
除了解释变量对于对数发生比的偏作用外,有时也用事件发生的概率来解释模型中系数的偏作用。
对事件发生概率的偏作用可以通过对Logit 模型
求i X 的偏导数来加以解释。
其求导结果如下
于是,变量i X 对事件发生概率的偏作用就等于该解释变量的系数2β与(1)p p -的乘积。
因为(1)p p -永远为正值,所以偏作用的符号由2β决定,作用的幅度依赖于2β的幅度和对应于i X 特定值的概率,而它与模型中所有其它解释变量有关。
因此,不同于对发生比作用的解释,对事件发生概率的偏作用是随p 值的变化而变化的。
这就需要在讨论变量i X 对事件发生概率的偏作用时,应将概率p 值计算出来后,才能解释其偏作用。
3、预测概率
与一般线性回归模型一样,根据Logit 模型也可以获得事件发生的预测概率。
以
一个解释变量的Logit 模型为例,如果我们知道参数估计1
ˆβ和2ˆβ,并确定某一事件的(1,2,,)i X i n ≠,便可将其代入Logit 模型,计算预测概率。
计算公式为
在计算预测概率的基础上,还进一步计算在解释变量发生离散变化时预测概率的变化,这种方法被称为概率离散变化法。
其计算公式是
另外,与一般线性回归模型一样,由一个解释变量的Logit 模型也可扩展到多个解释变量的Logit 模型,见下式
相应的对数发生比为
类似多元线性回归模型,在Logit 模型中,由于多个解释变量可能会以多个不同的尺度加以测量,这个时候要直接对比不同解释变量对发生比的影响是不行的,因此,需要对解释变量进行标准化变换,将解释变量和被解释变量由非标准化变量转换为标准化变量,从而,才直接对比各个解释变量对发生比的影响大小。
其变换方法与多元线性回归模型一样。
可参见王济川、郭志刚,Logistic 回归模型——方法与应用,高等教育出版社,2001年。
第115页-第117页。
第三节 Probit 模型
一、Probit 模型及参数估计
在前面已经看到,由S 型曲线,可分别得到累积分布函数和标准正态分布函数,对于后者可建立一个二元选择的Probit 模型。
单一解释变量i X 的Probit 模型为 式中(),()z z ϕΦ分别为标准正态分布的分布函数和密度函数。
与Logit 模型的参数估计相似,对Probit 模型的参数估计也可采用最大似然估计方法。
有的教科书还介绍了一种运用效用行为选择理论建立Probit 模型,并采用群组数据对Probit 模型的参数应用OLS 方法进行估计(参见Damodar 《计量经济学基础》(第四版)下册,中国人民大学出版社,2005年,第569页-573页)。
这里我们仅根据计算软件EViews 的功能,介绍最大似然估计法对Probit 模型参数的估计。
在样本分布与总体分布一致的前提下,按随机抽样原则抽取样本,对n 个样本(,)1,2,,i i X Y i n =,建立对数似然函数
上述模型的最大似然估计就是使该表达式有最大值时的12ββ、的估计1
ˆβ、2ˆβ。
具体求解过程这里不再赘述。
例 在前述新教学方法的例子里,运用EViews 软件里的Probit 模型估计方法得到如下结果
写出具体表达式为
关于系数的解释可以从两个方面考虑。
1、用预测概率的方法
2、对概率的边际作用。