第八讲 离散因变量模型(LPM,Probit,Logit)
第八讲离散因变量模型LPM,Probit,Logit

E ( y i X i) 1 P 0 ( 1 P ) F ( X i )
YE(YX)
总体回归模型
样本回归模
YF(XB) y 型i F (X iB )i( i 1 ,2 ......n )
(三) 二元选择模型随机误差项及斜率
对于回归模型: yi F(XiB)i
E ( i ) 1 F ( X i B ) F ( X i B ) F ( X i B ) 1 F ( X i B ) 0
-.0050766 -6.326276
-486.509
Interval]
1.359199 5.373068 1.593967
(3)得到估计式: 注:括号里是p值。
ln (1 p p ) 2 4 2 .4 5 7 6 0 .6 7 7 1 S c o re 0 .4 7 6 6 D 1
(0.052) (0.052)
数据来源?根据全国粮食生产的区域布局分别从东北华北华中和西南四个区域采用分层随机抽样的方法分别选取辽宁省的辽阳县山东省的桓台县湖南省的南县和广西的马山县4个县40个乡镇80个村400个农户的样本主要针对农民粮食生产技术的需求和采用行为进行调查内容涉及县乡村各级的社会经济基本情况和农户特征技术需求技术采用等方面的内容以及县乡两级农业技术推广部门情况
LPM的估计方法:OLS
➢ 线性概率模型存在的问题及适用性
随机误差项是异方差:Var(i)pi(1pi)
办法:可用WLS估计。 ❖拟合值可能不在0-1之间,有可能大于1或小于0:
办法:强令预测值相应等于0或1 进行约束估计。
1
X iB 1
y y *
i
i 0 XiB1
0
XiB 0
LPM在实际的回归当中应用很少,用于理论模型的比较。
第八章 离散因变量模型

第八章离散因变量模型离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables)分为二元选择模型(Binary Choice Models)和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models)。
在多类别选择模型中,根据因变量的反应类别(response category)是否排序,又分为无序选择模型(Multinominal Choice Models)和有序选择模型(Ordered Choice Models)(也称有序因变量模型Ordered Dependent Variable Models、有序类别模型Ordered Category Models等)一、二元选择模型设因变量1、线性概率模型(LPM模型)如果采用线性模型,给定,设某事件发生的概率为P i,则有所以称之为线性概率模型。
不足之处:1、不能满足对自变量的任意取值都有。
2、3、所以线性概率模型不是标准线性模型。
给定,为使,可对建立某个分布函数,使的取值在(0,1)。
2、Logit模型(Dichotomous/ Binary Logit Model)Logit模型是离散(分类)因变量模型的常用形式,它采用的是逻辑概率分布函数(Cumulative Logistic Probability Function)(e为自然对数的底),逻辑曲线如图4-1所示。
其中,二元Logit模型是掌握多类别Logit模型的基础。
图4-1 逻辑曲线(Logit Curve)以二元选择问题为例,设因变量有0和1两个选择,由自变量来决定选择的结果。
为了使二元选择问题的研究成为可能,首先建立随机效用模型:令表示个体i选择=1的效用,表示个体i选择=0的效用,显然当时,选择结果为1,反之为0。
将两个效用相减,即得随机效用模型:,记为(4-1)当时,,则个体i选择=1的概率为:若的概率分布为Logistic分布,则有即(4-2)式(4-2)即为最常用的二元选择模型——Logit模型。
probit模型与logit模型

probit模型与lo git模型2013-03-30 16:10:17probit模型是一种广义的线性模型。
服从正态分布。
最简单的pr obit模型就是指被解释变量Y是一个0,1变量,事件发生地概率是依赖于解释变量,即P(Y=1)=f(X),也就是说,Y=1的概率是一个关于X的函数,其中f(.)服从标准正态分布。
若f(.)是累积分布函数,则其为Log istic模型Logit模型(Logitmodel,也译作“评定模型”,“分类评定模型”,又作Logi sticregres sion,“逻辑回归”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、市场营销等统计实证分析的常用方法。
逻辑分布(Logist ic distri butio n)公式P(Y=1│X=x)=exp(x’β)/1+exp(x’β)其中参数β常用极大似然估计。
Logit模型是最早的离散选择模型,也是目前应用最广的模型。
Logit模型是Luc e(1959)根据IIA特性首次导出的;Marsch ark(1960)证明了Log it模型与最大效用理论的一致性;Marley (1965)研究了模型的形式和效用非确定项的分布之间的关系,证明了极值分布可以推导出Logi t 形式的模型;McFadd en(1974)反过来证明了具有Log it形式的模型效用非确定项一定服从极值分布。
此后Logi t模型在心理学、社会学、经济学及交通领域得到了广泛的应用,并衍生发展出了其他离散选择模型,形成了完整的离散选择模型体系,如Probi t模型、NL模型(Nest Logitmodel)、MixedLogit模型等。
模型假设个人n对选择枝j的效用由效用确定项和随机项两部分构成:Logit模型的应用广泛性的原因主要是因为其概率表达式的显性特点,模型的求解速度快,应用方便。
第八讲 离散因变量模型(LPM,Probit,Logit)

= F ( X i B) [1 − F ( X i B)]
∂E ( yi X i ) ∂F ( X i B ) ∂P r= = = 斜率: 斜率: ∂x j ∂x j ∂x j dF ( X i B ) ∂ ( X i B ) = = f ( X i B)β j d ( X iB) ∂x j
分布函数F的选取 (四) 分布函数 的选取
选取分布函数F的原则: 选取分布函数 的原则: 的原则
0 ≤ F ( X i B) ≤ 1
X iB → +∞
F ( X i B) → 1
X i B → −∞
F是单调函数 是单调函数
F ( X i B) → 0
按照上述原则F取作累计分布函数。 按照上述原则 取作累计分布函数。 取作累计分布函数 下面介绍三种不同分布函数下的计量模型: 下面介绍三种不同分布函数下的计量模型: LPM, Probit, Logit
注:括号里是p值。 括号里是 值
p ln( ) = −242.4576 + 0.6771Score − 0.4766 D1 1− p
(0.052) (0.052) (0.873) 值进行判断, (4)检验:可以直接根据括弧里的 p 值进行判断,也可以 )检验: 利用正态分布表查临界值进行检验。 利用正态分布表查临界值进行检验。
E ( yi X i )
P( yi = 0 X i ) = 1 − pi
= 1* P( yi = 1 X i ) + 0 * P( yi = 0 X i ) = 1 ∗ pi + 0 ∗ (1 − pi ) = pi
yi = E ( yi X i ) + ε i = pi + ε i = X i B + ε i
离散因变量演示文稿

二、Probit模型
当我们用逻辑分布函数去拟合S曲线时,得到Logit模型, 而当我们用正态分布函数去拟合S曲线时,而得到Probit 模型。Probit模型的具体形式为:
Pi F (0 1xi )
1
e dt 0 1xi t2 / 2
2
将其转化为线性模型,则为: F 1(Pi ) 0 1xi
离散因变量演示文稿
(优选)离散因变量
离散因变量模型应用
离散因变量模型应用
对于离散型因变量,使用普通最小二乘模型是不适宜
的,建议对于此类因变量使用非线性函数。事件发生
的条件概率 P(yi 1 xi) 与 xi 之间的非线性通常单调函数,
即随着 的增xi 加
P(yi 单1调xi) 增加,或者随着的 减少xi
和Probit模型。
离散因变量模型应用
一、logistic模型
Logistic模型,即逻辑模型是由Verhulst在1945年提出, 最早被用来描述生物生长规律(逻辑成长率)。现在 已经在经济与金融计量中得到广泛应用。它的具体形 式为:
Pi
E( yi
xi )
1 e(0 1xi )
这一函数表达的是一条S曲线。
Pi
1
O
i
逻辑曲线
0 1xi
离散因变量模型应用
逻辑模型的估计,由于
Pi 1 Pi
1/1 e(0 1xi )
e /1 e (0 1xi )
(0 1xi )
e0 1xi
ln Pi 1 Pi
0
1xi
Pi
式中, 1 Pi 称为机会差异比,即所研究事件“发生”与 “不发生”的概率之比。
离散因变量模型应用
离散选择模型

Yi 0 1GPAi 2 INCOMEi ui
其中:
1 Yi 0
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPA=第i个学生本科平均成绩 INCOME=第i个学生家庭年收入(单位:千美元)
设回归结果如下(所有系数值均在10%水平统计上显著):
ˆ Yi 0.7 0.4GPAi 0.002 INCOMEi
yi 0 yi 1
函数可以简化为:
L (1 F ( X ))1 yi F ( X ) yi
yi 1
对方程左右取对数我们便得到:
ln L [ yi ln F ( X ) (1 yi ) ln(1 F ( X ))]
i 1
n
似然函数为
fi ln L n yi fi [ (1 yi ) ]xi 0 Fi 1 Fi i 1
Pr ob(Y 1 X ) X F ( X ) f ( X ) X
因此我们在遇到二元响应模型时,估计出参数我们不能盲目的 将其解释为:解释变量变动一个单位,相对应的因变量变化参 数个单位。
为了解决偏效应的问题我们引入调整因子的概念。 在上式中的 f ( X ) 我们 便称为比例因子或调整因子,它与全部 的解释变量有关,为了方便起见,我们要找一个适用于模型所有 斜率的调整因子。有两种方法可以解决: (1)用解释变量的观测值计算偏效应的表达式,调整因子为:
四、二元选择模型的估计
1.除了LPM模型以外,二元选择模型的估计都是以极大似然法为基础 的 。由前面的讨论我们知道:
P(Y 1 X ) F ( X )
由此我们可以得到模型的似然函数为:
P(Y1 y1 ,Yn yn X ) (1 F ( X )) F ( X )
离散因变量模型

0.4
0.2
0.0 X
-0.2 280 300 320 340 360 380 400 420
第10章 离散因变量模型
ቤተ መጻሕፍቲ ባይዱ
对 yi = + xi + ui 取期望,
E(yi) = + xi
(2)
下面研究 yi 的分布。因为 yi 只能取两个值,0 和 1,所以 yi 服从两点分布。 把 yi 的分布记为,
1.0
CNORM
CLOGISTIC
(依据(4)式)
= (1- - xi) ( + xi) = (1 - pi) pi = pi - pi2, (抛物线,依据(4)式)
上两式说明,误差项的期望为零,方差具有异方差。当 pi 接近 0 或 1 时,ui 具有较
小的方差,当 pi 接近 0.5 时,ui 具有最大方差(如图)。所以线性概率模型(1)回
10.1 线性概率模型 线性概率模型的形式如下,
yi = + xi + ui
(1)
其中 ui 为随机误差项,xi 为定量解释变量。yi 为二元选择变量。如利息税、 机动车的费改税(燃油税)问题等。设
1, 若 是 第 一 种 选 择 yi 0, 若 是 第 二 种 选 择
1.2 Y
1.0
0.8
归系数的 OLS 估计量具有无偏性和一致性,但不具有有效性。
y
0.25 0.2
1.4 Y
1.2
1.0
0.8
0.15
0.6
0.1
0.4
0.05
x
0.2 0.4 0.6 0.8
1
Var(ui2) = pi - pi2当pi = 0.5时最大
probit模型

Probit模型Probit模型是一种统计学中常用的模型,主要用于处理二分类问题。
它是一种概率模型,与Logistic回归类似,但在一些情况下可以提供更好的拟合效果。
在本文中,我们将介绍Probit模型的基本概念、原理和应用。
1. Probit模型的基本概念Probit模型是一种广义线性模型(GLM),它使用累积标准正态分布的分位函数作为链接函数。
在Probit模型中,我们通常假设一个二分类变量y服从这样的概率分布: $P(y=1|x) = \\Phi(\\beta_0 + \\beta_1x_1 + ... + \\beta_kx_k)$ P(y=0|x)=1−P(y=1|x)其中,$\\Phi(\\cdot)$是标准正态分布的分布函数,$\\beta_0, \\beta_1, ...,\\beta_k$是模型的系数,x1,x2,...,x k是特征变量。
2. Probit模型的原理Probit模型的训练过程通常采用极大似然估计。
给定训练数据集(X,y),通过最大化似然函数来确定模型的系数$\\beta$。
具体地,我们要最大化以下似然函数:$L(\\beta) = \\prod_{i=1}^{n} [P(y_i=1|x_i)]^{y_i} [P(y_i=0|x_i)]^{1-y_i}$ 对数似然函数为: $l(\\beta) = \\sum_{i=1}^{n} [y_i\\log(P(y_i=1|x_i)) + (1-y_i)\\log(P(y_i=0|x_i))]$然后通过迭代优化算法(如梯度下降、拟牛顿法等)来求解最优参数$\\beta$。
3. Probit模型的应用Probit模型在金融领域、医学领域、市场营销等领域都有广泛的应用。
例如,在金融领域,Probit模型常用于信用评分、违约预测等问题;在医学领域,Probit模型可以用于分析疾病的风险因素;在市场营销中,Probit模型可以预测客户的购买意向等。
probit logit 解析表达式

Probit模型和Logit模型都是用于处理二元因变量的统计模型,它们分别基于正态分布和逻辑分布。
以下是这两个模型的解析表达式的简要说明:
Probit模型(Probit Regression):
Probit模型假设因变量Y服从标准正态分布。
在Probit模型中,我们使用最大似然估计法来估计参数。
给定自变量X,因变量Y取1的概率可以表示为:
P(Y=1|X) = Φ(X'β)
其中,Φ()表示标准正态分布的累积分布函数,X'β是线性预测值。
Logit模型(Logistic Regression):
Logit模型假设因变量Y服从逻辑分布。
在Logit模型中,我们也使用最大似然估计法来估计参数。
给定自变量X,因变量Y取1的概率可以表示为:
P(Y=1|X) = 1 / (1 + exp(-X'β))
或者等价地表示为:
P(Y=1|X) = exp(X'β) / (1 + exp(X'β))
其中,exp()表示自然指数函数,X'β是线性预测值。
这两个模型的选择取决于研究者的假设和数据特性。
在实际应用中,Logit模型的使用更为广泛,因为它的计算相对简单且易于解释。
然而,在某些情况下,Probit 模型可能更适合数据,特别是当因变量的潜在分布更接近正态分布时。
probit logit 解析表达式

probit logit 解析表达式摘要:1.简介2.probit 和logit 模型的基本概念3.probit 模型的解析表达式4.logit 模型的解析表达式5.结论正文:1.简介在概率论和统计学中,probit 和logit 模型被广泛应用于二元变量的分析,如成功概率、响应概率等。
这两种模型都可以将概率分布转换为连续的线性函数,便于进行参数估计和模型检验。
本篇文章将详细解析probit 和logit 模型的解析表达式。
2.probit 和logit 模型的基本概念Probit 模型是一种基于正态分布的概率模型,它的基本思想是将二元随机变量{Y = 1, Y = 0}的概率密度函数(PDF)转换为连续的线性函数。
Logit 模型则是基于逻辑斯蒂函数的模型,它的基本思想是将二元随机变量{Y = 1, Y = 0}的累积分布函数(CDF)转换为连续的线性函数。
这两种模型都假设观测到的自变量X 与因变量Y 之间存在线性关系。
3.probit 模型的解析表达式对于probit 模型,假设我们有观测到的自变量X 和二元随机变量Y,其中Y 的概率密度函数(PDF)可以表示为:f_Y(y|x) = N(y|μ_y(x), σ_y^2)其中,μ_y(x) 是Y 的期望,σ_y^2 是Y 的方差。
我们可以通过求解累积分布函数(CDF)的逆函数,得到Y 的累积概率:F_Y(y|x) = Phi((y - μ_y(x)) / σ_y)其中,Φ(·) 是标准正态分布的累积分布函数,σ_y 是Y 的标准差。
将F_Y(y|x) 表示为关于x 的线性函数,即可得到probit 模型的解析表达式。
4.logit 模型的解析表达式对于logit 模型,假设我们有观测到的自变量X 和二元随机变量Y,其中Y 的累积分布函数(CDF)可以表示为:F_Y(y|x) = 1 / (1 + exp(-α(x) * (y - β(x))))其中,α(x) 和β(x) 是关于X 的函数,表示logit 模型的参数。
离散因变量模型课件

离散因变量模型可以处理分类数据,如性别、婚姻状况、学历等;可以分析不 同类别之间的比较和关系;通常采用概率论和统计学方法进行建模和分析。
离散因变量模型的应用场景
市场分析
用于分析市场细分、消费者行 为、品牌选择等,如消费者偏 好分析、市场占有率预测等。
人口学研究
用于分析人口统计数据,如婚 姻状况、生育率、教育程度等 ,可以揭示人口变化趋势和影 响因素。
自变量选择
根据研究目的和理论,选 择与因变量相关的自变量 ,可以是连续或离散变量 。
数据收集和处理
数据来源
确定数据来源,如调查、 数据库等。
数据清洗
对数据进行预处理,如缺 失值填充、异常值处理等 。
数据转换
对数据进行必要的转换, 以满足模型要求。
模型选择与拟合
模型选择
根据研究目的和数据特点,选择合适 的离散因变量模型,如Logit模型、 Probit模型等。
案例三:信用评分模型
总结词
信用评分模型是离散因变量模型在金融领域的典型应用,用于评估个人或企业的信用风 险。
详细描述
信用评分模型是一种常见的离散因变量模型应用,用于评估个人或企业的信用风险。通 过收集个人或企业的信用记录、历史表现和其他相关信息,可以建立信用评分模型,对 个人或企业的信用等级进行评估。这种模型可以帮助金融机构更准确地评估贷款申请人
社会学研究
用于分析社会现象和人类行为 ,如犯罪率、社会阶层、文化 差异等,可以揭示社会规律和 影响因素。
生物学研究
用于分析生物分类、物种分布 、生态平衡等,如物种多样性
分析、生态平衡评估等。
离散因变量模型与其他模型的比较
与连续因变量模型比较
离散因变量模型处理的是分类数据,而连续因变量模型处理 的是连续数据;离散因变量模型通常采用概率论和统计学方 法进行建模和分析,而连续因变量模型可以采用回归分析、 时间序列分析等方法。
logit 和probit模型的系数解释

logit 和probit模型的系数解释Logit和Probit模型是通常在二分类问题中使用的统计模型,这些模型的系数表示了解释变量对于被解释变量的影响程度。
在本文中,我将解释Logit和Probit模型的系数含义,并探讨它们在实际应用中的解释。
首先,我们先来了解一下Logit和Probit模型。
这两种模型都属于广义线性模型(Generalized Linear Models,简称GLM),使用类似的数学形式来描述被解释变量与解释变量之间的关系。
对于一个二分类问题,我们希望找到一个函数f(x)来预测被解释变量y=1的概率P(y=1|x),其中x表示解释变量。
Logit模型将被解释变量与解释变量的关系建模为一个logistic函数,它的数学形式是:P(y=1|x) = 1 / (1 + exp(-z))其中,z = β0 + β1*x1 + β2*x2 + ... + βn*xn表示线性预测器,β0,β1,...,βn表示系数。
这些系数可以表示是模型的"回归系数",它们衡量了解释变量在对被解释变量的影响程度上的贡献。
Logit模型中的系数解释是基于"对数几率比"(log odds ratio)的改变来描述的。
具体来说,系数β1的解释是:当其他解释变量保持不变时,若解释变量x1的值增加一个单位,则被解释变量y=1的对数几率(即log odds)将增加β1个单位。
换句话说,系数β1表示了解释变量x1对于预测y=1的概率的影响程度。
如果β1是正的,表示x1的增加会增加预测y=1的概率,而如果β1是负的,则表示x1的增加会减少预测y=1的概率。
Probit模型的数学表达形式与Logit模型略有不同,它使用了标准正态分布的累积分布函数(CDF)来建模被解释变量与解释变量之间的关系:P(y=1|x) = Φ(z)其中,Φ(z)表示标准正态分布的累积分布函数,z的计算方式与Logit模型相同。
probit logit 解析表达式

probit logit 解析表达式(最新版)目录1.介绍 Probit 和 Logit 模型2.解析 Probit 和 Logit 模型的表达式3.比较 Probit 和 Logit 模型的异同正文Probit 和 Logit 模型是两种常用的概率回归模型,常用于处理二元变量的预测问题。
在这两种模型中,我们都需要解析它们的表达式,以便更好地理解模型的预测机制。
首先,我们来看 Probit 模型。
Probit 模型是一种用于二元响应变量预测的线性模型。
它的表达式可以解析为:Probit(Y=1|X=x) = Φ(β0 + β1X1 + β2X2 +...+ βnXn)其中,Y 代表二元响应变量,X 代表自变量,β0、β1、β2 等为模型参数,Φ为标准正态分布函数的逆函数。
接着,我们看 Logit 模型。
Logit 模型也是一种用于二元响应变量预测的线性模型。
它的表达式可以解析为:Logit(Y=1|X=x) = ln(π1 / π0) = β0 + β1X1 + β2X2 +...+ βnXn其中,Y 代表二元响应变量,X 代表自变量,β0、β1、β2 等为模型参数,π0 和π1 分别为两个类别的概率。
通过比较 Probit 和 Logit 模型的表达式,我们可以发现两者的主要区别在于概率计算的方式。
Probit 模型使用的是标准正态分布函数的逆函数,而 Logit 模型则使用的是对数函数。
此外,Probit 模型的截距项为β0,而 Logit 模型的截距项为 ln(π1 / π0)。
总的来说,Probit 和 Logit 模型都是用于解决二元变量预测问题的有效工具。
probit模型参数含义结果解读

一、前言在统计学和经济学中,probit模型是一种常用的回归分析方法,通常用于解释二元变量的概率分布和参数估计。
本文将对probit模型的参数含义和结果进行解读,帮助读者更好地理解该模型的应用和实际意义。
二、probit模型简介probit模型是一种用于估计离散变量的概率的统计模型。
在经济学中,probit模型常常用于分析二元变量的概率分布,例如一个人是否会购物某种产品、是否会接受某种政策等。
probit模型基于正态分布假设,通过最大似然估计来估计模型参数。
三、probit模型的数学表达probit模型的数学表达可以写为:\[ P(Y=1|X) = \Phi(X\beta) \]\[ P(Y=0|X) = 1 - \Phi(X\beta) \]其中,\( Y \) 表示二元变量的取值,\( X \) 是自变量的矩阵,\( \beta \) 是模型的参数,\( \Phi \) 表示标准正态分布的累积分布函数。
四、probit模型参数含义解读在probit模型中,参数\( \beta \) 的含义通常是解释自变量对因变量的影响。
具体来说,当一个自变量的系数为正时,表示该自变量对因变量的影响是正向的;反之,当系数为负时,表示该自变量对因变量的影响是负向的。
参数的绝对值大小则代表了自变量对因变量的影响程度。
五、probit模型参数结果解读通过最大似然估计得到probit模型的参数估计结果,通常会得到参数的估计值、标准误、Z值和P值。
在解读probit模型参数结果时,通常需要关注以下几个方面:1. 参数估计值:表示模型中自变量对因变量的影响程度。
2. 标准误:表示参数估计的精确程度,标准误越小表示参数估计结果越可信。
3. Z值:表示参数估计值与其标准误的比值,用于检验参数的显著性。
4. P值:表示Z值对应的概率,用于判断参数估计是否显著。
六、实例分析为了更好地理解probit模型参数含义和结果解读,下面通过一个实例进行分析。
计量经济学(probit,logit,异方差问题)

• 联合概率:
n
f ( yi , xi , )
i 1
• 那样的参数beta是合理的?最大化上面这个 联合概率的。
. #;
• 最大化联合概率实际上就是最大化它的对 数(增函数)
n
L [ yi log G( Xi ) (1 yi ) log(1 G( Xi ))] i 1
. #;
系数估计值的含义
• 但logit和probit不是。
• 应该这样比:
n
n
LPM [n1 glogit ( XB)] [n1 g probit ( XB)]
i 1
log it
i 1
probit
• 对probit来说,g(0)=0.4,对logit来说, g(0)=0.25。
0.4 * probit 0.25* logit
var(u | x1, x2...xk ) E(u2 ) 2
. #;
• 看下面的思路
– 估计原模型,得到残差平方和 uˆi2
– 作下面的回归:
uˆi2 0 1x1 2 x2 ...k xk vi
– 去检验这个回归的系数是不是显著?
1 0,2 0,...,k 0
– 现在再使用普通的F检验或者LM检验。
. #;
异方差问题
• (一)异方差的定义 • (二)异方差的影响 • (三)如何在异方差下求OLS估计值的方
差 • (四)如何检验异方差 • (五)如何估计系数?
– 知道h(x) – 不知道h(x)
. #r(u | x1, x2...xk ) 2
同方差假定意味着条件于解释变量,不可观测误差的方差为常数
rˆ
2 ij
uˆ
2 i
S
09离散因变量模型

09离散因变量模型⽬录离散因变量模型要考察⼈们做出某种具体选择的情况及其影响因素时,可把这些离散的定性变量作为因变量进⾏分析,把影响因素作为⾃变量,这样建⽴的模型称之为离散选择模型。
如出⾏交通⼯具选择的情况。
还有⼀种是因变量是以离散计数的⽅式描述的,分析⾃变量对计数因变量的影响所建⽴的模型,称之为计数模型。
如发⽣交通事故的次数。
线性概率模型离散选择模型在⼴义线性模型(generalized linear model)的框架下展开,并依赖结果是两个或多个选择将模型分位⼆项选择、多项选择模型和受限因变量模型离散选择模型主要研究选择结果的概率与影响因素之间的关系,即Prob(事件i发⽣) = Prob(Y=i)=F(影响因素)其中,影响因素可能包含做出选择的主体属性和选择⽅案属性。
如选择何种交通⼯具出⾏,既受到选择主体收⼊程度、⽣活习惯等属性的影响,也收到交通⼯具的价格、便捷性等属性的影响。
⽰例:对影响⼿机购买意向的因素进⾏分析购买意向为定性变量,有两种选择:0表⽰不购买,1表⽰购买。
其影响因素可能有性别、年龄、收⼊、职位、⾏业等诸多因素。
设因变量y表⽰是否购买⼿机,则有y= \begin{cases} 0 & 不购买 \\ 1 & 购买 \end{cases}影响y的因素记为x=(x_1,x_2,\cdots, x_n),根据多元回归的思想,可得y = \beta_0 + \beta_1 x_1+\beta_2 x_2+\cdots +\beta_n x_n + \varepsilon其中,(\beta_1,\beta_1,\cdots, \beta_n)^T=\beta表⽰回归模型中的参数即回归系数,则简化为y = \beta_0 + \beta x + \varepsilon在因变量是离散变量的情况下,不能把\beta_i(i=1,2,\cdots,n)理解为保持其他因素不变的情况下对y的边际影响,因为y的取值为1或0。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2 )
t
12
e
( x2 2)
dx
0.4 0.2 0 -4 -2 0 2 4
累积正态概率分布曲线
Probit曲线和logit曲线很相似。两条曲线都是在pi = 0.5处有拐点, 但logit曲线在两个尾部要比Probit曲线厚。
(1) Probit 模型的设定
yi F ( X i B) i
线性概率模型存在的问题及适用性
随机误差项是异方差:Var ( i ) pi (1 pi )
办法:可用WLS估计。 拟合值可能不在0-1之间,有可能大于1或小于0: 办法:强令预测值相应等于0或1 进行约束估计。
1
y
* i
y
0
i
Xi B 1 0 Xi B 1 Xi B 0
2 2
F ( X i B) 1 F ( X i B)
E ( yi X i ) P F ( X i B) r 斜率: x j x j x j dF ( X i B) ( X i B) f ( X i B) j d ( X i B) x j
(四) 分布函数F的选取
E( yi X i ) 1 P 0 (1 P) F (Xi )
F ( t ) 1 F (t )
Y E (Y X )
总体回归模型
Y F ( XB)
样本回归模 型 F(X y
i
i
B) i (i 1, 2......n)
(三) 二元选择模型随机误差项及斜率
1* P( yi 1 X i ) 0* P( yi 0 X i ) 1 pi 0 (1 pi ) pi
yi E ( yi X i ) i pi i X i B i
xj
对响应概率(p)的偏效应: j LPM的估计方法:OLS
Interval] 1.359199 5.373068 1.593967
score .6770611 d1 -.4766044 _cons -242.4575
(3)得到估计式:
注:括号里是p值。
p ln( ) 242.4576 0.6771Score 0.4766 D1 1 p
(0.052) (0.052)
(0.873)
(4)检验:可以直接根据括弧里的 p 值进行判断,也可以 利用正态分布表查临界值进行检验。
检验假设 H :
0
2
0
p
H0
z
z 1
2 1
表查出的1- 其中 z 为由正态N(0,1)
2
2
分位点。
当=0.1时查表可得 z
1
2
1.65
2
当=0.05时查表可得 z
(2) Probit 模型的边际分析自变量的变化对响应概率(p Nhomakorabea的影响:
dp 1 2Z2 f (Z ) e dZ 2
(1)模型
Y
1
2
Score D1
3
(2)估计:用 logit 法估计。
模型结果:
Logit estimates
Y ( x)
Stata 命令:logit y score d1
Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 97 72.11 0 0.9006
具有以上分布函数的二元选择模型称为Logit模型。
(2) Logit 模型的设定 Z e yi F ( X i B) i F (Z ) ( Z ) Z
1 e
模型 yi ( X i B) i 线性化 pi ( X i B)
eZ f (Z ) F (Z ) ( Z )(1 ( Z )) Z 2 (1 e )
如果选择 F ( X i B) X i B
yi X i B i
yi E( yi X i ) i
E( yi X i ) E( X i B i ) X i B
P( yi 1 X i ) pi
E ( yi X i )
P( yi 0 X i ) 1 pi
第九章 离散因变量模型
实际经济分析当中的离散变量问题 对于单个方案的取舍购买决策、职业的选择、贷 款决策; 对于两个方案的选择。例如,两种出行方式的选 择,两种商品的选择。由决策者的属性和备选方 案的属性共同决定。 农业经济分析当中的离散因变量问题 农民技术采用、农村选举等等
内容
二元选择模型的三类模型介绍 二元选择模型的估计: 二元选择模型的检验: 二元选择模型的应用
2、对Logit模型系数的解释:
p odds ln( ) L ln(odds) 1 p odds j x j x j x j x j
当 xj 增加一个单位时机会比率的增长率为
j
例 1:
南开大学国际经济研究所1999级研究生考试分 数及录取情况见数据表(N = 95)。
对于回归模型: yi F ( X i B) i
E(i ) 1 F ( X i B) F ( X i B) F ( X i B) 1 F ( X i B) 0
Var ( i ) E ( i2 ) 1 F ( X i B) F ( X i B) F ( X i B) 1 F ( X i B)
'
eZ ∵ ( Z ) 1 eZ pi ln( ) XiB 1 pi
得到:
pi ( X i B) e Xi B 1 pi 1 ( X i B)
yi 取1或0
取值范围
Li X i B i
pi 0,1
pi 其中 Li ln 1 pi
机会比率odds
F ( X i B) ( X i B)
Xi B
(2 )
12
e
( x2 2)
dx
模型
yi ( X i B) i
X B 是x的线性函数,Y 是X 的非线性函数
i
Z
pi ( X i B)
1
Xi B
(2 )
12
e
( x2 2)
dx
Zi F ( pi ) X i B i
1
1.96
因为 Z=2.05>1.96,所以score 变量在0.05的显著水平下 对Y的影响是显著的。 (5) 对参数加以解释:
2
0.6771
说明当考生分数增加一分,被录取的机会比率增长率增加0.6771. 另外,是否应届生对录取与否没有显著影响。
3. Probit模型
如果选择
F (t )
选取分布函数F的原则:
0 F ( X i B) 1
X i B
F ( X i B) 1
X i B
F是单调函数
F ( X i B) 0
按照上述原则F取作累计分布函数。 下面介绍三种不同分布函数下的计量模型: LPM, Probit, Logit
1、 线性概率模型(LPM)
LPM在实际的回归当中应用很少,用于理论模型的比较。
2、 Logit 模型
(1) Logit 模型的分布函数 如果选择
eZ 1 1 F (Z ) 1 1 eZ 1 eZ 1 e Z
1 0.8 0.6 0.4 0.2 0 0 5 10 15 20 25 30
Logistic分布函数
定义变量: Y :考生录取为1,未录取为0; SCORE :考生考试分数; D1:应届生为1,非应届生为0。
数据表
obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Y 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 SCORE 401 401 392 387 384 379 378 378 376 371 362 362 361 359 358 356 356 355 354 354 353 350 349 349 348 D1 1 0 1 0 1 0 0 0 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 0 1 obs 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 347 347 344 339 338 338 336 334 332 332 332 331 330 328 328 328 321 321 318 318 316 308 308 304 303 D1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 0 1 obs 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 303 299 297 294 293 293 292 291 291 287 286 286 282 282 282 278 275 273 273 272 267 266 263 261 260 D1 1 1 1 0 1 1 0 1 1 1 1 0 1 1 0 0 0 0 1 1 0 1 1 1 0 obs 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 256 252 252 245 243 242 241 239 235 232 228 219 219 214 210 204 198 189 188 182 166 123 D1 0 0 1 1 1 0 0 1 0 0 1 1 1 1 1 1 0 1 1 1 1 0