第八章 离散因变量模型
第八章 离散模型(1)
成对比较阵和权向量 成对比较完全一致的情况 满足 aij a jk aik , i, j, k 1,2,, n
w1
w1
w1
w2
w2
w2
A
w1
w2
w1
wn
w2
wn
的正互反阵A称一致阵,如
wn
wn
wn
w1
w2
wn
• 便于定性到定量的转化:
尺度 aij
1 2 34
Ci
:
C
的重要性
j
相同
稍强
5 6 78 9 强 明显强 绝对强
aij = 1,1/2, ,…1/9 ~ Ci : C j 的重要性与上面相反 • 心理学家认为成对比较的因素不宜超过9个 • 用1~3,1~5,…1~17,…,1p~9p (p=2,3,4,5), d+0.1~d+0.9 (d=1,2,3,4)等27种比较尺度对若干实例构造成对比较 阵,算出权向量,与实际对比发现, 1~9尺度较优。
要由A确定C1,… , Cn对O的权向量
成对比较阵和权向量
1 1/ 2 4
成对比较的不一致情况
A
2
1
7
a 1/ 2 (C :C ) 一致比较
12
12
不一致
a 4 (C :C )
13
13
a23 8 (C2 : C3)
允许不一致,但要确定不一致的允许范围
n 1
2. 正互反阵最大特征根和特征向量的简化计算
• 精确计算的复杂和不必要
第八章离散因变量模型
第⼋章离散因变量模型第⼋章离散因变量模型离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables)分为⼆元选择模型(Binary Choice Models)和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models)。
在多类别选择模型中,根据因变量的反应类别(response category)是否排序,⼜分为⽆序选择模型(Multinominal Choice Models)和有序选择模型(Ordered Choice Models)(也称有序因变量模型Ordered Dependent Variable Models、有序类别模型Ordered Category Models等)⼀、⼆元选择模型设因变量1、线性概率模型(LPM模型)如果采⽤线性模型,给定,设某事件发⽣的概率为P i,则有所以称之为线性概率模型。
不⾜之处:1、不能满⾜对⾃变量的任意取值都有。
2、3、所以线性概率模型不是标准线性模型。
给定,为使,可对建⽴某个分布函数,使的取值在(0,1)。
2、Logit模型(Dichotomous/ Binary Logit Model)Logit模型是离散(分类)因变量模型的常⽤形式,它采⽤的是逻辑概率分布函数(Cumulative Logistic Probability Function)(e为⾃然对数的底),逻辑曲线如图4-1所⽰。
其中,⼆元Logit模型是掌握多类别Logit模型的基础。
图4-1 逻辑曲线(Logit Curve)以⼆元选择问题为例,设因变量有0和1两个选择,由⾃变量来决定选择的结果。
为了使⼆元选择问题的研究成为可能,⾸先建⽴随机效⽤模型:令表⽰个体i选择=1的效⽤,表⽰个体i选择=0的效⽤,显然当时,选择结果为1,反之为0。
将两个效⽤相减,即得随机效⽤模型:,记为(4-1)当时,,则个体i选择=1的概率为:若的概率分布为Logistic分布,则有即(4-2)式(4-2)即为最常⽤的⼆元选择模型——Logit模型。
离散型变量 结构方程模型
离散型变量结构方程模型
离散型变量在结构方程模型中又称为二项式变量或有序分类变量。
离散型变量是指变量的取值是有限离散的,不连续的。
在结构方程模型中,离散型变量可以作为被观察变量(即因变量)或观察变量(即自变量)。
离散型变量作为被观察变量时,常用的统计方法包括逻辑回归分析、Probit模型和logit模型等。
这些方法可以用于分析离散型因变量与其他观察变量之间的关系,并得到各个自变量对因变量的影响程度。
离散型变量作为观察变量时,可以通过构建多项式模型、序列模型或者有序分类模型等方法,来研究离散型变量之间的关系。
这些模型可以用于描述离散型变量之间的结构特征和相互作用关系。
总之,离散型变量在结构方程模型中起到重要的作用,可以帮助研究者理解离散型变量与其他变量之间的关系,并揭示变量之间的结构特征和作用机制。
第八章:离散模型解答
萧澜 1 . 循环赛模型一、 问题:下图是5位网球选手循环赛的结果。
作为竞赛图,它是双向连通的吗?找出几条完全路径,用适当的方法排出5位选手的名次。
二、模型分析与建立:这是一个关于竞赛图排列名次的问题,我们可以利用双向连通竞赛的名次排序方法来处理这一问题。
根据图形建立竞赛图的邻接矩阵A=(ij a )n n ⨯如下:⎩⎨⎧=,否则的有向边到存在从顶点0,1j i a ij由此得到邻接矩阵A=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡0111100100000010110001010三、模型求解: 各级分量为S=S(1)=(2,2,1,2,3),S(2)=(4,3,2,4,5),S(3)=(7,6,4,7,9),S(4)=(13,11,7,13,17).由此可以知道名次为:5,1(4),2,3(选手1和4名次相同)。
另外此结果也可以根据Perron-Frobenius 定理,由s A kk k =→λ1lim我们只需算出矩阵A 的最大特征根λ和对应特征向量S 得到大小排处名次。
我们可以用Matlab 求解,程序如下: A=[0,1,0,1,0 0,0,1,1,0 1,0,0,0,0 1,1,1,0,0]; eig(A)[X,D]=eig(A)从结果中可以看到A 的最大特征根8393.1=λ,所对应的特征向量为:)2769.0,2137.0,1162.0,11793.0,2137.0(=s由此得到排名顺序也是:5,1(4),2,3(选手1和4名次相同)。
2.投票权重 理事会有五个常任理事和十个非常任的理事,提案仅当全部的常任理事和至少非四个常任理事赞成时方可通过,求每位常任理事和每位非常任理事在投票中的权重? 模型分析:由题意可知题中涉及到了利益的分配问题,那么此题可以应用Shapley 值法进行求解Shapley 值法所需要的知识:设集合I={1,2,…,n},如果对于I 的任意一个子集s 都对应着一个实值函数v(s),满足v()=0;v( s s 21)≥v(s 1)+v(s 2), s 1 s 2= 称[I,v]为n 人合作对策,v 为对策的特征函数 Shapley 值由特征函数v 来确定记为)).()...,(),(()(21v v v v nϕϕϕ=Φ对于任意的子集s,记x(s)=∑∈si ix,即s 中成员的权重,对于一切s I ⊂满足x(s)≥v(s)的x 组成的集合称[I,v]的核心,当核心存在时,即所有s 的分配都不小于s 的效益,可以将Shapley 值作为一种特定的分配,即x iiv =)(ϕ;Shapley 值)).()...,(),(()(21v v v v nϕϕϕ=Φ为∑∈-=s i s v s v s v is i)]\()(|)[(|)(ωϕ,i=1,2,…,n!)!1|(||)!|(|)(|n s s n s --=ω其中s i 是中包含的所有子集,{s}是子集s 中的元素的数目(人数),)(||s ω是加权因子, s \ i 表示s 去掉i 后的集合.模型建立:集合I={1,2,…,5,6,…,15},其中i=1,2,…,5表示常人理事会员,i=6,…,15为非常任理事会员,将集合s=(),,()(}15...{}7{}6{}{51=i i )中任意的k 个元素的集合,k=4,5,…,10的特征函数定义为1,I 中的其他集合的特征函数的定义为0,因为这样的集合有Ck 10个,且!15)]!5(15[)!15()(+--+=k k s ω(k=4,5,…,10),所以任意一个常任理事的Shapley 值为(即投票时占的比重)为∑==10410*|)(|k kiCs ωϕ代入数据可的ϕi=0.916,(i=1,2,…,5)而任意的非常任理事的权重为ϕi =101(1-5*0.196)=0.002(i=6,…,15).Matlab 语言程序:循环赛模型另解下图是5位网球选手循环赛的结果。
数学建模课件—离散模型
8.1 层次分析模型 8.2 循环比赛的名次 8.3 社会经济系统的冲量过程 8.4 效益的合理分配
离散模型
• 离散模型:差分方程(第7章)、 整数规划(第4章)、图论、对策 论、网络流、…
• 分析社会经济系统的有力工具
• 只用到代数、集合及图论(少许) 的知识
8.1 层次分析模型
C11
C1
0
桥梁 D1
隧道 D2
渡船 D3
(1)过河效益层次结构
例3 横渡江 河、海峡方 案的抉择
经济代价 B1
过河的代价 A
社会代价 B2
环境代价 B3
投 操 冲冲 交 居 汽 对 对
入 作 击击 通 民 车 水 生
资 维 渡生 拥 搬 排 的 态
金 护 船活 挤 迁 放 污 的
C1 C2 .633 0.193 0.175
5 0.166 0.166 0.668
3.009 3
w(2) 0.263 0.475 0.055 0.090 0.110
CI k 0.003 0.001 0
0.005 0
RI=0.58 (n=3), CIk 均可通过一致性检验 方案P1对目标的组合权重为0.5950.263+ …=0.300 方案层对目标的组合权向量为 (0.300, 0.246, 0.456)T
w W w (3)
(3) (2)
第s层对第1层的组合权向量
w W W W w (s)
( s ) ( s1)
(3) (2)
其中W(p)是由第p层对第 p-1层权向量组成的矩阵
层次分析法的基本步骤
1)建立层次分析结构模型
深入分析实际问题,将有关因素自上而下分层(目标— 准则或指标—方案或对象),上层受下层影响,而层内 各因素基本上相对独立。
离散因变量模型 模型模型ppt课件
0)
不选择1 (选择0)
2019
-
4
(二) 二元选择的经济计量一般模型
P( yi
1
Xi)
P( yi*
0)
P(
* i
X i )
1
P(
* i
Xi)
1 F (Xi) F (Xi) F(t) 1 F(t)
E( yi Xi ) 1 P 0 (1 P) F (Xi)
Y E(Y X )
总体回归模型
-
3
(一) 二元选择模型的理论模型
选择理论:效用是不可观测的,只能观测到选择行为
U
1 i
Xi 1
i1
第i个个体选择1的效用
U
0 i
Xi 0
i0
第i个个体不选择1(选择0)的效用
U
1 i
U
0 i
Xi (1
0 )
(i1
i0 )
yi* Xi
i
yi 1( yi 0) 选择1
yi
0( yi
0.2 0 0
5
10
15
20
25
30
Logistic分布函数
2019 具有以上分布函数的二元选- 择模型称为Logit模型。 10
(2) Logit 模型的设定
yi F ( X i B) i
eZ F(Z) 1 eZ (Z)
模型 yi ( Xi B) i
f
(Z )
F ' (Z )
eZ (1 eZ )2
离散因变量模型( Logit 模 型,Probit模型)
❖ 实际经济分析当中的离散变量问题
对于单个方案的取舍购买决策、职业的选择、贷 款决策; 对于两个方案的选择。例如,两种出行方式的选 择,两种商品的选择。由决策者的属性和备选方 案的属性共同决定。 ❖ 农业经济分析当中的离散因变量问题 农民技术采用、农村选举等等
离散因变量
这一函数表达的是一条S曲线。
Pi
1
OiΒιβλιοθήκη 0 1xi
逻辑曲线
离散因变量模型应用
逻辑模型的估计,由于
Pi 1/1 e( 0 1xi ) 0 1xi ( 0 1xi ) e 1 Pi e /1 e( 0 1xi )
ln Pi 0 1 xi 1 Pi
通常的经济计量模型都假定因变量是连续 的,但是在现实的经济决策中经常面临许 多选择问题。人们需要在可供选择的有限 多个方案中作出选择,与通常被解释变量 是连续变量的假设相反,此时因变量只取 有限多个离散的值作为被解释变量建立的 计量经济模型,称为离散被解释变量数据 计量经济学模型(models with discrete dependent variables),或者称为离散选 择模型(discrete choice model, DCM)。
离散因变量模型应用
离散因变量模型应用
对于离散型因变量,使用普通最小二乘模型是不适宜 的,建议对于此类因变量使用非线性函数。事件发生 的条件概率 P( yi 1 xi ) 与 xi 之间的非线性通常单调函数, P( yi 单调增加,或者随着的 1 xi ) xi 即随着 的增加 减少xi P( yi 1 xi ) 单调减少。一个自然的选择便是在值域( 0,1)之间 xi 存在着一条S形曲线。这样,在 在趋向负无穷时有 E( y在趋向正无穷时有 xi 趋向于0,在 趋向于1。这样的 E( yi ) i) 曲线类似于一个随机变量的累积分布曲线。在离散型 因变量分析中有多种模型,最常用的就是Logistic模型 和Probit模型。
离散因变量模型应用
三、离散因变量模型的Eviews实现 Eviews软件提供了简洁方便的离散因变量 模型的程序。在Equation Estimation对话框 内,提供了Binary估计方法,即Probit、 Logit和Extreme value(极值)三种估计方式。 在确定Binary的估计方式后,我们键入二元 因变量的名字,然后键入回归项。
第八章 (1) 离散和受限被解释变量模型
SC -2 -2 -2 -2 -2 -2 -2 -1 0 -2 -1 0 -2 0 -1 1 1 1 -1 -1 1 1 1 1 -1 0
JGF 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.9979 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.9998 0.9999 1.0000 0.4472 0.0000 0.0000 1.0000 1.0000 0.9999 0.0000 0.0000
• 对于两个方案的选择。例如,两种出行方式的选 择,两种商品的选择。由决策者的属性和备选方 案的属性共同决定。
二、二元离散选择模型
1、原始模型
• 对于二元选择问题,可以建立如下计量经济学模 型。其中Y为观测值为1和0的决策被解释变量;X 为解释变量,包括选择对象所具有的属性和选择 主体所具有的属性。
2、重复观测值不可以得到情况下二元Probit 离散选择模型的参数估计
ln L
fi fi Xi Xi 1 Fi F y 0 y 1 i
i
i
q i f (q i X i ) Xi F (q i X i ) i 1
n i 1
n
n
• 在样本数据的支持下,如果知道概率分布函数 和概率密度函数,求解该方程组,可以得到模 型参数估计量。
三、二元Probit离散选择模型及其参数 估计
1、标准正态分布的概率分布函数
F (t )
t
(2 )
12
exp( x 2 2)dx
f ( x) (2 )
离散因变量模型课件
离散因变量模型可以处理分类数据,如性别、婚姻状况、学历等;可以分析不 同类别之间的比较和关系;通常采用概率论和统计学方法进行建模和分析。
离散因变量模型的应用场景
市场分析
用于分析市场细分、消费者行 为、品牌选择等,如消费者偏 好分析、市场占有率预测等。
人口学研究
用于分析人口统计数据,如婚 姻状况、生育率、教育程度等 ,可以揭示人口变化趋势和影 响因素。
自变量选择
根据研究目的和理论,选 择与因变量相关的自变量 ,可以是连续或离散变量 。
数据收集和处理
数据来源
确定数据来源,如调查、 数据库等。
数据清洗
对数据进行预处理,如缺 失值填充、异常值处理等 。
数据转换
对数据进行必要的转换, 以满足模型要求。
模型选择与拟合
模型选择
根据研究目的和数据特点,选择合适 的离散因变量模型,如Logit模型、 Probit模型等。
案例三:信用评分模型
总结词
信用评分模型是离散因变量模型在金融领域的典型应用,用于评估个人或企业的信用风 险。
详细描述
信用评分模型是一种常见的离散因变量模型应用,用于评估个人或企业的信用风险。通 过收集个人或企业的信用记录、历史表现和其他相关信息,可以建立信用评分模型,对 个人或企业的信用等级进行评估。这种模型可以帮助金融机构更准确地评估贷款申请人
社会学研究
用于分析社会现象和人类行为 ,如犯罪率、社会阶层、文化 差异等,可以揭示社会规律和 影响因素。
生物学研究
用于分析生物分类、物种分布 、生态平衡等,如物种多样性
分析、生态平衡评估等。
离散因变量模型与其他模型的比较
与连续因变量模型比较
离散因变量模型处理的是分类数据,而连续因变量模型处理 的是连续数据;离散因变量模型通常采用概率论和统计学方 法进行建模和分析,而连续因变量模型可以采用回归分析、 时间序列分析等方法。
离散因变量和受限因变量模型
目录
• 引言 • 离散因变量模型 • 受限因变量模型 • 模型估计与检验 • 实证分析与应用举例 • 研究结论与展望
01
引言
目的和背景
1
探究离散因变量和受限因变量的模型选择和应用
2
分析离散因变量和受限因变量模型的优缺点
3
为实际数据分析提供理论支持和指导
离散因变量和受限因变量的定义与特点
步骤
首先,根据模型设定和观测数据构建似然函数;然后,通过对似然函数求导并令其等于零,得到 参数的最大似然估计值;最后,利用数值优化算法求解最大似然估计值。
优点
最大似然估计法具有一致性、有效性和渐近正态性等优良性质,且适用于多种类型的离散因变量 和受限因变量模型。
拟合优度检验
1
目的
拟合优度检验用于评估模型对数据的拟 合程度,即检验模型是否能够充分解释 观测数据的变异。
研究不足与局限性分析
当前研究主要集中在模型的应用和比较方面, 对模型的理论性质和统计推断的深入研究相对 较少。
在处理复杂数据和实际问题时,现有模型可能 存在局限性,如无法处理高维数据、非线性关 系等。
在实际应用中,模型的假设条件可能难以满足, 如随机抽样、误差项独立同分布等,这可能影 响模型的估计结果和解释力度。
03
适用于因变量为有序分类的情况,如评级、满意度等。
计数模型
Poisson回归
适用于计数数据,假设事件发生的次数服从泊松分布。
负二项回归
当计数数据的方差大于均值时,使用负二项回归,考虑了数据的 过度分散。
零膨胀模型
适用于存在过多零计数的情况,通过零膨胀参数对零计数进行建 模。
03
受限因变量模型
使用STATA分析离散因变量模型
使用STATA分析离散因变量模型离散因变量模型是一类常用于处理离散因变量的统计模型,主要用于解决离散因变量的概率分布和估计问题。
在STATA软件中,可以使用一系列命令来进行离散因变量模型的分析。
首先,我们需要使用STATA建立一个数据集来进行分析。
可以使用命令"clear"来清除已经存在的数据集,然后使用"input"命令导入数据。
导入数据时,可以使用"gen"命令创建新的变量,设置其类型为离散变量。
例如,可以使用以下命令创建一个二元变量"y":```clearinput yend```首先,我们可以用"tabulate"命令来查看因变量的分布情况。
例如,我们可以使用以下命令来查看变量"y"的频数和占比:```tabulate y```接下来,我们可以使用STATA进行离散因变量模型的估计和推断。
最常用的模型是二项Logistic回归模型,可以使用"Logistic"命令进行估计。
例如,假设我们有一个自变量"x"和一个因变量"y",可以使用以下命令来进行Logistic回归模型的估计:```logistic y x```模型估计结果将会显示出在估计中使用的样本量、对数似然值、模型的相关系数、标准误差、z值、P值等信息。
此外,还会显示出模型的拟合优度统计量,如伪R²。
如果我们想要观察模型的拟合程度,可以使用以下命令来进行模型拟合优度检验:```logistic y x, estat gof```该命令将显示出卡方检验的结果,用于评估模型的拟合程度。
此外,STATA还提供了其他离散因变量模型的估计命令,如Poisson 回归、Negative Binomial回归、Ordered Probit 回归等。
这些命令的使用方式类似于二项Logistic回归命令,只是模型的假设和估计方法有所不同。
离散因变量和受限因变量模型共71页文档
▪
28、知之者不如好之者,好之者不如乐之者。——孔子
▪
29、勇猛、大胆和坚定的决心能够抵得上武器的精良。——达·芬奇
▪
30、意志是一个强壮的盲人,倚靠在明眼的跛子肩上。——叔本华
谢谢!
71
▪
26、要使整个人生都过得舒适、愉快,这是不可能的,因为人类必须具备一种能应化为上进的力量,才是成功的保证。——罗曼·罗兰
33、如果惧怕前面跌宕的山岩,生命 就永远 只能是 死水一 潭。 34、当你眼泪忍不住要流出来的时候 ,睁大 眼睛, 千万别 眨眼!你会看到 世界由 清晰变 模糊的 全过程 ,心会 在你泪 水落下 的那一 刻变得 清澈明 晰。盐 。注定 要融化 的,也 许是用 眼泪的 方式。
35、不要以为自己成功一次就可以了 ,也不 要以为 过去的 光荣可 以被永 远肯定 。
离散因变量和受限因变量模 型
31、别人笑我太疯癫,我笑他人看不 穿。(名 言网) 32、我不想听失意者的哭泣,抱怨者 的牢骚 ,这是 羊群中 的瘟疫 ,我不 能被它 传染。 我要尽 量避免 绝望, 辛勤耕 耘,忍 受苦楚 。我一 试再试 ,争取 每天的 成功, 避免以 失败收 常在别 人停滞 不前时 ,我继 续拼搏 。
离散因变量和受限因变量模型
第二页,编辑于星期二:十七点 四十七分。
第三页,编辑于星期二:十七点 四十七分。
第四页,编辑于星期二:十七点 四十七分。
第五页,编辑于星期二:十七点 四十七分。
第六页,编辑于星期二:十七点 四十七分。
第七页,编辑于星期二:十七点 四十七分。
第八页,编辑于星期二:十七点 四十七分。
第四十四页,编辑于星期二:十七点 四十七分。
第四十五页,编辑于星期二:十七点 四十七分。
第四十六页,编辑于星期二:十七点 四十七分。
第四十七页,编辑于星期二:十七点 四十七分。
第四十八页,编辑于星期二:十七点 四十七分。
第四十九页,编辑于星期二:十七点 四十七分。
第三十七页,编辑于星期二:十七点 四十七分。
第三十八页,编辑于星期二:十七点 四十七分。
第三十九页,编辑于星期二:十七点 四十七分。
第四十页,编辑于星期二:十七点 四十七分。
第四十一页,编辑于星期二:十七点 四十七分。
第四十二页,编辑于星期二:十七点 四十七分。
第四十三页,编辑于星期二:十七点 四十七分。
第三十页,编辑于星期二:十七点 四十七分。
第三十一页,编辑于星期二:十七点 四十七分。
第三十二页,编辑于星期二:十七点 四十七分。
第三十三页,编辑于星期二:十七点 四十七分。
第三十四页,编辑于星期二:十七点 四十七分。
第三十五页,编辑于星期二:十七点 四十七分。
第三十六页,编辑于星期二:十七点 四十七分。
第二十三页,编辑于星期二:十七点 四十七分。
第二十四页,编辑于星期二:十七点 四十七分。
第二十五页,编辑于星期二:十七点 四十七分。
第八章离散选择模型
Yi 0, ui 12Xi
• 给定解释变量, 随机扰动项仅取两个值.
• (2)u i 的异方差性
Var(ui | Xi) E(ui E(ui))2 E(ui2)
(1 2Xi)2(1 pi)(11 2Xi)2 pi
pi2(1 pi)(1 pi)2 pi pi(1 pi)[pi 1 pi] pi(1 pi)
一、问题的提出
• 例8.1 研究家庭是否购买住房。由于,购买住房行为要受
到许多因素的影响,不仅有家庭收入、房屋价格,还有房
屋的所在环境、人们的购买心理等,所以人们购买住房的
心理价位很难观测到,但我们可以观察到是否购买了住房,
即 •
1购 买 住 房
Y
0不
购
买
住
房
• 例8.2 分析公司员工的跳槽行为。员工是否愿意跳槽到另 一家公司,取决于薪资、发展潜力等诸多因素的权衡。员 工跳槽的成本与收益是多少,我们无法知道,但我们可以 观察到员工是否跳槽,即
(2)
ln( 1
p
p
)
对
X
i
为线性函数。
(3)当
ln( 1
p
p
)
为正的时候,意味着随着
X
i
的增加,选择
1
的可能性也增大了。
当
ln( 1
p
p
)
为负的时候,随着
X
i
的增加,选择
1
的可能性将减小。换言之,当机
会比由 1 变到 0 时,ln( p ) 会变负并且在幅度上越来越大;当机会比由 1 变到 1 p
的参数估计值将比较接近参数的真值。 • (2)参数估计为渐近有效,即当样本观测增大时,参数
【推荐文档】离散因变量PPT
P iF(01xi)2 1
e dt 01xi t2/2
将其转化为线性模型,则为: F1(Pi)01xi
离散因变量模型应用
在设定模型之后,我们要对模型的参数 进行估
计。对参数估计方法采用的是极大似然估计法。 由于Logit模型或Probit模型实际上都是非线性回 归模型,因此回归模型的系数不能像普通线性回 归那样理解为对因变量的解释程度,而只能从符 号上判断解释变量增加引起的相应变量的出现某 种结果的概率增减。
一、logistic模型
Logistic模型,即逻辑模型是由Verhulst在1945年提出 ,最早被用来描述生物生长规律(逻辑成长率)。现 在已经在经济与金融计量中得到广泛应用。它的具体 形式为:
1 Pi E(yi xi)e(01xi)
这一函数表达的是一条S曲线。
Pi
1
O
i
逻辑曲线
0 1xi
现在已经在经济与金融计量中得i 到广泛应用。
式中, 1 P i 称为机会差异比,即所研究事件“发生”与“
不发生”的概率之比。
离散因变量模型应用
二、Probit模型
当我们用逻辑分布函数去拟合S曲线时,得到Logit模型, 而当我们用正态分布函数去拟合S曲线时,而得到Probit 模型。Probit模型的具体形式为:
离散因变量模型应用
这一函数表达的是一条S曲线。
离散因变量模型应用 事件发生的条件概率
与 之间的非线性通常单调函数,即随着 的增加
少。
对参数估计方法采用的是极大似然估计法。
单调增加,或者随着的 减少
单调减
事件发生的条件概率
与 之间的非线性通常单调函数,即随着 的增加
单调增加,或者随着的 减少
(优选)离散因变量
离散因变量模型应用
三、离散因变量模型的Eviews实现 Eviews软件提供了简洁方便的离散因变量
模型的程序。在Equation Estimation对话框 内,提供了Binary估计方法,即Probit、 Logit和Extreme value(极值)三种估计方式。 在确定Binary的估计方式后,我们键入二元 因变量的名字,然后键入回归项。
(优选)离散因变量
离散因变量模型应用
离散因变量模型应用
对于离散型因变量,使用普通最小二乘模型是不适宜
的,建议对于此类因变量使用非线性函数。事件发生
的条件概率 P(yi 1 xi) 与 xi 之间的非线性通常单调函数,
即随着 的增xi 加
P(yi 单1调xi) 增加,或者随着的 减少xi
单调减P(y少i 。1 x一i) 个自然的选择便是在值域(0,1)之间
离散因变量模型应用
二、Probit模型
当我们用逻辑分布函数去拟合S曲线时,得到Logit模型, 而当我们用正态分布函数去拟合S曲线时,而得到Probit 模型。Probit模型的具体形式为:
Pi F (0 1xi )
1
e dt 0 1xi t2 /1(Pi ) 0 1xi
离散因变量模型应用
在设定模型之后,我们要对模型的参数 进行估
计。对参数估计方法采用的是极大似然估计法。 由于Logit模型或Probit模型实际上都是非线性回 归模型,因此回归模型的系数不能像普通线性回 归那样理解为对因变量的解释程度,而只能从符 号上判断解释变量增加引起的相应变量的出现某 种结果的概率增减。
存在着一条S形曲线。这样,在 在趋向负无穷xi时有
趋向于0,在E( y在i ) 趋向正无穷时x有i 趋向于1。这E样( y的i )
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章离散因变量模型离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables)分为二元选择模型(Binary Choice Models)和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models)。
在多类别选择模型中,根据因变量的反应类别(response category)是否排序,又分为无序选择模型(Multinominal Choice Models)和有序选择模型(Ordered Choice Models)(也称有序因变量模型Ordered Dependent Variable Models、有序类别模型Ordered Category Models等)一、二元选择模型设因变量1、线性概率模型(LPM模型)如果采用线性模型,给定,设某事件发生的概率为P i,则有所以称之为线性概率模型。
不足之处:1、不能满足对自变量的任意取值都有。
2、3、所以线性概率模型不是标准线性模型。
给定,为使,可对建立某个分布函数,使的取值在(0,1)。
2、Logit模型(Dichotomous/ Binary Logit Model)Logit模型是离散(分类)因变量模型的常用形式,它采用的是逻辑概率分布函数(Cumulative Logistic Probability Function)(e为自然对数的底),逻辑曲线如图4-1所示。
其中,二元Logit模型是掌握多类别Logit模型的基础。
图4-1 逻辑曲线(Logit Curve)以二元选择问题为例,设因变量有0和1两个选择,由自变量来决定选择的结果。
为了使二元选择问题的研究成为可能,首先建立随机效用模型:令表示个体i选择=1的效用,表示个体i选择=0的效用,显然当时,选择结果为1,反之为0。
将两个效用相减,即得随机效用模型:,记为(4-1)当时,,则个体i选择=1的概率为:若的概率分布为Logistic分布,则有即(4-2)式(4-2)即为最常用的二元选择模型——Logit模型。
二元Logit选择模型的参数估计通常使用最大似然估计法,令似然函数,再求似然函数L的对数值最大时的参数估计量。
对(4-2)式进行适当的变换,得即(4-3)式(4-3)与式(4-2)是等价的,而且更易于解释,式中为个体i做出选择1的机会比(odds),式中的因变量是机会比(odds)的自然对数,参数的含义为自变量每增加一个单位机会比(odds)的自然对数增加的数值。
在多类别选择模型中,通常也是以机会比的自然对数(log-odds)作为因变量建立关于自变量X的线性模型,统称为Logistic回归。
3、Probit模型同Logit模型的推导,不同在于取分布函数的形式为标准正态的分布函数,则有。
二、多类别Logit模型(Polytomous Logit Model)对于多类别选择问题,即离散因变量有两个以上的选择类别,可建立多类别Logit模型来研究。
根据因变量可供选择的结果类别是否排序,有几种不同类型的Logistic回归,有的只适用于排序选择模型(如Cumulative logit models,Adjacent Categories Models等),有的对于非排序选择模型也适用(如Baseline Logit Models, Conditional Logit Models等)。
1.基准类别Logit模型(Baseline-Category Logit Model)对于非排序选择问题,通常用基准类别Logit模型来研究。
设离散因变量有类可能结果,令代表个不同的结果类别,各类结果之间相互独立,不存在等级排序关系,定义代表个体选择结果,则个体的可能选择;为个影响因变量选择结果的自变量;定义为个体选择结果的概率,即,则个体做出各类选择的概率,。
以作为基准类别,可定义个机会比的自然对数(log-odds),引入自变量,则可得基准类别Logit模型(Baseline-Category Logit Model )如下:(4-4)式中,,,为样本容量,为自变量个数;,,为离散因变量结果分类的个数。
可见,模型(4-4)中包括个方程,有个待估参数。
与模型(4-4)等价的是各类结果出现的概率函数,当为非基准类别,即时,(4-5)当为基准类别,即时,(4-6)模型(4-4)—(4-6)是等价的,同样可以用最大似然估计法进行参数估计,通过的联合概率函数导出似然函数:(4-7)其中,,如果个体选择结果;反之,。
把(4-5)式和(4-6)式代入(4-7)式并取对数得对数似然函数,再通过对数似然函数最大化的一阶条件求解模型参数。
模型(4-4)的参数表示当其它自变量保持不变时,自变量每变化一个单位,个体的选择落入第类的概率对比落入第类的概率得到的机会比对数(log-odds)变化个单位。
对于基准类别(Baseline-Category)Logit模型而言,任可一个类别都可被选作基准类别,不会影响模型的拟合,只是式(4-4)的参数估计值及其解释发生变化,模型的对数似然函数值和因变量各个类别的概率预测值都不会改变。
基准类别(Baseline-Category)Logit模型非常灵活,通过式(4-4)可以求个体的选择落入任意两个类别的机会比对数(log-odds),如要求结果对比结果的机会比对数,有(4-8)2.相邻级别Logit模型(Adjacent-Category Logit Model)若因变量各选择类别之间存在排序等级关系,如研究个体对某一产品的偏好程度,用1,2,3分别代表厌恶、一般、喜欢,则因变量Y=(1,2 ,3)为排序因变量(Ordered Dependent Variable),对应的排序选择问题可以用相邻级别(Adjacent-Category )Logit模型来研究。
设排序因变量有个选择类别,,代表第个选择;代表各个选择出现的概率(为简便起见,省略表示个体的下标,下同);代表个影响个体选择的自变量。
定义个体的选择落入相邻两个级别的机会比对数(log-odds)为,引入自变量,可得相邻级别(Adjacent-Category )Logit模型如下:()(4-9)或()模型(4-9)包括个回归方程和个待估参数。
相邻级别(Adjacent-Category )Logit模型与基准类别(Baseline-Category)Logit模型(4-4)最大的区别在于它考虑了因变量的各选择类别之间的等级排序关系,并假设自变量对任意两个相邻级别的机会比对数的影响系数是相同的,因此模型(4-9)中回归系数在所有相邻级别的回归方程中数值是一样的。
事实上,若在基准类别(Baseline-Category)Logit模型(4-4)中加入因变量各类别内在等级排序的约束条件,可以得到与(4-9)式等价的相邻级别(Adjacent-Category )Logit 模型。
假设对排序因变量,选择基准类别,根据式(4-4)建立Baseline-Category Logit模型:(4-10)由于因变量的取值是排序的,因此如果自变量有助于提高的等级(设的等级高于),则增加一个单位,取值为的可能性大于取值为的可能性,这意味着。
不失一般性,假设对于任意均有,,并假设随着等级的提高而成比例增加,不妨设,,将约束条件代入(4-10)式,则可求得(4-9)式的相邻级别(Adjacent-Category )Logit模型:同理,可求得相邻个等级的任意两个类别的机会比对数为:(4-11)模型(4-9)同样可以用极大似然估计法估计,利用计量软件包可以方便地求得因变量的取值落入各个等级的概率,模型参数表示当其它自变量保持不变时,自变量每变化一个单位,因变量的取值落入任意两个相邻等级和的机会比对数(log-odds)都变化个单位。
3.比例优势累积Logit模型(Proportional-Odds Cumulative Logit Model)比例优势模型(Proportional Odds Model,简称POM)也称累积Logit模型(cumulative logit model),最早由McCullagh (1980)提出,是排序Logistic回归中最常用的模型。
目前,POM广泛应用在社会经济统计学和生物医学统计领域。
与相邻级别(Adjacent-Category )Logit 模型相比,POM更适合研究自变量的变化对因变量等级变化的影响效应,即自变量数值的增加或减小是否有助于因变量级别的提高或降低。
POM假设排序因变量的类别等级受不可观测的潜变量的影响,并且存在个未知的潜在分割点(cutpoint或threshold),将分为个等级1,即:若是自变量的线性函数,则,代表个自变量,,设服从Logistic分布,则可得的累积概率函数:(4-12)比例优势模型(POM)就是使用累积概率来定义机会比(odds):(4-13)式(4-13)表示的等级大于与的等级小于或等于的概率比,odds数值越大,说明的等级大于的可能性越大。
相应的机会比对数(log-odds)为:将(4-12)式代入机会比对数,得比例优势模型(POM):,(4-14)模型(4-14)包括个方程,每个方程的截距项不同(注意POM的截距项与潜在分割点的符号相反),但所有方程中的回归系数是相同的,这就是比例优势模型的重要假定(The Proportional Odds Assumption):对于任意一个等级,高于该等级与低于该等级的机会比对数(log-odds)受变动的影响是相同的,即不论我们选择哪个等级,变动一个单位,机会比对数(log-odds)都变动个单位。
根据(4-14),可得等价模型(4-15)容易看出,若为正,意味着的提高总是有助于等级的提高,并且,相同的表示對任何,的形态是相同的,图4-2表现了比例优势模型(POM)中和的这种关系。
图4-2 比例优势模型(POM)图示()根据(4-12)式可计算的各个等级出现的概率:令代表个体各个等级出现的概率,则相应的对数似然函数(其中,,如果个体出现等级;反之,),模型的参数(包括和)估计量可通过最大化对数似然函数求得。
值得强调的一点,比例优势模型(4-14)中的每一个方程都可以看作是一个二元Logit模型,此时,对每一个,令时用1表示,时用0表示。
三、Logit模型参数的估计方法1、数据是分组观测资料对自变量的某组观测值,因变量的个观测值中有个观测值取值为1,其余为0,则等于1出现的概率的估计值,有,若满足经典假定,则可对上式用OLS法进行估计,否则再对模型进行修正。