离散选择模型1121
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Logistic回归在SPSS中应用讲课人:***
Email:***************.cm
办公室:通博楼B座211
1
内容
第一节模型的种类和形式
第二节模型系数的检验和拟合优度
第三节应用SPSS完成模型估计和输出解读
2
第一节模型的种类和形式
当遇到被解释变量是分类变量时,我们可能选择离散选择模型来建立变量间的因果关系,而不是用线性回归方程。这类模型可以用来了解客户的信用度、消费者的消费行为、癌症是否转移、医生是否选择多点从业和出行选择何种交通工具等。根据被解释变量分类变量和概率分布函数的类型,产生了不同的离散选择模型。
3
二元Logistic模型—如果被解释变量是二分变量,连接分布函数(link function)为逻辑斯蒂函数。
多元Logistic模型—如果被解释变量是多分类无序次变量,连接分布函数为逻辑斯蒂函数。
有序Logistic模型—如果被解释变量是多分类有序次变量,连接分布函数为逻辑斯蒂函数。
Probit模型—连接分布函数是标准正态分布函数。
为了说明这类模型的机理,我们以二元Logistic回归为例,介绍模型形成过程。从而理解一些概念。
4
5
一、二元Logistic 模型
在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。
10yes y no
⎧=⎨⎩ 考虑某个家庭在一定的条件下是否购买住房问题时,表示状态的虚拟变量作为一个被说明对象的因变量出现在经济模型中。
后面变量下标i 表示各不同的样本点,取值0或l 的因变量i y 表示第i 个样本点具体选择,而影响其进行选择的自变量i x 。如果选择响应YES 的概率为(1/)i p y =i x ,则经济主体选择响应NO 的概率为1(1/)i i p y -=x 。
则(/)1(1/)0(0/)i i i i i i E y p y p y =⨯=+⨯=x x x =(1/)i i p y x =。
6
根据经典线性回归,我们知道其总体回归方程是根据条件期望建立的,这使我们想象可以构造线性概率模型
011(1/)(/)i i i i i i k ik i p y x E y x x x u βββ'====++++x β
根据统计数据得到的回归结果,预测概率并不一定能够保证界于[0,1]。如果通过回归模型式得到的因变量拟合值完全偏离0或l 两个数值,则描述两项选择的回归模型的实际用途就受到很大的限制。为避免出现回归模型的因变量预测值偏离0或1的情形,需要限制因变量的取值范围并对回归模型进行必要的修正。
为了使得二元选择问题的有进一步研究可能,首先建立一个效用函数。在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。用1i U 表示第i 个人选择买房的效用,0i U 表示第i 个人选择不买房的效用。其效用均为随机变量,于是有
7 11110000(1)(2)i i i i U u U u αα'⎧=++⎪⎨'=++⎪⎩i i X βX β
将(1)-(2),得
()10101012()()i i i i U U u u αα'-=-+-+-i X ββ
记:
*10i i i y U U =-
*12ααα=-
*10=-βββ
*10i i i u u u =-
则有 ****i i Y u α'=++i X β,格林称该模型为潜回归方程。
这是二元选择模型的切入点。称*
i Y 为过渡变量(潜在的),这个变量是不可观测
8 的。
当效用差*i Y 大于零,则应该选“1”,即购房;
当效用差*
i Y 小于零,则应该选“0”,即不购房。
故()****(1)(0)()1i i i p Y p Y P u F αα**''==>=>-=--i i X βX β--
()****(0)(0)()i i i p Y p Y P u F αα**''==≤=≤-=-i i X βX β-- 此处已经通过*
i Y ,将自变量与事件发生的概率联系起来了。为概率提供了一个潜在的结构模型。
现在的问题是()F ⋅服从何种分布?()F ⋅既然是分布函数,则必须满足分布函数的条件。称()F ⋅为连接函数,采用累积标准正态概率分布函数的模型称作Probit 模型,或概率单位模型,用正态分布的累积概率作为Probit 模型的预测概率。另外logistic 函数也能满足这样的要求,采用logistic 函数的模型称作logit 模型,或对数单位模
9 型。
logistic 函数形式为()1x
x
e F x e =+。 该模型的形式为
(1)ln 1(1)
i i i i p y u p y ='=+-=x β 011(1)ln ...1(1)
i i ik k i i p y x x u p y βββ==++++-= 其中,xi 是第i 个样本点自变量观测向量,β是参数向量。yi 是表示第i 个样本的取值。 xij 表示第i 个样本点第j 个自变量观测值。 模型的含义是:机率(
(1)1(1)
i i p y p y =-=)的对数是解释变量的线性函数。等价的模型为
10 011(1)exp(...)1(1)
i i ik k i i p y x x u p y βββ==++++-= 可解释为机率是解释变量的以e 为底的指数函数。其系数解释为自变量增加一个单位,则机率增减EXP(βj)-1。如果βj 是正的,则机率增加,如果βj 为负机率减少。