logistic回归模型 SPSS例析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Logistic 回归
Logistic 回归是多元回归分析的拓展,其因变量不是连续的变量;在logistic 分析中,因变量是分类的变量;logistic 和probit 回归皆为定性回归方程的一种;他们的特点就在于回归因变量的离散型而非连续型。Logistic 回归又分为binary 和multinominal 两类;
1、Logistic 回归原理
Logistic 回归Logistic 回归模型描述的是概率P 与协变量12,.......k x x x 之间的关系,考虑到P 的取值在0----1之间,为此要首先把Plogistic 变换为()ln(
)1p
f p p
=-,使得它的取值在+∞-∞到之间,然后建立logistic 回归模型
P=p(Y=1)
()ln()1p
f p p
=-=011+......k k x x βββ++
011011+......+......1k k
k k
x x x x e p e
ββββββ++++⇒=+
Logistic 回归模型的数据结构
观察值个数 取1的观察值个数 取0的观察值个数 协变量12,.......k x x x 的值 N1 r1 n1-ri ……………………… N2 r2 n2-r2 ………………………. . . . . . . . .
Nt rt nt-rt ………………………. 根据数据,得到参数0 1....k βββ的似然函数
011011011+ (1)
+......+......1()()11k k
i i i
k k k k
x x r n r t i x x x x e e e
βββββββββ++-=++++∏++
使用迭代算法可以求得0 1....k βββ的极大似然估计。
2、含名义数据的logistic 模型
婚姻状况是名义数据,分为四种情形:未婚、有配偶、丧偶、离婚;在建立logistic 模型时,定义变量M1、M2、M3,使得
(M1=1,M2=0,M3=0)表示未婚; (M1=0,M2=1,M3=0)表示有配偶 (M1=0,M2=0,M3=1)表示丧偶 (M1=-1,M2=-1,M3=-1)表示离婚 也可以将三变量定义为
(M1=1,M2=0,M3=0)表示未婚; (M1=0,M2=1,M3=0)表示有配偶 (M1=0,M2=0,M3=1)表示丧偶 (M1=0,M2=0,M3=0)表示离婚 一般来说,只要矩阵
[
]1111
122213331444
a b c a b c a b c a b c
非奇异,可以定义
(M1=a1,M2=b1,M3=c1)表示未婚; (M1=a2,M2=b2,M3=c2)表示有配偶 (M1=a3,M2=b3,M3=c3)表示丧偶 (M1=a4,M2=b4,M3=c4)表示离婚
3、含有有序数据的logistic 回归
文化程度是有序的定性变量,他有一个顺序,由低到高为文盲、小学、中学、高中、中专;大学。常用数字来表示顺序变量,例如用0、1、2、3、4、5表示文化程度由低到高。
4、multinominal 多项logistic 回归模型
以上讨论的都是二值logistic 回归,实际问题中有许多响应变量是多值的情形,这时就需要用到多值logistic 回归;
Nominal 型的响应变量:研究三个学校和两个不同的课程计划对学生
偏好何种学习方式的影响。其相应变量学习方式y=1自修、y=2小组、y=3上课;
学校 课程计划 学习方式 合计 X1 x2 x3 y=1 y=2 y=3 (1 0 ) x3=0 5 12 50 67
X3=1 10 17 26 53
(0 1) x3=0 16 12 36 74 X3=1 21 17 26 64 (0 0) x3=0 12 12 20 44 X3=1 15 15 16 46
在响应变量是名义变量时,挑选她的一个值作为参照物,让其他值与其作比较,这里以y=3上课作为参照物。
令p1 、p2 、p3分表表示学生偏爱自修小组、上课的概率;以上课作为参照建立logistic 模型。
110111122133
3
2
20211222233
3ln ln p x x x p p x x x p ββββββββ=+++=+++ 从而有
101111221331011112213320211222233
202112222331011112213320211222233
10111122133202112222331231111x x x x x x x x x x x x x x x x x x x x x x x x e p e e e p e e p e e ββββββββββββββββββββββββββββββββ++++++++++++++++++++++++⎧=⎪++⎪⎪=⎨++=++⎪
⎪
⎪⎩
然后参照二值logistic 模型得到多项logistic 回归模型参数101123βββ、、、、、、、八个参
数的最大似然估计。
Ordinal 型的响应变量:研究性别和不同的两种疗法对某种疾病疗效的影响
性别 疗法 疗效 合计 X1 x2 显著 较有效 无效
男 新疗法x2=1 5 2 7 14 X=0 旧疗法x2=0 1 0 10 11 女 新疗法x2=1 16 5 6 27 X=1 旧疗法x2=0 6 7 19 32
令p1、p2、p3分别表示显著、较有效、无效的概率。建立有序响应变量的多项logistic 回归模型。
1101122112201122
12ln 1ln 1()p x x p p p x x p p ββββββ⎧⎫=++⎪⎪-⎪⎪⎨⎬+⎪⎪=++⎪⎪-+⎩⎭
得到