logistic回归模型 SPSS例析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Logistic 回归

Logistic 回归是多元回归分析的拓展,其因变量不是连续的变量;在logistic 分析中,因变量是分类的变量;logistic 和probit 回归皆为定性回归方程的一种;他们的特点就在于回归因变量的离散型而非连续型。Logistic 回归又分为binary 和multinominal 两类;

1、Logistic 回归原理

Logistic 回归Logistic 回归模型描述的是概率P 与协变量12,.......k x x x 之间的关系,考虑到P 的取值在0----1之间,为此要首先把Plogistic 变换为()ln(

)1p

f p p

=-,使得它的取值在+∞-∞到之间,然后建立logistic 回归模型

P=p(Y=1)

()ln()1p

f p p

=-=011+......k k x x βββ++

011011+......+......1k k

k k

x x x x e p e

ββββββ++++⇒=+

Logistic 回归模型的数据结构

观察值个数 取1的观察值个数 取0的观察值个数 协变量12,.......k x x x 的值 N1 r1 n1-ri ……………………… N2 r2 n2-r2 ………………………. . . . . . . . .

Nt rt nt-rt ………………………. 根据数据,得到参数0 1....k βββ的似然函数

011011011+ (1)

+......+......1()()11k k

i i i

k k k k

x x r n r t i x x x x e e e

βββββββββ++-=++++∏++

使用迭代算法可以求得0 1....k βββ的极大似然估计。

2、含名义数据的logistic 模型

婚姻状况是名义数据,分为四种情形:未婚、有配偶、丧偶、离婚;在建立logistic 模型时,定义变量M1、M2、M3,使得

(M1=1,M2=0,M3=0)表示未婚; (M1=0,M2=1,M3=0)表示有配偶 (M1=0,M2=0,M3=1)表示丧偶 (M1=-1,M2=-1,M3=-1)表示离婚 也可以将三变量定义为

(M1=1,M2=0,M3=0)表示未婚; (M1=0,M2=1,M3=0)表示有配偶 (M1=0,M2=0,M3=1)表示丧偶 (M1=0,M2=0,M3=0)表示离婚 一般来说,只要矩阵

[

]1111

122213331444

a b c a b c a b c a b c

非奇异,可以定义

(M1=a1,M2=b1,M3=c1)表示未婚; (M1=a2,M2=b2,M3=c2)表示有配偶 (M1=a3,M2=b3,M3=c3)表示丧偶 (M1=a4,M2=b4,M3=c4)表示离婚

3、含有有序数据的logistic 回归

文化程度是有序的定性变量,他有一个顺序,由低到高为文盲、小学、中学、高中、中专;大学。常用数字来表示顺序变量,例如用0、1、2、3、4、5表示文化程度由低到高。

4、multinominal 多项logistic 回归模型

以上讨论的都是二值logistic 回归,实际问题中有许多响应变量是多值的情形,这时就需要用到多值logistic 回归;

Nominal 型的响应变量:研究三个学校和两个不同的课程计划对学生

偏好何种学习方式的影响。其相应变量学习方式y=1自修、y=2小组、y=3上课;

学校 课程计划 学习方式 合计 X1 x2 x3 y=1 y=2 y=3 (1 0 ) x3=0 5 12 50 67

X3=1 10 17 26 53

(0 1) x3=0 16 12 36 74 X3=1 21 17 26 64 (0 0) x3=0 12 12 20 44 X3=1 15 15 16 46

在响应变量是名义变量时,挑选她的一个值作为参照物,让其他值与其作比较,这里以y=3上课作为参照物。

令p1 、p2 、p3分表表示学生偏爱自修小组、上课的概率;以上课作为参照建立logistic 模型。

110111122133

3

2

20211222233

3ln ln p x x x p p x x x p ββββββββ=+++=+++ 从而有

101111221331011112213320211222233

202112222331011112213320211222233

10111122133202112222331231111x x x x x x x x x x x x x x x x x x x x x x x x e p e e e p e e p e e ββββββββββββββββββββββββββββββββ++++++++++++++++++++++++⎧=⎪++⎪⎪=⎨++=++⎪

⎪⎩

然后参照二值logistic 模型得到多项logistic 回归模型参数101123βββ、、、、、、、八个参

数的最大似然估计。

Ordinal 型的响应变量:研究性别和不同的两种疗法对某种疾病疗效的影响

性别 疗法 疗效 合计 X1 x2 显著 较有效 无效

男 新疗法x2=1 5 2 7 14 X=0 旧疗法x2=0 1 0 10 11 女 新疗法x2=1 16 5 6 27 X=1 旧疗法x2=0 6 7 19 32

令p1、p2、p3分别表示显著、较有效、无效的概率。建立有序响应变量的多项logistic 回归模型。

1101122112201122

12ln 1ln 1()p x x p p p x x p p ββββββ⎧⎫=++⎪⎪-⎪⎪⎨⎬+⎪⎪=++⎪⎪-+⎩⎭

得到

相关文档
最新文档