Logistic回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a. Variable(s) entered on step 1: birthw t, gestage, toxemia, steroid.
1 , 2 , 2 , 4 , 0
p: 下结论的依据
Exp(B):变量xi的比数比OR
它们的标准误。
回归系数的检验:Wald χ2。
模型应该不包含对因变量作用不显著的自变量
27 33 32 35 33 29 28 32 30 26 31 31 31 29 33 32 28 25 28 28 29 30
0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0
p = 0.5, logit(0.5/0.5) = 0 p = 1, logit(1/0) = +∞
logit(p)的取值范围(- ∞, +∞),而且和自变量 呈线性关系!
以logit(p)为因变量,建立Logistic回归模型:
p logit( p) ln( ) x 1 p
也就是,某事件发生(y=1)的概率: x e 1 p x 1 e 1 e ( x )
结论:不同BPD组的体重是不同的!
进一步的问题:
1、能否用出生体重预测出现BPD的概率?
直线回归?
2、出生体重减少1个单位,出现BPD的风险会增大多少?
设想:当因变量为分类变量时,是否可以用下面的模型?
ˆ x p
某事件(如BPD)发生的概率
存在两个问题:
1. 0 ≤ p ≤ 1,而 x 可以取(-∞,+∞); 2. p(发病率等)与自变量的关系往往不是直线关系。 p
将steroid从模型 中移除。
也可以选择自动筛选变量的方法
Variables in the Equation Step a 1 birthw t gestage toxemia Constant B -.003 -.389 -1.344 13.936 S.E. .001 .115 .608 2.983 Wald 10.591 11.436 4.893 21.833 df 1 1 1 1 Sig. .001 .001 .027 .000 Exp(B) .997 .678 .261 1128142
哑 变 量 的 设 置
• Indicator: 默认。以第1 或最后1类作对照,其他每类与对照 比较; • Sample: 以第1 或最后1类作对照,其他每类与对照比较,但 反映平均效应。 • Difference: 除第1类外各分类与其前各类平均效应比较; • Helmert: 除最后1类外各分类与其前各类平均效应比较; • Repeated: 除第1类外各分类与其前一类比较;
第14章 Logistic回归
Logistic Regression
问题的提出
例1:223例新生儿的体重与支气管肺发育异常(BPD) 的关系如下图:
0: 正常 1: 支气管肺发育异常(BPD
(数据bpd.sav)
问题:发生BPD与出生体重是否有关系?
两样本的中位 数是否相同
a Tes t Statistics
哑变量的设置情况
Categorical Variables Codings
治疗 来自百度文库案
1 2 3
Frequency 4 4 4
Parameter coding (1) (2) (3) 1.000 .000 .000 1.000 .000 .000
变量treat的3个水平,用两个哑变量代替,所 得到的结果均与该变量的最后一组(对照)比较。
同时受到到weight和toxemia的影响。
2. 自变量为多分类变量
例:某医师希望研究3 种治疗方案对尿路感染 的疗效。由于有并发症 更难治疗,研究者想知 道3种方案的疗效在有 无并发症病人中的疗效 有无区别,也就是希望 了解治疗方案与并发症 是否存在交互作用。
logit2a.sav。
简 单 的 分 析
对应y = 0的概率: 1 p
1 1 e x
p/(1-p): 某事件出现的概率与不出现概率之比值称为比数 (odds)。
Logistic回归方程参数α、 β的求解:最大 似然估计(Maximum Likelihood Estimation)。 对于例1: α = 4.0343, β = -0.0042。 新生儿BDP发生(y=1)的概率:
ˆ ) 0.000641 se( ,t
ˆ ˆ) se(
0.004229 6.5975 。 0.000641
2 43.55,p 0.001 。
χ2在数值上等于z2
Exp(B):birthwt的比数比OR。
新生儿体重与BPD发生概率的关系:
p 1 1 e 4.0343 0.0042 x
Exp(B) .562 .830 .817 11.617
治疗方案与并发症没有交互作用
不考虑交互作用的情形
Variables in the Equation
B S.E. Wald df Step bingfa -1.000 .295 11.516 1 a 1 treat -.353 .144 6.022 1 Constant 2.803 .406 47.718 1 a. Variable(s) entered on step 1: bingfa, treat.
a. Variable(s) entered on step 1: birthw t, gestage, toxemia.
3个自变量都对y显著
p
1 1 e (13. 9360. 003*birthwt0. 389*gestage1. 344*toxemia)
模型预测的效果:
同时受到到gestage和toxemia的影响。
Variables in the Equation
B S.E. Wald df Step 1a bingfa -.962 .300 10.288 1 treat 24.622 2 treat(1) .585 .264 4.902 1 treat(2) 1.561 .316 24.401 1 Constant 1.418 .299 22.551 1 a. Variable(s) entered on step 1: bingfa, treat.
1. 二分变量的logistic模型应用条件
应变量为二分类变量或者是某事件的发生率; 自变量与logit(p)之间为线性关系;
残差合计为0,且服从二项分布;
各观测值之间独立。
多元的情形:
bpd
birthwt
gestage
toxemia steroid
新生儿支气管肺发育 异常是否与孕期(gestage)、 血毒症(toxemia)、类固醇 含量高(steroid)有关系? 有怎样的关系?
bpd.sav
1 0 1 0 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 0
850 1500 1360 960 1560 1120 810 1620 1000 700 1330 1410 1520 910 1650 1460 1000 710 1220 820 1060 1240
Sig. .001 .014 .000
Exp(B) .368 .702 16.489
模型: logit ( p治愈 ) 2.803 bingfa 0.353treat
结论:有无并发症和治疗方案对治愈率都有显著影响。 有并发症患者与没有并发症患者治愈率的比数比是0.368。
进一步的问题: 1. 治疗方案(无序多分类变量)的比数比(ExpB) 怎么解释?
1 0.75 0.5 0.25 0 -5 -2.5 0 2.5 5
1 p 1 e a bx
二分变量的logistic模型
如果y是二分变量,进行logit变换: p logit(p) = ln(———), p为y=1所对应的概率。 1-p 0.1 例:logit(0.1) = ln( ——— ) = ln(0.1/0.9) = -2.197。 1 - 0.1 p = 0, logit(0/1) = -∞
可以研究变量的交互作用
Variables in the Equation
B S.E. Wald df Sig. Step bingf a -.576 .841 .469 1 .494 a 1 treat -.186 .346 .288 1 .592 bingf a by treat -.202 .381 .282 1 .595 Constant 2.452 .758 10.466 1 .001 a. Variable(s) entered on step 1: bingf a, treat, bingfa * treat .
以logit(p)为因变量,建立含p个自变量的 Logistic回归模型:
p logit ( p) ln( ) 0 1 X 1 P X P 1 p
也就是,某事件(如BPD)发生(y=1)的概率:
e 1 p 0 1 X 1 P X P ( 0 1 X 1 P X P ) 1 e 1 e
教育程度 小学:0 中学:1 本科:2 研究生:3 X1 1 0 0 0 X2 0 1 0 0 X3 0 0 1 0
哑变量,又称指示变量或设计矩阵。
有利于检验等级变量各个等级间的变化 是否相同。 一个k分类的分类变量,可以用k-1个哑 变量来表示。
治疗方案与并发症的问题:
想了解不同治疗方案间疗效的两两比较
p
1 1 e
4.0343 0.0042 x
对回归系数β 的检验:
H0: β = 0 vs H1: β ≠ 0。
ˆ z ˆ) se(
ˆ ) :回归系数 的标准误。 se(
如果p > 0.05,接受H0,模型没有意义。 如果p < 0.05,拒绝H0,变量x的引入对y发生 (y=1)的机率值变化有显著影响。
对应y=0的概率: 1 p
1 1 e 0 1 X 1 P X P
0 1 X 1 P X P
系数求解的方法:最大似然估计。
利用软件解决这个问题:
4个自变量都进 入模型。
Variables in the Equation Step a 1 birthw t gestage toxemia steroid Constant B -.003 -.369 -1.407 -.653 14.001 S.E. .001 .114 .633 .382 2.966 Wald 12.493 10.414 4.941 2.925 22.278 df 1 1 1 1 1 Sig. .000 .001 .026 .087 .000 Exp(B) .997 .692 .245 .520 1203910
两样本在同一个 分布中的位置是否相同
a Tes t Statistics
Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed)
Birthw eight (grams) 2114.000 5040.000 -7.604 .000
Most Extreme Diff erences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)
2. 治疗方案的疗效两两之间有无差异?
哑变量的设置和引入:
教育程度:小学,中学,本科,研究生
4个水平,用3个变量(矢量)代替。
以小学(first)作为参照:
教育程度 小学:0 中学:1 本科:2 研究生:3 X1 0 1 0 0 X2 0 0 1 0 X3 0 0 0 1
以研究生(last)作为参照:
Absolute Positive Negative
a. Grouping Variable: Bronchopulmonary dysplasia
Birthw eight (grams) .557 .000 -.557 3.944 .000
a. Grouping Variable: Bronchopulmonary dysplasia