非条件Logistic 回归分析
非条件Logistic回归实例解析

学习要点:
1.了解Logistic回归分析的基本思想; 2.了解Logistic回归分析的医学应用; 3.熟悉非条件Logistic回归分析在SPSS19.0 中操作演练及统计结果解释;
4.了解非条件Logistic回归分析的注 意事项。
OR值定义及其意义
OR值=(病例中暴露的比例/病例中非暴露的 比例)/(对照中暴露的比例/对照中非暴露的 比例)
OR值=2,说明病例中暴露于某个危险因素的 比例为对照组的2倍,说明该因素可能与疾病 发生有关。
统计结果解释
结果显示:最终引入模型的变量及常数项的偏 回归系数值B,标准误(SE),Wald卡方值 (Wals),自由度(df),P值(Sig),及其 OR值(ExpB)和OR的95%CI。
4.了解非条件Logistic回归分析的注 意事项。
三、SPSS19.0实例应用与解析
1、自变量进入模型的方法:
一般分为:进入法(enter)、前进法(forward) 和后退法(backward)3种,后两种方法还可 以分为条件(conditional)、偏拟然比(LR) 和Wald检验3种。如果变量较少,通常采用进入 法,如果变量太多,则选用前进LR,前进LR相 当于多重线性回归分析中的逐步回归,本例当中 采用进入法。
学习要点:
1.了解Logistic回归分析的基本思想; 2.了解Logistic回归分析的医学应用; 3.熟悉非条件Logistic回归分析在SPSS19.0 中操作演练及统计结果解释;
4.了解非条件Logististic回归分析的基本思想
多重线性回归模型适用于分析一个连续型因变 量与一组自变量之间的关系,但如果因变量为 分类变量,那么因变量与自变量之间就丧失了 线性关系,则不适用线性回归分析来解决,但 经过Logit变化后,就可以将模型转变为线性 关系,这就产生了Logistic回归模型。
医学统计学:Logistic回归分析

析包含某个或某几个变量的模型是否有统计学意义。
模型s的对数似然函数
模型s的对数似然函数 大样本
G = -2 ( ln Ls- ln LP ) ~ 2 ( p -s)
模型s嵌套 于模型p内
LS :包含s个回归系数的模型的似然函数对数值; LP:包含p个回归系数的模型的似然函数对数值,p > s ;
• G值的大小反映增加某个或某几个自变量的模型拟合优度提高的程度。 • s=0时,是对模型的整体检验;p=s+1时,是对某个自变量的检验。
包括:多元线性回归模型,logistic回归模型,Probit回归模型,
Poisson回归模型,负二项回归模型
2
当因变量是分类变量时,其自变量与因变量更多的是 非线性关系,严重违背了线性回归模型的假设条件。 故直接应用线性回归分析不合理;
不能直接分析 y 与 x 的关系 y=f(x) ,因y仅取有 限的几个值
23
2019/6/6
Logistic回归模型的统计推断 • Logistic回归方程(系数)的假设检验 • Logistic回归模型的拟合优度检验 • Logistic回归模型预测准确度的检验
22
(1) 似然比检验(likelihood ratio test)
通过比较两个相嵌套模型的对数似然函数统计量G (又称Deviance):来分
对数似然 ln L a(0 1) a ln[1 exp(0 1)] b ln[1 exp(0 1)] c0 c ln[1 exp(0)] d ln[1 exp(0 )]
求一非阶线偏性导迭,代并方令法一阶偏导数=0 ——Newton-Raphson迭代法
最大似然估计
ˆ0
ln
c d
医学统计学Logistic回归分析简介(四)

1
1 exp(0 1 X1 p X p )
2019年7月7日星期日
重庆交通大学管理学院
21:05:13
模型简介-适用条件
反应变量为二分类变量或某事件的发生率; 自变量与logit(P)之间为线性关系; 残差合计为0,且服从二项分布; 各观测间相互独立。
logistic回归模型应该使用最大似然法来解决方程的 估计和检验问题,不应当使用以前的最小二乘法进行参数 估计。
-1.062
S.E. .317 .175 .318 .616
.184
Wal d 6.391
30.370 6.683 4.270
33.224
df 1 1 1 1
1
Sctep lwt
3
ptl
-.015
.007
5.584
1
.728
.327
4.961
1
ht
1.789
.694
6.639
1
Constant
.893
.038
race(2)
.329
.534
.380
1
.537
sm oke
.927
.399
5552
.345
2.562
1
.109
ht
1.763
.689
6.541
1
.011
ui
.649
.468
1.925
1
.165
ftv
.032
.171
.035
1
.851
Constant
1.143
1.087
2019年7月7日星期日
重庆交通大学管理学院
LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
Logistic回归分析及应用

•
表5 肺癌与危险因素的调查分析
• 例号 是否患病 性别 吸烟 年龄 地区
•1
1
1
0 30 0
•2
1
0
1 46 1
•3
0
0
0 35 1
•…
…
… ………
• 30
0
0
0 26 1
• 注:是否患病中,‘0’代表否,‘1’代表是。性别中
‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,
‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表
配对Logistic回归SPSS操作步骤:
• Analyze-----Survival----COX Regression-----Time 框(outcome)-----Status框( Status )
• -----Define Event:Single value 1:continue----Covariates框(x1、x2、x3)-----Strata框(id)--Options---at last step------ok
第十六章 Logistic回归分析
Logistic regression
1
复习 多元线性回归
(multiple linear regression)
• 在医学实践中,常会遇到一个应变量与 多个自变量数量关系的问题。如医院住院 人数不仅与门诊人数有关, 而且可能与病 床周转次数, 床位数等有关;儿童的身高 不仅与遗传有关还与生活质量,性别,地 区,国别等有关;人的体表面积与体重、 身高等有关。
• 由上最大似然估计分析知因素X2(吸烟), X3(年龄) 对肺癌的发生有影响。 所得的回归方程为:
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.
第十九章 Logistic回归分析

三、回归模型的假设和回归系数的区间估计
1. 回归模型的假设检验 H0:β=0 (模型中不含变量) H1: β≠ 0 (模型中含变量)
统计量:G = - 2lnL- (-2lnL') ~ χ2(k) 在例19-1中的SAS结果中:
Model Fit Statistics Criterion Pr > ChiSq AIC SC <0.0001 -2 Log L Intercept Only 246.346 249.644 244.346 Intercept and Covariates 230.616 243.809 222.616
Logistic回归模型的分类 按反应变量的类型分:
1.两分类的 Logistic 回归模型
2.多分类有序反应变量的 Logistic 回归模型
3.多分类无序反应变量的 Logistic 回归模型式
按设计类型分: 1.非条件 Logistic 回归模型,研究对象未经过配对的成组资料 2.条件 Logistic 回归模型,研究对象为1︰1或1︰m 配对资料
一、 Logistic 回归分析的实例
例19-1 在抢救急性心肌梗死(AMI)患者能否成功的危险因素调查中,某
医院收集了5年中该院所有的AMI患者的抢救病史共200例。在抢救前:X1=1表 示已发生休克,X1=0表示未发生休克;X2=1表示发生心衰, X2=0表示未发生
心衰;X3=1表示12小时内将患者送往医院, X3=0表示12小时内未将患者送往
第二节
Logistic 回归模型的参数估计和假设检验
一、参数意义(释义同于病例-对照设计研究)
1. 相对危险度RR (Re lative Risk) RR P 1 P0
多因素非条件logistic回归

多因素非条件logistic回归多因素非条件logistic回归是一种常用的统计分析方法,用于研究多个自变量对于二分类结果的影响程度。
本文将介绍多因素非条件logistic回归的基本原理、应用场景以及步骤。
一、基本原理多因素非条件logistic回归是一种广义线性模型,用于建立自变量与二分类结果之间的关系。
它基于logistic函数(也称为S型函数),通过将自变量的线性组合映射到[0,1]的范围内,来描述自变量与二分类结果之间的概率关系。
二、应用场景多因素非条件logistic回归广泛应用于医学、社会科学、市场营销等领域的研究中。
例如,在医学领域,研究人员可以使用多因素非条件logistic回归来分析各种因素对于患病与否的影响程度,以便预测和预防疾病的发生。
三、步骤进行多因素非条件logistic回归分析时,通常需要以下步骤:1. 收集数据:收集包括自变量和二分类结果在内的相关数据。
2. 数据预处理:对数据进行清洗、缺失值处理、异常值处理等预处理工作。
3. 变量选择:根据领域知识和统计方法,选择与二分类结果相关的自变量进行分析。
4. 模型拟合:将选定的自变量输入logistic回归模型,拟合出模型参数。
5. 模型评估:通过各种指标(如AIC、BIC、似然比检验等)评估模型的拟合效果。
6. 结果解释:根据模型参数的正负和大小,解释自变量对于二分类结果的影响程度。
7. 预测与应用:根据已建立的模型,进行未知样本的预测,或者根据模型结果制定相应的决策。
多因素非条件logistic回归的优点是可以考虑多个自变量的影响,更贴近实际情况。
然而,它也有一些限制,比如对于样本量较小或者自变量之间存在共线性的情况,可能会导致模型参数的不准确性。
多因素非条件logistic回归是一种重要的统计分析方法,可以应用于各种领域的研究。
通过充分利用多个自变量,我们可以更全面地了解自变量对于二分类结果的影响,从而做出科学合理的预测和决策。
logic回归分析

因变量的选取:“是 否愿意退出闲置宅 基地”,
答案设为“愿意” 、“不愿意”和“ 不确定”3种情况。
愿意的定义为P=1, 不愿意的定义为P=0
因素
因变量 是否愿意退出宅基地 自变量 性别 年龄 文化程度 职业技能 家庭年收入
变量 名
农业收入比重 家庭人口数量 外出打工人数 赡养的老人数量 抚养的子女数量 宅基地数量 宅基地来源
完全不了解=0, 了解一些=1,非常了解=2 现金补偿=1,地价浮动补偿=2,置换住房=3,其他=4
1.048
4.506
1
.034
.108
常量
-2.629
1.554
2.862
1
.091
.072
a. 在步骤 1 中输入的变量: x3, x2, x1.
p exp(2.629 0.102x1 2.224x2 ) 1 exp(2.629 0.102x1 2.224x2 )
以本论文的研究方法为例
B
步骤 1a x3
2.502
x2
.002
x1
.082
常量 -6.157
S.E, 1.158 .002 .052 2.687
Wald 4.669 .661 2.486 5.251
df 1 1 1 1
Sig. Exp (B)
.031 12.205
.416 1.002
.115 1.086
.022
.002
B表示回归系数的参数,S.E.表示回归系数估计量的标准差,
2
因变量 y=1 表示乘坐
3 4
公共汽车上下班
5
变量y=0 表示要乘自
非条件Logistic回归分析

由于非条件Logistic回归分析采用最大似然估计法进行参数估计,因 此对异常值较为敏感,可能导致模型精度下降。
无法处理多分类问题
非条件Logistic回归分析只能处理二分类问题,对于多分类问题需要 进行额外的处理或使用其他算法。
对自变量间的交互项处理不足
非条件Logistic回归分析在模型中未考虑自变量间的交互项,对于存 在复杂交互关系的自变量无法准确建模。
究方向
01
引言
背景介绍
统计学在数据分析中的重要性
统计学是数据分析的重要基础,Logistic回归分析作为统计学中的一种方法,在 多个领域都有广泛的应用。
非条件Logistic回归的起源与发展
非条件Logistic回归分析最初由英国统计学家David Cox在20世纪70年代提出, 经过多年的研究和发展,该方法在理论和应用方面都取得了显著的进展。
范围
适用于数据量较大、样本间相互独立 的情况,且因变量和自变量之间存在 线性关系。
模型假设
无多重共线性
自变量之间不存在多重共线性, 即各自对因变量的影响是独立 的。
正态分布
误差项服从正态分布,即均值 为0,方差为常数。
线性关系
自变量与Logit P之间存在线性 关系,即 P=11+eXPfrac{1}{1+e^{x}}P 1+eX1。
无自相关
样本之间相互独立,不存在自 相关。
无异常值
数据中无异常值或离群点。
03
非条件Logistic回归模型 的建立
数据准备和处理
数据清洗
去除异常值、缺失值和重复值,确保数据质量。
数据转换
对分类变量进行编码,连续变量进行适当转换, 以满足模型需求。
非条件logistic回归模型

(一)53例接受手术的前列腺癌患者情况
(二)26例冠心病病人和28例对照进 行病例对照研究
26例冠心病病人和28例对照者进行 病例对照研究
队列研究
• 设有m个因素(包括研究因素与混杂因 素),第i个因素取值为xi(xi可以是计量的; 也可以是等级变量;也可以是二分类或 多分类变量,后者要经过数量化处理)。 m个因素的取值用向量X表示 X=(xl,x2,…,xm) 当m个变量取值为X时的发病概率为P(D|X)
MAX ln L
MAX
k j 1
m i0
i xij
n
ln
1
exp
j1
m i0
i xij
病例对照研究
• 设从病例及对照人群总体中,各按抽样比例 π1及π2分别抽取一部分病例和对照,组成一 个随机样本。
• 一个具有因素变量为X的个体是病例,且被 抽到样本中的概率为 P D | X 1
表示A型血 表示B型血 表示AB型血 表示O型血
ln
P 1 P
0
1x1
2 x2
3 x3
– exp(1) 表示B与A比之OR; – exp( 2) 表示AB与A比之OR; – exp( 3) 表示O与A比之OR。
令
1 吸烟
1 肺癌
X=
y=
0 不吸
0 非肺癌
若求得: β= 1, OR=e
表明:吸烟个体 患肺癌的危险性是不吸烟 个体的2.71828倍。
回归系数的解释
• 多分类变量:指示变量
– x1=0, x2=0, x3=0 – x1=1, x2=0, x3=0 – x1=0, x2=1, x3=0 – x1=0, x2=0, x3=1
m xm
Logistic回归分析(1)

53例接受手术的前列腺癌患者情况
6
26例冠心病病人和28例对照者进行 病例对照研究
7
26例冠心病病人和28例对照者进行 病例对照研究
8
根据研究设计不同
• Logistic回归的分类
Logistic回归 二分类 多分类
非条件 :成组资料 1:1配对资料
条件Logistic回归 1:m配对资料 m:n配对资料
24
• 分析因素xi为多分类变量时,为方便起 见,常用1,2,…,k分别表示k个不同 的类别。进行Logistic回归分析前需将 该变量转换成k-1个指示变量或哑变量 (design/dummy variable),这样指示变 量都是一个二分变量,每一个指示变 量均有一个估计系数,即回归系数, 其解释同前。
由于 OR j 值与模型中的常数项 0 无关,
0 在危险因素分析中通常视其为无效参数。
18
回归系数的解释
• 建立Logistic回归方程就是求和i • 意义:常数项是当各种暴露因素为0时,个体发
病与不发病概率之比的自然对数值。
• i意义 • 偏回归系数,表示在其它自变量固定的 • 条件下,第i个自变量每改变一个单位时logit的改
雌激素
使用过
未使用过
病例 对照
55(a) 19(c)
128(b) 164(d)
OR P1 (1 P1 ) ad 55164 3.7089 P0 (1 P0 ) bc 19128
95%CI :
3.7089 exp 1.96
1 1 1 1 55 128 19 164
2.0964 ~ 6.5616
31
四格表资料的logistic回归
• X=1 表示使用过雌激素 • X=0 表示未使用过雌激素
logistic回归分析(2)

8
非条件logistic回归
logit 因变量 自变量,[选择项]
sw logit 因变量 自变量,[选择项]
选择项: or 指定结果中给出OR值,缺失时输出回归系数 pr(#)是剔除变量的P值 pe(#)是选入变量的P值
9
例1(成组病例对照研究) 某单位研究胸膜间皮瘤与接触石 棉的关系,资料见下表。试对其进行分析。
begin with full model
p = 0.7439 >= 0.1100 removing ht
p = 0.1314 >= 0.1100 removing drug
Conditional (fixed-effects) logistic regression Number of obs = 315
4
参数估计与假设检验
参数的估计:极大似然(MLE) 假设检验:
似然比检验: G=-2lnL-(-2lnL’)
Wald检验: z 检验
2 i
(
ˆi SE(ˆi
)
)
2
5
回归系数的解释
回归系数 表示当其它自变量固定不变时, X每改变一个单位,优势对数的改变量(优 势比的对数)。
6
回归系数的解释
7
回归系数的解释
多分类变量:哑变量(dummy variable)
x=1时: x1=1, x2=0, x3=0, x4=0 表示A型血 x=2时: x1=0, x2=1, x3=0, x4=0 表示B型血 x=3时: x1=0, x2=0, x3=1, x4=0 表示AB型血 x=4时: x1=0, x2=0, x3=0, x4=1 表示O型血
➢ 回归系数β:表示病例与对照变量值之差与患病 优势的关系,即exp(β)表示病例与对照暴露水平 相差一个单位时患病的优势比。
logistic回归分析8个知识点整理,建议收藏

Pearson χ2、偏差 (deviance) 主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用 HL 指标则更为恰当。
以下为线性回归方程判断依据,可用于 logistic 回归分析
① 决定系数 (R2) 和校正决定系数,可以用来评价回归方程的优劣。R2 随着自变量个数的增加而增加,所以需要校正;
校正决定系数越大,方程越优。但亦有研究指出 R方 是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,因此在 logistic 回归中不适合。
Pearson χ2、偏差 (deviance)、Hosmer- Lemeshow (HL) 指标值均服从χ2 分布,χ2 检验无统计学意义 (P>0.05) 表示模型拟合的较好,χ2 检验有统计学意义 (P ≤ 0.05) 则表示模型拟合的较差。AIC 和 SC 指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其 AIC 和 SC 指标值排序,AIC 和 SC 值较小者一般认为拟合得更好。
③在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;
④ 强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。
可以采用双向筛选技术:
非条件logistic回归分析大学英语学习的影响因素

!"# $%&’()*) +, -*%&.( /+0*)1*2 3#0.#))*+% +% 1"# 4&21+.) 1+ 5%,’6#%2# 7+’’#0# 8%0’*)" /#&.%*%0
& ! ! ! ! ! % 789 :;< =+>?* ,/@ A>? , 7@B5 :C?<->) , D@ EFC ,:/B5 G+>)<H+ ,I9 1F>)<.FC? , 18JB DC+<(+
石武祥 /, 敖
艳0, 宋文涛 0 , 莫
( 大理 学院 : / 2 公 共卫 生学 院流 行病 与卫 生统计 学教 研室 ; 0 2!""% 级预防 医学 专业 学生 ; 1 2 外国 语学院 , 云 南 大理
摘要: 影响大学英语学习的因素有许多。本文通过使用 ()*+,-+. 回归方程, 定量地分析了各种因素, 结 果表明学习基础、 学习 动机、 努力学习的程度以及学习策略等为主要因素, 并就它们与四、 六级英语过级率之间的数量关系进行了分析。 关 键词: 大学英语学习; 影响因素; ()*+,-+. 回归分析 中图分类号: 5#6 ! 2 " 文献标识码: / 文章编号: &""# $ !4 #’ (!""# ) $ "!%’ $ "%
一致。本研究还发现高考成绩与英语过级率之间有明显剂量效应 关系, 即高考成绩越好、 英语过级率越高, 高考英语成绩 &"" 分以上 者过级率达 #Z 2 !! [ 。这说明大学生在中学时代所奠定的基础在大 学英语学习中将发挥重要的作用。 学习动机对大学英语学习的影响。龚修焕等人认为教学工作 的成效, 即学生的学习的效果, 不仅取决于帮助学生学习的客观条
非条件logistic 回归结果解读

非条件logistic 回归结果解读
非条件logistic回归是一种用于预测二分类问题的回归分析方法。
对于非条件logistic回归的结果进行解读,可以从以下几
个方面进行分析:
1. 回归系数:非条件logistic回归模型的回归系数表示自变量
对因变量的影响程度。
如果回归系数为正,表示该自变量与因变量呈正相关关系,即自变量增加时,因变量的概率也会增加;如果回归系数为负,表示该自变量与因变量呈负相关关系。
回归系数的大小可以用来判断自变量对因变量的重要程度,绝对值越大表示影响越大。
2. 模型拟合度:非条件logistic回归模型的拟合度可以通过R
方(R-squared)或者对数似然比(log-likelihood)来评估。
R
方的取值范围为0到1,越接近1表示模型的拟合度越好;而
对数似然比越大表示模型的拟合度越好。
需要注意的是,拟合度高并不一定意味着模型预测准确度高,还需要考虑其他评估指标。
3. p值:非条件logistic回归模型的p值可以用来判断自变量
的显著性。
p值越小,表示该自变量对因变量的影响越显著。
通常,p值小于0.05被认为是显著的。
如果p值超过设定的显
著性水平,就需要谨慎解释该自变量对因变量的影响。
4. 假设检验:非条件logistic回归模型通常会进行一些假设检验,如对模型的合理性、模型参数的正态分布等。
如果假设检验不通过,就需要重新考虑模型的建立和解释。
需要注意的是,非条件logistic回归模型的结果解读还需要考虑实际问题和数据的背景。
同时,还需要结合其他统计学方法和领域知识来对结果进行综合分析和解释。
Logistic回归分析(重点、难点)

1
p2 p2
,通通常常在在流流行行病病研研究究中中p1
为病例
p1为组病的暴例露组率的,暴p露2 是率指,对p2照为组对的照暴组露的率暴。露率。
对发病对率发较病低率的较疾低的病疾,病一,般一有般R有R≈RORR OR 。
比数比
病例对照研究
暴露 未暴露
病例 a b
对照 c
d
OR a/(ab) / c/(cd) b/(ab) d/(cd)
理解 非条件Logistic回归和条件Logistic回归的 区别
1. Logistic回归分析结果及解释 掌握 2. Logistic回归变量筛选方法
3. Logistic回归系数的流行病学意义 4. Logistic回归的应用及注意事项
几个重要的流行病学概念
病因分析(预后分析)的目的:找出影响疾 病发生(或预后好坏)的影响因素及其影响的强 度。
ORj 1无作用
则有ORj expj, j >0,ORj 1 危险因子
0,ORj 1 保护因子
模型参数的意义
当 P 1 , 则 有 O RP 1/(1P 1) R R P 0/(1P 0)
由 于 Oj值 R 与 模 型 中 的 常 数 项 0α 无 关 ,
α0在 危 险 因 素 分 析 中 通 常 视 其 为 无 效 参 数 。
实例分析
❖ Analyze ▪ Regression
• Binary Logistic
实例分析
❖ 应变量编码Depen dent Variabl e Enco din g
Original ValuIenternal Value
.00
0
1.00
1
❖ 模型拟合结果
非条件logistic回归对城市居民门诊卫生服务利用与影响因素的分析

二 、 生 服 务利 用 影 响 因素研 究 卫 在 a=0 2的 水平 上, 年 龄 、 别 、 姻 状 况 、 . 以 性 婚 家
、
社 区居 民对 卫 生服 务 利用 情 况
1 两 周就 诊 情 况 两 周 患 者 就 诊 率 为 4 . % 。 . 88 在 两周 内患病 率 较 高 的 前 四 类 疾 病 中, 肉骨 骼 结 缔 肌 组 织疾 病 的就 诊 率 最 高 , 环 系统 疾 病 的 就 诊 率 最 低 循
资 料 在 S S 0 0下 建 立 数 据 库 , 用 S S PS1. 采 PS 1. 0 0和 S S 6 1 A .2进 行 统 计 处 理 。 单 因 素 分 析 采 用
CM H y 【,
,
多 因 素 分 析 采 用 非 条 件 逐 步 l ii o s c回 gt
在 长沙 市 五个 辖 区 中 , 取 两个 区 , 从 中各 抽取 一 个 抽 再 街道 , 然后 从 中 随机 抽 取 三 个 居 委 会 。 每个 居 委 会 随 机 确定 第 一 户后 , 门牌 号 1 1 按 :0的 比例 随机 抽取 以户 为 单 位进 行家 庭 卫 生服 务调 查 。 共调 查 有效 样 本 含量
病 的 人群 中, 4 . % 的 人到 各 级 医疗 单 位 就 诊 , 有 89 且
不 论是 慢 性病 患 者 还 是 急 性 病 患 者 , 级 医 院 是 患 者 区
讨
论
1 医疗 卫 生 服 务 利 用 状 况 是 反 映 居 民享 受 和 评 .
价 医疗 卫 生服 务 程 度 的重 要指 标 。 从就 诊 的 医疗机 构 级 别来 看 , 区级 医疗 单 位是 城 市社 区居 民 门诊 就 诊 的
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非条件
前言
z
z
z
原理z
原理z
原理
z对概率进行转换,可建立线性回归模型–
–
–
原理
z
z
z
基本语句
z
z
z
z
Proc logistic z
z
MODEL
z关于变量选择:–
–
–
–
MODEL z
MODEL
z
两个协变量的
例2:研究性别、疾病的严重程度对疾病疗效的影响,得数据如下拟合回归方程
程序
data
input sex degree effect count @@;
cards;
0 0 1 21 0 0 0 6 0 1 1 9 0 1 0 9
1 0 1 8 1 0 0 10 1 1 1 4 1 1 0 11
;
proc
freq count;
model effect=sex degree/scale=none aggregate; /*模型的拟合优度检验
run;
输出
Deviance and Pearson Goodness-of-Fit Statistics
Criterion DF Value Value/DF Chi-Square Deviance 1 0.2141 0.2141
Pearson 1 0.2155 0.2155
z
-
输出
Model Fitting Information and Testing Global Null Hypothesis BETA=0 Criterion Only Covariates
-2LOGL
Score
z模型检验:
z似然比的卡方=
量的-
df=2(
可以认为两个协变量的回归系数至少有一个不为
认为模型有意义
输出
Variable DF Estimate Error Chi-Square Chi-Square
INTERCPT 1 1.1568 0.4036 8.2167 0.0042 .
SEX 1 -1.2770 0.4980 6.5750 0.0103 -0.350072 0.279 DEGREE 1 -1.0545 0.4980 4.4844 0.0342 -0.289086 0.348
回归系数检验:Wald 卡方:大样本时近似标准正态分布,小样本时可能不如似然比检验
输出
z回归方程:
logit[p/(1-p)]= 1.1568-1.2770sex -
z男性治愈与未愈的比值为
z女性治愈与未愈的比值为
z两个比值的比
各子组的模型预测的有效概率和基于有效水平的
SEX
1
多分类无序自变量的
z n
需转变成(
z例
否影响。
数据如下
男(sex=m)
女(sex=f)
z由于治疗方式是
2水平的哑变量
z需拟合模型
z方案
z方案
z方案
程序
data b;
input sex $ treat $ response $ count @@;
dsex=(sex=‘m’);
treata=(treat='A');
treatb=(treat=‘B’); /*
cards;
m A cured 78 m A not 28
m B cured 101 m B not 11
m C cured 68 m C not 46
f A cured 40 f A not 5
f B cured 54 f B not 5
f C cured 34 f C not 6
;
proc logistic; freq count;
model response = dsex
run;
输出
Variable DF Estimate Error Chi-Square Chi-Square
INTERCPT 1 1.4184 0.2987 22.5505 0.0001 .
DSEX 1 -0.9616 0.2998 10.2885 0.0013 -0.243789 0.382 TREATA 1 0.5847 0.2641 4.9020 0.0268 0.150196
TREATB 1 1.5608 0.3160 24.4010 0.0001 0.413281
P/1-P=exp(1.4184-0.9616*dsex+0.5847*treata+1.5608*treatb)
SEX
1
z
z
proc
run
z需拟合模型z方案
z方案
z方案
proc
run
使用
连续型自变量的z
z
多分类有序反应变量
z
z
表7.7 性别和两种治疗方法对某病疗效的影响研究 性别
女
(sex=1)
男
(sex=0)
多分类有序反应变量
z
z
多分类有序反应变量
多分类有序反应变量
z对例题资料应拟合以下两个累加型:
logit(
logit(
=
程序
data d;
cards;
;
proc logistic order=data; run;
z
z
Odds
Sex
预测概率
多分类无序反应变量z
z
z
z
(communit)
z
z
z
z
z
z
proc catmod [ direct model
程序
data communit;
input communit
cards;
1 male media 20 1 male network 35 1 male educate 26
1 female media 10 1 female network 27 1 female educate
2 male media 42 2 male network 17 2 male educate 26
2 female media 16 2 female network 12 2 female educate 26
3 male media 15 3 male network 15 3 male educate 16
3 female media 11 3 female network 12 3 female educate 20 ;
proc catmod
weight count;
model method=communit
run;
z
z
Analysis of Maximum Likelihood Estimates
Parameter Number Estimate Error Square Pr
------------------------------------------------------------------------Intercept 1 -0.4474 0.1333 11.26 0.0008 communit
sex male 1 0.5301 0.1292 16.84
logistic回归模型为
logithi1=logit(media/educate)=-0.447-0.554*communit1+0.451*communit2+0.530*sex logithi2=logit(network/educate)=-0.383+0.132*communit1-0.245*communit2+0.360*sex 比数
自变量不同水平组合的比数
-比数的构成是根据自变量的不同水平,不同的模型来完成的。
-自变量是什么水平,
之,就减去代表这个水平的模型参数。