Logistic回归模型和生存分析简介

合集下载

论文写作中的逻辑回归与生存分析方法应用

论文写作中的逻辑回归与生存分析方法应用论文写作是学术研究的一项重要环节，通过合适的统计方法可以对研究对象的特征和结果进行全面分析。

逻辑回归和生存分析作为两种常用的统计方法，在论文写作中具有广泛应用。

本文将就逻辑回归和生存分析的原理、应用场景和方法进行阐述，以期为学术写作提供一定的指导。

一、逻辑回归的原理与应用逻辑回归是一种常用的分类方法，通过建立一个线性回归模型，并将其转化为概率进行分类。

在论文写作中，逻辑回归常用于分析影响某一事件发生概率的因素。

逻辑回归模型的基本形式为：$$ p = \frac{{1}}{{1 + e^{-y}}} $$其中，p为事件发生的概率，y为回归模型的线性函数。

在具体应用中，可以根据实际需求选择不同的逻辑回归模型，如二元逻辑回归、多元逻辑回归等。

逻辑回归在论文写作中的应用主要体现在以下几个方面：1. 探究因素对某一事件发生概率的影响：逻辑回归可以通过分析各种因素对某一事件发生概率的影响程度，从而揭示事件的主要影响因素。

例如，在医学研究中，逻辑回归可以用于分析不同因素对疾病发生的影响。

2. 预测和判断：逻辑回归可以通过已知的因素和其对事件发生的影响程度，来预测事件的发生概率。

在金融研究中，逻辑回归可以用于预测股票市场的涨跌。

3. 模型评估：逻辑回归可以通过模型的拟合程度、参数的显著性等指标对模型进行评估，从而判断模型的准确性和可靠性。

二、生存分析的原理与应用生存分析是一种用于分析时间到达某一事件的概率的统计方法。

生存分析可以处理各种类型的生存数据，如医学研究中的生存时间、工业研究中的故障时间等。

生存分析的基本原理是建立生存函数和风险函数。

生存函数描述了时间t内个体存活下来的概率，而风险函数描述了时间t的风险率。

在生存分析中，常用的模型有Kaplan-Meier方法和Cox比例风险模型。

生存分析在论文写作中的应用主要包括：1. 研究事件的发生时间：生存分析可以通过分析个体的生存时间，得出事件的发生概率和可能的发生时间点。

11.logistic回归和生存分析

.184
Wal d 6.391
30.370 6.683 4.270
33.224
df 1 1 1 1
1
Sctep lwt
3
ptl
-.015
.007
5.584
1
.728
.327
4.961
1
ht
1.789
.694
6.639
1
Constant
.893
.829
1.158
1
a. Variable(s) entered on step 1: ptl.
两组或多组生存率比较。例如比较不同方案治疗白血病的缓解率曲线
，以了解哪种方案较优。
3.生存过程的影响因素分析例如分析影响乳腺癌病人手术后预后的因素
，可以是病人的年龄、病程、术前健康状况、有无淋巴结转移、术后有无感染、辅助治疗措施、营养等。通常用Cox比例风险回归来分析。
1.000
.000
.000
哑变量设置
结果分析
Variables in the Equation
B
S.E.
Wal d
df
Si g.
Satep age
1
l wt
-.025 -.014
.037 .007
.483 4.090
1
.487
1
.043
race
7.146
2
.028
race(1)
-.908
.437
4.326
df 1 1 1 1
Si g. .013 .023 .008 .002
Exp(B) 3.882 2.395 1.097 .004
❖ 此表输出模型中的各自变量的偏回归系数及其标准

Logistic回归模型

Logistic 回归模型1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介主要应用在研究某些现象发生的概率p ，比如股票涨还是跌，公司成功或失败的概率，以及讨论概率p 与那些因素有关。

显然作为概率值，一定有10≤≤p ，因此很难用线性模型描述概率p 与自变量的关系，另外如果p 接近两个极端值，此时一般方法难以较好地反映p 的微小变化。

为此在构建p 与自变量关系的模型时，变换一下思路，不直接研究p ，而是研究p 的一个严格单调函数)(p G ，并要求)(p G 在p 接近两端值时对其微小变化很敏感。

于是Logit 变换被提出来：ppp Logit -=1ln)( （1）其中当p 从10→时，)(p Logit 从+∞→∞-，这个变化范围在模型数据处理上带来很大的方便，解决了上述面临的难题。

另外从函数的变形可得如下等价的公式：XT XT T ee p Xppp Logit βββ+=⇒=-=11ln )( （2）模型(2)的基本要求是，因变量（y ）是个二元变量，仅取0或1两个值，而因变量取1的概率)|1(X y P =就是模型要研究的对象。

而Tk x x x X ),,,,1(21 =，其中i x 表示影响y 的第i 个因素，它可以是定性变量也可以是定量变量，Tk ),,,(10ββββ =。

为此模型(2)可以表述成：kx k x k x k x kk eep x x pp βββββββββ+++++++=⇒+++=- 11011011011ln （3）显然p y E =)(，故上述模型表明)(1)(lny E y E -是k x x x ,,,21 的线性函数。

此时我们称满足上面条件的回归方程为Logistic 线性回归。

Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型，一方面离散变量的误差形式服从伯努利分布而非正态分布，即没有正态性假设前提；二是二值变量方差不是常数，有异方差性。

Logistic回归分析及应用

18
•
表5 肺癌与危险因素的调查分析
• 例号是否患病性别吸烟年龄地区
•1
1
1
0 30 0
•2
1
0
1 46 1
•3
0
0
0 35 1
•…
…
… ………
• 30
0
0
0 26 1
• 注：是否患病中，‘0’代表否，‘1’代表是。性别中
‘1’代表男，‘0’代表女，吸烟中‘1’代表吸烟，
‘0’代表不吸烟。地区中，‘1’代表农村，‘0’代表
配对Logistic回归SPSS操作步骤:
• Analyze-----Survival----COX Regression-----Time 框（outcome)-----Status框（ Status ）
• -----Define Event:Single value 1:continue----Covariates框（x1、x2、x3)-----Strata框（id）--Options---at last step------ok
第十六章 Logistic回归分析
Logistic regression
1
复习多元线性回归
(multiple linear regression)
• 在医学实践中，常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关, 而且可能与病床周转次数, 床位数等有关；儿童的身高不仅与遗传有关还与生活质量，性别，地区，国别等有关；人的体表面积与体重、身高等有关。
• 由上最大似然估计分析知因素X2(吸烟), X3(年龄) 对肺癌的发生有影响。所得的回归方程为:
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.

生存分析

N of Remaining Cases
13 12 11 10 9 8 7 6 5 4 3 2 1 0 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
M eans and M edians for Survival T ime
Meaan
Median
95% Confidence Interval95% Confidence Inte
.116
.625
.121
.563
.124
.500
.125
.438
.124
.375
.121
.313
.116
.250
.108
.188
.098
.125
.083
.063
.061
.000
.000
N of Cumulative
Events 1 2 3 4 5 6 7 8 9 9 10 10 11 11 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Status 完全完全完全完全完全完全完全完全完全删失完全删失完全删失完全完全完全完全完全完全完全完全完全完全完全完全完全完全完全完全
Surv iv al Table
Cumulative Proportion Surviving at the Time
group
<3.0cm
1
2
3
4
5
6
7
8
9
Case Proce ssin g Su mmary
10
11
Censored
12

logistic回归分析

队列研究(cohort study)：也称前瞻性研究、随访研究等。是一种由因及果的研
究，在研究开始时，根据以往有无暴露经历，将研究人群分为暴露人群和非暴露人群，在一定时期内，随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义，则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在，研究者知道每个研究对象的暴露情况。
调查方向：追踪收集资料暴露疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度（relative risk， RR）也称危险比（risk ratio）或率比（rate ratio） RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究，先按疾病状态确定调查对象，分为病例(case)和对照 (control)两组，然后利用已有的记录、或采用询问、填写调查表等方式，了解其发病前的暴露情况，并进行比较，推测疾病与暴露间的关系。
调查方向：收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。其基本思想是先建立似然函数与对数似然函数，求使对数似然函数最大时的参数值，其估计值即为最大似然估计值。建立样本似然函数：

Logistic回归分析

Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。

适用于因变量的取值仅有两个（即二分类变量，一般用1和0表示）的情况，如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等，对于这类数据如果采用线性回归方法则效果很不理想，此时用Logistic 回归分析则可以很好的解决问题。

一、Logistic 回归模型设Y 是一个二分类变量，取值只可能为1和0，另外有影响Y 取值的n 个自变量12,,...,n X X X ，记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率，则Logistic 回归模型为：[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式：01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。

二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。

变量筛选的原理与普通的回归分析方法是一样的，不再重复。

三、Logistic 回归的应用（1）可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。

（2）预测与判别Logistic回归是一个概率模型，可以利用它预测某事件发生的概率。

当然也可以进行判别分析，而且可以给出概率，并且对数据的要求不是很高。

四、SPSS操作方法1．选择菜单2．概率预测值和分类预测结果作为变量保存其它使用默认选项即可。

例：试对临床422名病人的资料进行分析，研究急性肾衰竭患者死亡的危险因素和统计规律。

Logistic回归分析.sav解：在SPSS中采用Logistic回归全变量方式分析得到：（1）模型的拟合优度为0.755。

Logistic回归模型和生存分析简介

2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 4
SPSS
模型简介
• 应变量为0/1变量的Logistic回归模型在冠心病可疑危险因素的研究中，记录下每个研究对象的p 个自变量(年龄、性别、饮酒等)，记为x1,…,xp。随访一段时间，如果发生冠心病，应变量y记为1，如果没有发生冠心病，y=0。可以观察到，不同的x1,…,xp的研究对象，冠心病的发生概率P(y=1)不同，如果我们希望依据随访得到的这组数据建立一个描述自变量x1,…,xp与冠心病的发生概率P(y=1)间关系的回归方程，并根据建立的回归方程进行预测，对各个自变量的作用大小和方向作出评价，如何实现？我们首先想到的是能不能用线性回归模型来实现？
2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 17
SPSS
Logistic回归模型中的高级话题
哑变量偏回归系数表示其它自变量Xj不变，Xi每改变一个单位，所导致logitP的平均变化量 • x为连续性/二分类变量：没有问题 • x为多分类变量：不太合适 • 无序多分类：民族，各族之间不存在大小问题
• 有序多分类：家庭收入分为高、中、低三档，它们之间的差距无法准确衡量在以上这些情况时，我们就必须将原始的多分类变量转化为数个哑变量（Dummy Variable），
2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 18
SPSS
Logistic回归模型中的高级话题Байду номын сангаас
哑变量 • 每个哑变量只代表某两个级别或若干个级别间的差异，这样得到的回归结果才能有明确而合理的实际意义 • 对于取值具有n个水平的自变量Xi，可以生成n-1个哑变量 • 模型中哑变量遵循“同进同出” 的原则

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

16
SPSS
模型的拟合优度
• -2lnL: 越小越好
• 伪决定系数:基于对数似然值而来，类似于线性回归模型中的决定系数 • 模型预测的正确率和ROC曲线 • Hosmer-Lemeshow统计量: Lack of Fit test • H0:no lack of fit • 自变量中有连续性变量 • 仅适用于0/1应变量
21
SPSS
分析实例
Hosmer和Lemeshow于1989年研究了低出生体重婴儿的影响因素，数据间文件logistic_step.sav，应变量为出生的婴儿是否为低体重婴儿(变量名LOW，1表示低出生体重 <2500g)，考虑的影响因素有:
1.产妇怀孕前体重(1wt,磅)； 2.产妇年龄(age,岁)； 3.产妇在怀孕期间是否吸烟(smoke,0表示不吸烟)； 4.本次怀孕前早产次数(ptl,次)； 5.是否还有高血压(ht,0表示未患高血压)； 6.子宫对按摩、催产素等刺激引起收缩的应激性(ui,0无应激性)； 7.怀孕前3个月社区医生随访次数(ftv,次) 8.种族(race,1白人，2黑人，3其它种族)：哑变量
• 该检验基于β值服从正态分布的假设，首先求出β值的标准误，然后基于正态分布原理求出P值进行检验 • 模型中参数可信区间的估计就是基于Walds检验来的； • 常用于模型中变量的剔除
2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 14
SPSS
模型与参数的假设检验
3. 记分检验 • 模型中回归系数的假设检验及两个模型拟合效果的比较 • 以未包含某一个（或几个）参数的模型为基础，保留模型中参数的估计值，并假设新增加的参数为0，计算似然函数的一阶偏导数（又称有效比分）及信息矩阵； • 记分检验统计量Score=S’(COV)S
2
SPSS
Logistic回归模型简介
• 模型简介 • 模型中参数的估计与意义 • 模型与参数的假设检验 • 模型的拟合优度
• Logistic回归模型中的高级话题
Байду номын сангаас• 分析实例
2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 3
SPSS
模型简介
• 方差分析模型:应变量-连续/正态；自变量:分类/连续变量 • 线性回归模型：应变量-连续/正态；自变量: 连续/分类变量 • 应变量为分类变量：研究该分类变量与一组自变量之间的关系
模型中参数的估计与意义
模型中参数的意义 • β0-常数项 • 自变量取值全为0时的基线状况，未必有实际意义； • 比数（Y=1与Y=0的概率之比）的自然对数值；
• 病例—对照研究中，病例与对照两组人数的比例是人为定的，不能代表人群中真实的病人与正常人比例，因此该常数项不是各自变量取值为0时人群患病比的估计值的对数。因此根据病例—对照研究资料建立的Logistic回归模型中，常数项意义不大，主要针对结果中自变量的偏回归系数及其转换成OR 值的意义作解释，不适宜直接用于预测和判别。如希望进行预测，则需知道人群中真实的患病率Pα。
2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 6
SPSS
模型简介
P( y 1 | X )
exp( 0 i xi )
i 1
p
1 exp( 0 i xi )
i 1
p
P( y 0 | X )
1 1 exp( 0 i xi )
• 列向量S是对数似然函数的一阶偏导数，S’是行向量 • COV是模型的方差协方差矩阵 • 当样本量较大时，Score服从卡方分布
• 常用于模型中变量的纳入
2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 15
SPSS
模型与参数的假设检验
三种假设检验方法 • 似然比检验是基于整个模型的拟合情况进行的，结果最可靠；
2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 5
SPSS
模型简介
• 存在的问题 • 1.模型两边的值域不同：左边概率[0，1]，右边[-∞，∞]； • 2. 应变量概率P与自变量间通常不存在线性关系 • 解决办法：Logit变换 • 应变量取值区间的变化 <- 问题1的解决 • P=0 logitP=ln(0/1)= -∞ • P=0.5 logitP=ln(0.5/0.5)= 0 • P=1 logitP=ln(1/0)= +∞ • 实践证明，logitP往往和自变量呈线性关系<-问题2的解决
i 1 p
2013-8-14
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
7
SPSS
模型简介
• 模型名称的来源: Logistic这个名称来源于它对应变量所采用的logit变换，和英文单词Logistic的含义（后勤的）一点关系都没有，与逻辑就更不相干 • 模型用途 • 筛选危险因素 • 校正混杂因素 • 预测与判别(判别分析)
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
20
SPSS
Logistic回归模型中的高级话题
Logistic回归模型 • 非条件Logistic回归模型:0/1; 有序多分类; 无序多分类 • 条件(配对)Logistic回归模型: 分层的Cox比例风险模型
2013-8-14
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
2013-8-14
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
8
SPSS
模型中参数的估计与意义
• 模型参数的估计方法
• 由于应变量为二分类，所以误差项服从二项分布，而非正态分布。 • 最小二乘法不适用，最大似然法
2013-8-14
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
9
SPSS
生存时间和生存结局都成为了要关心的因素:应变量有两个
• 只考虑生存时间: 时间分布不明（肯定不呈正态分布，在不同情况下的分布规律也不同），拟和模型有困难
2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 22
SPSS
2013-8-14
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
23
SPSS
• Logistic回归模型 LogitP=Ln(P低出生体重/P非低出生体重) =0.893-0.015*产妇怀孕前体重lwt+0.728*本次怀孕前早产次数ptl+1.789*是否患有高血压ht 危险因素：ptl； ht 保护因素：lwt
2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 11
SPSS
模型中参数的估计与意义
(X1增加一个单位)
P' P 1 ln( ) /( 1 ) ln OR 1 1 P' 1 P 1 1
2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 12
2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 10
SPSS
模型中参数的估计与意义
• βi • βi和多重线性回归模型中系数的解释一样，偏回归系数; • 代表固定其它Xj时，Xi改变一个单位引起logitP平均值的改变量；
• 在实际应用中，可以为这些系数找到更加贴近实际的解释,比数比(Odds Ratio,OR)=exp(βi)：Logit变换的优势 • 当其它自变量(Xj)取值保持不变时， Xi取值增加一个单位引起OR自然对数值的变化量，因此在使用上OR值要远比βi本身更常用
2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 4
SPSS
模型简介
• 应变量为0/1变量的Logistic回归模型在冠心病可疑危险因素的研究中，记录下每个研究对象的p 个自变量(年龄、性别、饮酒等)，记为x1,…,xp。随访一段时间，如果发生冠心病，应变量y记为1，如果没有发生冠心病，y=0。可以观察到，不同的x1,…,xp的研究对象，冠心病的发生概率P(y=1)不同，如果我们希望依据随访得到的这组数据建立一个描述自变量x1,…,xp与冠心病的发生概率P(y=1)间关系的回归方程，并根据建立的回归方程进行预测，对各个自变量的作用大小和方向作出评价，如何实现？我们首先想到的是能不能用线性回归模型来实现？
2013-8-14 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 17
SPSS
Logistic回归模型中的高级话题
哑变量偏回归系数表示其它自变量Xj不变，Xi每改变一个单位，所导致logitP的平均变化量 • x为连续性/二分类变量：没有问题 • x为多分类变量：不太合适 • 无序多分类：民族，各族之间不存在大小问题
SPSS
模型与参数的假设检验
1. 似然比检验 • 模型(两个模型拟合效果的比较)及偏回归系数的假设检验 • 假设模型1含有较少自变量，模型2含有较多自变量，检验的H0：模型1与模型2的拟合效果无差异
G (2 ln LModel1 ) (2 ln L'Model 2 ) ，即两个模型负 • 似然比检验统计量:
• 治愈/未治愈(0/1);治愈/好转/未治愈(有序分类)；无序分类(腺癌、鳞癌、大细胞癌) • 研究的因素较少:χ2；CMH (无序分类变量；自变量为分类变量) • 研究的因素较多时(分层较多):出现较多0的单元
• Logistic回归模型
• 单元为0的信息可以利用；自变量可以是连续性变量 • 基于线性回归模型的思想发展而来
• 有序多分类：家庭收入分为高、中、低三档，它们之间的差距无法准确衡量在以上这些情况时，我们就必须将原始的多分类变量转化为数个哑变量（Dummy Variable），