Logistic回归分析(1)
logistic回归分析案例
logistic回归分析案例
Logistic回归分析案例。
Logistic回归分析是一种常用的统计分析方法,主要用于预测二分类或多分类的结果。在实际应用中,Logistic回归分析可以帮助我们理解影响某一事件发生的因素,以及对事件发生的概率进行预测。本文将通过一个实际的案例来介绍Logistic回归分析的应用。
案例背景。
假设我们是一家电商公司的数据分析师,现在我们需要分析用户的购买行为,并预测用户是否会购买某一产品。我们收集了一些用户的个人信息和他们最近一次购买的产品,希望通过这些数据来预测用户是否会购买新产品。
数据准备。
首先,我们需要收集用户的个人信息和购买行为数据。个人信息包括年龄、性别、职业等;购买行为数据包括购买的产品类型、购买时间等。在收集完数据后,我们需要对数据进行清洗和预处理,包括缺失值处理、异常值处理等。
模型建立。
在数据准备完成后,我们可以开始建立Logistic回归模型。首先,我们需要将数据划分为训练集和测试集,以便对模型进行验证。然后,我们可以利用训练集来拟合Logistic回归模型,并利用测试集来评估模型的预测效果。
模型评估。
在模型建立完成后,我们需要对模型进行评估。常用的评估指标包括准确率、精确率、召回率等。这些指标可以帮助我们判断模型的预测效果,并对模型进行调优。
模型应用。
最后,我们可以利用建立好的Logistic回归模型来预测用户是否会购买新产品。通过输入用户的个人信息和购买行为数据,模型可以给出用户购买新产品的概率,从而帮助我们进行精准营销和推广。
结论。
logistic回归模型结果解读
logistic回归模型结果解读
x
一、 logistic回归模型结果解读
Logistic回归模型是一种分类数据模型,主要用于对不同类别的输出结果进行预测,因此,其结果解读也要以分类的形式来解释。
1、系数与因变量之间的关系
Logistic回归模型通过对因变量的分析,来推断被解释变量的概率。结果中的系数提供了因变量与被解释变量之间的关系,比如我们可以分析不同系数值大小,从而获得因变量对被解释变量的影响程度,正相关的影响是系数的正值,反之是负值。
2、P值
P值是从回归结果中获取的,它可以反映特定因变量对被解释变量的重要性,P值越小,表明相对于其它因变量,该因变量对被解释变量影响越明显,则说明该因变量是重要因素。
3、R-Square和平均绝对值
R-Square是可决系数,它反映回归结果的好坏,R-Square的值越大,表明模型的预测效果越好,也就是越能够准确的来预测被解释变量的值。平均绝对值也是可以用来判断模型好坏的指标,它比较每个样本的预测值和实际值之间的误差,值越小则表示模型的预测精度越高。
4、改进模型
可以通过以上结果,来判断模型的预测效果好坏,从而思考如何改进模型:比如可以进行特征选择,去掉系数值较小或者P值较大的因变量;也可以使用其它模型,如决策树或神经网络模型来进行比较,看哪一个模型对被解释变量的预测效果更好。
数据分析知识:数据分析中的Logistic回归分析
数据分析知识:数据分析中的Logistic回归
分析
Logistic回归分析是数据分析中非常重要的一种统计分析方法,
它主要用于研究变量之间的关系,并且可以预测某个变量的取值概率。在实际应用中,Logistic回归分析广泛应用于医学疾病、市场营销、
社会科学等领域。
一、Logistic回归分析的原理
1、概念
Logistic回归分析是一种分类分析方法,可以将一个或多个自变
量与一个二分类的因变量进行分析,主要用于分析变量之间的关系,
并确定自变量对因变量的影响。
Logistic回归分析使用的是逻辑回归模型,该模型是将自变量与
因变量的概率映射到一个范围为0-1之间的变量上,即把一个从负无
穷到正无穷的数映射到0-1的范围内。这样,我们可以用这个数值来
表示某个事件发生的概率。当这个数值大于0.5时,我们就可以判定
事件发生的概率比较高,而当这个数值小于0.5时,我们就可以判定
事件发生的概率比较小。
2、方法
Logistic回归分析的方法有两种:一是全局最优化方法,二是局
部最优化方法。其中全局最优化方法是使用最大似然估计方法,而局
部最优化方法则是使用牛顿法或梯度下降算法。
在进行Logistic回归分析之前,我们首先要对数据进行预处理,
将数据进行清洗、变量选择和变量转换等操作,以便进行回归分析。
在进行回归分析时,我们需要先建立逻辑回归模型,然后进行参
数估计和模型拟合,最后进行模型评估和预测。在进行参数估计时,
我们通常使用最大似然估计方法,即在估计参数时,选择最能解释样
本观测数据的参数值。在进行模型拟合时,我们需要选取一个合适的
logistic回归
主要用途
预测 寻找危险因素
判别
正如上面所说的寻找某一疾病的危险因素等。
如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的 概率有多大。
logistic回归
一种广义的线性回归分析模型
01 概念
目录
02 主要用途
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断, 经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为 例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量 就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。 自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致 了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。
感谢观看
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多 类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。
(整理)多项分类Logistic回归分析的功能与意义1.
多项分类Logistic回归分析的功能与意义
我们经常会遇到因变量有多个取值而且无大小顺序的情况,比如职业、婚姻情况等等,这时一般的线性回归分析无法准确地刻画变量之间的因果关系,需要用其它回归分析方法来进行拟合模型。SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。
例子:下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析方法分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性,2代表女性)之间的关系。
并单击向右的箭头按钮使之进入“因变量”列表框,选择“性别”使之进入“因子”列表框,选择
“
年龄”使之进入“协变量”列表框。
还是以教程“blankloan.sav"数据为例,研究银行客户贷款是否违约(拖欠)的问题,数据如下所示:
上面的数据是大约700个申请贷款的客户,我们需要进行随机抽样,来进行二元Logistic 回归分析,上图中的“0”表示没有拖欠贷款,“1”表示拖欠贷款,接下来,步骤如下:
1:设置随机抽样的随机种子,如下图所示:
选择“设置起点”选择“固定值”即可,本人感觉200万的容量已经足够了,就采用的默认值,点击确定,返回原界面、
2:进行“转换”—计算变量“生成一个变量(validate),进入如下界面:
在数字表达式中,输入公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值
如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0"
为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置一个“选择条件”
ICU综合征多因素Logistic回归分析及风险模型的建立1 (1)
Prac Nuts。November 1st
2009,V01.25 1塑坐!n
・49・
ICU综合征是危重患者在ICU监护过程中出现的以精 神障碍为主,兼具其他表现的一组I临床综合征,它是伴随社 会的发展和科学的进步,危重症诊治水平提高而出现的一 种疾患【1.:1。它不仅加重患者的既有疾患,还明显延长ICU监 护时间,影响患者预后。而目前国内ICU医护人员多关注患者 生理疾病的诊治,对ICU综合征关注较少,对其相关因素分析 不够全面,不能制定有效的医疗护理措施,降低其发生率。 2007年6-9月本研究收集所有入住我科的危重症患者的相 关资料,以分析ICU综合征发生的相关因素,并建立风险模 型,现报道如下。 资料与方法 1.一般资料。2007年6—9月所有入住我科的危重症患者 232例,年龄15—8l岁,平均年龄(62.5±17.2)岁,本组患者中 有24例在ICU治疗期间死亡,另有7例患者在结束ICU治疗 时意识未恢复,实际进入本研究的患者201例,男72例,女 129例。呼吸系统疾病38例,神经系统疾病11例,消化系统疾 病63例,妇产科疾病19例,循环系统疾病17例,运动系统疾 病31例,其他疾病33例。其中接受呼吸机治疗者94例。 2.方法。数据采集包括:(1)一般资料,所有患者在入住 ICU即刻,由当班护士通过询问患者及家属收集,包括年龄、 性别、文化程度、宗教信仰、家庭收入、医疗费报销情况、是否 有家庭成员缺失、原发病、患病时间、性格类型,其中性格类 型根据张伯源主持的全国性协作组修订的A型行为类型量 表测查I 31;(2)疾病危重情况,由经治医生每日行APACHE
Logistic回归曲线的学习1(转)
Logistic回归曲线的学习1(转)
Logistic回归曲线的学习 1. 临床应用
(1)因素分析:可用于相关因素的筛选,并确定其作用大小(主要因素、次要因素)。
(2)预测预报:若已知x1, x2 xm数值大小, 通过模型可以预测某种结果出现的概率。用卡方检验(或u检验)的局限性:只能研究1个危险因素;只能得出定性结论。
(3)研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。
2. 应用条件:
(1)各观察对象间相互独立:(如研究初中同学的吸烟情况,则各个个体之间不是独立的关系,因为吸烟会互相影响)、
(2)logit P与自变量呈线性关系(判断自变量严格说来,应用logistic回归之前必须先检验自变量与logit P之间是否具有线性关系,因为如果两者之间的关系是非线性的,参数估计将发生偏差,从而导致结果的不准确以及结论的不可靠。但在111篇应用logistic回归的文章中却无一篇提及自变量与logit P之间的线性关系问题,说明这是一个很容易被忽视的问题,在实际应用中应引起注意。判断自变量与logit P之间是否具有线性关系,可用多种方法:比较简单的一种方法是在模型中加入非线性项,如卡方,Ln X等,使线性模型变为非线性模型,通过比较非线性模型与线性模型的优劣来判断是否应加入该非线性项,从而判断出自变量与logit P是否有非线性关系。还有其他较复杂但更为准确的方法,如将连续变量分为几组,然后用虚拟变量代
表这些组别,并以最低的一组作为参照组,然后再用这些虚拟变量代替原先的连续变量,并重新估计模型。具体方法可参考有关文献。
Logistic回归分析报告结果解读分析
Logistic回归分析报告结果解读分析
Logistic 回归分析报告结果解读分析
Logistic 回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是” 或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic 回归分析,就可以大致了解胃癌的危险因素。
Logistic 回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic 回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1. Logistic 回归的用法
一般而言,Logistic 回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic 回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。
2. 用Logistic回归估计危险度
所谓相对危险度(risk ratio , RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的
比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的
Logistic回归分析(1)
• Logit变换
也称对数单位转换
logit P=
ln
P 1 P
j ( j 1,2,, m)
ln
P 1 P
=0
1 X1
2
X
2
m Xm log itP
常数项 0表示暴露剂量为0时个体发病与不发病概率之
比的自然对数。
回归系数 j ( j 1,2,, m表) 示自变量改变一个单位时
Logistic回归分析
汕大医学院预防医学教研室
1
第一节 Logistic 回归
Logistic regression:
是研究分类变量统计分析的一种重要方 法。研究两水平或多水平反应变量与其影 响因子间关系的回归分析(线性回归分析: 应变量为连续计量资料)。 Logistic回归模型是一种概率模型, 通常以疾 病,死亡等结果发生的概率为因变量, 影响疾 病发生的因素为自变量建立回归模型。
根据最大似然原理,似然函数 L 应取最大值。
对似然函数取对数形式:
n
ln L i1[Yi ln Pi (1Yi ) ln(1 Pi )]
式中为对数似然函数,对其取一阶导数求解参数。对
于参数 j ( j 1, 2, , m ),令 ln L 的一阶导数为 0,
即 ln L 0 ,用 Newton-Raphson 迭代方法解方程组,
因变量是定性变量的回归分析—Logistic回归分析(1)
因变量是定性变量的回归分析—Logistic 回归分析
一、 从多元线性回归到Logistic 回归
例 这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.sav).
其中: 年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量“观点”则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量。
从这张图可以看出什么呢
从这张图又可以看出什么呢
这里观点是因变量, 只有两个值;所以可以把它看作成功概率为p 的Bernoulli 试验的结果.
但是和单纯的Bernoulli 试验不同,这里的概率p 为年龄和性别的函数. 必须应用Logistic 回归。
二、 多元线性回归不能应用于定性因变量的原因
首先,多元线性回归中使用定性因变量严重违反本身假设条件,即:
因变量只能取两个值时,对于任何给定的自变量值,e 本身也只能取两个值。这必然会违背线性回归中关于误差项e 的假设条件。
其次,线性概率概型及其问题:
由于因变量只有两个值;所以可以把它看作成功概率p ,取值范围必然限制在0—1的区间中,然而线性回归方程不能做到。
另外概率发生的情况也不是线性的。
三、 L ogistic 函数
Logistic 的概率函数定义为:
我们将多元线性组合表示为:
于是,Logistic 概率函数表示为:
经过变形,可得到线性函数:
这里, 事件发生概率=P (y=1)
事件不发生概率=1-P (y=0) 发生比:Ω=-=p
p odds 1)( 对数发生比:)(log )1(ln )log(p it p p odds =⎥⎦
logistic回归分析
治疗21周
3.299 0.323 104.602 <0.001 27.073 14.388 50.940
第2步 常数项
-4.647 0.422 121.502 <0.001 0.010
服药情况
2.309 0.355 42.174 <0.001 10.060 5.012 20.192
治疗11周
2.684 0.310 74.842 <0.001 14.638 7.970 26.887
水平 1
哑变量
X4-1
X4-2
0
0
2
1
0
3
0
1
分层 1 2 3 4 ┇ 24
表13-6 骨折治疗效果评价研究资料
X1 X2 X3 X4 阳性数 阴性数 观察例数
0001
0
18
18
0002
2
15
17
0003
7
3
10
0011
10
68
78
┇┇┇┇ ┇
┇
┇
1113
6
0
6
• SPSS向前选择法筛选自变量结果
…
n
0
1
Xn01
X n02
…
1
0
X n11
X n12
…
2
(卫生统计学)第十九章 Logistic回归分析
0.7028 0.3292
0.9751 0.3440
Wald χ2 值
35.264 10.1419 4.5586 8.0362
P
0.0001 0.0014 0.0328 0.0046
3. 优势比OR 和 β 的区间估计
OR 的95%置信区间 e1 : .96SE
的95%置信区间 : 1.96S
E
在例19-1中的SAS结果中:
0 1 0 0 17 1 1 0 0 6
01016
11019
01106 11106
01116
11116
;
PROC logistic descending;
FREQ count;
MODEL y=x1 x2 x3; RUN;
例19-1资料的参数估计
变量名
常数项 X1 X2 X3
参数估计βk
-2.0858
1.793 1.348 1.649
如 x 3 的 O 的 R 9% 5 置信 e 0 .9 区 7 1 5 .9 1 6 0 .间 34 41 0 : .35 ,5 .2 103
x 3 的 3 的 9% 5 置信 0 .9 区 7 1 5 .间 9 1 6 0 .3 : 4 4 0 .3 00 ,1 .6 44
例19-2
研究食管癌与饮酒的关系,年龄可能是混杂因素。将饮酒按年龄分解成4 个四格表,用Logistic回归校正混杂因素。
多项分类Logistic回归分析的功能与意义 (1)
多项分类Logistic回归分析的功能与意义
我们经常会遇到因变量有多个取值而且无大小顺序的情况,比如职业、婚姻情况等等,这时一般的线性回归分析无法准确地刻画变量之间的因果关系,需要用其它回归分析方法来进行拟合模型。SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。
例子:下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析方法分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性,2代表女性)之间的关系。
并单击向右的箭头按钮使之进入“因变量”列表框,选择“性别”使之进入“因子”列表框,选择
“年龄”使之进入“协变量”列表框。
还是以教程“blankloan.sav"数据为例,研究银行客户贷款是否违约(拖欠)的问题,数据如下所示:
上面的数据是大约700个申请贷款的客户,我们需要进行随机抽样,来进行二元Logistic
回归分析,上图中的“0”表示没有拖欠贷款,“1”表示拖欠贷款,接下来,步骤如下:
1:设置随机抽样的随机种子,如下图所示:
选择“设置起点”选择“固定值”即可,本人感觉200万的容量已经足够了,就采用的默认值,点击确定,返回原界面、
2:进行“转换”—计算变量“生成一个变量(validate),进入如下界面:
在数字表达式中,输入公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值
如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0"
为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置一个“选择条件”
Logistic回归分析报告结果解读分析-logit回归解读
Logistic回归阐发陈述结果解读阐发之五兆芳芳
创作
Logistic回归经常使用于阐发二分类因变量(如存活和死亡、得病和未得病等)与多个自变量的关系.比较经常使用的情形是阐发危险因素与是否产生某疾病相联系关系.例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不合的临床表示和生活方法等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包含年龄、性别、饮食习惯、是否幽门螺杆菌传染等.自变量既可以是连续变量,也可以为分类变量.通过Logistic回归阐发,就可以大致了解胃癌的危险因素. Logistic回归与多元线性回归有良多相同之处,但最大
的区别就在于他们的因变量不合.多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更经常使用,也加倍容易解释.一般而言,Logistic回归有两大用途,首先是寻找危险
因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以按照成立的Logistic回归模型,预测在不合的自变量情况下,产生某病或某种情况的几率(包含
风险评分的成立).所谓相对危险度(risk ratio,RR)是用来描述某一因素不
合状态产生疾病(或其它结局)危险程度的
比值.Logistic回归给出的OR(odds ratio)值与相对危险度
类似,经常使用来暗示相对于某一人群,另一人群产生终点事件的风险超出或削减的程度.如不合性此外胃癌产生危险不合,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就暗示,男性产生胃癌的风险是女性的1.7倍.这里要注意估量的标的目的问题,以女性作为参照,男性患胃癌的OR是1.7.如果以男性作为参照,算出的OR将会是0.588(1/1.7),暗示女性产生胃癌的风险是男性的0.588倍,或说,是男性的58.8%.撇开了参照组,相对危险度就没有
应用完成logistic回归分析及其评价
*构建逻辑回归模型:使用梯度下降法等优化算法对模型进行训练;
*模型评估:通过交叉验证、混淆矩阵等方法对模型性能进行评估;
*模型优化:根据评估结果调整模型参数,进一步提高模型性能。
3、成功案例
Logistic回归分析在多个领域都有成功的应用案例。例如,在医疗诊断中, 可以利用logistic回归分析对病人的多个特征进行分析,以预测其患病概率;在 金融风控领域,logistic回归分析可以通过对借款人的多个特征进行评估,以确 定其违约概率;在电商推荐领域,logistic回归分析可以通过对用户和商品的多 个特征进行分析,以预测用户购买某件商品的概率。
评价
1、优势和不足
(1)优势:
*易于理解和实现:logistic回归分析算法较为简单,易于理解和实现;
*高效:logistic回归分析的计算效率较高,可以在大规模数据集上快速训 练模型;
*可解释性强:模型的输出为概率值,具有较好的可解释性,便于业务理解 和解释。
(2)不足:
*假设限制:logistic回归分析假设数据的分布是正态分布,如果数据分布 不符合该假设,则可能导致模型性能下降;
应用完成logistic回归分析及其 评价
01 引言
03 评价
目录
02 logistic回归分析
引言
Logistic回归分析是一种广泛应用于机器学习领域的分类方法,它通过对数 据的特征进行学习和训练,从而实现对数据的分类和预测。在很多实际应用场景 中,如医疗诊断、金融风控、电商推荐等,logistic回归分析都发挥着重要的作 用。本次演示将详细介绍logistic回归分析的基本概念、应用条件和步骤,并对 其评价和未来发展趋势进行探讨。
Logistic回归分析报告结果解读分析-logit回归解读
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic 回归分析,就可以大致了解胃癌的危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1.Logistic回归的用法
一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic 回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。
2.用Logistic回归估计危险度
所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的
比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就表示,男性发生胃癌的风险是女性的1.7倍。这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。撇开了参照组,相对危险度就没有意义了。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算统计量为:Wald 2 ,自由度等于1。
(二) Logistic回归类型及其实例分析
• 1、非条件Logistic回归 • 当研究设计为队列研究、横
断面研究或成组病例对照研究时, 可以用非条件Logistic回归。
实例1
logistic regression analysis
(一)基本概念和原理
1.应用背景 Logistic回归模型是一种概率模 型,适合于病例—对照研究、随访研究 和横断面研究,且结果发生的变量取值 必须是二分的或多项分类。可用影响结 果变量发生的因素为自变量与因变量, 建立回归方程。
2、Logistic回归模型的数据结构
Logistic回归分析
(Logistic regression)
授课对象:硕士研究生 授课教师:郭秀花
复习 多元线性回归
(multiple linear regression)
• 在医学实践中,常会遇到一个应变量与 多个自变量数量关系的问题。如医院住院 人数不仅与门诊人数有关, 而且可能与病 床周转次数, 床位数等有关;儿童的身高 不仅与遗传有关还与生活质量,性别,地 区,国别等有关;人的体表面积与体重、 身高等有关。
开始方程中没有变量,自变量 由少到多一个一个引入回归方程。 按自变量对因变量的贡献(P值的大 小)由小到大依次挑选,变量入选 的条件是其P值小于规定进入方程的 P界值Enter, 缺省值 P(0.05)。
(2)后退法(backward selection)
开始变量都在方程中,然后 按自变量因变量的贡献(P值的大 小)由大到小依次剔除,变量剔 除的条件是其P值小于规定的剔除 标准Remove, 缺省值 p(0.10)。
1
3.999 1.975 4.101
1
X3
.189
.079 5.708
1
X4
-1.306 1.583
.681
1
Constant -9.781 4.099 5.694
1
a. Variable(s) entered on step 1: X1, X2, X3, X4.
Sig. .166 .043 .017 .409 .017
Change From Previous Block
Step Likelihood Chi-square df
Sig. Chi-square df
Sig.
2
1.920
7.093
2
.029 11.943
2
.003
a. Beginning Block Number 1. Method: Forward Stepwise (Likelihood Ratio)
• 配对设计的类型:1:1、1:m、n:m • (可采用分层COX模型来拟合)。 • 例如:某市调查三种生活因素与胃
癌的关系,资料见表5。
表6 配对资料(1:1)
对子号
病例
对照
x1 x2 x3 x1 x2 x3
1
13 0
101
2
03 1
130
3
01 2
020
…
… … … ………
10
22 2
000
注:X1蛋白质摄入量,取值:0,1,2,3
… ……… ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中:y取值是二值或多项分类
例号 1 2 3 …
30
表3 肺癌与危险因素的调查分析 是否患病 性别 吸烟 年龄 地区
1
1
0 30 0
1
0
1 46 1
0
0
0 35 1
…
… ………
0
0
0 26 1
注:是否患病中,‘0’代表否,‘1’代表是。 性别中‘1’代表男,‘0’代表女,吸烟中‘1’代 表吸烟,‘0’代表不吸烟。地区中,‘1’代表农 村,‘0’代表城市。
非S条SPP件SSSSL操操og作作is步步ti骤骤c回::归
• Analyze-----Regression-----Binary Logistic • -----Dependent框(y)-----Covariates框
(x1,x2,…)------ok
单因素分析的结果
Variables not in the Equation
•
• 对子号
表4 配对资料(1:1)
病例
对照
•
x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
01 2
020
•…
… … … ………
• 10
22 2
000
• 注:X1蛋白质摄入量,取值:0,1,2,3
•
X2不良饮食习惯,取值:0,1,2,3
•
X3精神状况 ,取值:0,1,2
• 表1 多元线性回归分析的数据结构
实验对象 y
1
y1
2
y2
3
y3
X1
X2
a11 a12
a21 a22
a31 a32
X3 …. XP
a13 … a1p a23 … a2p a33 … a3p
… ……… ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中:y取值是服从正态分布
• 例号 是否患病 性别 吸烟 年龄 地区
•1
1
1
0 30 0
•2
1
0
1 46 1
•3
0
0
0 35 1
•…
…
… ………
• 30
0
0
0 26 1
• 注:是否患病中,‘0’代表否,‘1’代表是。性别中 ‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟, ‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表 城市。
多元线性回归模型
通过实验测得含有p个自变量x1,x2,x3,…,xp 及一个因变量y的n个观察对象值, 利用最小二乘法 原理, 建立多元线性回归模型:
yˆ b0 b1x1 b2 x2 bp xp
其中b0为截距, b1 ,b2 …bp称为偏回归系数. bi表示当将其它p-1个变量的作用加以固定后, Xi 改变1个单位时Y将改变bi个单位.
设资料中有一个因变量y、p 个自变量x1, x2,…,xp,对每个实 验对象共有n次观测结果,可将原 始资料列成表2形式。
• 表2 Logistic回归模型的数据结构
实验对象 y
X1
X2
1
y1 a11 a12
2
y2 a21 a22
3
y3 a31 a32
X3 …. XP
a13 … a1p a23 … a2p a33 … a3p
百度文库
可知,不发病的概率为:
1 p
1
1 exp( 0 1 X1 p X p )
经数学变换得:
ln[p /(1 p)] 0 1 X1 p X p
定义:
log it( p) ln[ p /(1 p)]
为Logistic变换,即:
Logit( p) 0 1 X1 p X p
多因素分析的结果
Model Summar y
-2 Log Cox & Snell Nagelk erk e R
Step lik elihood R Square
S qu ar e
1
14.006
.601
.802
Classification Tablea
Predicted
Observed
Step 1 Y
3、 Logistic回归模型
令: y=1 发病(阳性、死亡、治愈等)
y=0 未发病(阴性、生存、未治愈等)
将发病的概率记为P,它与自变量x1, x2,…,xp之间的Logistic回归模型为:
p exp( 0 1 X 1 p X p ) 1 exp( 0 1 X 1 p X p )
•
Logistic回归
-- Logistic回归与多重线性回归联系与区别
联系:
用于分析多个自变量与一个因变量的关 系,目的是矫正混杂因素、筛选自变量和更 精确地对因变量作预测等。
区别:
线性模型中因变量为连续性随机变量, 且要求呈正态分布. Logistic回归因变量的 取值仅有两个,不满足正态分布。
bi ' bi * Si / S y , 其中Si为X i的标准差, S y为y的标准差。
5.假设检验
• (1)回归方程的假设检验
• H0:所有 i 0, i 0,1,2,, p H1:某个 i 0
• 计算统计量为:G=-2lnL,服从自由度等于n-p
• 的 2 分布
• 某研讨究者调查了30名成年人,记录 了同肺癌发病的有关因素情况, 数据见表 4。其中是否患病中, ‘0’代表否, ‘1’代表 是;性别中 ‘1’代表男, ‘0’代表女;吸 烟中 ‘1’代表吸烟, ‘0’代表不吸烟;地 区中, ‘1’代表农村, ‘0’代表城市。试分 析各因素与肺癌间的关系。
•
表5 肺癌与危险因素的调查分析
Case Pr ocessing Summar y
Cases av ailable in analy sis
Cases dropped
Eventa C en so red Total Cases with missing values Cases with non-positiv e time Censored cases before the earliest ev ent in a stratum Total
Step Variables
X1
0
X2
X3
X4
Overall Statistics
Score 4.821 8.889 14.526 .136 19.603
df
Sig.
1
.028
1
.003
1
.000
1
.713
4
.001
• 结果表明, 性别, 吸烟, 年龄三个因 素都与肺癌有关. 由于在对某一因素进 行单因素分析时没有控制其它因素的干 扰, 因此结果不可靠.
Exp(B) 12.431 54.568 1.208 .271 .000
• 由上最大似然估计分析知因素X2(吸烟), X3(年龄) 对肺癌的发生有影响。 所得的回归方程为:
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.
2.条件logistic回归分析
N 10 10 20 0 0
0
0
Total
20
a. Dependent Variable: OUTCOME
P erc en t 50.0% 50.0% 100.0% .0% .0%
.0%
.0% 100.0%
Omnibus Tests of Model Coefficientsa
-2 Log
Overall (score)
bi为i的估计值,此值越大, 其因素对Y影响越大。
• 故对于样本资料OR=exp(bi )
• 95%置信区间为:exp(bi 1.96SE(bi )) • 可见 i 是影响因素Xi增加一个单位所引起的对数
优势的增量,反映了其对Y作用大小。 • 如果要比较不同因素对Y作用大小,需要消
除变量量纲的影响,为此计算标准化回归系数
4、回归系数βi的意义
流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露 人群发病优势与非暴露人群发病优势 之比。
即Xi的优势比为:OR P1 /(1 P1 ) P0 /(1 P0 )
Ln(OR) log it[P(1)] log it[P(0)]
(0 i 1) (0 i 0) i
X2不良饮食习惯,取值:0,1,2,3
X3精神状况 ,取值:0,1,2
配对Logistic回归SPSS操作步骤:
• Analyze-----Survival----COX Regression----Time框(outcome)-----Status框( Status )
• -----Define Event:Single value 1:continue----Covariates框(x1、x2、x3)-----Strata框 (id)---Options---at last step------ok
Step X2 2 X3
Variables in the Equation
B
SE
Wald
df
1.727 1.249 1.912
1
2.284 1.679 1.852
1
Sig. .167 .174
Exp(B) 5.624 9.821
3、逐步Logistic回归分析
(1)向前法(forward selection)
0
1
Overall Percentage
a. The cut value is .500
Y 0
14 2
Percentage
1
Correct
1
93.3
13
86.7
90.0
Variables in the Equation
Satep X1 1 X2
B
S.E.
Wald
df
2.520 1.821 1.916