第21章 Logistic 回归分析
logistic regression法
logistic regression法
(原创实用版)
目录
1.线性回归概述
2.Logistic 回归法的原理
3.Logistic 回归法的应用
4.Logistic 回归法的优缺点
正文
线性回归是一种常见的统计分析方法,主要用于研究因变量和自变量之间的关系。
在线性回归中,因变量通常是连续的,而自变量可以是连续的或离散的。
然而,当因变量为二分类或多分类时,线性回归就不再适用。
这时,Logistic 回归法就被引入了。
Logistic 回归法是一种用于解决分类问题的统计方法,其原理是基于逻辑斯蒂函数。
逻辑斯蒂函数是一种 S 型函数,其取值范围在 0 到 1 之间,可以用来表示一个事件发生的概率。
在 Logistic 回归法中,我们通过将自变量输入逻辑斯蒂函数,得到一个概率值,然后根据这个概率值来判断因变量所属的类别。
Logistic 回归法广泛应用于二分类和多分类问题中,例如信用风险评估、疾病预测、市场营销等。
在我国,Logistic 回归法也被广泛应用于各种领域,如金融、医疗、教育等。
Logistic 回归法虽然具有很多优点,但也存在一些缺点。
首先,Logistic 回归法对于自变量过多或者数据量过小的情况不太适用,因为这样容易导致过拟合。
其次,Logistic 回归法的计算过程比较复杂,需要用到特种数学知识,对计算资源的要求也比较高。
总的来说,Logistic 回归法是一种重要的分类方法,具有广泛的应
用前景。
logistic回归
概念
logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同 之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多 重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p, p =L(w‘x+b),然后根据p与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是 多项式函数就是多项式回归。
感谢观看
logistic回归
一种广义的线性回归分析模型
01 概念
目录
02 主要用途
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断, 经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为 例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量 就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。 自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致 了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。
实际上跟预测有些类似,也是根据logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是 看一下这个人有多大的可能性是属于某病。
这是logistic回归最常用的三个用途,实际中的logistic回归用途是极为广泛的,logistic回归几乎已经 成了流行病学和医学中最常用的分析方法,因为它与多重线性回归相比有很多的优势,以后会对该方法进行详细 的阐述。实际上有很多其他分类方法,只不过Logistic回归是最成功也是应用最广的。
logistic回归模型分析和总结
含有名义数据的logit
含有名义数据的logit
• 例:某地25岁及以上人中各类婚姻状况居民的死
亡情况见表,试建立死亡率关于年龄和婚姻状况
的logit模型。
ln p 1 p
A 1M1
2M 2
3M3
• 其中,A表示年龄(取中值),M1、M2、M3表示婚 姻状况
• 于是,估计的logit方程为:
多项logit模型
【例】研究三个学校、两个课程计划对学生偏好何 种学习方式的影响。调查数据见表:
• 其中,三个学校对应两个哑变量x1和x2,两个课 程计划为常规(x3=1)和附加(x3=0),学习方式分 为:自修(y=1)、小组(y=2)、上课(y=3)
• 从题目可以看出,响应变量是学习方式有三类, 属于多项逻辑斯蒂回归问题。于是,建模为:
ln ln
p1 p3 p2 p3
10 11x1 12 x2 13 x3 20 21x1 22 x2 23x3
多项logit模型
多项logit模型
• 应用统计软件可以得到模型的参数估计和回归方程:
ln
p1 p3
0.5931.134 x1 0.618 x3
ln
p2 p3
0.603 0.635 x3
ln p A E
1 p
• 其中A为年龄,E为文化程度
含有有序数据的logit
含有有序数据的logit
• 于是,估计的logit方程为:
ln p 11.637 0.124A 0.164E 1 p
• 其中,年龄的系数0.124,说明年龄越大死亡率会 越高;
• 文化程度的系数-0.164,说明文化程度与死亡率 呈负相关,文化程度越高,死亡率越低。
logistic回归分析
第二节 条件Logistic回归
概念: 用配对设计获得病例对照研究资料,计算的Logistic
回归模型为条件Logistic回归。
成组(未配对)设计的病例对照研究资料,计算的
Logistic回归模型为非条件Logistic回归。
例:见265页 区别:
条件Logistic回归的参数估计无常数项(β0),主要用 于危险因素的分析。
Parame Estimate Error Chi-Square Pr
常数 -1.9037 0.5982 10.127 0.0015 性别 1.4685 0.575 6.508 0.0107
药物 1.7816 0.518 11.794 0.0006
Odds Ratio Estimates Point 95% Wald
第1页,共86页。
问题提出:
医学研究中常研究某因素存在条件下某结果是否发 生?以及之间的关系如何?
因素(X)
疾病结果(Y)
x1,x2,x3…XK
发生
Y=1
不发生 Y=0
例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
冠心病结果 有 或无
第2页,共86页。
研究问题可否用多元线性回归方法?
yˆ a b1x1 b2x2 bmxm
1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。
2.多元线性回归方程要求Y与X间关系为线 性关系。
3.多元线性回归结果 不能回答“发生 与否”
logistic回归方法补充多元线性回归的不足
第3页,共86页。
Logistic回归方法
几个logistic回归模型方程
Logistic回归分析
[例]饮酒与食道癌发病关系的分析
1977年Tuyns等在法国llle-et-Vilaine(Brittany) 地区的一所医院收集了200例食道癌患者与775 例对照进行病例—对照研究,探讨饮食与发病 的关系,考虑到年龄这一混杂因素的干扰,按 每10岁一组共分为6组。危险因素饮酒分为两 个水平:每天饮酒量少于80克者为非接触 (x=0),≥80克为接触(x=1),年龄组范围 为:1组:25~,2组:35~,3组:45~,4组: 55~,5组:65~,6组:75~ (数据集为logit)
计算中心
Logistic回归分析
Logistic回归模型: Logit(p)=ln(p/(1-p))=β0+β1x1+β2x2+βnxn Y=Logit(p) 的图形如下 (随p由0变到1,Y的值由-∞单调上升到∞)
计算中心
Logistic回归分析
上模型称为Logistic回归模型.其中最简单的情况
作业 关于食管癌与使用咸菜关系的病例-对照研究
不考虑年龄的因素,仅对“吃咸菜”一个变量作 Logistic回归
病例 吃咸菜 110 对照 吃咸菜 不吃咸菜 8 98 24 186 32 148 28 139 18 88 0 31 110 690
zi = zi =
1 , 当x取第i种状态, 0 , 其它. (i =1,…,k-1).
计算中心
例
下表记录了某公司在过去6个月中的顾客信息.其 中包括顾客的性别(gender:0=男和1=女),顾 客的年龄(AGE),顾客的年收入(income:1= 低,2=中和3=高)和购买价值(PURCHASE: 0=小于100元,1=大于等于100元),共记录了 431位顾客的资料,数据集为sales1。
图文举例详细讲解Logistic曲线的回归分析
Logistic 曲线的回归分析例 某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如表1.所示。
用转化为线性方程的方法估计其logistic 曲线预测模型。
设最大值k 为300(cm )。
表1. 玉米高度与时间(生长周期)的关系时间(生长周期) 高度/cm 时间(生长周期) 高度/cm 时间(生长周期) 高度/cm12 3 4 5 6 7 8 9 10 11 0.67 0.85 1.28 1.75 2.27 2.75 3.69 4.71 6.36 7.73 9.9112 13 14 15 16 17 18 19 20 21 12.75 16.55 20.1 27.35 32.55 37.55 44.75 53.38 71.61 83.89 22 23 24 25 26 27 28 29 30 31 97.46 112.7 135.1 153.6 160.3 167.1 174.9 177.9 180.2 180.83.1 基本绘图操作在Excel 中输入时间x 与高度y 的数据。
选择插入->图表图87点击图表,选择“标准类型”中的xy 散点图,并点击子图表类型的第一个。
图88 点击下一步,得到如图89。
图 89点击下一步。
图90分别点击标题、网格线、图例进行修改,然后点击下一步。
图91点击完成。
图92右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。
图93观察散点图,其呈S 型曲线,符合logistic 曲线。
采用转化为线性方程的方法求解模型。
3.2 Logistic 曲线方程及线性化Logistic 曲线方程为:1atk y me-=+ (12)(1) 将数据线性化及成图转化为线性方程为:01'y a a t =+ (13)其中,'ln(/1)y k y =-,0ln a m =,1a a =-具体操作为:向excel 表格中输入y ’数据。
logistic回归分析
队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:
logistic回归分析及其应用-41页文档资料
21.03.2020
2
F(y) :因变量的logit值
1.00
0.75
0.50
0.25
0.00 -4.00 -2.00 0.00 2.00 4.00
X:自变量
21.03.2020
如果一定要进 行直线回归也 可以做出结果, 但此时效果不 佳。当自变量 取一定值时, 因变量的预测 值可能为负数。
21.03.2020
14
2.哑变量的设置和引入
哑变量,又称指示变量或设计矩阵。 有利于检验等级变量各个等级间的变 化是否相同,但主要适合于无序分类变 量。 一个k分类的分类变量,可以用k-1个 哑变量来表示。
21.03.2020
15
哑变量的设置
教育程度:文盲,小学,初中,高中以上
教育程度 X1
X2
X3
文盲:0 0
0
0
小学:1 1
0
0
初中:2 0
1
0
高中:3 0
0
1
以文盲作为参考组
21.03.2020
16
以高中作为参照
教育程度
X1
X2
X3
文盲:010 Nhomakorabea0
小学:1
0
1
0
初中:2
0
0
1
高中:3
0
0
0
21.03.2020
17
SPSS提供的方法
Indicator: 默认。以第1 或最后1类作对照,其他每类 与对照比较; Sample: 以第1 或最后1类作对照,其他每类与对照比 较,但反映平均效应。 Difference: 除第1类外各分类与其前各类平均效应比较; Helmert: 除最后1类外各分类与其前各类平均效应比较; Repeated: 除第1类外各分类与其前一类比较; Polynomial: 假设类间距相等,用于数值型变量。 Deviation: 以第1 或最后1类作对照,其余每类与总效 应比较。
logistic回归分析PPT精品课程课件讲义
问题的提出(续)
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等;
• 分析“母亲怀孕期间体重增加”对“新生儿出 生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型: P=α +βX • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大 于1或小于0,无法从医学意义进行解释, 显然不适 宜用线性回归建立预测模型。
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小,确定各因素对CHD发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大 ,其他依次为相对体重、年龄、 胆固醇、ECG和BP。
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下 CHD的发病率。如某受试者A暴露于因素xi的情况 为: X=(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因 素的条件下,12年间CHD的发病率为: PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
小 结
• (1)logistic回归分析要求因变量是二分变量,或任何取值
为0或1的属性数据。
• (2)logistic回归分析中对自变量的正态性、方差齐性不作
要求,对自变量类型也不作要求;
• (3)自变量与因变量(y)之间是非线性关系,但是与logit y之
间应符合线性关系。
1. 定群研究资料分析…弗明汉心脏研究 742 名居住在弗明汉年龄为 40-49 岁的男性,在各自暴露不 同水平的影响因素(详见下表中的7种因素),经 12年追踪观察 CHD发病情况。根据此742名受试者每人暴露各项因素的水平 和 CHD 发病与否的资料,采用多因素 LOGISTIC 回归模型进
Logistic回归分析(共53张PPT)
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
LOGISTIC回归
一、回归分析的分类logistic回归(logistic regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。
根据1个因变量与多个因变量之分,有以下区分:①一个因变量y:I连续形因变量(y)——线性回归分析II分类型因变量(y)——Logistic 回归分析III 生存时间因变量(y)——生存风险回归分析IV时间序列因变量(y)——时间序列分析②多个因变量(y1,y2,……yn):I 路径分析II 结构方程模型分析在流行病学研究中,常需要分析疾病与各种危险因素间的定量关系,同时为了能真实反映暴露因素与观察结果间的关系,需要控制混杂因素的影响。
(1)Mantel-Haenszel分层分析:适用于样本量大、分析因素较少的情况。
当分层较多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。
(2)线性回归分析:由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非线性。
(3)logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研究某个二分类(或无序及有序多分类)目标变量与有关因素的关系。
二、logistic回归分析(一)logistic回归的分类(1)二分类资料logistic回归:因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。
非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。
(2)多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。
队列研究(cohort study):也称前瞻性研究、随访研究等。
是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。
logistic回归分析
表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。
《logistic回归分析》PPT课件
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1
p( y
1|
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
21
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。
logistic回归分析
hdl
-.914
.432
4.484
1
.034
.401
.172
.934
ldl
.017
.416
.002
1
.967
1.017
.450
2.300
Constant -20.207
4.652 18.866
1
.000
.000
a. Vari able(s) ente red o n step 1: 性 别 , 年 龄 , 学 历 , 体 重 指 数 , 家 族 史 , 吸 烟 , 血 压 , 总 胆 固 醇 , 甘 油 三 脂 , hd l, ldl.
1 p
1
1 exp( 0 1 X 1 p X p )
模 型
ln
1
P P
=0
1
X1
2
X
2
m X m log itP
参 数
常数项 0
表示暴露剂量为0时个体
的
发病与不发病概率之比的自然对数。
意 义
回归系数 j ( j 1,2,, m) 表示自变量 X j 改变一个单位时
t j
t j
j (c1 c0 )
即 ORj exp[ j (c1 c0 )]
若X
j
1 0
暴露 非暴露 , c1 c0 1,
0,
OR j
1
无作用
则有 ORj exp j , j >0, ORj 1 危险因子
0, ORj 1 保护因子
开始变量都在方程中,然后 按自变量因变量的贡献(P值的大 小)由大到小依次剔除,变量剔 除的条件是其P值大于规定的剔除 标准Remove, 缺省值 p(0.10)。
logistic回归模型讲稿
logistic回归模型讲稿Logitic回归分析模型2022-10-241各位老师,同学们大家上午好:非常感谢大家抽出宝贵的时间来参加沙龙,感谢我的导师对沙龙内容及PPT制作过程中的悉心指导,今天和大家一起分享的是在课题中用到的一种统计学分析方法,Logitic回归分析。
2这是CNKI学术搜索给出的近年来Logitic回归分析方法的学术关注度,由此可见,Logitic回归分析方法在当前学术研究中应用比较广泛、流行,关注度比较高,是进行科研数据分析不可缺少的利器。
3下面我将分以下几个部分对回归模型做详细的介绍:1.Logitic回归的基本概念与原理;2.Logitic回归的应用范畴;3.Logitic回归的类型及实例分析;这是本次沙龙的重点部分。
4.应用Logitic回归的注意事项;5.小结与答疑。
4首先来了解一下Logitic回归模型的基本概念与原理:Logitic回归又称「Logitic回归分析」,是一种「概率型非线性回归」,主要用于危险因素分析以及预后评估等方面,是目前流行病学和医学中最常用的分析方法之一。
近年来已逐渐成为发表高质量SCI论文必不可少的重要统计学分析利器。
Logitic回归本质上是一种用于研究二分类(或多分类)结局(y,因变量)与有关影响因素(某,自变量)之间关系的多因素分析方法。
5用比较通俗的话来解释它的基本原理,也就是说:用一组观察数据拟合Logitic模型,然后揭示若干个自变量某与一个因变量y之间的关系,结果反应了y对某的依存关系。
统计学的东西比较抽象,下面通过两张图再来重复解说一下。
6(1)与某一事件或某一疾病的结局有关的,存在很多可疑的影响因素,在这些可疑因素中包括促使结局发生的有关的一些危险因素、也包括抑制结局发生的有关的一些保护因素。
那么这些因素到底哪些是危险因素,哪些是保护因素呢?它们的危险及保护的程度大概有多少呢?7通过Logitic回归分析我们就可以看到详细的结果。
Logistic回归分析简介
Logistic回归分析简介Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。
1.应用范围:①适用于流行病学资料的危险因素分析②实验室中药物的剂量-反应关系③临床试验评价④疾病的预后因素分析2.Logistic回归的分类:①按因变量的资料类型分:二分类多分类其中二分较为常用②按研究方法分:条件Logistic回归非条件Logistic回归两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。
3.Logistic回归的应用条件是:①独立性。
各观测对象间是相互独立的;②LogitP与自变量是线性关系;③样本量。
经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。
4.拟和logistic回归方程的步骤:①对每一个变量进行量化,并进行单因素分析;②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。
可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。
③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。
可以采用双向筛选技术:a进入变量的筛选用score统计量或G 统计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔除。
logistic回归分析LogisticRegression课件
基础
logistic回归基于概率论、统计学、最优化理论等学科领域的知识。它是广泛使用的分类方法 之一,也是深度学习模型中的核心组成之一。
logistic回归的应用场景
logistic回归分析 LogisticRegressionppt课件
欢迎来到本次PPT,我们将会介绍logistic回归分析,它在解决分类问题方面具 有广泛的应用。我们将从简介、原理与方法、模型评估、Python实现、实例 分析以及总结展望几方面来深入剖析该模型。
什么是logistic回归?
概念
logistic回归实例分析:应用于信用评估领域
模型名称
准确率
AUC
LR模型
0.74
0.79
GBDT模型
0.78
0.81
logistic回归分析-总结与展望
1 总结
2 展望
logistic回归模型可以实现二分类的预测问题, 具有广泛的应用场景。通过最大似然估计和 梯度下降等方法,可以对模型进行训练和评 估。
ROC曲线与AUC值
ROC曲线
ROC曲线是根据一系列不同的分类阈值绘制出的,可 以评估模型的分类能力。曲线下面积越大,表明模 型分类性能越好。
AUC值
AUC值是ROC曲线下的面积,该值越大,模型的分类 能力越强。
数据预处理
1
数据探索
通过boxplot,heatmap等图形并进行离群值处理和缺失值处理
未来,logistic回归模型将以更加自适应化、 多样化的方式应用于各个领域,比如基于深 度学习的模型等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( 1) 1 1 1 1 1 ,当概率π≠1,π增大时,Odds增大,
特别当π趋于1时,Odds趋于+∞;反之,π减小Odds亦减小, π=0时,Odds=0,Odds与概率π是一一对应和单调递增关系。
当π1= π0时,由Odds1=Odds0,对应的OR=1;
P(Y 1| X 1) 1 P(Y 0 | X 1) 1 1
,对应的样本估计
”比“不发生出血症状”的优势(odds),取值范围是0至+∞。
类似地,在未服用该药品条件下,记π0=P(Y=1|X=1),样本估计 值为P0,发生出血症状比不发生出血症状的优势为
Odds0
P(Y 1| X 0) 0 P(Y 0 | X 0) 1 0
P0 c 0.0022 其样本估计值为 1 P0 d
服用该药品人群“发生出血症状”比“不发生出血症状”的优势
Odds1与未服用该药品人群“发生出血症状”比“不发生出血症状
”的优势Odds0之比,称优势比(Odds Ratio,OR),具有概率风险的 含义。
表21-1 上消化道出血症状与非甾体类抗炎药的关系 出血例数(Y=1) 服用该药(X=1) 未用该药(X=0) 155(a) 96(c) 未出血例数(Y=0) 46981(b) 44538(d) 合计 47136(a+b) 44634(c+d)
服用非甾体类抗炎药(有暴露史)人群中,发生上消化道出血症
logistic回归概率模型,一般简称为二分类logistic回归模型。
当参数β1为正数时,该函数的集合形状呈拉长的“S”行曲线, 时间发生概率π随X的增加二单调增加,称自变量X为事件发生的 危险因素;
当β1为负数时,为拉长的反“S”型曲线,π随X的增加而单调减 小,称自变量X为事件发生的保护因素。
j 0 bj 2 W Sb j
2
H0 成立时,统计量近似服从自由度为1 的2分布。
6. logistic回归模型的拟合程度评价
1ogistic回归模型的拟合优度是通过比较模型预测的与实际观测的事件 发生和不发生的频数有无差别来进行检验。如果预测值与实际观测值
四、 多自变量logistic回归
例21-2 为探讨糖尿病与血压、血脂等因素的关系,某研究者对56 例糖尿病患者和65例对照者进行病例-对照研究,收集了性别、年 龄、职业、体重指数、家族史、吸烟、血压、总胆固醇、甘油三 脂、高密度脂蛋白、低密度脂蛋白11个因素的资料,各因素的赋
值见表21-1下表,数据见表21-2。
以未包含某个或几个变量的模型为基础,保留模型中参数的估 计值,并假设新增加的参数为零,计算对数似然函数的一价偏 导数(又称有效计分)及信息距阵,两者乘积即为计分检验的 统计量S 。样本量较大时, S近似服从自由度为待检验变量个
数的2分布。
③
Wald检验 (wald test)
针对单个回归系数的假设检验。 检验假设H0: 检验统计量
t j t j m m
j (a b)
即
ORj exp[ j (a b)]
调整优势比(adjusted odds ratio)
1 如果 Xj 赋值为 X j 0
暴露 非暴露
则暴露组与非暴露组的优势比为
OR j exp( j )
βj=0时, ORj =1,对疾病发生不起作用; βj0时, ORj 1是一个危险因子;
Wald检验 (Wald test)
① 似然比检验(likelihood ratio test)
当一个模型能够从另一个模型中通过令若干自变量的系数为0得到,
称这个模型嵌套于另一模型。自变量较多的模型称为“完全”模型, 相应的另一个模型称为“简化”模型。
似然比统计量计算公式为:
log(odds) = + 1x1 + 2x2 + 3x3 + 4x4 log(odds) = + 1x1 + 2x2 (model 1) (model 2)
e ( 0 1 X 1 2 X 2 m X m ) 1 e ( 0 1 X 1 2 X 2 m X m )
2. logistic回归模型参数的意义 某一自变量的两个不同取值Xj1=a、 Xj2=b
Pa /(1 Pa ) lnOR j ln P /(1 P ) b b ( 0 j a t X t ) ( 0 j b t X t )
OR
1 (1 1 ) 0 (1 0 )
其样本估计值为 OR
P1 (1 P ad 1) = 1.5306 P0 (1 P0 ) bc
其含义是以未服用该药品人群作为参照类,服用该药品人 群“发生出血症状”的优势是参照类“发生出血症状”优 势的1.5306倍。 由于 Odds 1
状的条件概率P(Y=1|X=1)=π1,其样本估计值为 P1 a b ;
a
服用该药品人群中,不发生上消化道出血症状的条件概率
P(Y=1|X=1)=1-π1,相应的样本估计值为 1 P1 a b ;
b
上述两个条件概率之比,Odds 值为
1
P a 1 0.0033 ,这两个条件概率之比,称为“发生出血症状 1 P b 1
exp(bj Z / 2 SE(bj ))
5. 回归系数整体检验
检验模型中的所有自变量整体来看是否与所研究事件的对数优势比存
在线性关系。
检验假设H0: 检验的方法:
0
1 2 m
似然比检验(likelihood ratio test)
计分检验 (score test)
医学统计学
医学统计学
第二十一章
logistic 回归分析
公共卫生学院卫生统计学教研室 裴磊磊
Email:peileilei424@
章节概要
第一节 非条件logistic回归
第二节 条件logistic回归
第三节 logistic回归的应用及其注意事项
logistic回归分析
渐近正态性:随着样本量增大,最大似然参数估计值的分布 趋近于正态分布。因此可对参数进行假设检验和计算参数的 置信区间。
4. 优势比OR的区间估计
当样本量较大时,logistic回归模型参数的最大似然估计具有渐近正 态性。所以可以利用正态近似法计算总体回归系数的100(1- )% 可信区间。 计算公式为 b j Z / 2 SE (b j ) 其中 SE (b j ) 为回归系数,bj 为渐进标准误, Z / 2 为标准正态分布的 界值。 OR的100(1- )%可信区间为
当 P << 1,优势比可以作为相对危险度的近似估计。
P1 /(1 P1 ) P1 OR RR P0 /(1 P0 ) P0
二、Logit变换与单自变量Logistic方程
概率π的Logit变换,记为logit π,并有
log it ln 1
ln Odds
0 1X
公式两边同时做以e为底的指数变换
x Odds x exp( 0 1X) 1 x
初等数学变换
exp( 0 1X) P(Y 1| X) x 1 exp( 0 1X)
上述三式是等价的,两者均可称为以Y(取值为0和1)为因变量的
势为β0+ β1。
ln(OR) ln 1 ln 0 ( 0 1 1) ( 0 1 0) 1 1 1 1 0
常数项β0是未服用该药品人群发生出现症状优势的自然对数, 自变量回归系数β1是优势比的自然对数。
二分类反应变量 多分类有序反应变量 多分类无序反应变量
第一节 非条件logistic回归
一、优势与优势比
例21-1 非甾体类抗炎药上市前的研究中,已知可能引起亚临床上消 化道出血症状。因此,1980年Strom和Carson开展了大样本上市后 安全性评价,以确定该药品是否引起上消化道出血不良反应。回顾 性跟踪调查的47136例服用该药的患者中,由155例上消化道出血; 同期没有服用该药的44634例对照中,由96例上消化道出血。
βj<0时, ORj < 1是一个保护因子。
3. logistic回归的参数估计
采用最大似然估计MLE(maximum likelihood estimate)估计
logistic回归模型的参数,即建立一个样本的似然函数。
最大似然估计就是确定模型中的参数使得在一次抽样中获得现
有样本的概率为最大,即似然函数达到最大值。对似然函数的
三、 回归系数的解释
以例21-1为例,建立logistic回归方程:
x log it x ln 1 x
0 1X
在未服用该药品条件下(X=0),记上消化道出血与不出血的对数 优势为β0,即ln(Odds0)=β0;
在服用该药品条件下(X=1),记上消化道出血与不出血的对数优
由于Odds取值范围时0至+∞, logit π取值范围时-∞到+ ∞,并 且是概率π的单调增函数, π的任何变化都会反映为logit π的改 变,于是可以把logit π假设为自变量X的线性函数。
x log it x ln 1 x
0 1X
x log it x ln 1 x