第11章 Logistic回归分析
logistic回归分析
0
1X1
2X2
mXm
10
若 Z 0 1X1 2 X 2 m X m 则 P 1 1 eZ
1P
00..55
0
Z
-4 -3 -2 -1 0 1 2 3 4
图16-1 logistic函数的图形
11
2.模型参数的意义
ln P 1 P
0
1X1
2X2
mXm
logitP
常数项β0表示暴露剂量为0时个体发病与
20
二、logistic回归模型的参数估计
数据格式: 同多元线性回归分析的数据格式 参数估计:
最大似然估计(maximum likelihood
estimate,MLE)法 可利用统计软件实现。
21
优势比估计: 某一因素两个不同水平优势比的估计值为
OR j exp bj C1 C0
Xj只有两个水平时ORj的1-α可信区间为:
研究二分类或多分类观察结果与一些影响
因素之间关系的一种多变量分析方法。
7
一、基本概念
二分类变量
连续变量
因变量Y=
1 0
阳性率P:(0,1)
ln
P 1-P
:
(,
)
Logit变换
8
ln P 1 P
0
1X1
2X2
mXm
P
1
1 exp[(0 1 X1 2 X 2 L m X m )]
32
33
34
Variables in the Equation
S1ta ep
x6 Constant
S2tb ep
x5 x6
Constant
B 2.826 -.523 1.828 3.059
LOGISTIC回归分析
LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
《SPSS统计分析》第11章 回归分析
返回目录
多元逻辑斯谛回归
返回目录
多元逻辑斯谛回归的概念
回归模型
log( P(event) ) 1 P(event)
b0
b1 x1
b2 x2
bp xp
返回目录
多元逻辑斯谛回归过程
主对话框
返回目录
多元逻辑斯谛回归过程
参考类别对话框
保存对话框
返回目录
多元逻辑斯谛回归过程
收敛条件选择对话框
创建和选择模型对话框
返回目录
曲线估计
返回目录
曲线回归概述
1. 一般概念 线性回归不能解决所有的问题。尽管有可能通过一些函数
的转换,在一定范围内将因、自变量之间的关系转换为线性关 系,但这种转换有可能导致更为复杂的计算或失真。 SPSS提供了11种不同的曲线回归模型中。如果线性模型不能确 定哪一种为最佳模型,可以试试选择曲线拟合的方法建立一个 简单而又比较合适的模型。 2. 数据要求
线性回归分析实例1输出结果2
方差分析
返回目录
线性回归分析实例1输出结果3
逐步回归过程中不在方程中的变量
返回目录
线性回归分析实例1输出结果4
各步回归过程中的统计量
返回目录
线性回归分析实例1输出结果5
当前工资变量的异常值表
返回目录
线性回归分析实例1输出结果6
残差统计量
返回目录
线性回归分析实例1输出结果7
返回目录
习题2答案
使用线性回归中的逐步法,可得下面的预测商品流通费用率的回归系数表:
将1999年该商场商品零售额为36.33亿元代入回归方程可得1999年该商场 商品流通费用为:1574.117-7.89*1999+0.2*36.33=4.17亿元。
管理定量分析课程第11章:回归分析
目录
第一节 一元线性回归 第二节 多元线性回归 第三节 Logistic回归 第四节 SPSS在回归分析中的应用
“回归”(regression)是由英国著名生物学家兼统计学家 高尔顿(Francis Galton了1078 对父亲及其儿子的身高数据,他发现这些数据的散点图大 致呈直线状态,也就是说,总的趋势是父亲的身高增加时 ,儿子的身高也倾向于增加。
3
回归分析主要是研究如何根据自变量X的已知值来估计或预测因 变量Y的值;
回归分析和相关分析都是对多个变量之间依存关系的分析。只有 存在相关的变量才能进行回归分析,相关程度愈高,回归效果越 好。
相关分析与回归分析的不同点: 相关分析是研究变量之间的依存关系,但不区分哪个是自变量,
哪个是因变量;而回归分析不仅研究变量之间的依存关系,而且 要根据研究对象和目的,确定哪个是自变量(解释变量),哪个 是因变量(被解释变量); 相关分析主要是研究变量之间关系的密切程度和变化的方向;而 回归分析要通过建立回归模型和控制自变量来进行估计和预测。
的方差都相同(equal variance),即满足“等方差性”的假设。 (4)各个 间相互独立,即对于任何两个随机误差ei和 ej(i≠j )其协
方差等于零,即Cov(ei, ej )=0( i≠j ),这称之为满足“独立性”( independent)的假设。 综上所述,随机误差 必须服从独立的相同分布。
回归系数)。
7
二、一元线性回归模型的参数估计 普通最小二乘法(ordinary least square,OLS)
8
9
以研究与开发(R&D)投入与国内生产总值(GDP)的关系为例 来说明一元线性回归模型的求解问题。1989~2010年,中国 R&D投入与GDP相关统计数据如表11-1所示。
logistic回归分析PPT优秀课件
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;
论文经典方法:Logistic回归分析及其应用PPT课件
04.02.2021
.
5
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
04.02.2021
.
6
寻找合适的模型
进行logit变换
p
logit(p) = ln( 1—-—p ), p为y=1所对应的概率 0.1
logit(0.1) = ln( ——— ) = ln(0.1/0.9) 1 - 0.1
称此为logistic回归模型
04.02.2021
.
8
P = ez / (1 + ez ) ea+b1x1+b2x2+… +bkxk
P = 1 + ea+b1x1+b2x2+… +bkxk
此为非条件logistic回归模型 应用于成组数据的分析
04.02.2021
.
9
自变量取定一些值时,因变量取0、1的概率就是 条件概率,对条件概率进行logistic回归,称为
04.02.2021
.
11
分析的一般步骤
变量的编码 哑变量的设置和引入 各个自变量的单因素分析 变量的筛选 交互作用的引入 建立多个模型 选择较优的模型 模型应用条件的评价 输出结果的解释
04.02.2021
.
12
1.变量的编码
变量的编码要易于识别 注意编码的等级关系 改变分类变量的编码,其分析的意 义并不改变。 牢记编码
04.02.2021
.
31
条件logistic回归
研究中有N个配比组,每组中n个病 例配m个对照者。这时,各个研究 对象发生某事件的概率即为条件概 率。 适用于 配比设计的病例-对照研究 精细分层设计的队列研究
Logistic回归分析
注:因为p>a,所以认为样本实际值得到的分布与 预测值得到的分布无显著差异,模型拟合优度较好 。
33
注:模型整体的准确度不高,对不购买人群的准确 率极高,对购买人群的准确率很低。
34
注:预测类别图上可以看出,预测概率在0.4附近的 样本预测准确率相对最低。事实上,无论用什么分 类方法,这类样本身就是最难预测的。
Hosmer—Lemeshow检验:通过模型可以计算出给 定解释变量取值时被解释变量取1的概率预测。如 果模型拟合较好,则应给实际值为1的样本以较高 的概率,给实际值为0的样本以低的概率预测值。 于是对概率预测值进行分位数分组(通常为10分位 数,将样本分为10组),预测概率大小分得的10组 和实际观测值0/1类别分组形成了交叉列联表。由 观测频数和期望频数计算卡方统计量,即Hosmer— Lemeshow统计量,它服从自由度为n-2的卡方分布 ,n为组数。
39
模型拟合优度的评价与检验 目的:第一,回归方程能够解释被解释变量变差的 程度,即线性回归的部分能解释LogitP的程度,这 一点与一般线性回归分析是相同的;第二,由回归 方程得到的概率进行分别判别的准确率。 方法: 第一目的:Cox &Snell R2 统计量和 Nagel ker ke R2 统计量 第二目的:混淆矩阵(错判矩阵)和 Hosmer-Lemeshow检验
16
2 L0 N 1 ( ) 2 Cox & Snell R 统计量= L1
,N为样本容量。 该统计量类似于一般线性模型中的R方,统计量的值 越大表明模型的拟合优度越高。不足之处在于其取值 范围无法确定,不利于模型之间的比较。
Cox &Snell R 2
Logistic回归分析
对于模型(10-115),采用最大似然估计法(Maximum likelihood estimation,MLE)进行估 计,它与用于估计一般线性回归模型参数的普通最小二乘法(OLS)形成对比。OLS 通过使 得样本观测数据的残差平方和最小来选择参数,而最大似然估计法通过最大化对数似然值 (log likelihood)估计参数。最大似然估计法是一种迭代算法,它以一个预测估计值作为参数 的初始值,根据算法确定能增大对数似然值的参数的方向和变动。估计了该初始函数后,对 残差进行检验并用改进的函数进行重新估计,直到收敛为止(即对数似然不再显著变化) 。 [例 10-1]设有住房及收入情况的统计资料如表 10-55所示。 表 10-55 住房及收入数据
①
② ③
特别指出,本章介绍的 Logistic 回归,应与第八章的 Logistic 曲线模型(即 S 或倒 S 形曲线)相区别。 与第八章的符号表示不同,本章中 p 表示事件发生的概率,而用 k 表示自变量个数。 (11-1)是一个线性概率模型,可用 WLS 进行估计,但仍存在许多问题。
186
《实用现代统计分析方法与 SPSS 应用》初稿/2000 年/张文璋
0 1 1
k k
0
1
1
k
k
表 10-54 p 和 logit(p)之间的关系(一部分)
p
Logit(p)
0.3 -0.847
0.4 -0.405
0.5 0.0
0.6 0.405
0.7 0.847
0.8 1.386
0.9 2.197
0.95 2.944
0.99 4.595
第二节
Logistic 回归模型的估计与检验
住房 Y
logistic回归分析
队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:
logistic回归分析PPT精品课程课件讲义
问题的提出(续)
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等;
• 分析“母亲怀孕期间体重增加”对“新生儿出 生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型: P=α +βX • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大 于1或小于0,无法从医学意义进行解释, 显然不适 宜用线性回归建立预测模型。
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小,确定各因素对CHD发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大 ,其他依次为相对体重、年龄、 胆固醇、ECG和BP。
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下 CHD的发病率。如某受试者A暴露于因素xi的情况 为: X=(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因 素的条件下,12年间CHD的发病率为: PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
小 结
• (1)logistic回归分析要求因变量是二分变量,或任何取值
为0或1的属性数据。
• (2)logistic回归分析中对自变量的正态性、方差齐性不作
要求,对自变量类型也不作要求;
• (3)自变量与因变量(y)之间是非线性关系,但是与logit y之
间应符合线性关系。
1. 定群研究资料分析…弗明汉心脏研究 742 名居住在弗明汉年龄为 40-49 岁的男性,在各自暴露不 同水平的影响因素(详见下表中的7种因素),经 12年追踪观察 CHD发病情况。根据此742名受试者每人暴露各项因素的水平 和 CHD 发病与否的资料,采用多因素 LOGISTIC 回归模型进
《logistic回归》课件
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
Logistic回归分析(共53张PPT)
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
分类资料的回归分析
第十一章分类资料的回归分析――Regression菜单详解(下)(医学统计之星:张文彤)在很久很久以前,地球上还是一个阴森恐怖的黑暗时代,大地上恐龙横行,我们的老祖先--类人猿惊恐的睁大了双眼,围坐在仅剩的火堆旁,担心着无边的黑暗中不知何时会出现的妖魔鬼怪,没有电视可看,没有网可上...我是疯了,还是在说梦话?都不是,类人猿自然不会有机会和恐龙同时代,只不过是我开机准备写这一部分的时候,心里忽然想到,在10年前,国内的统计学应用上还是卡方检验横行,分层的M-H卡方简直就是超级武器,在流行病学中称王称霸,更有那些1:M的配对卡方,N:M的配对卡方,含失访数据的N:M 配对卡方之类的,简直象恐龙一般,搞得我头都大了。
其实恐龙我还能讲出十多种来,可上面这些东西我现在还没彻底弄明白,好在社会进步迅速,没等这些恐龙完全统制地球,Logistic模型就已经飞速进化到了现代人的阶段,各种各样的Logistic模型不断地在蚕食着恐龙爷爷们的领地,也许还象贪吃的人类一样贪婪的享用着恐龙的身体。
好,这是好事,这里不能讲动物保护,现在我们就远离那些恐龙,来看看现代白领的生活方式。
特别声明:我上面的话并非有贬低流行病学的意思,实际上我一直都在做流行病学,我这样写只是想说明近些年来统计方法的普及速度之快而已。
据我一位学数学的师兄讲,Logistic模型和卡方在原理上是不一样的,在公式推演上也不可能划等号,只是一般来说两者的检验结果会非常接近而已,多数情况下可忽略其不同。
§10.3 Binary Logistic过程所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在0~1之间,回归方程的应变量取值可是在实数集中,直接做会出现0~1范围之外的不可能结果,因此就有人耍小聪明,将率做了一个Logit变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。
logistic回归分析
表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。
logistic回归分析
hdl
-.914
.432
4.484
1
.034
.401
.172
.934
ldl
.017
.416
.002
1
.967
1.017
.450
2.300
Constant -20.207
4.652 18.866
1
.000
.000
a. Vari able(s) ente red o n step 1: 性 别 , 年 龄 , 学 历 , 体 重 指 数 , 家 族 史 , 吸 烟 , 血 压 , 总 胆 固 醇 , 甘 油 三 脂 , hd l, ldl.
1 p
1
1 exp( 0 1 X 1 p X p )
模 型
ln
1
P P
=0
1
X1
2
X
2
m X m log itP
参 数
常数项 0
表示暴露剂量为0时个体
的
发病与不发病概率之比的自然对数。
意 义
回归系数 j ( j 1,2,, m) 表示自变量 X j 改变一个单位时
t j
t j
j (c1 c0 )
即 ORj exp[ j (c1 c0 )]
若X
j
1 0
暴露 非暴露 , c1 c0 1,
0,
OR j
1
无作用
则有 ORj exp j , j >0, ORj 1 危险因子
0, ORj 1 保护因子
开始变量都在方程中,然后 按自变量因变量的贡献(P值的大 小)由大到小依次剔除,变量剔 除的条件是其P值大于规定的剔除 标准Remove, 缺省值 p(0.10)。
logistic回归分析.
取 “-”,则xj增大,则xj 增大,则P减小, 即抑制阳性结果的发生,为“保护因素”。
(2)大小 :∣ j1 ∣越大,则xj 对结果的影响也就越大。
Logistic回归分析
3.OR值的计算和意义
影响因素由X▲ 变化到X* 时,有 :
m
ln OR
ˆ
j
(
x
*
j
x
j
)
j 1
(1)对多指标的共同效应进行评价:
m
ˆ ˆ j x*j
OR
p* / q* p / q
e j1
m
ˆ
ˆ
j
x
j
e j1
m
ˆ
j
(
x*j
x
j
)
OR e j1
若OR&水平,
即“不利因素”占主导地位;
若OR<1,则处于X*水平下的阳性结果发生风险要低于X▲水平,
Logistic回归分析
数学模型:
e 1X1 2 X 2 m X m p 1 e 1X1 2 X 2 m X m
Logistic回归分析
一、基本思想
用模型去描述实际资料时,须使 得理论结果与实际结果尽可能的一致。
Logistic回归分析
二、基本原理
Logistic回归分析
三、基本方法
最大似然函数法
四、参数解释
1. 偏回归系数j 的意义
与指标的计量单位有关,从而无实际 的解释意义。
Logistic回归分析
消除xj量纲的影响
2.标准化偏回归系数j1的意义
xij
xij x sj
j
(1)符号:取 “+”,则xj 增大,则P增大,即促进阳性 结果的发生,为“不利因素”;
logistic回归分析LogisticRegression课件
基础
logistic回归基于概率论、统计学、最优化理论等学科领域的知识。它是广泛使用的分类方法 之一,也是深度学习模型中的核心组成之一。
logistic回归的应用场景
logistic回归分析 LogisticRegressionppt课件
欢迎来到本次PPT,我们将会介绍logistic回归分析,它在解决分类问题方面具 有广泛的应用。我们将从简介、原理与方法、模型评估、Python实现、实例 分析以及总结展望几方面来深入剖析该模型。
什么是logistic回归?
概念
logistic回归实例分析:应用于信用评估领域
模型名称
准确率
AUC
LR模型
0.74
0.79
GBDT模型
0.78
0.81
logistic回归分析-总结与展望
1 总结
2 展望
logistic回归模型可以实现二分类的预测问题, 具有广泛的应用场景。通过最大似然估计和 梯度下降等方法,可以对模型进行训练和评 估。
ROC曲线与AUC值
ROC曲线
ROC曲线是根据一系列不同的分类阈值绘制出的,可 以评估模型的分类能力。曲线下面积越大,表明模 型分类性能越好。
AUC值
AUC值是ROC曲线下的面积,该值越大,模型的分类 能力越强。
数据预处理
1
数据探索
通过boxplot,heatmap等图形并进行离群值处理和缺失值处理
未来,logistic回归模型将以更加自适应化、 多样化的方式应用于各个领域,比如基于深 度学习的模型等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
p ln 应。统计学中,常把 1 p 称为 Logit 变换。
Logistic 回归方程:
p ln 1 p =
0 1 x1 n x n
————————————
≥40岁
————————————
MI 服OC 合计 21 47 未服OC 26
非MI 合计 17 59 76 38 85 123
MI 18 88
—————————————————————————————————
非MI 合计 7 95 25 183 208
———————————————————————————
= 17. 88 P〈0. 01
268
331
———————————————————————————————————
40岁以上服用OC的比例远小于40岁以下组。
Mantel-Haenszel分层分析法
按年龄分层,可以得到下表:
—————————————————————————————————
〈40岁
非条件Logistic回归
• Logistic回归分析在医学研究中应用广泛。
目前主要是用于流行病学研究中危险因素 的筛选,但它同时具有良好的判别和预测 功能,尤其是在资料类型不能满足Fisher判 别和Bayes判别的条件时,更显示出Logistic 回归判别的优势和效能。本研究对Logistic 回归方程的判别分析进行了探讨,并用一 实例介绍其应用。
非条件Logistic回归
• 研究者将所研究的问题转换一个角度,不
是直接分析y与x的关系,而是分析y取某个 值的概率P与x的关系。例如,令y为1,0变 量,y=1表示有病,y=0表示未患病;x是 与患病有关的危险因素。如果P表示患病的 概率,即P=prob(y=1),那么研究患病 的概率P与危险因素x的关系就不是很困难 的事情了。
建立的logistic 回归方程形式为: Logit P = -0.2478 + 1.3107 x X取值:1 使用过雌激素 0 未使用过雌激素
使用过雌激素的Logit 为: Logit P(x=1) = -0.2478 + 1.3107 = 1.063 即:Ln (p1/q1) = 1.063 所以,使用过雌激素的比值(odds) 为: p1/q1 = exp(1.063) =2.895
未使用过雌激素的Logit 为: Logit P(x=0) = -0.2478 + 0 = -0.2478 即:Ln (p0/q0) = -0.2478 所以,未使用过雌激素的比值(odds) 为: p0/q0 = (exp(-0.2478)) = 0.781 使用过雌激素相对于未使用过雌激素的比值比为: OR (odds ratio) = 2.895 / 0.781 = 3.709
非条件Logistic回归
• 医学研究中经常需要分析分类型变量的问题。比如,生存
与死亡、有病与无病、有效与无效、感染与未感染等二分 类变量。研究者关心的问题是,哪些因素导致了人群中有 些人患某种病而有些人不患某种病,哪些因素导致了某种 治疗方法出现治愈、显效、好转和无效等不同的效果等。 这类问题,实质上是一个回归问题,因变量就是上述提到 的这些分类型变量,自变量x是与之有关的一些因素。但 是,这样的问题却不能直接用线性回归分析方法解决,其 根本原因在于因变量是分类型变量,严重违背了线性回归 分析对数据的假设条件。那么应该怎样解决这个问题呢?
不同年龄组内服用避孕药的比例
——————————————————————————
年龄
服OC
不服OC
合计
——————————————————————————
〈40 ≥40
38(0.31) 25(0.12)
85 183
123 208
——————————————————————————
合计
2
63
•
问题的提出
• 在流行病学研究中,经常遇到因变量为离散型分
类变量的情况。如治疗效果的无效好转、显效、 痊愈;不同染毒剂量下小白鼠的存活或死亡;在 某种暴露下的发病与不发病等。最常见的情况是 因变量为二分变量的问题。 多元线性回归的局限性 经典流行病学统计分析方法—分层分析的局限性
• •
1.两种主要的流行病学设计 1)病历对照研究 2)队列研究 2.判断结局(疾病)和暴露(因素)联系强弱的指标 1) 相对危险度:RR = p1 / p0 p1: 暴露于某个危险因素下发病的概率 p0: 不暴露于某个危险因素下发病的概率(对照) 2)比值比: OR = {P(D=1|E=1)/P(D=0|E=1)} / {P(D=1|E=0)/P(D=0|E=0)} D=1: 患某种疾病, D=0:不患某种疾病 E=1: 暴露于某个危险因素, E=0: 不暴露于某个危险因素 可以简单地表述成:OR = (p1 / q1) / (p0 / q0) p1 : 暴露于某个危险因素下发病的概率 q1 : 暴露于某个危险因素下不发病的概率 p0 : 不暴露于某个危险因素下发病的概率 q0 : 不暴露于某个危险因素下不发病的概率
非条件Logistic回归
• 分析因变量y取某个值的概率P与自变量x的关系,就是寻
找一个连续函数,使得当x变化时,它对应的函数值P不超 出[0,1]范围。数学上这样的函数是存在且不唯一的, Logistic回归模型就是满足这种要求的函数之一。与线性 回归分析相似,Logistic回归分析的基本原理就是利用一 组数据拟合一个Logistic回归模型,然后借助这个模型揭 示总体中若干个自变量与一个因变量取某个值的概率之间 的关系。具体地说,Logistic回归分析可以从统计意义上 估计出在其它自变量固定不变的情况下,每个自变量对因 变量取某个值的概率的数值影响大小。 Logistic回归模型有条件与非条件之分,前者适用于配对 病例对照资料的分析,后者适用于队列研究或非配对的病 例-对照研究成组资料的分析。
合计
a+c
b+d
—————————————————————————————
暴露者发病概率 p1 = a /(a+b); 不暴露者发病概率 p0= c/(c+d) OR= ad/(bc)
用发病概率来表示四格表,可以得到四格表的另外一种表示形式: 四格表的另外一种表达形式(1) ————————————————————————————
不暴露者发病概率: p0 = exp(α)/[1+ exp(α)] 不暴露者不发病概率: q0= 1- p0 = 1/[1+ exp(α)] ;
用发病概率来表示四格表,可以得到四格表的另外一种表示形式:
三、Logistic 回归和OR值间的关系
p ln 1 p = 1 x1
p X1 1 q X1 1
1 1
p 1 x1 e 1 p
e 1 x1 e 1 1 1 = e 1 x1 = e 1 0 =e
发病(y=1)
p1
不发病(y=0)
1- p1
————————————————————————————
暴露(x=1)
不暴露(x=0)
p0
1- p0
—————————————————————————————
暴露者发病概率: p1 = exp(α + βx)/[1+ exp(α + βx)]
暴露者不发病概率: q0= 1- p1 = 1/ [1+ exp(α + βx)];
则,暴露对于不暴露的比值比(odds ratio)为: OR = exp(α + β ) / exp(α) = exp(β)
举例2
使用雌激素与子宫内膜癌病例对照研究
(病例对照,曾光《现代流行病学方法与应用》,P76)
以一个最简单的Logistic回归模型做为例子。
—————————————————————————— 使用过 未使用过 合计 —————————————————————————— 病例 55 128 183 对照 19 164 183 —————————————————————— 合计 74 293 366 ——————————————————————————
分层分析的局限性
只能控制少数因素(分层因素过多,
每个格子中的样本例数太少) 定量资料需要分组,信息丢失 不能对因素作用大小进行定量分析 (交互作用)
y
y = log2x
二、Logistic 回归原理
0
1
经过数理统计学家证明:把疾病概率 P 转换成
p ln 1 p ,会使该回归方程的统计性能更好一些。而且, p ln 在经过转换以后, 1 p 的值域为-∞到+∞,而且这
( 0 1 x1 n x n )
,
而且有:
e p ( 0 1 x1 n x n ) 1 e
Logistic 模型中系数的意义: 回归系数的流行病学意义是:在其它自变量都 不变的条件下,当因素X变化一个测量单位时所引起的 OR值自然对数的改变量。
第11章 Logistic回归分析
学习目标
• 了解Logistic回归模型的建立和假设检验; • 了解Logistic回归模型的应用领域; • 掌握Logistic回归模型系数的解释,及回归系数与
• • • • •
OR值之间的关系; 掌握Logistic回归过程步; 掌握哑变量的设置和结果的解释; 掌握多元Logistic回归模型的逐步过程法和系数的 解释; 了解条件Logistic回归的应用; 掌握条件Logistic回归的SAS程序;