第九讲 Modeler分类预测:logistic回归.
《Logistic回归》课件
公式
f(x)=1/(1+e^-x)其中,x是一个实数,源自表示 自然对数的底数。特点
• 输出范围在0-1之间,代 表了一个概率值;
• 函数有单峰性,中心对 称,可以确定最大值和
• 最在小输值入;接近0时函数近 似于线性函数。
应用场景:二元Logistic回归
乳腺癌预测
贷款审核
二元Logistic回归被广泛应用于医 学界用于识别患有乳腺癌的女性。
数据预处理
4
的潜在关系和规律。
对需要进行缩放、归一化、标准化等处
理的变量进行预处理。
5
模型拟合
将数据划分训练集和测试集,通过模型 对训练集进行拟合,并评估模型预测能 力。
模型评估方法
混淆矩阵
将预测结果与真实结果进行比对,计算假正率、假负率、真正率和真负率等指标。
ROC曲线
通过绘制真正率与假正率的曲线,评估模型的预测能力。
AUC指标
ROC曲线下的面积就是AUC,AUC越大说明模型预测结果越准确。
常见模型优化方法
1 数据增强
通过合成数据或者样本扩 增等方法,增加数据量, 提高模型泛化性能。
2 特征选择
选择对于问题最重要的变 量,避免过拟合。
3 模型集成
通过结合多个模型的结果, 提高整体预测能力。
应用探索:Logistic回归的扩展
2 作用
通过逻辑函数将线性变量转化为概率值,从 而进行二元分类。
3 优点
简单易懂、易于解释和使用,对于大规模数 据集有效率。
4 缺点
只适用于二元分类问题,并且在分类较为复 杂的非线性问题上表现较差。
sigmoid函数
介绍
sigmoid函数是Logistic回归模 型中核心的激活函数,将输入 值映射到0-1的概率分布区间内。
Logistic 回归模型
• 反对数变换得到 OR e1
11
实例1
研究急性心肌梗塞(AMI)患病与饮酒 的关系, 采用横断面调查。
饮酒 不饮酒 合计
(X=1) (X=0)
患病(y=1) 55 74 129
未患病(y=0) 104663 212555 317218
合计
104718 21262Odds分别为
O R e1e1 .7 9 1 7 5 96
95% CI=(4.3, 8.5)
34
实例3:Logistic模型的交互作用
• 由于本例模型为
L o g i t( P ) 0 1 x 1 2 x 2 3 x 1 x 2
• 3,P=,差别有统计学意义,可以认为吸烟 和家属史对患肺癌有交互作用。
33
实例3:Logistic模型的交互作用
• 由于本例模型为 L o g i t( P ) 0 1 x 1 2 x 2 3 x 1 x 2
• 对于无家属史,x2=0代入模型,得到
Logit(P)01x1
• 由回归系数与OR的关系,得到吸烟的:
2
数据分析的背景
• 单因素的分类资料统计分析,一般采用 Pearson 2进行统计检验,用Odds Ratio 及其95%可信区间评价关联程度。
• 考虑多因素的影响,对于反应变量为分 类变量时,用线性回归模型P=a+bx就不 合适了,应选用Logistic回归模型进行统 计分析。
3
Logistic回归模型
• 在本例中,对于同为吸烟或不吸烟的对象 而言(x2相对固定不变),
• 饮酒(x1=1)的对数Odds为
L o g (O d d s x 1 1 )0 1 2 x 2
• 不饮酒(x1=0)的对数Odds为
Logistic回归
数据挖掘matlab神经网络的matlab gui实现数据挖掘是通过自动或半自动化的工具对大量的数据进行探索和分析的过程回归逻辑回归分类:机器学习2014-07-16 15:42 21514人阅读评论(4) 收藏举报逻辑回归什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。
正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。
这一家族中的模型形式基本上都差不多,不同的就是因变量不同。
•如果是连续的,就是多重线性回归;•如果是二项分布,就是Logistic回归;•如果是Poisson分布,就是Poisson回归;•如果是负二项分布,就是负二项回归。
Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。
所以实际中最常用的就是二分类的Logistic回归。
Logistic回归的主要用途:•寻找危险因素:寻找某一疾病的危险因素等;•预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;•判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
Logistic回归主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。
例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。
这里的因变量就是是否胃癌,即“是”或“否”,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。
自变量既可以是连续的,也可以是分类的。
常规步骤Regression问题的常规步骤为:1. 寻找h函数(即hypothesis);2. 构造J函数(损失函数);3. 想办法使得J函数最小并求得回归参数(θ)构造预测函数hLogistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数),函数形式为:Sigmoid 函数在有个很漂亮的“S”形,如下图所示(引自维基百科):下面左图是一个线性的决策边界,右图是非线性的决策边界。
logistic回归 ppt课件
比值比
OR=[P1/(1-P1)]/[P2/(1-P2)]
比值比 Odds Ratio
Odds=P/(1-P) 暴露组: P=a/(a+b) 1-P= b/(a+b) Odds=a/b 非暴露组:P=c/(c+d) 1-P= d/(c+d) Odds=c/d
病例 对照
暴露组
非暴露组
a c
b d
P ad 1 /(1 P 1) OR P0 /(1 P0 ) bc
相同,如下表: X1 暴露(X2=1) 非暴露(X2=0) X1 X1 X2 X2+1 X2 X3 X3 X3
Logistic回归系数与OR的关系:
P * ) exp b0 b1 x1 b2 ( x2 1) b3 x3 暴露: ( 1 P expb0 b1x1 b2 x 2 b3x3 b2
当年龄为a时, odds(Y=1|age=a) = exp(-4.353 + 0.038 a) 当年龄为a+1, odds(Y=1|age=a+1) = exp(-4.353 + 0.038 (a+1))
P ) exp b 0 b1x1 b 2 x 2 b 3 x 3 非暴露:( 1 P
p * ( ) 1 p exp(b 2 ) OR p 1 p
例:log odds (Y=1) = - 4.353 + 0.038 age
Y:妇女是否患有骨质疏松,Y=1为是,Y=0为否
1 , 2 ….. m分别为m个自变量的回归系数。 P ln( ) 取值:-∞ ~ +∞ 1 P
Logistic回归模型的函数
1.00
Logistic回归分析PPT课件
汕大医学院预防医学教研室
1
第一节 Logistic 回归
Logistic regression:
是研究分类变量统计分析的一种重要方 法。研究两水平或多水平反应变量与其影 响因子间关系的回归分析(线性回归分析: 应变量为连续计量资料)。 Logistic回归模型是一种概率模型, 通常以疾 病,死亡等结果发生的概率为因变量, 影响疾 病发生的因素为自变量建立回归模型。
19
• Logistic回归中的常数项(b0)表示,在不接触任 何潜在危险/保护因素条件下,效应指标发生与 不发生事件的概率之比的对数值。
• Logistic回归中的回归系数( bi )表示,某一因 素改变一个单位时,效应指标发生与不发生事件 的概率之比的对数变化值,即OR的对数值。
20
Logistic回归系数的意义
11
• (1)取值问题 • (2)曲线关联 • 反应变量与自变量的关系通常不是直线关
系,而是S型曲线。曲线回归时,往往采用 变量变换,使得曲线直线化,再进行直线 回归方程的拟合。能否考虑对所预测的因 变量加以变换。1970年,COX引入了用于 人口学领域的Logit变换。
12
概率P是以0.5为对称点,分布在0~1的范围内 的,而相应的Logit(P)的大小为
4
实例
试验者术前检查了53例前列腺癌患者,拟 用年龄(AGE)、酸性磷酸酯酶(ACID)两个连 续型的变量,X射线(X-RAY)、术前探针活 检病理分级(GRADE)、直肠指检肿瘤的大小 与位置(STAGE)三个分类变量与手术探查结 果变量NODES(1、0分别表示癌症的淋巴结 转移与未转移 )建立淋巴结转移的预报模 型。
5
53例接受手术的前列腺癌患者情况
logistic回归_HYJ
Logistic回归一、Logistic回归简介1.1概述Logistic回归是一种概率型非线性回归模型,与线性回归模型不同,其响应变量(Response Variable),即因变量是一分类变量(Categorical Variable)而非连续变量(Continuous Variable)。
例如,研究客户是否会购买某种产品(即买抑或不买),或者研究客户交易是否存在欺诈(即欺诈交易抑或非欺诈交易),或者研究客户是否会成为某种产品的潜在用户等等。
由于现实中存在大量类似的问题,Logistic回归被广泛运用以解决所谓的分类预测问题(Classification)。
然而,logistic回归的因变量可以是二分类的,也可以是多分类的,但是实际中最为常用的就是二分类的logistic回归,因此本文只研究二分类logistic回归。
1.2 Logistic回归的主要用途一是寻找->对因变量影响较大的自变量;(如患某疾病中的危险因素)二是预测->如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,因变量发生(如购买某种产品)的概率有多大。
三是判别->实际上跟预测有些类似,也是根据logistic模型,判断(某人购买产品)的概率有多大,综合自变量考虑;1.3 Logistic回归模型与一般线性回归模型的区别:●线性回归模型的结果变量(outcome variable)或因变量(dependent variable)或响应变量(response variable)与自变量之间的关系是线性的,而Logistic 回归中因变量与自变量之间关系是非线性的,但可以通过Logit函数转换成线性关系。
●在线性回归中通常假设,对应自变量X 的某个值,因变量Y 的观测值具有正态分布,但是在logistic 回归中,因变量Y 却是二项发布(0和1)或多项分布。
●在logistic 回归中,不存在线性回归中有的残差项。
Logistic回归模型
回归模型1 回归模型的根本知识 模型简介主要应用在研究某些现象发生的概率p ,比方股票涨还是跌,公司成功或失败的概率,以及讨论概率p 与那些因素有关。
显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。
为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。
于是变换被提出来:〔1〕其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。
另外从函数的变形可得如下等价的公式:XT XT T ee p Xppp Logit βββ+=⇒=-=11ln )( 〔2〕模型(2)的根本要求是,因变量〔y 〕是个二元变量,仅取0或1两个值,而因变量取1的概率)|1(X y P =就是模型要研究的对象。
而T k x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,T k ),,,(10ββββ =。
为此模型(2)可以表述成:kx k x k x k x kk eep x x pp βββββββββ+++++++=⇒+++=- 11011011011ln 〔3〕显然p y E =)(,故上述模型说明是k x x x ,,,21 的线性函数。
此时我们称满足上面条件的回归方程为线性回归。
线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。
不同于多元线性回归的最小二乘估计法那么(残差平方和最小),变换的非线性特征采用极大似然估计的方法寻求最正确的回归系数。
因此评价模型的拟合度的标准变为似然值而非离差平方和。
logistic回归分析PPT优秀课件
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;
Logistic回归知识讲解
Thursday, June 04,
自变量:“吸烟” :Values为:1=“吸” , 0=“不吸” ;“避孕药”,:Values 为:1=“已服”, 0=“未服” ;
应变量:“新生儿情况”,Values为:1=“ 异常”,0=“正常” ;
频数变量:“例数”。
Thursday, June 04,
2. spss操作过程
(1)在spss中调出数据文件Li18-1.sav (2)变量加权
按设计的类型 非条件logistic回归 条件logistic回归
Thursday, June 04,
第一节 两分类Logistic回归
Logistic回归模型 模型参数的意义 Logistic回归模型的参数估计 Logistic回归模型的假设检验 Logistic回归模型中自变量的筛选 Logistic回归的应用
step(在最后一个步骤中)
Thursday, June 04,
偏似然比估计向前法
Thursday, June 04,
选项
Thursday, June 04,
最后结果的模型检验
模型的似然比检验:当前模型:χ2=59. 589,P=0.000, 回归模型有统计学意义,即6项指标中至少有一个的作用 是有统计学意义的.
lo i(P tg ) l1 n P P 01 x 1 2 x 2 m x m
Thursday, June 04,
logistic回归法
logistic回归法Logistic回归法是一种常用的分类算法,广泛应用于各个领域。
它通过构建一个逻辑回归模型来预测某个事件发生的概率。
本文将介绍Logistic回归法的原理、应用场景以及优缺点。
一、Logistic回归法的原理Logistic回归法是基于线性回归的一种分类算法,它使用sigmoid 函数将线性回归的结果映射到[0,1]之间。
sigmoid函数的公式为:$$f(x) = \frac{1}{1+e^{-x}}$$其中,x为线性回归的结果。
通过这个映射,我们可以将线性回归的结果解释为某个事件发生的概率。
二、Logistic回归法的应用场景Logistic回归法常用于二分类问题,如预测某个疾病的发生与否、判断邮件是否为垃圾邮件等。
它也可以通过一些改进来应用于多分类问题。
在实际应用中,Logistic回归法非常灵活,可以根据需要选择不同的特征和参数,以达到更好的分类效果。
同时,它对特征的要求相对较低,可以处理连续型和离散型的特征,也可以处理缺失值。
三、Logistic回归法的优缺点1. 优点:- 计算简单、效率高:Logistic回归法的计算量相对较小,算法迭代速度快,适用于大规模数据集。
- 解释性强:Logistic回归模型可以得到各个特征的权重,从而可以解释每个特征对结果的影响程度。
- 可以处理离散型和连续型特征:Logistic回归法不对特征的分布做出假设,可以处理各种类型的特征。
- 可以处理缺失值:Logistic回归法可以通过插补等方法处理缺失值,不需要将含有缺失值的样本剔除。
2. 缺点:- 容易出现欠拟合或过拟合:当特征过多或特征与目标变量之间存在非线性关系时,Logistic回归模型容易出现欠拟合或过拟合问题。
- 对异常值敏感:Logistic回归模型对异常值比较敏感,可能会对模型造成较大的干扰。
- 线性关系假设:Logistic回归模型假设特征与目标变量之间的关系是线性的,如果实际情况并非线性关系,模型的预测效果可能较差。
Logistic回归
为了探讨冠心病发生的有关危险因素,对26例冠心 病病人和28例对照者进行病例−对照研究,各因素 的说明见下表2。试用logistic逐步回归分析方法筛 ( 选危险因素 。α 入 = 0.10,α出 = 0.15)
X为自变量:X 1 , X 2 ,L , X m 为自变量: 为自变量 取值为1的概率为 则Y取值为 的概率为: 取值为 的概率为:
P = P{ = 1 X 1 , X 2 ,L, X m } Y
0 ≤ P ≤1
Logistic回归模型可表示为:
e β + β X + β X +L+ β X P= 1 + e β + β X + β X +L+ β X
0 1 1 2 2 m m 0 1 1 2 2 m
m
P=
1 1+ e
−( β + β X + β X +L+ β X )
0 1 1 2 2 m m
P ln = β 0 + β1 X 1 + β 2 X 2 + L + β m X m 1− P
P 为阳性与阴性结果发生概率之 ln 1− P 比的自然对数,称为P的logit变换 ,记为
df 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Sig. .010 .097 .007 .008 .005 .016 .010 .034 .002 .053 .044 .012 .021 .002
Exp(B) 16.875 .593 6.219 21.303 .278 5.597 20.656 5.277 .095 2.519 4.464 23.000 7.008 .009
【数据挖掘技术】Logistic回归
【数据挖掘技术】Logistic回归⼀、回归概述回归(Regression)分析包括线性回归(Linear Regression),这⾥主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression)。
其中,在数据化运营中更多的使⽤逻辑斯蒂回归,它包括响应预测、分类划分等内容。
多元线性回归主要描述⼀个因变量如何随着⼀批⾃变量的变化⽽变化,其回归公式(回归⽅程)就是因变量和⾃变量关系的数据反映。
因变量的变化包括两部分:系统性变化与随机性变化,其中,系统性变化是由⾃变量引起的(⾃变量可以解释的),随机变化是不能由⾃变量解释的,通常也称作残值。
再⽤来估算多元线性回归⽅程中⾃变量系数的⽅法中,最常⽤的是最⼩⼆乘法,即找出⼀组对应⾃变量的相应参数,以使因变量的实际观测值与回归⽅程的预测值之间的总⽅差减到最⼩。
对多元线性回归⽅程的参数估计,是基于下列假设的:输⼊变量是确定的量,不是随机变量,⽽且输⼊的变量间线性⽆关,即⽆共线性;随机误差的期望值总和为零,即随机误差与⾃变量不相关;随机误差呈现正态分布。
如果不满⾜上述假设,就不能⽤最⼩⼆乘法进⾏回归系数的估算了。
逻辑斯蒂回归(Logistic Regression)相⽐于线性回归来说,在数据化运营中有更主流更频繁的应⽤,主要是因为该分析技术可以很好地回答诸如预测、分类等数据化运营常见的分析项⽬主题。
简单来说,凡是预测“⼆选⼀”事件的可能性(⽐如,“响应”还是“不响应”;“买”还是“不买”;“流失”还是“不流失”),都可以使⽤逻辑斯蒂回归。
逻辑斯蒂回归预测的因变量是介于0和1之间的概率,如果对这个概率进⾏换算,就可以⽤线性公式描述因变量和⾃变量的关系了,具体公式如下:log(p(y=1)/1-p(y=1))=b0+b1*x1+b2*x2+...+bk*xk与多元线性回归所采⽤的最⼩⼆乘法的参数估计⽅法相对应,最⼤似然法是逻辑斯蒂回归所采⽤的参数估计⽅法,其原理是找到这样⼀个参数,可以让样本数据所包含的观察值被观察到的可能性最⼤。
[转载]logistic回归模型总结
[转载]logistic回归模型总结logistic回归模型是最成熟也是应用最广泛的分类模型,通过学习和实践拟通过从入门、进阶到高级的过程对其进行总结,以便加深自己的理解也为对此有兴趣者提供学习的便利。
一、有关logistic的基本概念logistic回归主要用来预测离散因变量与一组解释变量之间的关系最常用的是二值型logistic。
即因变量的取值只包含两个类别例如:好、坏;发生、不发生;常用Y=1或Y=0表示 X表示解释变量则P(Y=1|X)表示在X的条件下Y=1的概率,logistic回归的数学表达式为:log(p/1-p)=A+BX =L其中p/1-p称为优势比(ODDS)即发生与不发生的概率之比可以根据上式反求出P(Y=1|X)=1/(1+e^-L)根据样本资料可以通过最大似然估计计算出模型的参数然后根据求出的模型进行预测下面介绍logistic回归在SAS中的实现以及输出结果的解释二、logistic回归模型初步SAS中logistic回归输出结果主要包括预测模型的评价以及模型的参数预测模型的评价与多元线性回归模型的评价类似主要从以下几个层次进行(1)模型的整体拟合优度主要评价预测值与观测值之间的总体一致性。
可以通过以下两个指标来进行检验1、Hosmer-Lemeshowz指标HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。
在SAS中这个指标可以用LACKFIT选项进行调用2、AIC和SC指标即池雷准则和施瓦茨准则与线性回归类似AIC和SC越小说明模型拟合的越好(2)从整体上看解释变量对因变量有无解释作用相当于多元回归中的F检验在logistic回归中可以通过似然比(likelihood ratio test)进行检验(3)解释变量解释在多大程度上解释了因变量与线性回归中的R^2作用类似在logistic回归中可以通过Rsquare和C统计量进行度量在SAS中通过RSQ来调用Rsquare,C统计量自动输出(4) 模型评价指标汇总说明:在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是HL统计量。
《Logistic回归》PPT课件
常量 -20.207 4.652 18.866
1 .000
.000
a. 在步骤 1 中输入的变量: 性别, 年龄, 学历, 体重指数, 家族史, 吸烟, 血压, 总胆 固醇, 甘油三脂, 高密度脂蛋白, 低密度脂蛋白.
七、变量筛选
从所用的方法看,有强迫法、前进法、后退 法和逐步法。在这些方法中,筛选变量的过 程与线性回归过程的完全一样。但其中所用 的统计量不再是线性回归分析中的F统计量, 而是以上介绍的参数检验方法中的三种统计 量之一。
八、logistic 回归模型拟合优度检验和预 测准确度检验
(一)拟合优度检验:
Logistic回归模型的拟合优度检验是通过比较模型 预测的与实际观测的事件发生与不发生的频数有无差 别来进行检验。如果预测的值与实际观测的值越接近, 说明模型的拟合效果越好。
·模型的拟合优度检验方法有偏差检验(Deviance)、 皮尔逊(pearson)检验、统计量(Homser-Lemeshow), 分别计算统计量X2D、X2 P、X2HL值。统计量值越小, 对应的概率越大。无效假设H0:模型的拟合效果好。
第九章 Logistic回归
(非条件Logistic回归)
第一节 Logistic回归概述
一、Logistic回归目的: Logistic回归通常以离散 型的分类变量(疾病的死亡、痊愈等)发生结果的 概率为因变量,以影响疾病发生和预后的因素为自 变量建立模型。研究分类变量(因变量)与影响因 素(自变量)之间关系的研究方法。属于概率型非 线性回归方法。
本例模型的似然比检验结果:
X2=-2(ln Lp-ln Lk)=95.497
模 型 系数 的 综 合检 验
步骤 1
步骤 块 模型
logistic回归分析python_【Python算法】分类与预测——logistic回归分析
logistic回归分析python_【Python算法】分类与预测——logistic回归分析1.logistic回归定义logistic回归是⼀种⼴义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。
它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,⽽logistic回归则通过函数L将w‘x+b对应⼀个隐状态p,p =L(w‘x+b),然后根据p 与1-p的⼤⼩决定因变量的值。
如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。
logistic回归的因变量可以是⼆分类的,也可以是多分类的,但是⼆分类的更为常⽤,也更加容易解释,多类可以使⽤softmax⽅法进⾏处理。
实际中最为常⽤的就是⼆分类的logistic回归。
2.操作系统操作机:Linux_Ubuntu操作机默认⽤户:root3.实验⼯具Python是⼀种计算机程序设计语⾔。
是⼀种动态的、⾯向对象的脚本语⾔,最初被设计⽤于编写⾃动化脚本(shell),随着版本的不断更新和语⾔新功能的添加,越来越多被⽤于独⽴的、⼤型项⽬的开发。
Python已经成为最受欢迎的程序设计语⾔之⼀。
⾃从2004年以后,python的使⽤率呈线性增长。
2011年1⽉,它被TIOBE编程语⾔排⾏榜评为2010年度语⾔。
由于Python语⾔的简洁性、易读性以及可扩展性,在国外⽤Python做科学计算的研究机构⽇益增多,⼀些知名⼤学已经采⽤Python来教授程序设计课程。
例如卡耐基梅隆⼤学的编程基础、⿇省理⼯学院的计算机科学及编程导论就使⽤Python语⾔讲授。
众多开源的科学计算软件包都提供了Python的调⽤接⼝,例如著名的计算机视觉库OpenCV、三维可视化库VTK、医学图像处理库ITK。
logistic回归模型
简单分析实例
第6页,共25页。
简单分析实例
选入应变量
第7页,共25页。
选入自 变量
简单分析实例
结果分析
此表为应变量取值水平编码,SPSS默认取值水平高的为阳
性结果。
第8页,共25页。
简单分析实例
结果分析
本表输出当前模型的-2log(似然值)和两个伪决定系数 ,但对于logistic回归而言,通常看见的伪决定系数不像
第11页,共25页。
模型的诊断与修正 多重共线性的识别:
多重共线性的对偏回归系数的影响与线性回归模型中的表现一致 ,如增加或删除一条记录,模型中偏回归系数值发生较大变化, 专业上认为有意义的因素无统计学意义等等。 如果在进行logistic模型分析中,尤其是在向模型中引入交互作用项时
出现了回归结果反常现象,则自变量之间的多重共线性是需要排除的一 种可能。
自变量与logit(P)之间为线性关系; 残差合计为0,且服从二项分布;
各观测间相互独立。 logistic回归模型应该使用最大似然法来解决方程的估计和 检验问题,不应当使用以前的最小二乘法进行参数估计。
第4页,共25页。
简单分析实例
例1 某医师希望研究病人的年龄age、性别sex(0为女 性、1为男性)、心电图检验是否异常ecg(ST段压低 、0为正常、1为轻度异常、2为重度异常)与冠心病 ca是否有关,数据见logistic_binary.sav。
据见1_1_logistic.sav。
第17页,共25页。
条件logistic回归-实例分析
由于本例是1:1配对,可以使用变量差值方式加以拟合。 首先运用compute过程产生配对logistic回归的分析变量,或用 以下程序予以实现:
第九讲 Modeler分类预测:logistic回归
Logit P 0 i xi
i 1
k
二项Logistic回归
P与自变量间是否为非线性关系:
k P exp( 0 i xi ) 1 P i 1
P (1 P) exp( 0 i xi )
二项Logistic回归
解决问题的方向 能否对概率P进行转换处理后,使其取值范围与一般线 性回归模型吻合 对概率P应采用非线性转化处理 所有的转化都不应改变解释变量和被解释变量之间关 系的方向
二项Logistic回归 ---理论上的处理
进行两步转换处理: 第一步,将P转换成Ω
单调增函数 发生比的取值范围:0~+∞
吸烟的发生比是不吸烟的三倍,吸烟组得肺癌的风 险高于不吸烟组
二项Logistic回归 ---发生比
如果被解释变量y(肺癌1=得/0=没),自变量x只有一 个(x1吸烟1=吸烟/0=不吸烟),则logistic方程为:
logit[ pr(Y 1)] 0 1 X 1 logit[ pr(Y 1)] ln(odds (smoker )) 0 1 1 0 1 logit[ pr(Y 1)] ln(odds (nonsmkers )) 0 1 0 0
i 1
k
P exp( 0 i xi ) P exp( 0 i xi )
i 1 i 1
k
k
(0,1)型Sigmoid 函数
P[1 exp( 0 i xi )] exp( 0 i xi )
i 1 i 1
k
k
P
1 1 exp[( 0 i xi )]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Logit P 0 i xi
i 1
k
二项Logistic回归
P与自变量间是否为非线性关系:
k P exp( 0 i xi ) 1 P i 1
P (1 P) exp( 0 i xi )
二项Logistic回归 ---发生比
发生比Ω =P/(1-P),即某事件发生的概率与不发生的 概率之比 利用发生比比率可以进行组之间风险的对比分析 例如,如果吸烟得肺癌的概率是0.25,不吸烟得肺 癌得概率是0.10,则两组的发生比比率为:
ORA VS..B pr( D A ) pr( DB ) 1 1 / / 3 1 pr( D A ) 1 pr( DB ) 3 9
二项Logistic回归 ---发生比
如果被解释变量y(肺癌1=得/0=没),自变量x有三个 (x1吸烟/x2年龄/x3性别),则logistic方程为:
logit[ pr(Y 1)] 0 1 X 1 2 X 2 3 X 3
XA=(1,45,1)与XB=(0,45,1)的方程分别是:
吸烟与不吸烟组的方程分别是:
两组发生比的比率为:
OR S VS. NS odds (smokers ) e ( 0 1 ) e 1 0 odds (nosmokers ) e
可见,当解释变量是1/0二组时,两组间的发生比比 率是回归方程相应回归系数的函数,它反映了当输 入变量取不同值所导致的发生比的变化率
二项Logistic回归
当被解释变量为二项(0/1)分类变量时,被变量的取值范 围和与自变量的关系问题: 根据回归模型的意义,可知:
E ( y i ) 0 i xi
i 1 k
Py 1 0 i xi
i 1
k
一般回归模型下的被解释变量的取值范围是-∞~+∞ 这里,被解释变量的取值范围是0~1 一般回归分析建立模型,解释变量与P间的关系只能是 线性的
当其他解释变量保持不变而研究观测变量变化一个单 位对Ω 的影响时,可将新的发生比设为Ω *,则有发生 比比率为:
i 1 k
P
exp( 0
i 1 k i 1
k
i
xi )
i
1 exp( 0 Fra bibliotekxi )
神经网络节点
二项Logistic回归 ---回归系数的含义
回归系数表示当其他自变量取值保持不变时,某自变 量取值增加一个单位引起Logit P平均变化β i个单位 在模型的实际应用关心的是自变量变化引起事件发 生概率P变化的程度 当自变量xi变化时,对概率P的影响程度是非线性的, 不易直观理解 • 更注重自变量对发生比Ω 的影响
二项Logistic回归
解决问题的方向 能否对概率P进行转换处理后,使其取值范围与一般线 性回归模型吻合 对概率P应采用非线性转化处理 所有的转化都不应改变解释变量和被解释变量之间关 系的方向
二项Logistic回归 ---理论上的处理
进行两步转换处理: 第一步,将P转换成Ω
P 1 P
Ω 称为发生比或相对风险 对P的转化是非线性的 Ω 是P的单调增函数 发生比的取值范围:0~+∞
吸烟的发生比是不吸烟的三倍,吸烟组得肺癌的风 险高于不吸烟组
二项Logistic回归 ---发生比
如果被解释变量y(肺癌1=得/0=没),自变量x只有一 个(x1吸烟1=吸烟/0=不吸烟),则logistic方程为:
logit[ pr(Y 1)] 0 1 X 1 logit[ pr(Y 1)] ln(odds (smoker )) 0 1 1 0 1 logit[ pr(Y 1)] ln(odds (nonsmkers )) 0 1 0 0
这里的主要目的是研究吸烟对肺癌的影响,因此年 龄和性别是作为控制变量存在的,该发生比比率为 调整的发生比比率,它与不包括控制变量在内的比 率是不相等的。(也可将定距变量作观测变量)
二项Logistic回归 ---发生比
自变量对发生比Ω 的影响
exp( 0 i xi )
i 1 k
二项Logistic回归 ---理论上的处理
进行两步转换处理: P ln() ln( ) 第二步,Ω 转换成lnΩ 1 P –lnΩ 称为Logit P –Logit P与Ω 仍呈增长(或下降)的一致性关系 –Logit P的取值于-∞~+∞
二项Logistic回归 ---理论上的处理
二项Logistic模型:
logit[ pr(Y 1)] ln(odds ( X A )) 0 1 1 2 45 3 1 logit[ pr(Y 1)] ln(odds ( X B )) 0 1 0 2 45 3 1
两组发生比的比率为:
OR XA VS. XB odds (X A ) e (10) 1 ( 4545) 2 (11) 3 e 1 odds (X B )
i 1
k
P exp( 0 i xi ) P exp( 0 i xi )
i 1 i 1
k
k
(0,1)型Sigmoid 函数
P[1 exp( 0 i xi )] exp( 0 i xi )
i 1 i 1
k
k
P
1 1 exp[( 0 i xi )]
分类预测:Logistic回归
二项Logistic回归 ---问题提出
研究二项分类变量与其他变量之间的关系
例如:研究吸烟对是否得肺癌的影响,并以年龄和 性别作为控制变量,特点: 被解释变量是二分类变量 解释变量有品质变量和定距变量 吸烟与肺癌之间并非一种线性关系
对二项分类的被解释变量可否直接采用一般多 元线性回归分析方法? 结论:不可以