logistic回归分析
多分类Logistic回归教程与结果解读
Logistic回归分析(logit回归)一般可分为3类,分别是二元Logistic回归分析、多分类Logistic回归分析和有序Logistic回归分析。logistic回归分析类型如下所示。
Logistic回归分析用于研究X对Y的影响,并且对X的数据类型没有要求,X可以为定类数据,也可以为定量数据,但要求Y必须为定类数据,并且根据Y的选项数,使用相应的数据分析方法。
如果Y有两个选项,如愿意和不愿意、是和否,那么应该使用二元Logistic回归分析(SPSSAU【进阶方法->二元logit】);
如果Y有多个选项,并且各个选项之间可以对比大小,例如,1代表“不愿意”,2代表“无所谓”,3代表“愿意”,这3个选项具有对比意义,数值越高,代表样本的愿意程度越高,那么应该使用多元有序Logistic回归分析(SPSSAU【进阶方法->有序logit】);
如果Y有多个选项,并且各个选项之间不具有对比意义,例如,1代表“淘宝”,2代表“天猫”,3代表“京东”,4代表“亚马逊中国”,数值仅代表不同类别,数值大小不具有对比意义,那么应该使用多元无序Logistic回归分析(SPSSAU 【进阶方法->多分类logit】)。
1、多分类logistic回归分析基本说明
只要是logistic回归,都是研究X对于Y的影响,区别在于因变量Y上,logistic回归时,因变量Y是看成定类数据的,如果为二元(即选项只有2个),那么就是二元logistic回归; 如果Y是多个类别且类别之间无法进行对比程度或者大小,则为多分类logistic 回归;如果Y是多个类别且类别之间可以对比程度大小(也称为定量数据,或者有序定类数据),此时则使用有序logistic回归。多分类logistic回归的难点在于:因变量为类别数据,研究X对Y的影响时,如果为类别数据,那么不能说越如何越如何,比如不能说越满意越愿意购买;而只能说相对小米手机来说,对于手机外观越满意越愿意购买苹果手机。这就是类别数据的特点,一定是相对某某而言。这就导致了多分类logistic回归分析时,文字分析的难度加大,最好是使用SPSSAU的智能文字分析对应查看。单独进行多分类logistic回归时,通常需要有以下步骤,分别是数据处理,模型似然比检验,参数估计分析和模型预测效果分析共4个步骤。
logistic回归分析案例
logistic回归分析案例
Logistic回归分析案例。
Logistic回归分析是一种常用的统计分析方法,主要用于预测二分类或多分类的结果。在实际应用中,Logistic回归分析可以帮助我们理解影响某一事件发生的因素,以及对事件发生的概率进行预测。本文将通过一个实际的案例来介绍Logistic回归分析的应用。
案例背景。
假设我们是一家电商公司的数据分析师,现在我们需要分析用户的购买行为,并预测用户是否会购买某一产品。我们收集了一些用户的个人信息和他们最近一次购买的产品,希望通过这些数据来预测用户是否会购买新产品。
数据准备。
首先,我们需要收集用户的个人信息和购买行为数据。个人信息包括年龄、性别、职业等;购买行为数据包括购买的产品类型、购买时间等。在收集完数据后,我们需要对数据进行清洗和预处理,包括缺失值处理、异常值处理等。
模型建立。
在数据准备完成后,我们可以开始建立Logistic回归模型。首先,我们需要将数据划分为训练集和测试集,以便对模型进行验证。然后,我们可以利用训练集来拟合Logistic回归模型,并利用测试集来评估模型的预测效果。
模型评估。
在模型建立完成后,我们需要对模型进行评估。常用的评估指标包括准确率、精确率、召回率等。这些指标可以帮助我们判断模型的预测效果,并对模型进行调优。
模型应用。
最后,我们可以利用建立好的Logistic回归模型来预测用户是否会购买新产品。通过输入用户的个人信息和购买行为数据,模型可以给出用户购买新产品的概率,从而帮助我们进行精准营销和推广。
结论。
logistic回归模型结果解读
logistic回归模型结果解读
x
一、 logistic回归模型结果解读
Logistic回归模型是一种分类数据模型,主要用于对不同类别的输出结果进行预测,因此,其结果解读也要以分类的形式来解释。
1、系数与因变量之间的关系
Logistic回归模型通过对因变量的分析,来推断被解释变量的概率。结果中的系数提供了因变量与被解释变量之间的关系,比如我们可以分析不同系数值大小,从而获得因变量对被解释变量的影响程度,正相关的影响是系数的正值,反之是负值。
2、P值
P值是从回归结果中获取的,它可以反映特定因变量对被解释变量的重要性,P值越小,表明相对于其它因变量,该因变量对被解释变量影响越明显,则说明该因变量是重要因素。
3、R-Square和平均绝对值
R-Square是可决系数,它反映回归结果的好坏,R-Square的值越大,表明模型的预测效果越好,也就是越能够准确的来预测被解释变量的值。平均绝对值也是可以用来判断模型好坏的指标,它比较每个样本的预测值和实际值之间的误差,值越小则表示模型的预测精度越高。
4、改进模型
可以通过以上结果,来判断模型的预测效果好坏,从而思考如何改进模型:比如可以进行特征选择,去掉系数值较小或者P值较大的因变量;也可以使用其它模型,如决策树或神经网络模型来进行比较,看哪一个模型对被解释变量的预测效果更好。
数据分析知识:数据分析中的Logistic回归分析
数据分析知识:数据分析中的Logistic回归
分析
Logistic回归分析是数据分析中非常重要的一种统计分析方法,
它主要用于研究变量之间的关系,并且可以预测某个变量的取值概率。在实际应用中,Logistic回归分析广泛应用于医学疾病、市场营销、
社会科学等领域。
一、Logistic回归分析的原理
1、概念
Logistic回归分析是一种分类分析方法,可以将一个或多个自变
量与一个二分类的因变量进行分析,主要用于分析变量之间的关系,
并确定自变量对因变量的影响。
Logistic回归分析使用的是逻辑回归模型,该模型是将自变量与
因变量的概率映射到一个范围为0-1之间的变量上,即把一个从负无
穷到正无穷的数映射到0-1的范围内。这样,我们可以用这个数值来
表示某个事件发生的概率。当这个数值大于0.5时,我们就可以判定
事件发生的概率比较高,而当这个数值小于0.5时,我们就可以判定
事件发生的概率比较小。
2、方法
Logistic回归分析的方法有两种:一是全局最优化方法,二是局
部最优化方法。其中全局最优化方法是使用最大似然估计方法,而局
部最优化方法则是使用牛顿法或梯度下降算法。
在进行Logistic回归分析之前,我们首先要对数据进行预处理,
将数据进行清洗、变量选择和变量转换等操作,以便进行回归分析。
在进行回归分析时,我们需要先建立逻辑回归模型,然后进行参
数估计和模型拟合,最后进行模型评估和预测。在进行参数估计时,
我们通常使用最大似然估计方法,即在估计参数时,选择最能解释样
本观测数据的参数值。在进行模型拟合时,我们需要选取一个合适的
logistic回归分析
对因素xj而言,当它由xj 变化到xj*时, *-x ▲)。 其OR值为: ln ORj= βj(xj j *-x ▲ =1时, ln OR = β 当xj j j j 若ORj >1,则xj 促进阳性结果的发生, 为不利因素; 若ORj <1,则xj 抑制阳性结果的发生, 为保护因素; 若ORj =1,则xj 为非危险因素。
Logistic回归分析 3.OR值的计算和意义 影响因素由X▲ 变化到X* 时,有 ln OR=∑ βj(xj*-xj▲) (1)对多指标的共同效应进行评价: ) 若OR>1,则不利因素占主导地位; 若OR<1,则保护因素占主导地位; 若OR=1,则处于平衡状态。
Logistic回归分析
(2)对单因素进行评价: )对单因素进行评价:
二、基本原理
1.结果问题 : 对于第i个个体而言,其理论结果为pi , 而实际结果是δi 。 2.一致问题: 对于第i个个体而言, δi =1 pi δi =0 qi
Logistic回归分析 pi δ i qi 1- δ i 对于全部n个研究对象而言, 对于全部 个研究对象而言,其一致 个研究对象而言 性为: 性为: L=∏ pi δ i qi 1- δ i 使得L最大的α及βj即为所求。
Logistic回归分析
三、基本方法
最大似然函数法
四、参数解释
1. 偏回归系数βj 的意义 与指标的计量单位有关,从而无实际 的解释意义。
logistic回归
主要用途
预测 寻找危险因素
判别
正如上面所说的寻找某一疾病的危险因素等。
如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的 概率有多大。
logistic回归
一种广义的线性回归分析模型
01 概念
目录
02 主要用途
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断, 经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为 例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量 就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。 自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致 了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。
感谢观看
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多 类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。
多元logistics回归结果解读
多元logistic回归是一种用于研究多个自变量对因变量影响的统计方法。通过多元logistic回归分析,我们可以了解自变量对因变量的贡献程度,并确定哪些自变量对因变量有显著影响。
在解读多元logistic回归结果时,需要注意以下几点:
系数解读:在多元logistic回归模型中,每个自变量的系数表示该变量对因变量的贡献程度。系数的符号表示了影响的方向,正号表示正相关,负号表示负相关。系数的绝对值表示影响的大小,绝对值越大,影响越大。
OR值解读:在多元logistic回归模型中,每个自变量的OR值表示该变量对因变量发生概率的影响程度。OR值的范围在0到无穷大之间,值越大表示该自变量对因变量的影响越大。
显著性检验:在多元logistic回归模型中,每个自变量都需要进行显著性检验。如果某个自变量的p值小于预设的显著性水平(如0.05),则认为该自变量对因变量有显著影响。
模型评估:在多元logistic回归分析结束后,需要对模型进行评估。常用的评价指标包括模型的拟合优度、预测准确率等。如果模型的评估结果良好,则认为模型可用于预测或解释实际问题。
总之,多元logistic回归结果解读需要综合考虑系数的符号、绝对值、OR值、显著性检验和模型评估等多个方面。通过深入了解自变量对因变量的贡献程度和影响方式,可以帮助我们更好地理解数据,并进行科学决策。
单因素与多因素logistic回归的解读
单因素logistic回归与多因素logistic回归都是用于研究因变量(通常为0-1或1-2-3顺序变量)与一个或多个自变量之间的关系。但这两者在应用和解释上有所不同。
1. 单因素logistic回归:顾名思义,这种分析主要研究因变量对一个自变量的影响。例如,如果您想研究某个特定的因素(如年龄、性别或教育水平)如何影响某种疾病的风险,单因素logistic回归可能是一个合适的选择。
2. 多因素logistic回归:与单因素logistic回归不同,多因素分析考虑了两个或更多自变量与因变量之间的关系。这通常用于更全面地了解哪些因素共同作用以影响因变量。例如,在预测冠心病的风险时,多因素logistic回归可能会考虑年龄、性别、高血压、糖尿病等多个因素。
在数据分析的全过程中,这两种方法通常都有其用途。例如,在研究有生育障碍的妇女进行注射HCG后卵巢反应的影响因素时,可能首先使用单因素logistic回归来识别哪些因素具有显著影响,然后进一步使用多因素logistic回归来评估这些因素如何共同作用。
logistic回归分析
优势比估计
自变量 X j 不同水平 c1 和 c0 优势比的估计值:
ˆ OR j exp[b j (c1 c0 )]
当样本含量 n 较大时, bj 的抽样分布近似服从 正态分布,若 X j 只有暴露和非暴露 2 个水平, 则优势比 OR j 的 100(1 )%可信区间为:
exp(bj u 2 Sbj )
病例对照原理示意图
是否暴露 暴 露 组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR) :病例对照研究中表示疾病与暴露间 联系强度的指标,也称比值比。 比值(odds) :某事物发生的可能性与不发生的可能性之比。 病例组暴露的比值 a /(a b) 、对照组暴露的比值 c /(c d )
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
路径分析
结构方程模型分析
logistic回归分析(共86张)
ln L0 ( X1) 585.326
log it( p) 0 1x1
G 2[ln L(X1, X2 ) ln L(X1) 2(579.711 (585.326)] 11.23
G >3.84,p<0.05,说明调整吸烟因素后, 饮酒与食管癌有关系。
第25页,共86页。
四、变量 筛选 (biànliàng)
G 2(ln L1 ln L0 )
ln L1
包括p个自变量的对 数似然函数
ln L0
包括 l 个自变量的对
数似然函数
G服从自由度(d)=p-l的χ2分布
第24页,共86页。
似然比检验(jiǎnyàn)对β做检验
例:X1为吸烟,X2为饮酒,检验饮酒与食 管癌关系,H0:β2=0,H1:β2≠0
ln L1( X1, X 2 ) 579.711 log it( p) 0 1x1 2x2
成不一致干扰疗效分析,通过该法可控制 非处理因素,正确评价疗效。
3.预测与判别 预测个体在某因素存在条件下,发生某事件
(发病)的概率,为进一步治疗提供依据。
第30页,共86页。
例1
例:
表5-4甲乙(jiǎ yǐ)两疗法某病治愈率%比较
病型
甲疗法
病人 治愈 治愈
数
数
率
普通型 300 180 60.0 65.0
Logistic回归分析
第十章
Logistic 回归分析
Logistic 回归基本概念
第一节
线性回归模型的一个局限性是要求因变量是定量变量(定距变量、定比变量)而不能是 定性变量(定序变量、定类变量) 。但是在许多实际问题中,经常出现因变量是定性变量(分 类变量) 的情况。 可用于处理分类因变量的统计分析方法有: 判别分别(Discriminant analysis)、 Probit 分析、Logistic 回归分析和对数线性模型等。在社会科学中,应用最多的是 Logistic 回归分析。Logistic 回归分析根据因变量取值类别不同,又可以分为 Binary Logistic 回归分 析和 Multinomial Logistic 回归分析,Binary Logistic 回归模型中因变量只能取两个值 1 和 0 (虚拟因变量) ,而 Multinomial Logistic 回归模型中因变量可以取多个值。本章将只讨论 Binary Logistic 回归,并简称 Logistic 回归①。 因变量只取两个值,表示一种决策、一种结果的两种可能性。例如,某个人能否拥有房 子,受到多种因素的影响,如家庭情况、工龄、收入情况等,但最终的可能性只有两个,要 么拥有住房,要么没有住房。我们把 Y=1 定义为拥有住房,Y=0 定义为其它情况,即
①
logistic回归分析
Cp准则的计算公式
1964 年CL Mallows 提出 ( SS 残 ) p Cp (n 2 p) ( MS 残 ) m ( n p 1)( MS 残 ) p ( MS 残 ) m (n 2 p)
C p 接近( p 1)的模型为最佳
AIC准则的计算公式
1973 年由日本学者赤池提出 AIC n ln[( n (最小二乘法 ) AIC 越小越好
回归的发展
加权回归 有重复测量的回归分析:对每一个回归 变量x的y有多次重复的测量值。 岭回归分析:改进的最小二乘方,用于 自变量相关性大,或某些变量变化范围 太小。可用sas实现。
Logistic回归
实际上属于判别分析,因拥有很差的判 别效率而不常用。
适用于流行病学资料的因素分析 实验室中药物的剂量-反应关系 临床试验评价 疾病的预后因素分析
自变量的选择
全局择优法:
求出所有可能的回归模型(共有2m-1个)对应的准则值; 按R2,Cp准则,AIC准则等统计量选择最优模型。求出所有
可能的回归模型(共有2m-1个)对应的 准则值;按上述准则选择最优模型 缺点:
如果自变量个数为4,则所有的回归有24-1= 15个; 当自变量数个数为10时,所有可能的回归为 210-1= 1023个;……;当自变量数个数为50时,所有可能的 回归为250-1≈1015个。
Logistic回归分析(共53张PPT)
是研究分类变量统计分析的一种重要 方法。研究两水平或多水平反应变量与其 影响因子间关系的回归分析(线性回归分 析: 应变量为连续计量资料)。
如二项分类,如某种疾病的患病与否 某一治疗结果有效和无效 器官移植后生存或死亡
多项有序分类:某一治疗结果,治愈、显效、 有效、无效;
Logistic回归模型是一种概率模型, 通常以疾病,死亡等结果发生的概率为因变 量, 影响疾病发生的因素为自变量建立回 归模型。
• 例:为了探讨糖尿病与血压、血脂等因素 的关系,研究者对56例糖尿病病人和65例 对照者进行病例对照研究,收集了性别、 年龄、学历、体重指数、家族史、吸烟、
血压、总胆固醇、甘油三脂、高密度脂蛋 白、低密度脂蛋白11个因素的资料,各因 素的观察结果见表
1 1 P 1 e( 1x12x2 nxn )
其中,为常数项,为偏回归系数。
二、参数估计
• 建立Logistic回归方程就是求和i
• 意义 常数项是当各种暴露因素为0时,个体发病与不
发病概率之比的自然对数值。
• i意义 • 偏回归系数表示在其它自变量固定的条件下,
• 第n个自变量每改变一个单位时logit的改变量。它 与比数比(优势比)(odds ratio)有对应关系。
流行病学中的一些基本概念:
相对危险度(relative risk): RR=P1/P2
《logistic回归分析》PPT课件
1 P1
1 P0
= j (c1 c0 )
则该因素的优势比: OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
②再拟合包含待检验因素的 logistic 模型,求另一
个对数似然函数值 ln L1 ;③比较两个对数似然函数
值差别的大小 20
若 2 个模型分别包含 l 个自变量和 p 个自变量,似然比统计
量 G 的计算公式为: G 2(ln Lp ln Ll )
当样本含量 n 较大时,在 H0 成立的条件下, G 统计量近似
ln( P ) 1 P
0
1 X1
2
X
2
mXm
0 1 0 m 0 0
可看出:常数项 0 是当各种暴露因素为 0 时,个体发病 与不发病概率之比的自然对数值。 偏回归系数 j ( j 1,2,, m )表示在其它自变量固定的
条件下,第 j 个自变量每改变一个单位时 logit (P) 的改变
表 1 调查数据
y
x
1
0
1
a
b
0
logistic回归分析
logit 变换:logit P = ln P 为 P 的 logit 变换, 1 P
通过 logit 变换之后,就可将 0 P 1 的资料转换为
log it(P) 的资料。
作 logit 变换后,logistic 回归模型可以表示成如下
的线性形式:
exp(0 1X1 2 X 2 m X m )
(15.7)
式中为对数似然函数,对其取一阶导数求解参数。对
于参数 j ( j 1, 2, , m ),令 ln L 的一阶导数为 0,
即 ln L 0 ,用 Newton-Raphson 迭代方法解方程组,
j
得出参数 j 的估计值 bj 和 bj 的渐进标准误 Sbj 。
优势比估计
自变量 X j 不同水平 c1 和 c0 优势比的估计值: ORˆ j exp[bj (c1 c0 )] 当样本含量 n 较大时, bj 的抽样分布近似服从 正态分布,若 X j 只有暴露和非暴露 2 个水平,
病例组暴露的比值 a /(a b) 、对照组暴露的比值 c /(c d)
b /(a b)
d /(c d )
该暴露因素的优势比: OR = a /(a b) c /(c d) ad
b /(a b) d /(c d) bc
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
应用完成logistic回归分析及其评价
*构建逻辑回归模型:使用梯度下降法等优化算法对模型进行训练;
*模型评估:通过交叉验证、混淆矩阵等方法对模型性能进行评估;
*模型优化:根据评估结果调整模型参数,进一步提高模型性能。
3、成功案例
Logistic回归分析在多个领域都有成功的应用案例。例如,在医疗诊断中, 可以利用logistic回归分析对病人的多个特征进行分析,以预测其患病概率;在 金融风控领域,logistic回归分析可以通过对借款人的多个特征进行评估,以确 定其违约概率;在电商推荐领域,logistic回归分析可以通过对用户和商品的多 个特征进行分析,以预测用户购买某件商品的概率。
评价
1、优势和不足
(1)优势:
*易于理解和实现:logistic回归分析算法较为简单,易于理解和实现;
*高效:logistic回归分析的计算效率较高,可以在大规模数据集上快速训 练模型;
*可解释性强:模型的输出为概率值,具有较好的可解释性,便于业务理解 和解释。
(2)不足:
*假设限制:logistic回归分析假设数据的分布是正态分布,如果数据分布 不符合该假设,则可能导致模型性能下降;
应用完成logistic回归分析及其 评价
01 引言
03 评价
目录
02 logistic回归分析
引言
Logistic回归分析是一种广泛应用于机器学习领域的分类方法,它通过对数 据的特征进行学习和训练,从而实现对数据的分类和预测。在很多实际应用场景 中,如医疗诊断、金融风控、电商推荐等,logistic回归分析都发挥着重要的作 用。本次演示将详细介绍logistic回归分析的基本概念、应用条件和步骤,并对 其评价和未来发展趋势进行探讨。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
OR e
如X=1,0两分类,则OR的1-α可信区间 估计公式
e
( b j u / 2 Sb j )
Sb j
为回归系数 的标准误
(公式16-10)
例:讲义表16-1资料
一个研究吸烟、饮酒与食道癌关系的病例-对 照资料(886例),试作logistic回归分析。 变量的赋值
1 Y 0
研究问题可否用多元线性回归方法?
ˆ y a b1 x1 b2 x2 bm xm
1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线 性关系。 ˆ 3.多元线性回归结果 Y 不能回答“发生 与否” logistic回归方法补充多元线性回归的不足
项 一、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选
用回归模型中的回归系数(β i)和OR说明 危险因素与疾病的关系。例:讲义例16-1, 16-2,16-3
适用的资料:
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。
三类研究计算的logistic 回归模型的β意义是一致。仅常 数项不同。(证明略)
1 X1 0
食管癌患者 对照:非食管癌
吸烟 不吸烟
1 X2 0 饮酒 不饮酒
经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2 =0.5261, 方程表达:
p ln( ) 0.9099 0.8856 x1 0.5261x2 1 p
Y 发病=1 不发病=0
a p1 ac
有暴露因素人群中发病的比例
多元回归模型的的
i
概念
P logit(p) ln = 0 1 X 1 m X m 1 P
i 反映了在其他变量固定后,X=1与x=0相
比发生Y事件的对数优势比。 回归系数β与OR X与Y的关联 β=0,OR=1, 无关 β>1,OR>1 , 有关,危险因素 β<1,OR<1, 有关,保护因子
0
0 x
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变 换,
p log it ( p) ln( ) 1 p
方程如下:
线形 关系
y log it ( p) 0 1 x1
Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时
i
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数(βi)估计
,
P ln = 0 1 X 1 2 X 2 m X m 1 P
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。(讲义259页)
Logistic回归方法
该法研究是 当 y 取某值(如y=1)发生的概率(p)与 某暴露因素(x)的关系。
p( y 1/ x) f ( x),即p f ( x)
P(概率)的取值波动0~1范围。 基本原理:用一组观察数据拟合Logistic模型, 揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。
Point
Effect 吸烟x1 饮酒x2 Estimate 2.424 1.692
95% Wald
Confidence Limits 1.807 1.244 3.253 2.303
似然比检验(讲义)
对某个β做检验,检验统计量(G)
G 2(ln L1 ln L0 )
ln L1 ln L0
包括p个自变量的对 数似然函数 包括 l 个自变量的 对数似然函数
1.对建立的整个模型做检验。 p ln( ) 0.9099 0.8856 x1 0.5261x2 1 p
Testing Global Null Hypothesis: BETA=0
Test Chi-Square 似然比 68.5457 计分检验 67.0712 Wald检验 64.2784
e p1 P( y 1/ x 1) 0 x 1 e
0 x
e P( y 0 / x 1) 1 1 p1 0 x 1 e e p0 P( y 1/ x 0) 0 1 e 0 e P( y 0 / x 0) 1 1 p0 0 1 e
H1 : 各(j 1, ,m)不全为0 2, j
P ln = 0 1 X 1 2 X 2 m X m 1 P
检验方法(讲义260-261页) 1)似然比检验 (likelihood ratio test) 2)Wald检验
例表16-1吸烟、饮酒与食管癌资料 (SAS软件计算)
表16-4 进入方程的自变量及参数估计
变量 β Sb Waldχ2 P 标准β’ OR 常数 -4.705 1.54 9.30 0.0023 年龄 0.924 0.477 3.76 0.0525 0.401 2.52 X5 1.496 0.744 4.04 0.0443 0.406 4.46 X6 3.136 1.249 6.30 0.0121 0.703 23.06 X8 1.947 0.847 5.29 0.0215 0.523 7.01
log it ( p) 0 1 x1
G 2[ln L ( X 1 , X 2 ) ln L ( X1 ) 2(579.711 ( 585.326)] 11.23
G >3.84,p<0.05,说明调整吸烟因素 后,饮酒与食管癌有关系。
四、变量筛选
目的;将回归系数有显著意义的自变量选入 模型中,作用不显著的自变量则排除在外。 变量筛选算法有:前进法、后退法和 逐步法(stepwise)。 例:讲义例16-2,用逐步法 选入变量的显著水准为0.10,变量保留在方 程的水准为0.15 例:16-2讲义261-263页
2.两值因变量的logistic回归模型方 程
一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x : 有=1, 无=0, 记为p(y=1/x)表示某暴露因素状态下, 结果y=1的概率(P)模型。x 0
或
e P( y 1 / x) 0 x 1 e
1 p( y 1 / x) 1 exp[ ( 0 x)]
G服从自由度(d)=p-l的χ2分布
例:X1为吸烟,X2为饮酒,检验饮酒与食
似然比检验对β做检验
管癌关系,H0:β2=0,H1:β2≠0
ln L1 ( X1 , X 2 ) 579.711
log it ( p) 0 1 x1 2 x2
ln L0 ( X1 ) 585.326
Xi=1与Xi=0相比,发生某结果(如发病)优势 比的对数值。
i
的含义:某危险因素,暴露水平变化时,即
P /(1 P ) 1 ln OR ln 1 P0 /(1 P0 ) log itP log itP0 1
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
饮酒与不饮酒OR的95%可信区间:
exp(b2 u / 2 Sb2 ) exp(0.5261 1.96 0.1572) (1.24, 2.30)
1.检验一:对建立的整个模型做检验。
说明自变量对Y的作用是否有统计意义。
三、Logistic 回归模型的假设检验
H 0 : 1 2 m 0
Logistic回归的应用
2.校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构 成不一致干扰疗效分析,通过该法可控制 非处理因素,正确评价疗效。 3.预测与判别 预测个体在某因素存在条件下,发生某事件 (发病)的概率,为进一步治疗提供依据。
b j ' b j s j /( / 3)
标准回归系数(b’) 比较各自变量对Y 的相对贡献
第二节 条件Logistic回归
概念: 用配对设计获得病例对照研究资料,计算的 Logistic回归模型为条件Logistic回归。
成组(未配对)设计的病例对照研究资料,计算的 Logistic回归模型为非条件Logistic回归。 例:见265页 区别: 条件Logistic回归的参数估计无常数项(β0),主 要用于危险因素的分析。
( 0 1 x1 ) ( 0 x0 ) 1 x1
OR e
P /(1 P ) odds1 1 OR 1 P0 /(1 P0 ) odds0
Y 发病=1 不发病ห้องสมุดไป่ตู้0
危险因素 x= 1 x= 0 30(a) 10( b) 70(c) 90(d) a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0
DF 2 2 2
Pr <.0001 <.0001 <.0001
2.检验二:
检验模型中某β是否对Y有作用。 检验假设:
H0 : j 0
bj Sb j
2
H1 : j 0
检验统计量:主要为Wald检验(SAS软件)
(
2
)
2
ν=1的χ2
公式16-13
例;
0.8856 2 ( ) 在大样本时,三方法结果一致。 33.86 0.15
模型描述了应变量p与x的关系
P概率 1 p( y 1) 1 1 exp[ ( 0 x)]
z 0 1 x
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
Z值 -3 -2 -1 0 1 2 3
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
第一节 logistic回归 一、基本概念
1.变量的取值 logistic回归要求应变量(Y)取值为分类变量 (两分类或多个分类)
1 Y 0 出现阳性结果 (发病、有效、死亡等) 出现阴性结果 (未发病、无效、存活等)
自变量(Xi)称为危险因素或暴露因素,可为连续变 量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
例表16-1资料,对各x的β做检验(wald检验)
参数 β估计值 常数-0.9099 吸烟 0.8856 标准误 0.1358 0.1500 Chi-Squa 44.8699 34.8625 Pr .0001 .0001
饮酒 0.5261
0.1572
11.2069
.0008
Odds Ratio Estimates
2.模型中参数的意义
P ln = 0 1 X 1 1 P
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
P( y 1 / x 0) = 0 ln 1 P( y 0 / x 0)
exp( ) OR
exp( 0.8856) OR 2.4244
控制饮酒因素后, 吸烟与不吸烟相比 患食管癌的优势比 为2.4倍
exp( 0.5261) OR 1.6923
OR的可信区间估计
吸烟与不吸烟患食管癌OR的95%可信区间:
exp(b1 u / 2 Sb1 ) exp(0.8856 1.96 0.15) (1.81,3.25)
多个变量的logistic回归模型方程的线性表达: 公式16-2
P logit(p) ln = 0 1 X 1 2 X 2 m X m 1 P
或
p( y 1/ x1 , x2 xk )
1 1 e
( 0 1 xk .... k xk )
第十六章 logistic回归分析
logistic回归为概率型非线性 回归模型,是研究分类观察 结果(y)与一些影响因素(x) 之间关系的一种多变量分析 方法
问题提出: 医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3…XK 发生 Y=1 不发生 Y=0 例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无 冠心病结果 有 或 无