第八课-SPSS-logistic回归分析PPT课件

合集下载

《Logistic回归》课件

《Logistic回归》课件

公式
f(x)=1/(1+e^-x)其中,x是一个实数,源自表示 自然对数的底数。特点
• 输出范围在0-1之间,代 表了一个概率值;
• 函数有单峰性,中心对 称,可以确定最大值和
• 最在小输值入;接近0时函数近 似于线性函数。
应用场景:二元Logistic回归
乳腺癌预测
贷款审核
二元Logistic回归被广泛应用于医 学界用于识别患有乳腺癌的女性。
数据预处理
4
的潜在关系和规律。
对需要进行缩放、归一化、标准化等处
理的变量进行预处理。
5
模型拟合
将数据划分训练集和测试集,通过模型 对训练集进行拟合,并评估模型预测能 力。
模型评估方法
混淆矩阵
将预测结果与真实结果进行比对,计算假正率、假负率、真正率和真负率等指标。
ROC曲线
通过绘制真正率与假正率的曲线,评估模型的预测能力。
AUC指标
ROC曲线下的面积就是AUC,AUC越大说明模型预测结果越准确。
常见模型优化方法
1 数据增强
通过合成数据或者样本扩 增等方法,增加数据量, 提高模型泛化性能。
2 特征选择
选择对于问题最重要的变 量,避免过拟合。
3 模型集成
通过结合多个模型的结果, 提高整体预测能力。
应用探索:Logistic回归的扩展
2 作用
通过逻辑函数将线性变量转化为概率值,从 而进行二元分类。
3 优点
简单易懂、易于解释和使用,对于大规模数 据集有效率。
4 缺点
只适用于二元分类问题,并且在分类较为复 杂的非线性问题上表现较差。
sigmoid函数
介绍
sigmoid函数是Logistic回归模 型中核心的激活函数,将输入 值映射到0-1的概率分布区间内。

《SPSS回归分析》ppt课件

《SPSS回归分析》ppt课件

.
-3.666
.002
从表中可知因变量与自变量的三次回归模型为: y=-166.430+0.029x-5.364E-7x2+5.022E-12x3
9.2 曲线估计
➢拟合效果图
从图形上看出其拟合效果非常好。
8.3 曲线估计
说明:
曲线估计是一个自变量与因变量的非线性回归过程,但 只能处理比较简单的模型。如果有多个自变量与因变量呈非 线性关系时,就需要用其他非线性模型对因变量进行拟合, SPSS 19中提供了“非线性”过程,由于涉及的模型很多,且 非线性回归分析中参数的估计通常是通过迭代方法获得的, 而且对初始值的设置也有较高的要求,如果初始值选择不合 适,即使指定的模型函数非常准确,也会导致迭代过程不收 敛,或者只得到一个局部最优值而不能得到整体最优值。
8.1 回归分析概述
(3)回归分析的一般步骤
第1步 确定回归方程中的因变量和自变量。 第2步 确定回归模型。 第3步 建立回归方程。 第4步 对回归方程进行各种检验。
➢拟合优度检验 ➢回归方程的显著性检验 ➢回归系数的显著性检验
第5步 利用回归方程进行预测。
主要内容
8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析
8.3 曲线估计
(2) 统计原理
在曲线估计中,有很多的数学模型,选用哪一种形式的回 归方程才能最好地表示出一种曲线的关系往往不是一个简单的 问题,可以用数学方程来表示的各种曲线的数目几乎是没有限 量的。在可能的方程之间,以吻合度而论,也许存在着许多吻 合得同样好的曲线方程。因此,在对曲线的形式的选择上,对 采取什么形式需要有一定的理论,这些理论是由问题本质决定 的。

spss中的回归分析PPT课件

spss中的回归分析PPT课件

6、Statistics(统计)对话框 单击“Statistics”按钮,进入统计对话框如图:
第19页/共134页
Estimates(默认选择项):回归系数的估计值(B)及其标准误(Std.Error)、 常数(Constant);标准化回归系数(Beta);B的t值及其双尾显著性水平(Sig.)。
第5页/共134页
H0:1 0, 2 0,, k 0

第6页/共134页
(3)回归系数的显著性检验(t检验) 所谓回归系数的显著性检验,就是根据样 本估计的结果对总体回归系数的有关假设进行 检验。 之所以对回归系数进行显著性检验,是因 为回归方程的显著性检验只能检验所有回归系 数是否同时与零有显著性差异,它不能保证回 归方程中不包含不能较好解释说明因变量变化 的自变量。因此,可以通过回归系数显著性检 验对每个回归系数进行考察。
4、 Selection variable(选择变量):可从源变量栏中 选择一个变量,单击Rule后,通过该变量大于、小于或等于某 一数值,选择进入回归分析的观察单位。
5、Case Labels(个案标签):在左侧的源变量框中选择 一变量作为标签变量进入 Case Labels框中。
第18页/共134页
Model fit(默认选择项):列出进入或从模型中剔除的变量;显示下列拟合 优度统计量:复相关系数(R)、判定系数(R2)、调整 R2(Adjusted R Square)、 估计值的标准误以及方差分析表。
Confidence intervals:回归系数 B的 95%可信区间(95%Confidence interval for B)。
第7页/共134页
回归参数显著性检验的基本步骤。 ① 提出假设

logistic回归分析PPT优秀课件

logistic回归分析PPT优秀课件
(2)线性回归分析:由于因变量是分类变量,不能满足 其正态性要求;有些自变量对因变量的影响并非线性。
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;

[课件]SPSS回归分析过程详解()PPT

[课件]SPSS回归分析过程详解()PPT
SPSS回归分析过程详解 (ppt)
回归分析的概念
寻求有关联(相关)的变量之间的关系 主要内容:



从一组样本数据出发,确定这些变量间的定 量关系式 对这些关系式的可信度进行各种统计检验 从影响某一变量的诸多变量中,判断哪些变 量的影响显著,哪些不显著 利用求得的关系式进行预测和控制
回归分析的模型
按是否线性分:线性回归模型和非线性回归模型 按自变量个数分:简单的一元回归,多元回归 基本的步骤:利用SPSS得到模型关系式,是否 是我们所要的,要看回归方程的显著性检验(F 检验)和回归系数b的显著性检验(T检验),还要 看拟合程度R2 (相关系数的平方,一元回归用R Square,多元回归用Adjusted R Square)
我们只讲前面3个简单的(一般教科书的讲法)
10.1 线性回归(Liner)
一元线性回归方程: y=a+bx


a称为截距 b为回归直线的斜率 用R2判定系数判定一个线性回归直线的拟合程度:用来说明用自变 量解释因变量变异的程度(所占比例)
b0为常数项 b1、b2、…、bn称为y对应于x1、x2、…、xn的偏回归系数 用Adjusted R2调整判定系数判定一个多元线性回归方程的拟合程度: 用来说明用自变量解释因变量变异的程度(所占比例)
逐步回归方法的基本思想
对全部的自变量x1,x2,...,xp,按它们对Y贡献的大小进 行比较,并通过F检验法,选择偏回归平方和显著的变 量进入回归方程,每一步只引入一个变量,同时建立 一个偏回归方程。当一个变量被引入后,对原已引入 回归方程的变量,逐个检验他们的偏回归平方和。如 果由于引入新的变量而使得已进入方程的变量变为不 显著时,则及时从偏回归方程中剔除。在引入了两个 自变量以后,便开始考虑是否有需要剔除的变量。只 有当回归方程中的所有自变量对Y都有显著影响而不需 要剔除时,在考虑从未选入方程的自变量中,挑选对Y 有显著影响的新的变量进入方程。不论引入还是剔除 一个变量都称为一步。不断重复这一过程,直至无法 剔除已引入的变量,也无法再引入新的自变量时,逐 步回归过程结束。

《logistic回归》课件

《logistic回归》课件
03
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。

Logistic回归分析(共53张PPT)

Logistic回归分析(共53张PPT)
数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。

Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。

SPSS课件logistic回归分析

SPSS课件logistic回归分析

Logistic回归分析
Log.sav
关于考试
考试时间:下周的上课时间
每人准备一张软盘,在软盘上注明姓名、学 号
Logistic回归分析
数据背景(data13-02) 北京医科大学附属人民医院内分泌科卢纹凯教授课题。 颈总动脉中层厚度imt>0.8mm或有斑块定义为动脉硬 化,因变量type值为1;非硬化imt<0.8mm且无斑块, 因变量type值为0。糖尿病患者123例数据。研究哪 些指标可以判断糖尿病患者是否动脉硬化。自变量 AGE年龄、ALB尿白蛋白、BMI体重指数、ISI胰岛素 敏感指数、SBP收缩压、TG甘油三脂、CHO胆固醇、 DURA糖尿病程。其中尿白蛋白、甘油三脂、胆固醇 三项生化指标在回归估计过程中均使用他们的对数变 量:ALBLN、TGLN、CHOLN。
级分组资料或是计量资料,此时,可以使用logistic
回归来分析பைடு நூலகம்变量(二值变量)与自变量的关系。
三、 Logistic回归分析
Categorical 多分类变量的比较
Save 功能按钮
Option 功能按钮
Logistic回归分析
为研究急性肾衰(AFR)患者死亡的危险因素,经回顾性
调查分析,获得某医院1999~2000年中所有发生AFR的
422名患者的临床资料见数据文件logistic.sav。本资料共涉 及29个变量,分别是:sex, age, 社会支持,慢性病,手术,
肿瘤,糖尿病,动脉硬化,器官移植,cr(血肌酐),hg
(血红蛋白),肾毒性,少尿,lbp,黄疸,昏迷,辅助呼 吸,心衰,肝衰,出血,呼衰,器官衰竭,胰腺炎,dic, 败血症,感染,hbp,透析方式,死亡。其中器官衰竭、和 透析方式为多分类变量,分别有6个和4个水平,定量变量 有age,cr,hg;其余为二分类变量。

Spss线性回归分析讲稿ppt课件

Spss线性回归分析讲稿ppt课件
绘制各自变量与因变量之间的关系散点图,观
察其与因变量之间是否具有线性关系。然后,
将自变量进行组合,生成若干自变量的子集,再
针对每一个自变量的子集生成回归分析报告。
比较调整后的R2值,挑选最优的自变量子集,
生成回归分析模型。
火灾袭来时要迅速疏散逃生,不可蜂 拥而出 或留恋 财物, 要当机 立断, 披上浸 湿的衣 服或裹 上湿毛 毯、湿 被褥勇 敢地冲 出去
①一元线性回归:y=a+bx (有一个自变量)
②多元线性回归:
(有两个或两个以上的自变量)
(2)按回归曲线的形态分
①线性(直线)回归
②非线性(曲线)回归
火灾袭来时要迅速疏散逃生,不可蜂 拥而出 或留恋 财物, 要当机 立断, 披上浸 湿的衣 服或裹 上湿毛 毯、湿 被褥勇 敢地冲 出去
回归分析
(二)回归分析的主要内容
即销售量的95%以上的变动都可以被该模型所解释,拟和优度较高。
表3
火灾袭来时要迅速疏散逃生,不可蜂 拥而出 或留恋 财物, 要当机 立断, 披上浸 湿的衣 服或裹 上湿毛 毯、湿 被褥勇 敢地冲 出去
一元线性回归分析
表4给出了回归模型的方差分析表,可以看到,F统计量为
734.627,对应的p值为0,所以,拒绝模型整体不显著的
图1
奖金-销售量表
火灾袭来时要迅速疏散逃生,不可蜂 拥而出 或留恋 财物, 要当机 立断, 披上浸 湿的衣 服或裹 上湿毛 毯、湿 被褥勇 敢地冲 出去
一元线性回归
以奖金-销售量表图1做回归分析
2、绘制散点图
打开数据文件,选择【图形】-【旧对话框】-【散点/点状】
图2
火灾袭来时要迅速疏散逃生,不可蜂 拥而出 或留恋 财物, 要当机 立断, 披上浸 湿的衣 服或裹 上湿毛 毯、湿 被褥勇 敢地冲 出去

SPSS数据分析教程第8章线性回归分析ppt课件

SPSS数据分析教程第8章线性回归分析ppt课件

53.00
66.00
53.00
59.00
精5选5.课00 件ppt 45.00
1.00
1.00
25.00 64
精选课件ppt
z1 61.00 59.00 55.00 56.00 59.00 60.00 52.00 56.00 68.00 60.00 64.00 67.00 56.00 53.00 53.00 60.00 54.00
38
精选课件ppt
表7-1 强度与拉伸倍数的试验数据
序号 1 2 3 4 5 6 7 8 9 10 11 12
拉伸倍数 2.0 2.5 2.7 3.5 4.0 4.5 5.2 6.3 7.1 8.0 9.0 10.0
强度(kg/mm2) 1.6 2.4 2.5 2.7 3.5 4.2 5.0 6.4 6.5 7.3 8.0 8.1
58.00
57.00
62.00
1.00
1.00
23.00
56.00
55.00
57.00
39.00
44.00
46.00
1.69
1.00
15.00
50.00
50.00
68.00
46.00
45.00
56.00
1.08
1.14
25.00
58.00
54.00
60.00
59.00
52.00
51.00
1.00
1.00
5
精选课件ppt
具体地说,回归分析主要解决以下几方面 的问题。
• 通过分析大量的样本数据,确定变量 之间的数学关系式。
• 对所确定的数学关系式的可信程度进 行各种统计检验,并区分出对某一特定变量影 响较为显著的变量和影响不显著的变量。

SPSS数据分析教程回归分析PPT课件

SPSS数据分析教程回归分析PPT课件

F
SSR / SSE /(n
p p
1)
SSR /1 SSE /(n 2)
MSR MSE
回归均方 残差均方
第19页/共41页
• SPSS在回归输出结果的ANOVA表中给出SSR,SSE,SST和F统计量的取值,同时给出F值的显著性值(即 p值)。
第20页/共41页
用回归方程预测
• 在一定范围内,对任意给定的预测变量取值,可以利用求得的拟合回归方程进行预测。其预测值为: • SPSS可以提供标准化的预测值和调整的预测值
第11页/共41页
简单回归方程的求解

我们希望根据观测值估计出简单回归方程中的待定系数 ¯0和¯1,它们使得回归方程对应的响应变量的误
差达到最小,该方法即为最小二乘法。
也就是求解¯0和 ¯1, 使 得
达到最小。

把得到的解记为
,则回归方程为
n
S(0, 1) ( yi 0 1xi )2 i 1
• 选择【分析】→【回归】→【线性】。把Units选入到自变量框中;把Minuts选入到因变量框中。其他选 项保留默认值。
第23页/共41页
SPSS回归分析
第24页/共41页
回归度检验
第26页/共41页
多元线性回归
• 实际应用中,很多情况要用到多个预测变量才能更好地描述变量间的关系,如果这些预测变量在预测方程 中的系数为线性,那么回归方程称为多元线性回归方程。就方法的实质来说,处理多个预测变量的方法与 处理一个预测变量的方法基本相同。
第30页/共41页
• F检验的 被拒绝,并不能说明所有的自变量都对因变量Y有显著影响,我们希望从回归方程中剔除那些统 计上不显著的自变量,重新建立更为简单的线性回归方程,这就需要对每个回归系数做显著性检验。

如何用SPSS做logistic回归分析解读课件.doc

如何用SPSS做logistic回归分析解读课件.doc
前面讲的二元logistic回归分析仅适合因变量Y只有两种取值(二分
类)的情况,当Y具有两种以上的取值时,就要用多项logistic回归(M
utinomialLogisticRegression)分析了。这种分析不仅可以用于医疗领
域,也可以用于社会学、经济学、农业研究等多个领域。如不同阶段(初
一、初二、初三)学生视力下降程度,不同龋齿情况(轻度、中度、重
ECAS和NCAS三种,但现在我们仅考虑性别和年龄与ICAS的关系,
因此将分组数据ICAS、ECAS和NCAS转化为1、0分类,是ICAS赋
值为1,否赋值为0。年龄为数值变量,可直接输入到spss中,而性别
需要转化为(1、0)分类变量输入到spss当中,假设男性为1,女性为
0,但在后续分析中系统会将1,0置换(下面还会介绍),因此为方便
(Covariates)框中,在协变量下方的“方法(Method)”一栏中,共有
七个选项。采用第一种方法,即系统默认的强迫回归方法(进入“Enter)”。
接下来我们将对分类(Categorical),保存(Save),选项(Options)
按照如图1-4、1-5、1-6中所示进行设置。在“分类”对话框中,因为性
单击继续。当然也可以选择“第一类别”和“最后类别”,入选中分别表
示以最低数值或最高数值作为参考类别。其他设置与二元Logistic分析
相似,将我们要输出的项勾选即可,点击图2-5中确定,输出数据。
输出数据基本与二元Logistic分析相似,我们重点讲下最后一项“参
考估计”,如图2-7所示,其中参考类别为ICAS=1的分类情况,而其中
19、学而不思则惘,思而不学则殆。——孔子
20、读书给人以快乐、给人以光彩、给人以才干。——培根
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一节 logistic回归
1.基本概念 logistic回归要求应变量(Y)取值为分类变量
(两分类或多个分类)
1 Y
0
出现阳性(结 发果 病、有效、死亡 出现阴性(结 未果 发病、无效) 、存
自变量(Xi)称为危险因素或暴露因素,可为连续变 量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
log li n 1 t P P ( p =0 )1 X 12 X 2 m X m

1 p (y 1 /x 1 ,x 2 x k) 1 e (0 1 x k ....kx k)
2.模型中参数的意义
ln1PP=0 1X1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
(0 1x1) (0 x0 ) 1x1
ORe
ORP1/(1P1) od1d P0/(1P0) od0d
Y 发病=1 不发病=0
Y 发病=1 不发病=0
危险因素
x= 1 x= 0
30(a) 10( b)
70(c) 90(d)
a+c
b+d
危险因素
x= 1 x= 0
p1 1-p1
p0 1-p0
吸烟与不吸烟患食管癌OR的95%可信区间:
ex p (b 1u /2Sb 1)ex p (0 .8 8 5 6 1 .9 60 .1 5 ) (1 .8 1 ,3 .2 5 )
饮酒与不饮酒OR的95%可信区间:
ex p (b 2u /2Sb2)ex p (0 .5 2 6 1 1 .9 60 .1 5 7 2 ) (1 .2 4 ,2 .3 0 )
例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
冠心病结果 有 或无
研究问题可否用多元线性回归方法?
y ˆab 1x1b 2x2 b m xm
1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。
2.多元线性回归方程要求Y与X间关系为线 性关系。
三、Logistic 回归模型的假设检验
1.检验一:对建立的整个模型做检验。
说明自变量对Y的作用是否有统计意义。
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3 -2 -1 0 1
Z值 23
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
e0x p1P(y1/x1)1e0x
P (y0/x1)11 ee 0 0 xx1p1 e0
p0P(y1/x0)1e0 e0
P(y0/x0)11e0 1p0
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变
换, logit(p) ln( p ) 1 p
方程如下:
线形 关系
ylo i(tg p )01x 1 Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时
多个变量的logistic回归模型方程的线性表达:
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数(βi)估计
, ln 1 P P =01X 12X 2 m X m
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。
OR e
如X=1,0两分类,则OR的1-α可信区间 估计公式
logistic回归分析
logistic回归为概率型非线性 回归模型,是研究分类观察 结果(y)与一些影响因素(x) 之间关系的一种多变量分析 方法
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何?
因素(X)
疾病结果(Y)
x1,x2,x3…XK
发生
Y=1
不发生 Y=0
2. logistic回归模型方程
一个自变量与Y关系的回归模型
如:y:发生=1,未发生=0 x : 有=1, 无=0,
记为p(y=1/x)表示某暴露因素状态下,
结果y=1的概率(P)模型。

P(y1/x)1ee00xx
p(y1/x)1exp 1 (0 [x)]
模型描述了应变量p与x的关系
p(y1)1exp1 ([0x)]P概1率 z01x
ln1PP (y(y1/0x/x 0)0)=0
i 的含义:某危险因素,暴露水平变化时,即
Xi=1与Xi=0相比,发生某结果(如发病)优势 比的对数值。
ln
OR
ln
P1 P0
/(1 /(1
P1) P0 )
log itP1 log itP0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
e(bj u / 2Sbj )
S 为回归系数 b j 的标准误
例:
一个研究吸烟、饮酒与食道癌关系的病例-对 照资料(886例),试作logistic回归分析。
变量的赋值
1 Y0
食管癌患者 对照:非食管癌
1
X1
0
吸烟
1
不吸烟 X2 0
饮酒 不饮酒
经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2
=l0n .(52p 61), 0 .9 0 9 90 .8 8 5 6x10 .5 2 6 1 x2 方程1 表 达p:
exp()OR
控制饮酒因素后,
吸烟与不吸烟相比
ex0.p 8(8) 5O 6 R 2.424患4食管癌的优势比
为2.4倍
ex0.p 5(2) 6O 1 R 1.6923
OR的可信区间估计
p1
a
a
c
有暴露因素人群中发病的比例
多元回归模型的的ቤተ መጻሕፍቲ ባይዱ i概念
logit(p)ln 1 P P = 01X 1m X m
i 反映了在其他变量固定后,X=1与x=0相
比发生Y事件的对数优势比。
回归系数β与O iR
X与Y的关联
β=0,OR=1,
无关
β>1,OR>1 , 有关,危险因素
β<1,OR<1, 有关,保护因子
3.多元线性回归结果 Yˆ 不能回答“发生
与否” logistic回归方法补充多元线性回归的不足
Logistic回归方法
该法研究是 当 y 取某值(如y=1)发生的概率(p)与
某暴露因素(x)的关系。
p (y 1 /x ) f(x ),即 p f(x )
P(概率)的取值波动0~1范围。 基本原理:用一组观察数据拟合Logistic模型, 揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。
相关文档
最新文档