第11章Logistic回归分析教学案例

合集下载

《SPSS统计分析》第11章 回归分析

《SPSS统计分析》第11章 回归分析

返回目录
多元逻辑斯谛回归
返回目录
多元逻辑斯谛回归的概念
回归模型
log( P(event) ) 1 P(event)
b0
b1 x1
b2 x2
bp xp
返回目录
多元逻辑斯谛回归过程
主对话框
返回目录
多元逻辑斯谛回归过程
参考类别对话框
保存对话框
返回目录
多元逻辑斯谛回归过程
收敛条件选择对话框
创建和选择模型对话框
返回目录
曲线估计
返回目录
曲线回归概述
1. 一般概念 线性回归不能解决所有的问题。尽管有可能通过一些函数
的转换,在一定范围内将因、自变量之间的关系转换为线性关 系,但这种转换有可能导致更为复杂的计算或失真。 SPSS提供了11种不同的曲线回归模型中。如果线性模型不能确 定哪一种为最佳模型,可以试试选择曲线拟合的方法建立一个 简单而又比较合适的模型。 2. 数据要求
线性回归分析实例1输出结果2
方差分析
返回目录
线性回归分析实例1输出结果3
逐步回归过程中不在方程中的变量
返回目录

线性回归分析实例1输出结果4
各步回归过程中的统计量
返回目录
线性回归分析实例1输出结果5
当前工资变量的异常值表
返回目录
线性回归分析实例1输出结果6
残差统计量
返回目录
线性回归分析实例1输出结果7
返回目录
习题2答案
使用线性回归中的逐步法,可得下面的预测商品流通费用率的回归系数表:
将1999年该商场商品零售额为36.33亿元代入回归方程可得1999年该商场 商品流通费用为:1574.117-7.89*1999+0.2*36.33=4.17亿元。

logistic回归分析实例操作

logistic回归分析实例操作

Logistic回归分析二分类(因变量Y有(如发病1与未发病0)两种可能出现的结果)资料的Logistic回归分析,至于多分类Logistic回归分析,与二分类操作过程类似,只是在数据编制及分析方法选择处不同。

分析的一般步骤:变量的编码哑变量的设置和引入各个自变量的单因素分析变量的筛选交互作用的引入建立多个模型选择较优的模型模型应用条件的评价输出结果的解释实例操作11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析。

1.各变量及其赋值说明x1:确诊时患者的年龄(岁)x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级(1-3)x3:肾细胞癌组织内微血管数(MVC)x4:肾癌细胞核组织学分级,由低到高共4级(1-4)x5:肾细胞癌分期,由低到高共4期(1-4)y:肾细胞癌转移情况(有转移y=1; 无转移y=0)。

为二分类变量。

若作单因素的Logistic回归分析,也就是分别作Y与各自变量间的回归分析,如Y与X1、Y与X2等的单因素Logistic回归分析。

2.建立数据库3.分析步骤(1)(2)上图中若为单因素回归分析,只需在Covariates协变量框内导入单一自变量如X1即可。

(3)4.分析结果(1)数据描述Case Processing SummaryUnweighted Cases a N PercentSelected Cases Included in Analysis 26 100.0Missing Cases 0 .0Total 26 100.0Unselected Cases 0 .0Total 26 100.0a. If weight is in effect, see classification table for the total number of cases.Dependent Variable EncodingOriginal Value Internal Value无转移0转移 1(2)Block 1: Method = Forward Stepwise (Likelihood Ratio)Omnibus Tests of Model CoefficientsChi-square df Sig.Step 1 Step 15.538 1 .000Block 15.538 1 .000Model 15.538 1 .000Step 2 Step 6.178 1 .013Block 21.716 2 .000Model 21.716 2 .000表示两步变量的引入均有统计学意义,方法合理。

论文经典方法:Logistic回归分析及其应用PPT课件

论文经典方法:Logistic回归分析及其应用PPT课件

04.02.2021
.
5
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
04.02.2021
.
6
寻找合适的模型
进行logit变换
p
logit(p) = ln( 1—-—p ), p为y=1所对应的概率 0.1
logit(0.1) = ln( ——— ) = ln(0.1/0.9) 1 - 0.1
称此为logistic回归模型
04.02.2021
.
8
P = ez / (1 + ez ) ea+b1x1+b2x2+… +bkxk
P = 1 + ea+b1x1+b2x2+… +bkxk
此为非条件logistic回归模型 应用于成组数据的分析
04.02.2021
.
9
自变量取定一些值时,因变量取0、1的概率就是 条件概率,对条件概率进行logistic回归,称为
04.02.2021
.
11
分析的一般步骤
变量的编码 哑变量的设置和引入 各个自变量的单因素分析 变量的筛选 交互作用的引入 建立多个模型 选择较优的模型 模型应用条件的评价 输出结果的解释
04.02.2021
.
12
1.变量的编码
变量的编码要易于识别 注意编码的等级关系 改变分类变量的编码,其分析的意 义并不改变。 牢记编码
04.02.2021
.
31
条件logistic回归
研究中有N个配比组,每组中n个病 例配m个对照者。这时,各个研究 对象发生某事件的概率即为条件概 率。 适用于 配比设计的病例-对照研究 精细分层设计的队列研究

图文举例详细讲解Logistic曲线的回归分析

图文举例详细讲解Logistic曲线的回归分析

Logistic 曲线的回归分析例 某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如表1.所示。

用转化为线性方程的方法估计其logistic 曲线预测模型。

设最大值k 为300(cm )。

表1. 玉米高度与时间(生长周期)的关系时间(生长周期) 高度/cm 时间(生长周期) 高度/cm 时间(生长周期) 高度/cm12 3 4 5 6 7 8 9 10 11 0.67 0.85 1.28 1.75 2.27 2.75 3.69 4.71 6.36 7.73 9.9112 13 14 15 16 17 18 19 20 21 12.75 16.55 20.1 27.35 32.55 37.55 44.75 53.38 71.61 83.89 22 23 24 25 26 27 28 29 30 31 97.46 112.7 135.1 153.6 160.3 167.1 174.9 177.9 180.2 180.83.1 基本绘图操作在Excel 中输入时间x 与高度y 的数据。

选择插入->图表图87点击图表,选择“标准类型”中的xy 散点图,并点击子图表类型的第一个。

图88 点击下一步,得到如图89。

图 89点击下一步。

图90分别点击标题、网格线、图例进行修改,然后点击下一步。

图91点击完成。

图92右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。

图93观察散点图,其呈S 型曲线,符合logistic 曲线。

采用转化为线性方程的方法求解模型。

3.2 Logistic 曲线方程及线性化Logistic 曲线方程为:1atk y me-=+ (12)(1) 将数据线性化及成图转化为线性方程为:01'y a a t =+ (13)其中,'ln(/1)y k y =-,0ln a m =,1a a =-具体操作为:向excel 表格中输入y ’数据。

Logistic回归分析及应用讲课文档

Logistic回归分析及应用讲课文档
第二十九页,共76页。
第三十页,共76页。
第三十一页,共76页。
第三十二页,共76页。
第三十三页,共76页。
第三十四页,共76页。
第三十五页,共76页。
第三十六页,共76页。
3、逐步Logistic回归分析
(1)向前法(forward selection)
开始方程中没有变量,自变量由 少到多一个一个引入回归方程。按自 变量对因变量的贡献(P值的大小)由 小到大依次挑选,变量入选的条件是 其P值小于规定进入方程的P界值Enter, 缺省值 P(0.05)。
除变量量纲的影响,为此计算标准化回归系数
bi' bi *Si / Sy,其中 Si为Xi的标准差 Sy为y的标准差。
第十五页,共76页。
5.假设检验
• (1)回归方程的假设检验
• H0:所有 i0,i0,1,2,,p H1:某个 i 0
• 计算统计量为:G=-2lnL,服从自由度等于n-p
• 的 2 分布
• 对子号
病例
对照

x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
01 2
020
•…
… … … ………
• 10
22 2
000
• 注:X1蛋白质摄入量,取值:0,1,2,3

X2不良饮食习惯,取值:0,1,2,3

X3精神状况 ,取值:0,1,2

第十页,共76页。
Logistic回归
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.

logistic回归分析及其应用-41页文档资料

logistic回归分析及其应用-41页文档资料
多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e
21.03.2020
2
F(y) :因变量的logit值
1.00
0.75
0.50
0.25
0.00 -4.00 -2.00 0.00 2.00 4.00
X:自变量
21.03.2020
如果一定要进 行直线回归也 可以做出结果, 但此时效果不 佳。当自变量 取一定值时, 因变量的预测 值可能为负数。
21.03.2020
14
2.哑变量的设置和引入
哑变量,又称指示变量或设计矩阵。 有利于检验等级变量各个等级间的变 化是否相同,但主要适合于无序分类变 量。 一个k分类的分类变量,可以用k-1个 哑变量来表示。
21.03.2020
15
哑变量的设置
教育程度:文盲,小学,初中,高中以上
教育程度 X1
X2
X3
文盲:0 0
0
0
小学:1 1
0
0
初中:2 0
1
0
高中:3 0
0
1
以文盲作为参考组
21.03.2020
16
以高中作为参照
教育程度
X1
X2
X3
文盲:010 Nhomakorabea0
小学:1
0
1
0
初中:2
0
0
1
高中:3
0
0
0
21.03.2020
17
SPSS提供的方法
Indicator: 默认。以第1 或最后1类作对照,其他每类 与对照比较; Sample: 以第1 或最后1类作对照,其他每类与对照比 较,但反映平均效应。 Difference: 除第1类外各分类与其前各类平均效应比较; Helmert: 除最后1类外各分类与其前各类平均效应比较; Repeated: 除第1类外各分类与其前一类比较; Polynomial: 假设类间距相等,用于数值型变量。 Deviation: 以第1 或最后1类作对照,其余每类与总效 应比较。

logistic回归分析PPT精品课程课件讲义

logistic回归分析PPT精品课程课件讲义

问题的提出(续)
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等;
• 分析“母亲怀孕期间体重增加”对“新生儿出 生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型: P=α +βX • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大 于1或小于0,无法从医学意义进行解释, 显然不适 宜用线性回归建立预测模型。
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小,确定各因素对CHD发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大 ,其他依次为相对体重、年龄、 胆固醇、ECG和BP。
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下 CHD的发病率。如某受试者A暴露于因素xi的情况 为: X=(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因 素的条件下,12年间CHD的发病率为: PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
小 结
• (1)logistic回归分析要求因变量是二分变量,或任何取值
为0或1的属性数据。
• (2)logistic回归分析中对自变量的正态性、方差齐性不作
要求,对自变量类型也不作要求;
• (3)自变量与因变量(y)之间是非线性关系,但是与logit y之
间应符合线性关系。
1. 定群研究资料分析…弗明汉心脏研究 742 名居住在弗明汉年龄为 40-49 岁的男性,在各自暴露不 同水平的影响因素(详见下表中的7种因素),经 12年追踪观察 CHD发病情况。根据此742名受试者每人暴露各项因素的水平 和 CHD 发病与否的资料,采用多因素 LOGISTIC 回归模型进

《logistic回归》课件

《logistic回归》课件
03
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。

精品课程医学统计学教学课件-logistic回归分析

精品课程医学统计学教学课件-logistic回归分析
前瞻性研究方法,将人群按照是否暴露于某因素进行分组,追踪 各组的结局并比较其差异。
详细描述
队列研究在医学中常用于评估危险因素对疾病发生和发展的影响,以及评估预防 措施的效果。通过长期追踪和研究对象的定期随访,收集各组人群的结局数据, 分析暴露因素与结局之间的关联。
随机对照试验
随着大数据和人工智能技术的不断发 展,Logistic回归分析在医学领域的 应用越来越广泛。未来的研究将更加 注重Logistic回归分析与其他先进技 术的结合,如深度学习、机器学习等 ,以提高模型的预测精度和稳定性。
未来的研究将更加关注Logistic回归 分析在临床实践中的应用,如疾病预 测、诊断和治疗方案的制定等。同时 ,如何将Logistic回归分析与其他统 计方法结合,以更好地解决医学实际 问题,也是值得探讨的方向。
课件采用了多种教学方法,如理论讲解、案例分析、软件操作等,使学生能够全面了解和 掌握Logistic回归分析的技能。
教学效果
通过本课件的学习,学生能够熟练掌握Logistic回归分析的基本原理和应用,提高解决实 际问题的能力,为后续的医学研究和临床实践打下坚实的基础。
研究展望
研究前沿
研究方向
教学改进
03
Logistic回归分析在医学 中的应用
病例对照研究
总结词
病例对照研究是一种回顾性研究方法,通过比较病例组和对 照组的暴露情况,探讨疾病与暴露因素之间的关联。
详细描述
在医学领域,病例对照研究常用于探讨病因、预测风险和评 估干预措施的效果。通过收集病例组和对照组的相关信息, 分析暴露因素与疾病发生之间的关系,为病因推断提供依据 。
利用样本数据,建立Logistic回归模 型,描述自变量与因变量之间的关系。

分类资料的回归分析

分类资料的回归分析

第十一章分类资料的回归分析――Regression菜单详解(下)(医学统计之星:张文彤)在很久很久以前,地球上还是一个阴森恐怖的黑暗时代,大地上恐龙横行,我们的老祖先--类人猿惊恐的睁大了双眼,围坐在仅剩的火堆旁,担心着无边的黑暗中不知何时会出现的妖魔鬼怪,没有电视可看,没有网可上...我是疯了,还是在说梦话?都不是,类人猿自然不会有机会和恐龙同时代,只不过是我开机准备写这一部分的时候,心里忽然想到,在10年前,国内的统计学应用上还是卡方检验横行,分层的M-H卡方简直就是超级武器,在流行病学中称王称霸,更有那些1:M的配对卡方,N:M的配对卡方,含失访数据的N:M 配对卡方之类的,简直象恐龙一般,搞得我头都大了。

其实恐龙我还能讲出十多种来,可上面这些东西我现在还没彻底弄明白,好在社会进步迅速,没等这些恐龙完全统制地球,Logistic模型就已经飞速进化到了现代人的阶段,各种各样的Logistic模型不断地在蚕食着恐龙爷爷们的领地,也许还象贪吃的人类一样贪婪的享用着恐龙的身体。

好,这是好事,这里不能讲动物保护,现在我们就远离那些恐龙,来看看现代白领的生活方式。

特别声明:我上面的话并非有贬低流行病学的意思,实际上我一直都在做流行病学,我这样写只是想说明近些年来统计方法的普及速度之快而已。

据我一位学数学的师兄讲,Logistic模型和卡方在原理上是不一样的,在公式推演上也不可能划等号,只是一般来说两者的检验结果会非常接近而已,多数情况下可忽略其不同。

§10.3 Binary Logistic过程所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在0~1之间,回归方程的应变量取值可是在实数集中,直接做会出现0~1范围之外的不可能结果,因此就有人耍小聪明,将率做了一个Logit变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。

Logistic回归分析 ppt课件

Logistic回归分析  ppt课件

Logistic回归分析
Logistic回归模型: Logit(p)=ln(p/(1-p))=β0+β1x1+β2x2+βnxn
Y=Logit(p) 的图形如下 (随p由0变到1,Y的值由-∞单调上升到∞)
5
Logistic回归分析
上模型称为Logistic回归模型.其中最简单的情况
0
3
0
8
31
PPT课件
20
Logistic回归
进入分析家并打开数据集 选择统计/回归/Logisti
YDependent,xQuantitative <Variables>/countFrequency 点击Model{}右侧的箭头,并选0(y=0
为发病) ok
1
Logistic回归分析
描述属性变量Y所表示的某一特征发生的可 能性大小(即概率p),也希望用一些自变量x1, x2,...来说明和预测。特别是两值问题(Y=0表示 某事件A不发生,Y=1表示发生):记
P{Y=1}=p
p的取值在0与1之间变化,所以简单地将 概率p表示为自变量x1, x2,....的线性函数 是不合适的。
4.6978=570.649-565.951 其对应的P值小,建模效果显著
12
结果分析
参数估计值
• (Analysis of Maxamum Likelihood Estimates)
回归方程:
• Logit(p)=-0.7566+0.4373*sex • 由检验的显著性概率值(分别为0.001和0.0312)可知
PPT课件
23
结果
结果:
1.Ln(p/(1-p))=1.9924-2.7462x3 有巩固治疗x3=1,Ln(p/(1-p))=-0.7538 p/(1-p)=0.471,p=0.471/1.471=0.32 有巩固治疗一年内死亡的概率是0.32 2.无巩固治疗x3=0,Ln(p/(1-p))=1.9924 p/(1-p)=7.33,p=7.33/8.33=0.88 无巩固治疗一年内死亡的概率是0.88

《logistic回归分析》PPT课件

《logistic回归分析》PPT课件
3
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1

p( y
1|
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
21
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。

论文经典方法Logistic回归分析及其应用(课堂PPT)

论文经典方法Logistic回归分析及其应用(课堂PPT)
Logistic回归分析 及其应用
温泽淮 DME中心
24.06.2020
.
1
概述
1967年Truelt J,Connifield J和 Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素 的研究,较早将Logistic回归用于医 学研究。
一般概念
一元直线回归
多元直线回归
24.06.2020
.
2
一元直线回归模型 y=a+bx+e
多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e
24.06.2020
.
3
F(y) :因变量的logit值
1.00
0.75
0.50
0.25
0.00 -4.00 -2.00 0.00 2.00 4.00
0
0
初中:2 0
1
0
高中:3 0
0
1
24.06.2020
.
17
以高中作为参照
教育程度
X1
X2
X3
文盲:0
1
0
0
小学:1
0
1
0
初中:2
0
0
1
高中:3
0
0
0
24.06.2020
.
18
SPSS提供的方法
Indicator: 默认。以第1 或最后1类作对照,其他每类 与对照比较; Sample: 以第1 或最后1类作对照,其他每类与对照比 较,但反映平均效应。 Difference: 除第1类外各分类与其前各类平均效应比较; Helmert: 除最后1类外各分类与其前各类平均效应比较; Repeated: 除第1类外各分类与其前一类比较; Polynomial: 假设类间距相等,用于数值型变量。 Deviation: 以第1 或最后1类作对照,其余每类与总效 应比较。

Logistic Regression回归分析

Logistic Regression回归分析

Detect (偵測): 自動偵測變數 資料內容型態 以及資料型態
模型命名,在一個Mining structure中可以包含數個 Mining model,而多個Mining model間可進行比較,而 輸入模型名稱後,點選Finish結束設定
Mining structure name(採礦結 構名稱);Mining model name(採 礦模型名稱);其中,一個資料採 礦結構中可以包含多個模型。
•在定量分析的實際研究中,線性迴歸模型
(Linear Regression Model) 是最流行的統計方 式。
•許多社會科學問題的觀察,都只是分類而非連續
的。對於分類問題時,線性迴歸就不適用了。
Linear Regression vs Logistic Regression
比較 Multiple Regression Logistic Regression
進行分析時所有選擇的變數, 包含Key(索引鍵)、 Input(輸入變數)和 Predict(預測變數)
Data Source View: 主要展現資料庫中各 資料表間的關聯性
而在Mining Models(採礦模型)中,主要是列出所建立的採 礦模型,亦可以新增採礦模型,並調整變數,變數使用狀況 包含Ignore(忽略)、Input(輸入變數)、Predict(預測變數、 輸入變數)以及PredictOnly(預測變數)
O: ( 0 1 0 ) AB: ( 0 0 1 )
可為連續性或類別資料 類別資料需設定參考組
Odds Ratio 95% CI of Odds Ratio P value (Wald statistic) Accuracy of model=85.9% Nagelkerke R2

抽样技术第11章复杂调查数据的回归

抽样技术第11章复杂调查数据的回归
❖ 对于异方差,很多回归的课本在讨论回归估 计的时候使用加权最小二乘法作为补救方法。
如 且果服模从型均为值:为Yi0,x方iT 差为i,i2 的其正中态分i 是布独。立那的,
么i / i 即为均值为0,方差为1的正态分布。 ❖ 那么加权最小二乘法估计即为:
( X T 1X ) X T 1 y WLS
❖ B0 和 B1 可以用总体的函数来表示

❖ ❖
B
1
N
N
N
xi yi ( xi )( yi ) /
i 1
i1 i1
N
N
xi2 ( xi )2 / N
i 1
i 1
N
txy
txty N
tx2
(tx )2 (11.4)
N
N
N
B
yi i1
1 xi
i 1
ty
B1tx
B ❖ 0
N
N
(11.5)
❖ ①基于设计
在基于设计的方法中,我们感兴趣的是能够 反映有限总体特征的量,而忽略这个模型是 否能够很好拟合总体。推断基于来自有限总 体中的重复样本。也许一个产生这个数据的 模型存在,但是我们并不需要知道,因此分 析并不是需要基于任何的理论模型。在估计 总体总值和总体均值的时应该使用权重,同 理,在线性回归分析中也应当如此。
总体,B应该接近 。
❖ ②是否为一个概率抽样?如果不是,我们就 只能使用基于模型的方法。
❖ ③样本大小多大?基于设计的理论是依靠大 样本来推断参数的。如果样本过小,那则需 要使用基于模型的方法。
❖ ④这方面有没有人之前被广泛地研究过。如 果科学理论和之前的经验调查支持你所计划 研究的模型,那你则可以充分相信基于模型 的方法。

精品课程医学统计学教学课件logistic回归分析

精品课程医学统计学教学课件logistic回归分析

PPT文档演模板
精品课程医学统计学教学课件logistic 回归分析
PPT文档演模板
精品课程医学统计学教学课件logistic 回归分析
PPT文档演模板
精品课程医学统计学教学课件logistic 回归分析
PPT文档演模板
精品课程医学统计学教学课件logistic 回归分析
3rew
演讲完毕,谢谢听讲!
•调查方向:追踪收集资料
•暴露
•疾病 •人数
•比较
•+
•研究人群
•-
•+ •a •- •b
•+ •c •- •d
•a/(a+b) •c/(c+d)
PPT文档演模板
•队列研究原理示意图 精品课程医学统计学教学课件logistic
回归分析
•RR(相对危险度relative risk):表示暴露组与非暴露组 发病率(或死亡率)的比值。也称为危险比(risk ratio)。 反映了暴露与疾病发生的关联强度。
PPT文档演模板
精品课程医学统计学教学课件logistic 回归分析
• 队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果 的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人 群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死 亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾 病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者知 道每个研究对象的暴露情况。
•比较
•调查方向:收集回顾性资料
•人数 •暴露
•疾病
•a/(a+b) •c/(c+d)
PPT文档演模板
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解释;
• 了解条件Logistic回归的应用; • 掌握条件Logistic回归的SAS程序;
概述
• 线性回归模型和广义线性回归模型要求因变量是
连续的正态分布变量,且自变量和因变量呈线性 关系。当因变量是分类型变量时,且自变量与因 变量没有线性关系时,线性回归模型的假设条件 遭到破坏。这时,最好的回归模型是Logistic回归 模型,它对因变量的分布没有要求,从数学角度 看,Logistic回归模型非常巧妙地避开了分类型变 量的分布问题,补充完善了线性回归模型和广义 线性回归模型的缺陷。从医学研究角度看, Logistic回归模型解决了一大批实际应用问题,对 医学的发展起着举足轻重的作用。
• 多元线性回归的局限性 • 经典流行病学统计分析方法—分层分析的局限性
1.两种主要的流行病学设计 1)病历对照研究 2)队列研究
2.判断结局(疾病)和暴露(因素)联系强弱的指标 1) 相对危险度:RR = p1 / p0 p1: 暴露于某个危险因素下发病的概率 p0: 不暴露于某个危险因素下发病的概率(对照) 2)比值比:
五、Logistic 回归模型的统计学检 验
{e α/[1+ e α] }c {1/ [1+ e α] }d
取对数,有 Ln (L) = a (α + β) – a ln[1+e(α + β) ]– b ln[1+e (α + β)]
+ c α – c ln [1+e α ] – d ln[1+e α ]
对以上似然函数分别求对α 和 β的一阶偏导数,再令两个偏导数为零, 就可以解得α 和 β的估计值。
331
———————————————————————————————————
2 = 17. 88 P〈0. 01
40岁以上服用OC的比例远小于40岁以下组。
Mantel-Haenszel分层分析法
按年龄分层,可以得到下表:
—————————————————————————————————
〈40岁
≥40岁
用发病概率来表示四格表,可以得到四格表的另外一种表示形式:
四格表的另外一种表达形式(1)
————————————————————————————
发病(y=1)
不发病(y=0)
————————————————————————————
暴露(x=1)
p1
1- p1
不暴露(x=0)
p0
1- p0
—————————————————————————————
暴露者发病概率: p1 = exp(α + βx)/[1+ exp(α + βx)]
暴露者不发病概率: q0= 1- p1 = 1/ [1+ exp(α + βx)];
不暴露者发病概率: p0 = exp(α)/[1+ exp(α)]
不暴露者不发病概率: q0= 1- p0 = 1/[1+ exp(α)] ;
OR = {P(D=1|E=1)/P(D=0|E=1)} / {P(D=1|E=0)/P(D=0|E=0)}
D=1: 患某种疾病, D=0:不患某种疾病 E=1: 暴露于某个危险因素, E=0: 不暴露于某个危险因素 可以简单地表述成:OR = (p1 / q1) / (p0 / q0)
p1 : 暴露于某个危险因素下发病的概率 q1 : 暴露于某个危险因素下不发病的概率 p0 : 不暴露于某个危险因素下发病的概率 q0 : 不暴露于某个危险因素下不发病的概率
回归系数的流行病学意义是:在其它自变量都 不变的条件下,当因素X变化一个测量单位时所引起的 OR值自然对数的改变量。
三、Logistic 回归和OR值间的关系
ln1pp = 1x1
p e1x1 1 p
ORX1 =
p q X11 X11
...... px11 ...... 1 px11
e 1x1
如果当分层后各层的OR值经过一致性检验发现: 各层间的OR值有统计学差异,这时说明分析因素在 分层因素的不同水平上与结局变量的联系强度是不同 的,这时分层因素和研究因素存在这交互作用(效应 修饰作用)。这时应该分层报告OR值,而不能计算 调整OR值。
分层分析的局限性
❖只能控制少数因素(分层因素过多,
建立的logistic 回归方程形式为:
Logit P = -0.2478 + 1.3107 x X取值:1 使用过雌激素
0 未使用过雌激素
使用过雌激素的Logit 为: Logit P(x=1) = -0.2478 + 1.3107 = 1.063 即:Ln (p1/q1) = 1.063 所以,使用过雌激素的比值(odds) 为:
1/ [1+ e (α + β)]
不暴露(x=0) e α/[1+ e α]
1/ [1+ e α]
——————————————————————————————
因为四格表的四个实际数为a,b,c及d, 故可构造似然函数为:
L = {e(α + β)/[1+ e (α + β)] }a {1/ [1+ e (α + β)] }b
用发病概率来表示四格表,可以得到四格表的另外一种表示形式:
四格表的另外一种表达形式(2)
——————————————————————————————
发病(y=1)
不发病(y=0)
——————————————————————————————
暴露(x=1) e(α + β)/[1+ e (α + β)]
————————————————————————————
暴露(x=1)
a
b
不暴露(x=0)
c
d
合计
—————————————————
a+c
b+d
—————————————————————————————
暴露者发病概率 p1 = a /(a+b); 不暴露者发病概率 p0= c/(c+d)
OR= ad/(bc)
非条件Logistic回归
• 医学研究中经常需要分析分类型变量的问题。比如,生存
与死亡、有病与无病、有效与无效、感染与未感染等二分 类变量。研究者关心的问题是,哪些因素导致了人群中有 些人患某种病而有些人不患某种病,哪些因素导致了某种 治疗方法出现治愈、显效、好转和无效等不同的效果等。 这类问题,实质上是一个回归问题,因变量就是上述提到 的这些分类型变量,自变量x是与之有关的一些因素。但 是,这样的问题却不能直接用线性回归分析方法解决,其 根本原因在于因变量是分类型变量,严重违背了线性回归 分析对数据的假设条件。那么应该怎样解决这个问题呢?
第11章 Logistic回归分析
学习目标
• 了解Logistic回归模型的建立和假设检验; • 了解Logistic回归模型的应用领域; • 掌握Logistic回归模型系数的解释,及回归系数与
OR值之间的关系;
• 掌握Logistic回归过程步; • 掌握哑变量的设置和结果的解释; • 掌握多元Logistic回归模型的逐步过程法和系数的
非条件Logistic回归
• 研究者将所研究的问题转换一个角度,不
是直接分析y与x的关系,而是分析y取某个
值的概率P与x的关系。例如,令y为1,0变
量,y=1表示有病,y=0表示未患病;x是
与患病有关的危险因素。如果P表示患病的 概率,即P=prob(y=1),那么研究患病 的概率P与危险因素x的关系就不是很困难
所以不暴露时, Logit(P0) = α , 比值(odds) = exp(α)
则,暴露对于不暴露的比值比(odds ratio)为: OR = exp(α + β ) / exp(α) = exp(β)
举例2 使用雌激素与子宫内膜癌病例对照研究
(病例对照,曾光《现代流行病学方法与应用》,P76)
————————————
————————————
MI 非MI 合计
MI 非MI 合计
—————————————————————————————————
服OC 21 17 38
18 7 25
未—服—O—C——2—6———59———8—5——8—8———9—5———1—8—3
——
合计 47 76 123 106 102 208
不同年龄组内服用避孕药的比例
——————————————————————————
年龄
服OC
不服OC
合计
——————————————————————————
〈40
38(0.31) 85
123
≥40
25(0.12) 183
208
——————————————————————————
合计
63
268
= p q X10 X10
px10
= e 1x1
1 px10
e 1 1
= e 10
=e1
假设建立了如下的logistic回归方程:
Logit P = α + βx
x 为二分变量,当暴露时,取值为1;
不暴露时,取值为0。
所以暴露时,
Logit(P1) = α + β, 比值(odds) = exp(α + β )
—————————————————————————
OR(1) = 2.803 2 (1)= 6.77 OR(2) = 2.776 2 (2)= 5.03
ORMH = (ai*di/ni) / (bi *ci/ni) ORMH =2.79
相关文档
最新文档