《logistic回归分析》PPT课件
合集下载
logistic回归分析精选PPT课件

Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
case |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exposure | 2.112829 .4228578 5.00 0.000 1.284043 2.941615
2
二分类资料的分析
非条件logistic模型:成组病例对照研究资料 条件logistic模型:配比病例对照研究资料3源自非条件logistic回归模型
lo ( p ) g 0 + i 1 X 1 + t = 2 X 2 k X k
01X1+ 2X2+ + kXk
p1ee01X12X2 kXk 1
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
.4626866
Logistic回归分析重点难点ppt课件

病例对照研究
病 例
调查方向
暴露 未暴露
病例 对照
a c
b d
暴 露
对 照
未暴露
研究起点
危险度
危险度( risk) :通常指某个不幸事件发生的概 率。危险度大表示发生的可能性大。 某病发病危险度:观察对象在观察期间内发生某 病的概率,即某病发病率。
ห้องสมุดไป่ตู้
险因子的发病率 p e 与不暴露于该种危
相对危险度(relative risk, RR) :暴露于某种 危险因子的发病率 pe 与不暴露于该种危险因子的 p o 之比。 发病率 p0 之比。
a c
b d
a /(a b) c /(c d ) OR / b /(a b) d /(c d ) ad / bc
病例对照研究一般用OR替代RR。
队列研究
患病 未患病
暴露组 非暴露组
a c
b d
OR ad / bc a /(a b) RR c /(c d )
(对发病率 较低的疾病)
比数(odds):发生率与未发生率之比,即 p/(1-p) , 比数:发生率与未发生率之比,及 p (1 p ) 即阳性率/阴性率。
比数比( OR , odds ) :两个比数之比,即 比数比( odds ratio , ORratio ) :两个比数之比,
比数比
p1 即 1 p 1
OR (ad) /(bc) 1.727 。 则吸烟的 RR
实例
例16-2 为了探讨冠心病发生的有关危险因素,对 26例冠心病病人和28例对照者进行病例对照研究, 调查记录了8个可能的危险因素,试用Logistic逐步 回归分析方法筛选危险因素,并分析各自变量的作 用大小。
13.Logistic回归分析(09) PPT课件

0
1
0
45
1.7
0
1
0
46
5.1
0
1
0
47
1.1
0
1
0
48
32.0
0
1
0
49
12.8
0
1
0
50
1.4
0
1
0
全回归方程:
Variables in the Equation
S1atep
X1 X2
B
S.E. Wald
df
-.002 .006 .167
1
.792 .487 2.643
1
X3
-2.830 .793 12.726
0
1
0
45
1.7
0
1
0
46
5.1
0
1
0
47
1.1
0
1
0
48
32.0
0
1
0
49
12.8
0
1
0
50
1.4
0
1
0
观察号
因素
i
X1
X2
X3
1
2.5
0
0
2
1.2
2
0
3
173.0
2
0
4
3.5
0
0
5
119.0
2
0
6
39.7
0
0
7
10.0
2
0
8
62.4
0
0
9
502.2
2
0
10
2.4
logistic回归分析PPT精品课程课件讲义

问题的提出(续)
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等;
• 分析“母亲怀孕期间体重增加”对“新生儿出 生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型: P=α +βX • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大 于1或小于0,无法从医学意义进行解释, 显然不适 宜用线性回归建立预测模型。
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小,确定各因素对CHD发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大 ,其他依次为相对体重、年龄、 胆固醇、ECG和BP。
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下 CHD的发病率。如某受试者A暴露于因素xi的情况 为: X=(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因 素的条件下,12年间CHD的发病率为: PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
小 结
• (1)logistic回归分析要求因变量是二分变量,或任何取值
为0或1的属性数据。
• (2)logistic回归分析中对自变量的正态性、方差齐性不作
要求,对自变量类型也不作要求;
• (3)自变量与因变量(y)之间是非线性关系,但是与logit y之
间应符合线性关系。
1. 定群研究资料分析…弗明汉心脏研究 742 名居住在弗明汉年龄为 40-49 岁的男性,在各自暴露不 同水平的影响因素(详见下表中的7种因素),经 12年追踪观察 CHD发病情况。根据此742名受试者每人暴露各项因素的水平 和 CHD 发病与否的资料,采用多因素 LOGISTIC 回归模型进
《logistic回归》课件

03
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
Logisic回归分析PPT课件

0
吸烟 不吸烟
各 变 量
X2
1
0
饮酒 不饮酒
编
码
Y
1
病例
0
对照
39
17
表16-1 吸烟与食道癌关系的病例-对照调查资料
分层 吸烟 饮酒 观察例数 阳性数 阴性数
g
X1
X2
ng
dg
ng dg
1
0
0
199
63 136
2
0
1
170
63 107
3
1
0
101
44
57
4
1
1
416
265 151
39
18
经 logistic 回归计算后得
计算公式为:
OR j
P1 P0
/(1 /(1
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, ORj 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
39
12
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平X j c1 与X j c0 的发病 情况(假定其它因素的水平相同),其优势比的自然对数为:
.
51
2
0
1
1
0
1
2
1
1
52
2
1
1
1
0
0
2
1
1
53
2
1
0
1
0
0
1
1
1
54
3
1
1
0
1
精品课程医学统计学教学课件-logistic回归分析

前瞻性研究方法,将人群按照是否暴露于某因素进行分组,追踪 各组的结局并比较其差异。
详细描述
队列研究在医学中常用于评估危险因素对疾病发生和发展的影响,以及评估预防 措施的效果。通过长期追踪和研究对象的定期随访,收集各组人群的结局数据, 分析暴露因素与结局之间的关联。
随机对照试验
随着大数据和人工智能技术的不断发 展,Logistic回归分析在医学领域的 应用越来越广泛。未来的研究将更加 注重Logistic回归分析与其他先进技 术的结合,如深度学习、机器学习等 ,以提高模型的预测精度和稳定性。
未来的研究将更加关注Logistic回归 分析在临床实践中的应用,如疾病预 测、诊断和治疗方案的制定等。同时 ,如何将Logistic回归分析与其他统 计方法结合,以更好地解决医学实际 问题,也是值得探讨的方向。
课件采用了多种教学方法,如理论讲解、案例分析、软件操作等,使学生能够全面了解和 掌握Logistic回归分析的技能。
教学效果
通过本课件的学习,学生能够熟练掌握Logistic回归分析的基本原理和应用,提高解决实 际问题的能力,为后续的医学研究和临床实践打下坚实的基础。
研究展望
研究前沿
研究方向
教学改进
03
Logistic回归分析在医学 中的应用
病例对照研究
总结词
病例对照研究是一种回顾性研究方法,通过比较病例组和对 照组的暴露情况,探讨疾病与暴露因素之间的关联。
详细描述
在医学领域,病例对照研究常用于探讨病因、预测风险和评 估干预措施的效果。通过收集病例组和对照组的相关信息, 分析暴露因素与疾病发生之间的关系,为病因推断提供依据 。
利用样本数据,建立Logistic回归模 型,描述自变量与因变量之间的关系。
详细描述
队列研究在医学中常用于评估危险因素对疾病发生和发展的影响,以及评估预防 措施的效果。通过长期追踪和研究对象的定期随访,收集各组人群的结局数据, 分析暴露因素与结局之间的关联。
随机对照试验
随着大数据和人工智能技术的不断发 展,Logistic回归分析在医学领域的 应用越来越广泛。未来的研究将更加 注重Logistic回归分析与其他先进技 术的结合,如深度学习、机器学习等 ,以提高模型的预测精度和稳定性。
未来的研究将更加关注Logistic回归 分析在临床实践中的应用,如疾病预 测、诊断和治疗方案的制定等。同时 ,如何将Logistic回归分析与其他统 计方法结合,以更好地解决医学实际 问题,也是值得探讨的方向。
课件采用了多种教学方法,如理论讲解、案例分析、软件操作等,使学生能够全面了解和 掌握Logistic回归分析的技能。
教学效果
通过本课件的学习,学生能够熟练掌握Logistic回归分析的基本原理和应用,提高解决实 际问题的能力,为后续的医学研究和临床实践打下坚实的基础。
研究展望
研究前沿
研究方向
教学改进
03
Logistic回归分析在医学 中的应用
病例对照研究
总结词
病例对照研究是一种回顾性研究方法,通过比较病例组和对 照组的暴露情况,探讨疾病与暴露因素之间的关联。
详细描述
在医学领域,病例对照研究常用于探讨病因、预测风险和评 估干预措施的效果。通过收集病例组和对照组的相关信息, 分析暴露因素与疾病发生之间的关系,为病因推断提供依据 。
利用样本数据,建立Logistic回归模 型,描述自变量与因变量之间的关系。
Logistic回归分析(共53张PPT)

数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
课程医学统计学教学logistic回归分析 PPT

OR>1,说明 该因素是疾病的危险性增加,为危险因 素;OR<1,说明 该因素是疾病的危险性减小,为保护因素;
病例对比研究的类型
(一)病例与对比不匹配---非条件logistic回归 在设计所规定的病例和对比人群中,分别抽取一定量的研究 对象,一般对比应等于或多于病例数,此外无其他任何限制。
(二)病例与对比匹配---条件logistic回归 匹配或称配比(matching),即要求对比在某些因素或特征上与 病例保持一致,目的是对两组比较时排除混杂因素的干扰。 匹配分为成组匹配和个体匹配。
概率p值均小 于0.05,说明 方程有意义。
四、变量筛选
Logistic 逐步回归变量筛选的过程与线性逐步回 归变量筛选的过程极为相似,但其中所用的检
验统计量不再是 F 统计量,而是似然比统计量、
Wald 统计量等。例如使用似然比统计量,
即利用
G
2[ln
L(l ) 1
ln
L(l ) 0
]
,在进行到第
匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混 杂因子,否则不应匹配。
(三)巢式病例对比研究
也称为队列内的病例对比研究,是将队列研究和病例对比研究相结合的 方法。
第一节 logistic回归
logistic 回归模型:
设因变量Y 是一个二分类变量,其取值为Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m
• 病例对比研究(case-control studies):一种由果及因的回顾性研
究,先按疾病状态确定调查对象,分为病例(case)和对比(control)两 组,然后利用已有的记录、或采纳询问、填写调查表等方式,了解 其发病前的暴露情况,并进行比较,推测疾病与暴露间的关系。
logistic回归(共36张PPT)

二分类自变量 系数为比数比的对数值,由此比数比=eb
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用
统计学-logistic回归分析ppt课件

最新版整理ppt
38
九、logistic回归的应用举例
• 输精管切除术与动脉粥样硬化疾病的研究
• 1.问题的描述
(1)输精管切除术是否与动脉粥样硬化疾病 有关?
(2)如果存在联系,与其他已知的危险因素 相比,输精管切除术的相对重要性有多大?
(3)哪些男性亚群在输精管切除术以后发生 动脉粥样硬化疾病的可能性特别大?
• 条件Logistic回归的回归系数检验与分 析,和非条件Logistic回归完全相同。
最新版整理ppt
36
八、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选
用回归模型中的回归系数(βi)和OR说明 危险因素与疾病的关系。
适用的资料:
前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。
或
p (y 1 /x 1 ,x 2 x k) 1 e (0 1 1 x k ....kx k)
最新版整理ppt
10
2.模型中参数的意义
ln1PP=01X1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
ln1PP (y(y 1/0x/x 0)0)=0
最新版整理ppt
调查员审阅每日住院病人情况如果诊断适合研究的范围将病例转给心脏病主任医师作评估由他做出病例诊断是否合格的决定调查人员核对病人背景资料是否合格如果病人满足诊断标椎和背景资料合格调查人员开始询问并填写调查表每完成5个病例和10个配对对照以后请研究中心的工作人员对调查表进行评估重复以上步骤
第十六章 logistic回归分析
最新版整理ppt
28
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或
《logistic回归分析》课件

信用卡欺诈检测
应用逻辑回归模型检测信用 卡交易中的欺诈行为,保护 用户利益和减少风险。
电影推荐
利用逻辑回归模型根据用户 的历史行为和偏好进行电影 推荐,提供个性化的影片推 荐。
总结与展望
Logistic回归分析的优点和不足
总结逻辑回归分析的优点和限制,讨论其适用范围和局限性。
发展前景
展望逻辑回归分析在未来的发展趋势和应用领域。
探讨Logistic回归分析在实际问题中的广泛应用。
Logistic回归与线性回归的区别
比较Logistic回归和线性回归之间的差异和适用情况。
逻辑回归模型及其基本假设
1 Sigmoid函数
2 逻辑回归的数学模
型
介绍Sigmoid函数及其在
3 基本假设
描述逻辑回归模型中的
逻辑回归中的作用。
解释逻辑回归的数学模
《logistic回归分析》PPT 课件
介绍logistic回归分析的PPT课件,涵盖课程内容、逻辑回归模型、参数估计与 模型拟合、分类结果与型诊断、实战案例、总结与展望以及参考文献。
课程介绍
什么是Logistic回归分析
介绍Logistic回归分析的基本概念和原理。
Logistic回归分析的应用
• [3]C. Bishop (2006) Pattern recognition and machine learning. Springer.
讨论如何评估逻辑回归模型的分类结果,确定 哪些样本属于正类和负类。
ROC曲线
解释ROC曲线在逻辑回归模型中的作用,用于评 估模型的分类性能。
混淆矩阵
介绍混淆矩阵,用于评估逻辑回归模型的分类 准确性和误判情况。
模型的诊断
[医学]Logistic回归.ppt
![[医学]Logistic回归.ppt](https://img.taocdn.com/s3/m/5d84d0e926fff705cc170adb.png)
/*模型的拟合优度检验*/ run;
结果1:拟合优度检验结果
两种拟合优度检验的结果均显示:P值 =0.64>>0.05,因此可以认为当前模型与拟 合最好的模型比较,差别无统计意义。因此没 有必要对模型作进一步改进。
结果2:模型检验
似然比的卡方=(无协变量的-2LOGL值)-(有两个协变量的- 2LOGL值)=107.669-95.9=11.769,自由度df=2(模型 中的协变量个数),相应的P值=0.0028,因此可以认为两个协 变量的回归系数至少有一个不为0。即:认为模型有统计学意义。
常用统计软件
Logistic回归
Logistic回归分析的分类
按数据的类型: o 非条件logistic回归分析(成组数据) o 条件logistic回归分析(配对病例-对照数据)
按因变量取值个数: o 二分类logistic回归分析 o 多分类logistic回归分析
按自变量个数: o 一元logistic回归分析 o 多元logistic回归分析
实例1
假设我们有一个数据,45个观测值,四个变 量,包括: age(年龄,数值型); vision(视力状况,二分类:1表示差,0表 示好); drive(驾车教育,二分类:1表示参加过驾 车教育,0表示没有); Accident(去年是否发生事故,二分类:1 表示出过事故,0表示没有)。
(取值范围0~1)
考虑使用概率的logit变换函数
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
4
Logiyt(P)
非条件logistic回归的数学模型
因此,我们使用P与(1-P)的比值的对数, 来建立logit(P)与X的多重线性回归模型:
结果1:拟合优度检验结果
两种拟合优度检验的结果均显示:P值 =0.64>>0.05,因此可以认为当前模型与拟 合最好的模型比较,差别无统计意义。因此没 有必要对模型作进一步改进。
结果2:模型检验
似然比的卡方=(无协变量的-2LOGL值)-(有两个协变量的- 2LOGL值)=107.669-95.9=11.769,自由度df=2(模型 中的协变量个数),相应的P值=0.0028,因此可以认为两个协 变量的回归系数至少有一个不为0。即:认为模型有统计学意义。
常用统计软件
Logistic回归
Logistic回归分析的分类
按数据的类型: o 非条件logistic回归分析(成组数据) o 条件logistic回归分析(配对病例-对照数据)
按因变量取值个数: o 二分类logistic回归分析 o 多分类logistic回归分析
按自变量个数: o 一元logistic回归分析 o 多元logistic回归分析
实例1
假设我们有一个数据,45个观测值,四个变 量,包括: age(年龄,数值型); vision(视力状况,二分类:1表示差,0表 示好); drive(驾车教育,二分类:1表示参加过驾 车教育,0表示没有); Accident(去年是否发生事故,二分类:1 表示出过事故,0表示没有)。
(取值范围0~1)
考虑使用概率的logit变换函数
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
4
Logiyt(P)
非条件logistic回归的数学模型
因此,我们使用P与(1-P)的比值的对数, 来建立logit(P)与X的多重线性回归模型:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
logistic回归分析 王淑康
1
Logistic回归(Logistic Regression)是研究因变量为二分类或多分 类观察结果与影响因素(自变量)之间关系的一种多变量分析方法, 属概率型非线性回归。
Logistic回归的分类:
(1)二分类资料Logistic回归: 因变量为两分类变量的资料, 可用非条件Logistic回归和条件Logistic回归进行分析。非条 件Logistic回归多用于非配比病例-对照研究或队列研究资料, 条件Logistic回归多用于配对或配比资料。
)
;1
p2
p( y
0|
x
0)
1
1 exp( )
则似然函数为:
L [ exp( ) ]a[ exp( ) ]b[
1
]c [
1
]d
1 exp( ) 1 exp( ) 1 exp( ) 1 exp( )
10
表 1 调查数据
y
x
对 Q 分别求关于 和 的一阶偏导数,得到关于 和 的线形方程组,
解方程组得: b0 ln(b / d ) ad
b1 ln(a / c) ln(b / d ) ln( bc )
x)
exp( x) 1 exp( x)
则四个格子所对应的概率分别是:
p1
p( y
1|
x
1)
exp( ) 1 exp( )
;
p2
p( y
1|
x
0)
exp( ) 1 exp( )
1
p1
p( y
0|
x
1)
1
1 exp(
型可表示为:
P exp(0 1 X1 2 X 2 m X m ) 1 exp(0 1 X1 2 X 2 m X m )
其中, 0 为常数项, 1, 2 ,, m 为偏回归系数。
(15.1)
4
设 Z 0 1 X1 2 X 2 m X m ,则 Z 与 P 之间关系的
logistic 曲线如下图所示 。
可看出:当 Z 趋于 时, P 值渐进于 1;当 Z 趋于 时, P 值渐进于 0; P 值的变化在 0~1 之间,并且随Z 值的变 化以点(0,0.5)为中心成对称 S 形变化。
5
logit 变换:logit P = ln P 为 P 的 logit 变换, 1 P
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
3
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1
p( y
1|
1
0
1
aLeabharlann b0cd
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
为使似然函数值最大,首先对函数两边取对数:
Q ln(L) a ( ) a ln[1 exp( )] b b ln[1 exp( )] c ln[1 exp( )] d ln[1 exp( )]
通过 logit 变换之后,就可将 0 P 1的资料转换为
log it(P) 的资料。 作 logit 变换后,logistic 回归模型可以表示成如下 的线性形式:
ln
1
P P
0
1x1
2
x2
m
xm
6
模型参数的流行病学含义
当各种暴露因素为 0 时:
8
二、 logistic回归模型的参数估计
logistic回归模型的参数估计常采用最大似然估计。其基本 思想是先建立似然函数与对数似然函数,求使对数似然函 数最大时的参数值,其估计值即为最大似然估计值。
在病例-对照研究中,假设变量 y 取值 1 和 0 分别表示对象患 病和不患病;变量 x 取值 1 和 0 表示具有和不具有某种危险因 素;具体调查数据见下表:
量。它与比数比(优势比) OR(odds ratio)有对应关系。
7
在其它影响因素相同的情况下,某危险因素 X j 两个
不同暴露水平 c1 和 c0 发病优势比的自然对数为:
ln OR j
ln
P1 P0
(1 (1
P1 ) P0 )
=
ln( P1 ) ln( P0 )
ln( P ) 1 P
0
1 X1
2
X
2
mXm
0 1 0 m 0 0
可看出:常数项 0 是当各种暴露因素为 0 时,个体发病 与不发病概率之比的自然对数值。 偏回归系数 j ( j 1,2,, m )表示在其它自变量固定的
条件下,第 j 个自变量每改变一个单位时 logit (P) 的改变
1 P1
1 P0
= j (c1 c0 )
则该因素的优势比: OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
1
Logistic回归(Logistic Regression)是研究因变量为二分类或多分 类观察结果与影响因素(自变量)之间关系的一种多变量分析方法, 属概率型非线性回归。
Logistic回归的分类:
(1)二分类资料Logistic回归: 因变量为两分类变量的资料, 可用非条件Logistic回归和条件Logistic回归进行分析。非条 件Logistic回归多用于非配比病例-对照研究或队列研究资料, 条件Logistic回归多用于配对或配比资料。
)
;1
p2
p( y
0|
x
0)
1
1 exp( )
则似然函数为:
L [ exp( ) ]a[ exp( ) ]b[
1
]c [
1
]d
1 exp( ) 1 exp( ) 1 exp( ) 1 exp( )
10
表 1 调查数据
y
x
对 Q 分别求关于 和 的一阶偏导数,得到关于 和 的线形方程组,
解方程组得: b0 ln(b / d ) ad
b1 ln(a / c) ln(b / d ) ln( bc )
x)
exp( x) 1 exp( x)
则四个格子所对应的概率分别是:
p1
p( y
1|
x
1)
exp( ) 1 exp( )
;
p2
p( y
1|
x
0)
exp( ) 1 exp( )
1
p1
p( y
0|
x
1)
1
1 exp(
型可表示为:
P exp(0 1 X1 2 X 2 m X m ) 1 exp(0 1 X1 2 X 2 m X m )
其中, 0 为常数项, 1, 2 ,, m 为偏回归系数。
(15.1)
4
设 Z 0 1 X1 2 X 2 m X m ,则 Z 与 P 之间关系的
logistic 曲线如下图所示 。
可看出:当 Z 趋于 时, P 值渐进于 1;当 Z 趋于 时, P 值渐进于 0; P 值的变化在 0~1 之间,并且随Z 值的变 化以点(0,0.5)为中心成对称 S 形变化。
5
logit 变换:logit P = ln P 为 P 的 logit 变换, 1 P
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
3
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1
p( y
1|
1
0
1
aLeabharlann b0cd
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
为使似然函数值最大,首先对函数两边取对数:
Q ln(L) a ( ) a ln[1 exp( )] b b ln[1 exp( )] c ln[1 exp( )] d ln[1 exp( )]
通过 logit 变换之后,就可将 0 P 1的资料转换为
log it(P) 的资料。 作 logit 变换后,logistic 回归模型可以表示成如下 的线性形式:
ln
1
P P
0
1x1
2
x2
m
xm
6
模型参数的流行病学含义
当各种暴露因素为 0 时:
8
二、 logistic回归模型的参数估计
logistic回归模型的参数估计常采用最大似然估计。其基本 思想是先建立似然函数与对数似然函数,求使对数似然函 数最大时的参数值,其估计值即为最大似然估计值。
在病例-对照研究中,假设变量 y 取值 1 和 0 分别表示对象患 病和不患病;变量 x 取值 1 和 0 表示具有和不具有某种危险因 素;具体调查数据见下表:
量。它与比数比(优势比) OR(odds ratio)有对应关系。
7
在其它影响因素相同的情况下,某危险因素 X j 两个
不同暴露水平 c1 和 c0 发病优势比的自然对数为:
ln OR j
ln
P1 P0
(1 (1
P1 ) P0 )
=
ln( P1 ) ln( P0 )
ln( P ) 1 P
0
1 X1
2
X
2
mXm
0 1 0 m 0 0
可看出:常数项 0 是当各种暴露因素为 0 时,个体发病 与不发病概率之比的自然对数值。 偏回归系数 j ( j 1,2,, m )表示在其它自变量固定的
条件下,第 j 个自变量每改变一个单位时 logit (P) 的改变
1 P1
1 P0
= j (c1 c0 )
则该因素的优势比: OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。