B有序多分类Logistic回归模型课件

合集下载

logistic回归 ppt课件

logistic回归  ppt课件

比值比
OR=[P1/(1-P1)]/[P2/(1-P2)]
比值比 Odds Ratio
Odds=P/(1-P) 暴露组: P=a/(a+b) 1-P= b/(a+b) Odds=a/b 非暴露组:P=c/(c+d) 1-P= d/(c+d) Odds=c/d
病例 对照
暴露组
非暴露组
a c
b d
P ad 1 /(1 P 1) OR P0 /(1 P0 ) bc
相同,如下表: X1 暴露(X2=1) 非暴露(X2=0) X1 X1 X2 X2+1 X2 X3 X3 X3
Logistic回归系数与OR的关系:
P * ) exp b0 b1 x1 b2 ( x2 1) b3 x3 暴露: ( 1 P expb0 b1x1 b2 x 2 b3x3 b2
当年龄为a时, odds(Y=1|age=a) = exp(-4.353 + 0.038 a) 当年龄为a+1, odds(Y=1|age=a+1) = exp(-4.353 + 0.038 (a+1))
P ) exp b 0 b1x1 b 2 x 2 b 3 x 3 非暴露:( 1 P
p * ( ) 1 p exp(b 2 ) OR p 1 p
例:log odds (Y=1) = - 4.353 + 0.038 age
Y:妇女是否患有骨质疏松,Y=1为是,Y=0为否
1 , 2 ….. m分别为m个自变量的回归系数。 P ln( ) 取值:-∞ ~ +∞ 1 P
Logistic回归模型的函数
1.00

Logistic回归模型1PPT课件

Logistic回归模型1PPT课件
利用logistic分布函数的特征来表示在自变量X 的作用下出现阳性结果或阴性性结果的概率。
出现阳性结果的概率记为: P( y=1|x),
出现阴性结果的概率为: Q( y=0|x), 注意:P+Q=1。
当只有一个自变量时,logistic回归模型:
exp(X) P(y1|x)1ex0 p(X)
(1)
(10)
P(1)─X取1时,为暴露组 ; P(0)─X取0时,为非暴露组。
loig (tP )0x
lO n ) li [ o ( P R ( 1 t ) l g ] i [ o P ( 0 t ) ( g ] 0 1 ) ( 0 0 )
lnO ( R ) ORe
(五) 的统计学意义
-
1
Logistic 回归模型
主讲:黄志碧
回归分析概述
1、根据自变量多少分
(1)简单回归(一个自变量)
(2)多元回归(多个自变量) 2、根据Y的取值分
(1)确定型回归(多元线性回归) (2)概率型回归(Logistic回归) 3、根据回归图形分 线性回归(多元线性回归) 非线性回归(Logistic回归)
模型拟合优度检验: H0设实际频数分布和理 论频数分布相符合,即模型的拟合优度较好。
-
38
第二节 二项分类变量资料 非条件logistic 回归
二项分类反应变量是最常见的变量类型, 又称0、1变量。可用于病例-对照研究,队列 研究和横断面研究,其中成组设计的非条件 Logistic回归最常见。
-
0
Q (y0|x)1ex 1p 0(X) (2)
式中, 0 为回归线的截距, 是与X有关的
参数,也称回归系数。
Q P((yy 1 0||x x))exp 0(X) (3)

Logistic回归分析(共53张PPT)

Logistic回归分析(共53张PPT)
数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。

Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。

《logistic回归分析》PPT课件

《logistic回归分析》PPT课件
3
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1

p( y
1|
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
21
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。

第14章 有序多分类逻辑斯蒂回归模型

第14章 有序多分类逻辑斯蒂回归模型

• 是Pearson 和Deviance 两种拟合优度检验结果。判定规则:卡方值
很小或者P>a,拟合较好。当自变量很多或者自变量中存在连续性变量 时,这两个统计量不太适用。这两个统计量有个致命的缺点是对于
自变量取值水平组合的实际观察频数为0 的比例十分敏感,如果 上述比例过高,这两个统计量不一定仍旧服从卡方分布,因而基 于卡方分布计算的P 值也不可信。即:这两个统计量不一定能真 实地反映模型拟合情况。当自变量中存在连续性变量时,如本例 中的年龄,常会导致上述比例过高。与上述两个统计量相比,似 然比卡方则要稳健得多。本例两个统计量对应的 P 值均小于0.050
14.2 有序回归的案例分析
• 例:分析债权人如何确定申请者信用风险的问题, SPSS自带数据文件“信誉评价数据.sav” • 因变量Chist(账目情况)取值:没有贷款历史、现在 没有贷款、正在偿还、逾期偿还、拖欠贷款
因子一般为 分类变量
协变量一般为 连续变量,也 可以为二分类 变量
• 链接:指定链接函数(联 系函数、连接函数),即 对模型估计中的累积概 率的转换函数,根据因 变量(反应变量)的情 况选择
补充对数—对数
负对数—对数
把观测记录按因变量进行分类的估计概率,有 几个水平就保存几个变量 保存最大的估计响应概率
保存模型的预测响应分类
输出伪R方
输出累积频数、 概率的残差、观 测概率、预测概 率等内容 检验系数在各响 应类别中是否相 同,仅适用于位 臵模型
保存预测正确时 的估计响应概率
• 位臵模型设臵:用于指定定位模型中的各种效应
• 尺度模型设臵:设臵与尺度模型有关的参数
• 主要输出结果
案例处理摘要:可以 看出,本例在链接函 数的选择上,可以选 择补充对数——对数, 也可以选择Cauchit 链接函数

logistic回归(共36张PPT)

logistic回归(共36张PPT)
二分类自变量 系数为比数比的对数值,由此比数比=eb
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用

B2-有序多分类Logistic回归模型

B2-有序多分类Logistic回归模型
Parameter Estimates 95% Confidence Interval Lower Bound Upper Bound -.175 1.163 .621 2.076 .871 2.724 . . -2.356 -.282 . .
Threshold Location
[y = 0] [y = 1] [treat=0] [treat=1] [sex=0] [sex=1]
Output
Test of parallel lines: 不管反应变量的分割点在什 么位置,模型中各自变量的系数都保持不变
Location (默认)
Scale(默认)
单击OK
说明各种取值水平组合中有多少其观 察频数为0。如果有连续性变量,这个 比例会较大。
W arnings There are 1 (8.3%) cells (i.e., dependent variable levels by combinations of predictor variable values) with zero frequencies.
无效有效与痊愈,可建立两个方程。两个方 程的常数项不同,但回归系数相同。
二分类logistic回归模型
P ln 0 1 X 1 2 X 2 ... m X m 1 P
Ordinal logistic回归模型(SPSS) 无效0,有效1,痊愈2
P(Y j ) ln 1 P(Y j ) 0 j 1 X 1 2 X 2 ... m X m
Factor 与 Covariate
自变量是分类变量,选入Factor栏,取值大
的类别为参照组。 自变量是计量资料,选入Covariate栏。

【精品】Logistic 回归模型及回归分析PPT课件

【精品】Logistic 回归模型及回归分析PPT课件
3
数据分析的背景
• 单因素的分类资料统计分析,一般采用 Pearson 2进行统计检验,用Odds Ratio 及其95%可信区间评价关联程度。
• 考虑多因素的影响,对于反应变量为分 类变量时,用线性回归模型P=a+bx就不 合适了,应选用Logistic回归模型进行统 计分析。
4
Logistic回归模型
Logistic 回归模型及回归分析
1
Logistic 回归模型
2
数据分析的背景
• 计量资料单因素统计分析 – 对于两组计量资料的比较,一般采用t检 验或秩和检验。
– 对于两个变量的相关分析采用Pearson 相关分析或Spearman相关分析
• 考虑多因素的影响,对于应变量(反应变 量)为计量资料,一般可以考虑应用多重 线性回归模型进行多因素分析。
ln(Odds)
ln( P 1 P
)
0
1x1
mxm
10
Logistic回归模型
• 记: log it(P) ln( P ) 1 P
• 故可以写为
log it(P) 0 1x1 m xm
• 也可以写为
P exp(0 1x1 m xm ) 1 exp(0 1x1 m xm )
准正态分布,即:|z|>1.96,P<0.05,拒绝H0
19
实例1:用Logistic模型进行统计分析
• 实例1的回归系数估计为
ˆ1 0.4117232 ˆ0 -7.962891
• se(b)=0.1780719, z=b/se=2.31 ,P=0.021<0.05 拒绝H0,差异有统计学意义,可认为0。
e0
P 1 e0
1 P 1 e0

有序多分类逻辑斯蒂回归模型PPT课件

有序多分类逻辑斯蒂回归模型PPT课件

• 警告信息说明自变量的各种取值水平组合中有多少其观 察频数为0 。由于数据库中变量age 为连续性变量,所 以这个比例显得较大,此种情况下属于正常现象。
•反应变量与离散自变量不同取值水平的边际频数分布
第15页/共32页
• 对模型中是否所有自变量偏回归系数全为0 进行似然比检验(判断规则:P<a,拟 合较好),结果P <0. 001,说明至少有一个自变量的偏回归系数不为0 。即:拟 合包含年龄、性别、年收入水平、文化程度4 个自变量的模型其拟合优度好于仅包 含常数项的模型。
p(Y 1) p(Y k) 1
• 累积概率满足:
第3页/共32页
• 累积概率的模型并不利用最后一个概率,因为它必然等
14.1 有序回归的基本思想
log
it(
p
j
)
ln
1
p
j
p
j
j
1x1
2 x2
n xn
pj = p(y≤j | x),它表示 y 取前 j 个值的累积概率。
累积概率函数:
pj p( y
• 设因变量 y 表示治疗效果,0=不愈、1=有效、2=痊愈。设自变量x1表示绷带种类, 自变量 x2 表示包扎方式。
• 对于多值因变量模型,平行性假设决定了每个自变量的 OR值对于前k-1个模型是相 同的。例如,变量x1的OR=5.172,它表示使用第一种绷带治愈腿溃疡的可能性是 使用第二种绷带的5.172倍;它也表示使用第一种绷带至少有效的可能性是使用第 二种绷带的5.172倍。
时进行Logit 变换的分别为p1、p1+p2、p1+p2 +p3,对
常数数完lo项全kg不相i个t[同同p自(的,y变回 归1量)]系拟 lo合g i三t( 个p1)模1l型n1如x11p下1p1:2x2ln
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
变量之间的关联
基本原理:
依次将应变量按不同的取值水平分割成两个等
级,对这两个等级建立反应变量为二分类的 logistic回归模型。
不管模型中反应变量的分割点在什么位置,模
型中各自变量的回归系数 变的只有常数项。
i
都保持不变,所改
无效0,有效1,痊愈2无效与有效痊愈,
无效有效与痊愈,可建立两个方程。两个方
B2-有序多分类 Logistic回归模型
表1 性别和两种疗法对某病疗效的影响
性别
治疗方法
疗效(Y) 痊愈2 有效1 无效0
男 新药疗法(X2=0)
5
X1=0 传统疗法(X2=1)
1
女 新药疗法(X2=0)
16
X1=1 传统疗法(X2=1)
6
2
7
0
10
5
6
7
19
一、用途和基本原理
用途:分析1个有序多分类应变量与多个自
二、SPSS操作与结果解释 建立数据文件,Weight
性别
男 X1=0
女 X1=1
治疗方法
新药疗法(X2=0) 传统疗法(X2=1) 新药疗法(X2=0) 传统疗法(X2=1)
疗效(Y)
痊愈2 有效1 无效0
5
2
7
1
0
10
16
5
6
6
7
19
AnalyzeRrgressionOrdinal
Factor 与 Covariate
自变量是分类变量,选入Factor栏,取值大
的类别为参照组。
自变量是计量资料,选入Covariate栏。
分别单击:Options, Output, Location, Scale
Options (默认)
Link:
logit:Evenly distributed categories Complementary:Higher categories more
似然比检验:模型中自变量偏回归系 数是否全为0。结果P=0.000,说明至 少有一个自变量的偏回归系数不为0。
ln1 无 无效 效和 和有 有效 效 2的 的 (1概 X概 1率 2率 X2)
Lwaitrhgelarrcgoeerffsiccoiernest(s (Yi)1:in无di效cat;e a2n:a有ss效oci;at3io:n显
效).
When you see a positive coefficient for a
Output
Test of parallel lines: 不管反应变量的分割点在什 么位置,模型中各自变量的系数都保持不变
Location (默认)
Scale(默认)
单击OK
说明各种取值水平组合中有多少其观 察频数为0。如果有连续性变量,这个 比例会较大。
War n in g s Ther e ar e 1 ( 8.3% ) c ells v ar iable v alues ) w ith z er
For a continuous variable, a positive coefficient tells
you that as the values of the variable increase, the likelihood of larger scores increases.
Ordinal logistic回归模型
变量各水平的例数
y
treat sex Val id M issing Total
Case Pro cessing Summary
无效 有效 治愈 新疗法 传统疗法 男性 女性
N 42 14 28 41 43 25 59 84 0 84
M arg i nal Percentage
50.0% 16.7% 33.3% 48.8% 51.2% 29.8% 70.2% 100.0%
ln 1 无 无效 效的 的 1 概 (概 1X 1 率 率 2X2)
ln1 无 无效 效和 和有 有效 效 2的 的 (1概 X概 1率 2率 X2)
Ordinal Model
ln 1 无 无效 效的 的 1 概 (概 1X 1 率 率 2X2)
dichotomous factor, you know that higher scores are more likely for the first category (category 2 is the reference category ). A negative coefficient tells you that lower scores are more likely.
probable
Negative:Lower categories more probable Probit:Latent variable is normally
distributed
Cauchit:Latent variable has many extreme
values
Link:
应变量Y 有3个等级:无效0、有效1、治愈2
影响因素:性别X1(0男;1女);治疗方法 X2 ( 0新药; 1传统) ;取值大的类别为参 照组。
某分类变量的回归系数为正时,则暴露组
(如新药)为更高的等级(如治愈)的可能 性大于参照组(传统药)
某连续变量的回归系数为正时,则随着该变
量的变量值增加,应变量为更高等级的可能 性也增加。
logit:用于反应变量各取值水平发生概率
相近的资料
Complementary:用于反应变量取值水平
高的水平发生概率高的资料
Negative:用于反应变量取值水平低的水平
发生概率高的资料
Probit:用于潜在变量服从正态分布的资料 Cauchit:用于潜在变量存在很多极端值的
资料
程的常数Байду номын сангаас不同,但回归系数相同。
二分类logistic回归模型
ln 1 P P 01X 12X 2.. .m X m
Ordinal logistic回归模型(SPSS) 无效0,有效1,痊愈2
ln 1 P P (Y (Y j)j) 0 j 1 X 12 X 2 . . .m X m
相关文档
最新文档