Logistic回归分析(第16章)

合集下载

(完整版)spss的logistic分析教程

(完整版)spss的logistic分析教程

Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序多分类得logistic回归,比如倾向于选择哪种产品,这种回归叫做多项logistic回归。

还有一种是因变量为有序多分类的logistic回归,比如病重的程度是高,中,低呀等等,这种回归也叫累积logistic回归,或者序次logistic回归。

二值logistic回归:选择分析——回归——二元logistic,打开主面板,因变量勾选你的二分类变量,这个没有什么疑问,然后看下边写着一个协变量。

有没有很奇怪什么叫做协变量?在二元logistic回归里边可以认为协变量类似于自变量,或者就是自变量。

把你的自变量选到协变量的框框里边。

细心的朋友会发现,在指向协变量的那个箭头下边,还有一个小小的按钮,标着a*b,这个按钮的作用是用来选择交互项的。

我们知道,有时候两个变量合在一起会产生新的效应,比如年龄和结婚次数综合在一起,会对健康程度有一个新的影响,这时候,我们就认为两者有交互效应。

那么我们为了模型的准确,就把这个交互效应也选到模型里去。

我们在右边的那个框框里选择变量a,按住ctrl,在选择变量b,那么我们就同时选住这两个变量了,然后点那个a*b的按钮,这样,一个新的名字很长的变量就出现在协变量的框框里了,就是我们的交互作用的变量。

然后在下边有一个方法的下拉菜单。

默认的是进入,就是强迫所有选择的变量都进入到模型里边。

除去进入法以外,还有三种向前法,三种向后法。

一般默认进入就可以了,如果做出来的模型有变量的p值不合格,就用其他方法在做。

再下边的选择变量则是用来选择你的个案的。

一般也不用管它。

选好主面板以后,单击分类(右上角),打开分类对话框。

在这个对话框里边,左边的协变量的框框里边有你选好的自变量,右边写着分类协变量的框框则是空白的。

你要把协变量里边的字符型变量和分类变量选到分类协变量里边去(系统会自动生成哑变量来方便分析,什么事哑变量具体参照前文)。

logistic回归分析

logistic回归分析

0
1X1
2X2
mXm
10
若 Z 0 1X1 2 X 2 m X m 则 P 1 1 eZ
1P
00..55
0
Z
-4 -3 -2 -1 0 1 2 3 4
图16-1 logistic函数的图形
11
2.模型参数的意义
ln P 1 P
0
1X1
2X2
mXm
logitP
常数项β0表示暴露剂量为0时个体发病与
20
二、logistic回归模型的参数估计
数据格式: 同多元线性回归分析的数据格式 参数估计:
最大似然估计(maximum likelihood
estimate,MLE)法 可利用统计软件实现。
21
优势比估计: 某一因素两个不同水平优势比的估计值为
OR j exp bj C1 C0
Xj只有两个水平时ORj的1-α可信区间为:
研究二分类或多分类观察结果与一些影响
因素之间关系的一种多变量分析方法。
7
一、基本概念
二分类变量
连续变量
因变量Y=
1 0
阳性率P:(0,1)
ln
P 1-P
:
(,
)
Logit变换
8
ln P 1 P
0
1X1
2X2
mXm
P
1
1 exp[(0 1 X1 2 X 2 L m X m )]
32
33
34
Variables in the Equation
S1ta ep
x6 Constant
S2tb ep
x5 x6
Constant
B 2.826 -.523 1.828 3.059

整理logistic回归分析

整理logistic回归分析

2)Wald检验
大城小事
20
例表16-1吸烟、饮酒与食管癌资料 (SAS软件计算)
1.对建立的整个模型做检验。 ln ( p) 0 .9 0 9 90 .8 8 5 6x10 .5 2 6 1 x2 1p
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr
似然比 68.5457 2 <.0001
计分检验 67.0712 2 <.0001
Wald检验 64.2784 2 <.0001
大城小事
21
2.检验二:
检验模型中某β是否对Y有作用。
检验假设: H0 :j 0 H1 : j 0
检验统计量:主要为Wald检验(SAS软件)
2 ( bj )2
-3 -2 -1 0 1
Z值 23
图16-1 Logistic回大归城小函事 数的几何图形 7
几个logistic回归模型方程
p1P(y1/x1)1 ee00 xx
e0x P (y0/x1)11e0x1p1
e0 p0P(y1/x0)1e0
Odds Ratio Estimates
Point 95% Wald
Effect Estimate Confidence Limits
吸烟x1 2.424 1.807 3.253
饮酒x2 1.692 1.244 大城2.小3事03
23
似然比检验(讲义)
对某个β做检验,检验统计量(G)
G2(lnL1lnL0)
3.多元线性回归结果 Yˆ 不能回答“发生与
否”
logistic回归方法补充多元线性回归的不足

Logistic回归分析

Logistic回归分析
32

注:因为p>a,所以认为样本实际值得到的分布与 预测值得到的分布无显著差异,模型拟合优度较好 。
33

注:模型整体的准确度不高,对不购买人群的准确 率极高,对购买人群的准确率很低。
34

注:预测类别图上可以看出,预测概率在0.4附近的 样本预测准确率相对最低。事实上,无论用什么分 类方法,这类样本身就是最难预测的。

Hosmer—Lemeshow检验:通过模型可以计算出给 定解释变量取值时被解释变量取1的概率预测。如 果模型拟合较好,则应给实际值为1的样本以较高 的概率,给实际值为0的样本以低的概率预测值。 于是对概率预测值进行分位数分组(通常为10分位 数,将样本分为10组),预测概率大小分得的10组 和实际观测值0/1类别分组形成了交叉列联表。由 观测频数和期望频数计算卡方统计量,即Hosmer— Lemeshow统计量,它服从自由度为n-2的卡方分布 ,n为组数。

39
模型拟合优度的评价与检验 目的:第一,回归方程能够解释被解释变量变差的 程度,即线性回归的部分能解释LogitP的程度,这 一点与一般线性回归分析是相同的;第二,由回归 方程得到的概率进行分别判别的准确率。 方法: 第一目的:Cox &Snell R2 统计量和 Nagel ker ke R2 统计量 第二目的:混淆矩阵(错判矩阵)和 Hosmer-Lemeshow检验

16
2 L0 N 1 ( ) 2 Cox & Snell R 统计量= L1
,N为样本容量。 该统计量类似于一般线性模型中的R方,统计量的值 越大表明模型的拟合优度越高。不足之处在于其取值 范围无法确定,不利于模型之间的比较。
Cox &Snell R 2

logistic回归分析

logistic回归分析

队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:

Logisic回归分析PPT课件

Logisic回归分析PPT课件

0
吸烟 不吸烟
各 变 量
X2
1
0
饮酒 不饮酒


Y
1
病例
0
对照
39
17
表16-1 吸烟与食道癌关系的病例-对照调查资料
分层 吸烟 饮酒 观察例数 阳性数 阴性数
g
X1
X2
ng
dg
ng dg
1
0
0
199
63 136
2
0
1
170
63 107
3
1
0
101
44
57
4
1
1
416
265 151
39
18
经 logistic 回归计算后得
计算公式为:
OR j
P1 P0
/(1 /(1
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, ORj 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
39
12
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平X j c1 与X j c0 的发病 情况(假定其它因素的水平相同),其优势比的自然对数为:
.
51
2
0
1
1
0
1
2
1
1
52
2
1
1
1
0
0
2
1
1
53
2
1
0
1
0
0
1
1
1
54
3
1
1
0
1

Logistic回归分析(共53张PPT)

Logistic回归分析(共53张PPT)
数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。

Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。

logistic回归分析

logistic回归分析

表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。

医学统计学16-logistic回归

医学统计学16-logistic回归

B:回归系数。当其他变量保持不变时,Xj每增加

a. Variable(s) entered on step 1: X2. b. Variable(s) entered on step 2: X4.
或减少1个单位时,OR值自然对数的平均变化量。 Exp (B):OR值(经校正的,或调整的OR值, B 2.096 e Exp ( B ) e 8.13 adjusted odds ratio) lnExp( B) B SE:回归系数的标准误 Wald值:对回归系数进行假设检验的统计量
2. SPSS的操作步骤
Logistic regression 对话框
将Y选入Dependent栏,X1 ~X5选入 Covariate栏,选择Forward:LR法。 单击Options按钮。
Options对话框
单击Continue按钮
单击OK按钮
3. SPSS的结果与分析 (1)数据基本情况
当缺失值没有或很少时逐步多因素logistic回归0步时的分析结果结果没有缺失值score统计量的结果与卡方检验一致无缺失值的情况下三多因素分析筛选独立的自变量进入模型例如动物脂肪摄入和体重指数在单因素分析都有统计学意义但多因素分析时只有动物脂肪摄入这个因素被引入模型
第十六章 logistic回归分析
11.17
8.14
0.044
0.054
1.07~116.44
0.97~ 68.62
表1 肾细胞癌转移的多因素logistic回归分析
影响因素 肾细胞血管内皮生长因子 OR值(95%CI) P值
11.17 (1.07~116.44)
0.044
肾癌细胞核组织学分级
8.14 ( 0.97~ 68.62 )

Logistic回归分析(LogisticRegressionAnalysis)

Logistic回归分析(LogisticRegressionAnalysis)

• 由于
模型参数的意义
log it( ) ln( ) ln(Odds) 1
Odds e(0X )
模型参数的意义
• 例中
“超重或肥胖”组(X=1)患高血压的优势
为:
Odds1 e(0 1) e(0 )
“正常”组(XO=d0d)s0患高e(血0 压0的) 优e势0为:
两组O的R优势 比o(doddds1s odds0
log it( ) ln( ) ln(Odds) 1
• 这个变换将取值在0-1间的值转换为值域在
( , )的值。
• 建立log it( )与X的线性模型:
• log it( ) 0 X

ln( 1
)
0
X
Logistic回归模型
• 求解
•ln( 1
)
0
X
e(0X ) 1
e(0X )
• 当变量Xj的回归系数Βj >0时, Xj增加1个单位后与 增加前相比,事件的优势比ORj >1,表明Xj为危险 因素;
• Βj <0时, Xj增加1个单位后与增加前相比,事件的 优势比ORj <1 ,表明Xj 为保护因素;
• Βj =0 , Xj增加1个单位后与增加前相比,事件的 优势比, ORj =1,表明Xj对结果变量不起作用。
1 e e(0 1X1P X P )
1 e 1 (0 1X1P X P )
模型参数的意义
• Β0 :常数项(截距),表示模型中所有自变 量均为0时,log it( ) 的值;
• β1 , β2 、... βP:回归系数 ,表示在控 制其他自变量时,自变量变化一个单位所引
起的
log it( ) 改变量。

logistic回归(共36张PPT)

logistic回归(共36张PPT)
二分类自变量 系数为比数比的对数值,由此比数比=eb
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用

Logistic回归分析(重点、难点)

Logistic回归分析(重点、难点)

1
p2 p2
,通通常常在在流流行行病病研研究究中中p1
为病例
p1为组病的暴例露组率的,暴p露2 是率指,对p2照为组对的照暴组露的率暴。露率。
对发病对率发较病低率的较疾低的病疾,病一,般一有般R有R≈RORR OR 。
比数比
病例对照研究
暴露 未暴露
病例 a b
对照 c
d
OR a/(ab) / c/(cd) b/(ab) d/(cd)
理解 非条件Logistic回归和条件Logistic回归的 区别
1. Logistic回归分析结果及解释 掌握 2. Logistic回归变量筛选方法
3. Logistic回归系数的流行病学意义 4. Logistic回归的应用及注意事项
几个重要的流行病学概念
病因分析(预后分析)的目的:找出影响疾 病发生(或预后好坏)的影响因素及其影响的强 度。
ORj 1无作用
则有ORj expj, j >0,ORj 1 危险因子
0,ORj 1 保护因子
模型参数的意义
当 P 1 , 则 有 O RP 1/(1P 1) R R P 0/(1P 0)
由 于 Oj值 R 与 模 型 中 的 常 数 项 0α 无 关 ,
α0在 危 险 因 素 分 析 中 通 常 视 其 为 无 效 参 数 。
实例分析
❖ Analyze ▪ Regression
• Binary Logistic
实例分析
❖ 应变量编码Depen dent Variabl e Enco din g
Original ValuIenternal Value
.00
0
1.00
1
❖ 模型拟合结果

【R语言】logistic回归分析

【R语言】logistic回归分析

i 1
k 1
k 1
对上式求偏导数并迭代求出下式等于 0 的解即可得所求参
数估计值 ˆ0 , ˆ1 , ˆ2 , , ˆK 。
K
ln
L(

0
n
exp( 0
k xki )
[ yi
k 1
] 0
K
i1
1 exp( 0
k xki )
k 1 K
ln
L(

j
n
exp( 0
Logisitc分布和标准正态分布的分布函数图
Logisitc分布和标准正态分布的密度曲线
Logistic regression 模型
概述 参数估计 假设检验和模型解读 logistic回归分析的R函数和示例 logistic回归模型回归诊断
二、logistic回归模型的参数估计
极大似然( likelihood )估计拟合logistic回归模型的基本思想:寻 找参数的一组估计,使得由下式得到的事件发生的概率P最大可能 地与观测情况相近
0.01825 *
Age
0.013747 0.015796 0.870
0.38415
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
剔除没有显著贡献的变量,重新建模
Fit2<-glm(Choice~.-Brand-Price-Fat-AgeVitamin,data=SoftDrink,family=binomial(li nk="logit"))
summary(Fit1) anova(Fit1,test=“Chisq”) #依据卡方分布进行回归方程的

第十六章-Logistic回归

第十六章-Logistic回归
2.个体匹配(individual matching):以病例和对照的个体为单位进行 匹配叫个体匹配。1:1匹配又叫配对(pair matching), 1:2,┅ , 1:m匹配时称为匹配。
匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混 杂因子,否则不应匹配。
(三)巢式病例对照研究
也称为队列内的病例对照研究,是将队列研究和病例对照研究相结 合的方法。
OR>1,说明 该因素是疾病的危险性增加,为危险因素; OR<1,说明 该因素是疾病的危险性减小,为保护因素;
OR与RR之关系
病例对照研究资料
暴露
疾病 . 病例 对照 合计
+ 合计
a c a+c=m1
b d b+d=m0
a+b=n1 c+d=n0
t
a/(ac)
OR
c/(ac) b/(bd)
a/c b/ d
在医学研究中经常遇到应变量为二项分类的资 料,如治愈与未治愈、生存与死亡、发病与未发病等, 可以概括为阳性与阴性两种互斥结果,同时存在可能 对分类结果发生概率影响的因素即自变量。这类资料 由于d(Y)是二项分布,适宜用Logistic回归分析进 行。
• logistic回归:是研究因变量为二分类或多分类观察结果与影响 因素(自变量)之间关系的一种多变量分析方法,属概率型非线 性回归。
lo g it(P )0 1 X 1 p X p
当p=0或1时,logit(P)=ln[P/(1-P)]此式失效 Logistic 回归模型实际上普通多元线性回归模型的推广
Logit是“Logistic概率单位 ”,英文Logistic probability unit存头取尾 的缩写。 Logit(P)即“Logistic概率单位” ,简称LogitP。 Logit变换使得P在(0~1)范围内→(-∞,+ ∞)

医学统计学题库第十六章 生存分析(答案)

医学统计学题库第十六章  生存分析(答案)

第十六章 生存分析(答案)一、选择题1、D2、E3、C4、B5、D6、E 二、问答题1、 (1)在生存资料中,截尾值指尚未观察到研究对象出现反应时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存资料称为截尾值。

(2)出现截尾值的原因主要有以下3种情况:①失访;②退出;③终止。

2、Cox 回归模型中,偏回归系数i β的意义是,当其它协变量不变时,i X 每变化一个单位,相对危险度的自然对数变化i β个单位。

3、Cox 回归模型与logistic 回归模型具有相似之处,即在估计出回归系数后可以得到协变量对应的相对危险度。

但Cox 回归模型不仅考虑了事件发生的结果,同时也利用了生存时间提供的信息,而logistic 回归模型是一种概率模型,只考虑了事件是否发生,而不考虑事件发生所需要的时间长短。

三、计算题:1、(1)Cox 回归模型参数估计和假设检验结果见下表表 cox 回归模型计算及检验结果 (621.332=χ, 000.0=P )变量 偏回归系数 偏回归系数标准误 Wald P 值 OR 值 OR 值95%可信区间 下限 上限 x1 0.001 0.002 0.360 0.548 1.001 0.997 1.005 x2 0.454 0.206 4.846 0.028 1.574 1.051 2.358 x3 -1.8860.37725.0500.0000.1520.072 0.317由上表可见,在05.0=α检验水准上,所建立的Cox 回归模型成立(621.332=χ,000.0=P );入院时白细胞数(1x )的偏回归系数无统计学意义,淋巴结浸润度(2x )和缓解出院后的巩固治疗(3x )的偏回归系数均有统计学意义。

Cox 回归模型为:[])886.1454.0001.0ex p()(),(3210x x x t h X t h i -+=。

以上结果可解释为:淋巴结浸润度(2x )和缓解出院后的巩固治疗(3x )均对急性淋巴细胞性白血病病人的生存时间产生影响。

(2021年整理)logistic回归分析实例操作

(2021年整理)logistic回归分析实例操作

(完整版)logistic回归分析实例操作编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望((完整版)logistic回归分析实例操作)的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为(完整版)logistic回归分析实例操作的全部内容。

(完整版)logistic回归分析实例操作编辑整理:张嬗雒老师尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布到文库,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是我们任然希望(完整版)logistic回归分析实例操作这篇文档能够给您的工作和学习带来便利.同时我们也真诚的希望收到您的建议和反馈到下面的留言区,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请下载收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为 <(完整版)logistic回归分析实例操作〉这篇文档的全部内容.Logistic回归分析二分类(因变量Y有(如发病1与未发病0)两种可能出现的结果)资料的Logistic 回归分析,至于多分类Logistic回归分析,与二分类操作过程类似,只是在数据编制及分析方法选择处不同。

分析的一般步骤:变量的编码哑变量的设置和引入各个自变量的单因素分析变量的筛选交互作用的引入建立多个模型选择较优的模型模型应用条件的评价输出结果的解释实例操作11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析.1。

各变量及其赋值说明x1:确诊时患者的年龄(岁)x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级(1—3)x3:肾细胞癌组织内微血管数(MVC)x4:肾癌细胞核组织学分级,由低到高共4级(1-4)x5:肾细胞癌分期,由低到高共4期(1-4)y:肾细胞癌转移情况(有转移y=1;无转移y=0)。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

P1 ( / 1 P1) OR (odds ratio, 优势比) P0 ( / 1 P0)
暴露的发病优势与非暴露的发病优势之比
模型参数的意义(假定其它因素水平相同)
当P较小时(如恶性肿瘤发生率等)
P1 ( / 1 P1) P1 O R RR(re lative risk) P0 ( / 1 P0) P0
Logistic回归优点: 得到某一因素回归系数估计值后,便可以得
到不同水平下相对危险度的估计值。
模型参数估计(最大似然估计法 maximum likelihood estimate)
因变量不连续,且为二项分布,不能用最小二乘法。 设总体X的密度函数为f(x; 1, 2, · · · , m),其中1, 2, · · · , m为未知参数, x1, x2, · · · , xn为总体X的一个样 本,称
j 0 OR j 1 j 0 OR j 1 j 0 OR j 1
X j对疾病发生不起作用 X j是一危险因素 X j是一保护因素
模型参数的意义
P ln 1 p 0 1 X1 2 X 2 m X m

举例
0.8856 1.96 0.1500 1.81, 3.25 e xp


b 0 0.9099 S b 0 0.1358 b1 0.8856 S b1 0.1500 b 2 0.5261 S b 2 0.1572 饮酒与不饮酒优势比: O R2 e xpb 2 e xp0.5261 1.69 O R2 95%可 信 区 间 : e xpb 2 u 0.05 / 2S b 2
统 计 学 中 概 率 密 度 扮十 演分 重 要 角 色 , 当 参已 数 知 时 , 概 率 密 度 随 着机 随变 量 的 取 值 不 同 而化 变。 设随机变量 X服 从 二 项 分 布 B(n , ), 参 数 0.2 ,
2 0.2 1 0.2 0.2048 当n 5, X 2, 概 率 密 度 : C5 ; 2 3 1 4
log it P 0 1 X1 2 X2 m Xm
O Rj exp[ j (C1 C0 )]
模型参数的意义(假定其它因素水平相同)
Xj
C1 =1 暴 露
C0 =0 非暴露
j
OR j exp[ j (C1 C0 )] exp j e
Y=
0 阴性(未发病、无效、存活等)
P=P(Y=1 | X1, X2, , Xm)
P log it P ln 1 P
odds(优势)
Cox于1970年提出
logistic回归模型(概率型非线性回归)

P ln 0 1 X1 2 X 2 m Xm 1 P
j :在其它自变量保持不 变时, X j增加或减少 一个单位时log it P的平均变化量。与衡量 危险 因素作用大小的优势比 (OR)有一对应关系。
模型参数的意义(假定其它因素水平相同)
某一危险因素两 个不同暴露水平 P1 暴露的发病概率
Xj
C1 C0
1-P1 暴露的未发病概率
P0 非暴露的发病概率 1-P0 非暴露的未发病概率

1 P 1 exp[( 0 1 X1 2 X 2 m Xm )]
模型参数的意义
P ln 1 p 0 1 X1 2 X 2 m X m P ln 1 p 0 基准风险
Y为连续变量
e ~ N 0,

2

logistic回归模型(应变量是一个二值变量)
1 阳性(发病、有效、死亡等) Y= 0 阴性(未发病、无效、存活等)
Y 0 1X1 2 X2 m Xm
logistic回归模型(应变量是一个二值变量)
1 阳性(发病、有效、死亡等)
1 2 m 1 2 m
ˆ , ˆ , , ˆ 为参数 则 称 1 , 2 , , m的 极 大 似 然 估 计 。 1 2 m
模型参数估计(最大似然估计法 maximum likelihood estimate)
1 阳性(发病、有效、死亡等)
Yi =
0 阴性(未发病、无效、存活等)
exp 0 1 X1 2 X 2 m X m
P(1 e() ) e()
P (1 P)e() e() Pe()

exp 0 1 X1 2 X 2 m Xm P 1 exp 0 1 X1 2 X 2 m Xm
当n 5, X 1, 概 率 密 度 : C1 。 5 0.2 1 0.2 0.4096
反 过 来 , 当 样 本 给 定, 后 对 于 不 同 参 数概 ,率 密 度 随 着 参 数 的 取 值 不 同变 而化 。 常 用 此 思 想 估总 计体 。 已 知5次 试 验 中 2次 成 功 , 问 0.3可 能 性 大 还 是 0.8可 能 性 大 ? PX 2 | 0.3 C 0.3 1 0.3 0.3087, PX 2 | 0.8 C 0.8 1 0.8 0.0512 。
L( 1 , 2 , , m ) f(xi ; 1 , 2 , 得下式成立: 为1 , 2 , , m的 似 然 函 数 。 若 有 1 2 m ˆ , ˆ , , ˆ ) m ax{L( L( , , , )}
P ln 1 P 0 P1

log it P 0 1 X1 2 X2 m Xm
logistic回归模型(概率型非线性回归)
P 0 1 X1 2 X 2 m X m e 1 p
2 5 2 3 2 5 2 3
显 然 0.3可 能 性 大 。 而是“ 0.3时 ,X 2的 概 率 ” 。
这里算出的概率 0.3087 不是“ X 2时, 0.3的 概 率 ” ,
同理,如果重复试验 4次 , 每 次 n 5, 成 功 次 数 分 别 为1, 1, 2, 2, 问 0.3可 能 性 大 还 是 0.8可 能 性 大 ? 根 据 独 立 事 件 的 概 率法 乘原 理 : L 0.3 PX 1 | 0.3 PX 2 | 0.3
PYi 1 p
二项分布概率密度:
Yi
PYi 0 1 p
1 Yi
P{Yi 0,1} p (1 p)
模型参数估计(最大似然估计法 maximum likelihood estimate)
1821年由Gauss(德)首先提出,未受到重视;
1922年R.A.Fisher(英)再次提出并讨论它的性质, 使其得到广泛应用。
第十六章
logistic 回归分析
logistic regression analysis
实例
2003年6月17日处理无锡101医院脑外科陈铮 立主任医师一份临床科研资料:1994年1月~ 2001年12月8年间,76例脑出血患者术后再出 血的危险因素分析。
Y 手术后再出血 手术后未再出血 X1 性别 X2 年龄
X5、X7、X11、X12、X13在两组间差别有统计 学意义。 logistic回归分析: ( Y=1 手术后再出血, Y=0 手术后未再出血) 筛选出X10、X14有统计学意义。 还可计算脑血管硬化比未硬化、右手作左脑比 右手作右脑的手术后再出血的相对危险度。
第一节
一、基本概念
logistic回归
实例
X8 出血部位
X9 出血量 X10 脑血管是否硬化 X11 有无活动性出血 X12 拔管时有无高血压 X13 手术后有无高血压 X14 是否右(左)手作右(左)脑
X3 术前昏迷程度积分
X4 瞳孔是否扩大
X5 高血压病龄
X6 临床分级
X7 发病至手术时间
实例
单因素分析:
手术后再出血组与未再出血组比较(χ2或t检验)
模型参数估计(最大似然估计法 maximum likelihood estimate)
根据一个样本建立似然函数:
L
P 1 P
i 1 Yi i i
n
1Yi
lnL
Y
i 1
n
i
l n Pi 1 Yi l n1 Pi
待估总体参数:
P ln 1 p 0 1 X1 2 X 2 m X m
模型参数估计
用Newton-Raphson迭代方法计算使L最大;
此 时b 0,b1,b 2, , b m即 0,1, 2, m的 极大似然估计值。 同时得到 S b 0 , S b1 ,,S bm
优势比估计

OR
j
e xpb j C1 C0


ORj的1 可信区间:
模型参数的意义(假定其它因素水平相同)
P1 / 1 P1 lnO Rj ln logit P1 logit P0 P0 / 1 P0
m m 0 jC0 t Xt j C1 C0 C X 0 j 1 t t t j t j
二、 logistic回归模型的参数估计
三、 logistic回归模型的假设检验
四、变量筛选
多元回归分析数据格式 例号 1 2 n X1 X11 X21 Xn1 X2 X12 X22 Xn2 Xm X1m X2m Xnm Y Y1 Y2 Yn
相关文档
最新文档