Logistic回归模型1

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 表示A与O的优势比; 2 表示B与O的优 势比; 3 表示AB与O的优势比。
(六)标准回归系数
用于比较各个自变量对模型贡献大小。
bi Si bi Si b 0.5513bi Si S / 3
' i
bi 为标准回归系数,bi为第i个自变量的回归系
数,Si为第i个自变量的标准差,S为Y的标准差。
P( y 1 | x) exp( 0 1 x1 2 x2 .... p x p ) Q( y 0 | x )
(3) (6)
对式(3)和式(6) 两边取自然对数得:
ln( P / Q ) 0 x
ln( P / Q ) 0 1 x1 2 x2 ...... p x p
bi 的绝对值越大,则该自变量对模型贡献越大。
二、logistic回归模型的参数估计与假设检验
(一)logistic回归模型的建立
Logistic回归分析的过程,就是要根据样本资 料,求出各自变量的回归系数 i 。由于logistic 回归是一种概率模型,通常用最大似然法 (maximun likelihood,ML)求回归系数的估计值
(1) (2)
Q( y 0 | x )
1 1 exp( 0 X )
式中, 0 为回归线的截距, 是与X有关的 参数,也称回归系数。
P( y 1 | x) exp( 0 X ) Q( y 0 | x )
(3)
当有多个X时, logistic回归模型:
Q( y 0 | x )
1 1 exp( 0 X )
Logistic回归模型概述
Logistic回归模型是一种概率模型,它是以某 一事件发生与否的概率P为因变量,以影响P的 因素为自变量建立的回归模型,分析某事件发 生的概率与自变量之间的关系,是一种非线性 回归模型。
Logistic回归模型适用的资料:
exp( 0 1 x1 2 x2 .... p x p ) 1 exp( 0 1 x1 2 x2 .... p x p )
P( y 1 | x)
(三) logit变换:
将S型曲线转化为直线
P( y 1 | x) exp( 0 X ) Q( y 0 | x )
式中, 0 为截距, j (j=1,2,…,p), 称偏回归系 数。
P( y 1 | x) exp( 0 1 x1 2 x2 .... p x p ) Q( y 0 | x )
(6)
式(1) 或 式(4)称为logistic回归模型。
exp( 0 X ) P ( y 1 | x) 1 exp( 0 X )
x=1时:D1=1, D2=0,D3=0 A血型;
x=2时:D1=0, D2=1,D3=0 B血型; x=3时:D1=0, D2=0,D3=1 AB血型; x=4时:D1=0, D2=0,D3=0 O血型;
分析时,将D1、 D2、D3放入logistic回归模 型同时分析,得3个参数: 1、 2、 3。
Logistic 回归模型
主讲:黄志碧
回归分析概述
1、根据自变量多少分 (1)简单回归(一个自变量) (2)多元回归(多个自变量) 2、根据Y的取值分 (1)确定型回归(多元线性回归) (2)概率型回归(Logistic回归) 3、根据回归图形分 线性回归(多元线性回归) 非线性回归(Logistic回归)
i (i=1,2,3,„,p)。
(二) logistic回归模型的假设检验 1、回归系数的假设检验
求得回归系数后,还要对回归系数进行检验, 目的是检验总体回归系数β是否为零。检验方法有:
1)、似然比检验(likelihiood ratio test)
(1) 检验引入的变量对模型有无贡献; (2)对模型回归系数进行整体检验。
(四) 优势比(odds ratio), 简记OR
暴露组的优势(比值)与非暴露组的优势(比值)
之比,称优势比(比值比)(OR)。OR用于说
明暴露某因素引起疾病或死亡的危险度大小。
P (1) /[1 P (1)] OR P (0) /[1 P (0)]
(9)
对式(9)两边取自然对数得:
因素(自变量)的取值有密切关系。 1、若 j 为正值, x j 增加使OR增大,x j 是 危险因素; 若 j 为负值, x j 增加使OR减少, x j 是保护 因素。
2、当暴露因素X为二水平时(X取0,1),
logistic 回归模型中X的系数
j
就是暴露与
非暴露优势比的对数值。
wenku.baidu.com
如果暴露时X=a ,非暴露时X=b , 则:
P( y 1 | x) exp( 0 1 x1 2 x2 .... p x p ) 1 exp( 0 1 x1 2 x2 .... p x p )
(4) (5)
Q( y 0 | x )
1 1 exp( 0 1 x1 2 x2 .... p x p )
会使Y的预报值超出0,1之外,给结果解释带来困
难。
Logistic回归模型的应用
Logistic回归模型在流行病学、临床医学研究中有
广泛应用。只要事件的结局能表达为发生或不发生
两项分类的资料,一般都能用该模型进行分析。
常用于病因分析、预后因素分析、鉴别诊断、评 价治疗措施的好坏等等。 如:非传染性疾病的病因研究资料;影响治疗 效果的因素;影响恶性肿瘤复发或远处转移的因素; 药物剂量与动物死亡的关系,等等。
ln(OR)
OR e

(五) 的统计学意义
OR exp( ) e

ln(OR)
由上式可见, 的意义是:在其他自变量固定不 变的情况下,自变量的暴露水平每改变一个测量
单位所引起的优势比(OR)自然对数的改变量,
或引起优势比为增加前的exp( )倍。
j
与优势比OR有密切关系,同时与暴露
P1 /(1 P1 ) ln(OR ) ln( ) log itP1 log itP0 P0 /(1 P0 ) ( a ) ( b) (a b )
此时, 不能直接解释为优势比的对数值,
因为此时X改变“一个单位”没有实际意义。
比如:年龄从50岁变到51岁。
第一节 多元 logistic 回归模型基本概念
一、模型结构 (一)、 logistic分布函数
e F ( y) y 1 e
y的取值在-∞~+∞之间,函数值F(y) 在0~1
之间取值,且呈单调上升的S型曲线。可以将这
y
一特征运用到流行病学和临床医学中描述事件发
生的概率与影响因素的关系。
(二) logistic回归模型
利用logistic分布函数的特征来表示在自变量X
的作用下出现阳性结果或阴性性结果的概率。
出现阳性结果的概率记为:
P( y=1|x),
出现阴性结果的概率为:
Q( y=0|x),
注意:P+Q=1。
当只有一个自变量时,logistic回归模型:
exp( 0 X ) P ( y 1 | x) 1 exp( 0 X )
病因研究的方法
队列研究:
按是否暴露于某因素或不同的暴露水平分组,
观察各组的发病或死亡情况。可以直接计算相对 危险度(RR),说明暴露因素与发病或死亡的联 系强度。
病例-对照研究:
选某病患者做为病例组,以健康人或非该病患 者做为对照组,收集某些因素暴露的情况。
病例-对照研究类型
成组的病例-对照研究
3、当X为等级变量时(0、1、2….),以最小
或最大等级为参照组,exp( )为增加一个等
级时的优势比, exp( k )为增加K个等级时
的优势比。 4、如果X为连续性变量,如年龄,则将X分
段或变为等级资料再分析。如60~64岁的人 OR为exp(5 )。
比55~59岁的人,有多大的可能性患冠心病,
配比的病例-对照研究
(1:1 , 1:2 ,1:3,1:4)
计算优势比(Odds ratio, OR) ,说明危险因素 与疾病或死亡联系的强度。
的概率P与未发病的概率(1-P)之比:P/(1-P),
优势(Odds):指暴露组或非暴露组发病(或死亡) 称为优势(Odds)。
病因研究资料分析方法
单因素分析:传统的经典的分析方法;
似然比检验(likelihiood ratio test):
G 2 ln( L / L) 2ln L ln L
L 为方程中包含m(m<P)个自变量的对数
似然函数值; L 为增加一个自变量 Xi 后 的对数似然函数值。G 服从自由度为1的 X2 分布。若 L x 2 , 则可以认为在α检验水准下 ,1 有统计学意义, Xi可以引入方程,否则不能 引入方程。
受混杂因素的影响较大,可在设计时控制,或进 行分层分析。如分层较多,需要的样本含量较大, 有时难以做到。 多因素分析:logistic回归模型进行分析。
Logistic回归模型可分为
1、条件Logistic 回归模型
2、非条件Logistic回归模型。
前者适合于配对或配伍设计资料;后者适合于成 组设计资料。 因变量可以是:两项分类、无序多项分类、有序 多项分类等。
2)、Wald检验
ˆ 0 z ˆ SE ( )
3)、计分检验(score test)。
似然比检验最可靠, Wald检验和计分检验
一致。Wald检验未考虑因素的综合作用,当 因素间存在共线性时,所得结果不可靠。
2、logistic回归模型的拟合优度检验
检验logistic回归模型预测的理论频数分布 是否符合实际的理论频数分布。
(7) (8)
记logit(P) ln( P / Q)
log it ( P) 0 x
log it ( P ) 0 1 x1 2 x2 ...... p x p
这就是线性回归方程。 说明:(1) ln( P/Q)称为 logit(P)变换; (2) P/Q称为事件的优势,在流行病学中称 为比值(odds)。 因此,优势的对数值与影响因素之间呈线性关系。
常用的方法: (1)偏差检验(Deviation test)
多元线性回归模型
ˆ Y 0 1 X1 2 X 2 m X m
描述Y 与 X1, X2……Xm之间的线性关系。 Y:连续变量,呈正态分布。 最小二乘法求β 1, β 2„„ β m
Logistic 回归模型
exp( 0 X ) P ( y 1 | x) 1 exp( 0 X )
ln( OR ) ln( P(1) /[1 P(1)] ) log it[ P(1)] log it[ P(0)] P(0) /[1 P(0)]
(10)
P(1)─X取1时,为暴露组 ; P(0)─X取0时,为非暴露组。
log it ( P) 0 x
ln( OR ) log it[ P(1)] log it[ P(0)] (0 1) (0 0)
Logistic 回归模型用于因变量Y为分类的资料,
二项或多项分类的资料,Y也可以是计量资料,但
主要用于 Y为二项分类的资料(0,1资料)。
注意: Y为二项分类的资料不宜用线性回归模型来 进行分析,原因是: (1) 由于Y的取值仅为0或1,不符合正态分布和方
差齐性的假设;
(2) 用线性回归建立的方程来预报二分类资料,
5、当X为多项分类变量时,用1、2、3….k表 示k个不同的分类,分析时转为k-1个指示变 都有自己的系数。如血型、民族、职业、工 种等。 如血型变量X:A、B、AB、O,用1、2、
量或哑变量。每个指示变量都是二分类变量,
3、4分别表示。此时X仅为分类变量,不是
等级变量。
分析时,用D1、 D2、D3 表示血型
相关文档
最新文档