医学统计学logistic回归分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

配对号
1 2 ... n
1 :1 配 对 设 计 数 据 的 一 般 格 式
病例
对照
x X 11 X 21 ...
X n1
y 1 1 ...
1
x X 10 X 20 ...
X n0
y 0 0 ...
0
每个对子含两个人,第 1个已经患病,第 2个没有患病; 自 变 量 为 x , 第 i 层 第 1 个 人 的 自 变 量 记 为 X i1 , 第 2 个 人 的 自 变 量 记 为 X i0
3
0000001
0000001
… …………………
…………………
348 0 0 0 0 1 1 1
0000011
349 1 0 1 0 0 0 1
0000011
350 0 0 1 1 1 1 1
1000011
假定同一层的2个人中,只有1人患病。 在 只有1人患病的条件下,恰好第1个人“患 病”而第2个人“未患病”的条件概率为
Logistic回归的应用
校正混杂因素 筛选危险因素 预测与判别
但由于条件回归模型不能估计常数项, 其结 果只能帮助分析变量的效应, 不能用于预测。
需注意的问题
个体间的独立性 足够的样本量 变量的赋值 模型评价 标准化回归系数
女 性 乳 腺 癌 危 险 因 素 1 :1 配 对 病 例 -对 照 研 究 资料整理表

病例
对照

X 11 X 12 X 13 X 14 X 15 X 16 X 17
X 01 X 02 X 03 X 04 X 05 X 06 X 07

1
0000010
0000001
2
0100101
0000001
Βj =0 , Xj增加1个单位后与增加前相比, 事件的优势比, ORj =1,表明Xj对结果变量 不起作用。
Logistic回归的参数估计
Logistic回归模型中的参数β1 , β2 、… βP 需要通过样本资料,按照一定方法进行估 计,估计量记为b1 , b2 、… bP。
参数估计方法有多种,极大似然估计 ( MLE)最为常用
问题提出
Logistic 回归分析可解决应变量为:
– 二分类; – 无序多分类; – 有序多分类;
本次教学主要介绍应变量为二分类的 Logistic 回归分析
分类
按设计, Logistic 回归分析分为: 成组:非条件Logistic 回归分析 配对:条件Logistic 回归分析
Logistic回归模型
β1 , β2 、... βP:回归系数 ,表示在控 制其他自变量时,自变量变化一个单位所引 起的 logit() 改变量。
模型参数
loig(t)ln1 ()lnO ( d)ds
O d e (0 d 1 X 1 .s . .m X m )
模型参数
一般地,根据多个自变量的回归模型,在 其他变量取值不变的情形下,与变量Xj的二 个水平C1与C2(C2>C1)相对应的事件的 优势比为 :
例: 大肠癌患者临床病理因素对其预后可能产生 影响。收集了158例经手术治疗大肠癌患者 的性别、年龄、组织学分类、肿瘤大小、 Dure’s分期、淋巴管浸润、血管浸润、5年 生存状态等资料
• 目的:预测经手术治疗大肠癌患者5年生存 概率。
变量
➢ 性别:女=0 ,男=1 ➢ 年龄:实测值 ➢ 组织学分类:乳头状腺癌=0,管状腺癌=1 ➢ 肿瘤大小:6cm及以上=0,6cm以下=1 ➢ Dure’s分期:A=1,B=2,C=3,D=4) ➢ 淋巴管浸润:无=0,有=1 ➢ 血管浸润:无=0,有=1 ➢ 5年生存状态:存活=0,死亡=1
χ2近Z 似b地Sb服0 从等自价由于度为 21的 (χSbb2分)2 布
回归系数的区间估计
总体回归系数β的置信区间为
bZ/2Sb
OR的置信区间为
e(bZ/2Sb)
条件Logistic回归模型
医学研究中,常采用匹配设计,即为病例 组的每一个研究对象匹配一个或几个有同 样特征的未患病者,作为该病例的对照, 这样,除了研究因素外,病例与对照的其 他特征相同,从而消除“其他特征”的混 杂作用。常用的匹配形式为1:1,即一个病 例匹配1个对照。
1ej1
条件Logistic回归模型
公式左端为条件概率 ,相应的Logistic回 归称为条件回归,前述非匹配资料的 Logistic回归则称为非条件回归 ;
条件Logistic模型中,不含常数项 β0 。
应用
Logistic回归分析广泛用于流行病学 中前瞻性的队列研究、回顾性的病例对照研究以及现况研究。
Logistic 回归分析 (Logistic Regression Analysis)
问题提出
多重线性回归分析的前提条件 线性;独立;正态;等方差( Y:正态随机变量)
Y为分类变量,多重线性回归不适用 研究二分类因变量(如患病与未患病、阳性与阴性 等)或多分类因变量与一组自变量(X1, X2,...Xm,)的关系,线性回归分析方法 就无能为力。
条件Logistic回归模型
例 为探讨女性乳腺癌危险因素,研究者在某市 1996 ~1997年间确诊的女性乳腺癌患者中随机抽 取350名病例,对每一病例配以一名性别相同、 年龄差别不超过2.5岁的对照。收集的信息包括: 文化程度(大专以下:0,大专及以上:1)、体质 指数(小于等于27:0,大于27:1)、近年精神压 抑(无:0,有:1)、乳腺良性疾病史(无:0, 有:1)、恶性肿瘤家族史(无:0,有:1)、初潮年 龄(大于等于14岁:0,小于14岁:1)、哺乳史 (有:0,无:1)
比较模型A与模型B的极大似然函数值,构建似然 比检验统计量
G2(lL n 1ln L0)
在H0成立的条件下,如果样本量较大,G近似地 服从自由度为Q-P的χ2分布
假设检验----WALD检验
• WALD检验常用于对单个回归系数的检验, 检验的假设为: H0:βj=0 H1:βj≠0
WALD检验统计量为
O Rej(C2C1)
当XJ的二个水平相差1个单位时,
ORj ej
模型参数
当变量Xj的回归系数Βj >0时, Xj增加1个 单位后与增加前相比,事件的优势比ORj >1,表明Xj为危险因素;
Βj <0时, Xj增加1个单位后与增加前相比, 事件的优势比ORj <1 ,表明Xj 为保护因素;
Logistic回归的参数估计
极大似然估计基本思想 选择能有最大概率获得当前样本的参数值 作为参数的估计值。
假设检验
检验整个模型:检验因变量与自变量之间 的关系能否用所建立的回归方程来表示 ;
单个回归系数是否为0:检验单个自变量对 因变量的影响是否存在。 最常用的检验方法有 似然比检验 WALD检验
P(第 1个人同 患一 病层中两 )者 ( 11 之 ( 1 0)1 一 0 0()1患 1)
e(0 X 1)
1
e(0 X 1)e(0 X 0) 1e (X 1X 0)
wk.baidu.com
• 若自变量扩展到个 P个
P(第 1个人同 患一 病层中两)者 之p 1一患 j(X1jX0j)
Logistic回归模型
因变量为二分类变量,不满足线性回归分 析条件,首先进行数据变换:
loig (t)ln1( )lnO ( d)ds
这个变换将取值在0-1间的值转换为值域在
( , )的值。
建立logi t()与X的线性模型:
lo i(tg )0 1 X 1 . ..m X m
Logistic回归模型
求解
ln 1 ()01X 1...m X m
(01X1...mXm)
1ee(01X1...mXm)
右端在数学上属于Logistic函数,所以称其为 Logistic回归模型 。
模型参数
β0 :常数项(截距),表示模型中所有自变 量均为0时,logit() 的值;
假设检验----似然比检验
似然比检验常用于对整个模型的检验,检 验的假设为
H0:所有自变量的总体回归系数均为0 H1:自变量的总体回归系数不全为0
假设检验----似然比检验
假设模型A含有P个自变量,相应的达到极大的对 数似然函数值LnL0;
模型B是在模型A的P个自变量基础上新加入一个 或几个自变量,自变量个数变为Q,相应的达到极 大的对数似然函数值LnL1 ;
相关文档
最新文档