Logistic回归模型和生存分析简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
16
SPSS
模型的拟合优度
• -2lnL: 越小越好
• 伪决定系数:基于对数似然值而来,类似于线性回归模型中的决 定系数 • 模型预测的正确率和ROC曲线 • Hosmer-Lemeshow统计量: Lack of Fit test • H0:no lack of fit • 自变量中有连续性变量 • 仅适用于0/1应变量
2
SPSS
Logistic回归模型简介
• 模型简介 • 模型中参数的估计与意义 • 模型与参数的假设检验 • 模型的拟合优度
• Logistic回归模型中的高级话题
• 分析实例
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 3
SPSS
模型简介
• 方差分析模型:应变量-连续/正态; 自变量:分类/连续变量 • 线性回归模型:应变量-连续/正态; 自变量: 连续/分类变量 • 应变量为分类变量:研究该分类变量与一组自变量之间的关系
模型与参数的假设检验
1. 似然比检验 • 模型(两个模型拟合效果的比较)及偏回归系数的假设检验 • 假设模型1含有较少自变量,模型2含有较多自变量,检验的H0: 模型1与模型2的拟合效果无差异
G ( 2 ln LModel 1 ) ( 2 ln L'Model 2 ) ,即两个模型负 • 似然比检验统计量:
二倍对数似然函数值之差,G反映的是模型2较模型1拟合优度提 高的程度。当样本量较大时,在H0成立的情况下,G服从卡方分 布,自由度为2个模型的变量个数之差
2013-7-8
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
13
SPSS
模型与参数的假设检验
2. Walds检验 • 模型中回归系数的假设检验 • 在SPSS输出的结果中,关于β值的所有检验都是Walds检验
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
20
SPSS
Logistic回归模型中的高级话题
Logistic回归模型 • 非条件Logistic回归模型:0/1; 有序多分类; 无序多分类 • 条件(配对)Logistic回归模型: 分层的Cox比例风险模型
2013-7-8
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 4
SPSS
模型简介
• 应变量为0/1变量的Logistic回归模型 在冠心病可疑危险因素的研究中,记录下每个研究对象的p 个自变量(年龄、性别、饮酒等),记为x1,…,xp。随访一段时间, 如果发生冠心病,应变量y记为1,如果没有发生冠心病,y=0。 可以观察到,不同的x1,…,xp的研究对象,冠心病的发生 概率P(y=1)不同,如果我们希望依据随访得到的这组数据建立 一个描述自变量x1,…,xp与冠心病的发生概率P(y=1)间关系的 回归方程,并根据建立的回归方程进行预测,对各个自变量的作 用大小和方向作出评价,如何实现? 我们首先想到的是能不能用线性回归模型来实现?
• 列向量S是对数似然函数的一阶偏导数,S’是行向量 • COV是模型的方差协方差矩阵 • 当样本量较大时,Score服从卡方分布
• 常用于模型中变量的纳入
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 15
SPSS
模型与参数的假设检验
三种假设检验方法 • 似然比检验是基于整个模型的拟合情况进行的,结果最可靠;
SPSS
Logistic回归模型与生存分析简介
张志杰 流行病学教研室 epistat@gmail.com Tel.:54237410 (Office:8号楼443)
SPSS
主要内容
• 一、Logistic回归模型
• 二、生存分析
• 三、Assignments
2013-7-8
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
i 1
p
2013-7-8
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
7
SPSS
模型简介
• 模型名称的来源: Logistic这个名称来源于它对应变量所采用 的logit变换,和英文单词Logistic的含义(后勤的)一点关 系都没有,与逻辑就更不相干 • 模型用途 • 筛选危险因素 • 校正混杂因素 • 预测与判别(判别分析)
• 治愈/未治愈(0/1);治愈/好转/未治愈(有序分类);无序分类(腺癌、 鳞癌、大细胞癌) • 研究的因素较少:χ2;CMH (无序分类变量;自变量为分类变量) • 研究的因素较多时(分层较多):出现较多0的单元
• Logistic回归模型
• 单元为0的信息可以利用;自变量可以是连续性变量 • 基于线性回归模型的思想发展而来
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 11
SPSS
模型中参数的估计与意义
(X1增加一个单位)
P' P 1 ln( ) /( 1 ) ln OR 1 1 P' 1 P 1 1
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 12
SPSS
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 19
SPSS
Logistic回归模型中的高级话题
• Logistic回归模型只能用于应变量为0/1变量的资料?
• 有序多分类的Logistic回归模型(e.g.累积Logit模型) • 无序多分类的Logistic回归模型
2013-7-8
• 该检验基于β值服从正态分布的假设,首先求出β值的标准误, 然后基于正态分布原理求出P值进行检验 • 模型中参数可信区间的估计就是基于Walds检验来的; • 常用于模型中变量的剔除
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 14
SPSS
模型与参数的假设检验
3. 记分检验 • 模型中回归系数的假设检验及两个模型拟合效果的比较 • 以未包含某一个(或几个)参数的模型为基础,保留模型中参数 的估计值,并假设新增加的参数为0,计算似然函数的一阶偏导 数(又称有效比分)及信息矩阵; • 记分检验统计量Score=S’(COV)S
• 记分检验结果一般与似然比检验一致
• Walds检验没有考虑各因素的综合作用,当因素间存在共线性的 时候,结果不可靠。在筛选变量时,用Walds法应慎重;另外, 由于参数的可信区间也是基于该检验算得的,故以95%可信区间 来筛选变量也应慎重
2013-7-8
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 22
SPSS
2013-7-8
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
23
SPSS
• Logistic回归模型 LogitP=Ln(P低出生体重/P非低出生体重) =0.893-0.015*产妇怀孕前体重lwt+0.728*本次怀孕 前早产次数ptl+1.789*是否患有高血压ht 危险因素:ptl; ht 保护因素:lwt
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 17
SPSS
Logistic回归模型中的高级话题
哑变量 偏回归系数表示其它自变量Xj不变,Xi每改变一个单位,所 导致logitP的平均变化量 • x为连续性/二分类变量:没有问题 • x为多分类变量:不太合适 • 无序多分类:民族,各族之间不存在大小问题
• 有序多分类:家庭收入分为高、中、低三档,它们之间的差 距无法准确衡量 在以上这些情况时,我们就必须将原始的多分类变量转化为 数个哑变量(Dummy Variable),
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 18
SPSS
Logistic回归模型中的高级话题
哑变量 • 每个哑变量只代表某两个级别或若干个级别间的差异,这样得到 的回归结果才能有明确而合理的实际意义 • 对于取值具有n个水平的自变量Xi,可以生成n-1个哑变量 • 模型中哑变量遵循“同进同出” 的原则
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 10
SPSS
模型中参数的估计与意义
• βi • βi和多重线性回归模型中系数的解释一样,偏回归系数; • 代表固定其它Xj时,Xi改变一个单位引起logitP平均值的改 变量;
• 在实际应用中,可以为这些系数找到更加贴近实际的解释,比 数比(Odds Ratio,OR)=exp(βi):Logit变换的优势 • 当其它自变量(Xj)取值保持不变时, Xi取值增加一个单位引 起OR自然对数值的变化量,因此在使用上OR值要远比βi本身 更常用
21
SPSS
分析实例
Hosmer和Lemeshow于1989年研究了低出生体重婴儿的影响 因素,数据间文件logistic_step.sav,应变量为出生的 婴儿是否为低体重婴儿(变量名LOW,1表示低出生体重 <2500g),考虑的影响因素有:
1.产妇怀孕前体重(1wt,磅); 2.产妇年龄(age,岁); 3.产妇在怀孕期间是否吸烟(smoke,0表示不吸烟); 4.本次怀孕前早产次数(ptl,次); 5.是否还有高血压(ht,0表示未患高血压); 6.子宫对按摩、催产素等刺激引起收缩的应激性(ui,0无应激性); 7.怀孕前3个月社区医生随访次数(ftv,次) 8.种族(race,1白人,2黑人,3其它种族):哑变量
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 24
SPSS
生存分析简介
• 生存分析概述 • 基本概念 • 生存率的估计 • 生存曲线的比较 • Cox比例风险模型
2013-7-8
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
25
SPSS
生存分析概述
疾病的预后情况,一方面看结局好坏,另一方面还要看出现 这种结局所经历的时间长短。如果病人的结局都为死亡,但活的 时间长短不一样,那么活的时间长的病人其预后相对较好,这类 资料一船通过随访收集。
2013-7-8
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
8
SPSS
模型中参数的估计与意义
• 模型参数的估计方法
• 由于应变量为二分类,所以误差项服从二项分布,而非正态分布。 • 最小二乘法不适用,最大似然法
2013-7-8
张志杰, 流行病学教研室, 公共卫生学院, 复旦大学
9
SPSS
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 6
SPSS
模型简介
P( y 1 | X )
exp( 0 i xi )
i 1
ห้องสมุดไป่ตู้
p
P( y 0 | X )
1 1 exp( 0 i xi )
i 1 p
1 exp( 0 i xi )
生存时间和生存结局都成为了要关心的因素:应变量有两个
• 只考虑生存时间: 时间分布不明(肯定不呈正态分布,在不同 情况下的分布规律也不同),拟和模型有困难
2013-7-8 张志杰, 流行病学教研室, 公共卫生学院, 复旦大学 5
SPSS
模型简介
• 存在的问题 • 1.模型两边的值域不同:左边概率[0,1],右边[-∞,∞]; • 2. 应变量概率P与自变量间通常不存在线性关系 • 解决办法:Logit变换 • 应变量取值区间的变化 <- 问题1的解决 • P=0 logitP=ln(0/1)= -∞ • P=0.5 logitP=ln(0.5/0.5)= 0 • P=1 logitP=ln(1/0)= +∞ • 实践证明,logitP往往和自变量呈线性关系<-问题2的解决
模型中参数的估计与意义
模型中参数的意义 • β0-常数项 • 自变量取值全为0时的基线状况,未必有实际意义; • 比数(Y=1与Y=0的概率之比)的自然对数值;
• 病例—对照研究中,病例与对照两组人数的比例是人为定的, 不能代表人群中真实的病人与正常人比例,因此该常数项不 是各自变量取值为0时人群患病比的估计值的对数。因此根据 病例—对照研究资料建立的Logistic回归模型中,常数项意 义不大,主要针对结果中自变量的偏回归系数及其转换成OR 值的意义作解释,不适宜直接用于预测和判别。如希望进行 预测,则需知道人群中真实的患病率Pα。