北京大学医学部统计分析课件生存分析2
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 如果生存资料服从指数分布,则 • 生存函数为:
S (t ) 1 -F (t ) e t
• 风险函数为:
h( t ) f ( t ) / S ( t )
指数分布模型的参数估计
• 为指数分布模型中唯一的参数。
ˆ
r
t
i 1
n
r T
i
r ˆ var( ) 2 T
死亡 痊愈 死亡 痊愈 疾病恶化 出现毒性反映 发病
疾病确诊 疾病确诊 治疗开始 治疗开始 症状缓解 接触毒物 接触危险因素
观察指标
1 平均生存时间 ti的平均数 (当有截尾数据时,?)
2 中位生存时间 ti的中位数 : 50%的病人生存, 50%的病人死亡的时间
研究指标
1 生存函数(survival function)
研究指标
4 风险比(hazard ratio)
=相对危险度(RR)
第一组的h1 (t ) 风险比= 第二组的h2 (t )
A1≠ B1 A1+ A2 ≠ B1 + B2 A1+ A2 A1 A2 B1 + B2 B1
B2 A1 B1
比例风险图示(1)
A1≠ B1 A1+ A2 ≠ B1 + B2 A1+ A2 B1 + B2
SPSS
COX回归
Cox Regression
Case Processing Summary
N Cases av ailable in an alysis Even t a Cen sored Total Cases d rop p ed Cases with missin g valu es Cases with neg ativ e time Cen sored cases before th e earliest even t in a stratu m Total Total
A1
A2
B1
B2 A1 B1
比例风险图示(2)
hazard
.01 0
0
.02
.03
.04
.05
50
100
150
200
analysis time
Patient 1 Patient 2
• 生存过程的描述
非参数方法 参数方法
乘积-极限法 指数分布 (又称Kaplan-Meier法) Weibull分布 寿命表方法 Gamma分布 Turnbull估计 logistic分布 对数正态分布
例
• 两组淋巴肉瘤患者治疗后复发时间(月数)如 表, 对照组为“摘除+放疗”,处理组为 “摘除+放疗+化疗”,问在“摘除+放 疗”基础上附加“化疗”是否可延长缓解 期?
log rank检验
• 则在时刻ti的生存函数S(ti)的PL 估计值是ti时刻之前各时间点上生存 率的乘积,即
dj ˆ (t ) S 1 i nj j 1
d (非删失时点数 )
exp( X
jRi 1
exp( 1 X i1 p X ip )
j1
p X jp )
• 最大似然估计
假设检验
• 对模型的检验 模型是否有意义 • 对每个回归系数的检验 回归系数是否为0 H0: i=0 , H1: i0 似然比检验 Wald 检验 score检验
生存时间
Means and Medians for Survival Time
Mean
a
Median 9 5% Co nfid en ce In terv al Estimate 2 5.0 00 . . Std. Erro r 1 1.1 39 . . Lower Bou n d 3 .16 7 . . Up per Bou n d 4 6.8 33 . .
Cox Regression
Sur vival Table
Time 5 78 9 38 1 24 5 1 54 9 1 93 2 2 36 3 2 58 1 2 93 8 3 20 5 3 45 1 3 57 2 3 75 0 3 95 8 4 11 1 4 43 5
Baselin e Cu m Hazard .0 24 .0 52 .0 81 .1 17 .1 79 .2 76 .3 91 .5 22 .6 72 .8 75 1 .19 4 1 .94 8 3 .63 4 5 .80 4 9 .95 5
• 平均寿命及其标准误为:
1 t
1 var(t ) 2 r
• 生存过程的比较
非参数方法
时序(log-rank)检验 分层时序检验 Gehan检验 广义Wilcoxon检验 Mantel-Haenszel检验
参数方法
分布参数检验
logrank 检验
H0: 两组生存过程相同 H1: 两组生存过程不同
SAS
COX回归
PROC PHREG data = a.cox; MODEL time*d(0)=x1 x2 x3 sex age stage /SELECTION=STEPWISE; RUN;
proc TPHREG data = a.cox ; class x5 (ref = FIRST ); model day*d(0)=x2 x3 x4 x5 x6/ selection=S sls=0.05 risklimits; RUN;
生存分析
生存分析的研究内容
• • • • 描述生存过程 生存过程的比较 分析生存过程的危险因素 建立生存分析的模型
使用的方法
• 描述 生存时间 生存率 风险率 • 非参数法 KM法 、寿命表
• 参数法 • 半参数法 COX回归
A组
研究对象
出现结果
尚未出现结果 B组 伴随因素 干扰因素 失访、脱落
a. Dependent Variabl e: ti me
Percent 15 1 16 0 0 0 0 16 9 3.8 % 6 .3% 1 00 .0% .0 % .0 % .0 % .0 % 1 00 .0%
Omnibus Tests of Model Coefficientsf,g
Step 1a 2b 3c 4d 5e
a. Estimation is limited to the largest survival time if it is censored.
生存时间的比较
Overall Comparisons
Ch i-Squ are Log Ran k (Mantel-Co x) Breslow (Gen eralized Wilco xo n) Taron e-W are 4 .53 8 4 .13 0 4 .34 7 df 1 1 1 Sig. .0 33 .0 42 .0 37
数据汇总
生存时间的比较
SPSS 数据格式
编号
分组变量
观察时间
事件是否发生
SPSS
Kaplan-Meier法
事件发生 的代码
数据汇总
Case Processing Summary
Censored group 1 2 Overall Total N 14 17 31 N of Events 7 3 10 N 7 14 21 Percent 50.0% 82.4% 67.7%
At mean of cov ariates S urv iv al .9 72 .9 40 .9 08 .8 70 .8 08 .7 20 .6 27 .5 37 .4 49 .3 52 .2 41 .0 98 .0 13 .0 01 .0 00 SE .0 27 .0 47 .0 63 .0 78 .0 96 .1 16 .1 30 .1 40 .1 39 .1 34 .1 16 .0 69 .0 29 .0 04 .0 00 Cu m Hazard .0 28 .0 61 .0 96 .1 40 .2 14 .3 28 .4 66 .6 22 .8 01 1 .04 3 1 .42 3 2 .32 2 4 .33 1 6 .91 8 1 1.8 66
生存率
2 死亡率(累计)=1-生存率
生存时间T t的人数 S (t ) P(T t ) 观察总人数
生 存 率
T
常见生存函数的类型
研究指标
3 风险函数(hazard function)
死于区间(t , t t )的人数 h(t ) 在t时刻尚存的人数 t
常见风险函数的类型
SE S ( t i ) S ( t i )
n (n
j 1 j
i
dj
j
dj)
• nj 表示时刻 tj 的期初观察人数, • dj 表示 tj 时刻的死亡人数。
生存率的可信区间估计(正态近似法)
100(1-)%可信区间为:
S(t i ) u SES(t i )
指数分布
变量筛选
事件发生事件相同时
RR CI
• RISKLIMITS -RL
比例风险假设的检验
• log{-log[S(t)]}=log{-log[S0(t)]}+bx • 以时间t为横坐标,LML为纵坐标
例
某医师对医院1988年收治的16例鼻腔淋巴 瘤患者随访了13年,数据见表,试用Cox模 型分析。
Test o f eq uality of surviv al d istrib ution s fo r the d ifferen t lev els o f g ro up .
Cox比例风险模型 t1t2…tk
设一个病人的生存时间为t,同时具有p 个与生存时间有关的因素,定义该病人的 死亡风险函数为
生存率的估计:
Kaplan-Meier法 又称:乘积极限法( product-limit,PL法)
S(ti)=S(t1|0)S(t2|t1)S(t3|t2)…S(ti |ti-1 )
=p1 p2 p3 pi = S(ti-1 )S(ti |ti-1 )
生存率计算
生存率计算
生存率的标准误(Greenwood估计)
i
• 标准误的估计值可用Greenwood的 公式来计算:
ˆ (t )] S ˆ (t ) ˆ [S i i
(n s
j 1 j
i
dj
j
)
SAS 数据格式
编号 分组变量
观察时间
事件是否 发生
SAS
Kaplan-Meier法
PROC LIFETEST data = a.km METHOD=PL PLOTS=(s); TIME time*p(1); strata group; RUN;
随访研究(follow-up study)
一般的统计分析
• 只关心结局,而忽略了发生结局的时间。 脑卒中--脑栓塞,溶栓,功能锻炼 r-TPA 尘肺--平均发病年限 • 未出现结局的数据如何处理 去除,疗效观察,疗效不佳的更容易退出。
生存数据的特点
1 生存时间的分布一般为非正态分布 指数分布,对数正态分布 Weibull分布,Gamma分布,…… 2 含有截尾数据(censored data) 截尾数据提供的信息是不完全的 (uncompleted data) 是否出现、何时出现结局不知道
参数估计
• 条件死亡概率:qi • 偏似然函数
Lp
d (非删失时点数 )
i 1
qi
d (非删失时点数 )
i 1 i 1
h (t ) exp( X
jRi 0 i 1
h0 (ti ) exp( 1 X i1 p X ip )
j1
p X jp )
-2 Log Likelihood 45.107 45.231 45.551 46.505 47.229
Overall (score) Chi-square 16.263 15.591 15.564 14.701 13.269 df 7 6 5 4 3 Sig. .023 .016 .008 .005 .004
基本概念
• • • • • • • 事件、事件是否发生(生存、死亡)、 截尾 起始事件、终点事件 生存时间 生存函数(率)、死亡函数(率) 风险函数 风险比 RR、比例风险
起点事件 终点事件 失访
1 2 3 4 5 6来自百度文库
观察起点
观察终点
生存数据中的完全数据与截尾数据
起始事件
随访时间
终点事件
9 5% Co nfid en ce In terv al g rou p 1 2 Ov erall Estimate 2 2.8 80 5 1.3 18 4 2.0 82 Std. Erro r 4 .97 5 5 .06 8 4 .87 1 Lower Bou n d 1 3.1 28 4 1.3 85 3 2.5 35 Up per Bou n d 3 2.6 31 6 1.2 50 5 1.6 29
S (t ) 1 -F (t ) e t
• 风险函数为:
h( t ) f ( t ) / S ( t )
指数分布模型的参数估计
• 为指数分布模型中唯一的参数。
ˆ
r
t
i 1
n
r T
i
r ˆ var( ) 2 T
死亡 痊愈 死亡 痊愈 疾病恶化 出现毒性反映 发病
疾病确诊 疾病确诊 治疗开始 治疗开始 症状缓解 接触毒物 接触危险因素
观察指标
1 平均生存时间 ti的平均数 (当有截尾数据时,?)
2 中位生存时间 ti的中位数 : 50%的病人生存, 50%的病人死亡的时间
研究指标
1 生存函数(survival function)
研究指标
4 风险比(hazard ratio)
=相对危险度(RR)
第一组的h1 (t ) 风险比= 第二组的h2 (t )
A1≠ B1 A1+ A2 ≠ B1 + B2 A1+ A2 A1 A2 B1 + B2 B1
B2 A1 B1
比例风险图示(1)
A1≠ B1 A1+ A2 ≠ B1 + B2 A1+ A2 B1 + B2
SPSS
COX回归
Cox Regression
Case Processing Summary
N Cases av ailable in an alysis Even t a Cen sored Total Cases d rop p ed Cases with missin g valu es Cases with neg ativ e time Cen sored cases before th e earliest even t in a stratu m Total Total
A1
A2
B1
B2 A1 B1
比例风险图示(2)
hazard
.01 0
0
.02
.03
.04
.05
50
100
150
200
analysis time
Patient 1 Patient 2
• 生存过程的描述
非参数方法 参数方法
乘积-极限法 指数分布 (又称Kaplan-Meier法) Weibull分布 寿命表方法 Gamma分布 Turnbull估计 logistic分布 对数正态分布
例
• 两组淋巴肉瘤患者治疗后复发时间(月数)如 表, 对照组为“摘除+放疗”,处理组为 “摘除+放疗+化疗”,问在“摘除+放 疗”基础上附加“化疗”是否可延长缓解 期?
log rank检验
• 则在时刻ti的生存函数S(ti)的PL 估计值是ti时刻之前各时间点上生存 率的乘积,即
dj ˆ (t ) S 1 i nj j 1
d (非删失时点数 )
exp( X
jRi 1
exp( 1 X i1 p X ip )
j1
p X jp )
• 最大似然估计
假设检验
• 对模型的检验 模型是否有意义 • 对每个回归系数的检验 回归系数是否为0 H0: i=0 , H1: i0 似然比检验 Wald 检验 score检验
生存时间
Means and Medians for Survival Time
Mean
a
Median 9 5% Co nfid en ce In terv al Estimate 2 5.0 00 . . Std. Erro r 1 1.1 39 . . Lower Bou n d 3 .16 7 . . Up per Bou n d 4 6.8 33 . .
Cox Regression
Sur vival Table
Time 5 78 9 38 1 24 5 1 54 9 1 93 2 2 36 3 2 58 1 2 93 8 3 20 5 3 45 1 3 57 2 3 75 0 3 95 8 4 11 1 4 43 5
Baselin e Cu m Hazard .0 24 .0 52 .0 81 .1 17 .1 79 .2 76 .3 91 .5 22 .6 72 .8 75 1 .19 4 1 .94 8 3 .63 4 5 .80 4 9 .95 5
• 平均寿命及其标准误为:
1 t
1 var(t ) 2 r
• 生存过程的比较
非参数方法
时序(log-rank)检验 分层时序检验 Gehan检验 广义Wilcoxon检验 Mantel-Haenszel检验
参数方法
分布参数检验
logrank 检验
H0: 两组生存过程相同 H1: 两组生存过程不同
SAS
COX回归
PROC PHREG data = a.cox; MODEL time*d(0)=x1 x2 x3 sex age stage /SELECTION=STEPWISE; RUN;
proc TPHREG data = a.cox ; class x5 (ref = FIRST ); model day*d(0)=x2 x3 x4 x5 x6/ selection=S sls=0.05 risklimits; RUN;
生存分析
生存分析的研究内容
• • • • 描述生存过程 生存过程的比较 分析生存过程的危险因素 建立生存分析的模型
使用的方法
• 描述 生存时间 生存率 风险率 • 非参数法 KM法 、寿命表
• 参数法 • 半参数法 COX回归
A组
研究对象
出现结果
尚未出现结果 B组 伴随因素 干扰因素 失访、脱落
a. Dependent Variabl e: ti me
Percent 15 1 16 0 0 0 0 16 9 3.8 % 6 .3% 1 00 .0% .0 % .0 % .0 % .0 % 1 00 .0%
Omnibus Tests of Model Coefficientsf,g
Step 1a 2b 3c 4d 5e
a. Estimation is limited to the largest survival time if it is censored.
生存时间的比较
Overall Comparisons
Ch i-Squ are Log Ran k (Mantel-Co x) Breslow (Gen eralized Wilco xo n) Taron e-W are 4 .53 8 4 .13 0 4 .34 7 df 1 1 1 Sig. .0 33 .0 42 .0 37
数据汇总
生存时间的比较
SPSS 数据格式
编号
分组变量
观察时间
事件是否发生
SPSS
Kaplan-Meier法
事件发生 的代码
数据汇总
Case Processing Summary
Censored group 1 2 Overall Total N 14 17 31 N of Events 7 3 10 N 7 14 21 Percent 50.0% 82.4% 67.7%
At mean of cov ariates S urv iv al .9 72 .9 40 .9 08 .8 70 .8 08 .7 20 .6 27 .5 37 .4 49 .3 52 .2 41 .0 98 .0 13 .0 01 .0 00 SE .0 27 .0 47 .0 63 .0 78 .0 96 .1 16 .1 30 .1 40 .1 39 .1 34 .1 16 .0 69 .0 29 .0 04 .0 00 Cu m Hazard .0 28 .0 61 .0 96 .1 40 .2 14 .3 28 .4 66 .6 22 .8 01 1 .04 3 1 .42 3 2 .32 2 4 .33 1 6 .91 8 1 1.8 66
生存率
2 死亡率(累计)=1-生存率
生存时间T t的人数 S (t ) P(T t ) 观察总人数
生 存 率
T
常见生存函数的类型
研究指标
3 风险函数(hazard function)
死于区间(t , t t )的人数 h(t ) 在t时刻尚存的人数 t
常见风险函数的类型
SE S ( t i ) S ( t i )
n (n
j 1 j
i
dj
j
dj)
• nj 表示时刻 tj 的期初观察人数, • dj 表示 tj 时刻的死亡人数。
生存率的可信区间估计(正态近似法)
100(1-)%可信区间为:
S(t i ) u SES(t i )
指数分布
变量筛选
事件发生事件相同时
RR CI
• RISKLIMITS -RL
比例风险假设的检验
• log{-log[S(t)]}=log{-log[S0(t)]}+bx • 以时间t为横坐标,LML为纵坐标
例
某医师对医院1988年收治的16例鼻腔淋巴 瘤患者随访了13年,数据见表,试用Cox模 型分析。
Test o f eq uality of surviv al d istrib ution s fo r the d ifferen t lev els o f g ro up .
Cox比例风险模型 t1t2…tk
设一个病人的生存时间为t,同时具有p 个与生存时间有关的因素,定义该病人的 死亡风险函数为
生存率的估计:
Kaplan-Meier法 又称:乘积极限法( product-limit,PL法)
S(ti)=S(t1|0)S(t2|t1)S(t3|t2)…S(ti |ti-1 )
=p1 p2 p3 pi = S(ti-1 )S(ti |ti-1 )
生存率计算
生存率计算
生存率的标准误(Greenwood估计)
i
• 标准误的估计值可用Greenwood的 公式来计算:
ˆ (t )] S ˆ (t ) ˆ [S i i
(n s
j 1 j
i
dj
j
)
SAS 数据格式
编号 分组变量
观察时间
事件是否 发生
SAS
Kaplan-Meier法
PROC LIFETEST data = a.km METHOD=PL PLOTS=(s); TIME time*p(1); strata group; RUN;
随访研究(follow-up study)
一般的统计分析
• 只关心结局,而忽略了发生结局的时间。 脑卒中--脑栓塞,溶栓,功能锻炼 r-TPA 尘肺--平均发病年限 • 未出现结局的数据如何处理 去除,疗效观察,疗效不佳的更容易退出。
生存数据的特点
1 生存时间的分布一般为非正态分布 指数分布,对数正态分布 Weibull分布,Gamma分布,…… 2 含有截尾数据(censored data) 截尾数据提供的信息是不完全的 (uncompleted data) 是否出现、何时出现结局不知道
参数估计
• 条件死亡概率:qi • 偏似然函数
Lp
d (非删失时点数 )
i 1
qi
d (非删失时点数 )
i 1 i 1
h (t ) exp( X
jRi 0 i 1
h0 (ti ) exp( 1 X i1 p X ip )
j1
p X jp )
-2 Log Likelihood 45.107 45.231 45.551 46.505 47.229
Overall (score) Chi-square 16.263 15.591 15.564 14.701 13.269 df 7 6 5 4 3 Sig. .023 .016 .008 .005 .004
基本概念
• • • • • • • 事件、事件是否发生(生存、死亡)、 截尾 起始事件、终点事件 生存时间 生存函数(率)、死亡函数(率) 风险函数 风险比 RR、比例风险
起点事件 终点事件 失访
1 2 3 4 5 6来自百度文库
观察起点
观察终点
生存数据中的完全数据与截尾数据
起始事件
随访时间
终点事件
9 5% Co nfid en ce In terv al g rou p 1 2 Ov erall Estimate 2 2.8 80 5 1.3 18 4 2.0 82 Std. Erro r 4 .97 5 5 .06 8 4 .87 1 Lower Bou n d 1 3.1 28 4 1.3 85 3 2.5 35 Up per Bou n d 3 2.6 31 6 1.2 50 5 1.6 29