生存分析SPSS
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生存分析SPSS过程
(SPSS of Survival Analysis)
邹莉玲 预防医学教研室
生存分析的理论复习
1. 何为生存分析?
生存分析(survival analysis)是将事件的结果(终点事件)和 出现结果经历的时间结合起来分析的一种统计分析方法。
2. 生存分析的目的:
(1)描述生存过程:估计不同时间的总体生存率,计算中位生存期, 绘制生存函数曲线。统计方法包括Kaplan-Meier(K-M)法、 寿命表法。
(1)计算甲、乙两法术后10月的生存率和标准误。 (2)估计两组的中位生存期。 (3)绘制各组生存函数曲线。 (4)比较两组的总体生存时间分布有无差别。
Company Logo
一、建立数据文件(data-01.sav)
定义5个变量: 生存时间变量:t,值标签“生存时间(月)” 生存状态变量 :status,取值“1=死亡,0=删失或存活” 频数变量:freq,值标签“人数” 分组变量:group,取值“1=甲组,2=乙组” 生存时间序号变量(可无):i
No X1 X2 X3 X4 X5 X6
t
Y
1 54
0 01 10
52
0
2 57
0 10 00
51
0
3 58
0 00 11
35
1
4 43
1 1 1 1 0 103
0
5 48 0 1 0 0 0
7
1
6 40
0 10 00
60
0
7 44
0 10 00
58
0
8 36
0 00 11
29
1
9 39
1 11 01
实例分析
例2:(数据同例1)为了比较不同手术方法治疗肾上腺 肿瘤的疗效,某研究者随机将43例病人分成两组,甲组 23例、乙组20例的生存时间(月)如下所示:
其中有“+”者是删失数据,表示病人仍生存或失访,括号内为死亡人数。
(1)计算甲、乙两法各生存时间的生存率和标准误。 (2)估计两组的中位生存期。 (3)绘制各组生存函数曲线。 (4)比较两组的总体生存时间分布有无差别。
模型系数的综合测试a, b
-2 倍对数
步骤 似然值
2
182.777
整体 (得分)
卡方
df
17.594
2
Sig. .000
从上一块开始更改
卡方
df
Sig.
19.217
2
.000
a. 起始块编号 0,最初的对数似然函数:-2 倍对数似然值: 201.994
b. 起始块编号 1. 方法 = 向前逐步(似然比)
布的比较。 5. 对多组生存时间分布进行两两比较。 (比较总体生存时间分布采用wilcoxon检验)
实例分析
例1:为了比较不同手术方法治疗肾上腺肿瘤的疗效, 某研究者随机将43例病人分成两组,甲组23例、乙组20 例的生存时间(月)如下所示:
其中有“+”者是删失数据,表示病人仍生存或失访,括号内为死亡人数。
二、操作过程
2)
√
水平间的两两比较。
6. 单击Save按钮,弹出保存新变量Save new variables 对话框:
√ √
三、主要输出结果
1. 生存表: 略 2. 两组的中位生存期估计:
3. 绘制生存曲线:
4. 两组生存时间分布的比较:
Company Logo
Cox回归过程
Cox回归过程用于: 1. 多个因素对生存时间的影响作用分析和比较 2. 生存(或死亡)风险预测
87
0
28 53 1 1 1 0 0 120
0
29 32 1 1 1 0 0 120
0
30 46 0 1 0 0 1 120
0
31 43 1 0 1 1 0 120
0
32 44 1 0 1 1 0 120
0
No
X1 X2 X3 X4 X5 X6
t
Y
33 62 0 0 0 1 0 120
0
34 40 1 1 1 0 1 40
1
43 49 1 0 1 1 0 120
0
44 43 0 1 0 0 0 120
0
45 48 1 1 0 0 0 15
1
46 44 0 0 0 1 0
4
1
47 60 1 1 1 0 0 120
0
48 40 0 0 0 1 0 16
1
49 32 0 1 0 0 1 24
1
50 44 0 0 0 1 1 19
70
0
10 42
0 10 01
67
0
11 42
0 10 00
66
0
12 42
1 01 10
87
0
13 51
1 11 00
85
0
14 55 0 1 0 0 1 82 0
15 49
1 11 01
76
0
16 52
1 11 01
74
0
17 48 1 1 1 0 0
63
0
18 54 1 0 1 1 1 101
1)√寿命表,系统默认。 2)图: √生存函数 3)比较第一个因子的水平: √整体比较
三、主要输出结果
1. 10月生存率的估计: 甲法 48%,标准误 0.1 乙法 30%,标准误 0.1
2. 两组的中位生存期估计:
3. 绘制生存曲线:
Company Logo
4. 两组生存时间分布的比较:
Company Logo
1
35 50 1 0 0 1 0 26
1
36 33 1 1 0 0 0 120
0
37 57 1 1 1 0 0 120
0
38 48 1 0 0 1 0 120
0
39 28 0 0 0 1 0
3
1
40 54 1 0 1 1 0 120
1
41 35 0 1 0 1 1
7
1
42 47 0 0 0 1 0 18
b. 起始块编号 1. 方法 = 输入
从上一块开始更改
卡方
df
Sig.
21.942
6
.001
结果提示: (1)对模型总体检验有显著意义(P=0.003),即至少 有1个自变量的总体回归系数不为0。
2-2.模型检验(逐步回归模型,Method=向前 法LR,自变量进入P≤0.05,剔除P>0.10 )
0
19 38 0 1 0 0 0 100
0
20 40 1 1 1 0 1
66
1
21 38 0 0 0 1 0
93
0
22 19 0 0 0 1 0
24
1
23 67 1 0 1 1 0
93
0
24 37 0 0 1 1 0
90
0
25 43 1 0 0 1 0
15
1
26 49 0 0 0 1 0
3
1
27 50 1 1 1 1 1
以下7种方法。
√
√
三、主要输出结果
1.分析例数描述
案例处理摘要
分析 中可 用的 案例
删除 的案 例
事件a 删失 合计 带有缺失值的案例 带有负时间的案例 层中的最早事件之 前删失的案例 合计
N 26 37 63 0 0
0
0
合计
63
a. 因变量: t
百分比 41.3% 58.7% 100.0% .0% .0% .0%
方程中的变量
步骤 X4
2
X5
B -1.762
.931
SE .548
.445
Wald 10.337
4.389
df 1
1
Sig. .001
.036
Exp(B) .172
2.538
95.0% CI 用于 Exp(B)
Fra Baidu bibliotek
下部
上部
.059
.503
1.062
6.066
B :偏回归系数 ,SE:偏回归系数的标准误 Wald:用于检验总体偏回归系数与0有无显著差异, v=1时,W=(B/SE)2 。 Exp(B):相对危险度估计(RR值)
0
59 74 0 0 0 1 1
7
1
60 61 0 1 0 1 0 40
1
61 45 1 0 1 1 0 108
0
62 38 0 1 0 0 0 24
1
63 62 0 0 0 1 0 16
1
一、建立数据文件(data-03.sav) 二、操作过程
主菜单:分析Analyze生存SurvivalCox Regression
1)统计量: √生存分析表,系统默认。 √ 均值和中位生存时间,系统默认。
2)图: √生存函数 5. 单击比较因子Compare Factor按钮,弹出对话框:
1)检验统计量Test Statistics: 都用于检验时间分布是否相同。 √对数秩Log-rank:各时间点的权重一样。 Breslow:按各时间点的观察例数赋权。 Tarone-Ware:按各时间点观察例数的平方根赋权。
Company Logo
一、建立数据文件(同前)
二、操作过程
主菜单:分析Analyze生存SurvivalKaplan-Meier
对话框参数设置:
1. 时间time框:选入 “t”。 2. 状态status框:选入“status”,击define events 钮,在single value
框填入“1”。 3. 因子factor框:选入“group”。 4. 单击选项option按钮,弹出对话框:
(4)预测:建立cox回归预测模型。
生存分析(Survival Analysis)菜单
寿命表(Life Tables)过程
Life tables 过程用于(小样本和大样本资料): 1. 估计某生存时间的生存率,以及中位生存时间。 2. 绘制各种曲线:如生存函数、风险函数曲线等。 3. 对某一研究因素不同水平的生存时间分布的比较。 4. 控制另一个因素后对研究因素不同水平的生存时间分
实例分析
例3:为探讨某恶性肿瘤的预后,某研究者收集了63 例患者的生存时间、生存结局及影响因素。影响因素 包括病人年龄、性别、组织学类型、治疗方式、淋巴 结转移、肿瘤浸润程度,生存时间以月计算。变量的 赋值和所收集的资料分别见表17-8和表17-9。试用 Cox回归模型进行分析。
表17-9 63名某恶性肿瘤患者的生存时间(月)及影响因素
(2)采用逐步回归法进行Cox模型分析的结果提示:模型拟合自变量进入和 剔除的检验水准分别为0.05和0.1时,筛选后的最佳模型包含两个协变量, 即X4(治疗方式)和X5(淋巴结是否转移),该拟合模型总体检验提示 具有统计学意义(整体卡方=17.594,P<0.001)。
3. 参数估计(逐步回归模型,Method=向前法 LR,自变量进入P≤0.05,剔除P>0.10 )
Cox回归主对话框
二、操作过程
主对话框参数设置: 1. 时间time框:选入 “ t ”。 2. 状态status框:选入“ y ”,击define events 钮,在single
value框填入“1” 3. 协变量Covariates框:选入“x1~x6”。 4. 方法Method框:选择自变量进入Cox模型的方法,SPSS提供
Company Logo
二、操作过程
主菜单:分析Analyze生存Survival寿命表Life tables
对话框参数设置:
1. 时间time框:选入 “t”。 2. 显示时间间隔Display time intervals框:步长by前面填入最大生存时
间的上限(必须包括生存时间最大值),步长by后面填入生存时 间的组距。本例上限填“60”,组距填“1”。 3. 状态status框:选入“status”,击define events 钮,在single value 框填入“1” 4. 因子factor框:选入“group”,定义最小值“1”,最大值“2”。 5. 单击选项option按钮,弹出对话框:
.0%
100.0%
2-1.模型检验(全变量模型)
模型系数的综合测 试a, b
-2 倍对数 似然值
180.052
整体 (得分)
卡方
df
20.174
6
Sig. .003
从上一步骤开始更改
卡方
df
Sig.
21.942
6
.001
a. 起始块编号 0,最初的对数似然函数:-2 倍对数似然值: 201.994
1
51 48 1 0 0 1 0 120
0
52 72 0 1 0 1 0 24
1
53 42 0 0 0 1 0
2
1
54 63 1 0 1 1 0 120
0
55 55 0 1 1 0 0 12
1
56 39 0 0 0 1 0
5
1
57 44 0 0 0 1 0 120
0
58 42 1 1 1 0 0 120
Kaplan-Meier 过程
Kaplan-Meier过程用于(尤其小样本资料): 1. 估计各生存时间的生存率以及中位生存时间。 2. 绘制各种曲线:如生存函数、风险函数曲线等。 3. 比较某研究因素不同水平的生存时间有无差异。 4. 控制某个分层因素后对研究因素不同水平的生存时间
分布进行比较。 5. 对多组生存时间分布进行两两比较。 (各总体分布比较采用Log-rank等非参数方法)
(2)比较:比较不同处理组的生存率,如比较不同疗法治疗脑瘤的 生存率,以了解哪种治疗方案较优。统计方法log-rank检验等。
(3)影响因素分析:研究某个或某些因素对生存率或生存时间的影 响作用。如为改善脑瘤病人的预后,应了解影响病人预后的主 要因素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案 等。统计方法cox比例风险回归模型等。
(SPSS of Survival Analysis)
邹莉玲 预防医学教研室
生存分析的理论复习
1. 何为生存分析?
生存分析(survival analysis)是将事件的结果(终点事件)和 出现结果经历的时间结合起来分析的一种统计分析方法。
2. 生存分析的目的:
(1)描述生存过程:估计不同时间的总体生存率,计算中位生存期, 绘制生存函数曲线。统计方法包括Kaplan-Meier(K-M)法、 寿命表法。
(1)计算甲、乙两法术后10月的生存率和标准误。 (2)估计两组的中位生存期。 (3)绘制各组生存函数曲线。 (4)比较两组的总体生存时间分布有无差别。
Company Logo
一、建立数据文件(data-01.sav)
定义5个变量: 生存时间变量:t,值标签“生存时间(月)” 生存状态变量 :status,取值“1=死亡,0=删失或存活” 频数变量:freq,值标签“人数” 分组变量:group,取值“1=甲组,2=乙组” 生存时间序号变量(可无):i
No X1 X2 X3 X4 X5 X6
t
Y
1 54
0 01 10
52
0
2 57
0 10 00
51
0
3 58
0 00 11
35
1
4 43
1 1 1 1 0 103
0
5 48 0 1 0 0 0
7
1
6 40
0 10 00
60
0
7 44
0 10 00
58
0
8 36
0 00 11
29
1
9 39
1 11 01
实例分析
例2:(数据同例1)为了比较不同手术方法治疗肾上腺 肿瘤的疗效,某研究者随机将43例病人分成两组,甲组 23例、乙组20例的生存时间(月)如下所示:
其中有“+”者是删失数据,表示病人仍生存或失访,括号内为死亡人数。
(1)计算甲、乙两法各生存时间的生存率和标准误。 (2)估计两组的中位生存期。 (3)绘制各组生存函数曲线。 (4)比较两组的总体生存时间分布有无差别。
模型系数的综合测试a, b
-2 倍对数
步骤 似然值
2
182.777
整体 (得分)
卡方
df
17.594
2
Sig. .000
从上一块开始更改
卡方
df
Sig.
19.217
2
.000
a. 起始块编号 0,最初的对数似然函数:-2 倍对数似然值: 201.994
b. 起始块编号 1. 方法 = 向前逐步(似然比)
布的比较。 5. 对多组生存时间分布进行两两比较。 (比较总体生存时间分布采用wilcoxon检验)
实例分析
例1:为了比较不同手术方法治疗肾上腺肿瘤的疗效, 某研究者随机将43例病人分成两组,甲组23例、乙组20 例的生存时间(月)如下所示:
其中有“+”者是删失数据,表示病人仍生存或失访,括号内为死亡人数。
二、操作过程
2)
√
水平间的两两比较。
6. 单击Save按钮,弹出保存新变量Save new variables 对话框:
√ √
三、主要输出结果
1. 生存表: 略 2. 两组的中位生存期估计:
3. 绘制生存曲线:
4. 两组生存时间分布的比较:
Company Logo
Cox回归过程
Cox回归过程用于: 1. 多个因素对生存时间的影响作用分析和比较 2. 生存(或死亡)风险预测
87
0
28 53 1 1 1 0 0 120
0
29 32 1 1 1 0 0 120
0
30 46 0 1 0 0 1 120
0
31 43 1 0 1 1 0 120
0
32 44 1 0 1 1 0 120
0
No
X1 X2 X3 X4 X5 X6
t
Y
33 62 0 0 0 1 0 120
0
34 40 1 1 1 0 1 40
1
43 49 1 0 1 1 0 120
0
44 43 0 1 0 0 0 120
0
45 48 1 1 0 0 0 15
1
46 44 0 0 0 1 0
4
1
47 60 1 1 1 0 0 120
0
48 40 0 0 0 1 0 16
1
49 32 0 1 0 0 1 24
1
50 44 0 0 0 1 1 19
70
0
10 42
0 10 01
67
0
11 42
0 10 00
66
0
12 42
1 01 10
87
0
13 51
1 11 00
85
0
14 55 0 1 0 0 1 82 0
15 49
1 11 01
76
0
16 52
1 11 01
74
0
17 48 1 1 1 0 0
63
0
18 54 1 0 1 1 1 101
1)√寿命表,系统默认。 2)图: √生存函数 3)比较第一个因子的水平: √整体比较
三、主要输出结果
1. 10月生存率的估计: 甲法 48%,标准误 0.1 乙法 30%,标准误 0.1
2. 两组的中位生存期估计:
3. 绘制生存曲线:
Company Logo
4. 两组生存时间分布的比较:
Company Logo
1
35 50 1 0 0 1 0 26
1
36 33 1 1 0 0 0 120
0
37 57 1 1 1 0 0 120
0
38 48 1 0 0 1 0 120
0
39 28 0 0 0 1 0
3
1
40 54 1 0 1 1 0 120
1
41 35 0 1 0 1 1
7
1
42 47 0 0 0 1 0 18
b. 起始块编号 1. 方法 = 输入
从上一块开始更改
卡方
df
Sig.
21.942
6
.001
结果提示: (1)对模型总体检验有显著意义(P=0.003),即至少 有1个自变量的总体回归系数不为0。
2-2.模型检验(逐步回归模型,Method=向前 法LR,自变量进入P≤0.05,剔除P>0.10 )
0
19 38 0 1 0 0 0 100
0
20 40 1 1 1 0 1
66
1
21 38 0 0 0 1 0
93
0
22 19 0 0 0 1 0
24
1
23 67 1 0 1 1 0
93
0
24 37 0 0 1 1 0
90
0
25 43 1 0 0 1 0
15
1
26 49 0 0 0 1 0
3
1
27 50 1 1 1 1 1
以下7种方法。
√
√
三、主要输出结果
1.分析例数描述
案例处理摘要
分析 中可 用的 案例
删除 的案 例
事件a 删失 合计 带有缺失值的案例 带有负时间的案例 层中的最早事件之 前删失的案例 合计
N 26 37 63 0 0
0
0
合计
63
a. 因变量: t
百分比 41.3% 58.7% 100.0% .0% .0% .0%
方程中的变量
步骤 X4
2
X5
B -1.762
.931
SE .548
.445
Wald 10.337
4.389
df 1
1
Sig. .001
.036
Exp(B) .172
2.538
95.0% CI 用于 Exp(B)
Fra Baidu bibliotek
下部
上部
.059
.503
1.062
6.066
B :偏回归系数 ,SE:偏回归系数的标准误 Wald:用于检验总体偏回归系数与0有无显著差异, v=1时,W=(B/SE)2 。 Exp(B):相对危险度估计(RR值)
0
59 74 0 0 0 1 1
7
1
60 61 0 1 0 1 0 40
1
61 45 1 0 1 1 0 108
0
62 38 0 1 0 0 0 24
1
63 62 0 0 0 1 0 16
1
一、建立数据文件(data-03.sav) 二、操作过程
主菜单:分析Analyze生存SurvivalCox Regression
1)统计量: √生存分析表,系统默认。 √ 均值和中位生存时间,系统默认。
2)图: √生存函数 5. 单击比较因子Compare Factor按钮,弹出对话框:
1)检验统计量Test Statistics: 都用于检验时间分布是否相同。 √对数秩Log-rank:各时间点的权重一样。 Breslow:按各时间点的观察例数赋权。 Tarone-Ware:按各时间点观察例数的平方根赋权。
Company Logo
一、建立数据文件(同前)
二、操作过程
主菜单:分析Analyze生存SurvivalKaplan-Meier
对话框参数设置:
1. 时间time框:选入 “t”。 2. 状态status框:选入“status”,击define events 钮,在single value
框填入“1”。 3. 因子factor框:选入“group”。 4. 单击选项option按钮,弹出对话框:
(4)预测:建立cox回归预测模型。
生存分析(Survival Analysis)菜单
寿命表(Life Tables)过程
Life tables 过程用于(小样本和大样本资料): 1. 估计某生存时间的生存率,以及中位生存时间。 2. 绘制各种曲线:如生存函数、风险函数曲线等。 3. 对某一研究因素不同水平的生存时间分布的比较。 4. 控制另一个因素后对研究因素不同水平的生存时间分
实例分析
例3:为探讨某恶性肿瘤的预后,某研究者收集了63 例患者的生存时间、生存结局及影响因素。影响因素 包括病人年龄、性别、组织学类型、治疗方式、淋巴 结转移、肿瘤浸润程度,生存时间以月计算。变量的 赋值和所收集的资料分别见表17-8和表17-9。试用 Cox回归模型进行分析。
表17-9 63名某恶性肿瘤患者的生存时间(月)及影响因素
(2)采用逐步回归法进行Cox模型分析的结果提示:模型拟合自变量进入和 剔除的检验水准分别为0.05和0.1时,筛选后的最佳模型包含两个协变量, 即X4(治疗方式)和X5(淋巴结是否转移),该拟合模型总体检验提示 具有统计学意义(整体卡方=17.594,P<0.001)。
3. 参数估计(逐步回归模型,Method=向前法 LR,自变量进入P≤0.05,剔除P>0.10 )
Cox回归主对话框
二、操作过程
主对话框参数设置: 1. 时间time框:选入 “ t ”。 2. 状态status框:选入“ y ”,击define events 钮,在single
value框填入“1” 3. 协变量Covariates框:选入“x1~x6”。 4. 方法Method框:选择自变量进入Cox模型的方法,SPSS提供
Company Logo
二、操作过程
主菜单:分析Analyze生存Survival寿命表Life tables
对话框参数设置:
1. 时间time框:选入 “t”。 2. 显示时间间隔Display time intervals框:步长by前面填入最大生存时
间的上限(必须包括生存时间最大值),步长by后面填入生存时 间的组距。本例上限填“60”,组距填“1”。 3. 状态status框:选入“status”,击define events 钮,在single value 框填入“1” 4. 因子factor框:选入“group”,定义最小值“1”,最大值“2”。 5. 单击选项option按钮,弹出对话框:
.0%
100.0%
2-1.模型检验(全变量模型)
模型系数的综合测 试a, b
-2 倍对数 似然值
180.052
整体 (得分)
卡方
df
20.174
6
Sig. .003
从上一步骤开始更改
卡方
df
Sig.
21.942
6
.001
a. 起始块编号 0,最初的对数似然函数:-2 倍对数似然值: 201.994
1
51 48 1 0 0 1 0 120
0
52 72 0 1 0 1 0 24
1
53 42 0 0 0 1 0
2
1
54 63 1 0 1 1 0 120
0
55 55 0 1 1 0 0 12
1
56 39 0 0 0 1 0
5
1
57 44 0 0 0 1 0 120
0
58 42 1 1 1 0 0 120
Kaplan-Meier 过程
Kaplan-Meier过程用于(尤其小样本资料): 1. 估计各生存时间的生存率以及中位生存时间。 2. 绘制各种曲线:如生存函数、风险函数曲线等。 3. 比较某研究因素不同水平的生存时间有无差异。 4. 控制某个分层因素后对研究因素不同水平的生存时间
分布进行比较。 5. 对多组生存时间分布进行两两比较。 (各总体分布比较采用Log-rank等非参数方法)
(2)比较:比较不同处理组的生存率,如比较不同疗法治疗脑瘤的 生存率,以了解哪种治疗方案较优。统计方法log-rank检验等。
(3)影响因素分析:研究某个或某些因素对生存率或生存时间的影 响作用。如为改善脑瘤病人的预后,应了解影响病人预后的主 要因素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案 等。统计方法cox比例风险回归模型等。