医学研究的数据管理与分析——第十一章(1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常见风险函数的类型
研究指标
4 风险比(hazard ratio)
相对危险度(Relative risk)
第一组的h1 (t ) 风险比= 第二组的h2 (t )
• 生存过程的描述
非参数方法 参数方法
乘积-极限法 指数分布 (又称Kaplan-Meier法) Weibull分布 寿命表方法 Gamma分布 Turnbull估计 logistic分布 对数正态分布
二、操作过程
2)
√
水平间的两两比较。
6. 单击Save按钮,弹出保存新变量Save new variables 对话框:
√ √
三、主要输出结果
1. 生存表: 略 2. 两组的中位生存期估计:
3. 绘制生存曲线:
4. 两组生存时间分布的比较:
Company Logo
Cox回归过程
Cox回归过程用于: 1. 多个因素对生存时间的影响作用分析和比较
实例分析
例11-1-2
Company Logo
实例分析
例2:(数据同例1)为了比较不同手术方法治疗肾上腺 肿瘤的疗效,某研究者随机将43例病人分成两组,甲组 23例、乙组20例的生存时间(月)如下所示:
其中有“+”者是删失数据,表示病人仍生存或失访,括号内为死亡人数。
(1)计算甲、乙两法各生存时间的生存率和标准误。 (2)估计两组的中位生存期。 (3)绘制各组生存函数曲线。 (4)比较两组的总体生存时间分布有无差别。
2. 生存(或死亡)风险预测
Cox回归模型: h(t/X)=h0(t) exp (β1 X1 + β2 X2 + …… + βp Xp ) h0(t): 基准风险函数 即所有变量取零时的t时刻的风险函数 X1、X2 …… Xp:影响因素 变量 β1、β2 …… βp:回归系数
实例分析
例11-1-3
1.0 0.8 0.6 0.4 0.2 0.0
S(t)
1.0 0.8 0.6
S(132)=0.5
S(t)
0.4 0.2
0.2
300 400 500
0
100
200
300
400
500
0.0
0
100
200
0.0
Md=1.7 0 1 2 3 4 5
t (day)
(a)研究终止在475天 (b) 研究终止在474天
三、主要输出结果
1. 10月生存率的估计:
甲法 48%,标准误 0.1
乙法 30%,标准误 0.1 2. 两组的中位生存期估计:
3. 绘制生存曲线:
Company Logo
4. 两组生存时间分布的比较:
Company Logo
Kaplan-Meier 过程
Kaplan-Meier过程用于(尤其小样本资料):
研究指标 1 生存函数(survival function)
生存率
2 死亡率=1-生存率
生存时间 T t的病人数 S (t ) P(T t ) 观察病人总数
常见生存函数的类型
生存曲线
以生存时间为横轴,生存率为纵轴绘制的曲线
S(t)
1.0 0.8 0.6 0.4
Md=158
时间
截尾(删失)数据
两种错误的做法:
错误1:丢弃截尾数据,只考虑确切数据。(损失
了信息)
错误2:将截尾数据当作确切数据处理。(低估了
生存时间的平均水平)。
非正态数据
两种错误的做法:
错误1:采用平均生存时间而不是采用中位生
存时间来表示生存时间的平均水平。 错误2:采用常规t检验或方差分析进行组间比较。 (应采用log-rank检验比较几组生存时间 )
3.生存数据的特点
1)完全数据:研究对象在规定研究期间提供确切的“时间 和结局”。 2)截尾数据(t+) :截尾数据虽然提供的信息不完全,但提 供了部分信息,如 t=10+年>9年。 3)生存数据的结果变量(Y )有两个: 时间(t)值 ,t>0 结局状态(y )=“ 如死亡或截尾值”
起点事件 终点事件 失访
生存分析(Survival Analysis)菜单
寿命表(Life Tables)过程
Life tables 过程用于(小样本和大样本资料):
1. 估计某生存时间的生存率,以及中位生存时间。
2. 绘制各种曲线:如生存函数、风险函数曲线等。 3. 对某一研究因素不同水平的生存时间分布的比较。 4. 控制另一个因素后对研究因素不同水平的生存时间分 布的比较。 5. 对多组生存时间分布进行两两比较。 (比较总体生存时间分布采用wilcoxon检验)
生存分析主要研究的内容
1.统计描述:计算不同时间点(t)的生存率,描述生 存过程。 2.统计推断:检验不同处理方式的生存过程有无统计 差别. 3.自变量(x)对生存时间(t)的关系:影响生存时 间的危险因素分析.
观察指标
1 平均生存时间 ti的平均数 (当有截尾数据时,求不出)
2 中位生存时间 ti的中位数 : 50%的病人生存, 50%的病人死亡的时间 (当截尾较早时,求不出)
起始事件
随访时间
终点事件
死亡 痊愈 死亡 痊愈 疾病恶化 出现毒性反映 发病
疾病确诊 疾病确诊 治疗开始 治疗开始 症状缓解 接触毒物 接触危险因素
2.截尾数据 观察过程中个体因其他原因未观察到明确的 结局, 称为截尾或删失数据( censored data)。
截尾原因有: ①失访,②退出研究,如其他原因死亡。③研究时间结 束,未出现结局事件。 截尾值(censored value): 时间(t)=截尾事件日期 -起始事件日期 记为t+。(例:10+月)
实例分析
例11-1-1
Company Logo
实例分析
例1:为了比较不同手术方法治疗肾上腺肿瘤的疗效, 某研究者随机将43例病人分成两组,甲组23例、乙组20 例的生存时间(月)如下所示:
其中有“+”者是删失数据,表示病人仍生存或失访,括号内为死亡人数。
(1)计算甲、乙两法术后10月的生存率和标准误。 (2)估计两组的中位生存期。 (3)绘制各组生存函数曲线。 (4)比较两组的总体生存时间分布有无差别。
生存时间资料整理和记录
例:某人研究手术方法治疗23位肾上腺肿瘤病人的生存时 间(月)如下: 1,3,5(3),6(3),7,8,10(2),14+,17,, 19+,20+,22+,26+,31+,34,34+,44,59 注:( )括号内的数为相同时间点的人数 数据另一种记录: 对象编号 生存时间(t) 结局状态(0为截尾值) 1 1 1 2 14 0
1. 估计各生存时间的生存率以及中位生存时间。
2. 绘制各种曲线:如生存函数、风险函数曲线等。 3. 比较某研究因素不同水平的生存时间有无差异。 4. 控制某个分层因素后对研究因素不同水平的生存时间 分布进行比较。 5. 对多组生存时间分布进行两两比较。 (各总体分布比较采用Log-rank等非参数方法)
对数正态分布 指数分布, Weibull分布 Gamma分布,logistic分布,……
2个效应变量(1)生存时间(天数),(2)
结局(死亡与否、是否阳性等)
两种错误的做法:
错误1:忽略生存时间,采用Logistic回归分析死亡率 错误2:忽略结局,采用t检验、线性回归分析生存
二、操作过程
主菜单:分析Analyze生存Survival寿命表Life tables
对话框参数设置: 1. 时间time框:选入 “t”。 2. 显示时间间隔Display time intervals框:步长by前面填入最大生存时 间的上限(必须包括生存时间最大值),步长by后面填入生存时 间的组距。本例上限填“60”,组距填“1”。 3. 状态status框:选入“status”,击define events 钮,在single value 框填入“1” 4. 因子factor框:选入“group”,定义最小值“1”,最大值“2”。 5. 单击选项option按钮,弹出对话框: 1)√寿命表,系统默认。 2)图: √生存函数 3)比较第一个因子的水平: √整体比较
第十一章 SPSS软件应用(四)
第一节 生存分析
随访研究
随访研究(follow-up study)是医学中常用前瞻性研究. 例:两种方法肾移植病人术后肾的生存时间和结局(生 存率)比较. 例:不同方法对某病人(癌症、反复发作疾病)生存时 间(缓解时间)与结局(生存率)比较. 该类数据通过随访得到,称为随访资料。
生存分析的基本概念
一、随访数据概念 1.分析的变量( y) 1) 结局事件:指结局出现的特征,如疾病的死 亡、复发、发生( y=1或0) 。
2)时间间隔变量 记为(t)
生存时间t=结局事件出现日期 - 事件的起 始日期 (起始日期可规定:如诊断、用药、手术日期 等), t的单位:可用年、月、周表示
实例分析
例3:为探讨某恶性肿瘤的预后,某研究者收集了63例患者
的生存时间、生存结局及影响因素。影响因素包括病人年 龄、性别、组织学类型、治疗方式、淋巴结转移、肿瘤浸 润程度,生存时间以月计算。变量的赋值和所收集的资料 分别见下表。试用Cox回归模型进行分析。
t (day)
t (year)
图3 乘积极限法生存曲线(阶梯形)及其半数生存期(Md=158天)
图 寿命表法生存曲线(折线)及其半数生存期(Md=1.7年)
研究指标
3 风险函数(hazard function)
死于区间(t , t t )的病人数 h(t ) 在t时刻尚存的病人数 t
Company Logo
一、建立数据文件
定义5个变量:
生存时间变量:t,值标签“生存时间(月)”
生存状态变量 :status,取值“1=死亡,0=删失或存活” 频数变量:freq,值标签“人数” 分组变量:group,取值“1=甲组,2=乙组” 生存时间序号变量(可无):i
Company Logo
Company Logo
一、建立数据文件(同前)
二、操作பைடு நூலகம்程
主菜单:分析Analyze生存SurvivalKaplan-Meier
对话框参数设置: 1. 时间time框:选入 “t”。 2. 状态status框:选入“status”,击define events 钮,在single value 框填入“1”。 3. 因子factor框:选入“group”。 4. 单击选项option按钮,弹出对话框: 1)统计量: √生存分析表,系统默认。 √ 均值和中位生存时间,系统默认。 2)图: √生存函数 5. 单击比较因子Compare Factor按钮,弹出对话框: 1)检验统计量Test Statistics: 都用于检验时间分布是否相同。 √对数秩Log-rank:各时间点的权重一样。 Breslow:按各时间点的观察例数赋权。 Tarone-Ware:按各时间点观察例数的平方根赋权。
试验组
合格的 研究对象 对照组 伴随因素 干扰因素
出现结果
尚未出现结果 失访、脱落
随访研究(follow-up study)示意 图
生存分析
在临床医学中, 对病人疗效考查:
1. 治疗结局?
2. 生存时间?
生存分析(survival analysis)是将事件的结果(终点事件)
和出现结果经历的时间结合起来分析的一种统计分析方 法。
1 2 3 4 5 6
观察起点
观察终点
临床随访研究中的完全数据与截尾数据
生存时间资料的特点
2个效应变量(1)生存时间(天数),(2)结局
(死亡与否、是否阳性等) 截尾数据(censored data):截尾数据提供的信息是 不完全的 (uncompleted data) 分布类型复杂:生存时间分布常呈非正态分布
• 生存过程的比较
非参数方法
时序(log-rank)检验 分层时序检验 Gehan检验 广义Wilcoxon检验 Mantel-Haenszel检验
参数方法
分布参数检验
生存分析
生存分析的目的:
(1)描述生存过程:估计不同时间的总体生存率,计算中位生存期, 绘制生存函数曲线。统计方法包括Kaplan-Meier(K-M)法、寿命 表法。 (2)比较:比较不同处理组的生存率,如比较不同疗法治疗脑瘤的 生存率,以了解哪种治疗方案较优。统计方法log-rank检验等。 (3)影响因素分析:研究某个或某些因素对生存率或生存时间的影 响作用。如为改善脑瘤病人的预后,应了解影响病人预后的主要 因素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。 统计方法cox比例风险回归模型等。 (4)预测:建立cox回归预测模型。