卵巢癌评分标准资料.
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如果直接做回归,它们之间的共线性会导 致模型参数估计失真甚至反序等诸多问题, 这也是我们在解决实际问题中遇到的最大 困难。
6
背景介绍
针对该问题,我们尝试了两步回归法和 CART-COX方法。
并将CART-COX方法与基于Cox模型的直 接回归法和两步回归法做比较。
结果表明,从拟合及预测的总体效果看, CART-COX方法比两步回归法和直接回归 都更占优势。
归系数实际上是相对于该基准层危险率的变动。 原始数据各变量水平的划分是按临床危险程度由
低到高排列的,所以若协变量水平划分合理,它 们的回归系数应该单调递增。
10
资料特征-分期
原始数据中临床分期按国际惯用的FIGO分期,共 有10个水平。
最初我们按照这种分层做Cox回归,发现系数不 单调,并且反复出现波动。
Cox模型的基本形式
h(t, X ) h0 (t) exp( 1X1 2 X 2 p X p )
h(t,X)—t 时 刻 风 险 函 数 、 风 险 率 或 瞬 时 死 亡
率(hazard function)。 h0(t)— 基 准 风 险 函 数 , 即 所 有 变 量 都 取 0 时 t
14
资料特征-化疗方法
原始数据中化疗分为三层,规范化疗,不 规范化疗,未化疗。
按照这三个水平Cox回归时发现,未化疗组 的危险率与规范化疗组接近,并且数据显 示未化疗组的平均寿命几乎是不规范化疗 组的2倍!这是一个非常可疑的结果。
15
资料特征-化疗方法
经过分析发现,化疗的分层同淋巴结是否转移有 相似的问题。
13
资料特征-淋巴结是否转移
重新翻查病例资料并与医生讨论得知,部分病人 淋巴结未清不是因为病变范围广,无法进行淋巴 结清除术,而是病情并不严重才没有清除,这部 分患者生存期相对较长。
他们对生存期的预测是一种干扰。理论上讲应当 将这部分病人按照淋巴结是否转移重新分,但种 操作无法实现。
未清病例占总样本比例较大(30%),我们不能删 除所有未清样本,所以后面的分析我们不再考虑 该变量。
不变,即X是危险无关因素。
资料特征-单因素分析
按照协变量重新分层结果,用Kaplan-Meier法做 单因素分析,检验各层对生存率影响差异显著性
变量
Chi-Square 统计量
P值
对数秩 Wilcoxon 似然比 对数秩 Wilcoxon 似然比
卵巢癌预后因素评价和生 存率预测研究
房祥忠
北京大学概率统计系
1
提纲
背景介绍 资料特征 处理属性数据的两步回归方法 分类树回归方法 方法比较 总结
2
背景介绍
向大家介绍是一个生存分析实际案例分析 卵巢肿瘤是女性常见的三大恶性肿瘤之一,
死亡率居妇科恶性肿瘤首位 因卵巢癌早期无症状,发病隐匿,且缺乏
由于该变量水平划分非常细致,且划分标准对医 生的临床经验程度依赖很高,不是非常客观。
所以在保证每层系数显著且保序的前提下,根据 医生建议,我们重新划分了临床分期。
结果见下表:
11
资料特征-分期
最终分期 FIGO 分 删失样本 寿终样本 删失比例 样本比例 平均寿命
期
第一层 Ia
5
178
2.73% 21.33% 62.67
未化疗组实际上包括两类病人,一是病情严重, 病人认为没有必要从而放弃化疗;二是手术成功, 病情轻微,病人觉得可以不用做化疗。
这一水平的存在严重干扰了分析化疗对生存率的 影响作用。
所幸未化疗组仅占总样本2.38%,征得医生同意, 我们删除了未化疗组样本。最后化源自变量只包括两个水平,规范化疗与不规
最后,为方便医生使用,我们给出了生存 率表。
7
提纲
背景介绍 资料特征 处理属性数据的两步回归方法 分类树回归方法 方法比较 总结
8
数据
资料特征
9
资料特征
在建立多变量Cox模型前,我们需要确定每个协 变量分层是否合理。
多类别分类变量需要按照不同水平引入哑变量。 以某一水平为基准层,其它各水平的Cox模型回
范化疗。
16
资料特征-其它因子
年龄,病理分级,术后残余灶直径这三个 变量在原始数据中的分层比较合理,我们 不再重新划分。
17
Cox比例风险回归模型
Cox比例风险回归模型(Cox’s proportional hazards regression model),简称Cox回归模型
该模型由英国统计学家D.R.Cox于1972年提出, 主要用于肿瘤和其它慢性病的预后分析,也可用 于队列研究的病因探索。其优点: – 多因素分析方法 – 利用截尾数据
有效的诊断方法,诊断时多为晚期,生存 率较低 为提高患者生存率,医生们做了许多努力 和尝试,特别是提高和改善患者预后
3
背景介绍
影响卵巢癌预后的因素很多,在疾病进展 过程中,多种因素共同影响患者预后
如何根据患者的不同情况,综合判断患者 预后状况,预测生存率是迫切需要解决的 问题
4
背景介绍
本文采用的数据集是从全国七家医院5年搜 集的879例卵巢癌患者临床随访数据。
时刻风险函数。 X1 、 X2 、 … 、 Xp— 协 变 量 、 影 响 因 素 、 预 后
因素。 β1、 β2、…、 βp—回归系数。
RR e
β>0,RR>1,说明变量X增加时,危险率
增加,即X是危险因素。
β<0,RR<1,说明变量X增加时,危险率
下降,即X是保护因素。
β=0,RR=1,说明变量X增加时,危险率
数据集包括存活期、年龄、原发灶大小、 病理类型、临床分期、淋巴是否转移、病 理分级、手术残余灶大小、化疗方法、化 疗方案、CA125等风险因素。
5
背景介绍
这些风险因素多为多类别的分类变量,在 做回归分析时往往需要引入哑变量。
当分类变量个数和水平较多时,需要引入 的哑变量数目与样本量相比较会很大。
Ib
Ic
IIa
IIb
IIc
第二层 IIIa
1
584
0.17% 68.35% 30.70
IIIb
IIIc
第三层 IV
1
87
1.15% 10.32% 27.21
12
资料特征-淋巴结是否转移
原始数据中淋巴结是否转移分为三个水平, 未转移,转移,未清。
Cox回归时发现未清这一水平的系数是负值, 也就是说,手术未清情况下的危险率比淋 巴未转移的低,这与我们的初衷是违背的。
6
背景介绍
针对该问题,我们尝试了两步回归法和 CART-COX方法。
并将CART-COX方法与基于Cox模型的直 接回归法和两步回归法做比较。
结果表明,从拟合及预测的总体效果看, CART-COX方法比两步回归法和直接回归 都更占优势。
归系数实际上是相对于该基准层危险率的变动。 原始数据各变量水平的划分是按临床危险程度由
低到高排列的,所以若协变量水平划分合理,它 们的回归系数应该单调递增。
10
资料特征-分期
原始数据中临床分期按国际惯用的FIGO分期,共 有10个水平。
最初我们按照这种分层做Cox回归,发现系数不 单调,并且反复出现波动。
Cox模型的基本形式
h(t, X ) h0 (t) exp( 1X1 2 X 2 p X p )
h(t,X)—t 时 刻 风 险 函 数 、 风 险 率 或 瞬 时 死 亡
率(hazard function)。 h0(t)— 基 准 风 险 函 数 , 即 所 有 变 量 都 取 0 时 t
14
资料特征-化疗方法
原始数据中化疗分为三层,规范化疗,不 规范化疗,未化疗。
按照这三个水平Cox回归时发现,未化疗组 的危险率与规范化疗组接近,并且数据显 示未化疗组的平均寿命几乎是不规范化疗 组的2倍!这是一个非常可疑的结果。
15
资料特征-化疗方法
经过分析发现,化疗的分层同淋巴结是否转移有 相似的问题。
13
资料特征-淋巴结是否转移
重新翻查病例资料并与医生讨论得知,部分病人 淋巴结未清不是因为病变范围广,无法进行淋巴 结清除术,而是病情并不严重才没有清除,这部 分患者生存期相对较长。
他们对生存期的预测是一种干扰。理论上讲应当 将这部分病人按照淋巴结是否转移重新分,但种 操作无法实现。
未清病例占总样本比例较大(30%),我们不能删 除所有未清样本,所以后面的分析我们不再考虑 该变量。
不变,即X是危险无关因素。
资料特征-单因素分析
按照协变量重新分层结果,用Kaplan-Meier法做 单因素分析,检验各层对生存率影响差异显著性
变量
Chi-Square 统计量
P值
对数秩 Wilcoxon 似然比 对数秩 Wilcoxon 似然比
卵巢癌预后因素评价和生 存率预测研究
房祥忠
北京大学概率统计系
1
提纲
背景介绍 资料特征 处理属性数据的两步回归方法 分类树回归方法 方法比较 总结
2
背景介绍
向大家介绍是一个生存分析实际案例分析 卵巢肿瘤是女性常见的三大恶性肿瘤之一,
死亡率居妇科恶性肿瘤首位 因卵巢癌早期无症状,发病隐匿,且缺乏
由于该变量水平划分非常细致,且划分标准对医 生的临床经验程度依赖很高,不是非常客观。
所以在保证每层系数显著且保序的前提下,根据 医生建议,我们重新划分了临床分期。
结果见下表:
11
资料特征-分期
最终分期 FIGO 分 删失样本 寿终样本 删失比例 样本比例 平均寿命
期
第一层 Ia
5
178
2.73% 21.33% 62.67
未化疗组实际上包括两类病人,一是病情严重, 病人认为没有必要从而放弃化疗;二是手术成功, 病情轻微,病人觉得可以不用做化疗。
这一水平的存在严重干扰了分析化疗对生存率的 影响作用。
所幸未化疗组仅占总样本2.38%,征得医生同意, 我们删除了未化疗组样本。最后化源自变量只包括两个水平,规范化疗与不规
最后,为方便医生使用,我们给出了生存 率表。
7
提纲
背景介绍 资料特征 处理属性数据的两步回归方法 分类树回归方法 方法比较 总结
8
数据
资料特征
9
资料特征
在建立多变量Cox模型前,我们需要确定每个协 变量分层是否合理。
多类别分类变量需要按照不同水平引入哑变量。 以某一水平为基准层,其它各水平的Cox模型回
范化疗。
16
资料特征-其它因子
年龄,病理分级,术后残余灶直径这三个 变量在原始数据中的分层比较合理,我们 不再重新划分。
17
Cox比例风险回归模型
Cox比例风险回归模型(Cox’s proportional hazards regression model),简称Cox回归模型
该模型由英国统计学家D.R.Cox于1972年提出, 主要用于肿瘤和其它慢性病的预后分析,也可用 于队列研究的病因探索。其优点: – 多因素分析方法 – 利用截尾数据
有效的诊断方法,诊断时多为晚期,生存 率较低 为提高患者生存率,医生们做了许多努力 和尝试,特别是提高和改善患者预后
3
背景介绍
影响卵巢癌预后的因素很多,在疾病进展 过程中,多种因素共同影响患者预后
如何根据患者的不同情况,综合判断患者 预后状况,预测生存率是迫切需要解决的 问题
4
背景介绍
本文采用的数据集是从全国七家医院5年搜 集的879例卵巢癌患者临床随访数据。
时刻风险函数。 X1 、 X2 、 … 、 Xp— 协 变 量 、 影 响 因 素 、 预 后
因素。 β1、 β2、…、 βp—回归系数。
RR e
β>0,RR>1,说明变量X增加时,危险率
增加,即X是危险因素。
β<0,RR<1,说明变量X增加时,危险率
下降,即X是保护因素。
β=0,RR=1,说明变量X增加时,危险率
数据集包括存活期、年龄、原发灶大小、 病理类型、临床分期、淋巴是否转移、病 理分级、手术残余灶大小、化疗方法、化 疗方案、CA125等风险因素。
5
背景介绍
这些风险因素多为多类别的分类变量,在 做回归分析时往往需要引入哑变量。
当分类变量个数和水平较多时,需要引入 的哑变量数目与样本量相比较会很大。
Ib
Ic
IIa
IIb
IIc
第二层 IIIa
1
584
0.17% 68.35% 30.70
IIIb
IIIc
第三层 IV
1
87
1.15% 10.32% 27.21
12
资料特征-淋巴结是否转移
原始数据中淋巴结是否转移分为三个水平, 未转移,转移,未清。
Cox回归时发现未清这一水平的系数是负值, 也就是说,手术未清情况下的危险率比淋 巴未转移的低,这与我们的初衷是违背的。