基于Logistic 回归模型对肝癌手术治疗效果的评价
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
河南城建学院第三届大学生数学建模竞赛
承诺书
我仔细阅读了《河南城建学院第三届大学生数学建模竞赛参赛须知》。
我完全明白,在竞赛开始后参赛者不能以任何方式(包括电话、电子邮件、网上咨询等)与任何人研究、讨论与赛题有关的问题。
我知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我将受到严肃处理。
我的选择题号为: B
姓名
系别
学号
联系方式
(以下内容参赛同学不需填写,由竞赛组委会统一编码)
评阅编号:
河南城建学院第三届大学生数学建模竞赛
编号专用页
评阅编号(由组委会评阅前进行编号):
题目:基于Logistic 回归模型对肝癌手术治疗效果的评价
摘要:本文根据20 个具有代表性的肝癌患者样本的10 项指标,讨论了肝癌手术的预后影响,通过不同的模型来提高模型预测的精确度和稳定性。
通过查阅大量医学书籍,了解各项指标的意义以及在临床实验中它们对肝癌手术的影响程度,并根据医学统计学原理对各个指标的含义进行赋值,所赋的值为分类指示符,并无数值含义。
首先,利用聚类分析根据10 个指标对20 个样本进行聚类,发现与预后影响的结果具有很大的偏差,故10 个指标均不是对预后具有决定性的指标,具有权重性。
再对10个指标对预后的影响进行聚类分析,发现x3(HbsAg),x9(肿瘤旁的微小子灶),x4(AntiHCV),x10(术后腹水),x8(肿瘤包膜)、x2(门脉癌栓),x7(肿瘤生长方式)具有相近性,即对预后的影响也许具有一致性。
其次,利用判别分析各指标与预后影响的相关性,得到非标准化判别方程并用3 个样本进行回带检验,准确率为66.7%,精确度和稳定性不够高,对现实的指导意义不怎么大。
为提高精确度和稳定性,换用Logistic 回归模型利用具有代表性的肝癌患者样本的10 项指标建立回归方程,得到:无预后影响的准确率为90.9%,有预后影响的准确率为88.9%,总计百分比为90%,根据统计学原理,若预测率大于50%,预测的结果是良好的、较为准确的。
至此,准确率比用判别分析提高了23.3%,所以用Logistic 回归模型对预后影响进行判断是有效的。
关键词:聚类分析,判别分析,Logistic回归分析,肝癌预后影响,SPSS
1
1 问题重述
肝癌手术治疗效果评价
肝癌是我国第二常见的癌症,很多人在发现肝癌时就已经是肝癌中晚期了,而肝癌手术治疗是中晚期肝癌的首选疗法。
选取某医院10 年来肝癌病例总共4860 例,每个病例有病人近80 个信息,其中包括患者病历号、性别、年龄、学历、职业、住址、基本病史、临床体征、恶性肿瘤分类、实验室检验指标、影像学检查等,经过数据预处理,选取其中20 个有代表性的样本,选取对预后影响的l0 个指标如附件1-预处理后样本数据,各指标项说明见附件2-各指标项说明。
请以预后影响作为评价标准,建立数学模型,对手术的治疗效果进行预测,为病人是否选择手术治疗提供建议。
2 模型假设
(1)在理想情况下,认为20 个样本具有很强的代表性,即包含了不同重要指标所对应的预后影响。
(2)不考虑各个样本之间的个体差异,即大致的身体健康情况相同,身体恢复能力也相同。
(3)不考虑各个样本在术后的主观意志和客观条件如手术医师、病房条件、药物使用等的影响。
(4)不考虑其他变量指标对预后的影响,不考虑其他变量指标对10 个指标的交互影响。
3 符号说明
2
4 数据预处理
4.1 医学数据意义
翻阅大量医学专业书籍[1]、[2],可知相关变量指标的含义,如表2所示。
4.2 数据的初步分析
4.2.1 数据的初步统计
利用Excel 对选取的20 个有代表性的样本及其各样本对预后影响的l0 个指标总表进行析:20 个样本中有“预后影响”的有9 例,无“预后影响”的有11 例,所有样本详情的统计情况如表3 所示。
3
4.2.2 数据剔除
根据现代医学统计方法理论[3],所有样本量的各项指标从轻到重的分布应呈现正态分布图像[4],20 个样本数据的10 个指标的分布详情均比较准确。
依据统计学原理,20 个样本数据具有一定的代表性,故不剔除任何数据。
4.3 对指标的赋值
为方便建模时对各样本、各指标进行分析,故将各个指标的情况进行赋值,按照综合评价中指标值标准化方法的探讨[5],在模型中各项指标均为分类数据,为将分类数
4
5
据应用于数值模型中,因此对分类数据进行数值赋值。
分别用数集{0,1,2,3}中的数字来表示各指标下的不同等级数据,且数集{0,1,2,3}只是分类指示符,并无真正的数值含义,具体赋值情况如表4所示。
5 模型建立与优化求解
5.1 基于聚类分析分析源数据 5.1.1 聚类分析的基本方法
聚类分析(Cluster Analysis )[3]、[4]是研究分类问题的多元统计方法之一,就是根据研究对象的特征把性质相近的个体归为一类,按样本的“接近程度”使得同一类中的个体具有高度的同质性,不同类之间的个体具有高度的差异性的多元分析技术的总称。
5.1.2 聚类分析的大致过程
系统聚类的步骤一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的变量(或样品)首先聚合为一类,而把另一些相似程度较小的变量(或样品)聚合为另一类,直到所有的变量(或样品)都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。
其相似程度由距离或者相似系数定义。
进行类别合并的准则是使得类间差异最大,而类内差异最小。
记第i 个样本i x 与第j 个样本j x 之间的距离(,)i j ij d x x d =,其中i j ≠
6
满足一下条件:
非负性:0ij d > 对称性:ij ji d d = 三角不等式:ij it tj d d d ≤+
用欧氏距离:21/21(||)p
ij i j d x x ∂∂∂==-∑
通过计算可以得到一对称矩阵:(),0ij m n ij R d d ⨯==
ij d 越小,说明i x 和j x 越接近。
5.1.3 对20 个样本的系统聚类分析结果
考虑“预后影响”的各项指标,对20 个样本进行系统聚类,利用SPSS 系统聚类分析,把原来20 个样本按照“接近程度”进行样品聚类分析。
通过SPSS 的分析,得到系统聚类分析如图1 所示。
图1 20个样本的系统聚类法树形图
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 9 ─┬─┐ 17 ─┘ ├─────┐
1 ───┘ ├───────┐
16 ─────────┘ ├───────────┐ 11 ───────────┬───┐ │ │
15 ───────────┘ ├─┘ ├───────┐ 6 ───────────────┘ │ │ 5 ───────────────┬───────┐ │ │
18 ───────────────┘ ├─────┘ ├───────────┐ 7 ───────────┬───┐ │ │ │ 12 ───────────┘ ├───────┘ │ │ 2 ───────────────┘ │ │ 3 ─────────────────────────────────────┘ │ 10 ───┬─────┐ │ 20 ───┘ ├─────┐ │ 13 ─────────┘ ├─────────┐ │ 4 ───────────────┘ ├───────────────────────┘ 14 ───────────┬───────┐ │ 19 ───────────┘ ├─────┘ 8 ───────────────────┘
从树形图1可以清楚的看到,若将20个样品分为两类,则样品9、17、1、16、11、15、6、5、18、7、12、2、3分为一类,记为A类;样品10、20、13、4、14、19、8分为另一类,记为B类。
则A类:9、17、1、16、11、15、6、5、18、7、12、2、3
有预后影响的样本:1、3、6、7、12、15、18
无预后影响的样本:2、5、8、11、16、17
B类:10、20、13、4、14、19、8
有预后影响的样本:4、20
无预后影响的样本:9、10、13、14、19
按照已知数据所示,应分成两大类,一类为“有预后影响”,另一类为“无预后影响”,但充分按照10 个指标的数据来进行分类,所得类别含有的样本与预想的类别含有的样本具有显著的差异。
故10 个指标并不都是重要指标,是具有权重性的,即需要对指标进行筛选,得到各个指标的权重系数,建立合理的线性回归方程。
5.1.4 对10 个指标的系统聚类分析结果
考虑“预后影响”的各项指标,对10 个指标进行分类,利用SPSS 系统聚类分析的方法,把原来10 个指标按照“接近程度”进行样品聚类分析。
通过SPSS 的分析,得到系统聚类分析如图2 所示。
图2 10个指标的系统聚类分析图
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
3 ─┬─┐
9 ─┘├───────┐
4 ───┘├───┐
10 ───────────┘├─┐
8 ───────────────┘├───┐
2 ───────┬─────────┘├───────────────────────────┐
7 ───────┘││
1 ─────────────────────┘│
5 ─────────────────┬───────────────────────────────┘
6 ─────────────────┘
聚类分析中类别数目的确定,一方面要按照聚类图的密集程度做划分,另一方面还要考虑实际情况的需求来决定最后的分类情况:
根据图2系统聚类分析图的分类情况,将10 个指标分成5 类:
A 类:x3(HbsAg),x9(肿瘤旁的微小子灶),x4(Anti HCV),x10(术后腹水),x8 (肿瘤包膜);
B 类:x2(门脉癌栓),x7(肿瘤生长方式);
C 类:x1(食道静脉曲张);
D 类:x5(肿瘤部位);
E 类:x6(肿瘤大小)。
从图2 的信息可知知道,A 类具有5 项指标,B 类具有2 项指标,C 类、D 类、E
7
8
类均只含有1 项指标,指标具有相近性,说明A 类和B 类的指标可能对预后结果的影响具有一致性。
5.2 基于判别分析求判别函数
判别分析[3]、[4]是根据已知类别(两类以上)的事物的性质(表明观察量特征的变量值),建立函数式,利用已建立的函数式对未知类别的新事物进行判断并将之归入已知的类别的分析方法。
是运用计算机进行运动员挑选、动植物分类和疾病诊断的主要统计学基础。
5.2.1 判别分析的基本方法
在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据所划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。
任何一种判别总是存在误判的,一个好的判别法应该是误判的概率尽可能的小。
常用的判别方法有如下:计算误判率、用已建立判别函数的样品进行回带、建立判断函数并判断。
两个总体的距离判别:设有协方差矩阵∑相等的两个总体1G 和2G ,其均值分别是
1μ和2μ,对于一个新的样品X ,要判断它来自哪个总体。
一般的想法是计算新样品X 到两个总体的马氏距离21(,)D X G 和22(,)D X G ,并按照如下的判别规则进行判断
1X G ∈, 如果2212(,)(,)D X G D X G ≤ 2X G ∈,
如果2212(,)(,)D X G D X G >
这个判别规则的等价描述为:求新样品X 到的1G 距离与到2G 的距离之差,如果其值为正,X 属于2G ;否则属于1G 。
借助方差分析的思想构造一个判别函数:10
1y ()i i i i C x C ==∑其中为系数
5.2.2 对样本的选择
用Excel 表格中的“rand ()函数”随机选择17 个样本进行判别函数的建立,用剩余的3 个样本进行回带判断。
9
由表15、16、17、19、19、20}进行判别函数的建立,用剩余的3 个样本{1、11、14}进行回带判断。
17 个样本中“有预后影响”的有8 例,7 个样本中“无预后影响”的有9 例。
5.2.3 判别分析的大致过程
将随机抽取的17 个样本分为两类:
1G {有预后影响:3、4、6、7、12、15、18、20} 2G {无预后影响:2、5、8、9、10、13、16、17、19}
用1G 、2G 建立函数关系得:
8
(1)
(1)
1
i
i i i i y C x y ==∑
即:有
(1)
(1)(1)1188y
C x C x =+⋅⋅⋅+
9
(2)
(2)1
i
i i i y C x ==∑
(2)
(2)(2)1199y
C x C x =+⋅⋅⋅+
希望对来自不同两个总体的两个平均值(1)
y ,(2)
y 相差愈大愈好,取判别临界值为:
10
(1)
(2)
1p 2p 01p 2p
G +G G G y y y =
+
若(1)
(2)
y
y >,
判别准则可表示为:
01,i y y x G >∈ 02,i y y x G <∈ 若(1)(2)
y y <,判别准则可表示为:
02,i y y x G >∈ 01,i y y x G <∈
5.2.4 由SPSS 得出非标准化判别方程
在不进行指标筛选的情况下,得到非标准化线性方程,其系数如表6 所示。
12345678910
1.0710.626x 1.086
2.4300.0240.4790.314 1.1630.559
3.6870.238y x x x x x x x x x =-+-+-+-++-
5.2.5 回带数据检验判别方程
组重心处的费希尔判别函数值
表7 组重心处的费希尔判别函数值
Functions at Group Centroids
Group Function
1
1 -1.023
2 .909
由表知,无预后影响的组重心点为0.909,有预后影响的组重心点为-1.023,实际上为各类别重心在空间中的坐标位置。
这样只要在前面计算出各观测值的具体坐标位置后,再计算出它们分别离各重心的距离,就可以知道它们的分类了。
将前面剩余的3 个样本{1、11、14}的10 项指标数据进行回带进行检验,求出判别分,比较此判别分分别距各重心的距离,距离哪个近就属于哪一类。
然不高,原因在于某些指标变量在进行相关度计算时,具有两者具有较强的共线性,指标变量过多是干扰判别预测的主要因素,故需进行模型改进。
5.3 基于Logistic 模型对预后进行预测
Logistic 回归模型[5]、[6]是一种概率型非线性模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法。
基本原理:用一组观察数据拟合Logistic模型揭示若干个自变量x与一个因变量y 取值的关系,反映y对x的依存关系。
5.3.1 Logistic 模型的基本方法
Logistic 回归模型适合于病例中对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类的。
可用影响结果变量发生的因素为自变量与因变量,建立回归方程。
11
12
5.3.2 Logistic 回归模型的大致过程
将有预后影响的概率记为P ,它与自变量x1、x2、x3 、x4 、x5、x6、x7、x8、x9、x10
之间的Logistic 回归模型为:
01110100111010exp(+x +x )
1+exp(+x +x )
p ββββββ⋅⋅⋅=
⋅⋅⋅,可知,无预后影响的概率为:(1-p )
经数学变换得:0111010ln[/(1)]+x +x p p βββ-=⋅⋅⋅
定义:()ln[/(1)]Logit p p p =-为Logistic 变换,即:0111010()+x +x Logit p βββ=⋅⋅⋅ 其中0β是与诸指标i x 无关的常数项,1210βββ⋅⋅⋅、、、是回归系数,标示住指标i x 对p 的贡献量。
流行病学的常用指标优势比(odds ratio,OR)或称比数比,为流行病学中常用的统计指标。
即i x 的优势比为:1100p /(1-p )
=
p /(1-p )
OR
所以,i β 的意义:当因素i x 每改变一个测量单位时所引起比数的自然对数改变量。
5.3.3 利用SPSS 进行Logistic 回归模型的建立
选择肝癌患者样本的10项指标进行Logistic 回归模型的建立,指标有: X1(食道静脉曲张)、X2(门脉癌栓)、X3(HbsAg )、X4(AntiHCV )、X5(肿瘤部位)、X6(肿瘤大小)、X7(肿瘤生长方式)、X8(肿瘤包膜)、X9(肿瘤旁的微小子灶)、X10(术后腹水)
5.3.4 对Logistic 回归模型的显著性检验
对模型系数综合检验,结果如表9所示。
2 = 16.544 , sig = 0.085 。
按显著性水平α = 0.5 为水准,自由度df = 10 ,通过查卡方检验临界值表[4]可得χ2 = 9.342 ,P-值(sig )为0.085,这个P-值很小,即估计回归方程在总体中是显著的。
2
回归的R2统计量。
其数值大小反应方程对解释变量变差解释的程度,这两个统计量常用于不同模型之间的比较R2(R2<1)越大表明模型的拟合效果越好。
在本模型中,Cox & Snell R2为0.563,Nagelkerke R2为0.753,表明模型的拟合程度较好。
5.3.5对Logistic 回归模型的分类表分析
90.9%,有预后影响的准确率为88.9%,根据统计学原理,若预测率大于50%,预测的结果是良好的、较为准确的。
该模型的预测率总计百分比为90%,所以该模型稳定性不错。
5.3.6 Logistic 回归模型结果
利用SPSS 软件建立模型,求解结果如表12所示。
13
建立回归方程为:
1234
5678910
1234
5678910 exp(-8.042+2.868x-3.176x+25.987x-4.284x+
1.782x-0.316x+7.277x-1.753x-31.013x-0.791x)
1exp(-8.042+2.868x-3.176x+25.987x-4.284x
+1.782x-0.316x+7.277x-1.753x-31.013x-0.791x) p=
+
6 模型检验与模型推广
当前Logistic 回归模型的应用非常广泛,它已经被作为一个常规工具用于医学领域。
经过一系列完善的步骤,我们所建立的logistic 模型不仅可以应用于肝癌手术预后影响的判断中,还可以推广到许多其它疾病的预后影响判断中。
例如,探讨冠心病发病的相关危险因素;肝癌的手术,介入及射频治疗对肝功能影响的临床研究。
在实际应用中,医生应结合患者的身体情况进一步分析,做出合理判断。
参考文献
[1]石运明,刘三光《肝癌》[M],石家庄:河北科学技术出版社,2006.
[2](德)沃格,李建海,刘勇山《肝癌介入诊疗技术》[M]济南:山东科学技术出版社,2007.8.
[3]李湘鸣,王劲松《SPSS10.0常用生物医学统计使用指导》[M],南京:东南大学出版社,2005.3.
[4]朱建平《应用多元统计分析》,北京:科学出版社,2006.
[5]李伯德《数学建模方法》[M],兰州:甘肃教育出版社,2006.5.
[6]谢兆鸿,范正森,王艮远《数学建模技术》[M],北京:中国水利水电出版社,2003.
14。