小样本量的肝癌手术治疗效果评价
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(第三题)
题目小样本量的肝癌手术治疗效果评价队长陈昭
成员陈昭
学校(院系)药学院
指导教师无
完成时间2013年4月20日
综合评定成绩:评委评语:
评委签名:
小样本量的肝癌手术效果评价
摘要:本文主要先从宏观上用神经网络多层感知器(MLP)探究应变量(预后影响)与各个因素之间是否存在某种输入输出关系;在此基础上从微观角度运用决策树的CART 算法,建立肝癌手术预测模型,对手术进行效果评价,利用生成的规则指导手术的方案的选择。
关键词:神经网络;多层感知器(MLP);决策树;CART算法;预测模型
Small sample size of liver cancer treatment evaluation
Abstract:In this paper,starting with macro neural network Multilayer Perceptron(MLP)to explore the strain(prognosis)and the existence of some kind of input-output relationship between the various factors;CART algorithm from the microscopic point of view on this basis,we use decision tree to establish the liver cancer prediction model,and then to evaluate the effects of the surgery using the generated rules to guide the choice of surgery program..
Key words:neural network;Multilayer Perceptron(MLP);decision tree;CART algorithm; prediction model.
目录
1.研究目标 (7)
2.分析方法与过程 (7)
2.1.总体流程 (7)
2.2.具体步骤 (8)
2.3.结果分析 (9)
3.结论 (11)
4.参考文献 (12)
1.挖掘目标
本次数据建模目标是选取某医院10年来肝癌4860个病例中20个有代表性的样本,先采用神经网络初步探究小样本量对手术治疗效果预测的情况;然后用决策树分析法(CART 算法)探究具体因素对手术的治疗效果的影响。
在此基础上对治疗效果进行预测,为病人规划最佳的手术治疗方案。
2.分析方法与过程
2.1.总体流程
所示。
数据挖掘整个流程如图1
图1整体流程图
①数据的预处理原样本数据给出是字符串型变量,这其中有些变量是明显的等级变
量,可以赋值给它们,使其成为数值型变量,便于后面的数据分析。
②神经网络根据给出的20个样本,利用神经网络可以不断调节各节点之间的权值来满足输入和输出;当训练结束后,给定一个输入,网络便会根据自己已调节好的权值计算一个输出。
这个输出结果就是对手术的治疗效果进行预测,也为临床方案的选择提供参考依据。
③决策树运用决策树对分析中的CART算法,对变量中不同值划分不同区域,这种划分是由每个内部节点相关的分支规则来确定,通过从树根到叶节点移动,一个预测样本赋予一个唯一的叶节点。
这种算法会自动检验模型,找出最佳的一般模型。
相对于神经网络而言,它可以更加微观地生成可以理解的规则,为手术具体治疗的提供必要的依据。
④分析结果根据所选取的两种挖掘方法分析比较所得结果,用以模型评价,进而为手术的实施提供前瞻性方案。
2.2.具体步骤
2.2.1数据预处理由于所选取的数据的变量均为字符串类型,为了在SPSS18.0中实现较好的分析结果,我们首先对原始数据能做一些处理。
依据SPSS18.0的需要对20个样本的11个变量进行相应的赋值,结果如表1。
其他未赋值的变量按照名义类型的数据处理。
在SPSS18.0中输入整理好的数据如图2。
表1
变量名变量标示变量说明
X1食道静脉曲张无(no)、轻(light)、中(mid)、重(serious):0、1、2、3、
X3HbsAg阴性(negative)、阳性(positive):0、1
X4Anti-HCV阴性(negative)、阳性(positive):0、1
X6肿瘤大小直径<3cm(small)、3~5cm(middle)、5~10cm(big)、>10cm(verybig):1、2、3、4
X9肿瘤旁的微小子灶无(no)、有(have):0、1
X10术后腹水无(no)、少(less)、多(much):0、1、2
DECISION预后影响有(Y)、无(N):1、0
图2SPSS中变量视图窗口
2.2.2分类与回归对数据做好初步处理后,我们将分别从宏观和微观两个方面对数据进行挖掘。
神经网络是从宏观上考察此小样本数据对手术治疗效果预测的准确性,为后面具体的优
化方案提供方向;决策树是从微观上分析因素对预后影响的生成规则,快速并准确地识别因素对应变量的影响,更加直观地预测手术效果。
①神经网络利用经过预处理的数据在SPSS18.0中进行神经网络层感知器(MLP)分析。
选取分区个案时采取随机分配,通过考察其变量分类、变量自身重要性来判断随机分配的优劣情况。
感知器的学习规则主要通过调整网络层的权值和阈值以便能够对网络的输入向量进行正确的分类。
②决策树分析采用CART算法,根据决策树的需要,将应变量“预后影响”赋值0和1分别代表无和有。
由于数据样本量比较小,父节点最小个案数取6,子节点最小个案数取3。
分析其分类情况和自身变量重要性以及树形结构图。
2.3.结果分析
⑴神经网络判别分类情况如下表2,给出了各个类别的判别正确率。
从表知,各个类别的正确率均为100%,说明判别效果很好。
从表3可以看到正确百分比为85.0%,预测效果比较好(一般认为达到85.0%就是好的预测效果)。
⑵用决策树(CART算法)得到树形结构图。
从图3可知该决策树有7个节点,树的深度为3,根据所显示的树形结构我们可以沿着树的方向预测手术预后影响。
⑶从图4和图5,其中食道静脉曲张、肿瘤包膜、肿瘤旁的微小子灶在两种方法都显示出比较大的比例。
对比树形结构图,树形结构也主要是食道静脉曲张、肿瘤包膜、肿瘤旁的微小子灶这三个变量作为节点,这也进一步说明了决策树预测模型的正确性。
表3决策树分类情况
图3决策树树形结构图
图4CART法自变量重要性
图5神经网络自变量重要性
3.结论
20个小样本数据经过神经网络的多层感知器以100%的高准确率从整体上预示着11变量间可以通过某种规则来预测手术效果。
这种规则可以根据决策树树形结构图来表示:肿瘤包膜为part和no有食道静脉曲张(light、mid、serious)
肿瘤旁的微小子灶(no)
从图4和图5也可知,以上三种变量是比较重要的。
在实际应用中那些没有或只有部分肿瘤包膜,且有一定食道静脉曲张而没有肿瘤旁的微小子灶的病例的手术效果会比较好。
对于没有上述三个特征的患者我们可以采取各个击破的方式:先消除肿瘤包膜,而后通过辅助治疗使食道静脉有一定曲张,最后消除肿瘤旁的微小子灶。
这样有步骤地进行对患者实施治疗,以达到最佳治疗效果。
但这种预测在模型在一定程度上不能将各个变量纳入树形结构中,
对预测模型的准确性有一定影响,需要寻求规避此的更优化的方法。
4.参考文献
宇传华主编.SPSS与统计分析[M].北京:电子工业出版社,2007,2.477-490
谢龙汉,尚涛.SPSS统计分析与数据挖掘[M].北京:电子工业出版社,2012.1.423-468
朱星宇,陈勇强.SPSS多元统计分析方法及应用[M].北京:清华大学出版社,2011.8.407-426。