实验报告:乳腺肿瘤数据集基于决策树算法的数据挖掘

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于决策树算法的医疗数据挖掘

一、实验目的

利用商业智能分析项目中的数据分析功能,对乳腺癌数据集breast-cancer基于决策树算法进行挖掘,产生相关规则,从而预测女性乳腺癌复发的高发人群。并通过本次实验掌握决策树算法关联规则挖掘的知识及软件操作,以及提高数据分析能力。

二、实验步骤

1、在SQL server 2005中建立breast-cancer数据库,导入breast-cancer数据集;

2、对该数据集进行数据预处理,包括列名的中文翻译、以及node-caps缺失值的填充,即将‘null’填充成‘?’;

3、新建数据分析服务项目,导入数据源、新建数据源视图、新建挖掘结构,其中,将breast-cancer表中的‘序号’作为标识,‘是否复发’作为分类;

4、部署;

5、查看决策树、依赖关系网络等,并根据结果进行分析、预测。

三、实验结果分析

1、如以下三张图片所示,通过调整依赖网络图的依赖强度,可得出,在众多因素中,‘受侵淋巴结数’、‘肿瘤大小’、‘恶心肿瘤程度’这三个因素对于是否复发的影响是较大的,并且影响强度依次递减。

2、从‘全部’节点的挖掘图例可以看到,在breast-cancer数据集中,复发占了29.91%,不复发占了68.32%,说明乳腺肿瘤的复发还是占了相当一部分比例的,因此此挖掘是具备前提意义的。

3、由下两张图可知,‘受侵淋巴数’这一因素对于是否复发是决定程度是最高的。在‘受侵淋巴结数不等于0-2’(即大于0-2)节点中,复发占了50.19%的比例,不复发占了44.44%的比例,而在‘受侵淋巴结数=0-2’的节点中,复发只占了21.71%的比例,不复发占了77.98%的比例。由此可见,当受侵淋巴节点数大于‘0-2’时,复发的几率比较高。

4、由以下两张图可见,在‘受侵淋巴结数不等于0-2’(即大于0-2)的情况下,‘恶性肿瘤程度=3’(最高程度)时,复发占了69.55%,不复发占了27.57%;‘恶

性肿瘤程度不等于3’时,复发占了33.33%,不复发占了59.14%。也就是说,在受侵淋巴结数较多的情况下大于0-2的情况下,恶性肿瘤程度越高,复发的几率越高。

5、由以下两张图可见,在受侵淋巴结数等于0-2的情况下,‘肿瘤大小=10-14’时,复发概率为0;‘肿瘤大小不等于10-14’时(即大于10-14),复发占了24.68%,不复发占了74.99%。由此可见,在受侵淋巴结数等于‘0-2’的情况下,肿瘤复发只跟‘肿瘤大小’大于10-14的因素有关。

综上分析可得:

1、受侵淋巴结数越高、恶性肿瘤程度越高,越容易复发;

2、受侵淋巴结数越低、肿瘤越大,复发程度越高。

最后可预测:淋巴结数越高、恶性肿瘤程度越高、肿瘤越大,越容易复发。

四、实验总结

本次实验从数据的导入、进行挖掘、决策树的分析都能够顺利完成,这得益于课后的复习与老师同学的指导。本实验让我深深体会到数据挖掘与分析的魅力,自己也会多加深入了解这方面的知识。本次实验的另外一个收获便是,当在新建挖掘结构时,对各数据项进行类、标识、预测的选择无法决定是,可以通过点击右下方

的‘建议’按钮查看相关支持度,以确定选择哪一个数据项作为分类。

相关文档
最新文档