SPSS Modeler数据挖掘操作之决策树C5.0建模

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在【字段选项】中选择【类型】节点,添加到数据流中,设置参数指定变量 角色,如图所示
建立决策树模型
8
在【建模】选项卡中选择【C5.0】节点,添加到数据流中。执行C5.0节点生 成模型,模型名列在流管理窗口的【模型】选项卡中,模型结果节点自动连 接数据流中
运行模型
9
选择流管理窗口中的【模型】选项卡,右击鼠标,选择弹出菜单中的【浏览】 选项,浏览模型结果,如图所示
数据过滤
6
建模时不考虑采用K和Na变量,而采用Na/K,应先将Na和K筛掉。
在【字段选项】选项卡中选择【过滤】节点,添加到数据流中。设置参数, 在K和Na变量上打叉,如图所示
数据角色定义
7
指定建立模型过程中各个变量的作用。其中Age,SeFra Baidu bibliotek,BP,Cholesterol, Na/K为解释变量,称为模型的输入变量,Drug为被解释变量,称为模型的目 标变量。
模型预测精度的评价
11
在节点工具箱的【输出】选项卡中选择【分析】节点,与模型结果节点相连。
模型预测精度的评价
12
执行【分析】节点,所生成的结果如图所 示;可以看到,所建模的正确预测精度达 到了92%,模型比较理想
结果分析
10
可以看出,Na/K比值是选择药物时首先考虑的因素,其次是血压和胆固醇水 平。当病人的Na/K值高于14.642时,应选择drugY,无须考虑其他因素。当 病人的Na/K值低于14.642时,对于高血压病人,更适合选用drugA;对于低 血压病人和血压正常的病人,可选择drugX。性别对选择药物没有影响。
SPSS Modeler数据挖掘操作之 决策树C5.0建模
案例数据
1
从DRUG.txt文件的数据为以往有大批患有同种疾病的不同病人,服用五种药物中的 一种(drugA, drugB, drugC, drugX, drugY )之后取得了同样的治疗效果。案例 数据是随机选择挑选的部分病人服用药物前的基本临床检查数据,包括:血压(BP, 分为高血压HIGH,正常NORMAL,低血压LOW)、胆固醇(Cholesterol 分为正常 NORMAL和高胆固醇HIGH)、唾液中钠元素(Na)和钾元素(K)含量、病人年龄 (Age)、性别(Sex,包括男M和女F)等。
4
在【图形】选项卡中选择【网络】节点,添加到数据流中。设置节点参数指 定绘制关于Drug与BP的网状【网络】图
如下图所示
网状图运行结果如下
5
执行【网络】节点,生成图形文件
可以看到drugY与BP的三条连线,线条的粗细 程度差别不大,标明drugY对病人的血压没有 特殊限定,更具有普遍服用性。无论血压状况 如何,都可以服用drugY;在不考虑drugY时, 血压高的病人可服用drugA或drugB,血压低的 病人则应在drugX和drugC中选择。
现在要利用数据挖掘发现以往药物处方试用的规律,给出不同临床特征病人更适合 服用那种药物的建议,为未来医生开具处方提供参考。
具体分析步骤
2
将数据读入Modeler中,在 【源】选项卡选择【可变文 件】节点,之节点参数,从 【文件】选项中指定从文件 DRUG.txt中读入数据
直方图显示
3
在【字段选项】选项卡中选择【导出】节点, 添加导数据流,设置节点参数指定生成新变量 名为Na/K,计算公式为Na/K,执行【导出】节点。
相关文档
最新文档