SPSS Clementine典型案例分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
进行深一步的分析。在该数据流中增加一个 “导出”节点,对该节点进行设置。 为了说明真实值和估计值之间的差距,可以 参考claimdiff的直方图。主要对那些由神经 网络得出的申请超出预期的人感兴趣。 在数据流中再添加一个“直方图”节点。双 击打开该节点,在“字段”下拉列表中选择 “claimdiff”,单击“执行(E)” 。 增加一个分割带到直方图中,右击带区生成 一个选择节点,进一步查看那些claimdiff值 较大的数据。
24.3.4 建模
将一个“类型”节点添加到当前数据流中。对 数据集中的数据进行设置。
在数据流上添加一个“神经网络”节点。执 行此数据流。神经网络经过训练后,会产生 一个模型。将产生的模型加入到数据流流中。 然后在数据流中再增加一个“散点图”节点, 对“散点图”节点进行设置。设置完成之后, 执行。
24.1.1 定义数据源
24.1.2 理解数据
在建模之前,我们需要了解数据集中都有哪些字段,这些字段如何分 布,它们之间是否隐含着某种相关性等信息。只有了解这些信息后才能决 定使用哪些字段,应用何种挖掘算法和算法参数。这个过程就是一个理解 数据的过程。
24.1.3 准备数据
在这18个字段中,有一些对于挖掘知识来说 是没有用的,如cardid等,这时我们就可以 把这些暂时没有用到的字段剔除出挖掘过程。 这样可以节约挖掘时间和效率。
选择“执行(E)”。在右面管理器窗口中选中“模型(S)”, 在“nocut”上右击,选择“浏览(B)”,查看生成模型结 果。
利用剪枝程度较高的决策树、剪枝程度低的决 策树、规则集生成的结果,可以通过 Clementine系统提供的很多模型来进行精度 测试。 在这儿选用“分析”节点。生成的结果显示剪 枝程度高的模型正确率为93.8% 。同样的原 理,测试“nocut” 。剪枝程度低的精度为 94.7%。
数据挖掘原理与SPSS Clementine应用宝典
元昌安 主编 邓 松 李文敬
刘海涛
编著
电子工业出版社
第24章 SPSS Clementine典型案例分析
本章包括:
市场购物篮分析 利用决策树模型挖掘商业信息 利用神经网络对数据进行欺诈探测
24.1市场购物篮分析
本节的例子采用Clementine系统自带的 数据 集BASKETS1n。该数据集是超市的“购物 篮” (一次购物内容的集合)数据和购买者个人 的背景数据,目标是发现购买物品之间的关 联分析。
24.1.4 建模
对字段设置完毕之后,下一步就是选择挖掘 所需要的模型,在这里我们会选择使用三 种不同的模型来挖掘该数据集。 1. “Apriori”模型节点 2.GRI模型 3.“网络”节点
24.2 利用决策树模型挖掘商业信息
过程如下 : Step1:添加一个“变项文件”节点。 Step2:加入一个“导出”节点。 Step3:对“导出”节点进行设置。 Step4:加入“Healthfood”字段之后,在“导出”节 点后再加入一个“类型”节点,用来选择哪些字 段用来进行数据挖掘。根据挖掘的目标,可以设 置个人信息为“输入”,“Healthfood”设置为 “输出” Step5:加入 “C5.0”节点。 Step6:点选“执行(E)” Step7:从“查看器”中查看该结果
Байду номын сангаас
在数据流区域中添加一个“选择”节点,对 该节点进行设置。 以农场大小、主要作物类型、土壤质量等为 自变量建立一个回归模型来估计一个农场的 收入是多少。
为了发现那些偏离估计值的农场,先生成一个字段――diff, 代表估计值与实际值偏离的百分数。在数据流中再增加一 个“导出”节点 进行设置。 在数据流中增加一个“直方图”节点。对“直方图”节点进 行设置。。
最后,在数据流中增加一个“条形图”节点。 双击该节点,在“字段”下拉列表中选择 “name”字段,点击“执行(E)”,得出 结果如图所示。在图中所显示的就是我们要 重点关注的数据。
24.4小结
本章通过使用Apriori模型、GRI模型、可视化网 络图、决策树、神经网络等来说明如何使用 Clementine在数据库中发现知识。Clementine系 统中提供了很多种模型,对于这些模型的使用, 要考虑到实际情况来酌情进行使用。 本章所展示的只是Clementine系统的一部分应 用。随着社会的不断发展,数据库技术的不断进 步。Clementine将会越来越多的被重视、使用。
输出类型除了选用“决策树”之外,还可以选择“规则集” 来显示结果。用“规则集”表示的结果很多时候比“决策 树”更加直观、易懂。。
一般生成的决策树都是经过剪枝的。下面看 看剪枝程度的高低对挖掘结果的影响。选中 “模式”中的“专家”,把“修剪严重性” 的值改为“0”,这意味着在挖掘过程中,进 行的剪枝程度将很小。模型名称改为 “nocut”。
24.3.2 理解数据
在建模之前,需要了解数据集中都有哪些 字段,这些字段如何分布,它们之间是否 隐含着某种相关性等信息。只有了解这些 信息后才能决定使用哪些字段,应用何种 挖掘算法和算法参数。这个过程就是一个 理解数据的过程。
24.3.3 准备数据
首先考虑数据集中可能存在的欺诈类型。 在该数据流中连接一个“条形图”节点并选 定字段名为“name”的字段 。 选中“name”字段之后,点击“执行” 。
24.3 利用神经网络对数据进行欺诈探测
背景是关于农业发展贷款的申请。使用虚构 的数据来说明如何使用神经网络来检测偏离 常态的行为,重点为标识那些异常和需要更 深一步调查的记录。要解决的问题是找出那 些就农场类型和大小来说申请贷款过多的农 场主 。
24.3.1 定义数据源
使用一个“变项文件”节点连接到数据集 grantfraudN.db。在“变项文件”节点之后 增加一个“类型”节点到数据流中。