实验八关联和决策树

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

云南大学软件学院
实验报告
课程：大数据分析及应用任课教师：蔡莉实验指导教师（签名）：
学号：20131120233 姓名：王依专业：软件工程日期：2015.12.10 成绩：
实验八关联和决策树
一、实验目的
1．理解关联分析和决策树的相关知识；
2．掌握使用Modeler进行关联分析的基本过程；
3．掌握利用关联分析的数据建立一个决策树的过程。

二、实验内容及步骤
（一）使用 Modeler 进行关联分析
实验内容：
对实验文件BASKETS1进行分析，掌握购买数据之间的关联情况。

实验步骤：
1.打开并查看数据文件。

利用“可变文件”节点将“BASKETS1n”添加节点中。

然后使用
“输出”选项卡下的“表”查看数据，如图1所示。

这里的数据是某商场中的购买记录，共18个字段，1000条记录，在后面的列中，值“T”表示已购买该商品，值“F”表示没有购买该商品。

图1
2.确定关联分析字段。

在这里中，需要对购买商品之间进行关联分析，即确定客户购
买商品之间是否存在关联性，也就是说客户在购买一种商品时，购买另一种商品的概率是多少。

所以，在这里，将选择记录中能够体现是否购买某商品的字段进行关联分析，其中有fruitveg，freshmeat，dairy，cannedveg，cannedmeat，frozenmeal，beer，wine，softdrink，fish，confectionery，共11个字段。

3.读入分析字段的类型。

在工作区生成“类型”节点，并双击编辑，将上一步骤选出的
11个字段的角色设定为“两者”，如图2。

图2
4.添加模型节点。

分别在“类型”之后添加“Apriori”模型节点和“Crama”模型节点，
如图3所示。

其中，“Apriori”模型是基于“最低支持度”和“最小置信度”进行关联性分析。

图3
5.运行并查看“Apriori”关联模型结果。

运行“Apriori”模型的数据流，在右上侧生
成数据模型，右键查看，如图4所示。

表中可以看出，客户同时购买frozenmeal、beer、cannedveg的概率很高。

因此，商家可以将这三种商品放在相邻的位置，以促进销量。

图4
6.运行并查看“Carma”关联模型结果。

运行“Carma”模型的数据流，在右上侧生成数
据模型，右键查看，如图5所示。

同样可以看出，客户同时购买frozenmeal、beer、cannedveg的概率很高。

图5
7.利用“网络”图进行定性关联分析。

选定“类型”节点，双击“图形”选项卡下的“网络”，
既可添加“网络节点”。

然后，需双击编辑“网络”节点，将步骤（5）中选择的11个字段选定为分析字段。

运行该“网络”节点，则右上区域生成关联模型，查看该关联模型，如图6。

从图中表明，两点之间的线越粗，表示两者间相关性越强。

同时可以通过调节下面的滑动点，查看相关性。

图6
（二）建立决策树
实验内容：
在上一步数据关联的基础上，分析哪些顾客是“健康食品购买者”，即同时购买fruitveg 和fish。

实验步骤：
1.如何标志健康食品购买者。

点击“字段选项”选项卡下的“导出”增加一个属性
（Healthy）来标识健康食品购买者。

编辑“导出”节点，将字段类型设为“标志”，并编辑“fruitveg = 'T' and fish='T'”，该公式表示消费者同时购买fruitveg和fish这两种商品，如图7。

图7
2.查看增加“Healthy”之后的数据表。

利用“表”来查看数据表，如图8，可以看到表中
增加了一个“Healthy”字段，描述是否为健康食品购买者。

图8
3.接入一个“类型”节点。

在这里，需要重新编辑字段的角色，如图9所示。

其中与用
户相关的信息字段（除cardid外）角色都设定为“输入”，而“Healthy”变为“输出”，其他的选择“无”。

图9
4.接入C
5.0决策树模型。

双击“建模”选项卡下的“C5.0”模型，既可以完成添加。

如图
10。

图10
5.运行决策树模型。

分别运行“决策树”和“规则集”两种形式，查看两者得到的结果
分别如图11和图12所示。

两者都分别有不同的表示方式。

图中显示哪些类型的顾客是健康食品购买者。

图11
图12
6.其他属性的功能，如图13。

“组符号”是指当有多个字段在同一个分支时，将这几个
字段放在一组；“使用boosting”是指使用部分数据作为再次生成决策树，最后综合这些决策树来提高决策树的精度；“交互验证”是指一部分数据用来生成决策树，一部分作为测试；“简单”是指生成决策树的准确度，但是精确度高的决策树的移植性不高；“专家”下的“修剪严重性”是指修剪的程度。

图13
7.将决策树模型加入数据流。

首先选择“字段选项”下的“类型”节点，然后分别双击
右上侧的“tree”和“no-cut”（已重命名），在这之后，分别添加“分析”节点作为输出，得到如图14的数据流。

图14
8.分析“修剪严重性”为75%的正确性。

运行“tree”下“分析”节点，在图15中可以看出，
决策树分支的正确率为93.8%。

图15分析“修剪严重性”为75%的正确性
9.分析“修剪严重性”为0的正确性。

运行“no-cut”下“分析”节点后，得到图16，图中
显示决策树分支的正确率为95.1%。

由此表明这两者的正确率差别不是十分大，仅为 1.3%。

但是，一般情况下，会选择简单的模型作为选择对象，即“修剪严重性”
为75%的模型。

图16分析“修剪严重性”为0的正确性
10.决策树的另外一个选项——成本，如图17显示。

此处的成本主要指决策树将T判为
F，而将F判为T的过程需要成本，同时这个成本一般并不相同，SPSS Modeler 14.2的这两个默认值都是1。

在这里，将F判为T的成本改为0.3，将T判为F的成本改为2.0，“修剪严重性”设定为75%，运行该决策树模型，得到图59，共有8层。

接下来，将这与原来生成的“tree”模型（F判为T的成本为1.0，T判为F的成本改为
1.0，“修剪严重性”为75%）进行比较。

图17
图18
11.添加“输出”选项卡下的“矩阵”节点。

将这个模型添加到数据流中，并在此基础上
分别添加“矩阵”节点，如图19所示。

图19
12.分别运行“矩阵”节点，并分析数据。

在运行这两个节点之前，需要将这两个“矩阵”
节点的“行”设为“Healthy”，“列”设为“$C-Healthy”。

运行后分别得到图20（左：“tree”，右：“2-0.3cost”）的表格。

可以看出，决策树总是朝着成本最低的趋势生成决策树。

图20 实验截图：
Apriori:
Crama:
定性关联的截图：
建立决策树截图：
Tree:
2-0.3cost:。

实验八 关联和决策树

实验八关联和决策树