分类实验报告

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.导入数据源

a)选择“可变文件”节点,把节点图标拖入数据流区域

b)双击“可变文件”节点,弹出节点细节选择界面

c)单击“browser for file”按钮,选择Demos文件夹下的“BASKETS1n”文件,点击“打开”按钮。

d)单击“确定”按钮

e)节点自动改名字为“BASKETS1n”

4.为数据添加新的列

注:假设同时购买鲜肉和奶制品的顾客为健康食品购买者,添加一个新列叫:health。凡是对应鲜肉和奶制品都为T的顾客新列为T,否则为F。

a)点击节点选项卡“字段选项”,双击“导出”节点

5.查看添加新列数据

a)点击节点选项卡“输出”,双击“表”节点

b)右键点击“Health”节点,选择“Connect”选项,单击“表”(在两个节点中产生一个箭头,从“Health”指向“表”节点。)

c)双击“表”节点,弹出细节选择界面,单击“执行”

d)查看结束,单击“确定”退出查看表格

7.使用C5.0节点分析

a)双击“建模”选项卡的“C5.0”节点

8.查看挖掘结果

a)左键单击管理器的“模型”选项卡,右键点击执行以后出现的模型图标;右键选择“浏览”,弹出图表

b)点击“模型”和“查看器”选项卡查看结果

9.将“模式”改为“专家”,修改“修剪严重性”和“每个子分支的最小记录数”,查看结果并进行比较分析。

分析:结果表明同时购买鲜肉和奶制品的顾客在1000个人中只有33人,概率仅为3.3%,对其进行分类不能得出健康食品购买者的特征,所以没有分类。

10.使用二元分类器节点分析

分析:其结果与C5节点分析的相同。不能得出购买自定义的健康食品的顾客的特征。分类方法

方法原理算法优点缺点适用范围

算法:Generate_decision_tree由给定的训练数据产生一棵决策树

输入:训练数据集samples,用离散值属性表示;候选属性的集合attribute_list。

输出:一棵决策树ID3算法的基本

思想描述如下:

(1)任意选取一

个属性作为决策

树的根结点,然

后就这个属性所

有的取值创建树

的分支;(2)用

ID3

算法

速度

快:计

算量

相对

较小,

且容

易转

化成

缺乏伸缩性:由

于进行深度优

先搜索,所以算

法受内存大小

限制,难于处理

大训练集。为了

处理大数据集

或连续量的种

早期

的ID

算法

只能

就两

类数

据进

行挖

相关文档
最新文档