数据挖掘导论Iris KDD分析(DOC)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
`
题目 iris数据集的KDD实验学院名称信息科学与技术学院专业名称计算机科学与技术学生姓名何东升
学生学号201413030119 指导教师
实习地点成都理工大学
实习成绩
二〇一六年 9月
iris数据集的KDD实验
第1章、实验目的及内容
1.1 实习目的
知识发现(KDD:Knowledge Discovery in Database)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。该术语于1989年出现,Fayyad定义为"KDD"是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。
KDD的目的是利用所发现的模式解决实际问题,“可被人理解”的模式帮助人们理解模式中包含的信息,从而更好的评估和利用。
1.2 算法的核心思想
作为一个KDD的工程而言,KDD通常包含一系列复杂的挖掘步骤.
Fayyad,Piatetsky-Shapiro 和Smyth 在1996年合作发布的论文
1: selection: 在第一个步骤中我们往往要先知道什么样的数据可以应用于我们的
KDD工程中.
2: pre-processing: 当采集到数据后,下一步必须要做的事情是对数据进行预处理,尽
量消除数据中存在
的错误以及缺失信息.
3: transformation: 转换数据为数据挖掘工具所需的格式.这一步可以使得结果更加理想化.
4: data mining: 应用数据挖掘工具.
5:interpretation/ evaluation: 了解以及评估数据挖掘结果.
1.3
实验软件:Weka3-9.
数据集来源:/ml/datasets/Iris
第2章、实验过程
2.1数据准备
1.从uci的数据集官网下载iris的数据源
2.抽取数据,清洗数据,变换数据
3.iris的数据集如图
Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
2.2 实验过程
2.2.1.建模
(1)C4.5数据挖掘算法
使用weka进行有指导的学习训练,选择C4.5数据挖掘算法,在Weka中名为J48,将test options 设置为 Percentage split ,使用默认百分比66%。选择class作为输出属性。如图所示:
2.设置完成后点击start开始执行
(2)Simple KMeans算法
1加载数据到Weka,切换到Cluster选项卡,选择Simple KMeans算法、
2.设置算法参数,显示标准差,迭代次数设为5000次,其他默认。簇数选择3,因为花的种类为3。如下图所示
3.在Cluster Mode 面板选择评估数据为Use trainin set,并单击Ignore attribu,忽略class属性。
4.点击start按钮,执行程序
第三章实验结果及分析
3.1 C
4.5结果分析
1.运行结果
=== Run information ===
Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2
Relation: iris
Instances: 150
Attributes: 5
sepal length
sepal width
petal length
petal width
class
Test mode: split 66.0% train, remainder test
=== Classifier model (full training set) ===
J48 pruned tree
------------------
petal width <= 0.6: Iris-setosa (50.0)
petal width > 0.6
| petal width <= 1.7
| | petal length <= 4.9: Iris-versicolor (48.0/1.0)
| | petal length > 4.9
| | | petal width <= 1.5: Iris-virginica (3.0)
| | | petal width > 1.5: Iris-versicolor (3.0/1.0)
| petal width > 1.7: Iris-virginica (46.0/1.0)
Number of Leaves : 5
Size of the tree : 9
Time taken to build model: 0.01 seconds
=== Evaluation on test split ===
Time taken to test model on training split: 0 seconds
=== Summary ===
Correctly Classified Instances 49 96.0784 %
Incorrectly Classified Instances 2 3.9216 %
Kappa statistic 0.9408
Mean absolute error 0.0396
Root mean squared error 0.1579
Relative absolute error 8.8979 %
Root relative squared error 33.4091 %
Total Number of Instances 51
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
1.000 0.000 1.000 1.000 1.000 1.000 1.000 1.000 Iris-setosa
1.000 0.063 0.905 1.000 0.950 0.921 0.969 0.905 Iris-versicolor
0.882 0.000 1.000 0.882 0.938 0.913 0.967 0.938 Iris-virginica
Weighted Avg. 0.961 0.023 0.965 0.961 0.961 0.942 0.977 0.944
=== Confusion Matrix ===
a b c <-- classified as
15 0 0 | a = Iris-setosa
0 19 0 | b = Iris-versicolor
0 2 15 | c = Iris-virginica