数据挖掘WEKA报告bezdekIris
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一部分概述
1.数据挖掘目的:根据已有的数据信息,寻找出鸢尾的属性之间存在怎样的关联规则。
2.数据源:UCI提供的150个实例,每个实例有5个属性。
3.数据集的属性信息:
(1). sepal length in cm 萼片长度(单位:厘米)(数值型)
(2). sepal width in cm 萼片宽度(单位:厘米)(数值型)
(3). petal length in cm 花瓣长度(单位:厘米)(数值型)
(4). petal width in cm 花瓣宽度(单位:厘米)(数值型)
(5). class: 类型(分类型),取值如下
-- Iris Setosa 山鸢尾
-- Iris V ersicolor 变色鸢尾
-- Iris Virginica 维吉尼亚鸢尾
4.试验中我们采用bezdekIris.data数据集,对比UCI发布的iris.data数据集(08-Mar-1993)和bezdekIris.data数据集(14-Dec-1999),可知前者的第35个实例4.9,3.1,1.5,0.1,Iris-setosa和第38个实例4.9,3.1,1.5,0.1,Iris-setosa,后者相应的修改为:4.9,3.1,1.5,0.2,Iris-setosa和4.9,3.1,1.4,0.1,Iris-setosa。
第二部分将UCI提供的数据转化为标准的ARFF数据集
1. 将数据集处理为标准的数据集,对于原始数据,我们将其拷贝保存到TXT文档,采用UltraEdit工具打开,为其添加属性信息。如图:
2.(1)将bezdekIris.txt文件导入Microsoft Office Excel(导入时,文本类型选择文本文件),如图:
(2)下一步,设置分隔符号,如图:
(3)得到的XLS格式数据如图:
4.在Excel中将其另存为CSV格式文件(CSV格式的文件和XLS格式文件一样),保存的路径为C:\Program Files\Weka-3-6,方便对其进行转化为weka标准的arff格式文件,如图:
5.采用weka的Simple CLI模块输入命令:java weka.core.converters.CSVLoader bezdekIris.csv > bezdekIris.arff 将CSV文件转化为标准ARFF文件。成功完成的提示信息:Finished redirecting output to 'bezdekIris.arff'。得到的数据集如图所示:
6. 至此得到了标准的ARFF格式文件。
第三部分采用关联规则对ARFF数据集进行处理
1. 对ARFF数据集进行预处理,即进行数据的离散化,将sepal-length, sepal-width, petal-length和petal-width四个数值型的数据转化为分类型的数据,设置相应的参数为:weka.filters.unsupervised.attribute.Discretize -B 10 -M -1.0 -R 1-4,即将每个属性的值分为10类,选择关联规则的Apriori 算法,相应的参数设置为:weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -A -c -1,即计划挖掘出支持度在10%到100%之间,并且置信度超过90%,按照置信度排前10条的关联规则。
2. 在关联规则挖掘面板中操作:(1)“car”设置为Ture,表示挖掘为类关联规则;(2)“classIndex”设置为-1,表示最后的属性被当作类属性;(3)把“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为1和0.1,表示支持度的上界和下界;(4)“metricType”设为Confidence,表示以置信度衡量(类关联规则只能用置信度挖掘);(5)“minMetric”设为0.9,表示度量最小值;(6)“numRules”设为10,表示规则数。其他选项保持默认。“OK”之后在“Explorer”中点击“Start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果,运行结果
3.1 得到的关联规则结果如图:
3.2 这样我们一共产生了9条规则,分析如下:
(1)对于规则1,可以得到的知识为:当花瓣宽度小于等于0.34厘米(petal-width ≤0.34)时,此鸢尾为山鸢尾,规则的置信度为1,支持度为41/150=0.273。(2)对于规则2,可以得到的知识为:当花瓣长度小于等于1.59厘米(petal-length ≤1.59)时,此鸢尾为山鸢尾,规则的置信度为1,支持度为37/150=0.247。(3)规则3其实是规则1和2的交集,演化。
(4)对于规则4,可以得到的知识为:花瓣宽度在1.06厘米到1.3厘米之间(1.06<petal-width≤1.3)时,此鸢尾为变色鸢尾,规则的置信度为1,支持度为
21/150=0.14。
(5)对于规则5,可以得到的知识为:花瓣长度在5.13厘米到5.72厘米之间(5.13<petal-length≤5.72)时,此鸢尾为维吉尼亚鸢尾,规则的置信度为1,支持度为18/150=0.12。
(6)规则6是规则1的演化。
(7)规则7是规则1的演化。
(8)对于规则8,可以得到的知识为:花瓣长度在3.95厘米到4.54厘米之间(3.95<petal-length≤4.54)时,此鸢尾为变色鸢尾,规则的置信度为0.96,支持度为25/150=0.167。
(9)对于规则9,可以得到的知识为:花瓣宽度在1.78厘米到2.02厘米之间(1.78<petal-width≤2.02)时,此鸢尾为维吉尼亚鸢尾,规则的置信度为0.96,支持度为22/150=0.147。
3.4 从这些规则中我们可以知道,判断鸢尾属于那一种类,应该从花瓣的长度和宽度上进行考虑。
第四部分采用聚类对ARFF数据集进行处理
1. 参数相应设置为weka.clusterers.SimpleKMeans -N 3 -A
"weka.core.EuclideanDistance -R first-last" -I 500 -S 800 设置分为3个簇,距离公式采用欧几里德距离公式,随机种子数依次为100,200,300. ……800,"Cluster mode"设置为"classes to clusters evalution",以便对比进行评估,并且勾选"Store