基于weka的数据分类和聚类分析实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
26
0 1 N
3.实验过程及结果截图
决策树分类
基 于 weka 的 数 据 分 类 分 析 实 验 报 告 1实验基本内容 本实验的基本内容是通过使用 分别在训练数据上训练岀分类模型, weka 中的三种常见分类和聚类方法(决策树 并使用校验数据对各个模型进行测试和评价,找岀各个模型最优的
J48、KNN 和 k-means ) 参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。 最后使用这些参数以及训练集和校验集数据一起构造岀一个最优分类器, 并利用该分类器对测试数据进 行预测。
2数据的准备及预处理
格式转换方法 (1)打开“”另存为CSV 类型,得到 ⑵在 WEKA 中提供了一个“ Arff Viewer 模块,打开一个“”进行浏览,然后另存为 ARFF 文件, 得到“”。 O dataOZ.arff
(1)决策树分类 用“ Explorer ”打开数据“”,然后切换到 “ trees-J48 ",再在“ Test options ” 选择“ Cross-validation 始运行。
系统默认trees-J48 决策树算法中
££ Classify "。点击"Choose ",选择算法 (Flods=10 )",点击"Start ",开 mi nNumObj=2,得到如下结果 ===Summary === Correctly Classified In sta nces In correctly Classified In sta nces Kappa statistic
Mean absolute error Root mean squared error Relative absolute error
23 3 Root relative squared error
Total Number of In sta nces
===Detailed Accuracy By Class ===
TP Rate FP Rate P recisio n Recall F-Measure ROC Area Class
Weighted Avg.
===Con fusi on Matrix ===
b <-- classified as
14 3 | a = N
9 | b = Y
使用不同的参数准确率比较:
由上表,可知minNumObj为2时,准确率最高。根据测试数
集,利用准确率最高的模型得到的结果: 分析说明:
在用J48对数据集进行分类时采用了
有两个丫,N。一部分结果如下:10折交叉验证( Folds=10 )来选择和评估模型,其中属性值
Correctly Classified In sta nces
In correctly Classified In sta nces
===Con fusi on Matrix ===
23
a b <-- classified as
14 3| a= N
0 9 | b = Y
这个矩阵是说,原来是“Y的实例,是“ NO的实例有0个被正确的预测成为有
“Y;有9个正确的预测成了
14个被正确的预测为“Y'有3个错误的预测成了“N。原本
“h” “ 14+3+0+9=26是实例的总数,
而(14+9) / 26=正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。
(2)K最近邻分类算法
用“ Explorer "打开数据“",然后切换到“Classify "。点击“ Choose",选择算法“lazy-IBk ",再在“ Test options "选择“ Cross-validation ( Flods=10 )",点击“ Start ",开始运行。
训练结果:
系统默认lazy-IBk K 最近邻分类算法中KNN=1,得到如下结果
===Summary ===
Correctly Classified In sta nces
In correctly Classified In sta nces
Kappa statistic
Mea n absolute error
20
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of In sta nces 26
===Detailed Accuracy By Class ===
TP Rate FP Rate P recisi on Recall F-Measure ROC Area Class
N
1 3 ( 12%)
Weighted Avg.
===Con fusi on Matrix === a b <-- classified as 14 3 | a = N
3 6 | b = Y
使用不同的参数准确率比较:
由上表,可知 KNN 为3时,准确率最高。
根据测试数集,利用准确率最高的模型得到的结果:
分析说明:
在用lazy-lbk(KNN=3)对数据集进行分类时采用了
10折交叉验证(Folds=10 )来选择和评估模型, 其中属性值有两个
Y , N o 一部分结果如下:
===Summary ===
Correctly Classified In sta nces
In correctly Classified In sta nces
===Con fusi on Matrix ===
a b <-- classified as
16 1| a= N
2 7 | b = Y 这个矩阵是说,原来是 “ Y'的实例,有 是“ NO 的实例有2个被正确的预测成为
“Y ”,有9个正确的预测成了
数,而(16+7)/ 26=正好是正确分类的实例所占比例。
二、对“ data01 ”进行聚类分析
1.数据格式的转换 ⑵在WEKA 中提供了一个“ Arff Viewer ”模块,打开一个“”进行浏览,然后另存为 件,得到
2.聚类过程
用“ ExpIorer ”打开数据“”,然后切换到“ Cluster ”。点击“ Choose ”,选择算法 “ SimpleKMeans ( numClusters=6 , seed=200 ),再在“ Test options ” 选择“ Use training set ” 点击“ Start ”,开始运行。
训练结果:
采用 simpleKMeans 算法,其中 numClusters=6 , seed=100,得到如下结果:
Number of iterati ons: 3
(平方误差之和)
Clustered In sta nces
Clustered In sta nces
0 4 ( 15%)
23 16个被正确的预测为 “Y'有1个错误的预测成了
“N 。原本 7” “6+1+2+7=26”是实例的总 (1)打开“”另存为CSV 类型,得到
砂 data 01.csv
ARFF 文