RapidMiner实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验目的:使用RapidMiner对数据进行分析
实验工具:RapidMiner
实验数据:
实验数据说明:实验数据是通过研究对象的三种特征,一个是每年坐飞机飞行的里程数miles,二个是玩视频游戏所耗时间的百分比gamepercent,每周消费的冰淇淋公升数icecream,来判断一个人是否具有吸引力(didn't like、smallDoses,lagerDoses)
实验过程:
打开RapidMiner ,新建一个Process
导入数据,如图所示
点击下一步到出现如图所示界面,将Response设为label
最后将数据存储在如下图的位置,命名为TrainingData,点击finish完成
将数据TrainingData拖拽到process窗口中,用线连接至result接口,可以看到如下数据
其中有些Response的值丢失了,共有31个
这时需要使用Filter Examples 过滤掉没有值得Response行,操作如下图
数据筛选完成之后,选择Decision Tree Model,拖入到process中,连接起来,参数选择默认设置
训练好模型之后,我们可以用模型预测一下TrainingData中没有标记的样例,与上面的数据过滤方法相同,只是设置有所不同,如下图
使用Apply Model来运用模型
整个连接图如下所示
实验的预测结果
部分决策树截图
如图,加入一个Validation
其参数如下图,默认的10表示将样例分为十份,取一份作为测试数据
双击Validation右下角的矩形表框进入,建议决策树模型,应用模型
退出Validation 如图连接到result
运行输出结果如下
上图显示准确率为96%左右,正负误差为%,表明训练所得模型是比较稳定的
实验总结
1.我在这个过程中运用的测试集与训练集是相同的,这可能会使整个模型的预测能力比实际要偏大
2.该实验的难点是数据源的收集与筛选,选择什么样的数据,需要怎样的处理才有意义是不容易的
3.模型算子的选择对于我来说比较难,因为对这个是不熟悉的,所以基本上所有的参数都是默认的,这个感觉不太好
4.对结果的分析不是很明白。