《数据挖掘实训》weka实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《数据挖掘实训》课程论文(报告、案例分析)
院系信息学院
专业统计
班级 10级统计 3 班
学生姓名李健
学号 2010210453
任课教师刘洪伟
2013年 01月17日
课程论文评分表
《数据挖掘实训》课程论文
选题要求:
根据公开发表统计数据,请结合数据挖掘理论与方法,撰写一篇与数据挖掘领域相关的论文。
写作要求:
(1)数据准确、有时效性,必须是最新的数据。
(2)文章必须有相应的统计方法,这些统计方法包括以前专业课中学到的任何统计方法,如参数估计、假设检验、相关与回归、多元统计等等。
(3)论文的内容必须是原创,有可靠的分析依据和明确的结论。
(4)论文按照规定的格式化撰写;
(5)字数不少于2000字。
数据挖掘(WEKA软件)实验报告
统计学专业学生李健学号2010210453关键词:数据挖掘;游玩;因素;WEKA
本次实验指在熟练的运用软件weka进行数据处理,其中包括数据准备,关联规则等同时了解weka的基本用法。
一、软件介绍
1简介
数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。
WEKA的全名是怀卡托智能分析环境(Waikato Environment forKnowledge Analysis),是由新西兰怀卡托(Waikato)大学开发的机器学习软件,纯Java技术实现的开源软件,遵循于GNU General Public License,跨平台运行,集合了大量能承担数据挖掘任务的机器学习算法,分类器实现了常用ZeroR算法、Id3算法、J4.8算法等40多个算法,聚类器实现了EM算法、SimpleKMeans算法和Cobweb算法3种算法,能对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。2oo5年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的最高服务奖,WEKA系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一。WEKA使用的是一种叫做arff(Attribute—Relation File Format)的数据文件结构。这种arff文件是普通的ASCII文本文件,内部结构很简单,主要是测试算法使用的轻量级的数据文件结构。arff文件可以自己建立,也可通过JDBC从Oracle和Mysql等流行数据库中获得。整个arf文件可以分为两个部分。第一部分给出了头信息(Head information),包括关系声明(Relation Declaration)和属性声明(AttributeDeclarations)。第二部分给出了数据信息(Datainformation),即数据集中给出的数据。关系声明的定义格式为:@relation
@attribute
2.安装
Weka的官方地址是/ml/weka/。点开左侧download栏,可以进入下载页面,里面有windows,mac os,linux等平台下的版本,我们以windows系统作为示例。目前稳定的版本是3.6。
如果本机没有安装java,可以选择带有jre的版本。下载后是一个exe的可执行文件,双击进行安装即可。
安装完毕,打开启动weka的快捷方式,如果可以看到下面的界面,那么恭喜,安装成功了。
共有4个应用,分别是
1)Explorer
用来进行数据实验、挖掘的环境,它提供了分类,聚类,关联规则,特征选择,数据可视化的功能。(An environment for exploring data with WEKA)
2)Experimentor
用来进行实验,对不同学习方案进行数据测试的环境。(An environment for performing experiments and conducting statistical tests between learning schemes.)
3)KnowledgeFlow
功能和Explorer差不多,不过提供的接口不同,用户可以使用拖拽的方式去建立实验方案。另外,它支持增量学习。(This environment supports essentially the same functions as the Explorer but with a drag-and-drop interface. One advantage is that it supports incremental learning.)
4)SimpleCLI
简单的命令行界面。(Provides a simple command-line interface that allows direct execution of WEKA commands for operating systems that do not provide their own command line interface.)
二、实验内容
1.选用数据文件为:small_dataset中的weather.arff数据文件
2.在WEKA中点击explorer 打开文件 weather.arff