weka数据挖掘教程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
@ATTRIBUTE timestamp DATE "yyyy-MM-dd HH:mm:ss" @DATA "2011-05-03 12:59:55" 2016/3/22
21
数据信息
数据信息中“@data‖标记独占一行,剩下的是各个实
例的数据。
每个实例占一行,实例的各属性值用逗号“,”隔开。 如果某个属性的值是缺失值(missing value),用
@data
0, X, 0, Y, "class A" 0, 0, W, 0, "class B" 用稀疏格式表达的话就是 @data {1 X, 3 Y, 4 "class A"} {2 W, 4 "class B"}
注意:ARFF数据集最左端的属性列为第0列,因此,
1 X表示X为第1列属性值。
ka-3-6-6jre.exe
2005年8月,在第11届ACM SIGKDD国际会议上,怀
卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的 最高服务奖, WEKA系统得到了广泛的认可,被誉为数据 挖掘和机器学习历史上的里程碑,是现今最完备的数据挖 掘工具之一。 WEKA的每月下载次数已超过万次。
2016/3/22
18
数值型属性
数值型属性可以是整数或者实数,但WEKA把它们
都当作实数看待。例如: @attribute temperature real
字符串属性
字符串属性可以包含任意的文本。例如:
@attribute LCC string
2016/3/22
19
标称属性 标称属性由<nominal-specification>列出一系列可 能的类别名称并放在花括号中:{<nominalname1>, <nominal-name2>, <nominalname3>, ...} 。 数据集中该属性的值只能是其中一种类别。 例如属性声明:
2016/3/22
14
关系声明
关系名称在ARFF文件的第一个有效行来定义,格式为:
@relation <关系名>
<关系名>是一个字符串。如果这个字符串包含空格,它
必须加上引号(指英文标点的单引号或双引号)。
2016/3/22
16
属性声明
属性声明用一列以“@attribute‖开头的语句表示。 数据集中的每一个属性都有对应的“@attribute‖语句,
@data sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes rainy,68,80,FALSE,yes rainy,65,70,TRUE,no overcast,64,65,TRUE,yes sunny,72,95,FALSE,no sunny,69,70,FALSE,yes rainy,75,80,FALSE,yes sunny,75,70,TRUE,yes overcast,72,90,TRUE,yes overcast,81,75,FALSE,yes rainy,71,91,TRUE,no
2016/3/22
11
表格里的一个横行称作一个实例(Instance),相当
于统计学中的一个样本,或者数据库中的一条记录。 竖行称作一个属性(Attribute),相当于统计学中的 一个变量,或者数据库中的一个字段。 这样一个表格,或者叫数据集,在WEKA看来,呈现了 属性之间的一种关系(Relation)。 上图中一共有14个实例,5个属性,关系名称为 “weather‖。 WEKA存储数据的格式是ARFF(AttributeRelation File Format)文件,这是一种ASCII文 本文件。 上图所示的二维表格存储在如下的ARFF文件中。这也 就是WEKA自带的“weather.arff‖文件,在WEKA 安装目录的“data‖子目录下可以找到。
WEKA的全名是怀卡托智能分析环境 (Waikato Environment for Knowledge Analysis) weka也是新西兰的一种鸟名 是新西兰怀卡托大学WEKA小组用Java开发的机器学习/
数据挖掘开源软件。其源代码获取
http://www.cs.waikato.ac.nz/ml/weka/ http://prdownloads.sourceforge.net/weka/we
命令行环境
2016/3/22
4
Explorer环境
2016/3/22
5
把“Explorer”界面分成8个区域
区域1的几个选项卡是用来切换不同的挖掘任务面板。
Preprocess(数据预处理):选择和修改要处理的数据。
Classify(分类):训练和测试分类或回归模型。
Cluster(聚类):从数据中聚类。 Associate(关联分析):从数据中学习关联规则。
7
区域7是区域Baidu Nhomakorabea中选中属性的直方图。
若数据集的最后一个属性(这是分类或回归任务的默认目标 变量)是类标变量(例如“pep‖ ),直方图中的每个长方 形就会按照该变量的比例分成不同颜色的段。 要想换个分段的依据,在区域7上方的下拉框中选个不同的 分类属性就可以了。 下拉框里选上“No Class‖或者一个数值属性会变成黑白 的直方图。
20
日期和时间属性 日期和时间属性统一用“date‖类型表示,它的格式是:
@attribute <属性名> date [<date-format>]
其中<date-format>是一个字符串,来规定该怎样
解析和显示日期或时间的格式,默认的字符串是ISO8601所给的日期时间组合格式: “yyyy-MM-dd HH:mm:ss‖ 数据信息部分表达日期的字符串必须符合声明中规定的 格式要求,例如:
WEKA数据文件
WEKA存储数据的格式是ARFF(Attribute-
Relation File Format)文件 这是一种ASCII文本文件 文件的扩展名为.arff 可以用写字板打开、编辑 ARFF文件 文件中以“%”开始的行是注释,WEKA将忽略这些行。 除去注释后,整个ARFF文件可以分为两个部分: 第一部分给出了头信息(Head information),包 括了对关系的声明和对属性的声明。 第二部分给出了数据信息(Data information), 即数据集中给出的数据。从“@data‖标记开始,后 面的就是数据信息了。
据部分那些被逗号分开的列中,第2列(从第0列开始) 数据 85 90 86 96 ... 是相应的“humidity‖值。 其次,最后一个声明的属性被称作class属性,在分类或 回归任务中,它是默认的目标变量。
2016/3/22
17
数据类型
WEKA支持四种数据类型 numeric <nominal-specification> string date [<date-format>]
6
区域4展示了数据集的关系名、属性数和实例数等基本情况。 区域5中列出了数据集的所有属性。 勾选一些属性并“Remove‖就可以删除它们,删除后还可以利 用区域2的“Undo‖按钮找回。 区域5上方的一排按钮是用来实现快速勾选的。 区域6中显示在区域5中选中的当前某个属性的摘要。 摘要包括属性名(Name)、属性类型(Type)、缺失值 (Missing)数及比例、不同值(Distinct )数、唯一值 (Unique)数及比例 对于数值属性和标称属性,摘要的方式是不一样的。图中显示的 是对数值属性“income‖的摘要。 数值属性显示最小值(Minimum)、最大值 (Maximum) 、均值(Mean)和标准差(StdDev) 标称属性显示每个不同值的计数 2016/3/22
来定义它的属性名称和数据类型(datatype):
@attribute <属性名> <数据类型> 其中<属性名>必须以字母开头的字符串。和关系名 称一样,如果这个字符串包含空格,它必须加上引号。 属性声明语句的顺序很重要,它表明了该项属性在数据 部分的位置。
例如,“humidity‖是第三个被声明的属性,这说明数
数据挖掘工具--WEKA教程
2016/3/22
WEKA简介…….2 数据集……..11 数据准备…..24 数据预处理…36 分类……………63 聚类………….184 关联规则……225 选择属性……244 数据可视化…253 知识流界面…275
1
1、WEKA简介
问号“?”表示,且这个问号不能省略。
例如:
@data sunny,85,85,FALSE,no ?,78,90,?,yes
2016/3/22
22
稀疏数据
有的时候数据集中含有大量的0值,这个时候用稀疏格式的
数据存储更加省空间。 稀疏格式是针对数据信息中某个对象的表示而言,不需要 修改ARFF文件的其它部分。例如数据:
12
2016/3/22
@relation weather
@attribute @attribute @attribute @attribute @attribute
outlook {sunny, overcast, rainy} temperature real humidity real windy {TRUE, FALSE} play {yes, no}
数值型 标称(nominal)型 字符串型 日期和时间型
还可以使用两个类型“integer‖和“real‖,但是WEKA
把它们都当作“numeric‖看待。 注意:“integer‖,―real‖,―numeric‖,―date‖, ―string‖这些关键字是区分大小写的,而“relation‖、 ―attribute ‖和“data‖则不区分。
Select Attributes(选择属性):选择数据中最相关的属性。
Visualize(可视化) :查看数据的二维散布图。
区域2是一些常用按钮。包括打开、编辑、保存数据及数据转换等功 能。例如,我们可以把文件“bank-data.csv‖另存为“bankdata.arff‖。 区域3中可以选择(Choose)某个筛选器(Filter),以实现筛选 数据或者对数据进行某种变换。数据预处理主要就利用它来实现。 2016/3/22
搜索不再需要的内存空间并将之释放,从而可为新任务分 配更多的内存。
Log按钮可以查看以weka操作日志 。
右边的weka鸟在动的话,说明WEKA正在执行挖掘任务。
2016/3/22
9
KnowledgeFlow环境
2016/3/22
10
2、WEKA数据集
WEKA所处理的数据集是一个.arff文件的二维表
@attribute outlook {sunny, overcast, rainy} 说明“outlook‖属性有三种类别:“sunny‖, ― overcast‖和“rainy‖。而数据集中每个实例对 应的“outlook‖值必是这三者之一。 如果类别名称带有空格,仍需要将之放入引号中。
2016/3/22
2016/3/22
8
区域8窗口的底部区域,包括状态栏、log按钮和Weka鸟。
状态栏(Status)显示一些信息让你知道正在做什么。例如, 如果 Explorer 正忙于装载一个文件,状态栏就会有通知。 在状态栏中的任意位置右击鼠标将会出现一个小菜单。这个菜 单给了你两个选项:
Memory Information--显示WEKA可用的内存量。 Run garbage collector--强制运行Java垃圾回收器,
2
2016/3/22
WEKA软件
WEKA的界面
主要特点 它是集数据预处理、学习算法(分类、回归、聚类、关
联分析)和评估方法等为一体的综合性数据挖掘工具。 具有交互式可视化界面。 提供算法学习比较环境
通过其接口,可实现自己的数据挖掘算法
2016/3/22
3
探索环境
算法试验环境
知识流环境
21
数据信息
数据信息中“@data‖标记独占一行,剩下的是各个实
例的数据。
每个实例占一行,实例的各属性值用逗号“,”隔开。 如果某个属性的值是缺失值(missing value),用
@data
0, X, 0, Y, "class A" 0, 0, W, 0, "class B" 用稀疏格式表达的话就是 @data {1 X, 3 Y, 4 "class A"} {2 W, 4 "class B"}
注意:ARFF数据集最左端的属性列为第0列,因此,
1 X表示X为第1列属性值。
ka-3-6-6jre.exe
2005年8月,在第11届ACM SIGKDD国际会议上,怀
卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的 最高服务奖, WEKA系统得到了广泛的认可,被誉为数据 挖掘和机器学习历史上的里程碑,是现今最完备的数据挖 掘工具之一。 WEKA的每月下载次数已超过万次。
2016/3/22
18
数值型属性
数值型属性可以是整数或者实数,但WEKA把它们
都当作实数看待。例如: @attribute temperature real
字符串属性
字符串属性可以包含任意的文本。例如:
@attribute LCC string
2016/3/22
19
标称属性 标称属性由<nominal-specification>列出一系列可 能的类别名称并放在花括号中:{<nominalname1>, <nominal-name2>, <nominalname3>, ...} 。 数据集中该属性的值只能是其中一种类别。 例如属性声明:
2016/3/22
14
关系声明
关系名称在ARFF文件的第一个有效行来定义,格式为:
@relation <关系名>
<关系名>是一个字符串。如果这个字符串包含空格,它
必须加上引号(指英文标点的单引号或双引号)。
2016/3/22
16
属性声明
属性声明用一列以“@attribute‖开头的语句表示。 数据集中的每一个属性都有对应的“@attribute‖语句,
@data sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes rainy,68,80,FALSE,yes rainy,65,70,TRUE,no overcast,64,65,TRUE,yes sunny,72,95,FALSE,no sunny,69,70,FALSE,yes rainy,75,80,FALSE,yes sunny,75,70,TRUE,yes overcast,72,90,TRUE,yes overcast,81,75,FALSE,yes rainy,71,91,TRUE,no
2016/3/22
11
表格里的一个横行称作一个实例(Instance),相当
于统计学中的一个样本,或者数据库中的一条记录。 竖行称作一个属性(Attribute),相当于统计学中的 一个变量,或者数据库中的一个字段。 这样一个表格,或者叫数据集,在WEKA看来,呈现了 属性之间的一种关系(Relation)。 上图中一共有14个实例,5个属性,关系名称为 “weather‖。 WEKA存储数据的格式是ARFF(AttributeRelation File Format)文件,这是一种ASCII文 本文件。 上图所示的二维表格存储在如下的ARFF文件中。这也 就是WEKA自带的“weather.arff‖文件,在WEKA 安装目录的“data‖子目录下可以找到。
WEKA的全名是怀卡托智能分析环境 (Waikato Environment for Knowledge Analysis) weka也是新西兰的一种鸟名 是新西兰怀卡托大学WEKA小组用Java开发的机器学习/
数据挖掘开源软件。其源代码获取
http://www.cs.waikato.ac.nz/ml/weka/ http://prdownloads.sourceforge.net/weka/we
命令行环境
2016/3/22
4
Explorer环境
2016/3/22
5
把“Explorer”界面分成8个区域
区域1的几个选项卡是用来切换不同的挖掘任务面板。
Preprocess(数据预处理):选择和修改要处理的数据。
Classify(分类):训练和测试分类或回归模型。
Cluster(聚类):从数据中聚类。 Associate(关联分析):从数据中学习关联规则。
7
区域7是区域Baidu Nhomakorabea中选中属性的直方图。
若数据集的最后一个属性(这是分类或回归任务的默认目标 变量)是类标变量(例如“pep‖ ),直方图中的每个长方 形就会按照该变量的比例分成不同颜色的段。 要想换个分段的依据,在区域7上方的下拉框中选个不同的 分类属性就可以了。 下拉框里选上“No Class‖或者一个数值属性会变成黑白 的直方图。
20
日期和时间属性 日期和时间属性统一用“date‖类型表示,它的格式是:
@attribute <属性名> date [<date-format>]
其中<date-format>是一个字符串,来规定该怎样
解析和显示日期或时间的格式,默认的字符串是ISO8601所给的日期时间组合格式: “yyyy-MM-dd HH:mm:ss‖ 数据信息部分表达日期的字符串必须符合声明中规定的 格式要求,例如:
WEKA数据文件
WEKA存储数据的格式是ARFF(Attribute-
Relation File Format)文件 这是一种ASCII文本文件 文件的扩展名为.arff 可以用写字板打开、编辑 ARFF文件 文件中以“%”开始的行是注释,WEKA将忽略这些行。 除去注释后,整个ARFF文件可以分为两个部分: 第一部分给出了头信息(Head information),包 括了对关系的声明和对属性的声明。 第二部分给出了数据信息(Data information), 即数据集中给出的数据。从“@data‖标记开始,后 面的就是数据信息了。
据部分那些被逗号分开的列中,第2列(从第0列开始) 数据 85 90 86 96 ... 是相应的“humidity‖值。 其次,最后一个声明的属性被称作class属性,在分类或 回归任务中,它是默认的目标变量。
2016/3/22
17
数据类型
WEKA支持四种数据类型 numeric <nominal-specification> string date [<date-format>]
6
区域4展示了数据集的关系名、属性数和实例数等基本情况。 区域5中列出了数据集的所有属性。 勾选一些属性并“Remove‖就可以删除它们,删除后还可以利 用区域2的“Undo‖按钮找回。 区域5上方的一排按钮是用来实现快速勾选的。 区域6中显示在区域5中选中的当前某个属性的摘要。 摘要包括属性名(Name)、属性类型(Type)、缺失值 (Missing)数及比例、不同值(Distinct )数、唯一值 (Unique)数及比例 对于数值属性和标称属性,摘要的方式是不一样的。图中显示的 是对数值属性“income‖的摘要。 数值属性显示最小值(Minimum)、最大值 (Maximum) 、均值(Mean)和标准差(StdDev) 标称属性显示每个不同值的计数 2016/3/22
来定义它的属性名称和数据类型(datatype):
@attribute <属性名> <数据类型> 其中<属性名>必须以字母开头的字符串。和关系名 称一样,如果这个字符串包含空格,它必须加上引号。 属性声明语句的顺序很重要,它表明了该项属性在数据 部分的位置。
例如,“humidity‖是第三个被声明的属性,这说明数
数据挖掘工具--WEKA教程
2016/3/22
WEKA简介…….2 数据集……..11 数据准备…..24 数据预处理…36 分类……………63 聚类………….184 关联规则……225 选择属性……244 数据可视化…253 知识流界面…275
1
1、WEKA简介
问号“?”表示,且这个问号不能省略。
例如:
@data sunny,85,85,FALSE,no ?,78,90,?,yes
2016/3/22
22
稀疏数据
有的时候数据集中含有大量的0值,这个时候用稀疏格式的
数据存储更加省空间。 稀疏格式是针对数据信息中某个对象的表示而言,不需要 修改ARFF文件的其它部分。例如数据:
12
2016/3/22
@relation weather
@attribute @attribute @attribute @attribute @attribute
outlook {sunny, overcast, rainy} temperature real humidity real windy {TRUE, FALSE} play {yes, no}
数值型 标称(nominal)型 字符串型 日期和时间型
还可以使用两个类型“integer‖和“real‖,但是WEKA
把它们都当作“numeric‖看待。 注意:“integer‖,―real‖,―numeric‖,―date‖, ―string‖这些关键字是区分大小写的,而“relation‖、 ―attribute ‖和“data‖则不区分。
Select Attributes(选择属性):选择数据中最相关的属性。
Visualize(可视化) :查看数据的二维散布图。
区域2是一些常用按钮。包括打开、编辑、保存数据及数据转换等功 能。例如,我们可以把文件“bank-data.csv‖另存为“bankdata.arff‖。 区域3中可以选择(Choose)某个筛选器(Filter),以实现筛选 数据或者对数据进行某种变换。数据预处理主要就利用它来实现。 2016/3/22
搜索不再需要的内存空间并将之释放,从而可为新任务分 配更多的内存。
Log按钮可以查看以weka操作日志 。
右边的weka鸟在动的话,说明WEKA正在执行挖掘任务。
2016/3/22
9
KnowledgeFlow环境
2016/3/22
10
2、WEKA数据集
WEKA所处理的数据集是一个.arff文件的二维表
@attribute outlook {sunny, overcast, rainy} 说明“outlook‖属性有三种类别:“sunny‖, ― overcast‖和“rainy‖。而数据集中每个实例对 应的“outlook‖值必是这三者之一。 如果类别名称带有空格,仍需要将之放入引号中。
2016/3/22
2016/3/22
8
区域8窗口的底部区域,包括状态栏、log按钮和Weka鸟。
状态栏(Status)显示一些信息让你知道正在做什么。例如, 如果 Explorer 正忙于装载一个文件,状态栏就会有通知。 在状态栏中的任意位置右击鼠标将会出现一个小菜单。这个菜 单给了你两个选项:
Memory Information--显示WEKA可用的内存量。 Run garbage collector--强制运行Java垃圾回收器,
2
2016/3/22
WEKA软件
WEKA的界面
主要特点 它是集数据预处理、学习算法(分类、回归、聚类、关
联分析)和评估方法等为一体的综合性数据挖掘工具。 具有交互式可视化界面。 提供算法学习比较环境
通过其接口,可实现自己的数据挖掘算法
2016/3/22
3
探索环境
算法试验环境
知识流环境