Weka的安装配置及使用

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

“行”的术语记录样本实例
“列”的术语字段变量属性
的数据类型数值型分类型（枚举型）字符串型时间型
文件
为了解析更多的二维数据，提供了对文件的支持。文件被很多“数据处理”软件支持，如，。
转换为
图形界面方法：
通过界面的“ ”按钮打开文件，通过“”按钮保存为文件，格式转换操作会由在后台自动完成。
[1]Weka基础教程V1.1(贵州大学).pdf [2]数据挖掘工具WEKA中文教程.pdf [3]Weka入门教程. [4]在eclipse下使用java调用weka.
结果。在“”的“”选项卡中打开这个新文件，可以看到多了一个属性 “”。“”就是模型预测的结果。点“”按钮可以查看这个数据集的内容。
例子：
用算法对进行聚类
操作：
用“”打开 “”，并切换到“”。点“”按钮选择 “”，这是中实现K均值的算法。点击旁边的文本框，修改“”为6，说明我们希望把这600条实例聚成6类，即6。下面的“”参数是要设置一个随机种子，依此产生一个随机数，用来得到K均值算法中第一次给出的K个簇中心的位置，不妨暂时让它就为10。选中“ ”的“ ”，点击“” 按钮，观察右边“ ”给出的聚类结果。也可以在左下角 “ ”中这次产生的结果上点右键，“ ”在新窗口中浏览结果。
1.安装ቤተ መጻሕፍቲ ባይዱ 2.数据格式 3.数据预处理 4.关联规则 5.分类与回归 6.聚类 7连接数据库 8.在中使用
定位开源的数据挖掘平台集合了大量能承担数据挖掘任务的机器学习算法项目主页
书籍《数据挖掘:实用机器学习技术》
数据挖掘的6种任务预处理() 关联规则() 分类() 回归() 聚类() 可视化()
(1)在根目录中新建目录，将的驱动 (包)拷贝进目录 (2)编辑环境变量，加入驱动所在路径 (3)修改 (4)制作并替代原来的 a.从命令行进入目录
b.执行 *.* c.将下的复制到
在中使用是非常简单的，只需要将以外部包( )的形式添加到工程的编译路径( )中，即可调用中的类和接口。
界面
(1).切换不同数据挖掘任务的面板 (2).数据源操作面板 (3).数据过滤（预处理）面板 (4).当前关系面板 (5).当前属性信息面板 (6).属性选择面板 (7).当前属性可视化面板
删除无意义的属性属性的离散化 (1)整型的离散化：直接修改文件的属性定义 (2)浮点型的离散化：通过图形界面工具→→→→ 实例：
对于一条关联规则>R，我们常用支持度（）和置信度（）来衡量它的重要性。规则的支持度是用来估计在一个购物篮中同时观察到L和R的概率P()，而规则的置信度是估计购物栏中出现了L时也出会现R的条件概率P()。关联规则的目标一般是产生支持度和置信度都较高的规则。有几个类似的度量代替置信度来衡量规则的关联程度，它们分别是： P()/(P(L)P(R)) 1时表示L和R独立。这个数越大，越表明L和R存在在一个购物篮中不是偶然现象。：P()(L)P(R) 它和的含义差不多。0时L和R独立，越大L和R的关系越密切。：P(L)P()() （表示R没有发生）也是用来衡量L和R的独立性。从它和的关系（对R取反，代入公式后求倒数）可以看出，我们也希望这个值越大越好。
我们没有专门设置检验数据集，为了保证生成的模型的准确性而不至于出现过拟合（）的现象，我们有必要采用10 折交叉验证（10 ）来选择和评估模型。在左边的面板选择“”并在“”框填上“10”，点“”按钮生成决策树模型，训练结果出现在右边的“ ”中。
(2)预测：在“ ”中选择“ ”，并且“”成“”文件。重新“”一次。右键点击“ ”中刚产生的那一项，选择 “ ”。我们不去管新窗口中的图有什么含义，点“”按钮，把结果保存成“”。这个文件中就有我们需要的预测
据集中每个实例的输入和输出都是已知的。观察训练集中的实例，可以建立起预测的模型。利用该模型预测新实例的输出变量。衡量模型的好坏就在于预测的准确程度。
在中，待预测的目标（输出）被称作属性。一般的，若属性是分类型时我们的任务才叫分类，属性是数值型时我们的任务叫回归。
例子：
利用C4.5决策树算法预测银行客户是否具有个人股权计划()；训练数据集；测试数据集
例子：用算法()寻找 (600个实例)中的关联规则目标：
挖掘出支持度在0.1到1之间，值超过1.5且值排在前100 位的关联规则。
操作：
在选项卡中打开，切换至选项卡，点击按钮后面的文本框，设为0.1，设为1，设为，设为1.5，设为100，其他选项保持默认
分类()和回归()同在“”选项卡。在这两个任务中，都有一个目标属性（输出变量）。我们希望根据一个样本(中称作实例)的一组特征（输入变量），对目标进行预测。为了实现这一目的，我们需要有一个训练数据集，这个数
(1)和都需要运行环境（）的支持，建议先安装，同时配置好环境变量
(2).根据操作系统位数下载合适的安装文件 ——32位： X86 ——64位： X64 (3).添加环境变量 (4)子目录预存了数据文件
数据的逻辑形式：二维表的数据来源（1）文件（2）关系数据库：，，等
数据库理论统计学
操作：
(1)训练：打开；切换到，点击按钮后可以看到很多分类或者回归的算法列在一个树型框里，树型框下方有一个 … 按钮，点击可以根据数据集的特性过滤掉不合适的算法。我们数据集的输入属性中有“”型和型的属性，而属性是 “”的，于是勾选“ ”“ ”和“ ”。选择“”下的 “J48”，这就是我们需要的C4.5算法。