Weka的安装配置及使用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
“行”的术语 记录 样本 实例
“列”的术语 字段 变量 属性
的数据类型 数值型 分类型(枚举型) 字符串型 时间型
文件
为了解析更多的二维数据,提 供 了对文 件的 支持。文件被很多“数据处理”软件支 持,如,。
转换为
图形界面方法:
通过界面的“ ”按钮打开文件,通过“”按 钮保存为文件,格式转换操作会由在后台 自动完成。
[1]Weka基础教程V1.1(贵州大学).pdf [2]数据挖掘工具WEKA中文教程.pdf [3]Weka入门教程. [4]在eclipse下使用java调用weka.
结果。在“”的“”选项卡中打开这个新文件,可以看到 多了一个属性 “”。“”就是模型预测的结果。点“”按 钮可以查看这个数据集的内容。
例子:
用算法对进行聚类
操作:
用“”打开 “”,并切换到“”。点“”按钮选择 “”,这是中实现K均值的算法。点击旁边的文本框,修 改“”为6,说明我们希望把这600条实例 聚成6类,即6。 下面的“”参数是要设置一个随机种子,依此产生一个随 机数,用来得到K均值算法中第一次给出的K个簇中心的位 置,不妨暂时让它就为10。 选中“ ”的“ ”,点击“” 按钮,观察右边“ ”给出的聚类结果。也可以在左下角 “ ”中这次产生的结果上点右键,“ ”在新窗口中浏览 结果。
1.安装ቤተ መጻሕፍቲ ባይዱ 2.数据格式 3.数据预处理 4.关联规则 5.分类与回归 6.聚类 7连接数据库 8.在中使用
定位 开源的数据挖掘平台 集合了大量能承担数据挖掘任务的机器学习 算法 项目主页
书籍 《数据挖掘:实用机器学习技术》
数据挖掘的6种任务 预处理() 关联规则() 分类() 回归() 聚类() 可视化()
(1)在根目录中新建目录,将的驱动 (包)拷贝进目录 (2)编辑环境变量,加入驱动所在路径 (3)修改 (4)制作并替代原来的 a.从命令行进入目录
b.执行 *.* c.将下的复制到
在中使用是非常简单的,只需要将以外部包( )的形式添加 到工程的编译路径( )中,即可调用中的类和接口。
界面
(1).切换不同数据挖掘任务的面板 (2).数据源操作面板 (3).数据过滤(预处理)面板 (4).当前关系面板 (5).当前属性信息面板 (6).属性选择面板 (7).当前属性可视化面板
删除无意义的属性 属性的离散化 (1)整型的离散化:直接修改文件的属性定义 (2)浮点型的离散化:通过图形界面工具→→→→ 实例:
对于一条关联规则>R,我们常用支持度()和置信度()来 衡量它的重要性。规则的支持度是用来估计在一个购物篮中 同时观察到L和R的概率P(),而规则的置信度是估计购物栏 中出现了L时也出会现R的条件概率P()。关联规则的目标一 般是产生支持度和置信度都较高的规则。 有几个类似的度量代替置信度来衡量规则的关联程度,它们 分别是 : P()/(P(L)P(R)) 1时表示L和R独立。这个数越大,越表明L和R存在在一个购 物篮中不是偶然现象。 :P()(L)P(R) 它和的含义差不多。0时L和R独立,越大L和R的关系越密切。 :P(L)P()() (表示R没有发生) 也是用来衡量L和R的独立性。从它和的关系(对R取反,代 入公式后求倒数)可以看出,我们也希望这个值越大越好。
我们没有专门设置检验数据集,为了保证生成的模型的准 确性而不至于出现过拟合()的现象,我们有必要采用10 折交叉验证(10 )来选择和评估模型。在左边的 面板选 择“”并在“”框填上“10”,点“”按钮生成决策树模 型,训练结果出现在右边的“ ”中。
(2)预测:在“ ”中选择“ ”,并且“”成“”文件。重 新“”一次。右键点击“ ”中刚产生的那一项,选择 “ ”。我们不去管新窗口中的图有什么含义,点“”按 钮,把结果保存成“”。这个文件中 就有我们需要的预测
据集中每个实例的输入和输出都是已知的。观察训练集中 的实例,可以建立起预测的模型。利用该模型预测新实例 的输出变量。衡量模型的好坏就在于预测的准确程度。
在中,待预测的目标(输出)被称作属性。一般的,若属 性是分类型时我们的任务才叫分类,属性是数值型时我们 的任务叫回归。
例子:
利用C4.5决策树算法预测银行客户是否具有个人股权计 划();训练数据集;测试数据集
例子:用算法()寻找 (600个实例)中的关联规则 目标:
挖掘出支持度在0.1到1之间,值超过1.5且值排在前100 位的关联规则。
操作:
在选项卡中打开,切换至选项卡,点击按钮后面的文本 框,设为0.1,设为1,设为 ,设为1.5,设为100,其他选 项保持默认
分类()和回归()同在“”选项卡 。在这两个任务中,都有 一个目标属性(输出变量)。我们希望根据一个样本(中 称作实例)的一组特征(输入变量),对目标进行预测。 为了实现这一目的, 我们需要有一个训练数据集,这个数
(1)和都需要运行环境()的支持,建议先安装 ,同时配置 好环境变量
(2).根据操作系统位数下载合适的安装文件 ——32位: X86 ——64位: X64 (3).添加环境变量 (4)子目录预存了数据文件
数据的逻辑形式:二维表 的数据来源 (1)文件 (2)关系数据库:, ,等
数据库理论 统计学
操作:
(1)训练:打开;切换到,点击按钮后可以看到很多分类 或者回归的算法列在一个树型框里,树型框下方有一个 … 按钮,点击可以根据数据集的特性过滤掉不合适的算法。 我们数据集的输入属性中有“”型和型的属性,而属性是 “”的,于是勾选“ ”“ ”和“ ”。选择“”下的 “J48”,这就是我们需要的C4.5算 法。