2020年整理WEKA汉化教程.pdf

合集下载

WEKA数据分析实验共10页word资料

WEKA数据分析实验共10页word资料

WEKA 数据分析实验1.实验简介借助工具Weka 3.6 ,对数据样本进行测试,分类测试方法包括:朴素贝叶斯、决策树、随机数三类,聚类测试方法包括:DBScan,K均值两种;2.数据样本以熟悉数据分类的各类常用算法,以及了解Weka的使用方法为目的,本次试验中,采用的数据样本是Weka软件自带的“Vote”样本,如图:3.关联规则分析1)操作步骤:a)点击“Explorer”按钮,弹出“Weka Explorer”控制界面b)选择“Associate”选项卡;c)点击“Choose”按钮,选择“Apriori”规则d)点击参数文本框框,在参数选项卡设置参数如:e)点击左侧“Start”按钮2)执行结果:=== Run information ===Scheme: weka.associations.Apriori -I -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.5 -S -1.0 -c -1 Relation: voteInstances: 435Attributes: 17handicapped-infantswater-project-cost-sharingadoption-of-the-budget-resolutionphysician-fee-freezeel-salvador-aidreligious-groups-in-schoolsanti-satellite-test-banaid-to-nicaraguan-contrasmx-missileimmigrationsynfuels-corporation-cutbackeducation-spendingsuperfund-right-to-suecrimeduty-free-exportsexport-administration-act-south-africaClass=== Associator model (full training set) ===AprioriMinimum support: 0.5 (218 instances)Minimum metric <confidence>: 0.9Number of cycles performed: 10Generated sets of large itemsets:Size of set of large itemsets L(1): 12Large Itemsets L(1):handicapped-infants=n 236adoption-of-the-budget-resolution=y 253physician-fee-freeze=n 247religious-groups-in-schools=y 272anti-satellite-test-ban=y 239aid-to-nicaraguan-contras=y 242synfuels-corporation-cutback=n 264education-spending=n 233crime=y 248duty-free-exports=n 233export-administration-act-south-africa=y 269Class=democrat 267Size of set of large itemsets L(2): 4Large Itemsets L(2):adoption-of-the-budget-resolution=y physician-fee-freeze=n 219adoption-of-the-budget-resolution=y Class=democrat 231physician-fee-freeze=n Class=democrat 245aid-to-nicaraguan-contras=y Class=democrat 218Size of set of large itemsets L(3): 1Large Itemsets L(3):adoption-of-the-budget-resolution=y physician-fee-freeze=n Class=democrat 219Best rules found:1. adoption-of-the-budget-resolution=y physician-fee-freeze=n 219 ==> Class=democrat 219 conf:(1)2. physician-fee-freeze=n 247 ==> Class=democrat 245 conf:(0.99)3. adoption-of-the-budget-resolution=y Class=democrat 231 ==> physician-fee-freeze=n 219 conf:(0.95)4. Class=democrat 267 ==> physician-fee-freeze=n 245 conf:(0.92)5. adoption-of-the-budget-resolution=y 253 ==> Class=democrat 231 conf:(0.91)6. aid-to-nicaraguan-contras=y 242 ==> Class=democrat 218 conf:(0.9)3)结果分析:a)该样本数据,数据记录数435个,17个属性,进行了10轮测试b)最小支持度为0.5,即至少需要218个实例;c)最小置信度为0.9;d)进行了10轮搜索,频繁1项集12个,频繁2项集4个,频繁3项集1个;4.分类算法-随机树分析1)操作步骤:a)点击“Explorer”按钮,弹出“Weka Explorer”控制界面b)选择“Classify ”选项卡;c)点击“Choose”按钮,选择“trees” “RandomTree”规则d)设置Cross-validation 为10次e)点击左侧“Start”按钮2)执行结果:=== Run information ===Scheme:weka.classifiers.trees.RandomTree -K 0 -M 1.0 -S 1Relation: voteInstances:435Attributes:17handicapped-infantswater-project-cost-sharingadoption-of-the-budget-resolutionphysician-fee-freezeel-salvador-aidreligious-groups-in-schoolsanti-satellite-test-banaid-to-nicaraguan-contrasmx-missileimmigrationsynfuels-corporation-cutbackeducation-spendingsuperfund-right-to-suecrimeduty-free-exportsexport-administration-act-south-africaClassTest mode:10-fold cross-validation=== Classifier model (full training set) ===RandomTreeel-salvador-aid = n| physician-fee-freeze = n| | duty-free-exports = n| | | anti-satellite-test-ban = n| | | | synfuels-corporation-cutback = n| | | | | crime = n : republican (0.96/0)| | | | | crime = y| | | | | | handicapped-infants = n : democrat (2.02/0.01) | | | | | | handicapped-infants = y : democrat (0.05/0)| | | | synfuels-corporation-cutback = y| | | | | handicapped-infants = n : democrat (0.79/0.01)| | | | | handicapped-infants = y : democrat (2.12/0)| | | anti-satellite-test-ban = y| | | | adoption-of-the-budget-resolution = n| | | | | handicapped-infants = n : democrat (1.26/0.01)| | | | | handicapped-infants = y : republican (1.25/0.25)| | | | adoption-of-the-budget-resolution = y| | | | | handicapped-infants = n| | | | | | crime = n : democrat (5.94/0.01)| | | | | | crime = y : democrat (5.15/0.12)| | | | | handicapped-infants = y : democrat (36.99/0.09)| | duty-free-exports = y| | | crime = n : democrat (124.23/0.29)| | | crime = y| | | | handicapped-infants = n : democrat (16.9/0.38)| | | | handicapped-infants = y : democrat (8.99/0.02)| physician-fee-freeze = y| | immigration = n| | | education-spending = n| | | | crime = n : democrat (1.09/0)| | | | crime = y : democrat (1.01/0.01)| | | education-spending = y : republican (1.06/0.02)| | immigration = y| | | synfuels-corporation-cutback = n| | | | religious-groups-in-schools = n : republican (3.02/0.01)| | | | religious-groups-in-schools = y : republican (1.54/0.04)| | | synfuels-corporation-cutback = y : republican (1.06/0.05)el-salvador-aid = y| synfuels-corporation-cutback = n| | physician-fee-freeze = n| | | handicapped-infants = n| | | | superfund-right-to-sue = n| | | | | crime = n : democrat (1.36/0)| | | | | crime = y| | | | | | mx-missile = n : republican (1.01/0)| | | | | | mx-missile = y : democrat (1.01/0.01)| | | | superfund-right-to-sue = y : democrat (4.83/0.03)| | | handicapped-infants = y : democrat (8.42/0.02)| | physician-fee-freeze = y| | | adoption-of-the-budget-resolution = n| | | | export-administration-act-south-africa = n| | | | | mx-missile = n : republican (49.03/0)| | | | | mx-missile = y : democrat (0.11/0)| | | | export-administration-act-south-africa = y| | | | | duty-free-exports = n| | | | | | mx-missile = n : republican (60.67/0)| | | | | | mx-missile = y : republican (6.21/0.15)| | | | | duty-free-exports = y| | | | | | aid-to-nicaraguan-contras = n| | | | | | | water-project-cost-sharing = n| | | | | | | | mx-missile = n : republican (3.12/0)| | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | | water-project-cost-sharing = y : democrat (1.15/0.14)| | | | | | aid-to-nicaraguan-contras = y : republican (0.16/0)| | | adoption-of-the-budget-resolution = y| | | | anti-satellite-test-ban = n| | | | | immigration = n : democrat (2.01/0.01)| | | | | immigration = y| | | | | | water-project-cost-sharing = n| | | | | | | mx-missile = n : republican (1.63/0)| | | | | | | mx-missile = y : republican (1.01/0.01)| | | | | | water-project-cost-sharing = y| | | | | | | superfund-right-to-sue = n : republican (0.45/0)| | | | | | | superfund-right-to-sue = y : republican (1.71/0.64)| | | | anti-satellite-test-ban = y| | | | | mx-missile = n : republican (7.74/0)| | | | | mx-missile = y : republican (4.05/0.03)| synfuels-corporation-cutback = y| | adoption-of-the-budget-resolution = n| | | superfund-right-to-sue = n| | | | anti-satellite-test-ban = n| | | | | physician-fee-freeze = n : democrat (1.39/0.01)| | | | | physician-fee-freeze = y| | | | | | water-project-cost-sharing = n : republican (1.01/0)| | | | | | water-project-cost-sharing = y : democrat (1.05/0.05)| | | | anti-satellite-test-ban = y : democrat (1.13/0.01)| | | superfund-right-to-sue = y| | | | education-spending = n| | | | | physician-fee-freeze = n| | | | | | crime = n : democrat (0.09/0)| | | | | | crime = y| | | | | | | handicapped-infants = n : democrat (1.01/0.01)| | | | | | | handicapped-infants = y : democrat (1/0)| | | | | physician-fee-freeze = y| | | | | | immigration = n| | | | | | | export-administration-act-south-africa = n : democrat(0.34/0.11)| | | | | | | export-administration-act-south-africa = y| | | | | | | | crime = n : democrat (0.16/0)| | | | | | | | crime = y| | | | | | | | | mx-missile = n| | | | | | | | | | handicapped-infants = n : republican (0.29/0) | | | | | | | | | | handicapped-infants = y : republican (1.88/0.87) | | | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | immigration = y : republican (1.01/0)| | | | education-spending = y| | | | | physician-fee-freeze = n| | | | | | handicapped-infants = n : democrat (1.51/0.01)| | | | | | handicapped-infants = y : democrat (2.01/0)| | | | | physician-fee-freeze = y| | | | | | crime = n : republican (1.02/0)| | | | | | crime = y| | | | | | | export-administration-act-south-africa = n| | | | | | | | handicapped-infants = n| | | | | | | | | immigration = n| | | | | | | | | | mx-missile = n| | | | | | | | | | | water-project-cost-sharing = n : democrat (1.01/0.01)| | | | | | | | | | | water-project-cost-sharing = y : republican (1.81/0)| | | | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | | | | immigration = y| | | | | | | | | | mx-missile = n : republican (2.78/0)| | | | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | | | handicapped-infants = y| | | | | | | | | mx-missile = n : republican (2/0)| | | | | | | | | mx-missile = y : democrat (0.4/0)| | | | | | | export-administration-act-south-africa = y| | | | | | | | mx-missile = n : republican (8.77/0)| | | | | | | | mx-missile = y : democrat (0.02/0)| | adoption-of-the-budget-resolution = y| | | anti-satellite-test-ban = n| | | | handicapped-infants = n| | | | | crime = n : democrat (2.52/0.01)| | | | | crime = y : democrat (7.65/0.07)| | | | handicapped-infants = y : democrat (10.83/0.02)| | | anti-satellite-test-ban = y| | | | physician-fee-freeze = n| | | | | handicapped-infants = n| | | | | | crime = n : democrat (2.42/0.01)| | | | | | crime = y : democrat (2.28/0.03)| | | | | handicapped-infants = y : democrat (4.17/0.01)| | | | physician-fee-freeze = y| | | | | mx-missile = n : republican (2.3/0)| | | | | mx-missile = y : democrat (0.01/0)Size of the tree : 143Time taken to build model: 0.01seconds=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 407 93.5632 %Incorrectly Classified Instances 28 6.4368 %Kappa statistic 0.8636Mean absolute error 0.0699Root mean squared error 0.2379Relative absolute error 14.7341 %Root relative squared error 48.8605 %Total Number of Instances 435=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.955 0.095 0.941 0.955 0.948 0.966 democrat0.905 0.045 0.927 0.905 0.916 0.967 republicanWeighted Avg. 0.936 0.076 0.936 0.936 0.935 0.966=== Confusion Matrix ===a b <-- classified as255 12 | a = democrat16 152 | b = republican3)结果分析:a)该样本数据,数据记录数435个,17个属性,进行了10轮交叉验证b)随机树长143c)正确分类共407个,正确率达93.5632 %d)错误分类28个,错误率6.4368 %e)测试数据的正确率较好5.分类算法-随机树分析1)操作步骤:a)点击“Explorer”按钮,弹出“Weka Explorer”控制界面b)选择“Classify ”选项卡;c)点击“Choose”按钮,选择“trees” “J48”规则d)设置Cross-validation 为10次e)点击左侧“Start”按钮2)执行结果:=== Run information ===Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2Relation: voteInstances:435Attributes:17handicapped-infantswater-project-cost-sharingadoption-of-the-budget-resolutionphysician-fee-freezeel-salvador-aidreligious-groups-in-schoolsanti-satellite-test-banaid-to-nicaraguan-contrasmx-missileimmigrationsynfuels-corporation-cutbackeducation-spendingsuperfund-right-to-suecrimeduty-free-exportsexport-administration-act-south-africaClassTest mode:10-fold cross-validation=== Classifier model (full training set) ===J48 pruned treephysician-fee-freeze = n: democrat (253.41/3.75)physician-fee-freeze = y| synfuels-corporation-cutback = n: republican (145.71/4.0)| synfuels-corporation-cutback = y| | mx-missile = n| | | adoption-of-the-budget-resolution = n: republican (22.61/3.32)| | | adoption-of-the-budget-resolution = y| | | | anti-satellite-test-ban = n: democrat (5.04/0.02)| | | | anti-satellite-test-ban = y: republican (2.21)| | mx-missile = y: democrat (6.03/1.03)Number of Leaves : 6Size of the tree : 11Time taken to build model: 0.06seconds=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 419 96.3218 %Incorrectly Classified Instances 16 3.6782 %Kappa statistic 0.9224Mean absolute error 0.0611Root mean squared error 0.1748Relative absolute error 12.887 %Root relative squared error 35.9085 %Total Number of Instances 435=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.97 0.048 0.97 0.97 0.97 0.971 democrat0.952 0.03 0.952 0.952 0.952 0.971 republicanWeighted Avg. 0.963 0.041 0.963 0.963 0.963 0.971=== Confusion Matrix ===a b <-- classified as259 8 | a = democrat8 160 | b = republican3)结果分析:a)该样本数据,数据记录数435个,17个属性,进行了10轮交叉验证b)决策树分6级,长度11c)正确分类共419个,正确率达96.3218 %d)错误分类16个,错误率3.6782 %e)测试结果接近随机数,正确率较高6.分类算法-朴素贝叶斯分析1)操作步骤:a)点击“Explorer”按钮,弹出“Weka Explorer”控制界面b)选择“Classify ”选项卡;c)点击“Choose”按钮,选择“bayes” “Naive Bayes”规则d)设置Cross-validation 为10次e)点击左侧“Start”按钮2)执行结果:=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 392 90.1149 %Incorrectly Classified Instances 43 9.8851 %Kappa statistic 0.7949Mean absolute error 0.0995Root mean squared error 0.2977Relative absolute error 20.9815 %Root relative squared error 61.1406 %Total Number of Instances 435=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.891 0.083 0.944 0.891 0.917 0.973democrat0.917 0.109 0.842 0.917 0.877 0.973republicanWeighted Avg. 0.901 0.093 0.905 0.901 0.902 0.973 === Confusion Matrix ===a b <-- classified as238 29 | a = democrat14 154 | b = republican3)结果分析a)该样本数据,数据记录数435个,17个属性,进行了10轮交叉验证b)正确分类共392个,正确率达90.1149 %c)错误分类43个,错误率9.8851 %d)测试正确率较高7.分类算法-RandomTree、决策树、朴素贝叶斯结果比较:根据以上对比结果,三类分类算法对样板数据Vote测试准确率类似;。

WEKA教程完整版(新)

WEKA教程完整版(新)
数据挖掘工具 WEKA教程
广东外语外贸大学 杜剑峰
WEKA教程
1. 2. 3.
4.
5. 6.
7.
8. 9.
WEKA简介 数据格式 数据准备 属性选择 可视化分析 分类预测 关联分析 聚类分析 扩展WEKA
课程的总体目标和要求: 熟悉WEKA的基本操作,了 解WEKA的各项功能 掌握数据挖掘实验的流程
2、数据格式(续)

字符串属性 字符串属性中可以包含任意的文本。这种类型的属性在文本挖掘 中非常有用。 示例: @ATTRIBUTE LCC string 日期和时间属性 日期和时间属性统一用―date‖类型表示,它的格式是 @attribute <name> date [<date-format>] 其中<name>是这个属性的名称,<date-format>是一个字符串, 来规定该怎样解析和显示日期或时间的格式,默认的字符串是 ISO-8601所给的日期时间组合格式―yyyy-MM-ddTHH:mm:ss‖。 数据信息部分表达日期的字符串必须符合声明中规定的格式要求 (下文有例子)。
2、数据格式(续)

WEKA支持的<datatype>有四种
numeric <nominal-specification> string date [<date-format>]
数值型 标称(nominal)型 字符串型 日期和时间型
其中<nominal-specification> 和<date-format> 将在下 面说明。还可以使用两个类型―integer‖和―real‖,但是 WEKA把它们都当作―numeric‖看待。注意―integer‖, ―real‖,―numeric‖,―date‖,―string‖这些关键字是区分 大小写的,而―relation‖、“attribute ‖和―data‖则不区分。

maple 2020 中文用户手册

maple 2020 中文用户手册

Maple中文用户手册版本:试用版v0.1编制:Maplesoft China2020年9月20日前言本教程是Maplesoft为广大Maple软件用户编制的入门级使用教程,供大家免费使用和参考。

本教程使用的建模软件是Maple 2020版。

如需申请试用版软件,请登录Maplesoft网站()申请。

由于水平有限,教程中错误之处在所难免,敬请读者指正!联系邮箱:china@2020年9月20日Maplesoft China目录第一章Maple使用环境 (1)1.1 软件简介 (1)1.2 安装的系统配置要求 (1)1.3 启动Maple软件界面 (1)1.4 新建Maple文件 (2)1.4.1 文件模式 (3)1.4.2 工作表模式 (4)1.4.3 保存文件 (5)1.5 快速参考卡 (6)1.6 函数和函数包的使用 (9)1.7 变量名 (11)1.8 数字格式 (11)1.9 常规运算 (13)1.9.1 数的表示 (14)1.9.2 基本的运算符号 (14)1.9.3 数字运算规则 (14)1.9.4 比较算符 (14)1.9.5 求算式的值 (15)1.9.6 多项式计算 (17)第二章数据结构 (18)2.1 序列(Sequence) (18)2.2 列表(List) (19)2.3 集合(Set) (20)2.4 数组(Array) (21)2.5 矩阵(Matrix) 和向量(Vector) (23)2.6 表(Table) (25)第三章常规的数学计算 (27)3.1 代数 (27)3.2 求方程与不等式 (30)3.3 矩阵计算与线性代数 (32)3.3.1 矩阵计算 (33)3.3.2 矩阵LU分解 (35)3.3.3 矩阵QR分解 (36)3.3.4 大型矩阵的数值计算 (36)3.3.5 线性代数函数列表 (37)3.4 微积分 (43)3.4.1 极限 (43)3.4.2 微分 (44)3.4.3 方向导数 (45)3.4.4 级数 (46)3.4.6 多变量和向量微积分 (47)3.4.7 Student微积分函数包和助教 (48)3.4.8 微积分问题求解示例 (48)3.5 优化 (53)3.5.1 线性规划 (55)3.5.2 非线性规划 (58)3.5.3 最小二乘优化问题 (59)3.5.4 全局优化 (61)3.6 概率论与数理统计 (68)3.6.1 概率分布和随机变量 (69)3.6.2 统计计算 (70)3.6.3 统计图形 (70)3.4.5 积分 (72)3.6.4 Student Statistics学生学习函数包 (73)3.7内置工程及科学常数数据库 (74)3.8 含单位和公差的科学计算 (74)3.8.1 输入单位 (74)3.8.2 国际规范 (75)3.8.3 单位计算 (76)3.8.4 绘图中使用单位 (77)3.8.5 在方程、积分、优化等计算时使用单位 (77)3.9 公差计算 (79)第四章图形和动画 (81)4.1 使用关联菜单绘图 (81)4.2 二维图形和三维图形命令 (82)3.2.1 单变量表达式绘图 (82)3.2.2 函数绘图 (82)3.2.3 两个变量函数的二维图形 (83)3.2.4 两个变量函数的三维图 (83)4.3 plots函数包 (83)3.3.1 多个图形和动画的合并显示 (83)3.2.2 微分方程解的绘图 (85)3.2.3 对数作图 (85)3.2.3 极坐标图 (86)3.3.4 隐函数的极坐标图形 (86)3.3.5 波特图 (87)3.3.6 数据表的绘图 (88)3.3.7 点云图 (88)3.2.8 柱状图 (88)3.2.9 双y轴图形 (89)4.4 提取图形的数据并保存为Excel文件 (90)4.5 动画 (91)第五章数据处理 (92)5.1 导入数据 (92)5.1.1 使用图形化用户界面导入数据文件 (92)5.1.2 使用命令导入Excel文件中的数据 (93)5.2 拟合数据 (94)5.3.1 Fit命令 (95)5.3.2 拟合噪声信号的模型 (98)5.3.3 最小二乘拟合 (100)5.3.4 三维数据的多项式拟合 (102)5.4 提取图形的绘图数据并输出EXCEL文件 (104)第六章微分方程求解 (106)6.1 定义微分方程 (106)6.2 使用dslove命令求解析解和数值解 (107)6.2.1 定义微分方程 (108)6.2.2 求解析解 (108)6.2.3 求数值解 (108)6.2.4求级数解 (109)6.3 微分方程的判定 (110)6.4 求解一阶常微分方程ODE (112)6.5 求解常微分方程组ODEs (115)6.6 求解偏微分方程PDE (117)6.6.1 一个简单的例子 (117)6.6.2 求解热传导方程 (117)6.6.3 求解波动方程 (119)第七章创建计算书 (128)7.1 样式 (128)7.2 创建文件 (130)7.2.1 输入数学和文字 (130)2.2.2 插入图片 (131)7.2.3 插入视频 (131)7.2.4 章节管理 (132)7.2.5 插入表格 (133)7.2.6 输出为PDF文件 (133)7.3 Maple Workbook管理项目中的多个文件 (134)7.3.1 保存为Maple Workbook工作薄文件格式 (135)7.3.2 导航面板 (135)7.3.3 从Workbook读取文件 (136)7.3.4 变量管理器 (137)7.4 文件内容加密 (137)7.5 分享Maple文件 (138)第八章编程 (139)8.1 编写代码的几种方式和工具 (139)8.2 编写Procedures过程程序 (140)8.2.1 编写一个简单的过程程序Procedure (140)8.2.2 一些简单的示例和说明 (143)8.3 条件和循环语句 (146)8.3.1 程序流控制 (146)8.3.2 返回结果: return和error语句 (147)8.4 迭代: for循环和while循环 (148)8.4.1 for/from 循环 (149)8.4.2 for/in 循环 (150)8.4.3 while循环 (150)8.4.4 嵌套循环 (151)8.5 创建一个模块Module (152)8.6 创建一个函数包Package (154)8.7 代码调试和分析 (155)8.7.1 编程习惯:注释 (155)8.7.2 调试 (155)8.7.3 代码分析 (159)第九章图形用户界面GUI应用开发 (162)9.1 常用的GUI组件 (162)9.2 GUI组件操作 (165)9.2.1 插入GUI组件 (165)9.2.2 编辑组件的属性 (166)9.2.3 删除GUI组件 (168)9.2.4 在文件中使用GUI组件 (168)9.3 示例–创建包含GUI组件的文件 (170)第一章Maple使用环境1.1 软件简介Maple软件是1980年由加拿大滑铁卢大学两位教授Keith Geddes和Gaston Gonnet领导的科研小组开发,并以加拿大的国树枫叶(Maple)命名的数学软件。

机器学习工具WEKA的使用总结,包括算法选择、属性选择、参数优化

机器学习工具WEKA的使用总结,包括算法选择、属性选择、参数优化

一、属性选择:1、理论知识:见以下两篇文章:数据挖掘中的特征选择算法综述及基于WEKA的性能比较_陈良龙数据挖掘中约简技术与属性选择的研究_刘辉2、weka中的属性选择2.1评价策略(attribute evaluator)总的可分为filter和wrapper方法,前者注重对单个属性进行评价,后者侧重对特征子集进行评价。

Wrapper方法有:CfsSubsetEvalFilter方法有:CorrelationAttributeEval2.1.1 Wrapper方法:(1)CfsSubsetEval根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估,单个特征预测能力强且特征子集内的相关性低的子集表现好。

Evaluates the worth of a subset of attributes by considering the individual predictive ability of each feature along with the degree of redundancy between them.Subsets of features that are highly correlated with the class while having low intercorrelation are preferred.For more information see:M. A. Hall (1998). Correlation-based Feature Subset Selection for Machine Learning. Hamilton, New Zealand.(2)WrapperSubsetEvalWrapper方法中,用后续的学习算法嵌入到特征选择过程中,通过测试特征子集在此算法上的预测性能来决定其优劣,而极少关注特征子集中每个特征的预测性能。

因此,并不要求最优特征子集中的每个特征都是最优的。

weka学习笔记

weka学习笔记

Weka 学习笔记一、数据格式:以“%”开始的行是注释。

除去注释后,整个ARFF文件可以分为两个部分。

第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。

第二部分给出了数据信息(Data information),即数据集中给出的数据。

从“@data”标记开始,后面的就是数据信息了。

1、关系声明:@relation <relation-name>在ARFF文件的第一个有效行来定义。

<relation-name>是一个字符串。

如果这个字符串包含空格,它必须加上引号(指英文标点的单引号或双引号)。

2、属性声明: @attribute <attribute-name> <datatype>声明语句的顺序按照该项属性在数据部分的位置来排。

最后一个声明的属性被称作class属性,在分类或回归任务中,它是默认的目标变量。

<attribute-name>是必须以字母开头的字符串。

和关系名称一样,如果这个字符串包含空格,它必须加上引号。

WEKA支持的<datatype>有四种,分别是:numeric数值型、<nominal-specification>分类型、string字符串型、date [<date-format>日期型。

(1)数值属性:数值型属性可以是整数或者实数,但WEKA把它们都当作实数看待。

(2)分类属性:分类属性由<nominal-specification>列出一系列可能的类别名称并放在花括号中:{<nominal-name1>, <nominal-name2>, <nominal-name3>, ...} 。

例如如下的属性声明说明“outlook”属性有三种类别:“sunny”,“ overcast”和“rainy”:@attribute outlook {sunny, overcast, rainy}如果类别名称带有空格,仍需要将之放入引号中。

APK汉化教程【原创】

APK汉化教程【原创】

APK汉化教程【原创】APK汉化教程【原创】一、基础知识1、APK文件结构1)何为APK?APK是Android Package的缩写,即Android安装包,类似Symbian Sis 或Sisx的文件格式。

通过将APK文件传到Android 模拟器或Android手机中执行即可安装。

和sis一样,apk文件最终把android sdk编译工程通过特殊打包形成一个安装文件,其本质是压缩文件,只是扩展名被修改为apk。

在Android系统安装时,APK程序会被存放在系统默认的APP目录中。

2)APK文件分解一般APK文件的大致结构如下图:我们先来逐个了解这些文件的意义和内容:(1)Manifest 文件AndroidManifest.xml是每个应用都必须定义和包含的,它描述了应用的名字、版本、权限、引用的库文件等信息。

要把apk上传到Google Market上,也要对这个xml做一些配置。

(2)META-INF 目录META-INF目录下存放的是签名信息,用来保证apk包的完整性和系统安全。

在eclipse编译生成一个api包时,会对所有要打包的文件做一个校验计算,并把计算结果放在META-INF 目录下。

而在Android平台上安装apk包时,应用管理器会按照同样的算法对包里的文件做校验,如果校验结果与META-INF下的内容不一致,系统就不会安装这个apk。

这就保证了apk包里的文件不能被随意替换。

比如拿到一个apk 包后,如果想要替换里面的一幅图片,一段代码,或一段版权信息,想直接解压缩、替换再重新打包,基本是不可能的。

如此一来就给病毒感染和恶意修改增加了难度,有助于保护系统的安全。

(3)classes.dex文件classes.dex是java源码编译后生成的java字节码文件。

但由于Android使用的dalvik虚拟机与标准的java虚拟机不兼容,dex文件与class文件相比,不论是文件结构还是opcode都不一样。

weka教程_使用方法

weka教程_使用方法
University of Waikato 36

“Meta”-classifiers include:

1/28/2014
1/28/2014
University of Waikato
37
1/28/2014
University of Waikato
38
1/28/2014
University of Waikato
University of Waikato 8
1/28/2014
WEKA only deals with “flat” files
@relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present ...
作者: Ian H. Witten / Eibe Frank 副标题: Practical Machine Learning Tools and Techniques, Second Edition (Morgan Kaufmann Series in Data Management Systems) 页数: 525 出版社: Morgan Kaufmann 出版年: 2005-06-08

WEKA中文详细教程

WEKA中文详细教程
导出数据
Weka可以将分析结果导出为多种格式,如CSV、ARFF、LaTeX等,用户可以通过“文件”菜单 选择“导出数据”来导出数据。
数据清理
缺失值处理
Weka提供了多种方法来处理缺失值, 如删除含有缺失值的实例、填充缺失 值等。
异常值检测
Weka提供了多种异常值检测方法, 如基于距离的异常值检测、基于密度 的异常值检测等。
Weka中文详细教程
目录
• Weka简介 • 数据预处理 • 分类算法 • 关联规则挖掘 • 回归分析 • 聚类分析 • 特征选择与降维 • 模型评估与优化
01
Weka简介
Weka是什么
01 Weka是一款开源的数据挖掘软件,全称是 "Waikato Environment for Knowledge Analysis",由新西兰怀卡托大学开发。
解释性强等优点。
使用Weka进行决策树 分类时,需要设置合 适的参数,如剪枝策 略、停止条件等,以 获得最佳分类效果。
决策树分类结果易于 理解和解释,能够为 决策提供有力支持。
贝叶斯分类器
贝叶斯分类器是一种 基于概率的分类算法, 通过计算不同类别的 概率来进行分类。
Weka中的朴素贝叶斯 分类器是一种基于贝 叶斯定理的简单分类 器,适用于特征之间 相互独立的场景。
08
模型评估与优化
交叉验证
01
交叉验证是一种评估机器学习模型性能的常用方法,通过将数据集分成多个子 集,然后使用其中的一部分子集训练模型,其余子集用于测试模型。
02
常见的交叉验证方法包括k-折交叉验证和留出交叉验证。在k-折交叉验证中, 数据集被分成k个大小相近的子集,每次使用其中的k-1个子集训练模型,剩余 一个子集用于测试。

软件汉化教程

软件汉化教程

如今,Android软件猖ramp。

在“蔬菜市场”中,我们可以看到超过90%的软件是外国软件。

无论是公司还是个人开发,都不可避免地会涉及语言障碍。

当我们心爱的软件不以中文发布时,我们只能忍受“外来代码”带来的麻烦吗?不,实际上我们可以通过打开APK文件resources.arsc文件来实现中文软件,显示所有十六进制代码,然后通过十六进制编码软件将其转换为英文字符,当然,也可以先将16转换为System变成10基本,然后通过ASC II代码表更改为英文字符,但是我相信没有人会选择后者。

然后,我们可以将特定的英语单词翻译成中文。

工具/原材料通过中国开发人员编写的Android中文软件1JDK(Java开发套件)-开发环境WinRAR-压缩软件Android Resedit中文软件步骤/方法下载所需的软件,安装JDK开发环境和Android Resedit中文工具。

适用于Android手机的APK软件中文课程处理APK文件以将其翻译成中文:然后选择需要中文化的APK文件。

此时,该图标已成为压缩文件图像。

右键单击将其解压缩。

最好将其解压缩到一个单独的文件夹中,以便将来进行中文操作。

此时,我们可以看到该文件夹中有两个单独的文件夹和三个文件。

Meta-inf是签名信息,res是与软件相关的图片等,对于我们而言,最重要的文件是resources.arsc。

适用于Android手机的APK软件中文课程中文文本:使用我们提供的Android reesdit中文工具打开解压缩的一个resource.arsc文档。

列表第一栏中的“原始资源”是我们翻译的英语原型,但是应该注意的是,我们不需要将所有英语翻译成中文甚至是所有单词。

我们只需要翻译大写字母开头的单词,其他的就不能翻译成中文,否则我们会犯错误。

您打开APK程序就知道,英语的界面几乎都是大写字母,只有一小部分小写字母。

我只能自己找到这个。

没有经验的用户,在中文化过程中,最好用手机打开APK 程序并与中文版本比较,这会更好。

2024年度Icepak培训中文教程版pdf

2024年度Icepak培训中文教程版pdf
关性验证的重 要性,并提供相关步骤和 建议。
10
03
求解器设置与运行
BIG DATA EMPOWERS TO CREATE A NEW
ERA
2024/3/23
11
求解器类型及选择依据
求解器类型
Icepak提供了多种求解器类型,包括压力基求解器、密度基求解器、以及混合求 解器等。
、使用对称性等。
建模技巧与规范
03
提供一些建模过程中的实用技巧,如合理设置模型单位、使用
图层管理复杂模型、注意模型细节处理等。
8
网格类型及划分策略
网格类型介绍
自动与手动网格划分
详细解释Icepak支持的网格类型,如 结构化网格、非结构化网格、混合网 格等。
比较自动网格划分与手动网格划分的 优缺点,并提供使用建议。
3
平板电脑散热设计
针对平板电脑的轻薄特点,采用石墨烯等先进散 热材料,提高散热效率并降低噪音。
2024/3/23
20
数据中心散热设计案例
2024/3/23
服务器散热设计
针对服务器的高功率密度和长时间运行特点,采用液冷、风冷等 散热技术,确保服务器稳定运行。
数据中心整体散热设计
分析数据中心的热环境特点,合理规划空调系统、通风设备等,实 现整个数据中心的高效散热。
图像处理 介绍如何利用后处理工具对仿真 结果进行图像处理,如色彩映射 、等值线生成、透明度调整等。
16
数据可视化技巧与实例展示
2024/3/23
数据可视化技巧
分享数据可视化的基本原则和技巧,如选择合适的图表类型、调整色 彩和布局、添加标签和注释等。
实例展示
温度分布:通过实例展示如何利用后处理工具绘制温度分布云图,并 分析温度梯度对产品设计的影响。

Weka入门教程

Weka入门教程

Weka入门教程3. 分类与回归背景知识WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中,这是有原因的。

在这两个任务中,都有一个目标属性(输出变量)。

我们希望根据一个样本(WEKA 中称作实例)的一组特征(输入变量),对目标进行预测。

为了实现这一目的,我们需要有一个训练数据集,这个数据集中每个实例的输入和输出都是已知的。

观察训练集中的实例,可以建立起预测的模型。

有了这个模型,我们就可以新的输出未知的实例进行预测了。

衡量模型的好坏就在于预测的准确程度。

在WEKA中,待预测的目标(输出)被称作Class属性,这应该是来自分类任务的“类”。

一般的,若Class属性是分类型时我们的任务才叫分类,Class属性是数值型时我们的任务叫回归。

选择算法这一节中,我们使用C4.5决策树算法对bank-data建立起分类模型。

我们来看原来的“bank-data.csv”文件。

“ID”属性肯定是不需要的。

由于C4.5算法可以处理数值型的属性,我们不用像前面用关联规则那样把每个变量都离散化成分类型。

尽管如此,我们还是把“Children”属性转换成分类型的两个值“YES”和“NO”。

另外,我们的训练集仅取原来数据集实例的一半;而从另外一半中抽出若干条作为待预测的实例,它们的“pep”属性都设为缺失值。

经过了这些处理的训练集数据在这里下载;待预测集数据在这里下载。

我们用“Explorer”打开训练集“bank.arff”,观察一下它是不是按照前面的要求处理好了。

切换到“Classify”选项卡,点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。

3.5版的WEKA中,树型框下方有一个“Filter...”按钮,点击可以根据数据集的特性过滤掉不合适的算法。

我们数据集的输入属性中有“Binary”型(即只有两个类的分类型)和数值型的属性,而Class变量是“Binary”的;于是我们勾选“Binary attributes”“Numeric attributes”和“Binary class”。

weka使用教程

weka使用教程

大数据导论实验报告
实验一
姓名abc
学号asadsdsa
报告日期
实验一
一.实验目的
1实验开源工具Weka的安装和熟悉;
2.数据理解,数据预处理的实验;
二.实验内容
1.weka介绍
2.数据理解
3.数据预处理
4.保存处理后的数据
三.实验过程
1.导入数据并修改选项
2.用weka.filters.unsupervised.attribute.ReplaceMissingValues处理缺失值
3.用weka.filters.unsupervised.attribute.Discretize离散化第一列数据
4.用weka.filters.unsupervised.instance.RemoveDuplicates删除重复数据
5.用weka.filters.unsupervised.attribute.Discretize离散化第六列数据
6.用weka.filters.unsupervised.attribute.Normalize归一化数据
7.保存数据
四.实验结果与分析
1.数据清理后的对比图,上面的是处理前的图,下图是处理后的图
分析:通过两图对比可发现图一中缺失的数据在图二中已经添加上。

2.离散化第一行后的对比图,图片为离散化之后的效果图
分析:此次处理目标为第一列,可发现处理后‘age’这一列的数据离散化了。

3.删除重复数据之后的效果图
5.离散化第六列后的效果图
分析:此次处理目标为第六列,可清楚看到发生的变化6.归一化后的效果图
此次处理的目标是10,12,13,14列,即将未离散化的数值列进行归一化处理。

汉化基础教程完整版(PGCG汉化小组)

汉化基础教程完整版(PGCG汉化小组)

汉化基础教程(PGCG汉化小组)目录一.心态篇----------------------------------------------------------------------2二.基础篇(上)-----------------------------------------------------------------4三.基础篇(下)-----------------------------------------------------------------7四.初探篇--------------------------------------------------------------------11五.图形篇--------------------------------------------------------------------15 番外篇*汉化美工教程---------------------------------------------------------20六.文字篇(一)----------------------------------------------------------------27七.文字篇(二)----------------------------------------------------------------30八.文字篇(三)----------------------------------------------------------------35九.文字篇(四)----------------------------------------------------------------41十.文字篇(五)----------------------------------------------------------------45 十一.ASM篇----------------------------------------------------------------47 十二.压缩篇------------------------------------------------------------------54 十三.完结篇------------------------------------------------------------------57一心态篇游戏汉化是一个费力又费时的工程,没有游戏厂商的开发源程序,没有固定的某个软件,也没有固定的方式,一切都得靠自己手工劳作。

软件汉化教程(完整版)

软件汉化教程(完整版)

软件汉化全教程初识资源『资源简介』软件界面上的各种文字、图像、图标等,在编程的时候根据特定的格式分门别类地存放在软件里面,这些特定的格式就叫“资源”(Resource)。

软件资源分为标准资源和非标准资源(简称非标),标准资源通常可以通过PE类资源查看工具(如:PE Explorer、ResScope等)可视化查看编辑(VB除外),而非标目前还无法实现可视化预览。

特别注意的是VB程序资源比较特殊,上述分类概念不适用,但汉化人一般把VB窗体汉化器等提取的窗体资源称为标准资源,而通过点睛字符替换器提取的VB字串、Unicode字串和ASCII字串均称为非标。

常见的标准资源通常有Bitmap(位图)、Menu(菜单)、Dialog(对话框)、String(字符串)、RCData(RC-数据)、Cursor(光标)、Accelerator(加速器)、Icon(图标)、Version(版本)、Toolbar(工具栏)、Form(窗体),其中RC-data多见于Delphi程序中,Form多见于VB程序中。

非标资源主要包括ASCII字串、Unicode字串两大类。

标准资源汉化后,在软件界面或调用信息时显示、但又不出现在上述标准资源中的字串多数属于非标资源。

『汉化资源分布』由于编写软件所使用的编程工具不同,软件中的汉化资源发布位置也不尽相同,常见如下:1.VC类标准资源由Microsoft Visual C++编写,汉化资源一般分布于Menu、Dialog、String等;2.Delphi类标准资源由Borland Delphi编写,汉化资源一般分布在Rcdata和String 中;3.VB类标准资源由Microsoft Visual Basic编写,汉化资源一般出现在Form窗体中;3.非标资源Unicode字串和ASCII字串,后者又可细分为VB字串、Delphi字串和其他ASCII字串。

非标资源不出现标准资源中,需要专门的工具才能提取到。

IntelliJWebStorm2020.3.3最新激活教程附汉化补丁安装教程

IntelliJWebStorm2020.3.3最新激活教程附汉化补丁安装教程

IntelliJWebStorm2020.3.3最新激活教程附汉化补丁安装教程IntelliJ WebStorm 2020.3.3 激活汉化教程是⼀款专业的HTML编辑⼯具,是JetBrains2019最新更新的版本,在html5和JavaScript ⽅⾯也很出⾊。

可以说是“Web前端开发神器”、“最强⼤的HTML5编辑器”、“最智能的JavaScript IDE”。

新版对JavaScript,TypeScript和CSS⽀持更好,改进了Vue.js的体验,并为Jest集成增加了新功能。

今天脚本⼩编给⼤家分享的是IntelliJ WebStorm 2020.3.3 最新激活补丁和汉化补丁的安装激活教程,此款软件的激活⽐较⿇烦,每个版本激活⽅法都不⼀样,所以⼩编就给⼤家分享了详细的安装激活教程,图⽂并茂,亲测安装。

请使⽤真实有效的激活补丁和汉化补丁安装WebStorm 2020.3.3IntelliJ WebStorm (ws) 2020.3.3 最新激活补丁和汉化补丁附激活教程类型:编程⼯具⼤⼩:350MB语⾔:简体中⽂时间:2021-03-30查看详情安装激活教程1.在下载解压完成后,⼤家将获得WebStorm的激活补丁和汉化补丁,如图2.在安装激活补丁前,先安装软件,如图3.选择安装⽬录,默认⽬录:C:\Program Files\JetBrains\WebStorm 2020.3.3;(⼩编选择的是默认⽬录,便于安装,也有利于快速打开软件。

)4.勾选下图红框内的选择,其他的⼤家可以根据需要选择勾选,如图5.直接next即可,如图6.等待安装完成,如图7.安装完成,先不要运⾏软件,等待安装激活补丁,如图BetterIntelliJ.zip激活补丁+激活码使⽤教程webstorm 2020.3.3最新全家福通⽤补丁下载地址:在安装 JetBrains webstorm前,请⼤家务必先将之前的版本卸载⼲净,卸载完成后,打开“使⽤教程-reset_script⽂件夹,双击运⾏“reset_jetbrains_eval_windows.vbs清理残留⽂件!””。

weka中文教程

weka中文教程

WEKA 3-5-5 Explorer 用户指南原文版本 3.5.5翻译王娜校对 C6H5NO2Pentaho 中文讨论组QQ 群:12635055论坛:/bipub/index.asp/目录1 启动WEKA (3)Explorer (5)2 WEKA2.1 标签页 (5)2.2 状态栏 (5)按钮 (5)2.3 Log状态图标 (5)2.4 WEKA3 预处理 (6)3.1 载入数据 (6)3.2 当前关系 (6)3.3 处理属性 (7)3.4 使用筛选器 (7)4 分类 (10)4.1 选择分类器 (10)4.2 测试选项 (10)4.3 Class属性 (11)4.4 训练分类器 (11)4.5 分类器输出文本 (11)4.6 结果列表 (12)5 聚类 (13)5.1 选择聚类器(Clusterer) (13)5.2 聚类模式 (13)5.3 忽略属性 (13)5.4 学习聚类 (14)6 关联规则 (15)6.1 设定 (15)6.2 学习关联规则 (15)7 属性选择 (16)7.1 搜索与评估 (16)7.2 选项 (16)7.3 执行选择 (16)8 可视化 (18)8.1 散点图矩阵 (18)8.2 选择单独的二维散点图 (18)8.3 选择实例 (19)参考文献 (20)启动WEKAWEKA中新的菜单驱动的 GUI 继承了老的 GUI 选择器(类 weka.gui.GUIChooser)的功能。

它的MDI(“多文档界面”)外观,让所有打开的窗口更加明了。

这个菜单包括六个部分。

1.Programz LogWindow打开一个日志窗口,记录输出到stdout或stderr的内容。

在 MS Windows 那样的环境中,WEKA 不是从一个终端启动,这个就比较有用。

z Exit关闭WEKA。

2.Applications 列出 WEKA 中主要的应用程序。

z Explorer 使用 WEKA 探索数据的环境。

Vector Magic汉化版及中文使用教程

Vector Magic汉化版及中文使用教程

位图转矢量软件Vector Magic汉化版及中文使用教程它是一个可以自动描募的软件,可以把JPG、BMP、PNG、GIF等位图图像精确地转换为AI可以编辑的矢量格式,并且此软件容易操作,可以以全自动的方式运行转换。

此软件比AI和CDR自带的实时描募和位图转矢量图工具要强大的多。

一、载入图像:可以选择从一个文件夹载入、通过剪贴板载入,最简单的办法是把需要载入的图像直接拖拉到面板上的左边。

二、如果不太熟悉软件,可以在向导界面单击“全自动”按钮,系统会自动计算,然后弹出完成界面。

点击上步的完成按钮,弹出保存页面,可以点击另存按钮保存文件,系统提供了三种文件保存方法:另存、拖放和快速,可另存为AI、DXF、EPS、PDF等格式文件。

三、选择软件“基本”模式,选择这个模式后,要回答几个问题即可。

1、图像类型,有三种选择(1)照片模式:如数码相机获取的人物或风景图像。

(2)制品用混合边:如经过防锯齿处理的图形。

如果不确定类型,可以选择这个。

(3)作品无混合边:图像边缘生硬,指没有经过防锯齿处理的图形。

2、输入质量,也有三种选择(1)高:图像干净、清晰,无噪点。

(2)中:图像有少许噪点,比较的是经过JPEG压缩过的图像。

(3)低:图像不清晰,噪点比较多,或者是扫描分辨率比较低。

*对于一般扫描质量比较好的图,可以选择中等质量。

但在转矢量图之前,必须要在PS 中进行处理。

3、颜色模式也有三种选择(1)两色:比较典型的代表是黑白图像。

(2)自定义颜色:颜色由用户指定。

程序会提供建议的调色板,用户可进行编辑。

(3)多种颜色:使用所有必要的颜色,对有渐变的图像比较好。

*如果选择了(1)或(3)时,程序会直接进行矢量化过程。

但如果选择了自定义颜色,则程序会进入下一步“选择色板”,让用户指定、编辑颜色。

4、选择色板(1)建议的调色板:程序会自动分析,提供建议的色板供用户选择。

并在推荐的调色板前面用双箭头或单箭头标记。

用户还可以使用AddAdditional palette面板来增加另外的色板。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
WEKA 存储数据的格式是 ARFF(Attribute-Relation File Format)文件,这是一种 ASCII 文本文件。图 1 所示的二维表格存储在如下的 ARFF 文件中。这也就是 WEKA 自带的 “weather.arff”文件,在 WEKA 安装目录的“data”子目录下可以找到。
注意在稀疏格式中没有注明的属性值不是缺失值,而是 0 值。若要表示缺失值必须显 式的用问号表示出来。
Relational 型属性 在 WEKA 3.5 版中增加了一种属性类型叫做 Relational,有了这种类型我们可以像关 系型数据库那样处理多个维度了。但是这种类型目前还不见广泛应用,暂不作介绍。 -----整理自 -和
@attribute <attribute-name> <datatype> 其中<attribute-name>是必须以字母开头的字符串。和关系名称一样,如果这个字符 串包含空格,它必须加上引号。 WEKA 支持的<datatype>有四种,分别是 numeric-------------------------数值型 <nominal-specification>-----分类(nominal)型 string----------------------------字符串型
@attribute outlook {sunny, overcast, rainy} 如果类别名称带有空格,仍需要将之放入引号中。 字符串属性 字符串属性中可以包含任意的文本。这种类型的属性在文本挖掘中非常有用。示例:
@ATTRIBUTE LCC string 日期和时间属性 日期和时间属性统一用“date”类型表示,它的格式是
csvwrite('filename',matrixname) 需要注意的是,Matllab 给出的 CSV 文件往往没有属性名(Excel 给出的也有可能没 有)。而 WEKA 必须从 CSV 文件的第一行读取属性名,否则就会把第一行的各属性值读成 变量名。因此我们对于 Matllab 给出的 CSV 文件需要用 UltraEdit 打开,手工添加一行属 性名。注意属性名的个数要跟数据属性的个数一致,仍用逗号隔开。 .csv -> .arff
代码:
% ARFF file for the weather data with some numric features % @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data % % 14 instances % sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes rainy,68,80,FALSE,yes rainy,65,70,TRUE,no overcast,64,65,TRUE,yes sunny,72,95,FALSE,no sunny,69,70,FALSE,yes rainy,75,80,FALSE,yes sunny,75,70,TRUE,yes overcast,72,90,TRUE,yes overcast,81,75,FALSE,yes rainy,71,91,TRUE,no
学海无涯 将 CSV 转换为 ARFF 最迅捷的办法是使用 WEKA 所带的命令行工具。 运行 WEKA 的主程序,出现 GUI 后可以点击下方按钮进入相应的模块。我们点击进入 “Simple CLI”模块提供的命令行功能。在新窗口的最下方(上方是不能写字的)输入框 写上 java weka.core.converters.CSVLoader filename.csv > filename.arff 即可完成转换。 在 WEKA 3.5 中提供了一个“Arff Viewer”模块,我们可以用它打开一个 CSV 文件将 进行浏览,然后另存为 ARFF 文件。 进入“Exploer”模块,从上方的按钮中打开 CSV 文件然后另存为 ARFF 文件亦可。 “Exploer”界面 我们应该注意到,“Exploer”还提供了很多功能,实际上可以说这是 WEKA 使用最多 的模块。现在我们先来熟悉它的界面,然后利用它对数据进行预处理。
学海无涯
需要注意的是,在 Windows 记事本打开这个文件时,可能会因为回车符定义不一致而 导致分行不正常。推荐使用 UltraEdit 这样的字符编辑软件察看 ARFF 文件的内容。
下面我们来对这个文件的内容进行说明。 识别 ARFF 文件的重要依据是分行,因此不能在这种文件里随意的断行。空行(或全 是空格的行)将被忽略。 以“%”开始的行是注释,WEKA 将忽略这些行。如果你看到的“weather.arff”文件 多了或少了些“%”开始的行,是没有影响的。 除去注释后,整个 ARFF 文件可以分为两个部分。第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。第二部分给出了数据信息(Data information),即数据集中给出的数据。从“@data”标记开始,后面的就是数据信息了。 关系声明 关系名称在 ARFF 文件的第一个有效行来定义,格式为
@data 0, X, 0, Y, "class A" 0, 0, W, 0, "class B"
用稀疏格式表达的话就是 @data {1 X, 3 Y, 4 "class A"} {2 W, 4 "class B"}
学海无涯
每个实例用花括号括起来。实例中每一个非 0 的属性值用<index> <空格> <value>表 示。<index>是属性的序号,从 0 开始计;<value>是属性值。属性值之间仍用逗号隔开。
@relation <relation-name> <relation-name>是一个字符串。如果这个字符串包含空格,它必须加上引号(指英 文标点的单引号或双引号)。 属性声明 属性声明用一列以“@attribute”开头的语句表示。数据集中的每一个属性都有它对 应的“@attribute”语句,来定义它的属性名称和数据类型。 这些声明语句的顺序很重要。首先它表明了该项属性在数据部分的位置。例如, “humidity”是第三个被声明的属性,这说明数据部分那些被逗号分开的列中,第三列数 据 85 90 86 96 ... 是相应的“humidity”值。其次,最后一个声明的属性被称作 class 属性,在分类或回归任务中,它是默认的目标变量。 属性声明的格式为
@attribute <name> date [<date-format>] 其中<name>是这个属性的名称,<date-format>是一个字符串,来规定该怎样解析和显示 日 期 或 时 间 的 格 式 , 默 认 的 字 符 串 是 ISO-8601 所 给 的 日 期 时 间 组 合 格 式 “yyyy-MM-ddTHH:mm:ss”。
学海无涯
date [<date-format>]--------日期和时间型 其中<nominal-specification> 和<date-format> 将在下面说明。还可以使用两个类 型“integer”和“real”,但是 WEKA 把它们都当作“numeric”看待。注意“integer”, “real” , “numeric” , “date” , “string” 这 些 关 键 字 是 区 分 大 小 写 的 , 而 “relation”“attribute ”和“date”则不区分。 数值属性 数值型属性可以是整数或者实数,但 WEKA 把它们都当作实数看待。 分类属性 分类属性由<nominal-specification>列出一系列可能的类别名称并放在花括号中: {<nominal-name1>, <nominal-name2>, <nominal-name3>, ...} 。数据集中该属性的值 只能是其中一种类别。 例如如下的属性声明说明“outlook”属性有三种类别:“sunny”,“ overcast” 和“rainy”。而数据集中每个实例对应的“outlook”值必是这三者之一。
@data sunny,85,85,FALSE,no ?,78,90,?,yes 字符串属性和分类属性的值是区分大小写的。若值中含有空格,必须被引号括起来。 例如:
@relation LCCvsLCSH @attribute LCC string @attribute LCSH string @data AG5, 'Encyclopedias and dictionaries.;Twentieth century.' AS262, 'Science -- Soviet Union -- History.'
数据信息部分表达日期的字符串必须符合声明中规定的格式要求(下文有例子)。 数据信息 数据信息中“@data”标记独占一行,剩下的是各个实例的数据。每个实例占一行。 实例的各属性值用逗号“,”隔开。如果某个属性的值是缺失值(missing value),用问 号“?”表示,且这个问号不能省略。例如:
学海无涯
3、数据准备
使用 WEKA 作数据挖掘,面临的第一个问题往往是我们的数据不是 ARFF 格式的。幸好, WEKA 还提供了对 CSV 文件的支持,而这种格式是被很多其他软件所支持的。此外,WEKA 还提供了通过 JDBC 访问数据库的功能。
相关文档
最新文档