weka算法参数整理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
取出特定百分比的数据作为训练数据集训练模型,其他数据作为 测试数据。
以上所述训练数据集和测试数据集均为模型验证时候的数据集,与模型的建立无关,模型建立均用实验提供的全部 训练数据集。
3.2. 分类算法输出选项界面
英文名称
中文翻译
配置说明
Output model
输出模型
输出通过完整训练集得到的分类模型,以便能够浏览、 可视化等。
lowerBoundMinSupport 最小支持度下限 0.1
(0,upperBoundMinSupport ) 迭代过程中最小支持度的下限。
metricType minMetric
度量类型 最小度量值
confidence Confidence (置信度) Lift (提升度) >1 Leverage(杠杆率)
取样的随机种子
随机抽取测试数据时产生随机数的种子
Preserve order for split
取样时保持顺序
抽取测试数据集时是否保持数据的顺序抽取,如果不选 择此选项,则随机抽取。
Output source code
输出源代码
输出构建模型的 java 源代码,并能指定 java 类的名称。
3.3. 分类算法评价尺度参数界面及解释
numfolds
折数
10
seed
随机数种子
10
取值范围 False True False Ture False True [1,+∞) {-1,[1,N]}
参数说明 调试信息不输出 输出调试信息 以新的形式输出结果,当聚类数目比较少时比较合适。 以旧的形式输出结果,当聚类的数目比较多的时候比较合适。 在聚类之前,检查聚类器的使用范围。 在聚类之前,不检查聚类器的使用范围。 最大的迭代次数 聚类数目不超过这个值;当为-1 时,交叉验证自动选择。
{-1,[1,N]} [1,?]
设定结果中簇的数目。当为-1 时,交叉验证自动确定。 设置可用的 cpu 数目 交叉验证的折数,判定最好的聚类数目,其中一折用于验证,其他用于训练。 使用的随机数种子,不随机化则该值设为-1
3. 分类算法 3.1. 分类算法主界面
ຫໍສະໝຸດ Baidu
英文名称 Use training set Supplied test set
Cross-validation
Percentage split
中文翻译 使用训练集 提供测试集
交叉验证
分割百分比
配置说明
使用训练集训练并直接使用训练集测试。
使用训练集训练模型,从文件中加载一组测试实例,单击 “Set...” 按钮选择测试文件,进行模型测试。
把数据分成 k 份,从第 1 份开始,作为测试数据,其他作为训练 数据集,一直到第 k 份结束,验证模型的能力。
最大迭代次数 簇数目 最大执行线程数目 保持实例顺序
reduceNumberOfDistanceCalcsVi 减少计算距离数目 aCanopies
500 2 1 False
False
取值范围 [1,+∞)
? ? (T2,+∞) (-∞,T1) False True False True EuclideanDistance Manhattan distance False True False True False True Random k-means++ Canopy farthest first [1,+∞) [2,N) [1,?] False True False
Conviction(确信度)
0.9
根据 metricType 取值不同
规则项集数目占规则前件数目比例;car 为 True,metricType 只能用 confidence。
P(A,B)/P(A)P(B);规则前件和规则后件同时发生的概率除以分布单独发生的概率 之积; Lift=1 时表示 A 和 B 独立,数值越大前后件关联性越强。
Supplied test set
提供测试集
使用训练集训练模型,从文件中加载一组测试实例,单击 “Set...” 按钮选择测试文件,进行模型测试。
Percentage split
分割百分比
取出特定百分比的数据作为训练数据,其他作为测试数据。
Class to clusters evaluations 类作为评估准则 比较所选择的簇与预先指定的类的匹配程度。
1. 关联算法 1.1. Aprior 算法
1.1.1. Apriori 算法 weka 参数界面
概要 实现 Apriori 关联规则挖掘算法,挖掘出给定参数条件下的关联规则。此迭代的减少最小支持度直到发现设定最小 置信度下的规则数目。
1.1.2. Apriori 算法参数配置说明
英文名称
中文翻译
2.3.2. EM 聚类算法参数界面
2.3.3. EM 聚类算法参数说明
英文名称 debug
中文翻译 设置调试模式
默认值 False
displayModelInOldFormat
以旧格式显示结果 False
doNotCheckCapabilities
不检查适用范围
False
maxIterations
中文翻译 内存中最大 canopy 数目
最低 canopy 密度 修剪周期 Canopy 聚类 T1 半径 Canopy 聚类 T2 半径 设置调试模式
默认值 100
2.0 10000 -1.25 -1 False
displayStdDevs
显示标准差
False
distanceFunction
距离函数
输出混淆矩阵
输出中包括分类器对测试数据集预测得到的混淆矩阵
Store prediction for visualization
为可视化保留预测
保存分类器的预测结果,以便可视化。
Error plot point size proportional to ? margin
Output prediction
Correct Incorrect Kappa
Total cost
Average cost KB relations KB information correlation
默认值 取值范围
参数说明
car
分类关联分析
False
False
返回常规的关联分析规则
True
返回指定分类属性的关联规则
classIndex delta
分类属性索引
-1
delta
0.05
{-1,[1,N]} int (0,1)
-1 代表最后一列,设置的数字代表相应的列作为分类属性;Car 为 True 时生效。 每次迭代 upperBoundMinSupport 减少的数值,直到最小支持度或设定规则数目。
Output per-class stats
输出每类的统计信息 输出每个分类的 TP rate,FPrate,查准率/查全率以及 True/False 统计信息。
Output entropy evaluation measures ?输出熵评估量度 输出中包括熵评估度量
Output confusion matrix
参数说明 如果用 canopy 聚类方法进行初始化,这个参数就是在内存中保存 的最大的候选 canopies 数目。 在使用 canopy 初始化时,在修剪时的 canopy 最低密度。 如果用 canopy 初始化,参数为修剪低密度 canopies 周期。 canopy 聚类时 T1 半径,当小于 0 时,T1=(-values)*T2。 canopy 聚类时 T2 半径,当值为负数时,根据属性标准差求出。 调试信息不输出 输出调试信息 不显示数值属性的标准差,不统计标称属性每类的数目。 显示数值属性的标准差,或统计标称属性没类的数目。 欧氏距离 马氏距离 在聚类之前,检查聚类器的使用范围。 在聚类之前,不检查聚类器的使用范围。 在全局范围内用平均值或中数替换缺失值 不替换 根据 cut-off 值加速距离计算 不加速距离计算 随机选取质心 先使用 k-means++聚类算法初始化质心 先使用 Canopy 聚类算法初始化质心 先使用 farthest firsty 聚类算法初始化质心 迭代过程中达到最大迭代次数结束本次聚类。 设定聚类个数,即最后被聚成几类。 设置成可用的 cpu 数目 保持实例顺序 不保持实例顺序 在用 canopy 聚类初始化时,减少计算距离的数目。
最大迭代次数
100
maximumNumberOfClusters
最大的聚类数目
-1
minLogLikelihoodImprovementIter
ating
minLogLikelihoodImprovementCV
minStdDev
numClusters
簇数目
-1
numExecutionSlots
最大执行线程数目 1
True
seed
随机数种子
10
使用的随机数种子,不随机化则该值设为-1
2.3. EM 聚类算法
2.3.1. EM 聚类算法适用范围
Class

No class
Attributes Numeric Empty nominal Nominal Missing values Unary Binary
属性
EuclideanDistance
doNotCheckCapabilities
不检查适用范围
False
dontReplaceMissingValues
不替换缺失值
False
fastDistanceCalc
加速距离计算
False
initializationMethod
初始化质心方法
Random
maxIterations numClusters numExecutionSlots preserveInstancesOrder
Store cluster for visualization 为可视化保存簇 选择后训练完成后,保存簇以供可视化使用
2.2. SimpleKMeans 算法
2.2.1. SimpleKMeans 算法参数配置用户界面和开发模式界面
2.2.2. SimpleKMeans 聚类算法参数配置说明
英文名称 canopyMaxNumCanopiesToHoldI nMemory canopyMinimumCanopyDensity canopyPeriodicPruningRate canopyT1 canopyT2 debug
verbose
详细模式
False
False True
算法不以冗余模式运行 算法以冗余模式运行
2. 聚类
2.1. weka 聚类主界面及参数说明
2.1.1. 聚类算法主界面
2.1.2. 聚类算法主界面参数说明
英文名称
中文翻译
配置说明
Use training set
使用训练集
使用训练集训练并直接使用训练集测试。
False
significanceLevel treatZeroAsMissing
显著性水平
-1?
按照缺失值处理零 False
upperBoundMinSupport 最小支持度上限 1
False True (0,1) False True (lowerBoundMinSupport,1]
不移除所有值都缺失的列 移除所有值都缺失的列 χ2 检验的显著性水平,-1 则不进行检验。(仅适用于置信度度量) 不按照缺失值的相同方式处理零(标称型的第一个值) 按照缺失值的相同方式处理零(标称型的第一个值) 迭代过程中最小支持度的上限;迭代过程中从该值开始降低。
P(A,B)-P(A)P(B);Leverage=0 时 A 和 B 独立,数值越大 A 和 B 的关联性越强。
P(A)P(!B)/P(A,!B) (!B 表示 B 没有发生) Conviction 也是用来衡量 A 和 B 的 独立性。从它和 lift 的关系(对 B 取反,代入 Lift 公式后求倒数)可以看出,这 个值越大, A、B 越关联。
Confidence(0,1); lift >1; leverage >0; conviction (0,1)
numRules
规则数目
10
[1,+∞] int
关联算法产生规则的数目
outputItemSets
输出项集
False
False
不输出频繁项集
True
输出频繁项集
removeAllMissingCols 移除空列
输出预测
分别以 csv、html、null(不输出)plaintext、xml 格式输 出对测试数据集的预测,可输出到指定文件。
Cost- sensitive evaluation
成本敏感评估
成本矩阵用于评估错误率,点击 set 按钮允许用户指定 所使用的成本矩阵。
Random seed for xval /% split
相关文档
最新文档