weka内嵌特征选择算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
属性评估方法:
CfsSubsetEval:根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估。ChiSquaredAttributeEval:根据与分类有关的每一个属性的卡方值进行评估。ClassifierSubsetEval:根据训练集或测试集之外的数据评估属性子集。ConsistencySubsetEval:根据利用属性子集进行分类时得到的分类值的一致性进行评价。CostSensitiveAttributeEval:根据使其基础子集评估开销敏感性,变化选择子集评估方法。CostSentitiveSubsetEval:方法同上。
FilteresAttributeEval:运行在任意过滤器之后的数据上的任意属性评估。FilteredSubsetEval:方法同上。
GainRatioAttributeEval:根据与分类有关的每一个属性的增益比进行评估。InfoGainAttributeEval:根据与分类有关的每一个属性的信息增益进行评估。LatenSemanticAnalysis:根据数据的潜在的语义分析和转换进行评估,与随机搜索结合。OneRAttributeEval:根据OneR分类器评估属性。
PrincipalComponents:根据数据的主要成分分析和转换进行评估。ReliefFAttributeEval:通过反复测试一个实例和其同类或不同类中最近的实例上的属性值进行评估。
SignificanceAttributeEval:计算双向功能的概率意义评估属性值。SymmetricalUncertAtrributeEval:根据与分类有关的每一个属性的对称不稳定性进行评估。SymmetricalUncertAtrributeSetEval:根据与其他属性集有关的每一个属性的对称不稳定性进行评估。
WrapperSubsetEval:使用一种学习模式对属性集进行评估。
注:Filter类型的评估方法关注每一个属性的预测能力(最优特征子集由预测能力最强的那些单个属性组成),其一般借鉴统计、信息论的思想,根据数据集内在特性来进行评估;Wrapper类型的评估方法是用后续的学习算法嵌入到特性选择方程中,通过测试特征子集在此算法上的预测性能来决定其优劣。
搜索算法:
BestFirst:可回溯的贪婪搜索扩张,最好优先原则。
ExhaustiveSearch:穷举搜索,从空集出发。
FCBFSearch:基于相关性分析的特征选择方法。相关性匹配搜索。
GeneticSearch:Goldberg(1989)提出的简单遗传算法。
GreedyStepwise:向前或向后的单步搜索。
LinearForwardSelection:线性向前搜索。
RaceSearch:比较特征子集的交叉验证错误情况。
RandomSearch:随机搜索。
Ranker:对属性值排序。
RankSearch:选择一个评估器对属性进行排序。
ScatterSearchV1:离散搜索。
SubsetSizeForwardSelection:按照特征子集大小向前线性搜索,这是线性搜索的扩展。TabuSearch:禁忌搜索。