基于佳点集遗传算法的特征选择方法

合集下载

基于遗传算法的特征选择方法

基于遗传算法的特征选择方法
(
图%
基于遗传算法的自适应特征选择过程
#
遗传特征选择的关键技术
应用遗传算法解决任何问题的关键是给出一个适合于遗
传操作的个体编码表示及定义一个较佳的适应度函数。
#$%
遗传个体表示
编码问题的关键就是要使编码能够代表所给特征集的所
有可能子集的解空间。 最简单的方法就是用一个二进制基因位 表示所选特征子集中的一个特征, 这样, 每一个遗传个体就是 由定长的二进制串构成, 它表示一个可能的最优特征子集。 据此, 一 个 长 度 为 ! 的 个 体 对 应 于 一 个 ! 维 的 二 进 制 特 它的每一位就表示包括或排除一个相应的特征。 征矢量 " , #$?% 表示第 $ 个特征项包含于所选特征子集中, 否则 #$%" 。例如: 有 〈#%#!#’###&〉 , 一个形如 〈%%"%" 〉 的个体 & 个特征的特征 集 表 示 为 就表示所选特征子集为 @#%, #!, ##A。 如果用穷尽搜索方法求解最优特征子集, 对于一个包含 & 个特征的集合, 将有 !& 种可能的子集组合, 如此庞大的搜索空 间, 势必是不可行的 =B>。 而用遗传算法求解, 既可保证全局最优, 又避免了巨大的搜索代价。
! 问题描述和相关工作 !$% 问题描述
因为代表问题空间的每一个特征都会增加分类系统的代 价和运行时间, 为提高搜索效率, 首先应对特征空间进行压缩, 删去多余、 对分类贡献小及对正确分类有影响的特征, 找出能 代表问题空间的最优特征子集。 该文用基于遗传算法的特征选 择作为识别系统的 “前 端 ” , 以降低识别系统的搜索空间, 同时 保证所选出的特征子集尽可能不丢失原问题空间含有的信息,

基于遗传算法的特征选择

基于遗传算法的特征选择

基于遗传算法的特征选择遗传算法是一种模拟生物进化过程的优化算法,已被广泛应用于特征选择问题。

特征选择是从原始特征集中选择出最具代表性和有区分度的特征子集,以提高机器学习算法的性能和效率。

遗传算法特征选择方法的基本原理是将每个特征看作一个基因,形成一个特征基因组,通过模拟自然界的进化过程来逐步优化选择最佳的特征子集。

具体来说,遗传算法通过以下步骤来进行特征选择:1.初始化:随机生成初始特征子集,可以是全特征集的一个子集或一个空集。

2.评估:使用其中一种评估指标来评估特征子集的质量,如分类准确率、回归误差等。

3.选择:根据评估结果,选择一部分优秀的特征子集,作为下一代的父代。

4.交叉:通过交叉操作,将父代特征子集的一些特征基因组合形成新的特征子集。

5.变异:对新生成的特征子集进行变异操作,改变一些特征基因的取值或位置。

6.替换:用新生成的特征子集替代上一代中质量较差的特征子集。

7.终止条件:重复以上步骤直到达到终止条件,如达到最大迭代次数、收敛到最优解等。

8.输出最佳解:输出最终得到的最佳特征子集,作为特征选择的结果。

遗传算法特征选择方法的优点包括:1.全局能力:遗传算法能够通过不断迭代和演化找到最佳的特征子集,有效避免了落入局部最优的问题。

2.并行计算能力:由于每一次迭代中都可以并行地对多个特征子集进行操作,因此遗传算法能够充分利用并行计算的优势,提高算法的效率和速度。

3.自适应性:遗传算法能够自适应地对特征子集进行调整和改进,根据问题的特点和要求来适应不同的数据集和应用场景。

遗传算法特征选择方法的应用场景非常广泛,包括模式识别、数据挖掘、生物信息学等领域。

在实际应用中,结合遗传算法特征选择方法可以帮助我们发现数据中最重要的特征,减少特征空间的维度,提高机器学习算法的性能和可解释性。

然而,遗传算法特征选择方法也存在一些不足之处。

首先,算法的效率会受到数据集规模和维度的限制。

当数据集较大或特征维度较高时,算法的计算复杂度会显著增加。

基于改进遗传算法的支持向量机特征选择

基于改进遗传算法的支持向量机特征选择

数 进 行 编 玛
息 量

的最 优 适 应 度 增 幅 比
I竺 兰
图2 改进遗传算法的流程图
上 式 可 知 ,分 类 正 确 率 越 高 ,未 选 的

独立敏感度信 邑量和互敏感度信息量
染色体 编码 和适应度 函数
所 谓 编 码 是 指 将 问 题 的 解 空 间转 换成遗 传算法所能处理 的搜索空 间。

j

设 计思 路
责任 编辑 : 韩汝水
基 于 改 进 遗 传 算 法 的支 持 向量 机 特 征 选 择
Fe
a
tu
re
S e le
c
t io
n
fo
r
SV M Ba
s e
d
o n
Im p
Байду номын сангаас
ro v e
d G
e n e
t i c A lg o
r
it h m
《 张 子 宁 单甘霖 段 修 生 张 岐 龙 军 械 工 程 学 院 光 学与 电 子 工 程 系 (河 北 石 家 庄 0 5 0 0 0 3 )


自 适应煲异率

敏 惑 度
÷



构 造 初

计算种群 的适 应 度
并找 出该 群体 中的 最优 个 体
选 择 交 叉


到 新 种

计算 新 种 群 相 对于 旧 种群 中






异 操 作

基于遗传算法的特征选择方法研究

基于遗传算法的特征选择方法研究

基于遗传算法的特征选择方法研究引言数据中的特征选择一直以来都是机器学习和数据挖掘领域的关键问题之一。

特征选择是从大量的特征中选择出最具有代表性和对目标任务最有用的特征。

在实际应用中,选择合适的特征可以提高机器学习算法的准确性、降低计算复杂度并减少存储需求。

在本文中,我们将介绍基于遗传算法的特征选择方法,并分析其在各个领域的应用及优势。

一、遗传算法简介遗传算法是一种模拟自然生物进化过程的优化算法,通过模拟自然界生物种群的演化,以寻找最佳解。

遗传算法主要包括选择、交叉、变异等基本操作。

通过对种群中个体的适应度评估和选择,以及基因的交叉和变异,可以不断优化求解问题的适应度值,并逐渐逼近最优解。

二、特征选择的方法特征选择方法可以分为三大类:过滤式方法、包装式方法和嵌入式方法。

过滤式方法通过计算特征的相关性或者信息熵等指标,独立于具体的学习算法,从而选择出最具有代表性的特征。

包装式方法则将特征选择问题视为一个优化问题,利用机器学习算法的性能评估指标作为目标函数,通过搜索算法选择出最优的特征子集。

嵌入式方法则将特征选择融入到学习算法中,通过学习算法自身的优化过程选择出最优的特征子集。

三、基于遗传算法的特征选择方法基于遗传算法的特征选择方法是一种包装式方法,它通过自动优化特征子集的选择,提高机器学习算法的性能。

其基本思想是将特征子集表示为二进制编码的染色体,并使用遗传算法进行进化优化。

具体而言,基于遗传算法的特征选择方法包括以下步骤:1. 初始化种群:随机生成一定数量的个体作为种群。

2. 适应度评估:根据染色体表示的特征子集,使用机器学习算法训练模型,并根据模型的性能评估指标计算每个个体的适应度。

3. 选择操作:根据个体的适应度值,使用选择算子选择出一部分优秀的个体作为父代。

4. 交叉操作:从父代中选择两个个体,通过交叉算子生成下一代的染色体。

5. 变异操作:对新生成的染色体应用变异算子进行变异操作,引入新的基因。

一种基于改进遗传算法的特征选择方式

一种基于改进遗传算法的特征选择方式

的思 想提 出的一 种全局 启发式 优化 算法 _ 2 ] 。为 复
O 引 言
在原 始特 征 集 中 , 包 含 着 可 用 于 分类 的全 部
特征 向量 。如 何从 原始 特征 向量集合 中提取 出一
杂 问题 的求 解提 供 了一个通 用框架 。由于其具 有
全局 并行搜 索 、 很 好 的鲁棒性 和通 用性 强等特 点 , 使得 该算 法不 易 陷于 局 部最 优 , 同时 不 依赖 于 问 题 的梯度信 息 , 尤 其适 合 于 传统 搜 索 方 法所 不 能 解决 的复 杂 问题 和 非 线 性 问 题口 ] , 并 在 许 多 领
但是 遗传算 法也 存在不 足之 处 : 1 ) 在 缺少 覆盖整 体样本 分 布的训 练样本 的情
况下, 其 所获得 的解 的泛化 能力 较差 ;
在 缺少 覆盖整 体 样 本分 布 的训 练样 本 时 , 如 何 获 得 泛化 能力更 强 的特征 子 集 , 这 是 一 个 亟待 解 决
的J o h n Ho l l a n d教 授 根 据 生 物 进 化 论 和遗 传 学
传 算法 ( 简称 P KG — GA) 。该 方 法 利 用 问题 的先
第 1期
李红磊 : 一 种 基 于 改 进 遗 传 算 法 的 特征 选 择, 以适 度先 验知 识优 先为 原则 , 通 过构
域l 4 获得 了成功 应用 。
组特 征 向量作 为分类 依据 才能 最好 程度解 决所 有 样本 分类 问题 , 这 是 组合 优 化 范 畴 内 特征 的选 择
问题 。特征选 择 也 称 为特 征 子 集选 择 , 而最 佳 特 征 子集选 择 是 一 个 典 型 的 NP类 问题 l 1 ] 。但 是 ,

基于遗传算法的特征选择

基于遗传算法的特征选择

College of Mathematics and Computer Science
(a) 选择(Selection)算子
依据每个染色体的适应值大小,适应值越大,被选中的概率 就越大,其子孙在下一代产生的个数就越多。 选择操作是建立在群体中个体的适应值评估基础上的,目前 常用的选择算子有赌轮选择方法、保留最佳个体选择法、期 望值选择方法等。
College of Mathematics and Computer Science
基于遗传算法的特征选择
College of Mathematics and Computer Science
What Why How
College of Mathematics and Computer Science
What
回答什么是遗传算法?什么是特征选择? 1. 遗传算法是模拟进化论,搜索优化问题最优解的一种算法。它采 用群体搜索策略,一代一代逐步进化,直到收敛到问题的最优解。 2. 群体是个体的集合,个体模拟一个问题的一个解。 关键问题: 1. 个体如何表示? 方法:问题编码 2. 如何产生下一代? 方法:遗传操作 3. 如何评价种群的质量? 方法:适应度函数
遗传操作
下一代种群
输出结果
College of Mathematics and Computer Science
1. 问题编码 对于特征选择问题,问题编码很简单,采用0-1编码即可。 任何一个n元0-1串,都表示问题的一个解。 2. 如何产生下一代 通过选择、交叉、变异三种遗传操作产生下一代,前两种操作每一 次都要用的,而第三种则不一定,但没有规则。 选择是用来选择交叉的父本,交叉(模拟有性繁殖)产生新的个体,变 异是某一位的变异。 3.如何评价种群的质量 适应度函数设计,对于特征选择问题可采用如下的类别可分离性准 则,设计适应度函数。

基于遗传算法的特征选择知识讲解

基于遗传算法的特征选择知识讲解

基于遗传算法的特征选择知识讲解1.基本原理:基于遗传算法的特征选择主要通过三个操作来模拟自然界的进化过程:选择、交叉和变异。

在每一代中,根据其中一种目标函数,从当前的特征子集中选择适应度较高的个体,将它们进行交叉和变异操作,生成新的个体。

通过不断迭代,逐渐寻找到最优的特征子集。

2.适应度函数:适应度函数在基于遗传算法的特征选择中起到了重要作用。

适应度函数的定义需要结合具体的分类任务和评估指标,常见的有准确率、召回率、F值等。

适应度函数的目标是寻找到一个特征子集,使得分类器的性能达到最优。

根据问题的具体要求,适应度函数可以进行灵活的定义。

3.选择操作:选择操作是基于适应度函数,从当前的特征子集中选择出适应度较高的个体。

常用的选择策略包括轮盘赌选择、锦标赛选择等。

轮盘赌选择根据每个个体的适应度值,计算出其被选择的概率,然后随机选择个体。

锦标赛选择则是随机选择一定数量的个体,从中选择适应度值最高的个体作为下一代的父代。

4.交叉操作:交叉操作是基于染色体的基因组合,生成新的个体。

常用的交叉方式有单点交叉、多点交叉、均匀交叉等。

单点交叉是在染色体的其中一个位置进行切割,然后将两个父代的染色体片段进行互换,得到两个新的个体。

多点交叉和均匀交叉则是在多个位置或全部位置进行切割和互换。

5.变异操作:变异操作是为了增加种群的多样性,防止陷入局部最优。

常用的变异方式有位变异和插入变异。

位变异是对染色体的其中一位基因进行随机变异,比如将0变为1或将1变为0。

插入变异则是将染色体上的其中一个基因插入到另一个位置。

6.终止条件:终止条件是指算法停止迭代的条件。

常见的终止条件包括达到最大迭代次数、种群的平均适应度达到阈值、种群的适应度值趋于稳定等。

-能够通过自动的方式发现最优的特征子集,避免了人工选择特征的主观性和主观性的错误。

-能够处理大规模的特征集合,有效地减少了特征维度。

-能够对特征之间的相关性进行处理,提高了分类器的预测性能。

几种常用的特征选择方法

几种常用的特征选择方法

几种常用的特征选择方法特征选择在机器学习和数据挖掘领域中起着至关重要的作用,它用于从原始特征集中选择最具有预测能力和解释性的特征子集,以提高模型的性能和可解释性。

以下是几种常用的特征选择方法:1. 过滤法(Filter Method):过滤法通过计算特征与输出变量之间的相关性来进行特征选择。

常用的过滤法包括:-方差选择:选择方差较大的特征,即那些在输入变量间有较大变化的特征。

这种方法对于连续特征更为常见。

-互信息:衡量特征与输出变量之间的统计依赖关系。

该方法适用于连续和离散特征。

-相关系数:计算特征与输出变量之间的线性相关性。

较高的相关性意味着该特征对于预测输出变量很重要。

2. 包装法(Wrapper Method):包装法通过特定的机器学习算法来评估特征子集的性能。

常用的包装法有:- 递归特征消除(Recursive Feature Elimination, RFE):根据模型的权重或系数评估每个特征的重要性,并逐步消除最不重要的特征。

-基于遗传算法的特征选择:利用遗传算法最优的特征子集,其中每个特征子集被看作候选解,并通过适应度函数评估性能。

3. 嵌入法(Embedded Method):嵌入法将特征选择过程融入到机器学习的训练过程中,即特征选择和模型训练同时进行。

常见的嵌入法有:- 正则化方法:如L1正则化(Lasso)和L2正则化(Ridge)等,它们对模型的权重进行限制,从而过滤掉一些对输出变量没有贡献的特征。

-决策树:根据决策树的分裂规则和信息增益,选择最佳的划分特征。

这种方法可以从特征空间中选择相对较优的子集。

4. 混合方法(Hybrid Method):混合方法将多种特征选择方法结合起来,以达到更好的特征子集选择效果。

常见的混合方法有:-机器学习算法嵌入特征选择:在训练机器学习模型时,同时使用特征选择算法来选择特征子集。

-基于遗传算法的特征选择和过滤法的结合:使用遗传算法特征子集,并通过过滤法进行进一步筛选。

基于遗传算法的特征选择方法

基于遗传算法的特征选择方法

基于遗传算法的特征选择方法Genetic Algorithm (GA) is a powerful optimization technique that mimics the process of natural evolution. 遗传算法(GA)是一种强大的优化技术,模拟了自然进化的过程。

It starts with a random populationof individuals, which are then evolved over multiple generations to find an optimal solution to a given problem. 它从一个随机的个体群体开始,然后经过多代演化来寻找给定问题的最优解。

One of the key applications of genetic algorithms is feature selection, a process of selecting the most relevant features from a dataset to improve the performance of machine learning models. 遗传算法的一个关键应用是特征选择,这是从数据集中选择最相关的特征,以改善机器学习模型的性能。

Feature selection is essential in machine learning tasks as it helps to reduce the dimensionality of the data and improve the accuracy of the models. 特征选择在机器学习任务中是必不可少的,因为它有助于减少数据的维度并提高模型的准确性。

Genetic algorithms offer a promising approach to feature selection by searching through a large space of possible feature subsets to find the most optimal set for a given problem. 遗传算法通过搜索大量可能的特征子集来为给定问题找到最优的特征集,为特征选择提供了一个有希望的方法。

基于遗传算法的特征选择及其在文本分类中的应用

基于遗传算法的特征选择及其在文本分类中的应用

基于遗传算法的特征选择及其在文本分类中的应用遗传算法是一种优化算法,它通过基因交叉和变异等方式对群体进行进化,从而获得优秀的解。

在特征选择中,遗传算法可以通过对特征子集的搜索来找到最佳特征子集,从而提高分类器的性能和减少计算量。

一、特征选择的意义在数据挖掘和机器学习中,特征选择是一个非常重要的步骤。

特征过多会导致算法的计算量大大增加,同时也会影响算法的精度。

因此,如何选择合适的特征子集是一个极为重要的问题。

特征选择的目的是找到一个最小的特征子集,使得该子集能够最好地描述样本的特征。

通过特征选择,我们可以减少计算量,同时还可以降低模型过拟合的风险。

二、遗传算法的原理遗传算法是一种生物进化的模拟过程。

它通过将个体看作基因编码,并通过基因交叉、变异等遗传操作来实现进化。

具体过程如下:1、初始化种群:生成随机的特征子集作为初始种群。

2、适应度评价:对于每个个体,通过分类器对样本进行分类,计算其准确率作为个体的适应度。

3、选择:利用适应度函数选择种群中的父代个体。

4、交叉:以一定的概率进行交叉操作,生成新的后代个体。

5、变异:以一定的概率进行变异操作,产生新的变异个体。

6、更新种群:将新的后代个体和原始个体结合,形成新的种群。

7、判断终止条件:通过判断终止条件,如达到最大代数或达到预设的最优适应度值等来判断算法是否终止。

三、遗传算法在特征选择中的应用遗传算法在特征选择中的应用主要是通过搜索特征子集的方法,找到最佳特征子集,并通过这些特征子集构建分类器。

在遗传算法中,一个个体的基因编码即为特征子集,可以将每个特征赋予一个二进制的编码。

可以根据设定的编码方式将特征子集转化为二进制编码,并将这些编码作为个体进行遗传操作。

通过适应度函数,遗传算法可以对个体进行适应度评价,根据适应度函数的值对个体进行选择,从而实现特征子集的搜索。

在特征选择中,适应度函数一般采用分类器的准确率作为评价标准,即根据不同特征子集构造分类器并对样本进行分类,并计算分类器的准确率。

使用基于分类器集成的遗传算法进行特征选择的方法[发明专利]

使用基于分类器集成的遗传算法进行特征选择的方法[发明专利]

专利名称:使用基于分类器集成的遗传算法进行特征选择的方法
专利类型:发明专利
发明人:L·赵,L·博罗茨基,L·A·阿尼霍特里,M·C·C·李
申请号:CN200780034729.9
申请日:20070917
公开号:CN101517602A
公开日:
20090826
专利内容由知识产权出版社提供
摘要:本文提供了用于执行基于遗传算法的特征选择的方法。

在某些实施例中,所述方法包括以下步骤:将多个数据分割模式应用于学习数据集以建立多个分类器进而获得至少一个分类结果;整合来自所述多个分类器的所述至少一个分类结果以获得整合的准确度结果;以及将所述整合的准确度结果作为用于候选特征子集的适应度值输出到遗传算法,其中执行基于遗传算法的特征选择。

申请人:皇家飞利浦电子股份有限公司
地址:荷兰艾恩德霍芬
国籍:NL
代理机构:永新专利商标代理有限公司
代理人:王英
更多信息请下载全文后查看。

Matlab基于遗传算法的特征选择方法

Matlab基于遗传算法的特征选择方法

Matlab基于遗传算法的特征选择方法引言:机器学习和数据挖掘在当今科学领域中扮演着重要角色。

为了提高算法的效率和准确性,特征选择成为了一个非常重要的研究方向。

特征选择的目的是从原始数据中选择出最具有代表性的特征集合,以提高模型的泛化能力和性能。

本文将介绍一种基于遗传算法的特征选择方法,用于解决这个问题。

一、特征选择的意义和挑战特征选择是机器学习和数据挖掘中一个非常重要的预处理步骤。

在实际应用中,原始数据集通常包含大量的特征变量,但并非所有的特征对于建立模型都有贡献。

过多的特征可能导致维度灾难和模型复杂度增加,而不具有代表性的特征可能对模型的性能产生负面影响。

因此,特征选择的目的是从原始特征中筛选出最有代表性的特征子集,以提高模型的性能和泛化能力。

然而,特征选择面临着很多挑战。

首先,特征选择问题是一个组合优化问题,寻找最佳子集需要遍历所有可能的特征组合,计算成本非常高。

其次,如何衡量特征的代表性和相关性也是一个难题。

不同的评价指标对特征选择的效果有着不同的解读,需要根据具体问题选择合适的指标。

此外,特征与目标变量之间的关系也可能是非线性的,如何处理这种复杂的关系也是一个挑战。

二、遗传算法介绍遗传算法是一种模拟生物进化过程的优化算法。

它通过模拟生物的变异、交叉和选择等操作,在搜索空间中寻找最优解。

遗传算法的基本思想是通过迭代的方式,逐渐优化候选解的质量。

遗传算法的基本步骤包括初始种群的生成、适应度函数的定义、选择操作、交叉操作、变异操作和终止条件的设置等。

其中,适应度函数用于评估候选解的质量,选择操作根据适应度值选择优秀的个体,交叉操作模拟遗传信息的交换,变异操作引入随机性,终止条件用于控制算法的停止。

三、基于遗传算法的特征选择方法基于遗传算法的特征选择方法将特征选择问题转化为一个优化问题。

它通过选择、交叉和变异等操作,逐渐优化特征子集的质量。

下面将介绍该方法的具体步骤。

1. 初始种群的生成初始种群是特征子集的初始候选解集合。

一种基于遗传算法的特征选择和权重确定方法

一种基于遗传算法的特征选择和权重确定方法

一种基于遗传算法的特征选择和权重确定方法基于遗传算法的特征选择和权重确定方法是一种用于机器学习和数据挖掘中的一种优化方法。

该方法通过模拟生物进化中的自然选择机制,能够有效地选择出对目标变量预测有着显著影响的特征,并为每个特征分配一个相应的权重。

下面将详细介绍这一方法的基本原理和步骤。

1.特征表示和编码:在遗传算法中,特征通常采用二进制编码进行表示。

例如,如果有10个特征,那么一个个体可以用一个10位的二进制串来表示,其中1表示特征被选中,0表示特征被忽略。

2.适应度函数定义:适应度函数是遗传算法的关键部分,它用于评估每个个体的优劣程度。

在特征选择问题中,适应度函数通常是目标变量的预测误差或准确率。

例如,可以使用均方误差或交叉熵来衡量预测误差。

3.初始化种群:随机生成初始的种群,种群大小通常为固定的值,例如100个个体。

4.选择操作:采用轮盘赌选择或竞争选择等操作来选择适应度较高的个体作为父代。

5.交叉操作:在选择出的父代中,随机选择两个个体进行交叉操作,产生新的子个体。

交叉操作可通过交换二进制编码串中的一部分来实现。

6.变异操作:对每个子个体进行变异操作,以增加的多样性。

变异操作通常通过翻转二进制编码串中的一些位来实现。

7.新种群形成:由于经过交叉和变异操作后,种群会变得更多样化,也会包含一些较差个体。

为了保持种群大小不变,需要采用一种策略来选择新的种群。

常见的策略包括完全替代(将父代和子代合并后,选择适应度较高的个体)和部分替代(选择适应度较高的个体并保留一部分父代个体)。

8.停止准则:设置一个满足停止准则的条件,例如迭代次数达到上限或适应度值足够小。

如果满足停止准则,则算法停止并返回最优解。

9.权重确定:在特征选择问题中,还需要确定每个特征的权重。

可以使用特征的重要性来作为权重。

重要性可以通过适应度函数的梯度、特征对目标变量的贡献等来确定。

10.最终模型训练和评估:使用选择出的特征和相应的权重,进行最终的模型训练和评估。

基于遗传算法的特征选择优化研究

基于遗传算法的特征选择优化研究

基于遗传算法的特征选择优化研究近年来,特征选择作为机器学习领域中不可或缺的研究方向,受到越来越多的关注。

特征选择就是从原始数据集中挑选出一些最具代表性和决策性的特征作为新的特征子集,以达到提高分类器性能、减少特征数量、提高分类器的可解释性等目的。

然而,特征选择的过程中常常面临的问题是如何确定最优的特征子集。

在这一问题中,遗传算法作为一种有效的优化算法,被广泛应用于特征选择问题中,本文将着重探讨基于遗传算法的特征选择优化研究。

一、特征选择的重要性及常用方法特征选择在机器学习和数据挖掘领域得到了广泛的应用,它在选取最重要的特征方面具有显著优势,可以有效地降低特征的维度和提高分类器的性能。

但是,在特征选择时我们需要注意到数据复杂性和准确性问题。

因此,需要针对现实中复杂的数据进行相应的特征选择过程,以便能够准确地对数据进行处理。

在实际应用中,特征选择的目标变化很大。

有时候我们的目标是提高分类器性能,有时候是减少特征数量,还有时候是为了使分类器更加可解释。

不同的目标导致了特征选择过程中选择的方法也不同。

目前常用的特征选择方法有:过滤式方法、包装式方法和嵌入式方法等。

二、遗传算法特征选择的优点传统的特征选择方法,往往采用启发式的算法进行特征子集的搜索,例如:前向搜索、后向搜索、分支界限算法等等。

但是这些算法只能搜索到局部最优解,运算速度相对较慢,同时容易产生过拟合问题,因此在特征选择任务中,这些算法有很大的限制。

而遗传算法以其全局搜索的优势、适应度函数设置的灵活以及编码模式的可扩展性,成为一种广泛应用于特征选择问题中的算法。

遗传算法模拟自然界的生物进化过程,运用交叉、变异等遗传操作,将父代基因变异、交叉、选择出新的后代,迭代多次以获得最优解。

基于遗传算法的特征选择方法相对于传统算法有以下优点:一、全局搜索能力强能够在参数空间中进行全局搜索,甚至能够搜索到不是最低点而是全局的最优解,这对于搜索所有可能的特征分布情况是必须的。

使用遗传算法进行特征选择的实践方法

使用遗传算法进行特征选择的实践方法

使用遗传算法进行特征选择的实践方法在机器学习和数据挖掘领域,特征选择是一个重要的任务,它可以帮助我们从大量的特征中选择出最具有代表性和预测能力的特征子集。

而遗传算法作为一种优化算法,在特征选择中得到了广泛的应用。

本文将介绍使用遗传算法进行特征选择的实践方法。

遗传算法是一种模拟自然界进化过程的优化算法,它通过模拟自然选择、交叉和变异等操作,逐步优化解的适应度。

在特征选择中,我们可以将每个特征看作是一个基因,整个特征集合看作是一个染色体。

遗传算法通过不断迭代,逐步优化染色体的适应度,从而选择出最优的特征子集。

首先,我们需要定义适应度函数。

适应度函数用于评估染色体的好坏程度,它可以根据具体的问题而定。

例如,在分类问题中,我们可以使用分类准确率作为适应度函数。

在回归问题中,可以使用均方误差或相关系数等作为适应度函数。

适应度函数的选择应该与具体问题密切相关,以确保选出的特征子集具有较好的预测能力。

其次,我们需要定义遗传算法的基本操作。

遗传算法包括选择、交叉和变异等操作。

选择操作用于选择适应度较高的染色体,使其有更高的概率被选择为父代。

交叉操作用于生成新的染色体,通过将两个父代染色体的基因进行交叉,产生新的子代染色体。

变异操作用于引入新的基因,通过对染色体中的基因进行随机变异,增加染色体的多样性。

接下来,我们需要确定遗传算法的参数。

遗传算法的性能很大程度上取决于参数的选择。

常见的参数包括种群大小、迭代次数、选择概率、交叉概率和变异概率等。

种群大小决定了搜索空间的大小,一般来说,种群大小越大,搜索的空间越广,但计算时间也会增加。

迭代次数决定了算法的收敛性,一般来说,迭代次数越多,算法的性能越好,但计算时间也会增加。

选择概率、交叉概率和变异概率决定了遗传算法的探索能力和开发能力,它们的选择应该根据具体问题而定。

最后,我们可以开始实施遗传算法进行特征选择。

首先,我们需要初始化种群,即随机生成一组初始的染色体。

然后,通过计算适应度函数,评估每个染色体的适应度。

特征选择中的基于遗传算法的方法研究

特征选择中的基于遗传算法的方法研究

特征选择中的基于遗传算法的方法研究特征选择是数据预处理阶段中的一个重要任务,它的目的是从大量的特征中选择出最相关的特征子集,以降低数据维度,减少冗余信息,并提高后续模型的性能和可解释性。

近年来,基于遗传算法的特征选择方法在数据挖掘和机器学习领域得到了广泛应用。

本文将对特征选择中的基于遗传算法的方法进行研究,并探讨其优势和不足之处。

一、引言特征选择作为数据挖掘的一个重要环节,能够提高数据挖掘算法的效率和准确性。

在大数据时代,数据维度不断增加,传统的机器学习算法难以处理高维度数据。

而特征选择能够剔除冗余和无关特征,减小数据维度,从而降低计算复杂度和提高模型性能。

遗传算法作为一种经典的优化算法,通过模拟自然界的进化过程,能够全局搜索最优解,并在特征选择中取得了显著的成果。

二、遗传算法基本原理遗传算法基于达尔文进化论的基本原理,通过模拟自然选择、遗传、突变等操作,以一种逐代迭代的方式,最终找到适应度最高的个体。

其基本流程包括初始化种群、选择、交叉和变异等步骤。

选择操作通过适应度函数评估个体的优劣程度,并根据个体适应度进行有放回或无放回的选择。

交叉操作将两个个体的染色体部分互换,产生新的个体。

变异操作通过对个体的染色体进行随机改变,引入新的基因,增加种群的多样性。

三、基于遗传算法的特征选择方法1. 基于适应度评估的方法该方法将个体的适应度定义为特征子集的评估指标,通过对个体的适应度进行评估和选择,保留适应度较高的个体,剔除适应度较低的个体。

在特征选择过程中,适应度评估指标的选择是十分关键的,它直接影响到特征选择的效果和性能。

2. 基于遗传操作的方法基于遗传操作的方法主要包括交叉和变异两种操作。

交叉操作通过将两个个体的染色体部分进行杂交,产生新的个体,引入新的基因,增加种群的多样性和探索性。

变异操作通过对个体的染色体进行随机改变,引入新的基因,能够跳出局部最优解,增加种群的多样性和全局搜索能力,提高特征选择的效果。

基于遗传算法的特征选择技术研究

基于遗传算法的特征选择技术研究

基于遗传算法的特征选择技术研究随着数据科学领域的发展,越来越多的人们开始认识到特征选择技术在机器学习和数据挖掘中的重要性。

特征选择技术可以帮助我们从海量数据中筛选出最具价值的特征,减少计算负担,提高算法效率,同时也可以帮助我们更好地理解数据领域的本质规律。

然而,特征选择技术面临的一个核心问题就是如何找到最佳的特征子集。

传统的特征选择方法往往依赖于专家经验或者基于统计学方法,这种方法在实际应用中存在一定的局限性。

基于遗传算法的特征选择技术在解决这一问题上有很大的潜力。

遗传算法是一种基于自然选择和遗传进化的搜索算法,在解决优化问题上展现出了很强的优越性。

它可以模拟自然界的演化过程,通过基因交叉、突变等操作产生新的群体,借助适应度函数评估个体的优劣,从而不断优化最终结果。

基于遗传算法的特征选择技术就是利用这种演化搜索算法来寻找最佳特征子集,通过不断地迭代找到对应的特征权重,最终得到一个最佳特征子集的过程。

基于遗传算法的特征选择技术具有很多的优点。

首先,它可以有效地减少特征数目,提高算法的效率。

其次,它可以优化特征子集的结构,提高数据的泛化能力和预测准确度。

最后,它不需要依赖于任何的先验知识,可以自动地找到最佳特征子集。

因此,在特征选择领域,基于遗传算法的特征选择技术成为了一种很有前景的研究方向。

在具体实现上,基于遗传算法的特征选择技术可以分为两大类:Wrapper 方法和 Filter 方法。

Wrapper 方法在特征筛选中应用遗传算法,将特征子集的选择问题转化为优化问题,通常需要运用预测模型的评估效果来进行适应度函数的设计。

Filter 方法是讲特征选择分为两步,首先使用某种特征评测标准对每个特征进行筛选,然后使用遗传算法对筛选后的特征子集进行寻优。

必要性是在特征选择前分析出特征质量以便于以后的遗传操作,遗传操作后,再根据得到的适应度对具体禁忌进行处理。

两种算法的最大区别在于适应度函数的设计,wrapper 方法需要建立模型并根据模型的预测精度来评估特征子集的好坏,而 Filter 方法则是直接根据某种特征评测标准来进行适应度函数的设计。

基于佳点集遗传算法的特征选择方法

基于佳点集遗传算法的特征选择方法

基于佳点集遗传算法的特征选择方法贾瑞玉;宁再早;耿锦威;查丰【期刊名称】《计算机技术与发展》【年(卷),期】2011(21)1【摘要】To address the contradiction between the dimension reduction for feature selection and the precision of classification, by analyzing the strengths and weaknesses of the traditional feature selection method, combines the idea of good point-set genetic algorithm and the simple and effective features of K nearest neighbor classifieation,presents a new feature selection method based on good point set genetic algorithms. Through a random search of the feature subset with the good point-set genetic algorithm, and using K nearest neighbor classification error rate as the evaluation index, eliminate the bad feature subset,save the optimum feature subset. It can be seen through the comparison experiments that the algorithm can effectively find out those feature subset which has high classification accuracy, and the effect of dimension reduction is good,these show that the algofithm has the better ability to select feature subset.%针对特征选择中降维效果与分类精度间的矛盾,通过分析传统的特征选择方法中的优点和不足,结合佳点集遗传算法的思想和K最近邻简单有效的分类特性,提出了基于佳点集遗传算法的特征选择方法.该算法对特征子集采用佳点集遗传算法进行随机搜索,并采用K近邻的分类错误率作为评价指标,淘汰不好的特征子集,保存较优的特征子集.通过实验比较看出,该算法可以有效地找出具有较高分类精度的特征子集,降维效果良好,具有较好的特征子集选择能力.【总页数】4页(P50-52,57)【作者】贾瑞玉;宁再早;耿锦威;查丰【作者单位】安徽大学计算机科学与技术学院,安徽合肥,230039;安徽大学计算机科学与技术学院,安徽合肥,230039;安徽大学计算机科学与技术学院,安徽合肥,230039;安徽大学计算机科学与技术学院,安徽合肥,230039【正文语种】中文【中图分类】TP301.6【相关文献】1.一种基于佳点集遗传算法的QoS组播路由选择方法 [J], 顾军华;王方伟;宋洁2.基于佳点集遗传算法的支持向量机的参数选择 [J], 孙浩;陶亮3.基于佳点集遗传算法的足球机器人策略设计 [J], 金奎;程家兴;李志俊;饶玉佳4.一种新的基于佳点集的图像二值化遗传算法 [J], 谢莹5.基于佳点集的多目标遗传算法 [J], 饶玉佳;程家兴;夏军;李志俊因版权原因,仅展示原文概要,查看原文内容请购买。

一种基于遗传算法的特征选择和权重确定方法

一种基于遗传算法的特征选择和权重确定方法

一种基于遗传算法的特征选择和权重确定方法张栋冰【摘要】在模式识别中,特征选择是其中非常重要的步骤,特征集的选择直接影响分类器的精度.该文提出了一种基于遗传算法的特征权重确定方法,首先使用传统遗传算法进行特征的初步选择,得到一个粗选的特征集;然后使用实数编码的遗传算法在第一步的基础上进一步精选特征,并确定每个入选特征的权重.通过实验和一些传统特征选择方法进行对比,结果显示,该文提出的算法取得了较好的效果.【期刊名称】怀化学院学报【年(卷),期】2015(000)005【总页数】4【关键词】特征选择;特征权重;遗传算法特征选择,是从一个初始特征集中挑选出一些特征组成最优特征子集,依据这些子集构建的分类器能够使某种评估标准达到最优,具有较高的预测精度.特征选择可以提高构建的分类或回归模型的泛化能力,降低特征维度的同时还提高了计算效率,所以特征选择方法的研究成为目前模式识别研究领域中的一个热点问题.本文首先讨论了目前常用的一些特征选择方法,分析了这些方法存在的一些问题,随后针对这些问题,本文提出了一种新的基于遗传算法的特征权重确定方法.最后我们通过实验验证了所提算法的效果.1 特征选择的相关工作特征选择可以看作是一个搜索寻优的过程.1997年,M.Dash提出了特征选择的一般框架,清楚的描述了这个过程,如图1所示[1].从图1中可以看到,特征选择过程由四步组成:子集产生、子集评价、终止和验证方法.第一步为产生子集,即由一部分特征组成的集合,接着对这个特征集进行评估,直到停止的条件满足,选择的过程才结束.如果没有条件未满足,则重复前面的工作,直到完成.目前学者们的研究集中于搜索策略和评价标准两方面.特征选择的任务,实际上是将特征的维数从M压缩至对于描述类别是最有效的m维,这样,所有的可能的特征集的组合数为(1)选择哪些特征组成最优特征子集需要一个标准进行评价.这些标准可以分为以下五类:信息相关的度量、距离相关的度量、依赖性相关的度量、一致性相关的度量和分类错误相关的度量等[1].前四类方法根据数据内在的特性来对所选择的特征子集进行评价,独立于特定的算法,常用于过滤模式(filter method)的方法中;分类错误率度量标准则经常与特定的学习算法联系,常用于封装模式(wrapper method)的方法中[2].不同的评价标准会得到不同的特征子集.另外,使用穷举法,对所有的可能的特征组合进行评估,计算量会非常大,也是不实际的.所以,寻找一种理想的搜索算法变得非常必要.根据能否搜索到最优组合,搜索算法可以分为最优搜索算法、次优搜索算法.到目前为止,唯一可以得到最优结果的搜索方法就是分支界定法[3].虽然分支界定法在效率上比穷举法高,但是对于高维度特征空间,计算量还是太大而难以实现.单独最优特征组合是最简单的搜索算法,但是,即使各特征统计独立,组合起来不一定最优.后来出现的搜索算法有顺序前进法(Sequential Forward Selection,SFS)[4]和顺序后退法(Sequential Backward Selection,SBS)[5].SFS没有考虑入选特征之间的相关性,而且不能剔除已入选而品质变低劣的特征.而SBS则无法入选已被剔除而品质变优良的特征,且由于其是一种自上而下的方法,在高维空间运算,计算量比SFS大.由于特征选择实际上是一个组合优化问题,因此也可以使用解决优化问题的方法来解决特征选择问题,比如基于启发式搜索策略的禁忌搜索(Tabu Search,TS)算法[6],基于随机搜索策略的粒子群算法(Particle Swarm Optimization,PSO)[7]、模拟退火算法(Simulated Annealing)[6]和遗传算法(genetic algorithm,GA)[8]等.这些方法都是近似方法,在求解时间和质量上都较为理想,被广泛应用.根据分类器与评价函数的关系,特征选择的模式目前可以分为过滤式、封装式以及混合(Hybird)模式[2].基于过滤式的方法独立于分类器,其方法是使用一定的函数,对于候选的部分特征进行分类能力的评估,同时用某种策略从中选择最好的一些特征.这种方法实现简单,效率高,但是由于独立于分类器,容易和分类器产生偏差.基于封装式的方法则将分类器封装于其中,直接以分类的正确率作为特征选择的目标,分类正确率最高的那一部分特征将被作为最后的特征集被选中.在这种方法中,分类学习算法就封装在特征选择过程里面,分类算法的识别正确率直接成为了特征子集的评价准则,所以其精度一般较过滤模式方法高,但是每次对特征子集的评价都要计算分类器的精度,所以其效率不高.目前一些学者结合这两类方法的优点,把两者结合起来形成了一类混合模式的方法,也取得了较好的效果[9].遗传算法由生物进化的过程启发而产生.生物从最简单的低等生物发展出复杂的高级生物,期间经历了漫长的进化,通过遗传和变异等,按照“物竞天择,适者生存”的规则演变而来.遗传算法对求解问题的模型,没有特别的要求,是一种非数值优化方法,所以适应性比较广泛.其次,在搜索时,遗传算法采用群体搜索策略,从一个群体进化到另外一个群体,提高了效率,且不易陷入局部最优.这些优点,让遗传算法被广泛应用于特征选择中.2 基于遗传算法的特征选择和权重确定方法遗传算法是一种基于封装模式的特征选择方法.这种方法把分类器封装于其中,直接以分类器的精度作为评价特征子集的选择标准.由于每次需要计算分类器精度,所以效率不是很高.另外,也没有考虑到特征的权重,事实上每个特征对于分类的贡献不是同等的.所以,我们提出了一种基于遗传算法的特征选择和权重确定方法.这种方法的过程如下图2所示.这种方法主要分为以下两步进行.第一步:由传统的GA算法初选出候选特征集.这一步主要是从原始特征集中选出比较好的一些初始特征集,用于后续的精选和权重确定.使用二进制位编码的方法创建一个二进制位串代表一个染色体C.一个特征fi使用一个二进制位,也就是一个基因位gi来表示,则有下面一个关于fi和gi函数关系:(2)从式2中,我们可以看到基因位和特征一一对应,有多少特征就需要有多少基因位来表示.当基因取值为1时,表明特征被选中,反之则反.第一步流程图如图3所示.第二步:由可以确定权重的GA算法在第一阶段初选出候选特征集的基础上,继续精简特征集,同时也求得最终入选的特征对应的权重.可以确定特征权重的GA与传统GA方法的流程大致相同,我们介绍与GA中不同的几个地方,主要是个体编码方式、解码方式和交叉遗传操作.(1)个体编码方式如表1所示,在GA中,我们用x位二进制位表示一个特征的权重,这样,如果由第一阶段GA选出来的候选特征集的位数为n位,则特征权重位的位数为nx,即整个染色体的长度.(2)染色体解码因为确定权重GA算法中染色体的编码与传统GA中不同,相应的解码方式也不同,先将每一个特征fi对应的二进制基因位串转化为一个十进制整数qi,然后,就可以求得每个特征的权重:(3)(3)交叉遗传操作由于在第二步的GA中,基因的编码方式与传统GA不同,我们使用了x位表示一个权重位,为了在进行交叉操作后,尽量不会因为交叉使得一个特征的权重被严重改变,我们在进行交叉操作时,交叉点选择为n的整数位处,也是随机选择,但是不处于这一点时就重新再选择,直到满足这个条件位置为止,这与在GA中采用的传统的方法那样完全随机选择交叉点不同.通过上述的两个步骤,我们就可以得到一个精选的特征子集及其对应的权重.3 实验及结果为了验证所提算法的效果,开展了以下一系列的实验.3.1 数据来源和实验方案实验的数据来源于南佛罗里达大学(University of South Florida)的DDSM(Digital Database for Screening Mammography,DDSM)[10].我们构建了一个基于钼靶乳腺X线摄片和多特征最近邻算法[11]的乳腺肿块计算机辅助诊断系统.在训练阶段,先建立一个大规模参考库,主要由含有正常组织的感兴趣区域(Region of Interest,ROI)和含有肿块的ROI两类区域组成.随后使用分割算法对参考库中的所有ROI进行可疑肿块轮廓提取.当分割完成后,在分割结果上应用特征提取和计算方法计算所有ROI的特征集.这样就得到了参考ROI特征数据库.在整个特征数据库上,使用特征选择、权重确定算法及分类决策算法,并引入已经确诊的金标准(Truth File)对上述结果进行判定.分割算法我们使用的是一种基于动态规划法的方法[11].在诊断阶段,使用基于图像内容检索(Computer Aided Diagnose using Content-based Image Retrieval,CBIR CAD)方法,针对放射科医师任意感兴趣的区域去进行检测,CAD系统除了返回待查询的区域和肿块的相似度分数和/或肿块是良性还是恶性的分类分数,还有最相似的K幅参考感兴趣区域图像.3.2 参数设置(1)种群规模和个体初始化时阈值种群的大小用来控制种群的规模.显然,种群规模越大,相当于增大了搜索的群体以及种群多样性,找到理想解的可能性就越大,但是计算量肯定会增大.本文中种群大小设置为40.(2)进化代数进化代数用来控制遗传算法的结束时间.一般来说,代数越多,越可能找到理想解,但搜索时间会增加.在本文中,这个值设置为300.(3)交叉概率交叉概率用于控制参与交叉的个体数量,这个值不宜过小,也不宜过大.过小的话,则会使得算法收敛速度过快而陷入局部最优,过大则会使大量优秀个体遭到破坏,而使算法不收敛.在本文中设置为0.7.(4)变异概率变异概率用来控制参与变异的个体数量.它的影响主要是在进化的后期,和交叉概率的作用类似.在本文中,设置为0.001.3.3 实验结果为了测试和评估所提出的新特征和新的特征选择方法的效果,我们对7种方法进行了实验.这些方法中,有使用所有特征且权重都为1的AF-KNN方法和GA-KNN方法以及本文方法.实验结果如表2所示,表中K值为KNN算法所选出的与待测ROI最相似的参考ROI的数目.在本文实验中,是在遗传算法的染色体中设定相应的基因位,一起训练出来的.95%置信区间是本文实验结果要求达到的95%可信度所跨度的范围.受试者操作特性曲线(Receiver Operating Characteristic Curve,ROC曲线)[12]是广泛采用的评价CAD系统性能的工具,有别于单阈值分析的方法,通过设置很多阈值进行决策,可以获取到含有多对灵敏度和假阳性率值组成相应的二元有序点对集合,再分别以假阳性率、灵敏度值为横、纵坐标,既可以通过二维坐标系,在二维空间中描述这些点,连接这些点而成的曲线就是ROC曲线.Az为ROC曲线下包络的面积,是描述受试者操作特性曲线最重要的指标,该值越大,表明系统性能越好.从表2中可以发现由传统的GA方法选出了34个特征作为候选特征子集,对63维特征进行了初步降维,然后本文方法在这个基础上最终选出了24个特征,并确定了特征相应的权重.在临床中,一般认为Az值:0.5~0.7之间时诊断价值较低,在0.7~0.9之间时诊断价值中等,而在0.9以上时诊断价值较高.本文的方法,全特征法以及GA特征选择方法得到的Az下的面积分别为:0.8782±0.0078,0.8632±0.0081和0.8478±0.0088,从数据上看,进行GA 特征选择后,入选特征为34个,特征维数明显降低,而CAD性能也明显提高,说明特征选择对分类器性能的提高有很重要的作用.而且用本文所提出的方法特征数进一步降为24个,CAD的性能却比前面的两种方法有更大的提升,说明本文所提方法行之有效.4 结论特征选择是模式识别中非常关键的一步,挑选出最优特征子集的同时还能降低特征维度,提高计算效率.很多算法在进行特征选择的时候没有考虑到特征的权重,简单的将特征的分类效力同等对待,这是不合理的.本文提出了一种两步选择特征的方案,先用遗传算法初选出一个特征子集,在此基础上再用能够确定特征的遗传算法进一步精选特征,并确定特征的权重.实验结果显示,我们的算法取得了较好效果.参考文献:[1]Dash M,Liu H.Feature selection for classification[J].Intelligent data analysis,1997,1(3):131-156.[2]郑雅敏.基于遗传算法的特征选择方法的改进研究[D].重庆:重庆大学通信工程学院,2008.[3]刘亦韬,胡维华.一种处理Top-k逆向查询的分支界定算法[J].杭州电子科技大学学报,2014(6):76-79.[4]Liu B,Li S,Wang Y,et al.Predicting the protein SUMO modification sites based on Properties Sequential Forward Selection(PSFS)[J].Biochemicaland biophysical research communications,2007,358(1):136-139.[5]Xue B,Zhang M,Browne W N.Particle swarm optimisation for feature selection in classification:Novel initialisation and updating mechanisms[J].Applied Soft Computing,2014(18):261-276.[6]许鹏飞,苗启广,李伟生.基于函数复杂度的自适应模拟退火和禁忌搜索新算法[J].电子学报,2012,40(6):1218-1222.[7]张丹,韩胜菊,李建,等.基于改进粒子群算法的BP算法的研究[J].计算机仿真,2011,28(2):147-150.[8]Handbook of genetic algorithms[M].New York:Van Nostrand Reinhold,1991:20-65.[9]Fischer U,Hermann K,Baum F.Digital mammography:current state and future aspects[J].European radiology,2006,16(1):38-44.[10]Keller J M,Gray M R,Givens J A.A fuzzy k-nearest neighbor algorithm[J].IEEE Transactions on Systems,Man and Cybernetics,1985(4):580-585.[11]Song E,Xu S,Xu X,et al.Hybrid segmentation of mass in mammograms using template matching and dynamic programming[J].Academic radiology,2010,17(11):1414-1424.[12]Eltonsy N H,Tourassi G D,Elmaghraby A S.A concentric morphology model for the detection of masses in mammography[J].IEEE Transactions on Medical Imaging,2007,26(6):880-889.基金项目:安徽省高等学校自然科学研究项目“基于视觉主题模型的视觉场景认知理解方法研究”(KJ2014B23).。

基于遗传算法的特征选择方法

基于遗传算法的特征选择方法

基于遗传算法的特征选择方法
赵云;刘惟一
【期刊名称】《计算机工程与应用》
【年(卷),期】2004(040)015
【摘要】特征提取广泛应用于模式识别、知识发现、机器学习等诸多领域,并受到了越来越多的关注[1].对于一个给定的待分类模式,特征提取要求人们从大量的特征中选取一个最优特征子集,以代表被分类的模式.该文对特征提取这一组合优化及多目标优化问题提出了基于遗传算法的解决方法,把遗传算法作为识别或分类系统的"前端",找出代表问题空间的最优特征子集,以大大降低分类系统的搜索空间,从而提高搜索效率.
【总页数】3页(P52-54)
【作者】赵云;刘惟一
【作者单位】云南大学信息学院计算机科学系,昆明,650091;云南大学信息学院计算机科学系,昆明,650091
【正文语种】中文
【中图分类】TP301
【相关文献】
1.一种基于遗传算法优化的大数据特征选择方法 [J], 张文杰; 蒋烈辉
2.基于改进遗传算法的区间光谱特征波长变量选择方法 [J], 刘鑫; 冒智康; 张小鸣; 李绍稳; 金秀
3.基于自适应遗传算法的混合特征选择方法 [J], 裴作飞;李兆玉;王云锋;姚立霜
4.基于遗传算法的多评价标准退化特征选择方法 [J], 陈志刚;肖红
5.基于改进的遗传算法的特征选择方法在冠心病检测中的应用 [J], 李勇;秦彩杰因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2010-05-15;修回日期:2010-08-13基金项目:安徽省高等学校省级自然科学基金(K J 2008B092)作者简介:贾瑞玉(1965-),女,副教授,研究方向为计算机图形学、数据挖掘、人工智能。

基于佳点集遗传算法的特征选择方法贾瑞玉,宁再早,耿锦威,查 丰(安徽大学计算机科学与技术学院,安徽合肥230039)摘 要:针对特征选择中降维效果与分类精度间的矛盾,通过分析传统的特征选择方法中的优点和不足,结合佳点集遗传算法的思想和K 最近邻简单有效的分类特性,提出了基于佳点集遗传算法的特征选择方法。

该算法对特征子集采用佳点集遗传算法进行随机搜索,并采用K 近邻的分类错误率作为评价指标,淘汰不好的特征子集,保存较优的特征子集。

通过实验比较看出,该算法可以有效地找出具有较高分类精度的特征子集,降维效果良好,具有较好的特征子集选择能力。

关键词:K 最近邻算法;特征选择;佳点集遗传算法中图分类号:TP301.6 文献标识码:A 文章编号:1673-629X (2011)01-0050-03Feature Selection M ethod Based on Good Poi nt-SetG enetic A l gorith mJI A Ru i-yu ,N I N G Z ai-zao ,GENG Ji n -w e,i ZHA Feng(Schoo l o f Com puter Sc i ence and T echno log y ,A nhuiU niversity,H efe i 230039,Ch i na )Abstract :To address the con t rad i ction bet w een t he d i m en si on reducti on for feat ure sel ecti on and t he precisi on of cl assifi cati on ,by anal y z i ng t he streng t hs and w eaknesses o f t he trad iti onal feature s electi on m et hod ,com bines t h e i d ea of good poi n t-set genetic al gorit hm and t h e si m p l e and effecti v e feat ures of K n earestn ei ghbor cl assifi cati on ,pres en ts a n e w feat u re sel ecti on m et hod based on good poi n t s et ge neti c a l gorit hm s .Through a random s earch o f t he feat u re s ub s etw ith t he good po i nt-s et genetic al gorit hm,and usi ng K n earestn ei ghbor cl assifi cati on error rate as the evaluati on i ndex ,eli m i n at e t he bad feature s ub s e,t save t he op ti m um feat ure sub s e.t It can be seen t hrough t h e com paris on experi m en ts t hat t he al go ri thm can effecti vel y fi nd ou t those feature s ubsetw h i ch has h igh cl assifi cati on accuracy ,and the effect of d i m en si on reducti on i s good,t h ese show t hat t he al gorit hm has t he b ett er ab ility t o s elect feature s ub s e.t K ey words :K -n earest nei ghbor algorit hm;feature s e l ecti on ;good po i n t -s et genetic al gorit hm0 引 言特征选择是在数据挖掘和模式识别中数据预处理的重要方法之一。

原始数据中通常存在着不相关或冗余的特征,特征选择的目的就是在保证处理后所得的数据的数据类的概率分布尽可能和原分布接近的情况下,删除一部分特征,从而减少分类系统的代价和运行时间。

特征选择方法根据其是否依赖于机器学习分为filter 型和w rapper 型两类,f ilter 型的特征选择方法具有计算代价小,效率高但降维效果一般等特点[1],其代表模型有Focus 和R eli ef ;w rapper 型特征选择算法将归纳算法封装于特征选择算法中,降维效果好,但存在计算代价大,效率低的不足,如文献[2]中采用类间模糊距离和类内的模糊距离的差作为适应度来度量所选择的特征子集的分类能力,不同模式的欧式距离计算量大,并且训练时间较长。

文献[3]中提出以不一致标准作为特征子集的评价函数,采用拉斯维加斯(L as V egas)算法找出满足可接受的不一致性比例的特征集合。

文献[4]中作者把以上两种基于距离度量作为评价函数的方法及基于一致性度量的度量的评价方法和基于分类精度的评价函数进行对比,指出前者评价函数无法反映精确程度,而这一点在特征选择方法中很重要。

文献[5~7]对多种特征选择的方法进行比较,如开方拟和检验(CH I)、文档频率(D F )、信息增益(I F )、互信息(M I)、术语强度(TS )等,并通过实验得出CH I 、I F 和D F 的性能较优,文献[8]指出特征选择的任务是求出一组对分类最有效的特征,如何衡量特征对分类的有效性,文献[9]分析指出特征与类别之间服从符合有一阶自由度的 2分布,文献[10,11]采用CH I 统计方法度量两者之间的相关程度,选出最优的特征,以覆盖算法的分类准确率作为评价函数,这种方法存在特征选择后的样本形成覆盖的难易程度问题。

从优化的角度来说,特征选择是一个组合优化及第21卷 第1期2011年1月 计算机技术与发展CO M P UTER TECHNOLOGY AND DEVELOP M ENTV o.l 21 N o .1Jan . 2011多目标优化的问题,解决这类问题的常规方法有遍历搜索、随机搜索,以及启发式搜索,而遗传算法属于随机搜索方法。

文献[12]指出遗传算法的本质是一个具有定向制导的随机搜索,其制导的原则是导向以高适度为模式为祖先的 家族方向,并提出一种在 高适度模式为祖先的 家族方向上搜索更好样本的改进遗传算法!!!佳点集遗传算法,提高了传统遗传算法的效率,文中结合这种佳点集遗传算法的思想,以K 近邻算法计算适应度,提出一个改进的特征选择算法。

1 K近邻算法K近邻算法是一种基于实例的学习法,也称为惰性学习法。

这种学习方法当给定训练元组时,只是简单存储它,不构造分类模型,只有当给定一个检验元组时,它才根据该检验元组和存储的元组的相似性进行分类。

K近邻算法通过找出与检验元组最 邻近的K 个元组,并根据这K个元组类别信息对K个元组进行分组,对检验元组的类别,指派到这K个最近邻中的多数类,这种 邻近性用距离度量,文中采用欧式距离,如式(1)所示,X1,X2分别代表L维空间的两个元组:X1=(x11,x12,∀,x1L),X2=(x21,x22,∀,x2L)d ist(X1,X2)=#L i=1(x1i-x2i)2(1)对检验元组X,找出K个与之最邻近的训练元组,然后基于一定的投票机制决定该检验元组的类别。

文中以K最邻近算法作为分类器,计算特征子集的分类准确率,以此作为特征子集的适应度。

其过程可以描述为:首先从数据集D的属性集中,生成特征子集F,根据特征子集F从数据集D取出对应的数据集Df,最后采用Eva luate G ene计算Df的准确率,作为特征子集F 的适应度。

算法1:E va l uate G ene(F,K)输入:特征子集F,最近邻数K输出:特征子集的评估值步骤:1)从根据特征子集F从存储的数据集D中取出数据集Df;2)采用K最近邻算法对数据集Df进行分类,统计分类的正确率P re;3)保存分类的正确率P re作为特征子集F的评价指标,即适应度。

2 佳点集遗传特征选择2.1 佳点集交叉算法标准的遗传算法以定向制导的原则(即导向以高适应度模式为祖先的 家族方向)随机搜索适应值高的后代,而其交叉算法(如单点交叉,多点交叉)都只能保证交叉后的后代是落在 家族中,却无法保证交叉后的后代具有较高的适应值,而佳点集交叉算法能做到这一点。

用佳点集来进行近似积分,误差的阶只与样本数有关,而与维数无关,这对佳点集遗传算法用于高维的近似计算是个很好的优势,不止如此,用佳点集方法取一定数的点,比随机取的点偏差少很多[5],这样佳点集遗传算法的收敛速度更快。

令数据集D由N 个L维的特征子集组成,即D=X1,X2,∀,X N,X i= x i1,x i2,∀,x iL,1£i£N,赌轮法从某代数据集D选择中选择两个特征子集:第a个染色体X a和第b个染色体X b进行佳点操作。

令X a=x a1,x a2,∀,x aL,X b=x b1,x b2,∀,x bL。

令J=i|X ai∃X bi,1£i£L,J的大小|J|=t。

X a和X b交叉后的后代中第i个染色体的A i=a i1,a i2,∀,a iL,其中,当m J时,a im=x1m;而当m%J时,a im=&rm∋i(,1£m£L,rm=2cos2 mp,a表示a的小数部分,p是满足p2t+3的最小素数,&b(表示,如果b的小数部分小于0.5,则&b(=0,否则&b( =1。

2.2 佳点集遗传特征选择算法算法2:基于佳点集的遗传特征选择算法,简记为GG a KNN算法step1:读取样本数据,对样本数据进行归一化处理,采用10-交叉试验,把样本分为训练集和检验集;step2:个体采用二进制编码方式,原始特数为L,则编码的长度为L,个体每一个二进制基因位对应于相应次序的特征,当个体的某一基因为1时,该基因对应的特征项选中,初始化种群,种群数N=50,交叉概率pc=0.8,变异概率pv=0.005,迭代次数T=50;step3:K最近邻算法计算检验集中每个个体Ai的适应度fi,1£i£N;step3.1取Ai中检验集中每个个体Xi,计算训练集中每个个体与Ai训练集中样本的欧式距离集D ist Co l;step3.2从小到大冒泡排序D istCo,l取前K个个体;step3.3对K个个体按类别分类,并计算每个类别的样本数,样本数最大的类别为个体Ai的类别;K=1,取第一个个体的类别,判断是否和Ai类别一到,若是计数器Count加1;step3.4重复以上步骤,对Ai中检验集中每个个体Xi的类别作出判断,最后Count占检验集的比例为fi的值;)51)第1期 贾瑞玉等:基于佳点集遗传算法的特征选择方法step4:以概率rel i =f i /#Ni=1f i 复制个体A i ,复制个体的数目为N i =round (rel i ∋N ;round a 表示与a 距离最小的整数,N i =0的个体被淘汰;step5:赌轮法选择两个个体X a ,X b ,以概率p c 进行佳点集交叉操作;step5.1记p i =f i /#Ni=1f i ,随机生成一个[0,1]内的随机数r ;step5.2若p 1+p 2∀+p i-1<r £p 1+p 2+p 3+∀+p i ,则选择个体i ;step5.3使用step5.1,step5.2两步选择第a 个染色体X a 和对第b 个染色体X b ;step5.4取J =i |X a i ∃X bi ,1£i £L ,J 的大小|J |=t 。

相关文档
最新文档