特征选择算法综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
域 的 重 要 问题 : 9 自 O年 代 以来 , 征 选 择 的 研 究 引 起 了 机 器 特
学 习 领 域 众 多 学 者 前 所 未 有 的 重 视 。主 要 原 因有 以下 三 方
目较 多 的 时候 ,穷 举 式 搜 索 因 为 计 算 量 太 大 而 无 法 应 用 , 因
此 人 们 致 力 于 用 启 发 式 搜 索 算 法 寻 找 次优 解 。一 般 特 征 选 择
指 描 述 样 本 的 特 征 维 数 高 。3 随 着 应 用 领 域 的不 断 扩 大 , ) 所 遇 到 的 数 据 类 型也 将 不 断 变 化 。 因此 , 征 选 择 算 法 的 设 计 特
需 要 适 应 新 的数 据 类 型 。正 是 由 于 上 述 原 因 , 征 选 择 的 研 特 究 成 为 模 式 识 别 和 机 器 学 习领 域 的 重 要 课 题 . 具 有 重 要 的 它
A ur e ff a u e s l c i n l o ihm s v y o e t r e e to a g rt
J h— i,HU n ,YI in xn I i Z we Mi N Ja -i’
(. c olfI o t nE gneig Z e agA r u ua adFrs yU &e i Ln n 13 0 C ia 1 Sh o o n r i nier , hj n gi l rl n oet n  ̄ @, i' 3 10 , hn ; f ma o n i ct r a 2 Sh o o Sd e s t eo L n ug C mm re S ag a U & ni S ag a 2 0 7 , i ) . c ol y nyI tu ag ae& o ec , hn hi n e @, h h i 00 2 C n f n it f n h a
计算效率 , 同时 可 降 低 “ 度 灾 难 ” 维 的发 生频 率 。
在 机 器 学 习 领 域 中 . 征 选 择 被 认 为 是 跟 学 习 算 法 紧 密 特 联 系 的 一 个 问 题 , 表 述 为 : 定 一 个 学 习 算 法 L、 个 数 据 可 给 一 集 S S来 自一 个 特 征 X , 2X ,… , 具 有 类 别 标 记 Y 的 , l ,3 X X的
学术 意 义 和 实 用 价 值 。
符 合 分 布 的样 本 空 间 。则 一 个 最 优 特 征 子 集 X p 是 使 得 某 ot
个 评 价 准 则 JJ L S 最 优 的 特 征 子 集 。 因 此 , 领 域 的 学 者 _( ,) 该 认 为 特 征 选 择 的 结 果 应 该 用 学 习算 法 来 评 价 。 特 征 选 择 作 为 统 计 学 领 域 的 经 典 问 题 , 自上 个 世 纪 6 0
多 而 急 剧 增 加 【1 因此 , 择 好 的 特 征 不 仅 可 以 减 小 计 算 复 l。 - 4 选
杂度 , 高 预测 精度 , 且有 助 于寻 找更 精简 的算 法模 型 。 提 而 2 大 规 模 数 据 处 理 问 题 的 不 断 出现 , 信 息 检 索 , 传 基 因 ) 如 遗
tersac o gt e aueslco grh ae nm l-bet eimu eot zt nm to . h erht u h o anwf tr et na oi m b sdo utojc v e h f e e i l t i i m n p mi i ehd i ao Ke o d :etr lco ;etrs u st sac ; l- jci p mi i yw r s faues et n fa e be; erh mu i bet eof z o e i u s to v i m n
分 析 等 。 谓 大规 模 。 方 面 指 样 本 数 目的庞 大 。 一 方 面 所 一 另
集 所 构 建 的 分 类 或 回归 模 型 达 到 和 特 征 选 择 前 近 似 甚 至 更
好 的 预 测 精 度 。 不 但 提 高 了模 型 的 泛 化 能 力 、 理 解 性 和 这 可
-
4 6-
计 智伟 , 等
略 ;) 征评估函数 ;) 止准则 。 3特 4停
11 搜 索 起 点 和 方 向 .
特征 选择 算 法综 述
优 特 征 子 集 是 由 若 干 个 预 测 能 力 较 强 的 特 征 组 成 的1 9 1 。 相 反 , Wr pr 法 中 , 后 续 的 学 习 算 法 嵌 入 到 特 在 a e方 p 用 征 选 择 过 程 中 。 过 测 试 特 征 子 集 在 此 算 法 上 的预 测 性 能 来 通
算 法 必 须 确 定 以 下 4个 要 素 : ) 索 起 点 和 方 向 ; ) 索 策 1搜 2搜
基金 项 目 : 家 自然科 学基金 (0 7 0 2 ; 国 69 0 8 )国家 自然科 学基金 (07 19 ; 5 7 8 0 ) 浙江省 自然科 学基金 项 目( 0 0 7 、 39 0 1 3 8 4 7 Y1 87 7Y 0 0 6 、 0 0 5 ) Y 作者 简 介 : 智 伟 (9 一) 男 , 江 嘉 兴 人 , 士 。研 究 方 向 : 工 智 能 与模 式识 别 。 计 18 , 浙 硕 人
Ab t a t e t r ee t n h s b e n i o tn e e r h a e n p t r e o n t n a d ma h n e r i g sn e 9 ’ o s r c :F a u e s lc i a e n a mp r t s a c r a i a t n r c g i o n c ie la n n i c 0 S f o a r e i t e 2 t e t r . e t c iv me t a e b e c i v d,h we e n r b e e i o b n o v d a d n e u t e h 0 h c n u y Gr a h e e n sh v e n a h e e a o v rma y p o lmsr man t e u s l e n e d f rh r i v si ai n I h sp p r e f s d s rb e t r ee t n i e mso e rsi e r h t r u h t e s a e o au e s t , n e t t . n t i a e ,w rt e c e f au e s l ci tr f u t s a c o g p c f e t r es g o i i o n h i e h h f d s u sn h o r fc o s i e t r s lc in a g r h , e ls i ma y p p l r f au e ee t n a g r ms fo ic s i g t e f u a t r n f au e ee t lo t ms t n ca sf o i h y n o u a e t r s lc i l o t o i h r m d f r n on s o iw a d i t d c e e a mb a c me t e t r e e t n a d te d v l p n . a t e d s u s i e e t i t fve n n r u e s v r l p o e rn h n so f au e s l ci n e e o me t Atls ,w ic s f o h
面 :) 多 学 习 算 法 的性 能 受 到 不 相 关 或 冗 余 特 征 的 负 面 影 1许
响 。大 多 数 学 习算 法 所 需 训 练 样 本 的 数 目随 不 相 关 特 征 的增
收 稿 日期 :0 1 0 — 8 2 1- 1 2 稿 件 编 号 : 0 1 19 2 10 0 5
个要 素进 行 了 阐述 , 然后 从 各 个 角 度 对 特 征 选 择 算 法 进 行 了分 类 , 述 了其 各 个 分 支 的发 展 态 势 , 后 探 讨 了基 于 多 概 最
目标 免 疫优 化 的 特 征 选 择 方 法的 研 究 思路 。 关 键 词 : 征 选 择 ;特征 子 集 ; 索 ;多 目标 优 化 特 搜 中 图分 类 号 : P 8 T 1 文献标识码 : A 文 章 编 号 :17 — 26 2 l )9 0 4 — 6 6 4 6 3 (0 10 — 0 6 0
第 1 9卷 第 9期
V0 .9 1 1
No 9 .
电子 设计 工 程
E e to i sg n i e rn l cr n c De in E gn e i g
2 1 年 5月 01
M a .2 1 y 01
特征选择算 法综述
计 智伟wenku.baidu.com,胡 珉 ,尹建新
(. 江农 林 大 学 信 息 工 程 学 院 , 江 临安 3 10 ; . 海 大 学 悉尼 工 商 学 院 ,上 海 2 0 7 ) 1浙 浙 13 0 2 上 0 0 2 摘 要 :自 2 0世 纪 9 0年 代 以来 , 特征 选择 成 为 模 式 识 别 和机 器 学 习领 域 的 重要 研 究方 向 , 究成 果 十 分 显 著 , 是 也 研 但 存 在 许 多 问题 需要 进 一 步 研 究。 本 文 首 先 将 特 征 选 择 视 为特 征 集 合 空 间 中的 启 发 式 搜 索 问题 , 特 征 选择 涉 及 的 四 对
搜 索 起 点 是 算 法 开 始 搜 索 的 状 态 点 . 索 方 向是 指 评 价 搜 的特 征 子 集 产 生 的 次 序 。搜 索 的 起 点 和 搜 索 方 向 是 相 关 的 , 它 们 共 同 决 定 搜 索 策 略 。一 般 的 , 据 不 同 的 搜 索 起 点 和 方 根
年 代 起 就 有 学 者 对 此 进 行 了 研 究 ; 时 , 也 是 机 器 学 习 领 同 它
1 特 征 选 择 作 为 搜 索 问题 的 4个 要素
一
般 而 言 . 征 选 择 可 以 看 作 一 个 搜 索 寻 优 问 题 。对 大 特
小 为 n的 特 征 集 合 ,搜 索 空 间 由 2一 “1种 可 能 的 状 态 构 成 。 D ve 等 证 明最 小 特 征 子 集 的搜 索 是 一 个 N ai s P问 题l, 除 了 S即 l 穷举式搜索 , 能保证找到最优解 。 实际应用中 , 不 但 当特 征数
特 征 选 择 ( a r slc o ) 为 一 种 常 见 的 降 维 方 法 是 f t e eet n 作 eu i 模 式 识 别 的研 究 热 点 之 一 。它 是 指 从 原 始 特 征 集 中 选 择 使 某 种 评 估 标 准最 优 的 特 征 子 集 。 目的是 使 选 出 的 最 优 特 征 子 其
向 . 以 下 4种 情 况 : 有 1前 向搜 索 ) 搜索起点是空集 S依据某种 评价标准 , , 随
决 定 它 的 优 劣 , 极 少 关 注 特 征 子集 中 每 个 特 征 的 预测 性 能 而 如何 。 因 此 , 二 种 评 价 标 准 并 不要 求 最 优 特 征 子 集 中 的 每 第 个 特征 都是 优 秀 的[。 】 O l