降维技术与方法综述_张煜东
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
作者简介 :张煜东 (1985— ), 男 , 博士后 , 主要从事数据挖掘研究 ; 吴乐南 (1952— ), 男 , 教授 , 博导 , 主要从事多媒体信息处理和通信信号 处理研究 ; 董正超 , 男 , 哥伦比亚大学教授 , 主要从事脑图像处理研究 。
2
四川兵工学报
为 n的 特征集 , 搜索 2n种可能 的子集 。 因此 , 尽管 穷举法 能确保寻找到最优子 集 , 但是计算开销过大 、不实用 [ 3] 。
按照特征 子 集 的形 成 方 法 , 获 取 特征 可 以 分 为穷 举 法 、启发式方法 、随机方法 、智能优化方法等 , 如图 2所示 。
图 2 按子集产生方法分 类 穷举法 (exhaustive)是一 种最直接的优化 策略 , 对大小
收稿日期 :2010 -08 -25 基金项目 :国家自然科学基金 (60872075);国家高技术发展计划 (2008AA01Z227)
图 4 筛选式 、封装式 、嵌入式三者示意图
方法 结果
指标 准则 搜索方法 评价 泛化能力 特征子集 计算资源
表 1 筛选式 、封装式 、嵌入式方法与结 果的区别筛Fra bibliotek式封装式
特征度量 /特征子集相关度
特征子集有用 程度
有序特征 (个 体 特征 排 序 、嵌套 特征 )
搜索 所 有 特 征 子 集 全 空间
1 特征选择
图 1 特征选择算法框架
特征选择是 一种 从相 关特 征集 中挑 选出 一个 重 要子 集的 技术 , 也 称为变 量选 择 、特征压 缩 、属性 选择 、变 量子 集选择等 。 特征 变换 通过 移 除原 特征 集中 的相 关性 与冗 余性 , 可以减轻维数诅咒 , 增强模 型泛化 能力 , 加速模 型学 习速度 , 改善模型可读性 。 特 征选择 的算法 框架一般 如图 1, 当然有些算法并不全部 具有以 上 4个 方面 , 例如对 特征 排序后选择前 m个特征的 Ranking方法只涉及评价和停止 两方面 [ 2] 。 1.1 子集产生
启发式 (heuristic)方 法不 一定 产生 最 优子 集 , 结 果一 般是一个较优 子集 , 它 与确 定式 方法 存在 下 述区 别 :确定 式方法能够证明自身的收 敛时间 或收敛 结果 , 但是启 发式 方法抛弃了这 两种 目标 :它在 某次 寻优 中可 能收 敛很 快 , 但不能保证始终如此 ;它在某 次寻优 中可能 找到足够 好的 子集 , 但不能证 明下 一次 寻优 得到 的子 集更 优 [ 4] 。 当 然 , 启发式算法的优点在于计 算复杂 度低 , 实现 过程比较 简单 且快速 , 在实际中应用 非常 广泛 。 如向 前 (向后 )选 择 [ 5] 、 决策树 [ 6] 、Relief法 [ 7] 等 。
综上 , 上述 4类算法中只有穷举法能够 保证最优 , 但计 算复杂度高 。 随机方法性能 较差 , 因为 其完 全随机 。 启发 式方法运用拇指规则 , 一般 能够得 到较好 的子集 。 智 能优 化算法 具 有 跳 出 局 部 最 小 的 能 力 , 实 际 中 常 能 得 到 最 优解 。 1.2 子集评价
Step2。 为了简化计算 , 将 σ的取 值范 围从 {0, 1}n放宽 到连
续空间 [ 0, 1] n, 则上述 Step3可以 采用梯度下降的思想计
算 , 新的算法可设置为 :
Step1 设 σ=(1, 1, … , 1); Step2 计算 α*, 使得 α* =argminαR(α, σ); Step3 计算 σ* =σ -λ▽ σR(α*, σ);(此处 用梯度 下降算法代替 ) Step4 令 σ =σ*, 若 满 足终 止 条件 则 推出 , 否则 转 Step2。
非负的 , 可 以提 供 一 个 非 负 物 理 量 的可 加 模 型 (additive
model)。
假设原始非负特征集 X是 一个 m×n矩阵 , m表 示样
本数 , n表 示特 征维 数 , k是 制定 的特征 压缩 之后 的维 数 ,
则 NMF产生矩阵 W与 H, 使得下式最小
min‖ X-WH‖
统计检验法 稳健抵抗过拟合现象
交叉验证 极易过拟合
可能 无 法 选 择 最 有 用 的 特 征 子集
原则 上 可 寻 找 到 最 优 子集
小
非常大
嵌入式 特征子集有用程度
通过学习进程指导搜索
交叉验证 不太容易过拟合 原则 上 可寻 找 到 最 优 子集 较大
张煜东 , 等 :降维技术与方法综述
3
1.3 嵌入式简介
子集评价 即 为 通过 一 个 函数 , 来 计算 选 择 子 集的 得 分 , 以此衡量不同子集的优 劣 。 不同 的评价 函数产生 不同 的结 果 , 评 价 函 数 可 分 为 筛 选式 (filters)、封 装式 (wrappers)、嵌入式 (embedded)3类 , 如图 3所示 。 筛选式不计算模 型 , 而是 直接计 算特征 子集的某 种度 量 [ 13] 。 这种度量方式包括如 下 4种 :基于 距离的 (欧 式距 离 、马氏距离 、Bhattacharyya距离 、chernoff概率距 离 、Mahalanobis距离 等 )、基 于信 息 的 (Shanon熵 、条 件 熵 、信 息 增 益 、互信息等 )、基于独立 性的 (相 关性 、相似 性 )和基 于一 致性的 。
图 3 3种不同的子集评价函数 嵌入式是近 几年 刚刚 提出 的一 种结 合学 习器 评价 特 征子集的特征选择模型 [ 15] , 具有封装式特征选择模 型的精 度 , 同时具有筛 选式 特征 选择 模式 的效 率 。 筛 选式 、封 装 式 、嵌入式三者的示意图可参见图 4, 运行 方法与结 果的区 别可参见表 1。
并进行了性能比 较 。
关键词 :特征选择 ;特征 变换 ;嵌入式特征选择 ;流形学习
中图分类号 :TP18
文献标识码 :A
文章编号 :1006 -0707(2010)10 -0001 -07
随 着 技术 的发 展 , 人 们在 各 个领 域都 会 面对 高 维数 据 。 高维数 据不 仅会 造 成 “维 数诅 咒 ”问 题 , 而 且 对可 视 化 、数据分析 、数据建 模都会带 来困难 。 因此 , 有必要 讨论 目前常见的降维方法 [ 1] 。
第 31卷 第 10期 【特稿 】
四川兵工学报
2010年 10月
降维技术与方法综述
张煜东 1 , 霍元铠2 , 吴乐南2 , 董正超 1
(1.哥仑比亚大学 精神病学系脑成像实验室 , 纽约 纽约 州 10032; 2.东南大学 信息科学与工程学院 , 南京 210096)
摘要 :为了更好地对数据实现降维 , 讨论了特征选择与特征变换两种技术 。 对 于特征选 择 , 按照 特征子集 的形成
封装式通过 建立 在子 集上 的一 个模 型来 计算 子 集的
得分 , 一般可采用基 于该 子集的 后续 学习 器 (根据 实际 需 要 , 例如拟合器 、分 类器 、聚 类 器等 )的性 能作 为 模型 [ 14] 。 优点是得到的特征子集更 符合后 续学习 器的需要 , 缺 点是 计算耗时过长 、且易发生过拟合 。
方法可分为穷举法 、启发式方法 、随 机方法 、智能 优化方 法等 ;按照评 价函数 的类别 可分为 筛选式 、封装 式 、嵌入
式 。 对于特征变换 , 传统的方法采用线性降维 方法 , 主要有 非负矩 阵分解 、因 子分析 、主成 份分析 、奇 异值分解 、
独立成分分析等 ;目前的方法是非线性降维方法 , 以流形学习为代表 。 对各种 不同方法 详细探讨其 原理与流程 ,
示不选取 ;用 α表征 模型参 数 ;则 后续 学习 器的 模型 可记
为 f(α, σx), 模 型误差 记为 L(f, y), 样本 密度记为 P(x,
y)。 则任务在于寻找 最优 的 α与 σ, 使 得整 体误 差 R(α,
σ)最小
minR(α, σ)
α, σ
(1)
∫ R(α, σ) = L[ f(α, σx), y] dP(x, y)
图 5 传统特征变换方法
2.1.1 非负矩阵分解
非负矩阵分解 (non-negativematrixfactorization, NMF)
是一种基于原始特征空 间的低秩 近似 (low-rankapproxima-
tion)[ 19] 。 NMF的一个 优点 在于 , 降 维后 的所 有特 征都 是
些潜因子一般会影响原始 特征集 的若干 特征 , 所以也 称为
公共因子 (commonfactor), 原 始特征 假设 为公共 因子 的线
本文详细 讨论 了特 征选 择与 特征 变换 两 类 。 特 征选 择为从给定的特征中直接 选择若 干重要 特征 , 特征变 换为 通过某种变换将原始 输入空间数 据映射 到一个 新空间 中 。 一般特征选择 的结 果更 有物 理意 义 , 便于 用 户理 解 ;而特 征变换 的 结 果 效 率 更 高 , 能 够 提 取 原 始 数 据 中 隐 含 的 信息 。
可见 , 采用梯度 下降 思想 后 , 算法 的计 算 速度 大 幅度 提高 , 无需计算一 个优 化问 题即 可直 接得 到 σ*。 这 种通 过使用学习器的 结构 来计算 梯度 , 从 而迅 速搜 索 σ*的思
想 , 就是 “嵌入 式 ”名称 的由来 。 因此 , 现有 的封 装式 算法
可通过这种 σ连续化思想 , 转 化为嵌入 式算法 。 这将 是今
后进一步的研究方向 。
2 特征变换
与特征选择的不同之 处在于 , 特 征变换 产生一组 新的 特征 。 缺点在于当原始特 征集具 有明显 的物理 意义时 , 新 特征可 能 会 失 去 意 义 。 优 点 在 于 这 些 新 特 征 压 缩 效 率 更高 [ 18] 。 2.1 传统方法
传统 的特征 变换方 法一般 采用线 性降维 方法 , 如图 5 所示 。
2.1.2 因子分析
因子分析 (factoranalysis)能够去除原 始特征集 中的相 关性 [ 20] 。例 如原始 特征 集是 十项 全能 运动 员 的成 绩 (10
维 ), 容易想到 , 这 10维数 据可视 作运动 员的 “速 度 ”、“力 量 ” 、“耐力 ”这 3 维潜 因子 (latentfactor)的体 现 。 由于 这
由于嵌入式 目 前国 内仅 有 2篇 相 关文 章 [ 15-16] , 国外 也是刚刚起步 [ 17] , 这里再对其详细介绍 。 首先假设 维数为
n, 原始特征集为 x={x1, x2, … , xn}, 原始 输出为 y;用 σ ∈ {0, 1}n表征对应特征 选取与否 , 其 中 1表 示选取 , 0表
随机方法 (random)可 分 为完 全随 机方 法与 概率 随机 方法 。 前者是指纯随机产 生子集 , 后 者是指 子集的产 生依 照给定的概率进行 [ 8] 。
智能 (intelligent)方法相对较 新 , 一般通 过模拟自 然界 中生物的进化 原理 、或 者集 群生 活方 法 , 来 实现 优化 问题 的搜 索 。 可 分 为 遗 传 算 法 [ 9] 、 蚁 群 算 法 [ 10] 、 粒 子 群 算 法 [ 11] 、模拟退火算法 [ 12] 等 。
(2)
式 (2)有时会加上正 则化项 , 可 用下述方法 (与 EM算 法类 似 )求解 :
Step1 设 σ=(1, 1, … , 1); Step2 计算 α*, 使得 α* =argminαR(α, σ); Step3 计算 σ*, 使得 σ* =argminσR(α*, σ); Step4 令 σ =σ*, 若 满 足终 止 条件 则 推出 , 否则 转
W, H
2
(3)
式中 , W是 m×k矩阵 , H是 k×n矩阵 。 由于 k一般远远小
于 X的秩 , 所以 WH是 X的一个 良好的低 秩近似 。 该 方法
的一个缺点在 于 , 式存 在许 多局 部极 小点 , 算 法可 能会 陷
入局部最优 。 因此 , 若算法得到的 W与 H的秩甚至远小于
k, 则表明结果次优 。
2
四川兵工学报
为 n的 特征集 , 搜索 2n种可能 的子集 。 因此 , 尽管 穷举法 能确保寻找到最优子 集 , 但是计算开销过大 、不实用 [ 3] 。
按照特征 子 集 的形 成 方 法 , 获 取 特征 可 以 分 为穷 举 法 、启发式方法 、随机方法 、智能优化方法等 , 如图 2所示 。
图 2 按子集产生方法分 类 穷举法 (exhaustive)是一 种最直接的优化 策略 , 对大小
收稿日期 :2010 -08 -25 基金项目 :国家自然科学基金 (60872075);国家高技术发展计划 (2008AA01Z227)
图 4 筛选式 、封装式 、嵌入式三者示意图
方法 结果
指标 准则 搜索方法 评价 泛化能力 特征子集 计算资源
表 1 筛选式 、封装式 、嵌入式方法与结 果的区别筛Fra bibliotek式封装式
特征度量 /特征子集相关度
特征子集有用 程度
有序特征 (个 体 特征 排 序 、嵌套 特征 )
搜索 所 有 特 征 子 集 全 空间
1 特征选择
图 1 特征选择算法框架
特征选择是 一种 从相 关特 征集 中挑 选出 一个 重 要子 集的 技术 , 也 称为变 量选 择 、特征压 缩 、属性 选择 、变 量子 集选择等 。 特征 变换 通过 移 除原 特征 集中 的相 关性 与冗 余性 , 可以减轻维数诅咒 , 增强模 型泛化 能力 , 加速模 型学 习速度 , 改善模型可读性 。 特 征选择 的算法 框架一般 如图 1, 当然有些算法并不全部 具有以 上 4个 方面 , 例如对 特征 排序后选择前 m个特征的 Ranking方法只涉及评价和停止 两方面 [ 2] 。 1.1 子集产生
启发式 (heuristic)方 法不 一定 产生 最 优子 集 , 结 果一 般是一个较优 子集 , 它 与确 定式 方法 存在 下 述区 别 :确定 式方法能够证明自身的收 敛时间 或收敛 结果 , 但是启 发式 方法抛弃了这 两种 目标 :它在 某次 寻优 中可 能收 敛很 快 , 但不能保证始终如此 ;它在某 次寻优 中可能 找到足够 好的 子集 , 但不能证 明下 一次 寻优 得到 的子 集更 优 [ 4] 。 当 然 , 启发式算法的优点在于计 算复杂 度低 , 实现 过程比较 简单 且快速 , 在实际中应用 非常 广泛 。 如向 前 (向后 )选 择 [ 5] 、 决策树 [ 6] 、Relief法 [ 7] 等 。
综上 , 上述 4类算法中只有穷举法能够 保证最优 , 但计 算复杂度高 。 随机方法性能 较差 , 因为 其完 全随机 。 启发 式方法运用拇指规则 , 一般 能够得 到较好 的子集 。 智 能优 化算法 具 有 跳 出 局 部 最 小 的 能 力 , 实 际 中 常 能 得 到 最 优解 。 1.2 子集评价
Step2。 为了简化计算 , 将 σ的取 值范 围从 {0, 1}n放宽 到连
续空间 [ 0, 1] n, 则上述 Step3可以 采用梯度下降的思想计
算 , 新的算法可设置为 :
Step1 设 σ=(1, 1, … , 1); Step2 计算 α*, 使得 α* =argminαR(α, σ); Step3 计算 σ* =σ -λ▽ σR(α*, σ);(此处 用梯度 下降算法代替 ) Step4 令 σ =σ*, 若 满 足终 止 条件 则 推出 , 否则 转 Step2。
非负的 , 可 以提 供 一 个 非 负 物 理 量 的可 加 模 型 (additive
model)。
假设原始非负特征集 X是 一个 m×n矩阵 , m表 示样
本数 , n表 示特 征维 数 , k是 制定 的特征 压缩 之后 的维 数 ,
则 NMF产生矩阵 W与 H, 使得下式最小
min‖ X-WH‖
统计检验法 稳健抵抗过拟合现象
交叉验证 极易过拟合
可能 无 法 选 择 最 有 用 的 特 征 子集
原则 上 可 寻 找 到 最 优 子集
小
非常大
嵌入式 特征子集有用程度
通过学习进程指导搜索
交叉验证 不太容易过拟合 原则 上 可寻 找 到 最 优 子集 较大
张煜东 , 等 :降维技术与方法综述
3
1.3 嵌入式简介
子集评价 即 为 通过 一 个 函数 , 来 计算 选 择 子 集的 得 分 , 以此衡量不同子集的优 劣 。 不同 的评价 函数产生 不同 的结 果 , 评 价 函 数 可 分 为 筛 选式 (filters)、封 装式 (wrappers)、嵌入式 (embedded)3类 , 如图 3所示 。 筛选式不计算模 型 , 而是 直接计 算特征 子集的某 种度 量 [ 13] 。 这种度量方式包括如 下 4种 :基于 距离的 (欧 式距 离 、马氏距离 、Bhattacharyya距离 、chernoff概率距 离 、Mahalanobis距离 等 )、基 于信 息 的 (Shanon熵 、条 件 熵 、信 息 增 益 、互信息等 )、基于独立 性的 (相 关性 、相似 性 )和基 于一 致性的 。
图 3 3种不同的子集评价函数 嵌入式是近 几年 刚刚 提出 的一 种结 合学 习器 评价 特 征子集的特征选择模型 [ 15] , 具有封装式特征选择模 型的精 度 , 同时具有筛 选式 特征 选择 模式 的效 率 。 筛 选式 、封 装 式 、嵌入式三者的示意图可参见图 4, 运行 方法与结 果的区 别可参见表 1。
并进行了性能比 较 。
关键词 :特征选择 ;特征 变换 ;嵌入式特征选择 ;流形学习
中图分类号 :TP18
文献标识码 :A
文章编号 :1006 -0707(2010)10 -0001 -07
随 着 技术 的发 展 , 人 们在 各 个领 域都 会 面对 高 维数 据 。 高维数 据不 仅会 造 成 “维 数诅 咒 ”问 题 , 而 且 对可 视 化 、数据分析 、数据建 模都会带 来困难 。 因此 , 有必要 讨论 目前常见的降维方法 [ 1] 。
第 31卷 第 10期 【特稿 】
四川兵工学报
2010年 10月
降维技术与方法综述
张煜东 1 , 霍元铠2 , 吴乐南2 , 董正超 1
(1.哥仑比亚大学 精神病学系脑成像实验室 , 纽约 纽约 州 10032; 2.东南大学 信息科学与工程学院 , 南京 210096)
摘要 :为了更好地对数据实现降维 , 讨论了特征选择与特征变换两种技术 。 对 于特征选 择 , 按照 特征子集 的形成
封装式通过 建立 在子 集上 的一 个模 型来 计算 子 集的
得分 , 一般可采用基 于该 子集的 后续 学习 器 (根据 实际 需 要 , 例如拟合器 、分 类器 、聚 类 器等 )的性 能作 为 模型 [ 14] 。 优点是得到的特征子集更 符合后 续学习 器的需要 , 缺 点是 计算耗时过长 、且易发生过拟合 。
方法可分为穷举法 、启发式方法 、随 机方法 、智能 优化方 法等 ;按照评 价函数 的类别 可分为 筛选式 、封装 式 、嵌入
式 。 对于特征变换 , 传统的方法采用线性降维 方法 , 主要有 非负矩 阵分解 、因 子分析 、主成 份分析 、奇 异值分解 、
独立成分分析等 ;目前的方法是非线性降维方法 , 以流形学习为代表 。 对各种 不同方法 详细探讨其 原理与流程 ,
示不选取 ;用 α表征 模型参 数 ;则 后续 学习 器的 模型 可记
为 f(α, σx), 模 型误差 记为 L(f, y), 样本 密度记为 P(x,
y)。 则任务在于寻找 最优 的 α与 σ, 使 得整 体误 差 R(α,
σ)最小
minR(α, σ)
α, σ
(1)
∫ R(α, σ) = L[ f(α, σx), y] dP(x, y)
图 5 传统特征变换方法
2.1.1 非负矩阵分解
非负矩阵分解 (non-negativematrixfactorization, NMF)
是一种基于原始特征空 间的低秩 近似 (low-rankapproxima-
tion)[ 19] 。 NMF的一个 优点 在于 , 降 维后 的所 有特 征都 是
些潜因子一般会影响原始 特征集 的若干 特征 , 所以也 称为
公共因子 (commonfactor), 原 始特征 假设 为公共 因子 的线
本文详细 讨论 了特 征选 择与 特征 变换 两 类 。 特 征选 择为从给定的特征中直接 选择若 干重要 特征 , 特征变 换为 通过某种变换将原始 输入空间数 据映射 到一个 新空间 中 。 一般特征选择 的结 果更 有物 理意 义 , 便于 用 户理 解 ;而特 征变换 的 结 果 效 率 更 高 , 能 够 提 取 原 始 数 据 中 隐 含 的 信息 。
可见 , 采用梯度 下降 思想 后 , 算法 的计 算 速度 大 幅度 提高 , 无需计算一 个优 化问 题即 可直 接得 到 σ*。 这 种通 过使用学习器的 结构 来计算 梯度 , 从 而迅 速搜 索 σ*的思
想 , 就是 “嵌入 式 ”名称 的由来 。 因此 , 现有 的封 装式 算法
可通过这种 σ连续化思想 , 转 化为嵌入 式算法 。 这将 是今
后进一步的研究方向 。
2 特征变换
与特征选择的不同之 处在于 , 特 征变换 产生一组 新的 特征 。 缺点在于当原始特 征集具 有明显 的物理 意义时 , 新 特征可 能 会 失 去 意 义 。 优 点 在 于 这 些 新 特 征 压 缩 效 率 更高 [ 18] 。 2.1 传统方法
传统 的特征 变换方 法一般 采用线 性降维 方法 , 如图 5 所示 。
2.1.2 因子分析
因子分析 (factoranalysis)能够去除原 始特征集 中的相 关性 [ 20] 。例 如原始 特征 集是 十项 全能 运动 员 的成 绩 (10
维 ), 容易想到 , 这 10维数 据可视 作运动 员的 “速 度 ”、“力 量 ” 、“耐力 ”这 3 维潜 因子 (latentfactor)的体 现 。 由于 这
由于嵌入式 目 前国 内仅 有 2篇 相 关文 章 [ 15-16] , 国外 也是刚刚起步 [ 17] , 这里再对其详细介绍 。 首先假设 维数为
n, 原始特征集为 x={x1, x2, … , xn}, 原始 输出为 y;用 σ ∈ {0, 1}n表征对应特征 选取与否 , 其 中 1表 示选取 , 0表
随机方法 (random)可 分 为完 全随 机方 法与 概率 随机 方法 。 前者是指纯随机产 生子集 , 后 者是指 子集的产 生依 照给定的概率进行 [ 8] 。
智能 (intelligent)方法相对较 新 , 一般通 过模拟自 然界 中生物的进化 原理 、或 者集 群生 活方 法 , 来 实现 优化 问题 的搜 索 。 可 分 为 遗 传 算 法 [ 9] 、 蚁 群 算 法 [ 10] 、 粒 子 群 算 法 [ 11] 、模拟退火算法 [ 12] 等 。
(2)
式 (2)有时会加上正 则化项 , 可 用下述方法 (与 EM算 法类 似 )求解 :
Step1 设 σ=(1, 1, … , 1); Step2 计算 α*, 使得 α* =argminαR(α, σ); Step3 计算 σ*, 使得 σ* =argminσR(α*, σ); Step4 令 σ =σ*, 若 满 足终 止 条件 则 推出 , 否则 转
W, H
2
(3)
式中 , W是 m×k矩阵 , H是 k×n矩阵 。 由于 k一般远远小
于 X的秩 , 所以 WH是 X的一个 良好的低 秩近似 。 该 方法
的一个缺点在 于 , 式存 在许 多局 部极 小点 , 算 法可 能会 陷
入局部最优 。 因此 , 若算法得到的 W与 H的秩甚至远小于
k, 则表明结果次优 。