高维数据分类中的特征降维研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要 :以高维分类为 目 标, 从分类的准确率与模型解释性角度探讨了降维的必要性, 分析了特征选择与抽取
2 类方 法特 点 ,并对 常用 的特 征抽 取方 法,包 括 主成 分分析 (C 、偏 最小二 乘( L ) P A) P s和非 负矩 阵分 f ( f NMF t  ̄ ) 进行 了 阐述 . 虑 到约减 后 的数据 缺乏 稀疏 性 与可解 释性 ,提 出 了基于稀 疏 正则 化的特 征抽 取模 型,为高 维 考 特征 降维提 供 了一 种新 思路 .
关键 词:高维数据;降维;特征抽取;稀疏正则化 中图分类 号: P1 1 T 8 文献标 志码 : A
0 引 言
维 数爆 炸 性 增 长 ,成 千上 万 的 变量 ( 征) 目远远 特 数
1 分 类与降维
在分 类方 面 ,人们 更 多地 关 注 的是分 类 准确 率 与模 型 解 释性 [. 类 准 确率 指 的是模 型 的 预测 能 3分 】
基 金项 目:国家 自然 科学 基金( 1 6 0 3 16 0 4 和江西 省教育厅 科学 技术研 究( J 13 8资助项 目. 6 05 0, 50) 61 G J20 )
作者简 介 : 立月 (90) 男 , 徽安 庆人,副教 授,硕士 , 刘 17- , 安 主要 从事 机器 学习 、嵌入式 开发 方面 的研 究
数 据 含 有 更 高 的噪 音 ,干扰 变 量 或 噪 音 变 量 (os ni y
vr be) 能使 得 原 始数 据 结 构更 复 杂 ,隐蔽 性更 ai l 可 a s
强 …. 若 信噪 比太小 ,由于噪音 的积 累,对 总体 均 假
值矢量 评估 、线性判别 规则并 不 比随机 猜测强 [. ③
表现 在3 方面 : 数据 维数 的增 加导 致空 间数据 点 个 ①
力 ;而 模 型解 释 性指 的是 模 型 的简 洁 性,即 提供 简
单 明晰 的输 入与输 出之 间 的逻辑 关 系.
在 高 维数 据分 析 中 ,从 分 类 准 确 率 角 度 来 看 ,
随着变 量数 目的增 加,尤 其 当输 入变 量( 多 于观 测 )
第3卷 第2 6 期
21 0 2年 3月
江西师范大学学报( 自然科学版)
Junl fi g i om l n esy(a aSi c) o r a xN r aU i r t N mr c ne aoJn v i l e
、o . 6 N o2 ,1 3 .
M a" O1 l .2 2
值() 时,一些 传统 的分类方 法,如 Fse i r判别将 不 h
再 合适 .当应 用 Fse i r判别规 则开 展总体 均值 与协 h
方差矩 阵评估 时 ,由于 n m,协方差 矩 阵变得奇 异, <
因而 不 稳定 :另一 方 面 ,尽 管 总体 均值 矢 量 的各 个 组 成 部分 可 能获 得 准确估 计 ,但 积 累的评 估误 差 也 是 很 大 ,这 些评 估 误 差将 严 重破 坏 分 类准 确 率 .其
明确要 求 n m,但 当 m 很大 时,其 分类准确 率也 表 > 现不 尽 人 意.从 模 型解 释 性 角度 来 看 ,输 人变 量 与 响应 变量 应 有简 单关 联性 ,因为 简单 的模 型 通常 能 建 立 一个 明晰 的数据 逻辑 结 构,从而使 数 据有 更好 的理 解 性 ,如 果 数 据 维数 太 高 ,显 然 很 难 实现 .降
文章编 号: 0 05 6 (0 20 —1 1 4 1 0 -8 22 1)20 3 — 0
高维数 据分 类 中的特征 降维研 究
刘 立 月 1 兆 华 ,黄 ,刘 遵雄 2
(.华东交通大学软件学院,江西 南昌 3 0 1 2 1 30 3 .华东交通大学信息工程学院,江西 南昌 3 0 1) 3 0 3
它 的 方 法 ,如 N n ua n t rs、me (-ers N(erl e k) wo N knaet
n ih os、S eg b r) VM (u p rv co cie) sp o etr t mahn s,并没 有
更加孤 立,参数 空间 的全 局优化越 来越 困难; ②高维
超 出观 测值 的数 量 .此类 问题 已广 泛地 影 响到 各个 领域 , 图像处 理 、 因微矩 阵研究 、 如 基 文本数 据分 析
等 . 随着数据维 数 的增 长,模型选 择 、参 数估计 、 伴 目标 函数优化将 变得越 来越棘 手,已成 为统计分 析 、 机器 学 习 、图像处 理 、模式 识别 等领 域 目前 面临 的 普 遍 现象 ,即维 数灾 难 .维 数灾 难 带 来 的 问题 主要
维是高 维分类 面 临的首要 任务 .
到在 中 、低维 数据 空 间有许 多执 行得 较好 的分 类技
术 ,本 文重 点研 究 以分类 为 目标 的高维 数据 特 征 降
维技 术.
2 降维 技术
高 维 特征 空 间 中,特 征之 间 可能是 冗 余 的或者
收稿 日期 :2 1 —11 0 20 .8
.
计算 机 的运 算及 存 储 能力 目前 已足够强 大 ,但 高维
数据处 理所需 要 的存储 空 间与运 算能力 仍不 可忽视 . 处理 高维 分类 问题 的 自然想 法就 是首 先将 数据
维 数 降到 合适 的大 小 ,尽 可能保 持 原有 数 据分 类信
息 ,然 后对 约 减 的数 据 采用 标 准 的分 类 模 型.考虑
12 3
江 西 师 范大 学 学 报 ( 自然 科 学版 )
21 0 2拄
不相 关 的,造成 高 维 空 间处理 的不便 ,容 易 出现 过 学 习现象 ,时 间与 空 间开 销大 ,在 不 影 响分类 精 度 情 况 下,需 要进 行 特征 降维 【.特 征降 维一般 分 为2 4 ]