基于多子空间线性判别分析的特征提取与分类

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DONG n Ya
( ERP S p o tCe t r o i o e h n l Oi il a c mp n u p r n e fS n p cS e g i l e d Br n h Co a y,Do g i g 2 7 0 ,C i a f n yn 5 0 0 hn ) Ab ta t n ca sf a i n o i h d me so a t t t a a a u d ry n ma l a l ie p o lm ,i r e O s l e F s e f c sr c :I ls i c t f g — i n in l a i i l t n e l ig s l s mp e s r b e i o h s sc d z n o d r t o v ih r a e t o g tlc f ic i i a t n l ss e h d,s mp eo a h ca si d s r e sn liu s a et c n q ea d ma i u s a — h u h a k o s r n n a y i t o d m a m a l f c ls e c i d u i g mu t b p c e h i u n xm m c t e s b s t rd f r n ec i r n t e lc a l e we n ca s a d wi i- l s iti u in mo e a c r t .Crt r n o l s i c t n i e i e e c rt i O r fe t s mp e b t e - ls n t n ca s d s rb t r c u a e f eo h o i i f ca sf a i s eo i o c n i e c r m y sr l a t e h n ds a c .Re u t e n t a e h tt ep ro ma c f h r p s d me h d i s p ro o f n e fo Ba e u e r n h r t a it n e d s l d mo sr td t a h e f r n eo e p o o e t o u e ir s t s t h to r d t n l p r a h s O t a fta i o a p o c e .Asf r a e o n t n r t s c n e n d r e mp o e n so t i e . i a a sr c g ii a e i o c r e ,ama k d i r v me ti b an d o Ke wo d : h g i n i n l a d s l s mp e sz p o lm ; mu t u s a e l e r ic i ia t a a y i ; fa u e y rs i h d me s a o n ma l a l i e r be l s b p c ; i a d s r n n n l ss i n m e tr
线性判别分析方 法 ( D L A)进行 分类 时往 往 因类 内散 度矩 阵的奇异 性 而无 法求 解 ,即模 式 识别 中的 高维 小 样 本 问 题 l 。而实践 中常 用 Fs efc 方 法来解 决 高维小 样本 问 1 ] i r e h a
题 _ ,它 由 主 成 分 分 析 ( C 2 ] P A) 和 线 性 判 别 分 析 ( D L A)
根 据子 空 间 分 析 理 论 ,解 决 高 维 小 样 本 问 题 的 关 键 是
f 8
( 在ml方向投影后的分布商方 图 b )
图 2 考 虑 分 类 后 的 P A 及 分 类 结 果 C 左 侧 浅 灰 ,右 侧 深 灰 ) 分 别 代 表 不 同 类 的 数 据 样 本 ,将 样
L AE D ,Geeai dL A[等方法提 出,其 中 P A+L A nrl e D 。 z c D 作 为有 效的方法广泛应用 在人脸识 别领域 。在 P A+L A C D 处理 中,首先利用 P A进行维度缩减 ,作 为一 种全局提取 C 技术 ,P A的 目标是寻找一组正 交 向量使 得所有样 本经过 C 投影后 的方差最 大 ,而 P A在降维过程 中并没 有考虑样本 C
本文针对 常用 P A 和 L A在 降维 和判别分 析上 的不 C D 足 ,在算 法设计 中 ,一方面借鉴 了 P A在维数缩 减上的作 C
用 ,另一 方 面尽 可 能 多 地 保 留 类 的 判 别 信 息 。 算 法 的 简 单
组成 , 先通过 P A实现 降维 ,从而消 除类 内散度矩 阵的奇 C
— _ 一



I ;
有最大 的类 间距 离和最 小 的类 内距离 ,即模式 在该空 间中 有最佳 的可分 离性 。当 非 奇异 时 ,根据 L gag 乘 数 arn e 法 可得 g 是由矩 阵 S 的特征 向量 组成 的矩 阵 ,但在 高 . U wS 维 小样本 的情况 下 , 非 奇异 的前提常 常无法满足 。




() 1
( 提取的新投影 方向m1和m a ) 2
~ 一0 _. 叠 冀 ~

L A使用最大散度 比准则 ,目的是 求使 准则 J ( D 训)最
大 的投影 叫 ,在此投影下可 以使样本的类间散度矩阵 与 类 内散度矩 阵 S 的比值最大 ,使得经过特征提取后 的样本
e ta t n;ca sfc to xr ci o l s ii in a
0 引 言
特征提取和分类始 终是模式 识别 研究 的重要课 题 ,在
同时 ,也 带来 分类 判别 信 息 的缺 失 。 L DA 的 目标 是 使 特 征
提取后的样本 类问离 散度 和类 内离 散度 的 比值 最大化 ,即
异性并有效 降低运算复杂度 ,但是 P A 的作为最佳描 述特 C
征的提取方法是 以投影后 方差 最大为 准则 ,并没 有判别 分
思想就是通过对每类样本 进行特 征提取 以有效 地保 留判别
信息和降维 。提出 的多子空 间线性 判别分 析 ,对不 同样本 类分别描述 ,针对 每类样本提取最适 合分类 的特征 子空间 ; 分类时综 合考虑投影 后样本 的概率 分布模 型 ,以概 率距离
摘 要 :为 了解 决 高 维 小样 本 数 据 的 分 类 中 Fsefc 想判 别 分 析 方 法 的 不 足 ,在 最 大散 度 差 准 则 的 基 础 上 ,提 出 了 利 i r e思 h a
用多线性子空间技 术对每 类样本进行单独描述的方法 ,该方法能更准确地反 映样本在 类 内类 间的分布 关 系。在 分类 中不是
各 类 样 本 在 特 征 空 间 中有 最 佳 的可 分 离 性 。 该 方 法 利 用 最
生物特征识别 ,基 因图谱分 析 ,遥感影 像分类 ,空 间数据
挖掘等应用 领域 更有着 广泛 的实用价 值 。随着数 据 的复杂
性 和 规 模 急 剧增 长 ,特 征 提 取 和 分 类 的难 点 主要 表 现 为 数 据 集 中 样本 的特 征 维 数 远 远 大 于 每 类 样 本 数 量 。 由 于 样 本 的 稀 疏 造成 样 本 类 的统 计 特 征 描 述 不 充 分 ,在 利 用 经 典 的
本数据分别投影 到 P A第 一主元 方 向 m 和新 提取 的投影 C 1
方 向 m 样 本 数 据 由 2维 降 为 1 。 比较 图 1与 图 2降 维 1, 维
后的数据直方图分布 ,可以看出在 图 2 ( )中,两类数 据 b
在 投 影 后 得 到更 好 的 分离 。 由此 可 知 P A 并 不 是 面 向分 类 C 的 特 征 提 取 方 法 ,一 般 情 况 下 , 由其 得 到 的 特 征 是 最 佳 描
Fe t r x r c i n a d ca sfc to a e n m u ts b p c i e r a u e e ta to n ls iia i n b s d o liu s a el a n
d s rm i a ta ay i ic i n n n l ss
去除由冗余特征 组成样 本空 间的稀疏 部分 ,这 些冗余 特征 所具有 的判别信 息往往 很少或 没有 ,是类 内散 度矩 阵奇 异 的根源 ,针对 L A方法在解决高维小样本 问题 的 困境 ,先 D
后 有 Fs efc ( C + L A ) Drc— D , D a i r e PA h a D , i t AE e L ul —
21 0 2年 4月
计 算机 工程 与设 计
COM PUTER ENGI ER1 NE NG AND DES GN I
Apr 2 2 . 01
第3 3卷
第 4期
Vo . 3 No 4 13 .
基于 多子空 问线性判别分析的特征提取 与分类
董 琰 ( 中石 化胜 利 油田分公 司 E RP支持 中心 ,山 东 东营 2 7 0 ) 5 0 0
的 类 别 标 志 ,因此 在 以分 类 为 目标 的特 征 提 取 技 术 中 并 不
述特征 ,而不是最佳分类特征。
2 算 法提 出
对于包含 C 类样本 的分 类 问题 ,类 中的所 有样 本是 已 知 的对原始类 最可能 的描述 。但 是样本 分类 时 ,不仅依 赖 对类 内共性 的描述 ,更 多 的是依 赖 于对 类 间差 异 的描 述。 直观上 ,通过对每类 单独 描述 ,提取 最能体 现类 内共性 和 类问差异的特征 ,可 以提高对 类模式 描述 的准确 性和 全面
大散度 比准则 将所 有类 的样 本投 影 到 同一个 特征 空 间 中,
而 忽 略 了各 类 样 本 在 特 征 分 布 上 的 差 异 ; 同时 ,对 于 一 个 特 定 的 模 式识 别 问题 ,表 达 和 识 别 模 式 的特 征 具 有 不 同 的 形 式 ,而 且 在 物 理 意 义 上 也 不 是 完 全 相 同 的 ,并 且 在 数 量 级 也 有 很 大 差 别 ,简 单 基 于 距 离 的 匹 配 划 分 难 以实 现 客 观 的分 类 判 别 。
析能力 ,降维时 没有考 虑样本 的类属 信息 ,在维 度缩减 的
收稿 日期 :2 1 —91 ;修 订 日期 :2 1 11 0 10 —2 0 11 5
作者 简 介 :董 琰 ( 9 0 ) 1 7 一 ,男 ,山 东 东 营人 ,硕 士 ,研 究 方 向 为计 算 机 信 息 技 术 。Ema : o g a 9 1 6 c m - i dnyn @ 2 . o l
以距 离作为判别依据 ,而是按照 贝叶斯决策规则得到的隶属置信度 作为衡 量标 准。实验 结果表 明了该 方法的有效性 ,和 同
类方法相比,有 更高的识 别率 。
关 键 词 :高 维 小样 本 问题 ; 多子 空 间 ;线 性 判 别 分析 ;特 征 提 取 ;分 类 中图法分类号 : P 9.1 文献标识号 : T 3 14 A 文 章 编 号 :10 0 4 (0 2 419 —4 0 07 2 2 1 )0 —5 10

计 算机 工程 与设 计
作为隶属置信度 ,并 以此 作为分类 的依 据 ,选 取最 可能 的 wenku.baidu.com
类属划分 。
2 1 住 02
1 相 关技术
I 胡是统计模 式识 别 中最基 本 和 常用 的分 类方 法 , D 其 准则 函数如下
. 叫)= , (
叫 叫

_ _
相关文档
最新文档