三种数据降维方法的分析比较

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

个n p x 阶的数 据矩阵 :




方法 。首 先 , 通过 变换 ‘ 现输 入空 间X到特 征空 p 实 间F 映射 , 的 即输 入 空 间样 本 点x’ …, 征空 l, X x t 到特 间样本 点 ‘ p , 的变换 。然后 , … 在特 征空 间 中


建 电

21 0 2年第 6期

个 非 零 特征值 , 为 所 对应 的特征 向量 , 3、 且()
() 4的特 征值 与特征 向量具 有 以下关 系 :
换 。 者 的最 大 的不 同在于K C 在求解 过程 中需 两 EA 要 计算 特征值 与特 征 向量 的R n i ey熵
2、 法 分 析 较 算 匕
互 f, ∑aJO = = (  ̄ )j x
( 5 )
不可 行 。 算法 复 杂 度 主要 由数 据点 个数 n 原 始 维 、 目标 维数 d 决 定 。P A 算协 方 差 矩 阵需 来 C 计 应 的 通 过 仅 进行 规范 化 。通过 式 ( ) 原始 数D、 = 6对 要O n )而对D D (D , x 协方 差 矩阵 进行 特征 分 析需 要 数据 进行 重建 : 一 0n ; P A f x  ̄ 阵进行特征分析需要O l, P A ( ) C Xn n 3K ) C 3K
线 性 映射将 高维数据 转变 成低 维数 据 。数据 降维 的 目标 是在保 持原始数 据 的分 类 和决 策能力 前提
Z= l lX + 1‘ +l 2 …+1 2 f , z= : 十 控 + f …+ 2 , ,

()
下, 去掉数 据 中的冗余 信息 。 通过 数 据降维 可 以减 轻 维数 灾难 和高维 空间 中不相 关 属性 .促进 高维

的低 维表示 。
1 1P . CA
满 足 以上条 件 的z, , , 分别 称 为原 始 数 , … z z 据 , , , … 的第 第2 … , 个 主成 分 。 , , 第m
12 KP . CA
P A 一种 典 型 的线性 降 维方 法 .通 过对 原 C是 始 变量 的相关 矩 阵进行研 究 。用 少数 几个综 合 变

X2
Fra Baidu bibliotek


运 用 主成 分分 析方法 , 即求解特 征值 :
l 2 …
丑 Co l , t = o , …, , 2
( 3 )
入 是c ( 所 1 ) 较 麻烦 。 此时就 需要对 数据 进行 降维 处理 . 即用 比 阵 ,; 的一个非零特征值 , 为入 对应 的特征 较 少 的几个 变量来 代替 原始 比较 多 的变 量 .并 且 向量 。可 以将 上式 转换为 下列特 征值 问题 : 在 它们 在相 互独立 的前 提下 .使 这 些少 数 的综 合 互 , l, t = i , …, =2 ( 4 ) 变量尽 可 能多 的反映原 始 变量 的信 息
【 关键 词 】 :数 据 降 维 ; 成分 分析 ; 成分 分析 ; 熵 主成分 分析 主 核主 核
随 着计算 机处理 的数据 量 和数 据维 数 的越来 为新 的少 数变 量 :
越 大 .数 据 降维技术 已经成 为 一项 越来 越重 要 的 数据 处理 技术[] 据 降维是 指通 过线 性或 者非 1 。数 - 2
的绝 大部分 信息 .它们通 常 用原 始变 量 的线性 组 分 分 析 ( enl r c a C m o et nls . P K re Pi i l o p n n A a i K . np ys 合 来 表示 。 C 为处 理非 线性 问题 提供 了可能 。 A) 假 设 现有n 个样本 。 每个样 本 有P 变量 。 成 个 构 K C嗍 P A 的基本思 想是在 主成 分分 析 中应 用核
随 着 支 持 向 量 机 fu p ̄ V co Mahn 。 S p o etr cie ' 量( 即主 成分 ) 示原 始 的 多个 变 量 , 表 进而 达 到 降 S M 研 究 的展 开 . 对 核方 法 的研 究 受 到前 所 未 V ) 针
维 的 目的 。提取 出来 的主成分 可 以反 映原 始变 量 有 的重 视 与 核方法 的有机 融合 而形 成 的核 主成
的 , 是 与z不相关 的 , ,… , z : j 的所有 线性 组合
_
数 据 降维 的数 学描 述 :) =x = 维 空 间 aX i i是D l l
… 是 J 2… Z m 中 的一 个样 本集 , =y 是 dd < ) 空 间 中的一 中方差 最 大者 , , 与 , , … , l都 不相关 Y { i (< D 维 … 的所有线 性组合 中方差 最 大者 。 个 数据 集 ; ) 维 映射 , X Y】 y M( , y b降 M: , = x 称 为 的 , , , 【 )
i. ,2 … , 为 原始 变 量 ,1z, ,mm≤p e 】x , x x z, … Z( 2 )

当p 大时 .在p 空 间 中处 理 问题 就显得 比 较 维
其中c; 为特征空间中的样本协方差矩 %
其中 =【 。 K() 1 ; 是核矩阵, (, ,是K i = ) 入 的 纸 i
数 据 的分类 和压缩翻 。 1 数 据 降 维 方 法 、
z =l1 + 2 2 m X +… +l
m p

确 定 系数l ; : 则: 的原
①z f ≠『 √ 2 …, 彼此不相关 ; i ( . = ,, m) 与石 ; ②z是 ,。 , ,…, 所有线性组合 中方差最大
21 0 2年第 6期

建 电

4 7
三种数据 降维方法的分析 比较
梁 衡 (许 昌学院 , 计算 机科 学与技 术 学院 河 南 许 昌 4 10 ) 6 0 0 【 摘 要 】 :数 据 降维主要 是 为 了解 决维数 灾害 问题 。 该论 文主要 分析 了三种数 据 降维 方法 , 并 对算 法优缺 点进 行 了分析 和 比较 。
相关文档
最新文档