大规模数据集下谱聚类算法的求解_史卫亚
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘 要 谱聚类算法是一种流行的数据聚类方法 , 该算法使用特征分解技术计算邻接矩阵的特征解 , 但是在大规 模 数 据集的情况下 , 因储存和计算的问题而无法进行求解 。 基于线性代数中对称矩阵的性质 , 提出使用邻接矩阵的每 一 列 , 通过迭代计算出邻接矩阵的特征解 。 所提算法的 空 间 复 杂 度 只 有 Ο( 时间复杂度也降 作为迭代算法的输入样本 , m) 。 实验结果验证了算法的有效性 。 低为 Ο( k m) p 关键词 谱方法 , 邻接矩阵 , 大数据集 , 特征分解
) , , , 本文受国家自然基金项目 ( 河南省教育厅自然科学研究计划项目 ( 河南工业大学博士基金项目( 河南省 6 0 8 7 5 0 0 3 2 0 1 0 B 5 2 0 0 0 5) 2 0 0 9 B S 0 1 3) ) , ) 科技厅重点科技攻关项目 ( 郑州市科技发展计划项目 ( 资助 。 1 1 2 1 0 2 2 1 0 1 9 0 2 0 1 0 S F XM 4 7 0 , : ; , 史卫亚 ( 男, 博士 , 副教授 , 主要研究方向为数据挖掘 、 模式识别 , 郭跃飞 ( 男, 博士 , 副教授 , 主要 1 9 7 3- ) E-m a i l w s h i f u d a n. e d u. c n 1 9 6 4- ) @ y 研究方向为机器学习 、 模式识别 。
·3 1 2·
次迭代后 , 可以求出 邻 接 矩 阵 的 特 征 值 和 特 征 向 量 。 所 提 出 的方法不需要事先存储邻接 矩 阵 , 空 间 复 杂 度 从 Ο( 减少 m )
2
由某一个数据 x 这样 i 与 其 它 m 个 数 据 之 间 的 相 似 度 构 成, 在实际计算中 , 只 需 事 先 把 m 个 数 据 储 存 起 来, 对于每一个 样本数据 x 计算它与这 m 个数据 之 间 的 相 似 度 进 而 得 到 L i, ( 。 然后把矩阵 L 的每一列 L( 作为迭代算法的输入样 x x i) i) 经过若干次迭代后可以得到矩阵 G 的特征解 。 本,
谱聚类算法的实现基本过程可以大致概括如下 : ) 根据样本数据 集 构 造 一 个 图 , 图的每一个节点对应一 1 点和点之间用边连接 , 并且边的权重用于表示数 据 个数据点 , 之间的相似度 。 这个 图 可 以 用 邻 接 矩 阵 的 形 式 表 示 出 来 , 记 为W, 其每一个元素为边的权重 。 ) 把矩阵 W 的 每 一 列 元 素 加 起 来 得 到 m 个 数 , 把它们 2 分别放在 m×m 的矩阵的对角线上 , 其他位置元素都是零 , 记 该矩阵为 D。 并令 L=D-W 。 ) 利用特征分解方法求出 矩 阵 L 的 前k 个 特 征 值 { 3 λ}
[] 用的 方 法 有 K-m e a n s算 法 、 EM 算 法 等 。 谱 聚 类 算 法 2 是 近
些年出现 的 一 类 新 型 聚 类 算 法 , 其思想来源于谱图划分理 论
[ 3]
。 与传统的聚类算 法 相 比 , 它对不规则的误差数据不是
[ 4, 5]
计算复杂度 较 小 , 而 且 性 能 也 要 好 一 些, 近些年成功 太敏感 , 应用于机器视觉 、 图像分割等领域 。 谱聚类算法将聚类 问 题 转 化 为 图 的 最 优 划 分 问 题 , 计算 过程中首先构造图并用邻接矩阵 ( 或亲合矩阵 ) 的形式表示 出 来, 然后对该矩阵进行特征分解求得其特征值和特征向量 , 进 而选择合适的特征向量对这些数据点进行聚类 。 该算法的 空 , 间复杂度和时间复杂度分别是 Ο( 和 Ο( 其中 m 是数 m2 ) m3 ) 但是随着样本数量的增 据集样本的数量 。 尽 管 算 法 很 简 单 , 加, 在大规模数据集 的 情 况 下 , 由 于 存 储 空 间 的 限 制, 普通计
A b s t r a c t e c t r a l c l u s t e r i n a l o r i t h m i s a d a t a c l u s t e r i n m e t h o d . I t u s e s e i e n d e c o m o s i t i o n t e c h n i u e t o o u l a r S - p g g g g p q p p e x t r a c t t h e e i e n v e c t o r s o f t h e a f f i n i t m a t r i x . B u t t h e m e t h o d i s i n f e a s i b l e f o r l a r e s c a l e d a t a s e t b e c a u s e o f t h e s t o r e - g y g , a n d c o m u t a t i o n a l b t h e o f s mm e t r i c m a t r i x i n t h i s e a c h c o l u m n o f t h e a f f i n i t r o b l e m. M o t i v a t e d r o e r t a e r p y y y p p p y p p m a t r i x w a s u s e d a s t h e i n u t s a m l e f o r t h e i t e r a t i v e a l o r i t h m. T h e e i e n v e c t o r s o f t h e a f f i n i t m a t r i x c o u l d b e i t e r a - p p g g y , r o o s e d t i v e l c o m u t e d . T h e s a c e c o m l e x i t o f m e t h o d w a s o n l m) t h e t i m e c o m l e x i t w a s r e d u c e d t oΟ p p y p p p y y Ο( p y ( r o o s e d k m) . T h e e f f e c t i v e n e s s o f m e t h o d w a s v a l i d a t e d f r o m e x e r i m e n t a l r e s u l t s . p p p p , , K e w o r d s e c t r a l a l o r i t h m, A f f i n i t m a t r i x L a r e s c a l e d a t a s e t E i e n d e c o m o s i t i o n S - - p g y g g p y 算机上实现谱聚类算法变得不可行 。 为实现大规模数据 集 情 况 下 谱 聚 类 算 法 的 求 解 , 许多作 ] 者提出了解决方法 。 文献 [ 提出 分 割 原 数 据 集 , 即通过分 6 8 - 一般先对大 割来减少构造谱图 的 节 点 数 目 。 在 分 割 过 程 中 , 规模数据集进行预处理 , 常 用 的 方 法 是 先 利 用 K-m e a n s方 法 然后取每个聚类的中心作为该聚类的代表点 , 最 聚类数据集 , 这样可以较大 后将全部聚类中心的代表点作为谱图的节点, ] 程度地减少邻接矩阵的大小 。 文献 [ 提出使用线 性 代 数 9, 1 0 中秩近似的思想 , 即从数据集中选取部分数据点 , 利用这些 数 据点形成邻接矩阵 , 特征分解该矩阵可得到其特征向量 , 进而 使用 N s t r m 近似可以求解原矩阵的特征解 。 y 我们曾提出 一 种 求 解 大 规 模 数 据 集 的 核 主 成 分 分 析 方 法
2. 3 迭代算法分析
。 更为 重 要 的 是 在 处 理 大 规 模 数 据 集 情 况 下 , 到 Ο( 传统 m) 文中提出的方法仍然可以较好实 的特征分解技术无法使用, 现数据聚类 。 在人工合成的数据集以及真实的数据上进行 的 充分验证了该算法的有效性 。 实验 ,
2 基于迭代的谱聚类方法
[ 1 1]
1 引言
在统计机器学习 、 模式识别以ห้องสมุดไป่ตู้数据挖掘等过程中 , 聚类
1] 。 所谓 聚 分析常用来发现数据分布规律和其中的隐含模式 [
, 类就是把数据集合分成 若 干 类 ( 或簇) 使得同一类中的数据 之间具有较高的相 似 度 , 而 不 同 类 之 间 的 数 据 差 别 较 大。常
C o m u t a t i o n o f S e c t r a l C l u s t e r i n A l o r i t h m f o r L a r e s c a l e D a t a S e t - p p g g g
12 3 a S H I W e i Y u e f e i - GUO - y 1 ( , ) K e L a b o r a t o r o f G r a i n I n f o r m a t i o n P r o c e s s i n a n d C o n t r o l o f M i n i s t r o f E d u c a t i o n Z h e n z h o u 4 5 0 0 0 1, C h i n a y y g y g 2 ( , , ) S c h o o l o f I n f o r m a t i o n S c i e n c e a n d E n i n e e r i n H e n a n U n i v e r s i t o f T e c h n o l o Z h e n z h o u 4 5 0 0 0 1, C h i n a g g y g y g 3 ( , , ) D e a r t m e n t o f C o m u t e r S c i e n c e a n d T e c h n o l o F u d a n U n i v e r s i t S h a n h a i 2 0 0 4 3 3, C h i n a p p g y y g ,
。 本文中扩展 该 方 法 来 实 现 大 规 模 数 据 集 情 况 下 的 谱
聚类算法的求解 。 主要思想是利用线性代数中对称矩阵的 性 质, 首先使用初始的 邻 接 矩 阵 创 建 一 个 新 的 矩 阵 。 因 为 新 构 所以我们可以 成的矩阵和原先的矩阵具有相同的特征向量, 计算新矩阵的特征向量 , 通过分析协方差矩阵的性质 , 可以 把 邻接矩阵的每一列看成迭代算法的输入样本 。 这样经过若 干
2. 1 谱聚类算法回顾
由于传统的特征分解方法在计算过程中事先需要存储 特 征矩阵 , 其计算空间复杂度和 时 间 复 杂 度 分 别 是 Ο( 和O m2 ) ( , 其中 m 是数据集样本的数量 。 当样本数 量 大 的 时 候 需 m3 )
[3] [4] , ) 要非常大的 内 存 。 一 些 迭 代 方 法 ( 先后 GHA 1 A P E X1
第3 9卷 第6 A期 2 0 1 2年6月
计 算 机 科 学 C o m u t e r c i e n c e S p
V o l . 3 9N o . 6 A J u n e 2 0 1 2
大规模数据集下谱聚类算法的求解
2 3 史卫亚1, 郭跃飞 1 ( ) 粮食信息处理与控制教育部重点实验室 郑州 4 5 0 0 0 1 2 3 ( ) ) 河南工业大学信息科学与工程学院 郑州 4 复旦大学计算机科学与技术系 上海 2 5 0 0 0 1 0 0 4 3 3 (