一种基于成对约束的谱聚类算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘
要 : 类通 常被 认 为 是 ~ 种无 监 督 的数 据 分 析 方 法 , 聚类 搜 索 过 程 中 充 分 利 用 先 验 信 息 会 显 著 提 高 聚 聚 在
类 算 法 的 性 能 。本 文 通 过 成 对 约 束来 凋整 点 与 点 之 间 的 相似 矩 阵 , 后对 其优 化 , 结 合 谱聚 类 算 法 . 到 一 然 并 得 种 很 有 效 的 聚类 算 法 一 一基 于 成对 约 束的 半 监 督谱 聚类 算 法 (S A) S C 。实 验 表 明 . 算 法 有 很 好 的 聚类 效 果 。 该 关 键 词 : 聚 类 ; 验 信 息 ; 对 约 束 ; 监 督 聚 类 谱 先 成 半 中图 分 类号 : P 0 . T 3 16 文献标识码 : A 文 章 编 号 :0 1G 0 (0 0 0—0 80 10 ~6 0 2 1 )40 3 4
作为 一 有效 的数据 分析方 法 , 类算 法 已被 广泛应 用 于计 算机 视觉 、 息检 索 、 据 挖掘等 领域 。 种 聚 信 数
传统 的聚类算 法 如 K— a s算法 、 M 算法 等 , men E 都是 建 立在 凸样 本空 间分布 的基础 上 , 但是 当样本 空间 不
为 凸时 , 算法 会陷 入“ 局部 ” 最优 。为了解决 这一 问题 , 学者 们提 出 _ 『谱聚类算 法口 ] 。
1 基 于 成 对约 束 的 半监 督谱 聚类 算 法
1 1 谱聚类 算法 . 谱 聚类 算法本质 上是 利用 亲合 矩 阵的特征 向量进行 聚类 。 存谱 聚类算 法 中 , 合矩 阵的 定义为 : 一 亲 W
e p 一 ( ) 2 。, 中 dC ) x( z, / a ) 其 , c 一般取 z一 ! , 事先确 定 的参数 。 目前 , { 为 。 已经 提 出许多谱 聚类 算法, 它们的 主要区别 在于 : 如何选择 特征 向量 以及 如何利 用特 征 向量进 行聚类 。
第 2 8卷
第 4期
广西 师范大学 学报 : 自然科 学版
J u n l f a g i o ma Unv r i : a u a S i c dt n o r a o n x N r l i s y N tr l c n eE i o Gu e t e i
V0 . 8 No 4 I2 .
根 据使 用先验 信息方 法 的不 同 , 半监 督聚类 被分 成 3类1 : 一 是 基于 限制 的方 法 ; _ 一类 4 1 】 一类 是基 于距 离测 度
的方法 ; 还有 一类是 集成 上述 2 思想 的聚类方 法 。 种 在实 际应用 中 , 成对 限制先验 信息可 以很容 易地获 得 。但是 , 利用成 对限制 先验信 息对 于提 高 聚类 仅
算法 的性 能是 远不够 的 , 而且 当用 户提供 信息含 量少的 限制时 , 于 聚类搜 索反而 起误 导的作用 。 对 因此 , 王
玲等 人L提 出了一种 密度敏感 的半监 督谱 聚类 , 算法通 过密度 敏感 的相似性 度 量获 得相似性 系 , 5 该 同时 反映 了限制 信息 和空 间一致性 先验 信 息对相似性 关 系 的影响 , 使得 最终得 到 的相似 性矩 阵更加接 近 于理 想矩阵 。该 矩 阵经过特 征分解 后将更 加有助 于在映射 空 间的后续 聚类划 分 。此 文 中的成对 限制信 息是 由 用 户任意 提供 的 , 但这 样提供的 限制 信息对于聚 类算 法不 ~定 会起到 积极 的指 导作 用。 一 王娜 等 人l提 出的 _ 6 j 主 动学 习的半监 督谱 聚类 克服 了核参数 敏感 的问题 , 且可 以主动提 供信 息含量 丰富 的成对 限制 。但是 , 并
De . 10 c 20
21 0 0年 l 2月
一
种 基于 成 对约 束 的谱 聚 类算 法
张 力文 丁世飞 。 , , 。许新 征i朱 , 红 徐 . 丽
(. 国 矿 业大 学 计算 机 科 学 与技 术 学 院 , 苏 徐 州 2 1 1 ;. 1中 江 2 1 6 2 中国 科 学 院 计算 技 术 研 究 所 智 能 信 息 处 理重 点 实 验 室 , 京 1 08 ) 北 00 0
如何 在较 少 的监 督信 息下 利用 更少 的监 督信 息进行 聚 类 以及 Mu tl k和 C n o —n s— n i a n t ik对距 离性 能的 影 l
响还需 进一步 研究 。
本 文将监 督 信息的 信息 含量应 用到谱 聚类 算法 中, 整点 与点之 间的相 似矩 阵 , 调 然后 对其 优 化 , 使类 内各 点紧密分 布 , 间距离 尽量拉大 , 类 形成一 种半监 督谱聚 类算法 , 以提 高聚 类性 能 。
通 讯联 系 人 : 丁世 飞(9 3一 , , 1 6 )男 山东 青 岛 人 . 中国 矿 业 大学 教授 . 士 . 导 。E m i dn s@c mte u c 博 博 — al ig f u .d .n :
谱 聚类算法 建 立在谱 图理 论基础 上。 一个 很好 的求解方 法是 考虑 问题的连 续放 松形式 , 样便 可将原 这
收 稿 日期 :0 0 0 — 5 2 1—72 基 金 项 目 : 家 自然 科学 基 金 资 助 项 目( 0 7 0 9 ; 国 6953) 省 基础 研 究 计 划资 助 项 目 ( K2 0 0 3 B 099)
与 监督学 习相 比, 类过 程缺少用 户或分 类器 ( 聚 如类标 号信 息) 的指 导 , 因此 会不 能产生 理想 的簇 。使
用某种弱 监督形 式 , 例如 逐对约 束 ( 成对对象Leabharlann Baidu标 明属 于相 同或者 不同 的簇 ) 可以显 著地改进 无监督 聚类 即 ,
的质量 。这 种基 于用户 反馈或指 导约束 的聚类过 程 称{ 半监 督聚类 (e —u evsdc seig,S )3 乍 smi p ri l tr s e u n S C l。 _ J