一种基于图论的聚类算法NeiMu
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
为了克服上述问题,提出一种新的从对象个体出发的聚类 算法— ——基于图论的聚类算法 NeiMu(Neighboring Mutually)。 NeiMu 算法首先分析数据中的对象,寻找每个对象的 k 近邻, 根据 k 近邻关系构造 k 近邻有向图,然后通过 k 近邻有向图中 的 k-互邻居关系构造 k-聚类图,发现数据中的自然聚类。该算 法的特点是根据数据之间的互为 k 近邻关系确定数据中的自 然簇,而不必引入其他方法来划分小簇,从而能够保证对象不 会被错误聚类,仅会与其他小簇一起融合到一个大簇中。这一 优点可以有效保证 NeiMu 算法的聚类质量。而且,NeiMu 算法 给出的这种类似自底向上的层次聚类结果还有利于用户根据 渐变的结果确定最佳的 k 值。实验结果表明,该算法对密度变 化大的数据、大小相差大的数据、任意分布形状的数据均具有 很好的聚类质量,对孤立点也很健壮。
叶继华(1966-),男,副教授,主要研究领域为系统仿真、计算机网络。 收稿日期:2008-07-29 修回日期:2008-09-27
48 2009,45(3)
Computer Engineering and Applications 计算机工程与应用
发的聚类着眼于对象的个体。通过分析数据中的对象个体,找 出对象之间的相互关系,而后拓展这种相互关系,得到最终的 聚类结果,该种聚类在发现数据的自然聚类方面具有优势,可 以 对 任 意 形 状 的 数 据 进 行 聚 类 ,典 型 算 法 是 DBSCAN [9] 和 CHAMELEON[10]。从对象个体出发的聚类也存在一些不足,在 数据分布未知的情况下又难以给出适宜的参数以确保聚类质 量,而且有的聚类算法还会因为采用图划分方法分割小簇而引 入聚类错误。
基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.30500105)。 作者简介:应德全(1977-),男,硕士生,主要研究领域为数据挖掘、系统仿真;应晓敏(1975-),女,博士,副研究员,主要研究领域为计算生物学;
2 近邻有向图、k-互邻居和 k-聚类图
在介绍 NeiMu 聚类算法之前,先引入 k 近邻有向图、k-互 邻居和 k-聚类图的概念。
定义 1 k 近邻有向图是指有向图 kNN_G=(W,E),结点集 W={w1,w2,…,wn},边集 E={e1,e2,…,em},ei=<wp,wq>,wp,wq∈W, i=1,2,…,m,其中 ei 存在当且仅当 wq 是 wp 的 k 近邻,ei 的方 向为 w(p 起始结点)指向 w(q 终止结点)。
易知,有向图的邻接矩阵不是对称阵。而且,由距离矩阵构
造 k 近邻有向图算法的时间复杂度为 O(n2),n 为对象个数。
3.2 构造 k-聚类图
k 近邻有向图反映了对象之间的相近关系,但还不能直接
1 引言
聚类是机器学习、模式识别研究领域的重要研究内容,其 本质是无监督的分类,即根据对象之间的相似性度量,将数据 对象分组成为若干个类或簇,使得在同一个簇中的对象之间具 有较高的相似度,而不同簇中的对象差别较大。由于通过聚类 可以有效发现感兴趣的模式和信息,因而聚类在语音识别、图 像处理、数据挖掘、生物学、心理学、考古学等诸多领域和学科 中有着广泛地应用[1]。多年来,众多学者对聚类进行了广泛深入 的研究,提出了多种聚类算法。通过宏观上的分析可以发现,现 有聚类算法大致可以分为两大类:一类是从簇整体出发进行聚
d(i,j)=d(j,i)且 d(Βιβλιοθήκη Baidu,i)=0。
得到距离矩阵后,k 近邻有向图的构造只需要搜索距离矩
阵即可。在计算和存储中,k 近邻有向图 kNN_G=(W,E)可以表
示为邻接矩阵的形式,矩阵的元素 AkNN_(G i,j)为:
≥ AkNN_(G i,j)=
1, 0,
如果边 Wj 是 Wi 的 k 近邻 否则
类,另一类是从对象个体出发进行聚类。 从簇整体出发的聚类是指首先假定存在若干簇,并假定簇
的数据模型,在计算簇的中心或选定代表点为簇中心后,根据 对象与簇中心的某种距离度量将对象分配给相应的簇,反复迭 代,最终实现聚类。这种聚类的实质是通过移动和调整设定的 数据模型来逼近真实数据模型,其典型算法有 k 均值[2]、k 中心 点[3]、CLARANS[4]、CURE[5]、STING[6]和神经网络方法[7-8]等。从簇 整体出发的聚类算法存在的问题是对数据本身没有给予足够 的关注,难以找到数据的自然聚类,对特殊形状的簇也难以得 到好的聚类结果。与从簇整体出发的聚类相反,从对象个体出
3 NeiMu 聚类算法
NeiMu 算法是一种从对象个体出发的、基于图论的聚类方 法。将数据集合转换为属性空间中的点以后,NeiMu 分析每个 对象,根据对象间的距离构造 k 近邻有向图,而后基于 k 近邻 有向图中的 k-互邻居关系构造 k-聚类图,最后从 k-聚类图中 发现数据的自然聚类。该算法可分为 3 个关键步骤。
3.1 构造 k 近邻有向图
假设要聚类的数据集合包含 n 个数据对象,数据集合可以
表示为如(1)式所示的距离矩阵 D:
… … …
0 ∈
∈
d(1,2) …
∈
∈∈d(2,1) 0
…
D=
∈ ∈
∈
∈
∈
∈∈d(n,1) d(n,2) …
d(1,n)∈∈
∈
d(2,n)∈∈
∈
∈
∈
∈
∈
0
∈ ∈
(1)
其中,d(i,j)为对象 i 和对象 j 之间的距离,满足 d(i,j)≥0,
k 近邻有向图描述了结点之间的相近关系。 定义 2 在 k 近邻有向图 kNN_G=(W,E)中,对 W 中的任 意结点 wp 和 wq,如果同时存在边 epq=<wp,wq>和 eqp=<wq,wp>,也 即,如果结点 wp 和 wq 互为 k 近邻,则称结点 wp 和 wq 为 k-互 邻居。 根据 k-互邻居的定义可以发现:k-互邻居相对靠近,因而 可以通过 k-互邻居可以找到 k 近邻有向图中相对靠近的结点。 为在 k 近邻有向图中区分 k-互邻居和非 k-互邻居,引入 k-聚类图的概念。 定义 3 k-聚类图是指图 C_G=(W,E′),结点集 W={w1,w2, …,wn},边集 E′={e′1,e′2,…,e′m′},e′i=<wp,wq>,wp,wq∈W,i=1,2, …,m′,其中 e′i 存在当且仅当 wq 与 wp 是 k-互邻居。 根据 k-聚类图的定义易知,k-聚类图是无向图,而且 k聚类图中连通子图包含的结点都是 k-互邻居。 k-聚类图反映了结点的聚集关系。k-聚类图中连通子图包 含的结点相对靠近,聚集成簇,而互不连通的子图的结点之间 距离相对较远,形成不同的簇。
摘 要:提出一种新的基于图论的聚类算法 NeiMu。该算法首先分析数据中的对象,寻找每个对象的 k 近邻,根据 k 近邻关系构造 k 近邻有向图,然后通过 k 近邻有向图中的 k-互邻居关系构造 k-聚类图,发现数据中的自然聚类。算法的特点是根据数据之间的 互为 k 近邻关系确定数据中的自然簇,而不必引入其他方法来划分小簇,从而能够保证对象不会被错误聚类,仅会与其他小簇一 起融合到一个大簇中。这一优点可以有效保证 NeiMu 算法的聚类质量。而且,NeiMu 算法给出的这种类似自底向上的层次聚类结 果还有利于用户根据渐变的结果确定最佳的 k 值。实验结果表明,该算法对密度变化大的数据、大小相差大的数据、任意分布形状 的数据均具有很好的聚类质量,对孤立点也很健壮。 关键词:图论;聚类;k 近邻 DOI:10.3778/j.issn.1002-8331.2009.03.013 文章编号:1002-8331(2009)03-0047-04 文献标识码:A 中图分类号:TP39
YING De-quan,YING Xiao-min,YE Ji-hua.NeiMu:novel clustering algorithm based on graph theory.Computer Engineering and Applications,2009,45(3):47-50.
Abstract:A novel clustering algorithm based on graph theory named NeiMu is proposed.NeiMu first analyzes all the objects in data,searching k-nearest neighbors for each object and constructing directed graph of k-nearest neighbors.Then it constructs kclustering graph according to the k-mutual neighbor in directed graph of k-nearest neighbors.Finally,it discovers natural clusters in data on the basis of k-clustering graph.The significant characteristic of NeiMu is the ability of determining natural clusters by mutual neighbor relations in data,instead of introducing other partition methods to divide data into small clusters.As a conse- quence,NeiMu guarantees that all the objects will not be clustered erroneously but be merged into bigger clusters with other small clusters.This advantage will ensure the clustering quality of NeiMu algorithm.Furthermore,NeiMu,which presents results simi- lar to bottom-up hierarchical clustering algorithm,facilitates users to determine the best k according to the gradually merging re- sults.The experiments show that NeiMu exhibits good clustering quality for data with variable densities,variable sizes and arbitrary shapes.It is also robust with outliers. Key words:graph theory;clustering;k-neighbor
Computer Engineering and Applications 计算机工程与应用
2009,45(3) 47
一种基于图论的聚类算法 NeiMu
应德全 1,应晓敏 2,叶继华 1 YING De-quan1,YING Xiao-min2,YE Ji-hua1
1.江西师范大学 计算机信息工程学院,南昌 330022 2.解放军军事医学科学院 基础医学研究所,北京 100850 1.College of Computer Information Engineering,Jiangxi Normal University,Nanchang 330022,China 2.Institute of Basic Medical Sciences,Academy of Military Medical Sciences,Beijing 100850,China E-mail:yingdq@sina.com
叶继华(1966-),男,副教授,主要研究领域为系统仿真、计算机网络。 收稿日期:2008-07-29 修回日期:2008-09-27
48 2009,45(3)
Computer Engineering and Applications 计算机工程与应用
发的聚类着眼于对象的个体。通过分析数据中的对象个体,找 出对象之间的相互关系,而后拓展这种相互关系,得到最终的 聚类结果,该种聚类在发现数据的自然聚类方面具有优势,可 以 对 任 意 形 状 的 数 据 进 行 聚 类 ,典 型 算 法 是 DBSCAN [9] 和 CHAMELEON[10]。从对象个体出发的聚类也存在一些不足,在 数据分布未知的情况下又难以给出适宜的参数以确保聚类质 量,而且有的聚类算法还会因为采用图划分方法分割小簇而引 入聚类错误。
基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.30500105)。 作者简介:应德全(1977-),男,硕士生,主要研究领域为数据挖掘、系统仿真;应晓敏(1975-),女,博士,副研究员,主要研究领域为计算生物学;
2 近邻有向图、k-互邻居和 k-聚类图
在介绍 NeiMu 聚类算法之前,先引入 k 近邻有向图、k-互 邻居和 k-聚类图的概念。
定义 1 k 近邻有向图是指有向图 kNN_G=(W,E),结点集 W={w1,w2,…,wn},边集 E={e1,e2,…,em},ei=<wp,wq>,wp,wq∈W, i=1,2,…,m,其中 ei 存在当且仅当 wq 是 wp 的 k 近邻,ei 的方 向为 w(p 起始结点)指向 w(q 终止结点)。
易知,有向图的邻接矩阵不是对称阵。而且,由距离矩阵构
造 k 近邻有向图算法的时间复杂度为 O(n2),n 为对象个数。
3.2 构造 k-聚类图
k 近邻有向图反映了对象之间的相近关系,但还不能直接
1 引言
聚类是机器学习、模式识别研究领域的重要研究内容,其 本质是无监督的分类,即根据对象之间的相似性度量,将数据 对象分组成为若干个类或簇,使得在同一个簇中的对象之间具 有较高的相似度,而不同簇中的对象差别较大。由于通过聚类 可以有效发现感兴趣的模式和信息,因而聚类在语音识别、图 像处理、数据挖掘、生物学、心理学、考古学等诸多领域和学科 中有着广泛地应用[1]。多年来,众多学者对聚类进行了广泛深入 的研究,提出了多种聚类算法。通过宏观上的分析可以发现,现 有聚类算法大致可以分为两大类:一类是从簇整体出发进行聚
d(i,j)=d(j,i)且 d(Βιβλιοθήκη Baidu,i)=0。
得到距离矩阵后,k 近邻有向图的构造只需要搜索距离矩
阵即可。在计算和存储中,k 近邻有向图 kNN_G=(W,E)可以表
示为邻接矩阵的形式,矩阵的元素 AkNN_(G i,j)为:
≥ AkNN_(G i,j)=
1, 0,
如果边 Wj 是 Wi 的 k 近邻 否则
类,另一类是从对象个体出发进行聚类。 从簇整体出发的聚类是指首先假定存在若干簇,并假定簇
的数据模型,在计算簇的中心或选定代表点为簇中心后,根据 对象与簇中心的某种距离度量将对象分配给相应的簇,反复迭 代,最终实现聚类。这种聚类的实质是通过移动和调整设定的 数据模型来逼近真实数据模型,其典型算法有 k 均值[2]、k 中心 点[3]、CLARANS[4]、CURE[5]、STING[6]和神经网络方法[7-8]等。从簇 整体出发的聚类算法存在的问题是对数据本身没有给予足够 的关注,难以找到数据的自然聚类,对特殊形状的簇也难以得 到好的聚类结果。与从簇整体出发的聚类相反,从对象个体出
3 NeiMu 聚类算法
NeiMu 算法是一种从对象个体出发的、基于图论的聚类方 法。将数据集合转换为属性空间中的点以后,NeiMu 分析每个 对象,根据对象间的距离构造 k 近邻有向图,而后基于 k 近邻 有向图中的 k-互邻居关系构造 k-聚类图,最后从 k-聚类图中 发现数据的自然聚类。该算法可分为 3 个关键步骤。
3.1 构造 k 近邻有向图
假设要聚类的数据集合包含 n 个数据对象,数据集合可以
表示为如(1)式所示的距离矩阵 D:
… … …
0 ∈
∈
d(1,2) …
∈
∈∈d(2,1) 0
…
D=
∈ ∈
∈
∈
∈
∈∈d(n,1) d(n,2) …
d(1,n)∈∈
∈
d(2,n)∈∈
∈
∈
∈
∈
∈
0
∈ ∈
(1)
其中,d(i,j)为对象 i 和对象 j 之间的距离,满足 d(i,j)≥0,
k 近邻有向图描述了结点之间的相近关系。 定义 2 在 k 近邻有向图 kNN_G=(W,E)中,对 W 中的任 意结点 wp 和 wq,如果同时存在边 epq=<wp,wq>和 eqp=<wq,wp>,也 即,如果结点 wp 和 wq 互为 k 近邻,则称结点 wp 和 wq 为 k-互 邻居。 根据 k-互邻居的定义可以发现:k-互邻居相对靠近,因而 可以通过 k-互邻居可以找到 k 近邻有向图中相对靠近的结点。 为在 k 近邻有向图中区分 k-互邻居和非 k-互邻居,引入 k-聚类图的概念。 定义 3 k-聚类图是指图 C_G=(W,E′),结点集 W={w1,w2, …,wn},边集 E′={e′1,e′2,…,e′m′},e′i=<wp,wq>,wp,wq∈W,i=1,2, …,m′,其中 e′i 存在当且仅当 wq 与 wp 是 k-互邻居。 根据 k-聚类图的定义易知,k-聚类图是无向图,而且 k聚类图中连通子图包含的结点都是 k-互邻居。 k-聚类图反映了结点的聚集关系。k-聚类图中连通子图包 含的结点相对靠近,聚集成簇,而互不连通的子图的结点之间 距离相对较远,形成不同的簇。
摘 要:提出一种新的基于图论的聚类算法 NeiMu。该算法首先分析数据中的对象,寻找每个对象的 k 近邻,根据 k 近邻关系构造 k 近邻有向图,然后通过 k 近邻有向图中的 k-互邻居关系构造 k-聚类图,发现数据中的自然聚类。算法的特点是根据数据之间的 互为 k 近邻关系确定数据中的自然簇,而不必引入其他方法来划分小簇,从而能够保证对象不会被错误聚类,仅会与其他小簇一 起融合到一个大簇中。这一优点可以有效保证 NeiMu 算法的聚类质量。而且,NeiMu 算法给出的这种类似自底向上的层次聚类结 果还有利于用户根据渐变的结果确定最佳的 k 值。实验结果表明,该算法对密度变化大的数据、大小相差大的数据、任意分布形状 的数据均具有很好的聚类质量,对孤立点也很健壮。 关键词:图论;聚类;k 近邻 DOI:10.3778/j.issn.1002-8331.2009.03.013 文章编号:1002-8331(2009)03-0047-04 文献标识码:A 中图分类号:TP39
YING De-quan,YING Xiao-min,YE Ji-hua.NeiMu:novel clustering algorithm based on graph theory.Computer Engineering and Applications,2009,45(3):47-50.
Abstract:A novel clustering algorithm based on graph theory named NeiMu is proposed.NeiMu first analyzes all the objects in data,searching k-nearest neighbors for each object and constructing directed graph of k-nearest neighbors.Then it constructs kclustering graph according to the k-mutual neighbor in directed graph of k-nearest neighbors.Finally,it discovers natural clusters in data on the basis of k-clustering graph.The significant characteristic of NeiMu is the ability of determining natural clusters by mutual neighbor relations in data,instead of introducing other partition methods to divide data into small clusters.As a conse- quence,NeiMu guarantees that all the objects will not be clustered erroneously but be merged into bigger clusters with other small clusters.This advantage will ensure the clustering quality of NeiMu algorithm.Furthermore,NeiMu,which presents results simi- lar to bottom-up hierarchical clustering algorithm,facilitates users to determine the best k according to the gradually merging re- sults.The experiments show that NeiMu exhibits good clustering quality for data with variable densities,variable sizes and arbitrary shapes.It is also robust with outliers. Key words:graph theory;clustering;k-neighbor
Computer Engineering and Applications 计算机工程与应用
2009,45(3) 47
一种基于图论的聚类算法 NeiMu
应德全 1,应晓敏 2,叶继华 1 YING De-quan1,YING Xiao-min2,YE Ji-hua1
1.江西师范大学 计算机信息工程学院,南昌 330022 2.解放军军事医学科学院 基础医学研究所,北京 100850 1.College of Computer Information Engineering,Jiangxi Normal University,Nanchang 330022,China 2.Institute of Basic Medical Sciences,Academy of Military Medical Sciences,Beijing 100850,China E-mail:yingdq@sina.com