一种基于链接距离的聚类方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910829278.2
(22)申请日 2019.09.03
(71)申请人 天津大学
地址 300072 天津市南开区卫津路92号
(72)发明人 李奇 岳士弘 高晓峰 丁明亮 
(74)专利代理机构 天津市北洋有限责任专利代
理事务所 12201
代理人 程毓英
(51)Int.Cl.
G06K 9/62(2006.01)
(54)发明名称
一种基于链接距离的聚类方法
(57)摘要
本发明涉及一种基于链接距离的聚类方法,
首先在给定的核心点数目下将数据集按照一定
的规则进行链接,再计算数据点之间的链接距
离,最后根据链接距离计算链接坐标,通过对链
接坐标的评估计算聚类有效性指标。

权利要求书2页 说明书6页 附图2页CN 110674851 A 2020.01.10
C N 110674851
A
1.一种基于链接距离的聚类方法,首先在给定的核心点数目下将数据集按照一定的规则进行链接,再计算数据点之间的链接距离,最后根据链接距离计算链接坐标,通过对链接坐标的评估计算聚类有效性指标。

2.根据权利要求1所述的聚类方法,其特征在于,包括下列步骤:
1)定义核心点
按照公式(1)计算数据集中每点的密度ρi,其中KNN p(x i)表示点x i的p近邻构成的集合,dist(x i,x j)表示点x i与点x j之间的欧式距离;
点x i的分离度表示为密度比该点大的离该点最近的点与x i之间的距离,如公式(2)所示;
具有较高的密度和较大的分离度的点称为核心点,如公式(3)所示,γ值比较大的点是核心点,记为KP;
γi=ρi·σi (3)
2)对数据集进行链接
链接规则为:从密度较低的点出发,链接的下一个点为密度比该点大的离该点最近的点;不断按照上述链接规则进行链接,直到访问到核心点,形成一条链;再从数据集剩下的点中密度较低的点开始链接,直到数据集中所有的点都被访问;注意:每条链有且只有一个核心点;
3)计算链接距离d chain
记Cha i表示点x i所在的链,KP i表示链Cha i的核心点,则任意两点x i与x j之间的链接距离可以表示为:
公式(4)表示同一条链上的任意两点之间的链接距离为0,不同链上的两点之间的链接距离为两条链的核心点之间的欧式距离;
4)求链接坐标
多维尺度变换算法(MDS)根据链接距离矩阵求每点的链接坐标,如公式(5-7)所示;首先构造M∈n×n矩阵,
M ij=(d chain2(x1,x j)+d chain2(x i,x1)-d chain2(x i,x j))/2 (5)
对公式(5)进行奇异值分解,
M=USU T (6)
其中,U∈n×n表示由特征向量构成的矩阵,S∈n×n表示由奇异值构成的对角矩阵;
矩阵Y∈n×n表示链接坐标,为了折中计算精度和计算复杂度,一般取Y的前两维作为最后的链接坐标;注意:同一条链上的点具有相同的位置关系,所以具有相同的链接坐标;
当核心点KP的数目小于真实的聚类数时,同一条链上的点来自同一个类或者若干个类,不重复映射坐标的数目等于核心点的数目,且不重复映射坐标之间的距离为类间距,彼此相距较远;当KP的数目等于真实的聚类数时,数据集中的每个类都形成一条链,互不相交,不重复映射坐标的数目等于KP的数目,且彼此之间的距离为类间距,相距较远;当KP的数目大于真实的聚类数时,至少有一个类被分配了2个或者2个以上的核心点,形成2个或者2个以上的链,但由这个类映射的不重复坐标之间的距离为类内距,相距较近,与其他类映射的不重复坐标之间的距离为类间距,相距较远;
5)计算在链接坐标下数据集的紧致性和分离性
假定给定c个核心点,则数据集被链接成c个互不相交的链,记为Cha1,Cha2,…Cha c;数据集的紧致性可以用链的直径来表示,如公式(8)所示,分离性可用链之间的距离来表示,如公式(9)所示;
公式(10)表示数据集的分离性与紧致性的比值,其中,为了避免分母为0,在分母中加上了一个较小的常数ε;
该比值越大表示数据集的划分结果越好,在给定c个核心点时的最佳聚类数c op可由公式(11)表示
c op=arg max c CVI(c) (11)
6)计算指标值
当所取核心点的数目c KP小于真实的聚类数时,映射的不重复坐标之间的距离为类间距,相距较远,这时c op=c KP;当c KP等于真实的聚类数时,映射的不重复坐标之间的距离为类间距,相距较远,这时c op=c KP,也为真实的聚类数;当c KP大于真实的聚类数时,虽然存在类的拆分,但是被拆分的类的映射坐标之间的距离仍为类内距,相距较近,所以c op为真实的聚类数;对c op计算曲率半径来得到最佳聚类数,如公式(12)所示;
F(c KP)=|Δ1(c KP)|2/(1+(▽1(c KP))2)3/2,Δ1(c KP)=c op(c KP+1)+c op(c KP-1)-2c op(c KP),▽1(c KP)=c op(c KP+1)-c op(c KP)(12)
最佳聚类数为使得公式(12)取值最大时的c KP。

一种基于链接距离的聚类方法
技术领域
[0001]本发明属于数据挖掘领域,具体是一种基于链接距离的聚类方法。

背景技术
[0002]聚类分析是挖掘数据集中结构信息的一种无监督方法,即在没有任何先验信息的前提下将数据集划分成若干个聚类,使得类内的相似性尽可能地大,类间的差异性尽可能地大。

目前已经有多种经典的聚类算法,比如C-means、FCM、DPC等聚类算法,但这些聚类算法均有自己的适用范围,且需要提供参数--聚类数目c。

一般情况下,使用者通过经验和领域知识确定最佳聚类数,但这种方法准确度不高且容易受数据集结构的影响,因此确定最佳聚类数十分具有挑战性。

[0003]现有的聚类有效性指标大多数依赖于C-means和FCM这两种基于划分的聚类算法,对于球型数据集具有较好的评价结果,但是容易受数据集形状的影响,不能对含有任意形状的数据集进行正确的评价。

发明内容
[0004]本发明的目的在于克服现有技术的上述不足,提出一种基于链接距离的聚类方法。

首先在给定的核心点数目下将数据集按照一定的规则进行链接,再计算数据点之间的链接距离,最后根据链接距离计算链接坐标,通过对链接坐标的评估计算聚类有效性指标。

具体执行步骤如下:
[0005]一种基于链接距离的聚类方法,首先在给定的核心点数目下将数据集按照一定的规则进行链接,再计算数据点之间的链接距离,最后根据链接距离计算链接坐标,通过对链接坐标的评估计算聚类有效性指标。

[0006]包括下列步骤:
[0007]1)定义核心点。

[0008]按照公式(1)计算数据集中每点的密度ρi,其中KNN p(x i)表示点x i的p近邻构成的集合,dist(x i,x j)表示点x i与点x j之间的欧式距离。

[0009]
[0010]点x i的分离度表示为密度比该点大的离该点最近的点与x i之间的距离,如公式(2)所示。

[0011]
[0012]具有较高的密度和较大的分离度的点称为核心点,如公式(3)所示,γ值比较大的点是核心点,记为KP。

[0013]γi=ρi·σi (3)
[0014]2)对数据集进行链接
[0015]链接规则为:从密度较低的点出发,链接的下一个点为密度比该点大的离该点最
近的点。

不断按照上述链接规则进行链接,直到访问到核心点,形成一条链。

再从数据集剩下的点中密度较低的点开始链接,直到数据集中所有的点都被访问。

注意:每条链有且只有一个核心点。

[0016]3)计算链接距离d chain
[0017]记Cha i表示点x i所在的链,KP i表示链Cha i的核心点,则任意两点x i与x j之间的链接距离可以表示为:
[0018]
[0019]公式(4)表示同一条链上的任意两点之间的链接距离为0,不同链上的两点之间的链接距离为两条链的核心点之间的欧式距离。

[0020]4)求链接坐标。

[0021]多维尺度变换算法(MDS)根据链接距离矩阵求每点的链接坐标,如公式(5-7)所示。

[0022]首先构造M∈n×n矩阵,
[0023]M ij=(d chain2(x1,x j)+d chain2(x i,x1)-d chain2(x i,x j))/2 (5)
[0024]对公式(5)进行奇异值分解,
[0025]M=USU T (6)
[0026]其中,U∈n×n表示由特征向量构成的矩阵,S∈n×n表示由奇异值构成的对角矩阵。

[0027]
[0028]矩阵Y∈n×n表示链接坐标,为了折中计算精度和计算复杂度,一般取Y的前两维作为最后的链接坐标。

注意:同一条链上的点具有相同的位置关系,所以具有相同的链接坐标。

[0029]当核心点KP的数目小于真实的聚类数时,同一条链上的点来自同一个类或者若干个类,不重复映射坐标的数目等于核心点的数目,且不重复映射坐标之间的距离为类间距,彼此相距较远;当KP的数目等于真实的聚类数时,数据集中的每个类都形成一条链,互不相交,不重复映射坐标的数目等于KP的数目,且彼此之间的距离为类间距,相距较远;当KP的数目大于真实的聚类数时,至少有一个类被分配了2个或者2个以上的核心点,形成2个或者2个以上的链,但由这个类映射的不重复坐标之间的距离为类内距,相距较近,与其他类映射的不重复坐标之间的距离为类间距,相距较远。

[0030]5)计算在链接坐标下数据集的紧致性和分离性。

[0031]假定给定c个核心点,则数据集被链接成c个互不相交的链,记为Cha1,Cha2,…Cha c。

数据集的紧致性可以用链的直径来表示,如公式(8)所示,分离性可用链之间的距离来表示,如公式(9)所示。

[0032]
[0033]
[0034]公式(10)表示数据集的分离性与紧致性的比值,其中,为了避免分母为0,在分母
中加上了一个较小的常数ε。

[0035]
[0036]该比值越大表示数据集的划分结果越好,在给定c个核心点时的最佳聚类数c op可由公式(11)表示
[0037]c op=argmax c CVI(c) (11)
[0038]6)计算指标值。

[0039]当所取核心点的数目c KP小于真实的聚类数时,映射的不重复坐标之间的距离为类间距,相距较远,这时c op=c KP;当c KP等于真实的聚类数时,映射的不重复坐标之间的距离为类间距,相距较远,这时c op=c KP,也为真实的聚类数;当c KP大于真实的聚类数时,虽然存在类的拆分,但是被拆分的类的映射坐标之间的距离仍为类内距,相距较近,所以c op为真实的聚类数。

对c op计算曲率半径来得到最佳聚类数,如公式(12)所示。

[0040]
[0041]最佳聚类数为使得公式(12)取值最大时的c KP,如公式(13)所示。

[0042]
[0043]本发明由于采取以上技术方案,其具有以下优点:
[0044]1、无监督性。

基于链接距离的聚类有效性指标的评价过程不需要任何的先验信息,所以,该指标是无监督的。

[0045]2、普遍性。

基于链接距离的聚类有效性指标可以挖掘出数据集的隐藏特征,适用于不同密度、不同大小、不同分布、不同形状、含有交叠类的数据集。

附图说明
[0046]图1为本发明的算法流程图;
[0047]图2为本发明的实施例中含有任意形状的数据集;
[0048]图3为对图2所示数据集进行链接后的链与核心点的分布图;
[0049]图4为对图2所示数据集的链接坐标表示;
[0050]图5为本发明指标对图2所示数据集进行聚类有效性评价的结果。

具体实施方式
[0051]现有的聚类有效性指标不能处理含有任意形状的类的数据集,本发明的目的是克服现有指标的上述缺点,提出一种新的聚类有效性指标,该指标可以挖掘出数据集的结构信息,对任意形状的类的数据集得到正确的评价结果。

[0052]本发明的目的在于克服现有技术的上述不足,提出一种基于链接距离的聚类有效性指标。

首先在给定的核心点数目下将数据集按照一定的规则进行链接,再计算数据点之间的链接距离,最后根据链接距离计算链接坐标,通过对链接坐标的评估计算聚类有效性指标。

具体执行步骤如下:
[0053]1)定义核心点。

[0054]按照公式(1)计算数据集中每点的密度ρi,其中KNN p(x i)表示点x i的p近邻构成的集合,dist(x i,x j)表示点x i与点x j之间的欧式距离。

[0055]
[0056]点x i的分离度表示为密度比该点大的离该点最近的点与x i之间的距离,如公式(2)所示。

[0057]
[0058]具有较高的密度和较大的分离度的点称为核心点,如公式(3)所示,γ值比较大的点是核心点,记为KP。

[0059]γi=ρi·σi (3)
[0060]2)对数据集进行链接。

[0061]链接规则为:从密度较低的点出发,链接的下一个点为密度比该点大的离该点最近的点。

不断按照上述链接规则进行链接,直到访问到核心点,形成一条链。

再从数据集剩下的点中密度较低的点开始链接,直到数据集中所有的点都被访问。

注意:每条链有且只有一个核心点。

[0062]3)计算链接距离d chain。

[0063]记Cha i表示点x i所在的链,KP i表示链Cha i的核心点,则任意两点x i与x j之间的链接距离可以表示为:
[0064]
[0065]公式(4)表示同一条链上的任意两点之间的链接距离为0,不同链上的两点之间的链接距离为两条链的核心点之间的欧式距离。

[0066]4)求链接坐标。

[0067]多维尺度变换算法(MDS)可以根据链接距离矩阵求每点的链接坐标,如公式(5-7)所示。

首先构造M∈n×n矩阵,
[0068]M ij=(d chain2(x1,x j)+d chain2(x i,x1)-d chain2(x i,x j))/2 (5)
[0069]对公式(5)进行奇异值分解,
[0070]M=USU T (6)
[0071]其中,U∈n×n表示由特征向量构成的矩阵,S∈n×n表示由奇异值构成的对角矩阵。

[0072]
[0073]矩阵Y∈n×n表示链接坐标,为了折中计算精度和计算复杂度,一般取Y的前两维作为最后的链接坐标。

注意:同一条链上的点具有相同的位置关系,所以具有相同的链接坐标。

[0074]当核心点KP的数目小于真实的聚类数时,同一条链上的点来自同一个类或者若干个类,不重复映射坐标的数目等于核心点的数目,且不重复映射坐标之间的距离为类间距,彼此相距较远;当KP的数目等于真实的聚类数时,数据集中的每个类都形成一条链,互不相
交,不重复映射坐标的数目等于KP的数目,且彼此之间的距离为类间距,相距较远;当KP的数目大于真实的聚类数时,至少有一个类被分配了2个或者2个以上的核心点,形成2个或者2个以上的链,但由这个类映射的不重复坐标之间的距离为类内距,相距较近,与其他类映射的不重复坐标之间的距离为类间距,相距较远。

[0075]5)计算在链接坐标下数据集的紧致性和分离性。

[0076]假定给定c个核心点,则数据集被链接成c个互不相交的链,记为Cha1,Cha2,…Cha c。

数据集的紧致性可以用链的直径来表示,如公式(8)所示,分离性可用链之间的距离来表示,如公式(9)所示。

[0077]
[0078]
[0079]公式(10)表示数据集的分离性与紧致性的比值,其中,为了避免分母为0,在分母中加上了一个较小的常数ε。

[0080]
[0081]该比值越大表示数据集的划分结果越好,在给定c个核心点时的最佳聚类数c op可由公式(11)表示
[0082]c op=argmax c CVI(c) (11)
[0083]6)计算指标值。

[0084]当所取核心点的数目c KP小于真实的聚类数时,映射的不重复坐标之间的距离为类间距,相距较远,这时c op=c KP;当c KP等于真实的聚类数时,映射的不重复坐标之间的距离为类间距,相距较远,这时c op=c KP,也为真实的聚类数;当c KP大于真实的聚类数时,虽然存在类的拆分,但是被拆分的类的映射坐标之间的距离仍为类内距,相距较近,所以c op为真实的聚类数。

对c op计算曲率半径来得到最佳聚类数,如公式(12)所示。

[0085]
[0086]最佳聚类数为使得公式(12)取值最大时的c KP,如公式(13)所示。

[0087]
[0088]下面结合附图和实施例对本发明的一种基于链接距离的聚类有效性指标进行详细的描述。

[0089]1)确定核心点的范围c KP∈[c min,c max]。

一般c min取2,c max取其中,n为数据集的点数。

[0090]2)将数据集链接成c KP个链。

图2所示为一个含有任意形状类的数据集。

图3为对图2所示数据集进行链接后的结果,包含有3个核心点,用三角标记标识。

整个数据集按照链接规则被链接成3条链,其中,每条链中有且只有一个核心点,箭头的方向表示链的方向。

[0091]3)按照公式(4)计算链接距离矩阵d chain。

[0092]4)按照公式(5-7)计算链接坐标。

图4为图2所示数据集的链接坐标表示。

图4的左半部分表示原始坐标分布,右半部分表示链接坐标分布,每个类所占的空间用矩形框出,原
始的类分布与映射后的类分布用虚线连接。

由图4可以看出,每条链上的点具有相同的坐标,并且由链接距离导出的链接坐标使每类占据的空间更小,极小化了类内距,极大化了类间距。

[0093]5)根据公式(8-11)计算核心点数目为c KP时的最佳聚类数c op。

[0094]6)若c KP<c max,则c KP=c KP+1,转到步骤2);否则转到步骤7)。

[0095]7)根据公式(12-13)计算最佳聚类数c*。

如图5所示,图5中横坐标表示核心点的数目c KP,纵坐标表示相应的指标值。

对图2所示数据集,基于链接距离的聚类有效性指标认为当c KP=3时的划分效果最好,推荐的最优聚类数为3,评价结果正确。

图1
图2
图3
图4图5
说 明 书 附 图2/2页CN 110674851 A 11。

相关文档
最新文档