聚类有效性的组合评价方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
å Õ mi ( A j) A = A1 £ i £ n
j
其中 c =
å Õ m ( A j) A ¹ Æ1 £ i £ n
i j
其中 a( x) = 1 d ( x y) å ni - 1 x y Î C x ¹ y
i
通过组合规则把不同的证据进行合成, 便可以得到最终 结果。D-S 证据理论可以有效地处理不确定、 不精确和不完整 的信息, 极大增强用户对最终决策结果的信心。D-S 证据理论 的这些特性可以有效地帮助进行聚类评价。
ì min x Î Ci y Î C j d ( x y) ü ï ï D( NC ) = min ímin ý ï max max x y Î Ck d ( x y) ï î þ D 指标使用类与类之间的最小的两点距离来计算类间分 离度, 同时使用所有类中最大的类直径来计算类内紧密度, D 指标的取值由二者相除得到。容易得出, D 越大表示类与类之 间的间隔越远, 从而对应越佳的聚类结果。
进行聚类评价的组合方法。引入 D-S (Dempster-Shafer) 证据理论对多个有效性指标结果进行集成, 并得到最终的聚类评价结 果。仿真实验和分析验证了该方法的可行性与有效性。 关键词: 聚类评价; D-S 证据理论; 有效性指标; 聚类数 DOI: 10.3778/j.issn.1002-8331.2011.19.005 文章编号: 1002-8331 (2011) 19-0015-03 文献标识码: A 中图分类号: TP181
WSVF = å wi fi ( x)
i=1 m
3
常用聚类有效性指标
给定一个p维数据集 D ={ x1 x 2 x n}, 其中 x ={ x1 x 2 x }
p
为一个数据对象, n 为数据集 D 中数据对象的个数。一个硬划 分聚类算法将 D 划分为 NC 个子集的集合 D ={C1 C 2 C NC} , 子集 Ci 称为 D 的子类 (簇) 。文中用 c 表示数据集 D 中心点,
2.1
焦点元素
令 Θ 为识别框架: 设函数 m 满足 m:2Θ ® [0 1] , 且满足:
m(Æ) = 0
å m( Ai) = 1
m 为基本概率函数, 任取 Ai Î 2Θ , 若 Ai ¹ Æ , 则 Ai 为焦点元素。
若 Θ ={1 2 3} , 则 2Θ 共有 8 个组成元素 2Θ ={Æ(1)(2)(3)
d ( x1 x 2) 表 ni 表示类 Ci 中对象个数, 用 ci 表示类 Ci 中心点,
m 是有效性指标个数, 其中 fi 是第 i 个有效性指标, 而 wi 则是
各有效性指标的权重, 且 å wi = 1 。在计算 WSVF 之前, 首先
i=1
m
示对象间距离。
3.1
Dunn 指标 (D)
Dunn 有效性指标[2]定义为:
基金项目: 新世纪优秀人才支持计划 (the New Century Excellent Talents in University of China under Grant No.NCET-05-0097) 。 作者简介: 刘燕驰 (1986—) , 男, 博士研究生, 主要研究领域为数据挖掘、 聚类评价; 高学东 (1963—) , 男, 博士, 教授, 博士生导师; 国宏伟 (1978—) , 男, 博士, 讲师; 武森 (1973—) , 女, 博士, 教授, 博士生导师。E-mail: liuyanchi@manage.ustb.edu.cn 收稿日期: 2011-03-01; 修回日期: 2011-04-26
wm = 1 m 。
{
}
4
聚类有效性组合评价方法 DSV
3.2
Calinski-Harabasz 指标 (CH)
CH 有效性指标[3]定义为:
CH ( NC ) = 1 ni d 2 (ci c) NC - 1 å i=1 1 å d 2 ( x c i ) n - NC å i= 1xÎ C
i
1wk.baidu.com
引言
策的综合评价指标 WSVF[5], 但是该指标只是简单地对多个有 效性指标取平均值, 效果提高并不显著。在本课题中, 引入 D-S 证据理论对多指标进行集成, 以便更好地解决不同情况下 数据集的聚类评价问题。
聚类分析是无监督学习中非常重要的一个研究课题, 其 任务是把数据对象集分割成不同的簇, 使得同一簇内的对象 尽量地相近而不同簇的对象尽可能有很大差异。聚类分析已 经被广泛地应用在很多领域, 如图像分析、 生物学、 金融分析 等。聚类分析作为一个无监督学习任务, 使用不同的聚类分 析算法或不同的输入参数 (如聚类数 NC) 将会得到不同的聚 类结果, 需要用户在聚类之后对所得到的分割有效性进行评价。 长久以来, 如何不借助于外部信息 (如类标识) 来评价聚 类结果被认为是聚类应用能否成功的关键因素之一。目前, 已经有一系列聚类有效性指标广泛应用于聚类评价问题并取 得了不错的效果, 如 D、 CH、 I、 S[1-4]等。但是这些指标都有其各 自的适用范围, 针对某一特定结构的数据集, 这些指标可以取 得良好的评价结果。而对于其他不符合指标要求的数据集, 这些指标无法得到令人满意的结果, 如数据集中的噪音会影 响 Dunn 指标的评价效果, 而 I 指标无法处理数据集中存在不 同密度分布的情况。在实际应用中, 对于所需要分析的数据, 其结构、 特性一般都是未知的, 使用单一的聚类有效性指标来 进行聚类评价往往无法得到正确的结果。 在已有文献中, Sheng 等人提出一种借助多信息源进行决
2
D-S 证据理论
D-S 证据理论由 Dempster 首先提出, 后经 Shafer 完善, 被
认为是多元不确定性信息融合的有效方法, 其原理是对各自 独立的结论通过组合给出一致性结果, 实现信息互补[6]。与概 率推理相比, D-S 理论在不确定性的度量方面更为灵活, 推理 机制更加简洁, 尤其在信任分配上对未知的考虑更接近于人 类专家的思维习惯, 因而在专家系统、 信息融合等领域得到了 广泛的应用[1]。
i j i j
3.4
Silhouette 指标 (S)
S 有效性指标[7]定义为:
NC b( x) - a( x) S ( NC ) = 1 å{ 1 å } NC i = 1 ni x Î C max[b( x) a( x)]
i
对于多组证据组合:
m( A) = m1Åm 2 ÅÅm n ( A) = c-1
NC
NC
CH 指标通过计算类中各点与类中心的距离平方和来度 量类内的紧密度, 通过计算各类中心点与数据集中心点距离 平方和来度量数据集的分离度, CH 指标由分离度与紧密度的 比值得到。从而, CH 越大代表着类自身越紧密, 类与类之间 越分散, 即更优的聚类结果。
3.3
I 指标
I 有效性指标[4]定义为:
b( x) = min j j ¹ i[ 1 å d ( x y)] nj x Î C y Î C
i j
S 指标通过计算类与类之间各对象两两之间的距离以及 类中各对象两两之间的距离来衡量聚类质量。同时, 该指标 也是在取最大值时表示聚类结果最优。
3.5 WSVF 指标
WSVF 指标[5]定义为:
需要计算多个有效性指标值, 然后通过对多个有效性指标进 行加权得到 WSVF。需要注意的是, 在计算 WSVF 之前, 需要 统一各有效性指标的单调性, 即各指标得到最优划分的目标 函数均为取最小值或最大值。由于无法确定各有效性指标的 重要程度, WSVF 平 均 分 配 各 指 标 权 重 , 即 w1 = w 2 = =
(1 2)(1 3)(2 3)(1 2 3)} , 存在着除 Æ 之外的 7 个焦点元素。
2.2
组合规则
对于两组证据 m1 m 2 , 有:
m( A) = m1Åm 2 ( A) = c-1
A = Ai A j
å
m1( Ai)m 2 ( A j)
其中 c =
m1( Ai)m 2 ( A j) å m1( Ai)m2( A j) = 1 - A å A A ¹Æ A =Æ
16
2011, 47 (19)
Computer Engineering and Applications 计算机工程与应用 响, 使其不会随 NC 的增大而递减。和 CH 指标一样, I 就是在 类内紧密度与类间分离度之间寻找一个平衡点, 使其达到最 大, 从而得到最优的聚类结果。p 是用户指定的一个参数, 在 本文中取 p=2。
é ù å d (x c) ê 1 xÎD ú ú I ( NC ) = ê max d ( c c ) i jú ê êNC NC ú d ( x c ) ê ú å å i ê ú i = 1 x Î C i ë û I 指标在所有类中选择类与类中心距离最大值来衡量类
p
每个聚类有效性指标通常都有其适用的范围, 如特定结 构的数据集, 某一类型的聚类算法等。除了研究更优的聚类 有效性指标, 与此同时, 如何综合不同的有效性指标以得到更 优的结果也成了现在聚类评价研究中的热点问题[8-9]。 引入用来集成不确定、 不精确和不完整信息的 D-S 证据理 论, 提出了一种新的有效性组合评价方法 DSV (D-S theory based Validation method) , 使用它来综合聚类评价中的各有效 性指标, 可以更加有效地应对实际应用中的不同情况。 用 DSV 方法来评价聚类有效性, 获取数据集最佳分割或 最佳聚类数的过程一般分为以下 5 步: (1) 确定一个用来对数据集进行聚类的聚类算法及 n 个用 来对聚类结果进行评价的有效性指标。 (2) 分别使用不同的输入参数以获得 k 个不同的聚类结果。 (3) 对于 (2) 中得到的 k 个待选聚类结果, 计算各有效性指 标 并 得 到 相 应 取 值 并 分 别 进 行 标 准 化 {vij i = 1 2 m ;
Computer Engineering and Applications 计算机工程与应用
2011, 47 (19)
15
聚类有效性的组合评价方法
刘燕驰 1, 高学东 1, 国宏伟 2, 武 森1 LIU Yanchi1, GAO Xuedong1, GUO Hongwei2, WU Sen1
1.北京科技大学 经济管理学院, 北京 100083 2.北京科技大学 冶金与生态工程学院, 北京 100083 1.School of Economics and Management, University of Science and Technology Beijing, Beijing 100083, China 2.School of Metallurgical and Ecological Engineering, University of Science and Technology Beijing, Beijing 100083, China LIU Yanchi, GAO Xuedong, GUO Hongwei, et al.Ensembling clustering validation indices.Computer Engineering and Applications, 2011, 47 (19) : 15-17. Abstract: Clustering validation is a key factor to the success of clustering.One of the approaches to validate the clustering results is clustering validation index.However, there is no general index for all kinds of data structures.A Dempster-Shafer, (D-S) evidence theory based ensemble method for multiple indices is proposed recently, named D-S theory based Validation method (DSV) .Experimental results and analysis on various synthetic data sets show that DSV outperforms single clustering validation index. Key words:clustering validation; Dempster-Shafer (D-S) evidence theory; clustering validation index; cluster number 摘 要: 针对现有研究中给出的聚类有效性指标不能有效评价不同结构数据集的聚类结果问题, 提出一种使用多个有效性指标