基于簇过滤的优势集模糊聚类集成

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一个模糊划分的所有模糊集合满足。

聚类集成如下：设={
个数据对象构成的集合，为个模
员提供一组模糊集合
，为该聚类成员中模糊集合的个数。

所有集成成员
，。

成员，表示数据对象隶属于簇的程度。

使用对象—簇矩阵表示模糊聚类集成的实例如表1所示。

模糊聚类集成的任务是对于给定的数据集，生成模糊聚类成员的结果集合，的划分。

对象簇矩阵表示模糊聚类集成的实例
模糊聚类集成有2个关键步骤：基础聚类成员的生成和一致性函数。

首先，在原始数据集上通过属性子集、
动，采用不同聚类算法的方式生成模糊聚类成员的结果集合。

之后，为了产生最终的聚类集成结果，采用一致性函数将多个聚类成员结果映射为一个最终的聚类结果。

现有很多一致性函数都基于类似表1所示的矩阵直接计
设为
集成成员产生的簇所构成的一个集合。

定义一个图<，
中为图中所有节点的集合，为图中边的集合。

边的权重定义为：
,)=0，if=。

该定义下权重的涵义为模糊簇
之间的重叠程度，聚类集成成员结果如图1所示。

图1聚类集成成员结果
任意一对模糊簇之间都有边相连，边的权重代表了相应个模糊簇的相似程度，权重越大相似度越高。

在硬边界的同一聚类成员中的簇之间（图
因此它们之间的权重一定为零，
在模糊聚类集成中，即使是同一聚类成员内的
传统的基于图的一致性函数通常是对点集进行划分，意味着所有模糊簇都将指派给一个该划分中的集合。

但是，
式中，。

通过使用“模仿者动态”可以多次迭代求解
在求得的结果中，如果>0则表示节点
，。

使用该方法一次只能从图中抽取出一个优势集和。

“剥离”
每次从中剥离出一个优势集，
集合替换为/再次进行模仿者动态系统求解。

重复上述过程直到所有的优势集都被提取出，或者达到预先设定的优势
属于一个超簇,
聚合算子采用算术平均值。

基于簇过滤的改进
由于优势集是通过加权邻接矩阵进行计算的，因此节点即聚类成员结果中簇与簇的相似程度，
的提取起到关键作用。

在使用模糊均值聚类方法生成聚类成员时，如果迭代次数不充分将会出现大量对象在每一个簇
取优势集之前从模糊簇的集合中删除，从而避免其对聚类
设表示一个对象
成员中的模糊簇的程度，则模糊簇的显著度表示为：
当一个模糊簇的显著度臆0时，则将其从节点集合中删为该聚类成员中模糊集合的个数，为一个取值
的值越大则中被删除的节点越多，
图2wine数据集对比结果
如图2所示，在wine数据集上大多数测试结果可以达到0.9的精度。

随着聚类集成成员包含的簇的数量大于9时，没有簇过滤机制的原算法精度低于本文提出的方法。

图3parkinson数据集对比结果
如图3所示，提出的方法的优势在parkinson数据集上更加明显。

在所有测试参数中，改进后的方法所获得的精度都不
图4diabetes数据集对比结果
如图4所示，当显著度计算时的参数设置为0.02，0.04时所提出的方法在diabetes数据集上获得的结果要优于原算法。

当设置为0.08，0.10时提出的方法结果要劣于原算法。

主要原因是在仿真环境下可能由较多的簇由于迭代次数过低而导致样例之间的隶属度差异很小。

因此，当的值设置过高时有过多的簇被过滤，使得集成可用的簇数量过少，从而导致聚类集成精度的下降。

图5ionosphere数据集对比结果
如图5所示，在ionosphere数据集的精度随着聚类集成成员包含的簇的数量增大而减小。

出现该现象的原因是在仿真时设置的迭代次数过低而导致聚类成员结果没有充分收敛。

尽管如此，当聚类集成成员包含的簇的数量大于8时，大多数采用簇过滤机制的集成结果都要优于原算法。

通过对比实验结果可以看出，同样条件下在测试的数据集中，采用了本文提出的基于簇过滤的改进方法可以获得比原始算法更高的精度。

特别是随着聚类集成成员包含的簇的数量增大时，引入过滤机制将有助于提高集成结果的精度。

此外，当的值设置过高时，有过多的簇被删除，因此会导致聚类集成精度下降。

在parkinson数据集中提出的改进方法对精度的提高非常明显。