基于划分的模糊聚类算法_张敏

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Received 2003-07-16; Accepted 2003-11-11 Zhang M, Yu J. Fuzzy partitional clustering algorithms. Journal of Software, 2004,15(6):858~869. /1000-9825/15/858.htm Abstract: Fuzzy partitional clustering algorithms are widely used in pattern recognition field. Until now, more
860
Journal of Software 软件学报
2004,15(6)
聚类算法之一. 但是,C-均值算法也有不少缺点, 如采用的是硬划分 , 每类由类中心代表, 使用欧氏度量, 每个数据 点的影响一样, 没有考虑噪音数据的影响, 也缺少对类中心的约束等 . 文献中针对这些缺点提出了各种改进措 施.本文主要综述基于模糊集理论的各种对于 C-均值算法的改进算法.
张敏 等:基于划分的模糊聚类算法
859
因此是一种无监督的分类. 聚类所生成的簇是一组数据对象的集合, 在同一簇中的对象之间具有较高的相似度, 而不同簇中对象的差别较大. 聚类分析已经被广泛地应用到许多领域中, 包括模式识别、数据分析、图像处理 以及市场研究等. 在商务上 , 聚类能够帮助市场分析人员从客户基本库中发现不同的客户群; 在生物学上, 聚类 用于推导植物和动物的分类,对基因进行分类;聚类也能对 Web 上的文档进行分类,以发现信息,等等. 聚类的方法可以分为基于划分的方法、基于分层的方法、基于密度的方法和基于网格的方法. 其中, 基于 划分的聚类算法在模式识别里是最常用的聚类算法类型, 本文主要是针对此类算法进行讨论. 基于划分的聚类 方法有时也叫做基于目标函数的聚类算法. 本文假设聚类算法的目标函数都是可微的, 算法处理的都是数值型 数据,而且除了初始化以外,没有采用抽样技术. 传统的划分方法是一种硬划分, 是把每个待处理的对象严格地划分到某个类中 . 硬划分方法的典型代表是 C 均值算法. 在这个算法中, 隶属度不是 1 就是 0, 而现实中大多数的对象并没有严格的属性,这种硬划分并不能 真正地反应对象和类的实际关系, 因此,人们就提出了要对待处理的对象进行软划分.Zedeh 提出的模糊集理论 为软划分提供了有力的分析工具, 人们开始用模糊的方法来处理聚类问题, 基于划分的模糊聚类的研究也由此 开始.基于划分的模糊聚类分析建立了样本类属的不确定性的描述,能够比较客观地反映现实世界. 模糊聚类属于模式识别中的无监督学习, 它不需要训练样本, 可以直接通过机器学习达到自动分类的目的. 模式识别中最关键的技术就是特征提取, 模糊聚类不但能从原始数据中提取特征, 而且还能对特征进行优化选 择和降维 ;在提取特征之后 , 模糊聚类还可以提供最近邻原型分类器, 以及进行空间划分和模糊规则的提取 , 帮 助构造基于模糊 IF-THEN 规则的分类器;在物体识别和线条检测中, 模糊聚类可以用于原始的数据上,也可用于 变换域中. 在模式识别的一些具体应用领域中, 模糊聚类也取得了较好的结果, 比如,汉字识别的字符预分类、语 音识别中的分类和匹配等. 本文从改变度量方式、改变隶属度约束条件、在目标函数中引入熵以及加入对聚类原型的约束条件等几 个方面对文献中现有的基于模糊划分的聚类算法进行了分类 , 至于其他聚类算法, 有兴趣的读者可以参考文献 [1,2]. 本文的第 1 节介绍了基于硬划分的典型代表聚类算法 C-均值算法. 第 2 节按照实现模糊化的两种思路对 基于划分的模糊聚类算法作了综述和分析. 第 3 节对各典型算法的优缺点进行了实验比较分析. 最后总结了基 于划分的模糊聚类算法中普遍存在的问题以及未来的发展.
2 c k =1 i =1 (0) ( 0) (1) 初始化:给出初始聚类中心 v ( 0) = {v1( 0) , v2 ,...,vc }, l = 0, l 为迭代次数,最大迭代次数为 T,阈值为ε. (l +1) (2) 用下列公式更新 uik : (l ) 1, 如果i = arg min{|| xk − vi ||} ( l +1) uik = 0, 否则 n c
866journalofsoftware软件学报2004156table5theoutcomesofmecalgorithmwithdifferentondownscalingdataset表5取不同值时mec算法在进行缩小变化的数据集上得到的结果datatransformation110055124307645512230764651123008868135307470584303054058430305405843030540651103009005840030500584003050058400305005840030500058000310005800031000580003100058000311e41e8data5774406928500603417958000270005003934000682393078305774026930500603418068140307500584003050058400305005840030500058000310005800031000580003158000270005003934000682393078305774026920500603418068130307400580002700050000340006820030800058000270005000034000680003101data05512030760551203076001data005840030500584003050001data000580003100058000314基于划分的模糊聚类算法存在的问题及其发展前景在本文中我们总结了文献中出现的基于划分的模糊聚类算法对这些算法进行了综述和分析比较并指出了标准fcm算法对数据的比例变化具有鲁棒性而其他的算法对这种变化非常敏感
ZHANG Min, YU Jian+
(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China) + Corresponding author: Phn: +86-10-51688055, E-mail: jianyu@,
1 基于硬划分的聚类算法——C-均值聚类算法
基于前面的讨论, 我们可以作如下假设:设 X = {x1 , x2 ,..., xn } ⊂ R s 是一个数据集, u = {uik }c×n ∈ M fcn 是一个隶 属度矩阵, v = {v1 , v2 ,..., vc } 是 c 个聚类中心, vi ∈ R s ,2 ≤ c < n . C-均值算法把 n 个向量 xi(i=1,2, … , n) 分成 C 个簇 Gi (i = 1,2,..., c) ,并求得每个簇的聚类中心, 使得簇内方差的 和达到最小 J (u, v) = ∑ ∑ uik xk − vi , 其中∑i =1 uik = 1, uik ∈{0,1} .C-均值聚类算法的基本步骤如下:1000-98来自5/2004/15(06)0858
©2004 Journal of Software 软 件 学 报
Vol.15, No.6
基于划分的模糊聚类算法
张 敏, 于 剑+
(北京交通大学 计算机与信息技术学院,北京 100044)

Fuzzy Partitional Clustering Algorithms
2 基于划分的模糊聚类算法
C-均值算法的隶属度要么是 1, 要么是 0,这不能反映数据点与类中心的实际关系.为了处理这个问题,人们 引入了模糊集的概念.使用模糊数学理论的聚类算法被称为模糊聚类算法. 自 1969 年 Ruspini 首先提出第 1 个 解析的模糊聚类算法以来, 已经有很多人提出了许多的模糊聚类算法. 基于模糊划分的模糊聚类算法, 其主要思 想是将经典划分的定义模糊化,文献中主要有两种比较成功的思路来实现这种模糊化, 一是在 C-均值算法的目 标函数中引入隶属度函数的权重指数,二是在 C-均值算法目标函数中引入信息熵. 2.1 引入隶属度函数的权重指数 在众多的模糊聚类算法中, 应用最广泛而且较成功的是 1974 年由 Dunn 提出并由 Bezdek 加以推广的模糊 C-均值(fuzzy C-means, 简称 FCM) 算法.同样,FCM 算法是把 n 个向量 x i (i = 1,2,..., n) 分成 C 个模糊簇,并求得每 个簇的聚类中心,使目标函数达到最小, 1 < m < +∞ ,FCM 的目标函数定义为 J m (u, v) = ∑ ∑ (u ik ) m d ( x k , vi )
∗ Supported by the National Natural Science Foundation of China under Grant No.60303014 (国家自然科学基金 ); the Scientific
Key Project of Ministry of Education of China under Grant No.02031 (教育部科学技术研究重点项目) 作者简介: 张敏 (1979 - ), 女 , 江西南昌人 , 硕士生 , 主要研究领域为数据挖掘, 聚类分析 ; 于剑 (1969 - ), 博士 , 副教授 , 主要研究领 域为计算智能,模式识别,数据挖掘.
k =1 i =1 c 2 n c
(3)
这里, ∑i=1 uik = 1, uik ∈ (0,1) , ∀k , d (xk , vi ) = xk − vi .与 C 均值算法不同的是, 在目标函数中增加了模糊权重指数 m. 为使目标函数达到最小,聚类中心和隶属度的更新如下: vi = 1
(1)
(3) 用下列公式更新 vi( l +1) : vi( l +1) =
( l +1) xk ∑k =1uik n (l +1) ∑k =1uik n
(2)
如果 max i vi(l +1) − vi(l ) < ε 或者 l > T , 则停止;否则, l = l + 1 ,转至步骤(2). C-均值算法思想简单, 实现容易, 收敛快, 运行速度快, 内存消耗小, 能有效地处理大数据集, 是目前最常用的
在众多聚类算法中,基于划分的模糊聚类算法是模式识别中最常用的算法类型之一.至今,文献中仍不断
有关于基于划分的模糊聚类算法的研究成果出现.为了能更为系统和深入地了解这些聚类算法及其性质,本文从改 变度量方式、改变约束条件、在目标函数中引入熵以及考虑对聚类中心进行约束等几个方面,对在 C-均值算法的 基础上得到的基于划分的模糊聚类算法作了综述和评价, 对各典型算法的优缺点进行了实验比较分析. 指出标准 FCM 算法被广泛应用的原因之一是它对数据的比例变化具有鲁棒性,而其他类似的算法对这种比例变化却很敏感, 并以极大熵方法为例进行了比较实验.最后总结了基于划分的模糊聚类算法普遍存在的问题及其发展前景. 关键词: 划分聚类;C 均值;权重指数;熵;隶属度函数 中图法分类号: TP18 文献标识码: A 聚类就是将物理或抽象的对象, 按照对象间的相似性进行区分和分类的过程. 在这一过程中没有教师指导,
and more research results on them have been developed in the literature. In order to study these algorithms systematically and deeply, they are reviewed in this paper based on c-means algorithm, from metrics, entropy, and constraints on membership function or cluster centers. Moreover, the advantages and disadvantages of the typical fuzzy partitional algorithms are discussed. It is pointed out that the standard FCM algorithm is robust to the scaling transformation of dataset, while others are sensitive to such transformation. Such conclusion is experimentally verified when implementing the standard FCM and the maximum entropy clustering algorithm. Finally, the problems existing in these algorithms and the prospects of the fuzzy partitional algorithms are discussed. Key words: 摘 要: partitional clustering; C-means; weighting exponent; entropy; membership function
相关文档
最新文档