基于遗传算法的模糊c_均值聚类算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
推论 1 若模糊集合族{ A i| i ∈I} 是论域 X 的一
个模糊划分 ,取 X = { x 1 , x 2 , …, x n} , I = { 1 , 2 , …, c} , 相应的模糊划分矩阵 U = ( U ik) cn ∈Rc ×n ,则对
Π i ∈{ 1 ,2 , …, c} , ϖ j ∈{ 1 ,2 , …, n} ,
失去了存在的意义 , 使得聚类数目变成 c - 1 , 但在
FCM 中没有约束来限制这种情况的出现 。
上述分析说明 FCM 算法的结果往往存在无意义
的聚类集 ,并且最终结果对应的目标函数值可能是局
部最优解 。
2 模糊聚类的新定义
1969 年 Ruspini 在其阐述模糊聚类分析的文章[4 ] 中给出了模糊划分的经典定义 ,2000 年于剑等人给出 了模糊划分的一个新定义[5 ] , 它蕴含了 Ruspini 的定
u
d ik
‖x k
-
V i ‖2
(2)
k =1 i =1
给出目标函数具有极小点 ( U 3 , V 3 ) 的必要条件 ( 3)
如下 :
n
n
6 6 v
3 i
=
(
u
3 ik
)
dxk/
(
u
3 ik
)
d
k =1
k =1
(3a)
6 u
3 ik
=
‖v
3 i
-
-2
x k ‖d - 1
n
‖v
3 j
-
-2
x k ‖d - 1
后 U (1) 的第 p 列按以下方式计算 ,其余各列不改变 。
U
(1) p
=
βU
(1) p
+
(1
-
β)
U
(1) q
4 GFCM 算法与传统 FCM 算法的性能对比
用上述 GFCM 算法和 FCM 算法同时对 300 个聚 类问题进行计算 ,这些聚类问题描述如下 :
第 1 批 ,100 个分类问题 ,每个分类问题都是随机 产生的 200 个样本 ,分成 7 个类 。
U (1)
=
(
U
(1) 1
,
U
(1) 2
,
…,
U
(1) n
)
U (2)
=
(
U
(2) 1
,
U
(2) 2
,
…,
U
(2) n
)
设分类方案
V (1)
=
(
V
(1) 1
,
V
(1) 2
,
…,
V
(1) n
)
V (2)
=
(
V
(2) 1
,
V
(2) 2
,
…,
V
(2) n
)
和是交叉后生成的两个个体 , V (1) 的计算算法如下 :
2004 年 6 月 第 27 卷第 6 期
重庆大学学报 Journal of Chongqing University
文章编号 :1000 - 582X(2004) 06 - 0089 - 04
J un. 2004 Vol. 27 No. 6
基于遗传算法的模糊 c - 均值聚类算法①
欧 阳 ,成 卫 ,韩 逢 庆
90
重 庆 大 学 学 报 2004 年
可以认为 X 的一个模糊 c - 划分的结果是 c 个模
糊集合 { A i| i = 1 ,2 , …, c} , x k 对 A i 的隶属度函数值 等于 uik 。
Bezdek 等通过优化如下目标函数
nc
6 6 J d ( U , V) =
的值依赖于训练样本的位置 , 其迭代求解结果通常是
局部最优解 ,它和初始分类 、训练样本的选择顺序密切
相关 。
另一方面 , 对模糊集合之间的并 、交 、包含运算采
用通常的定义[3 ] ,即
定义 2 设论域 X 上的模糊集合 A , B 对应的隶
属度函数分别为 , x 是论域 X 上的任意一点 ,则
( A ∪ B ) ( x ) = max{ A ( x ) , B ( x ) } (4a)
陷 。按照这一定义 , 并且当模糊集合之间的并 、交 、包
含运算采用定义 2 时 ,笔者得到如下结论 :
定理 1 若模糊集合族{ A i| i ∈I} 是论域 X 的一
个模糊划分 ,则有以下事实成立
Πi ∈I, ϖ x ∈X ,
s ·t A i ( x ) = max{ A k ( x ) | k ∈ I}
V
( 1) k
=
αf
(
U
(1) k
,
t)
+
(1
-
α)
f
(
U
(2) k
,
t)
算法结束 。
用同样的算法计算 V (2) 。
315 变 异
对个体
U (1)
=
(
U
(1) 1
,
U
(1) 2
,
…,
U
(1) n
)
,
以均匀分布方式从 T = { 1 , 2 , …, n} 中产生两个
随机数 p , q 再从 [ 0 , 1 ]区间生成一随机数 β, 则变异
(1a)
i =1
Байду номын сангаас
0 ≤ uik ≤1 ,1 ≤ i ≤ c ;1 ≤ k ≤ n (1b)
n
6 uik > 0 ,1 ≤ i ≤ c
( 1c)
k =1
① 收稿日期 :2004 - 01 - 08 基金项目 :重庆市教委科技基金资助项目 (030601) 作者简介 :欧阳 (1959 - ) ,男 ,重庆人 ,重庆工学院副教授 ,硕士 ,主要从事网络计算研究 。
第1步
初始化 T = { 1 ,2 , …, n}
第2步
FOR i = 1 , 2 , …, c , 通 过 均 匀 分 布 函 数 从
S ( U (1)
, i) 中选出一个数 ,设为
ji ,将
U
(2) ji
中的各个元
素循环移位后的新列向量记为 f
(
U
(2) ji
,
i)
,使
f
(
U
(2) ji
,
i) 中的最大元素位于第 i 行 , 则按如下公式计算 V (1)
91
按适应度的相对大小以轮盘方式选择用于配对交
叉的 N 个父本 。
3. 4 配对交叉
从选出的 N 个父本中按随机方式两两配对 , 以均
匀分布函数从 1~ n - 1 中为每一对父本确定交叉位
置 ,然后进行交叉产生下一代个体 。其交叉方式如下 :
设将 要 配 对 的 两 个 父 本 U (1) 和 U (2) , U (1) =
(重庆工学院 ,重庆 400050)
摘 要 :基于误差平方和准则的模糊 c - 均值算法 ( FCM) 是一种典型的动态聚类算法 ,其求解结果
通常是局部最优解 ;当模糊集合之间的并 、交 、包含运算采用传统定义时 ,在模糊 c - 均值聚类结果中还
会存在无意义的聚类集 。研究表明采用遗传算法进行模糊 c - 均值聚类 ( Fuzzy c - means algorit hm over
u
(2) sj2
|
s
= 1 ,2 , …, c} ,
作映射 S ∶{ U} ×I →2 T ,
S ( U , i) = { j ∈ T | uij = max{ usj | s = 1 , 2 , …, c} }
其中 U 为任意一个分类方案 , uij ∈U 。
将父本 U (1) 和 U (2) 重新表示为
义 ,该定义如下 :
定义 3 一模糊集合族{ A i| i ∈I} 叫做 X 的一个
模糊划分 ,当且仅当
Π<
≠ I1 , I2
Α
I
,若
i
∪
∈I 1
A
i
Α ∪ i ∈I1 A i , 则
I1
Α
I2
(5)
6 Π x ∈ X ,有 A i ( x ) = 1
(6)
i ∈I
这一定义完全避免了模糊聚类结果中的第 2 类缺
中的第 ji 列 :
V
(1) ji
=
αU
(1) ji
+
(1
-
α)
f
(
U
(2) ji
, i)
,其中 α为[0 ,
1 ]区间的一随机数 。
T = T - { ji}
END FO R
第3步
对于每一个
k
∈T ,采用如下方法计算
V
(1) k
利用均匀分布函数从{ 1 , 2 , …, c} 中产生一个随
机数 t ,再从 [0 ,1 ]区间生成一随机数α,则
( GFCM) 算法的各个步骤如下 :
311 编码方案 对任意一个将 n 个样本划分为 c 个聚类的方案 ,
其对应的编码就等于 U = ( U ik) cn ∈Rc ×n 。 其中
n 个样本为 X = { x 1 , x 2 , …, x n} , c 个聚类为{ A i| i ∈I} , 划分方案为 U = ( uik) cn ∈Rc ×n 对 A i 的隶属度函数值用 uik表示 。 3. 2 生成初始群体 以随机方式生成 N 个初始分类方案 ,即为初始群
理论分析和计算实验表明 ,FCM 算法的结果往往 存在无意义的聚类 、最终结果对应的目标函数值有可 能是 局 部 最 优 解 。笔 者 提 出 利 用 遗 传 算 法 来 改 进 FCM ,可以避免生成无意义的聚类集 ,并在一定程度 上避免模糊 c - 均值算法收敛到局部最优解 。
1 模糊 c - 均值聚类算法及分析
j =1
( 3 b)
其中 d 为模糊控制参数 。
模糊 c - 均值聚类算法是基于误差平方和目标函
数准则 ,先给出初始方案 ,通过 (3a) 、(3b) 反复迭代 , 使 得目标函数式 (2) 达到极小 。
从上述模糊 c - 均值聚类算法过程来看 , 为使得
目标函数值最小 ,采用了一阶导数的方法 ,使得隶属度
体 ,其中 N 为预先给定的群体规模 。
3. 3 选 择 计算当代群体中每一个个体 (分类方案) 的适应度
如下 :
nc
6 6 J d ( U , V) =
u
d ik
‖x k
-
v i ‖2
k =1 i =1
第 27 卷第 6 期 欧 阳 等 : 基于遗传算法的模糊 c - 均值聚类算法
中图分类号 : O235
文献标识码 :A
遗传算法[1 ] 是借鉴生物的自然选择和遗传进化 机制而开发出的一种全局优化自适应概率搜索算法 。 遗传算法使用群体搜索技术 ,通过对当前群体施加选 择 、交叉 、变异等一系列遗传操作 ,从而产生出新一代 的群体 ,并逐步使群体进化到包含或接近最优解的状 态 。由于其具有思想简单 、易实现 、应用效果明显等优 点而被众多应用领域所接受 ,并在自适应控制 、组合优 化 、模式识别 、机器学习 、人工生命 、管理决策等领域得 到了广泛的应用 。遗传算法呈现出的是一种通用的算 法框架 ,该框架不依赖于问题的种类 。遗传算法是 — 类具有较强鲁棒性的优化算法 ,特别是对于一些大型 复杂非线性系统 ,它更表现出了比其他传统优化方法 更加独特和优越的性能 。
( A ∩ B ) ( x ) = min{ A ( x ) , B ( x ) } (4b)
A Α B Ζ A ( x) ≤B ( x)
( 4c)
在此定义下 ,如果经典模糊聚类算法 ( FCM) 的结
果中存在 i 、j ,使得 ui ( x ) ≤uj ( x ) 对每一个样本 x 都 成立 ,此时 ,第 i 类是包含在第 j 类中 , 这样第 i 类就
定义 1 X = { x 1 , x 2 , …, x n} Α RS 是特征空间
RS 中的一个有限数据集合 ,则 X 的一个模糊 c - 划分 是一个 c ×n 矩阵 U = ( uik) cn ∈Rc ×n ,其中 2 ≤c ≤n , 且 U 满足条件 (1) :
c
6 uik = 1 , 1 ≤ k ≤ n
实际问题大多具有一定的模糊性 ,自从模糊集理 论创立以来 ,模糊集理论已被成功地运用到多个领域 。 在模式识别的动态聚类方法中 ,如果要求每一个样本 仅仅属于一个类 ,这是硬聚类算法 ;如果允许每一个样 本以不同的隶属程度分别属于不同的类 ,这就是模糊 聚类算法[2 ] 。
模糊 c - 均值聚类算法 ( FCM) 是基于误差平方和 准则的模糊 c - 均值算法 ,是一种典型的动态聚类算 法 ,在图像处理 、数据挖掘 、人工智能等方面均有较多 应用 。
s ·t uij = max{ usj | s = 1 , 2 , …, c}
3 基于遗传算法的模糊 c - 均值聚类
实施遗传算法的几个步[6 ]骤分别是编码 、生成初
始群体 、选择 、配对交叉 、变异 。
设样本个数为 n ,聚类数目为 c , 发生变异的概率
P,为此设计基于遗传算法的模糊 c - 均值聚类
genetic algorit hm , GFCM) 时 ,不仅能够消除无意义的聚类集 ,而且还在一定程度上避免模糊 c - 均值算
法收敛到局部最优解 ,为此设计编码 、选择 、配对交叉 、变异等步骤 。测试数据实验表明采用 GFCM 算
法的结果优于 FCM 算法 。
关键词 :遗传算法 ;模糊 c - 均值聚类 ; GFCM
(
u
(1) ik
)
cn ,
U (2)
=
(
u
(2) ik
)
cn ,由推论
1
得知 ,
Πi
∈I
={1,
2 , …, n} , ϖ j1 , j2 ∈T = { 1 ,2 , …, n} ,使得
s
·t
u
(1) ij1
=
max{
u
(1) sj1
|
s
= 1 ,2 , …, c) ,
s
·t
u
(2) ij2
=
max{