6进化聚类
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
密度敏感的进化聚类
设数据集大小为100,类别数目为5 待变异的个体为(6, 设数据集大小为100,类别数目为5,待变异的个体为(6, 19, 38, 64, 91), 随机产生一个的随机数,如果该随机数小于 91), 随机产生一个的随机数, 指定的变异概率,且第二个基因位被选择为变异位, 指定的变异概率,且第二个基因位被选择为变异位,则等 (6,19+floor((100-19)*random+1), 概率将该个体变异为 (6,19+floor((100-19)*random+1), 3 8, 64, 91)或(6, 19-floor((19-1)*random+1), 38, 64, 91), 91)或 19-floor((19-1)*random+1), 91), 其中random表示内均匀分布的随机数 floor表示向下取 表示内均匀分布的随机数, 其中random表示内均匀分布的随机数,floor表示向下取 整。 同样要保证变异后个体中各个基因位上的数值不同, 同样要保证变异后个体中各个基因位上的数值不同,且按照 由小到大的顺序排列,做法与上类似,在此不再累述。 由小到大的顺序排列,做法与上类似,在此不再累述。
Julia Handl and Joshua Knowles. (2006) An evolutionary appro ach to multiobjective clustering. IEEE Transactions on Evolutio nary Computation.
OUTLINE
聚类分析的数学描述
X = {x1, x2 ,, xn } Rs
xk = ( xk1, xk 2 ,xks ) ∈ Rs
T
待聚类分析的样本集 描述样本的特征向量
X1 ∪ X2 ∪∪ Xc = X Xi ∩ Xk = , 1≤ i ≠ k ≤ c Xi ≠ , Xi ≠ X, 1≤ i ≤ c
聚类结果的数学描述
多目标进化聚类
Objective functions cluster compactness
Dev( x ) =
xk ∈ x i∈ xk
∑ ∑ δ (i,
k
)
cluster connectedness
L Conn( x ) = ∑ ∑ xi , nij i =1 j =1
N
xr , s
聚类: 聚类:数据集的划分
聚类分析原理
有16张牌 16张牌 如何将他们分为 一组一组的牌呢? 一组一组的牌呢?
A K Q J
聚类分析原理
分成四组 每组里花色相同 组与组之间花色不同
A K Q J
花色相同的牌为一组
聚类分析原理
分成四组 符号相同的牌为一组
A K Q J
符号相同的牌为一组
聚类分析原理
算法1. 密度敏感的进化聚类(DSEC) 算法 密度敏感的进化聚类 1.t=0 2.随机产生初始种群P(t) 3.按照密度敏感的相似性度量对数据集进行划分,计算P(t)中 每个个体的适应度值 4.t=t+1 5.对种群P(t-1)执行选择操作,获得新种群P(t) 6.对P(t)中的个体执行交叉操作 7.对P(t)中的个体执行变异操作 8.如果t< Gmax,返回3;否则, 按照密度敏感的相似性度量对 数据集进行划分,计算P(t)中每个个体的适应度值,输出适 应度最高的个体对应的划分
分成两组 颜色相同的牌为一组
A
这个例子告诉我们, 分组的意义在于我们 怎么定义并度量“相 似性”Similar。 似性”Similar。
K Q J
颜色相同的为一组
k-means 聚类
1.选择K(聚类数) 2.选择K个初始聚类中心c1,…,ck 3.迭代直至收敛: (1)依据每个样本与K个聚类中心的相似性, 对样本进行划分 (2) 更新聚类中心
密度敏感的进化聚类
新的编码方式同样引入了问题。一些经典的进化搜索算子像 新的编码方式同样引入了问题。 高斯变异,柯西变异等已经不能应用于我们的算法: 高斯变异,柯西变异等已经不能应用于我们的算法: 91)和 设待交叉的两个父代个体分别为 (6, 19, 29, 38, 91)和(3, 17, 61,64,73),随机产生一个的随机数, 61,64,73),随机产生一个的随机数,如果该随机数小于 指定的交叉概率, 指定的交叉概率,则随机产生一个码长与个体码长相同的 掩码,假设为(1, 0), 掩码,假设为(1, 0, 0, 1, 0),则交叉后两个子代个体分别 73)和 91), 为 (6, 17, 61, 38, 73)和(3, 19, 29, 64, 91),然后对子代个 体中每个基因位按照从小到大的顺序排列, 体中每个基因位按照从小到大的顺序排列,最终的两个子 代个体为(6, 73)和 91), 代个体为(6, 17, 38, 61, 73)和(3, 19, 29, 64, 91),分别代 替两个父代个体,交叉完毕。 替两个父代个体,交叉完毕。 特别地, 特别地,当交叉完成之后某个个体中产生了多个基因位数值 相同时, 相同时,则数值相同的基因位用父代个体中的相应基因位 上的值代替,以保证个体中每个基因位上的数值不同。 上的值代替,以保证个体中每个基因位上的数值不同。
智能信息处理研究所
进化聚类新进展
公茂果
/iiip
OUTLINE
聚类问题描述 进化计算新进展 多目标进化聚类 感按照一定的规律和要求对事物进行区分和 聚类分析就是按照一定的规律和要求对事物进行区分和 分类的过程,在这一过程中没有任何关于类分的先验知识 先验知识, 分类的过程,在这一过程中没有任何关于类分的先验知识, 没有教师指导,仅靠事物间的相似性作为类属划分的准则。 没有教师指导,仅靠事物间的相似性作为类属划分的准则。 聚类属于无监督模式识别的范畴。 无监督模式识别的范畴 聚类属于无监督模式识别的范畴。
5
6
Position: 1 2 3 4 5 6 7 8
Genotype: 1 3 1 3 5 5 7 7
多目标进化聚类
2
3
4
7
8
2 3 4 7 8
5 6
5 6
A: 1 3 1 3 5 5 7 7
B: 2 3 4 5 5 7 8 6
2 A: 1 3 1 3 5 5 7 7 B: 2 3 4 5 5 7 8 6
3
4
8 7
Mask: 0 1 1 1 0 0 1 0
C: 2 3 1 3 5 7 7 6
5
6 C: 2 3 1 3 5 7 7 6
多目标进化聚类
用多目标进化算法同时优化两个目标函数, 用多目标进化算法同时优化两个目标函数,输出 一组相互之间非支配的聚类结果。 一组相互之间非支配的聚类结果。再在这一组结 果中根据需要选择一个合适的聚类结果。 果中根据需要选择一个合适的聚类结果。
密度敏感的进化聚类
个体的适应度值即个体对应的类别划分的目标函数值。首先, 个体的适应度值即个体对应的类别划分的目标函数值。首先,根据个体 表示的各类别的典型样本, 表示的各类别的典型样本,按照密度敏感的相似性度量将所有无类属 的样本数据划分到不同的类别中。 的样本数据划分到不同的类别中。将点 xi , i = 1,2,, n 划分到 遵循下列原则: 类 C j , j ∈ {1, 2,, K } ,遵循下列原则:
p 1
密度敏感的距离测度可以度量沿着流形上的最短路径,这使得位 密度敏感的距离测度可以度量沿着流形上的最短路径, 于同一高密度区域内的两点可以用许多较短的边相连接, 于同一高密度区域内的两点可以用许多较短的边相连接,而位于 不同高密度区域内的两点要用穿过低密度区域的较长的边相连接
密度敏感的进化聚类
密度敏感的进化聚类
在算法实现过程中还需要解决三个关键技术: 在算法实现过程中还需要解决三个关键技术: (1) 个体编码方法; 个体编码方法; (2)目标函数的设定; (2)目标函数的设定 目标函数的设定; (3)进化搜索算子的设计 (3)进化搜索算子的设计
密度敏感的进化聚类
将指定类别数K的聚类问题建模为一个从数据集中选择K 将指定类别数K的聚类问题建模为一个从数据集中选择K个典型样本来代 个类别的优化问题,然后按照无类属样本与K 表K个类别的优化问题,然后按照无类属样本与K个典型样本的相似 性 假设数据集大小为100,类别数目为5 则个体(6,19,38,64,91)表示第 表示第6 假设数据集大小为100,类别数目为5,则个体(6,19,38,64,91)表示第6 个样本、 19个样本 个样本、 38个样本 个样本、 64个样本 个样本、 91个样本分别 个样本、第19个样本、第38个样本、第64个样本、第91个样本分别 代表第1至第5 需要注意的是,为了减少搜索空间, 代表第1至第5类。需要注意的是,为了减少搜索空间,我们将个体中 每个基因位要按照从小到大的顺序排列,也就是说,个体(6,19,38,64, 每个基因位要按照从小到大的顺序排列,也就是说,个体(6,19,38,64, 91)与个体 91)与个体(6,19,64,38,91)将被视为一个个体。 与个体(6,19,64,38,91)将被视为一个个体 将被视为一个个体。 这种编码方式没有涉及数据的维数,因此, 这种编码方式没有涉及数据的维数,因此,搜索空间的大小与数据维数 无关。而将个体编码为K个聚类中心,这样对于m维的数据聚类问题, 无关。而将个体编码为K个聚类中心,这样对于m维的数据聚类问题, 其编码长度为K*m, 其编码长度为K*m,且该编码方式决定了该算法为一个连续空间的优 化问题。而我们提出的编码方式,编码长度为K 无关, 化问题。而我们提出的编码方式,编码长度为K,与m无关,且为离 散空间的优化问题,降低了搜索空间的大小。 散空间的优化问题,降低了搜索空间的大小。
1 , if xk : r ∈ xk ∧ s ∈ xk = j 0, else
多目标进化聚类
Representation
2 1
3
4
8 7
5
6
Position: 1 2 3 4 5 6 7 8
Genotype: 1 3 1 3 5 5 7 7
多目标进化聚类
operators
2 1
3
4
8 7
密度敏感的相似性度量
欧氏距离无法反映聚类的全局一致性
密度敏感的相似性度量
定义 1. 密度调节的线段长度
L( xi , x j ) ρ
dist ( xi , x j )
1
定义2. 定义2. 密度敏感的距离测度
D ( xi , x j ) = min ∑ L( pk , pk +1 )
p∈Pi , j k =1
OUTLINE
聚类问题描述 进化计算新进展 多目标进化聚类 感 进 类
基于进化计算的聚类算法
(1)目标函数:compactness (2)representations for clustering solutions: str aightforward encoding,codes for cluster centroi ds locus-based ds,locus-based adjacency representation (3) 相似性度量
聚类问题描述 进化计算新进展 多目标进化聚类 感 进 类
在设计基于进化算法的聚类算法时,最核心的两个问题就是 在设计基于进化算法的聚类算法时, 进化个体的编码以及相似性度量 针对聚类问题的个体编码方式有很多, 针对聚类问题的个体编码方式有很多,其中使用较多的是借 用于K均值算法的编码方式,即每个个体只对K 用于K均值算法的编码方式,即每个个体只对K个聚类中 心进行编码, 心进行编码,然后对数据样本按照其与聚类中心的相似性 进行类别划分 以欧氏距离作为相似性度量的进化聚类算法虽然在全局最优 化性能上较传统的基于梯度下降的K 化性能上较传统的基于梯度下降的K均值算法有较大提高 缺点, 缺点,它们只对空间分布为球形或超球体的数据具有较好的 性能, 性能,而对空间分布复杂的流形结构的数据效果很差
OUTLINE
聚类问题描述 进化计算新进展 多目标进化聚类 感 进 类
传统的进化计算分支
遗传算法(GA) 遗传算法(GA) 进化策略(ES) 进化策略(ES) 进化规划(EP) 进化规划(EP) 遗传程序设计(GP) 遗传程序设计(GP)
新的进化计算分支
人工免疫系统 群智能(粒子群优化,蚁群算法) 群智能(粒子群优化,蚁群算法) 交互式进化算法 分布估计算法( 分布估计算法(EDA) ) 进化硬件