6进化聚类

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

密度敏感的进化聚类
设数据集大小为100，类别数目为5 待变异的个体为(6, 设数据集大小为100，类别数目为5，待变异的个体为(6, 19, 38, 64, 91)，随机产生一个的随机数，如果该随机数小于 91)，随机产生一个的随机数，指定的变异概率，且第二个基因位被选择为变异位，指定的变异概率，且第二个基因位被选择为变异位，则等 (6,19+floor((100-19)*random+1), 概率将该个体变异为 (6,19+floor((100-19)*random+1), 3 8, 64, 91)或(6, 19-floor((19-1)*random+1), 38, 64, 91)， 91)或 19-floor((19-1)*random+1), 91)，其中random表示内均匀分布的随机数 floor表示向下取表示内均匀分布的随机数，其中random表示内均匀分布的随机数，floor表示向下取整。同样要保证变异后个体中各个基因位上的数值不同，同样要保证变异后个体中各个基因位上的数值不同，且按照由小到大的顺序排列，做法与上类似，在此不再累述。由小到大的顺序排列，做法与上类似，在此不再累述。
Julia Handl and Joshua Knowles. (2006) An evolutionary appro ach to multiobjective clustering. IEEE Transactions on Evolutio nary Computation.
OUTLINE
聚类分析的数学描述
X = {x1, x2 ,, xn } Rs
xk = ( xk1, xk 2 ,xks ) ∈ Rs
T
待聚类分析的样本集描述样本的特征向量
X1 ∪ X2 ∪∪ Xc = X Xi ∩ Xk = , 1≤ i ≠ k ≤ c Xi ≠ , Xi ≠ X, 1≤ i ≤ c
聚类结果的数学描述
多目标进化聚类
Objective functions cluster compactness
Dev( x ) =
xk ∈ x i∈ xk
∑ ∑ δ (i,
k
)
cluster connectedness
L Conn( x ) = ∑ ∑ xi , nij i =1 j =1
N
xr , s
聚类：聚类：数据集的划分
聚类分析原理
有16张牌 16张牌如何将他们分为一组一组的牌呢？一组一组的牌呢？
A K Q J
聚类分析原理
分成四组每组里花色相同组与组之间花色不同
A K Q J
花色相同的牌为一组
聚类分析原理
分成四组符号相同的牌为一组
A K Q J
符号相同的牌为一组
聚类分析原理
算法1. 密度敏感的进化聚类(DSEC) 算法密度敏感的进化聚类 1.t=0 2.随机产生初始种群P(t) 3.按照密度敏感的相似性度量对数据集进行划分，计算P(t)中每个个体的适应度值 4.t=t+1 5.对种群P(t-1)执行选择操作，获得新种群P(t) 6.对P(t)中的个体执行交叉操作 7.对P(t)中的个体执行变异操作 8.如果t< Gmax，返回3；否则, 按照密度敏感的相似性度量对数据集进行划分，计算P(t)中每个个体的适应度值，输出适应度最高的个体对应的划分
分成两组颜色相同的牌为一组
A
这个例子告诉我们，分组的意义在于我们怎么定义并度量“相似性”Similar。似性”Similar。
K Q J
颜色相同的为一组
k-means 聚类
1.选择K（聚类数） 2.选择K个初始聚类中心c1,…,ck 3.迭代直至收敛：（1）依据每个样本与K个聚类中心的相似性，对样本进行划分（2）更新聚类中心
密度敏感的进化聚类
新的编码方式同样引入了问题。一些经典的进化搜索算子像新的编码方式同样引入了问题。高斯变异，柯西变异等已经不能应用于我们的算法：高斯变异，柯西变异等已经不能应用于我们的算法： 91)和设待交叉的两个父代个体分别为 (6, 19, 29, 38, 91)和(3, 17, 61,64,73)，随机产生一个的随机数， 61,64,73)，随机产生一个的随机数，如果该随机数小于指定的交叉概率，指定的交叉概率，则随机产生一个码长与个体码长相同的掩码，假设为(1, 0)，掩码，假设为(1, 0, 0, 1, 0)，则交叉后两个子代个体分别 73)和 91)，为 (6, 17, 61, 38, 73)和(3, 19, 29, 64, 91)，然后对子代个体中每个基因位按照从小到大的顺序排列，体中每个基因位按照从小到大的顺序排列，最终的两个子代个体为(6, 73)和 91)，代个体为(6, 17, 38, 61, 73)和(3, 19, 29, 64, 91)，分别代替两个父代个体，交叉完毕。替两个父代个体，交叉完毕。特别地，特别地，当交叉完成之后某个个体中产生了多个基因位数值相同时，相同时，则数值相同的基因位用父代个体中的相应基因位上的值代替，以保证个体中每个基因位上的数值不同。上的值代替，以保证个体中每个基因位上的数值不同。
智能信息处理研究所
进化聚类新进展
公茂果
/iiip
OUTLINE
聚类问题描述进化计算新进展多目标进化聚类感按照一定的规律和要求对事物进行区分和聚类分析就是按照一定的规律和要求对事物进行区分和分类的过程，在这一过程中没有任何关于类分的先验知识先验知识，分类的过程，在这一过程中没有任何关于类分的先验知识，没有教师指导，仅靠事物间的相似性作为类属划分的准则。没有教师指导，仅靠事物间的相似性作为类属划分的准则。聚类属于无监督模式识别的范畴。无监督模式识别的范畴聚类属于无监督模式识别的范畴。
5
6
Position: 1 2 3 4 5 6 7 8
Genotype: 1 3 1 3 5 5 7 7
多目标进化聚类
2
3
4
7
8
2 3 4 7 8
5 6
5 6
A: 1 3 1 3 5 5 7 7
B: 2 3 4 5 5 7 8 6
2 A: 1 3 1 3 5 5 7 7 B: 2 3 4 5 5 7 8 6
3
4
8 7
Mask: 0 1 1 1 0 0 1 0
C: 2 3 1 3 5 7 7 6
5
6 C: 2 3 1 3 5 7 7 6
多目标进化聚类
用多目标进化算法同时优化两个目标函数，用多目标进化算法同时优化两个目标函数，输出一组相互之间非支配的聚类结果。一组相互之间非支配的聚类结果。再在这一组结果中根据需要选择一个合适的聚类结果。果中根据需要选择一个合适的聚类结果。
密度敏感的进化聚类
个体的适应度值即个体对应的类别划分的目标函数值。首先，个体的适应度值即个体对应的类别划分的目标函数值。首先，根据个体表示的各类别的典型样本，表示的各类别的典型样本，按照密度敏感的相似性度量将所有无类属的样本数据划分到不同的类别中。的样本数据划分到不同的类别中。将点 xi , i = 1,2,, n 划分到遵循下列原则：类 C j , j ∈ {1, 2,, K } ，遵循下列原则：
p 1
密度敏感的距离测度可以度量沿着流形上的最短路径，这使得位密度敏感的距离测度可以度量沿着流形上的最短路径，于同一高密度区域内的两点可以用许多较短的边相连接，于同一高密度区域内的两点可以用许多较短的边相连接，而位于不同高密度区域内的两点要用穿过低密度区域的较长的边相连接
密度敏感的进化聚类
密度敏感的进化聚类
在算法实现过程中还需要解决三个关键技术：在算法实现过程中还需要解决三个关键技术： (1) 个体编码方法；个体编码方法； (2)目标函数的设定； (2)目标函数的设定目标函数的设定； (3)进化搜索算子的设计 (3)进化搜索算子的设计
密度敏感的进化聚类
将指定类别数K的聚类问题建模为一个从数据集中选择K 将指定类别数K的聚类问题建模为一个从数据集中选择K个典型样本来代个类别的优化问题，然后按照无类属样本与K 表K个类别的优化问题，然后按照无类属样本与K个典型样本的相似性假设数据集大小为100，类别数目为5 则个体(6,19,38,64,91)表示第表示第6 假设数据集大小为100，类别数目为5，则个体(6,19,38,64,91)表示第6 个样本、 19个样本个样本、 38个样本个样本、 64个样本个样本、 91个样本分别个样本、第19个样本、第38个样本、第64个样本、第91个样本分别代表第1至第5 需要注意的是，为了减少搜索空间，代表第1至第5类。需要注意的是，为了减少搜索空间，我们将个体中每个基因位要按照从小到大的顺序排列，也就是说，个体(6,19,38,64, 每个基因位要按照从小到大的顺序排列，也就是说，个体(6,19,38,64, 91)与个体 91)与个体(6,19,64,38,91)将被视为一个个体。与个体(6,19,64,38,91)将被视为一个个体将被视为一个个体。这种编码方式没有涉及数据的维数，因此，这种编码方式没有涉及数据的维数，因此，搜索空间的大小与数据维数无关。而将个体编码为K个聚类中心，这样对于m维的数据聚类问题，无关。而将个体编码为K个聚类中心，这样对于m维的数据聚类问题，其编码长度为K*m，其编码长度为K*m，且该编码方式决定了该算法为一个连续空间的优化问题。而我们提出的编码方式，编码长度为K 无关，化问题。而我们提出的编码方式，编码长度为K，与m无关，且为离散空间的优化问题，降低了搜索空间的大小。散空间的优化问题，降低了搜索空间的大小。
1 , if xk : r ∈ xk ∧ s ∈ xk = j 0, else
多目标进化聚类
Representation
2 1
3
4
8 7
5
6
Position: 1 2 3 4 5 6 7 8
Genotype: 1 3 1 3 5 5 7 7
多目标进化聚类
operators
2 1
3
4
8 7
密度敏感的相似性度量
欧氏距离无法反映聚类的全局一致性
密度敏感的相似性度量
定义 1. 密度调节的线段长度
L( xi , x j ) ρ
dist ( xi , x j )
1
定义2. 定义2. 密度敏感的距离测度
D ( xi , x j ) = min ∑ L( pk , pk +1 )
p∈Pi , j k =1
OUTLINE
聚类问题描述进化计算新进展多目标进化聚类感进类
基于进化计算的聚类算法
（1）目标函数：compactness （2）representations for clustering solutions： str aightforward encoding，codes for cluster centroi ds locus-based ds，locus-based adjacency representation (3) 相似性度量
聚类问题描述进化计算新进展多目标进化聚类感进类
在设计基于进化算法的聚类算法时，最核心的两个问题就是在设计基于进化算法的聚类算法时，进化个体的编码以及相似性度量针对聚类问题的个体编码方式有很多，针对聚类问题的个体编码方式有很多，其中使用较多的是借用于K均值算法的编码方式，即每个个体只对K 用于K均值算法的编码方式，即每个个体只对K个聚类中心进行编码，心进行编码，然后对数据样本按照其与聚类中心的相似性进行类别划分以欧氏距离作为相似性度量的进化聚类算法虽然在全局最优化性能上较传统的基于梯度下降的K 化性能上较传统的基于梯度下降的K均值算法有较大提高缺点，缺点，它们只对空间分布为球形或超球体的数据具有较好的性能，性能，而对空间分布复杂的流形结构的数据效果很差
OUTLINE
聚类问题描述进化计算新进展多目标进化聚类感进类
传统的进化计算分支
遗传算法(GA) 遗传算法(GA) 进化策略(ES) 进化策略(ES) 进化规划(EP) 进化规划(EP) 遗传程序设计(GP) 遗传程序设计(GP)
新的进化计算分支
人工免疫系统群智能（粒子群优化，蚁群算法）群智能（粒子群优化，蚁群算法）交互式进化算法分布估计算法（分布估计算法（EDA））进化硬件