K-means聚类分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Cluster=GraphCluster(sim ilarityGraph)
4.1KBAC算法描述
Initialcenterset=Co mputeMinCover （simlarityGraph， aa）
record culster intinalcenter to corecanditidateset
E(Ai )
v j 1
X1, j
X2, j N
X m, j * I ( X1, j , X 2, j ,
, Xm, j )
6. I ( X1, j , X 2, j , , X m, j ) 为子集Xj的熵，计算公式为：
m
I ( X1, j , X 2, j , , X m, j ) pi, j log2 pi, j i 1
m
I (C) P(Ci ) log2 P(Ci ) i 1
P(Ci ) | Ci | / N,| Ci | 为类别Ci中样本数量，| |返回集合中元素个数运算
4.特征属性Ai的信息增益计算公式：
Gain分成子集的熵，计算公式：
其中pi,j为Xj中的属于Ci的概率，计算公式： pi,j =|Xi,j|/Xj
7.属性Ai的信息增益比例公式为：
GainRation( Ai ) Gain( Ai ) / Spilt( Ai )
其中Spilt(Ai)计算公式：
v
Spilt( Ai ) p j * log2 Pj , 其中Pj | X j | / X j 1
每时每刻大量数据都在产生
1. 引言
目前有的聚类经典算法 1）k-means算法 2）k-原型算法 3）模糊聚类算法 4）基于粗糙的k-model算法
2. K-means聚类方法的简单分析
➢ k-means聚类算法 K-means聚类算法是聚类分析中的一种基本划法方法 1）、思想简单可靠 2）、算法简介 3）、在云计算平台下，能够高效地对大规模数据集进行聚类
4、利用经典PSO算法进行聚类优化
容易出现早熟问题，又不易或得全局最优解
3. 相关改进方法
➢ 解决方案的提出
a）KBAC算法k-means的预聚类过程
较好地克服了类中心的随即选择敏感问题
b）IPSO增加粒子杂交，变异运算，同时动态更改粒子空间中的各维飞行加速因子
克服了早熟问题，能够达到较好的聚类效果。
4. 主要解决方法
KBAC算法k-means的预聚类过程构造相似带权图和聚类图，在构造带权图前，
u 我们对输入样本向量的每个维度计算方
差，u通过线性变换
u u/ u
是每个维度方差归一化，构造相似带权图时，
首先用户任意给出聚类数上界 K
4. 主要解决方法
算方将设定k-means预聚类的类簇数目
娱乐
学习
工作
1. 引言
大量问题的出现 1）网络入侵的快速检测 2）大量医学图像的处理 3）海量的音视频处理 4）大量的文本检索 5）生物信息的探究与分析
1. 引言
聚类分析是数据挖掘中的一个重要研究方向，也被应用与各行各业。
目前聚类分析广泛应用于网络入侵检测，语义网络分析，文本检索，基于云平台海量数据集的聚类等研究领域。
8.特征属性Ai的分类贡献率为：
q
i GainRatio( Ai ) / ( GainRatio( Aj )) j 1
end
一次预聚类会花费很大时间，但该算法能够更好地确定最佳聚类数目。
在云计算框架下能够实现对大规模数据集聚类效果。
4.2基于信息增益比例的距离加权
一个属性的信息增益比例取值越大，其蕴含不确定信息越多，越有利于分类，起作用就越大，其权值越大。
设样本：X {x1, x2, x3 xN } 属性集合：A {A1, A2, A3 Aq}
2、全局优化法聚类
考虑进化操作的创新，隐含假定性训练数据和测试数据的个维特征属性对聚类贡献对相同
3、流行算法中的流行距离测度方法和遗传算法相结合
2. K-means聚类方法的简单分析
3、流行算法中的流行距离测度方法和遗传算法相结合
其中流行距离测的方法和遗传算法适用于分不复杂的非欧式几何空间数据，对于欧氏距离算法复杂度高，算法通用性不强
K-means聚类分析优化与探究
主要内容
1. 引言 2. K-means聚类方法的简单分析 3. 相关改进方法 4. 主要解决方法 5. 部分算法的实现
1. 引言
信息化步伐的加快随之出现的海量数据，而面对海量数据的处理是一个挑战。怎么样快速挖掘出数据里的信息，则是一个挑战。
生活
2. K-means聚类方法的简单分析
➢ K-means聚类算法缺点 a）需要用户指定聚类的类核数目 b）随即选择初始数据 c）对“噪音”和“孤立1 点”的敏感 d）对球状效果较好
0.5
0
-0.5
2. K-means聚类方法的简单分析
➢ 聚类算法的有关改进 1、模拟退火和聚类算法相结合
参数多，对参数选择难
Begin //k-means预聚类过程
Center = samplingcenter （D，k）
Preculster = K-means（D， center）
SimilarityGraph = BuildS implGraph(precluster，f）
For（i=1；i<C;i++) begin
设 Ai (1 i q) 具有V 个取值，则可以用属性 Ai 将样本划分V个子集 {X1, X 2, X3 XV } ,设分类属性
具有m个不同值，根据样本集合划分m 个子集
{C1, C2 , C3 Cm}
设为子集中属于类样本数量，基于信息增益比例的属性加权计算步骤如下：
a) 连续属性离散化； b) 处理含有未知属性值训练样本 c) 计算样本分类期望
kK
预聚类结果包含 k 高斯分布量基于 k 个高斯分布量，算法计算不同子簇
间相似性，并构造连通图，然后利用社团挖掘算法进行社团划分。
4.1KBAC算法描述
KBAC算法描述： Input： K估计聚类数上限 R初始放大核倍数
覆盖率下限阀值
fl概率变换函数
Var：
Cluster:precluster