聚类算法分析报告汇总
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
嵌入式方向工程设计实验报告
学院班级:130712
学生学号:13071219
学生姓名:杨阳
同作者:无
实验日期:2010年12月
聚类算法分析研究
1 实验环境以及所用到的主要软件
Windows Vista NetBeans6.5.1 Weka3.6
MATLAB R2009a
2 实验内容描述
聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习” 过程,它倾向于数据的自然划分。其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。本文中对近年来聚类算法的研究现状与新进展进行归纳总结。一方面对近年来提出的较有代表性的聚类算法,从算法思想。关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析。最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题等。
实验中主要选择了K 均值聚类算法、FCM 模糊聚类算法并以UCI Machine Learning Repository 网站下载的IRIS 和WINE 数据集为基础通过MATLAB 实现对上述算法的实验测试。然后以WINE 数据集在学习了解Weka 软件接口方面的基础后作聚类分析,使用最常见的K 均值(即K-means )聚类算法和FCM 模糊聚类算法。下面简单描述一下K 均值聚类的步骤。
K 均值算法首先随机的指定K 个类中心。然后:
(1)将每个实例分配到距它最近的类中心,得到K 个类;
(2)计分别计算各类中所有实例的均值,把它们作为各类新的类中心。 重复(1)和(2),直到K 个类中心的位置都固定,类的分配也固定。 在实验过程中通过利用Weka 软件中提供的simpleKmeans (也就是K 均值聚类算法对WINE 数据集进行聚类分析,更深刻的理解k 均值算法,并通过对实验结果进行观察分析,找出实验中所存在的问题。然后再在学习了解Weka 软件接口方面的基础上对Weka 软件进行一定的扩展以加入新的聚类算法来实现基于Weka 平台的聚类分析。
3 实验过程
3.1
K 均值聚类算法
3.1.1 K 均值聚类算法理论
K 均值算法是一种硬划分方法,简单流行但其也存在一些问题诸如其划分结果并不一定完全可信。K 均值算法的划分理论基础是
2
1
min i
c
k i
k A i x v ∈=-∑∑ (1)
其中c 是划分的聚类数,i A 是已经属于第i 类的数据集i v 是相应的点到第i 类的平均距离,即
1
,i N k
k i k i i
x v x A N ==
∈∑
(2)
其中i N 表示在数据集i A 中的对象数。 3.1.2 算法的基本过程
1:step 任意选择K 个对象作为初始的类的中心; 2:step repeat ;
3:step 根据类中的平均值,将每个数据点 (重新)赋给最相近的类; 4:step 更新
类的平均值;
5:step until 不再发生变化,即没有对象进行被重新分配时过程结束。
3.1.3 算法代码分析
K 均值聚类算法的代码分析过程如下
首先调用clust_normalize ()函数将数据集标准化具体过程如下 data=clust_normalize(data,'range'); 下面是对K 均值算法的初始化 if max(size(param.c))==1, c = param.c;
index=randperm(N);
v=X(index(1:c),:);v = v + 1e-10;
v0=X(index(1:c)+1,:);v0 = v0 - 1e-10; else
v = param.c; c = size(param.c,1); index=randperm(N);
v0=X(index(1:c)+1,:);v0 = v0 + 1e-10; end iter = 0;
接着是迭代求解直到满足要求的解或者达到最大的迭代值 while prod(max(abs(v - v0))), iter = iter +1; v0 = v;
for i = 1:c
这里是用来计算欧氏距离
dist(:,i) = sum([(X - repmat(v(i,:),N,1)).^2],2); end
下面将分类结果赋值
[m,label] = min(dist');
distout=sqrt(dist);
下面计算分类中心
for i = 1:c
index=find(label == i);
if ~isempty(index)
v(i,:) = mean(X(index,:));
else
ind=round(rand*N-1);
v(i,:)=X(ind,:);
end
f0(index,i)=1;
end
J(iter) = sum(sum(f0.*dist));
if param.vis
clf
hold on
plot(v(:,1),v(:,2),'ro')
colors={'r.' 'gx' 'b+' 'ys' 'md' 'cv' 'k.' 'r*' 'g*' 'b*' 'y*' 'm*' 'c*' 'k*' };
for i=1:c
index = find(label == i);
if ~isempty(index)
dat=X(index,:);
plot(dat(:,1),dat(:,2),colors{i})
end
end
hold off
pause(0.1)
end
end
保存求解结果
result.cluster.v = v;
result.data.d = distout;
计算划分矩阵
f0=zeros(N,c);
for i=1:c
index=find(label == i);
f0(index,i)=1;
end
result.data.f=f0;
result.iter = iter;
result.cost = J;
3.1.4实验配置
实验过程配置比较简单只需按照如下介绍即可。
将路径修改为MATLAB工具箱的相应路径在次是