8.利用Matlab和SPSS软件实现聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§8.利用Matlab和SPSS软件实现聚类分析
1. 用Matlab编程实现
运用Matlab中的一些基本矩阵计算方法,通过自己编程实现聚类算法,在此只讨论根据最短距离规则聚类的方法。
调用函数:
min1.m——求矩阵最小值,返回最小值所在行和列以及值的大小
min2.m——比较两数大小,返回较小值
std1.m——用极差标准化法标准化矩阵
ds1.m——用绝对值距离法求距离矩阵
cluster.m——应用最短距离聚类法进行聚类分析
print1.m——调用各子函数,显示聚类结果
聚类分析算法
假设距离矩阵为vector,a阶,矩阵中最大值为max,令矩阵上三角元素等于max
聚类次数=a-1,以下步骤作a-1次循环:
求改变后矩阵的阶数,计作c
求矩阵最小值,返回最小值所在行e和列f以及值的大小g
for l=1:c,为vector(c+1,l)赋值,产生新类
令第c+1列元素,第e行和第f行所有元素为,第e列和第f列所有元素为max
源程序如下:
%std1.m,用极差标准化法标准化矩阵
function std=std1(vector)
max=max(vector); %对列求最大值
min=min(vector);
[a,b]=size(vector); %矩阵大小,a为行数,b为列数
for i=1:a
for j=1:b
std(i,j)= (vector(i,j)-min(j))/(max(j)-min(j));
end
end
%ds1.m,用绝对值法求距离
function d=ds1(vector);
[a,b]=size(vector);
d=zeros(a);
for i=1:a
for j=1:a
for k=1:b
d(i,j)=d(i,j)+abs(vector(i,k)-vector(j,k));
end
end
end
fprintf('绝对值距离矩阵如下:\n');
disp(d)
%min1.m,求矩阵中最小值,并返回行列数及其值
function [v1,v2,v3]=min1(vector);%v1为行数,v2为列数,v3为其值
[v,v2]=min(min(vector'));
[v,v1]=min(min(vector));
v3=min(min(vector));
%min2.m,比较两数大小,返回较小的值
function v1=min(v2,v3);
if v2>v3
v1=v3;
else
v1=v2;
end
%cluster.m,最短距离聚类法
function result=cluster(vector);
[a,b]=size(vector);
max=max(max(vector));
for i=1:a
for j=i:b
vector(i,j)=max;
end
end;
for k=1:(b-1)
[c,d]=size(vector);
fprintf('第%g次聚类:\n',k);
[e,f,g]=min1(vector);
fprintf('最小值=%g,将第%g区和第%g区并为一类,记作G%g\n\n',g,e,f,c+1);
for l=1:c
if l<=min2(e,f)
vector(c+1,l)=min2(vector(e,l),vector(f,l));
else
vector(c+1,l)=min2(vector(l,e),vector(l,f));
end
end;
vector(1:c+1,c+1)=max;
vector(1:c+1,e)=max;
vector(1:c+1,f)=max;
vector(e,1:c+1)=max;
vector(f,1:c+1)=max;
end
%print1,调用各子函数
function print=print1(filename,a,b); %a为地区个数,b为指标数
fid=fopen(filename,'r')
vector=fscanf(fid,'%g',[a b]);
fprintf('标准化结果如下:\n')
v1=std1(vector)
v2=ds1(v1);
cluster(v2);
%输出结果
print1('fname',9,7)
2.直接调用Matlab函数实现
2.1调用函数
层次聚类法(Hierarchical Clustering)的计算步骤:
①计算n个样本两两间的距离{d ij},记D
②构造n个类,每个类只包含一个样本;
③合并距离最近的两类为一新类;
④计算新类与当前各类的距离;若类的个数等于1,转到5);否则回3);
⑤画聚类图;
⑥决定类的个数和类;
Matlab软件对系统聚类法的实现(调用函数说明):
cluster 从连接输出(linkage)中创建聚类
clusterdata 从数据集合(x)中创建聚类
dendrogram 画系统树状图
linkage 连接数据集中的目标为二元群的层次树
pdist计算数据集合中两两元素间的距离(向量) squareform 将距离的输出向量形式定格为矩阵形式zscore 对数据矩阵X 进行标准化处理
各种命令解释