聚类分析报告(快速聚类和变量聚类) 上机指导
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验六聚类分析
——动态聚类和变量聚类
二、动态聚类法——FASTCLUS过程
动态聚类又称为逐步聚类,基本思想是,开始先粗略地分一下类(先选一批凝聚点,让样品向最近的凝聚点聚集,就得到初始分类),然后按照某种最优的原则修改不合理的分类,直到分得比较合理为止。
FASTCLUS过程的一般格式:
语句说明:
PROC FASTCLUS 语句用来开始FASTCLUS过程,必须规定说明项MAXCLUSTER= 或RADIUS= 中的一个。
说明项和常用选项:
(1)MAXCLUSTER=n|MAXC=n :指定所允许的最大分类数,缺省为100.
(2)RADIUS=t :为选择新的“凝聚点”指定的最小距离
准则。当一个观测点与已有“凝聚点”的最小距离
均大于由该选项规定的值t时,该观测可考虑用来作
为新的“凝聚点”。t的缺省值为0.
(3)DATA=SAS-data-set:给出进行聚类的观测数据集的名字。
(4)OUT= SAS-data-set:聚类结果保存都新的数据集中,包含VAR中变量,及新变量cluster和distance(观
测与所属类间的距离)。
(5)CLUSTER=name:规定在输出的数据集中用以指示观测属于哪一类的变量名字。缺省为CLUSTER.
(6)DRIFT:执行逐个修改法
(7)MAXITER=n:指定重新计算类的凝聚点的最大迭代次数。当n>0时,执行按批修改法。缺省为1.
(8)DISTANCE:要求输出类均值之间的距离
(9)LIST:要求列出所有观测所归入类的类号及观测同最终凝聚点之间的距离。
注意事项:
应用举例:
例2:试用FASTCLUS过程对16个地区农民生活水平的调查数
据(数据集d641)进行分类。
SAS程序:
proc fastclus data=d641 out=out653 maxc=4list;
var x1-x6;id group;
run;
maxc=4:规定最大分类个数为4类
list:要求列出分类结果。
out=out653:指定生成名为out653的输出数据集,包含VAR中的变量,新变量cluster和新变量distance(观测与所属类中心的距离)。
主要输出结果:
动态聚类的初始凝聚点(数据不标准化)
动态聚类的分类结果(数据不标准化)
第一类:、
第二类:
第三类:、、、、
第四类:蒙、、、、、、
动态聚类产生的各类均值和标准差(数据不标准化)
以下SAS程序首先调用STANDARD过程对数据作标准化变化,然后用标准化变换后的数据进行动态聚类分析。
Proc standard data=d641 mean=0 std=1 out=sta653; Var x1-x6;
/*将数据集d641中的变量x1-x6标准化,输出到数据集
sta653中*/
Proc fastclus data=sta653 out=out654 maxc=4 list; Var x1-x6;id group;
Run;
主要输出结果:
动态聚类的初始凝聚点(数据标准化)
动态聚类的分类结果(数据标准化)
第一类:第二类:
第三类:、、蒙、、
第四类:、、、、、、、、
三、变量聚类——VARCLUS过程VARCLUS过程的一般格式:
PROC VARCLUS语句及选项:
数据集选项:
(1)DATA=SAS-data-set:指定要分析的数据集,数据集可以是通常的SAS数据集或是
TYPE=CORR,UCORR(矫正过的相关系数矩
阵),COV,UCOV等的数据集。
(2)OUTSTAT=SAS-data-ste:生成一个输出数据集,包含均值、标准差、相关系数、类得分系数和类的
结构。
(3)OUTTREE=SAS-data-set:生成输出数据集,包含有聚类过程的树状结构信息,可用TREE过程画树状
图。
确定分类个数的选项:
(1)MAXCLUSTERS=n|MAXC=n:规定所要求的最大分类个数,缺省为变量个数。
(2)MINCLUSTERS=n|MINC=n:规定所要求的最小分类
个数,缺省从一个类开始试着按照选项
PROPORTION=或者MAXEIGEN=进行分裂分类(3)MAXEIGEN=n:规定每一类第二特征值所允许的最大值,缺省,若没有规定选项PROPORTION=或
MAXC=,且输入数据集为相关阵时,缺省值为1;若
输入数据集为协方差阵时,缺省值为变量方差的均
值。该选项不能与CENTROID同时使用
(4)PROPORTION=n|PERCENT=n:规定类分量必须解释的方差比例或百分比。若指定选项CENTROID,
缺省为0.75,否则为0
聚类方式选项:
(1)CENTROID:使用重心分量而不是主分量,缺省为主分
量法
(2)MAXITER=n:规定最大迭代次数,若规定了
CENTROID,缺省为1,否则,缺省为10
控制输出的选项:
(1)CORR|C:只输出相关阵
(2)NOPRINT:不要求打印输出
(3)SHORT:不打印类结构,得分系数和类间相关阵(4)SIMPLE|S:打印均值和标准差
(5)SUMMARY:只打印最后的汇总表
(6)TRACE:列出在迭代过程中每个变量所归入的类。