聚类分析报告(快速聚类和变量聚类) 上机指导

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验六聚类分析

——动态聚类和变量聚类

二、动态聚类法——FASTCLUS过程

动态聚类又称为逐步聚类，基本思想是，开始先粗略地分一下类（先选一批凝聚点，让样品向最近的凝聚点聚集，就得到初始分类），然后按照某种最优的原则修改不合理的分类，直到分得比较合理为止。

FASTCLUS过程的一般格式：

语句说明：

PROC FASTCLUS 语句用来开始FASTCLUS过程，必须规定说明项MAXCLUSTER= 或RADIUS= 中的一个。

说明项和常用选项：

（1）MAXCLUSTER=n|MAXC=n :指定所允许的最大分类数，缺省为100.

（2）RADIUS=t :为选择新的“凝聚点”指定的最小距离

准则。当一个观测点与已有“凝聚点”的最小距离

均大于由该选项规定的值t时，该观测可考虑用来作

为新的“凝聚点”。t的缺省值为0.

（3）DATA=SAS-data-set：给出进行聚类的观测数据集的名字。

（4）OUT= SAS-data-set:聚类结果保存都新的数据集中，包含VAR中变量，及新变量cluster和distance（观

测与所属类间的距离）。

（5）CLUSTER=name：规定在输出的数据集中用以指示观测属于哪一类的变量名字。缺省为CLUSTER.

（6）DRIFT：执行逐个修改法

（7）MAXITER=n：指定重新计算类的凝聚点的最大迭代次数。当n>0时，执行按批修改法。缺省为1.

（8）DISTANCE：要求输出类均值之间的距离

（9）LIST：要求列出所有观测所归入类的类号及观测同最终凝聚点之间的距离。

注意事项：

应用举例：

例2：试用FASTCLUS过程对16个地区农民生活水平的调查数

据(数据集d641)进行分类。

SAS程序：

proc fastclus data=d641 out=out653 maxc=4list;

var x1-x6;id group;

run;

maxc=4：规定最大分类个数为4类

list：要求列出分类结果。

out=out653：指定生成名为out653的输出数据集，包含VAR中的变量，新变量cluster和新变量distance（观测与所属类中心的距离）。

主要输出结果：

动态聚类的初始凝聚点（数据不标准化）

动态聚类的分类结果（数据不标准化）

第一类：、

第二类：

第三类：、、、、

第四类：蒙、、、、、、

动态聚类产生的各类均值和标准差（数据不标准化）

以下SAS程序首先调用STANDARD过程对数据作标准化变化，然后用标准化变换后的数据进行动态聚类分析。

Proc standard data=d641 mean=0 std=1 out=sta653; Var x1-x6;

/*将数据集d641中的变量x1-x6标准化，输出到数据集

sta653中*/

Proc fastclus data=sta653 out=out654 maxc=4 list; Var x1-x6;id group;

Run;

主要输出结果：

动态聚类的初始凝聚点（数据标准化）

动态聚类的分类结果（数据标准化）

第一类：第二类：

第三类:、、蒙、、

第四类：、、、、、、、、

三、变量聚类——VARCLUS过程VARCLUS过程的一般格式：

PROC VARCLUS语句及选项：

数据集选项：

（1）DATA=SAS-data-set：指定要分析的数据集，数据集可以是通常的SAS数据集或是

TYPE=CORR,UCORR（矫正过的相关系数矩

阵）,COV,UCOV等的数据集。

（2）OUTSTAT=SAS-data-ste：生成一个输出数据集，包含均值、标准差、相关系数、类得分系数和类的

结构。

（3）OUTTREE=SAS-data-set：生成输出数据集，包含有聚类过程的树状结构信息，可用TREE过程画树状

图。

确定分类个数的选项：

（1）MAXCLUSTERS=n|MAXC=n：规定所要求的最大分类个数，缺省为变量个数。

（2）MINCLUSTERS=n|MINC=n：规定所要求的最小分类

个数，缺省从一个类开始试着按照选项

PROPORTION=或者MAXEIGEN=进行分裂分类（3）MAXEIGEN=n:规定每一类第二特征值所允许的最大值，缺省，若没有规定选项PROPORTION=或

MAXC=，且输入数据集为相关阵时，缺省值为1；若

输入数据集为协方差阵时，缺省值为变量方差的均

值。该选项不能与CENTROID同时使用

（4）PROPORTION=n|PERCENT=n：规定类分量必须解释的方差比例或百分比。若指定选项CENTROID，

缺省为0.75，否则为0

聚类方式选项：

(1)CENTROID：使用重心分量而不是主分量，缺省为主分

量法

(2)MAXITER=n:规定最大迭代次数，若规定了

CENTROID，缺省为1，否则，缺省为10

控制输出的选项：

（1）CORR|C：只输出相关阵

（2）NOPRINT：不要求打印输出

（3）SHORT:不打印类结构，得分系数和类间相关阵（4）SIMPLE|S：打印均值和标准差

（5）SUMMARY:只打印最后的汇总表

（6）TRACE：列出在迭代过程中每个变量所归入的类。