【sas代码模板】聚类分析_cluster
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【sas代码模板】聚类分析_cluster
(1)聚类分析简易代码
——————————————模板————————————————
proc cluster data=() method=聚类方法std outtree=() pseudo simple;
id 识别变量;
var 要聚类的变量;
run;
——————————————模板————————————————
Method=指定聚类的方法,常用方法如下:
●AVERAGE或AVE:类平均法,距离为平方距离,除非规定NOSQUARE。
●CENTROD或CEN:距离为平方距离,除非规定NOSQUARE。
●COMPLETE或COM:最长距离法
●EML:最大似然谱系聚类
●SINGLE或SIN:最短距离法。
●WARD或WAR:WARD最小方差法。
●MEDIAN|MED:中间距离法
●FLEXIBLE|FLE:可变距离法
Std是将数据标准化。
outtree=生成记录聚类过程的输出数据集,此数据集将在画谱系图的时候用到,如果缺省,默认用Data1、Data2、Data3…..来命名。
Pseudo输出F统计量和伪T2统计量,当method=指定是ave、cen和ward时才有效。Simple输出每个变量的描述性统计量。
Id用于指定识别变量,缺省则用obn。
Var指定要聚类的变量,缺省时,则默认为其他语句中没出现过的其他变量。
(2)画出谱系图代码模板
————————————————模板———————————————————
proc tree data=聚类过程的输出数据集n=类的个数out=() horizontal graphics;
id province;
run;
————————————————模板———————————————————Data=指定的输入数据集,是聚类cluster过程的输出数据集。
n=与out=联合使用,n=给出类的个数,每个观测值属于哪类就会储存在out中。有out=语句必须有n=语句,可以两者都不要。
Horizontal=指定绘制水平的聚类图,缺省则默认水平聚类图。
Graphics=指定一个高分辨率的图,如果缺省则默认低分辨率的图。
(3)简例
如下数据进行聚类分析:
代码为:
/*聚类分析*/
proc cluster data=a method=ward std outtree=eco1 pseudo; id province;
run;
/*谱系图*/
proc tree data=eco1 n=4 out=out1 horizontal graphics;
id province;
run;