第11章 聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第11章聚类分析

摘要:聚类分析(cluster analysis)是物以类聚的一种统计分析方法。用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。

§11.1 聚类分析概述

聚类分析是用于对个体进行分类的方法。根据分析对象的不同可将其分为样品聚类和变量聚类。

1.样品聚类

俗话说:“物以类聚,人以群分”,对研究对象可根据不同的特征进行分类。这里所说的特征就是反映研究对象特点的各种变量的值。用SAS中的术语来说,样品聚类就是对观测值进行分类。样品聚类是进行判别分析之前的必要工作。根据样品聚类的结果进行判别分析,得出判别函数.进而可对其他研究对象属于何类作出判断。

2.变量聚类

一般来说,可以反映研究对象特点的变量有许多,而且由于对客观事物的认识有限,往往难以找出彼此独立且有代表性的变量,而影响对问题进一步的认识和研究。例如在回归分析中,由于自变量间的共线性而导致偏回归系数不能真正反映自变量对因变量的影响,等等。因此往往需要先进行变量聚类,找出相互独立的、有代表性的自变量,而又不丢失大部分信息。

无论哪种聚类分析所得出的结果都是为了某种目的所做的工作,并不是去寻找自然真实的类。

聚类方法大致可归纳如下:

①系统聚类法:先将n个元素(样品或变量)看成n类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到n-1类,再从中找出最接近的2类加以合并变成了n-2类,如此下去,最后所有的元素全聚在一类之中。

②分解法:其程序与系统聚类相反,首先所有的元素均在一类,然后用某种最优准则将它分成2类,再用同样准则将这2类各自试图分裂为2类,从中选1个使目标函数较好者,这样由2类变成了3类。如此下去,一直分裂到每类中只有1个元素为止,有时即使是同一种聚类方法,因聚类形式(即距离的定义方法)不同而有不同的停止规则。

③动态聚类法:开始将n个元素粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整时为止。

④有序样品的聚类:n个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。

其他还有加入法、有重叠的类、模糊聚类等。

聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。常用的描述亲疏关系(程度)有相似系数法和距离系数法。

1.相似系数法:即性质越接近的样品它们之间的相似系数越接近1(或-1),而彼此无关的样品,它们之间的相似系数接近0,在聚类处理时,比较相似的样品归为一类,不怎么相似的归为不同类。常用的相似系数有相关系数、夹角余弦、指数相似系数,非参数方法等。相似系数一般用于对变量分类。

2.距离系数法:它是将样品看作m维空间(m个变量)的一个点,在m维空间中,定义距离,距离较近的点归为一类,距离较远的点归为不同的类。距离的定义很多,如极端距离、明考斯基距离、欧氏距离、切比雪夫距离等。距离系数一般用于对样品进行分类。

SAS/STAT提供了4个聚类过程:

①CLUSTER过程:对样本观测数据或样本间距离阵进行系统聚类,是应用最多的一个聚类过程,系统提供11种聚类方法,当观察值数目大多时不宜直接采用。

②FASTCLUS过程:对样本观测数据,用K-MEANS法进行动态聚类。适用于大样本分析,观察值可多达10万个。

③V ARCLUS过程:通过斜交多组分量分析对变量进行系统聚类或动态聚类。

④TREE过程:利用CLUSTER或V ARCLUS过程建立的数据集,将聚类结果画成树状结构图或谱系图,不是一个独立的聚类过程。

§11.2 系统聚类分析过程CLUSTER

一、过程格式

PROC CLUSTER METHOD=聚类算法选择项;

V AR 变量表;

ID 变量;

COPY 变量表;

FREQ 变量;

BY 变量表;

RMSSTD 变量;

这7个语句中PROC CLUSTER语句是必须的,V AR语句是常用的。

二、语句说明:

1.PROC CLUSTER语句

语句功能:调用CLUSTER过程,对指定的数据集合(或缺省的数据集)用指定的聚类方法进行聚类分分析。并按其它选择项的要求计算、列出有关的统计量。

语句中“MEIHOD或M=聚类算法”是必须指定的,用来指明聚类的方法。有下列

其他常用的选择项有:

DA TA=数据集指定输入数据集,如果省略,隐含地使用最新建立的数据集。如果输入的数据集是距离矩阵,应当指明TYPE=DISTANCE,并且下三角不允许有缺省值,而上三角可以缺省。

OUITREE=数据集建立一个输出数据集,供TREE过程调用。如果省略此选择项,则按惯例命名为DA TAn;如果指定OUITREE=_NULL_,则抑制输出数据集的建立。

PRINT或P=n 指定要打印的聚类过程中的代数。隐含为打印所有代数,若P =0则抑制聚类过程的打印。

NOPRINT 抑制结果输出,但仍建立供TREE过程调用的输出数据集。

聚类之前对数据进行预处理的选择项:

STANDARD或STD 对原始数据标准化。

SIMPLE或S 输出简单统计数,如均值、标准差、偏度,峰度、双峰系数。

NOEIGEN 不输出样本相关矩阵(或样本协方差矩阵)的特征值。

NONORM 防止将距离正态化,如不选此项,则距离被标准化为单位均值或单位均方根值。

NOSOUARE 当M=A VERAGE,CENTROID,MEDIAN,W AND时,距离不被平方。

BETA=参数为M=FLEXIBLE指定β参数值,默认值为β=-0.25。

控制密度估计的选则有:

DIM=n 指定计算密度估计时使用的维数。数据是原始数据时缺省值是变量个数,对距离数据,缺省值是1。

对于要进行密度估计分析的METHOD=DEN、TWO,必需指定选择项K=n 或R=n。

K=n 指定用于第K最近邻密度估计的近邻的个数,K值必须大于或等于2并小于观测个数。

R=n 指定进行一致核密度估计的圆半径。

控制屏幕输出的选择项有:

RMSSTD 输出每一类中的标准差均方根。

RSOUARE 输出R2及偏R2。

CCC 输出聚类判别据的立方及一致无效假设下的R2期望值。

PSEUDO 输出伪F值及t2值。

2.PROC CLUSTER过程其他常用语句

V AL语句指定进行聚类分析所用的数值变量,如果省略此语句,则隐含为没有在其他语句中出现的数据集中的所有数值变量。

ID语句指定用来标记观察值的变量,在聚类过程的打印中和在OUTTREE数据集中用此变量标记观察值。如果省略此句,则每个观察值由OBSn的形式标记,其中n为观察值序号。

COPY语句要求将COPY语句中的变量复制到OUTTREE数据集中。

RMSSTD语句定义表示均方根标准差的变量。

BY语句要求对于由BY变量表所定义的观察值分组处理。

三、输出说明

基本的输出项

(1)Mean 均值。

(2)Std Dev标准差

(3)Skewness 偏度

(4)Kurtosis 峰度

(5)Bimodality 双峰度系数:b=(偏度+1)/(峰度+3)。

如果是原始数据,没有指定NOEIGEN选择项,则列出:

(6)Eigenvalues of the Correlaion Matix或Covariance Matix 相关矩阵的特征值或协方差矩阵。

(7)Difference 两邻近特征值之差。

(8)Proportion 方差贡献率。

(9)Cumulative 累积方差贡献率。

相关文档
最新文档