聚类分析在SAS中的实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Q型聚类分析法
对样本进行分类,是具有 共同特点的样本聚在一起,以便对不同类的 样本进行分析。
作用
① 综合利用多个变量对样品进行分类; ② 分类结果直观,聚类谱系图清晰; ③ 聚类结果细致、全面、合理。
R型聚类分析法 作用
对变量进行的分类处理。
① 了解变量之间,以及变量组合之间的亲 疏程度; ② 根据变量分类的结果,可以选择最佳的 变量组合进行回归分析或者Q型聚类分析。 选择最佳变量,即在聚合的每类变量中选出 一个具有代表性的变量作为典型变量。
树形图
例题2

假如我们要对游泳运动员进行分项训练,对10名运动员的三项测试数据 记录如下。其中变量xl=肩宽/髋宽×100;x2=胸厚/胸围×100;x3 =腿长/身长×100。按泳姿(蝶泳、仰泳、蛙泳、自由泳)对运动员 进行聚类。
No. x1 x2 x3 1 125 20 44 2 121 18 43 3 120 17 42 4 124 20 45 5 122 18 43 6 120 19 44 7 121 17 41 8 122 19 43 9 122 17 42 10 121 19 45
聚类分析的统计量
Q型聚类的统计量 常用的距离有:
对样品进行分类时,通 常采用距离来表示样品之间的亲疏程度。
(1)明氏距离(明科夫斯基Minkowski) (2)兰氏距离(Lance和Williams) (3)马氏距离(Mahalanobis) (4)斜交空间距离
R型聚类的统计量
对变量进行聚分类析 时,通常采用相似系数来表示变量之间的 亲疏程度。
【SAS程序】 proc fastclus data=sasuser.athlete maxc=4 list Outtree=tree; var x1-x3; proc print data=tree; run;
ACECLUS语句格式

ACECLUS 过程假设各类别为多元正态分布且协方差阵相等, 多用于 对大型数据聚类分析的预分析。



ACECLUS 过程的语句格式: PROC ACECLUS PROPOTION=p|THRESHOLD=t<options>; BY variables; FREQ variable; VAR variables; WEIGHT variable; RUN;
VARCLUS语句格式
聚类分析
主要内容
一、概述 二、聚类分析的主要方法
三、聚类分析的统计量
四、SAS解决方案
概述
定义
聚类分析是根据“物以类聚”的道 理,对样品或指标进行分类的一种多元 统计分析方法,它们讨论的对象是大量 的样品,要求能合理地按各自的特性来 进行合理的分类,没有任何模式可供参 考或依循,即是在没有先验知识的情况 下进行的。
聚类分析主要方法
按照聚类分析分组依据的原则不同分组
ü系统聚类分析法 ü动态聚类分析法 ü模糊聚类法 ü图论聚类法 ü聚类预报法
按照聚类分析的对象不同分组
üQ型聚类分析法 üR型聚类分析法
系统聚类分析法
在样品距离的基础上定义 类与类的距离,首先将各个样品自成一类, 然后每次将具有最小距离的两个类合并,合 并后再重新计算类与类之间的距离,再并类, 这个过程一直持续到所有的样品都归为一类 为止。这种聚类方法称为系统聚类法。根据 并类过程所做的样品聚类过程图称为聚类谱 系图。
利用图论中最小支撑树(MST) 的概念来处理分类问题,是一种独具风格的 方法。 利用聚类方法处理预报问题, 主要是处理一些异常数据,如气象中的灾害 性天气的预报,这些异常数据采用回归分析 或判别分析处理的效果不好,而聚类预报可 以弥补回归分析及判别分析方法之不足,是 一个很值得重视的方法。
聚类预报法

举例
对上市公司的经营业绩进行分类; 据经济信息和市场行情,客观地对不同 商品、不同用户及时地进行分类。又例 如当我们对企业的经济效益进行评价时, 建立了一个由多个指标组成的指标体系, 由于信息的重叠,一些指标之间存在很 强的相关性,所以需要将相似的指标聚 为一类,从而达到简化指标体系的目的。
基本思想
是根据一批样品的多个观测指 标,具体地找出一些能够度量样品或指 标之间相似程度的统计量,然后利用统 计量将样品或指标进行归类。 具体进行聚类时,由于目的、要求不同, 因而产生各种不同的聚类方法:
基本程序
由小类合并到大类的方法 由大类分解为小类的方法 静态聚类法、动态聚类法 按样本聚类(Q)、按指标聚类(R)
例题2
例题1

数据集drink收集了16种饮料的热量、咖啡因、钠及价格四 种变量的值。现在希望利用这四个变量对这些饮料品牌进行 聚类。
例题1
【SAS程序】
proc cluster data=sasuser.drink method=ward; var calorie caffeine sodium price; proc tree; run;
动态聚类分析法
将个样品初步分类,然后 根据分类函数尽可能小的原则,对初步分类 进行调整优化,直到分类合理为止。这种分 类方法一般称为动态聚类法,也称为调优法。 利用模糊数学中模糊集理 论来处理分类问题,它对经济领域中具有模 糊特征的两态数据或多态数据具有明显的分 类效果。
模糊聚类分析法
图论聚类法

例:100个学生的数学、物理、化学、语文、 历史、英语的成绩如下表(部分)。
math 65 77 67 80 74 78 66 77 83 phys 61 77 63 69 70 84 71 71 100 chem 72 76 49 75 80 75 67 57 79 literat 84 64 65 74 84 62 52 72 41 history 81 70 67 74 81 71 65 86 67 english 79 55 57 63 74 64 57 71 50
【SAS程序】 Proc Varclus DATA=sasuser.kejian Outtree=tree1; var math phys chem literat history english; Proc Tree data=tree1; Run;

wenku.baidu.com
THANK
YOU!
常用的相似系数有:
(1)夹角余弦 (2)相关系数 (3)指数相似系数 (4)非参数方法
SAS解决方案
CLUSTER 过程
FASTCLUS 过程
ACECLUS 过程
VARCLUS 过程
TREE语句格式
CLUSTER语句格式
数据若为原始数值形式,CLUSTER过程以欧 式距离为默认的距离计算方法。

对变量作谱系聚类或分离聚类,即R聚类。 PROC VARCLUS <options>; VAR variables; SEED variables; PARTIAL variables; WEIGHT variables; FREQ variables; BY variables; RUN;
FASTCLUS语句格式
研研究事先知道类别的个数,但不知道这些类别当中的 具体样本,这时采用快速聚类方法。默认情况下, fastclus过程以欧式距离作为分类的判断标准。
PROC FASTCLUS MAXCLUSTERS=n|RADIUS=t<options>; VAR variables; ID variable; FREQ variable; WEIGHT variable; BY variables; RUN;
TREE语句格式



TREE 过程将cluster过程和varclus过程输出的特定数据集作 为输入数据集,绘制出详细的用于描述整个聚类过程的树状 图。 PROC TREE <options>; NAME variables; HEIGHT variables; PARENT variables; BY variables; COPY variables; FREQ variable; ID variable; RUN
PROC CLUSTER METHOD=name<options>; BY variables; COPY variable; ID variable; RMSSTD variable; VAR variables; RUN;
例题1

在CLUSTER语句的“METHOD= ”关键字下,可以 指定11种系统聚类方法。 AVERAGE:类平均法 CENTROID:重心法 COMPLETE:最长距离法 DENSITY:密度估计法 EML:最大似然谱系聚类 FLEXIBLE:可变类平均法 MCQUITTY:可变法及McQuitty相似分析法 MEDIAN:中间距离法 SINGLE:最短距离法 TWOSTAGE:两阶段密度估计法 WARD:离差平方和法
样本(或变量)间存在着相似性, 根据多个观测指标,找出能度量样本之间相 似程度的统计量,以其为依据,把相似程度 较大的样本聚合为一类,关系密切的聚合到 一个小的分类单位,关系疏远的聚合到一个 大的分类单位,直到把所有的样本都聚合完 毕,把不同的类型一一划分出来,形成一个 由小到大的分类系统。 聚类原则是同一类中的个体有较大的相似 性,不同类中的个体差异很大。
相关文档
最新文档