第十五章 聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
类与类之间距离定义为两类的重心 之间的距离。
类 与 类 间 距 离 定 义 方 法
定义类与类之间距离方法示意图:
B2 B1 A2 * A1 * *
*
B3 *
A类
B类
类与 类间 距离 定义 方法
中间距离法(median method) 可变类平均法(flexible-beta method) 、 Mcquitty的相似分析法 (Mcquitty's similarity analysis) Ward离差平方和法(Ward's minimum-variance method) 、 最大似然估计法(EML)、 密度估计(density linkage) 两阶段密度估计法(two-stage density linkage)
快 速 聚 类 法 原 理
初始凝聚点可以人为地凭经验选 择,以这些初始凝聚点建立一个数 据文件, 在FASTCLUS 的SEED= 选择项 中输入该数据文件即可。 初始凝聚点也可由FASTCLUS过程 自动选择。如果由过程自动选择初 始 凝 聚 点 则 需 在 选 择 项 MAXCLUSTERS=k(或MAXC=k)中给出所 允许分类的最大个数,选用不同的k 值可得到不同的聚类结果,根据专 业知识和实际应用的需要,从中选 择较合理的分类结果。
指 标 分 割 聚 类 法 原 理
分割停止准则可为: (1) 已达到了用户指明的所期望分类 的最大个数。可用MAXC=变量数。 (2)每类类成份所能解释的方差所占 比例都大于某指定值。 (3)每类第二特征根均小于某指定值。 第(2)和(3)意味着每个类别内各指标 间的关系都很密切,不需要再进一步分 割。 PROC VARCLUS有很多选择项,但用 缺省值通常就能够得出很好的结果,因 而在一般情况下均使用缺省说明。
系 统 聚 类 法
整个聚类过程可作成聚类图 或树状谱(tree diagram),按树 状谱作出适当的分类。类与类之 间的距离有各种不同的定义方法。 定义不同即产生不同的算法。而 不同的算法可能聚得不同的结果。 实践中可用不同的方法,聚得多 个结果,然后根据专业知识选择 较合理的分类结果。
类与类之间距离定义方法:
聚类 分析 和判 别分 析的 比较
判别分析时总体中各类别的划分 是十分清楚的。判别分析需要知 道一批已知分类的训练样品,在 此基础上建立判别函数,所以它 是有师可循的方法。 聚类分析时总体中各类别的划分 是不清楚的,甚至到底应分成几 类也不知道,用于聚类分析的原 始数据中没有类别变量,所以是 无师可循的统计分析方法。
指 标 分 割 聚 类 法 原 理
初始分类可由用户给出,可指定某些变 量作为初始分类。如果没有提供初始分类 情况,SAS的VARCLUS过程开始把所有 变量都合为一个类,然后开始分割。 VARCLUS过程也可根据用户的要求使 不同层次的类,构成一个系统结构, 即相 当于系统聚类,用户可选用HIERARCHY 选择项达到此要求, 其聚类过程的树状结 构可用选择项OUTTREE=SAS数据集,输 出到数据集中,进一步用TREE过程画出 聚类图。
第三Biblioteka Baidu 快速聚类法
快 速 聚 类 法 原 理
它首先选择一些初始凝聚点, 把这些
凝聚点作为今后聚类的核心; 接着把每个 样品根据欧氏距离归入到与该样品最近的 凝聚点所代表的类,以构成暂时的类; 再 用这些暂时的类的重心代替初始凝聚点 作为新的凝聚点,再一次把每个样品归 入到与该样品最近的凝聚点所代表的类, 构成新的暂时的类,……,这样一直进 行下去,直至分成的类再没有什么变化为 止。
类与 类与类之间距离定义为两类间样 类间 品距离的最小值。 距离 最长距离法(complete linkage) : 定义 类与类之间距离定义为两类间样 方法
品距离的最大值。
最短距离法(single linkage):
重心法(centroid method) :
类与 类间 距离 类平均法(average linkage) : 定义 类与类之间距离定义为两类间样 方法 品距离的平均值 。
第十五章 聚类分析
上海第二医科大学 生物统计教研室
第一节 聚类分析的基本概念
聚 类 分 析 的 意 义
聚类分析(Cluster analysis)又称 集群分析,它是研究“物以类聚” 的一种数理统计方法。聚类分析可 将一些观察对象依据某些特征加以 归类 。 例如临床上为修复耳缺损,可 先以正常耳朵的耳长、耳宽、耳外 展距等指标为依据,对耳朵进行聚 类分析,把正常耳朵划分成几类, 然后找出各类之标准化耳朵,以供 临床修复各种耳缺损病员时参考。
系统聚类法:用于对小样本的样 品间聚类及对指标聚类 。
逐步聚类法或称快速聚类法:用 于对大样本的样品间聚类 。 有序样品聚类法:用于对有排列 次序的样本的样品间聚类, 要求 必须是次序相邻的样品才能聚在 一类。
聚 类 分 析 的 方 法
聚 类 分 析 的 方 法
模糊聚类法:建立在模糊数学 基础上的对样品间聚类的方法, 适用于小样本。
分割聚类法:适用于对指标聚 类
聚 类 统 计 量
定义:在聚类分析中反映样品或 变量间关系亲疏程度的统计量称为 聚类统计量,常用的聚类统计量分 为距离和相似系数两种。
距
离: 用于对样品的聚类。 常用欧氏距离,在求距离前, 需把指标进行标准化 。 相似系数: 常用于对变量的聚类。 一般采用相关系数 。
第二节
系统聚类法
二 系 统 聚 类 法
(systematic cluster method) 基本思想 :首先定义样品间距离及类 与类之间的距离;开始时每个样品各 看成一类,将距离最近的两类合并; 重 新计算新类与其它类的距离,再将距 离最近的两类合并; 再计算新类与其它 类的距离,……,这样一步步的进行 下去,每一步减少一类,直至所有的 样品都合并成一类为止。
快 速 聚 类 法 原 理
注意:
快速聚类法须调用FASTCLUS 过程,但FASTCLUS过程没有对指 标进行标准化的功能,因此,须 先用STANDARD过程对聚类指标进 行标准化,然后再调用FASTCLUS 过程进行快速聚类分析。
指 标 分 割 聚 类 法 原 理
第四节 对指标的分割聚类法
分割聚类的过程如下:首先给出一个 初始分类,然后重复以下步骤: (1)挑选一个欲分割的类,这个被分割的类 的类内差异最大。 (2)把选中的类分割成两个类。再根据某准 测把此类中所有变量分别归入这两个类。 这种分割过程一直进行下去,直至达到 某种分割停止准则为止。