第六章 聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
作用:
• ①能够综合利用多个变量对样品进行分类; • ②分类结果直观,聚类谱系图清晰; • ③聚类结果细致、全面、合理。
R型聚类分析法
第二节 距离与相似系数
变量类型 数据变换处理
距离
相似系数
距离以及相似系数的选择原则
变量类型
– 名义特性:变量值是用一些类来表示的,类与类 之间没有等级关系,如性别,职业等; – 顺序特性:变量值是用有序等级来表示的。如优 秀、良好、中、及格、不及格等; – 数值特性:变量值是用连续的量来度量的。如长 度、重量、压力等。 – 对于不同类型的变量在定义距离相似测度时有很 大的差异。这里主要研究的是具有数值特性的变 量的聚类分析方法。
按照分类对象划分
系统聚类分析法
是在样品距离的基础上定义类与类的距离,
首先将个样品自成一类,然后每次将具有最 小距离的两个类合并,合并后再重新计算类 与类之间的距离,再并类,这个过程一直持 续到所有的样品都归为一类为止。这种聚类 方法称为系统聚类法。根据并类过程所做的 样品并类过程图称为聚类谱系图。
– 实际意义原则 – 数据性质原则
实际意义原则
即所选择的距离或者相似系数应该具有
明确的实际意义。比如经济指标之间的 相关应该是具有现实的经济联系的。
数据性质原则
• • • •
• •
根据原始数据的各自特点,选择不同的数据变换, 再根据不同的数据变换选择不同的距离或者相似系数。 1、若数据进行了标准化,则相关系数与夹角余弦是一致。 2、若聚类分析前已经对变量的相关性作了处理,则通常采 用欧氏距离,而不必选用斜交空间距离。 3、所选距离应与所选聚类分析方法一致 (1)若聚类方法为离差平方和法时,距离只能选用欧氏距 离; (2)工作量大小原则。斜交空间距离的计算量一般很大。 总之,在一般情况下,有以下的经验可以借鉴。相关系数的 稳定性要强于相似系数,而分辨力却弱于相似系数;使用距 离和使用相似系数进行聚类的结果对比,相似系数的计算数 值由大到小单调地减少,所以聚类谱系图能够比较明显地反 映分群的情况,而使用距离的数据有时呈现非单调性增加, 聚类谱系图反映的分群情况就不够明显。
– – – – – 中心化变换 规格化变换(极差正规化) 标准化变换 对数变换 其他方法
中心化变换方法
规格化变换(极差正规 化)
标准化变换
对数变换
其他方法
– 极差标准化。把每个变量的样本极差皆化为1。 – 立方根变换。把非线性数据结构变为线性结构。 – 平方根变换。把非线性数据结构变为线性结构。
第三节 系统聚类分析方 法
系统聚类分析的涵义及步骤 系统聚类方法
系统聚类分析方法的统一公式
剩余信息的剔除
谱系分类的确定
系统聚类分析方法的性质
系统聚类分析的涵义及 步骤
涵义:是在样品距离的基础上,定义类
与类之间的距离,首先将几个样品自成 一类,然后每次将具有最小距离的两类 合并,合并后重新计算类与类之间的距 离,这个过程一直继续到所有样品归为 一类为止。把这个过程作成一个聚类谱 系图。这种方法即系统聚类。
距离
距离的条件 常用距离
• • • • • • • • 1、明氏距离 2、欧氏距离 3、绝对值距离 4、切比雪夫距离 5、兰氏距离 以上距离一个共同的特点是,均没有考虑相关性。 6、马氏距离 7、其他距离
距离的条件
明氏距离(明科夫斯基)
欧氏距离
绝对值距离
切比雪夫距离
兰氏距离
马氏距离
系统聚类分析的涵义及 步骤
具体步骤:
– 数据变换处理; – 计算各样品之间的距离,并将距离最近的两个 样品并成一类; – 选择并计算类与类之间的距离,并将距离最近 的两类合并,如果类的个数大于1,则继续并 类直到所有样品归为一类; – 绘制系统聚类谱系图,按不同的分类标准或不 同的分类原则得出不同的分类结果。
重心法
类平均法
可变类平均法
可变法
离差平方和法
离差平方和法
系统聚类分析方法的统 一公式
• 出发点:上述聚类方法的并类原则和步骤是完 全一样的,所不同的是类与类之间的距离公式 有不同的定义 ,从而得到不同的递推公式 。 1969年维希特提出了统一的公式,这为编制统 一的计算机程序提供了极大的方便性。
系统聚类方法
进行聚类分析时,由于对类与类之间的距离
的定义和理解不同,并类的过程中又会产生不 同的聚类方法。常用的系统聚类方法有8种。
最短距离法
最长距离法
中间距离法 重心法 类平均法
可变类平均法
可变法 离差平方和法
常用聚类分析方法
最短距离法
– 涵义
– 步骤
最长距离法
中间距离法
谱系分类的确定
如何运用恰当地“类”的概念,把所进
行的聚类分析进行解释,把样品或变量 进行分类。
系统聚类分析方法的性 质
空间守恒 空间扩张
空间收缩
并类距离的单调性
第四节 系统聚类分析应用举例
系统聚类分析的涵义及 步骤
基本思想:
是把样品看成m维(m个指标)空间的点,而把每 个变量看成m维空间的坐标轴。
基本方法:
– 是将n个样品自成一类,先计算1/2n(n-1) 个相似性测度或距离,并且把具有最小测度的两 个样品合并成两个元素的类,然后按Βιβλιοθήκη Baidu某种聚类 方法计算这个类和其余n-2个样品之间的距离, 这样一直持续下去,并类过程中,每一步所做的 并类(样品与样品,样品与类、类与类)都要使 测度在系统中保持最小,每次减少一类,直到所 有样品都归为一类为止。
剩余信息的剔除
进行Q型聚类分析时,必须选择恰当的反映样本的变 量,选择对聚类效果较为显著的变量,剔除对聚类分 析效果影响较小的变量。 2、原则:
• 对所研究问题密切相关的变量 • 具有较强分辨能力的变量
3、方法
• • • • 人为地挑选变量 先用R型聚类分析挑选主要变量,然后再进行Q型聚类分析。 先进行主成分分析挑选主要变量,然后再进行Q型聚类分析。 用判别分析检验变量的分辨能力。
动态聚类分析法
模糊聚类分析法
利用模糊集理论来处理分类问题的聚类
方法
图论聚类分析法
利用图论中最小支撑树的概念来处理 分类问题的聚类方法
聚类预报法
利用聚类分析来处理预报问题的方法。
可以弥补回归分析和判别分析的不足。
聚类分析方法
Q型聚类分析法
R型聚类分析法
Q型聚类分析法
特征:对样品进行的分类处理。
聚类分析的涵义
是一种将样品或变量,按照它们在性质
上的亲疏程度进行分类的多元统计分析 方法。 描述亲疏程度的途径:
– 计算多维空间上点的距离; – 计算相似系数或相关系数 –
聚类分析方法
按照聚类方法的不同
– – – – – 系统聚类分析法 动态聚类分析法 模糊聚类分析法 图论聚类分析法 聚类预报法
第六章 聚类分析
聚类分析概述 距离与相似系数 系统聚类分析方法 系统聚类分析应用举例
第一节 聚类分析概述
多元统计分析中的分类方
法 聚类分析的涵义 聚类分析方法
多元统计分析中的分类 方法
一类:
– 研究对象存在事先分类情况下,判断某个 未知样品的归类
一类:
– 研究对象不存在事先分类情况下,进行数 据结构的分类
数据变换处理
– 原因:实际应用所使用的样本资料中,由于不同的变量具 有不同的计量单位(或量纲),并且具有不同的数量级, 为了使具有不同计量单位和数量级的数据能够放在一起进 行比较分析,通常都要对数据进行变换处理。 – 涵义:所谓数据变换,就是将原始数据矩阵中的各个变量 值,按照某种特定的运算把它变换成为一个新值,而且数 值的变换不依赖于原始数据中其他变量的新值。 – 方法:
其他距离
斜交空间距离
链距离
相似系数
相似系数的定义 常用相似系数
– – – – 夹角余弦 相关系数 指数相似系数 非参数方法
相似系数的定义
夹角余弦
相关系数
指数相似系数
非参数方法
距离以及相似系数的选 择原则
对于同一数据资料,进行聚类分析时,
选择的不同的距离公式或者不同的相似 系数,聚类结果是不一样的。因为不同 的距离公式或者不同的相似系数所反映 的样品或指标的亲疏程度的意义是不同, 因此,在运用中应该根据不同的实际情 况,选择不同距离或相似系数。