聚类分析 数学建模
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(4.3)
式中, 和 大和最小值。显然, 分别为第 个变量的最 。
4.2.3 变量的规格化
对每个变量施行以下变换,称为规格化。
(4.4) 式中, 为第 个变量的最大值。显然 。
注:
数据的预处理以不丢失原有信息为前提。 三种预处理方法的选择应根据现有数据的特 点来考虑。
4.3 分类统计量的确定 及其聚类方法的选择
4.2
关于变量的数据预处理
由于所研究的各个变量的量纲往往不一致, 即使统一了量纲有时原始数据的大小也有悬殊, 为避免有些特征变量受到压抑,在分类前,可 首先对原始数据进行预处理。 通常是对变量施行必要的变换,使其所有 变量尺度均匀化。均匀化的方法很多,这里仅 介绍常用的几种。
4.2.1 变量的标准化
综上所述,显然 越小表示样品间的距离越小,差 异就越小,两者越相似。按距离公式,将所有样品 两两间的距离 求出,即 ( ),可构成距 离矩阵
式中, 称矩阵。
(4.9) ,显然D为一实对
4.3.2 相似系数统计量
若将每个样品视为m维空间的一个向量,则 两样品间的相似程度可以用这两个向量间的夹角 余弦表示,即
由此可看出,两个样品之间的距离越小, 它们之间的相似程度越高;反之,距离越大, 则表明两样品的相似程度越低。因此,可以用 样品间的距离来对样品进行分类。 在聚类分析中,对于定量变量,最常用的 距离是明考夫斯基(Minkowski)距离
(4.5)
当
时,则分别得到
(1)绝对值距离
(4.6)
(2)欧氏(Euclid)距离
所谓分类,一般地说就是把相似程度大的 并成一类,而把相似程度小的分为不同的类, 因此如何定量地表示样品间的相似程度,这是 聚类分析中需要解决的一个重要问题。 目前已设计了大量的表示相似程度的统计 量,Moore l972年就列出了40个,实际上超 过这个数。但是常用的主要还是距离统计量、 相似系数统计量和相关系数统计量。下面主要 介绍常用的这几种统计量。
(4.11)
式(4.11)中, ; 为第 个样品 第 个变量的观测值。按上式分别求出 个变量 两两间的相关系数构成相关矩阵。
显然 为对称方阵,主对角线上的元素为1, 且 , 越接近1,则表明变量 与 相关 程度越高,越密切; 越接近0,变量 与 相关 程度越小。
在实际工作中,当需要研究样品与样品之间
关系时,一般用距离系数统计量或者相似系数统 计量作为分类计算依据,这种方法又称为Q型聚 类法;当需要研究变量与变量之间的关系时,常 用相关系数统计量作为分类计算依据,这种方法 又称R型聚类法。
4.3.4 选择适当的聚类方法 聚类分析的核心, 一是选取一种距离或相似系数作为分类统 计量; 二是需要确定一种聚类方法。聚类方法虽 然也有很多种,但是,就其聚类过程的主要特点 可以分为三大类:聚合法、分解法和调优法。 1.聚合法 开始把每个样品看成自成一类,计算各类之 间的相似程度的统计量,把最相似的两类合并为 一类,再计算各类相似程度统计量,把最相似的 两类合并,照此继续下去,一直到所有样品都聚 合成一类为止,最后人为确定合适的分类数,得 到分类结果。
2.分解法 它的聚类过程恰好和聚合法相反,开始把 全体样品看成一类,然后分成二类,……,一 直到每个样品为一类或分到不能再分时为止, 通常要设计一个分类函数(目标函数)来控制 整个分类过程。 3.调优法 开始人为将样品作初始分类,在一定准则下 判断这个分类是否最优,如果不是最优,则对 分类进行修改,再判断修改后的分类是否最优, 若仍不是最优,再作修改,不断重复上述步骤, 一直到分类方案最优为止。
(
)
(4.10)
式(4.10)中, 称为向量间夹角余弦。显 然, 。式中 是第 样品第 个变量的 观测值。 越接近1,则说明第 个样品与第 个样品越相似,式(4.10)把所有样品两两间 的夹角余弦求出来,就得夹角余弦矩阵
该矩阵为一实对称矩阵。 同样,变量之间也可以求其夹角余弦,以表 示它们的亲疏程度。
(4.7)
(3)切比雪夫(Chebyshev)距离
(4.8)
值得注意的是在采用明考夫斯基距离时, 一定要采用相同量纲的变量。如果变量的量纲 不同,原始数据变异范围相差悬殊时,建议首 先进行数据的标准化处理,然后再计算距离。
在明考夫斯基距离中,最常用的是欧氏距离。 它的主要优点是当坐标轴进行正交旋转时,欧氏 距离是保持不变的,因此,如果对原坐标系进行 平移和旋转变换,则变换后样本点间的相似情况 (即它们间的距离)完全同于变换前的情形。此 外,在采用明考夫斯基距离时,还应尽可能地避 免变量的多重相关性。显而易见,多重相关性所 造成的信息重叠,会片面强调某些变量的重要性。
4.1.2 特征变量(指标)的提取
分类就是把各种属性差异比较小的样品合在 一类;各种属性差异大的样品分为不同的类,为 了能对事物进行科学准确的分类,在分类前,我 们必须对所需要分类的事物进行定量的特征变量 提取。
4.1.2 特征变量(指标)的提取 该如何提取事物的特征变量呢? ①所提取的特征变量要求能全面地反映样品的各 种属性, ②当然也不是特征变量越多越好,一般要求能在 反映样品本质的、主要的属性条件下,在不失去 主要信息的条件下,尽量减少特征变量的个数。 这样不但使分类中数学处理简单,而且便于 抓住本质和主要的属性,分类结果更好。
4.3.1 距离系数统计量
设有n个样品分别测定了m个特征变量。如果 将n个样品看成m维空间中的一个点(或者看成m 维空间的n个点矢),则在 m 维空间可定义一种 距离,该距离应满足如下四个条件,若表示第个 样品和第个样品之间的距离,则有
a) 时,样品i和j恒等; b)对一切 i 和 j , ; c) ; d)
4.3.3 相关系数统计量 相关系数概念的引入是在定义协方差矩阵时引 入,它主要是用于表征两个随机变量之间的线 性相关程度。 如对于二维随机变量,可用 表示随机变量 与 的协方差,记为
进而还可引进相关系数的概念,用其值的大小 来描述随机变量 与 相关程度,记为
可以证明如下结论: 1.当 =0 ,则 与 不相关。 2.当| | 越大,则 与 联系越紧密。 一般,设第 个变量与第 个变量(指样本的 第 个变量与第 个变量)间的相关系数定义为
③ 此外,选上的特征变量应在全部样品中变化
显著,即方差比较大,如果某个特征变量反映 的是个主要的属性,但是在要进行分类的所有 样品中没有显著差别,基本相等,这样的特征 变量也应去掉。
④ 选上的特征变量之间应尽量不相关,每个特
征量反映的侧面应有明显差异。反应属性基本 重复、相关、非常密切的特征变量应简化,去 掉完全重复的。
设有 个样品, 个特征变量,设第 个样品,
第 个变量的观测值为 由此可构成一个 阶矩阵为
。
将式(4.1)中每个变量 换,称ห้องสมุดไป่ตู้标准化。
(4.1) 根据以下公式变
对每个变量的标准化计算公式为
(4.2)
式中, 标准化后变量的平均值为0,标准离差为1。
4.2.2 变量的正规化
对每个变量施行以下变换,称为正规化。
第四章
聚类分析方法
引入
人类认识世界的一种重要方法是将认识对象 进行分类。在许多工程问题中,我们对研究对象 的类属是未知的,或者知之甚少,这时,就需要 对研究对象进行分类,它是在没有“先验”知识 的情况下进行分类的,具有相当的任意性。
比如在生物学中,为了研究生物的演变,需 要对生物进行分类,生物学家根据各种生物的特 征,将它们归属于不同的界、门、纲、目、科、 属、种之中。事实上,分门别类地对事物进行研 究,要远比在一个混杂多变的集合中更清晰、明 了和细致,这是因为同一类事物具有很大的相似 性。
聚类分析的发展
在古老的分类学中,人们主要靠经验和专 业知识进行定性分类,如黑人、白人、黄种人, 我们凭视觉感观就能作出分类,很少利用数学 方法。 随着科学技术的迅速发展,分类要求越来 越高,以致靠经验和专业知识不能进行确切的 科学分类,于是数学这个定量化的有力工具便 被引进到分类学中来,形成了数值分类学。 近20年来,多元统计分析技术被引进到分 类学中,于是从数值分类学中逐渐地分离出聚 类分析这个新的分支。
聚类分析的应用
聚类分析方法应用相当广泛,已经被广泛用 于考古学、地质勘探调查、天气预报、作物品 种分类、土壤分类、微生物分类,就是在经济 管理、社会经济统计部门,也用聚类分析法进 行定量分类。
4.1
聚类分析方法形成思路
4.1.1 分类依据形成思想 依据:同类事物具有很强的相似性 如何对事物进行定量分类呢?我们知道,同类 事物具有很强的相似性,因此我们可以用相似性 统计量这个度量标准作为事物分类的依据。 一种等价说法是同类事物之间的距离应很小, 因此我们也可以用距离统计量作为分类的依据。