:聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

由表可看到,如果把1至11岁的数据只分成一类时,K=8, 优劣指标值太大;而对n大于4时的K值相差不多;而当n =3或n=4时,K值已降为0.30和0.20.而n=5及其以上时, K相差太小,而类分得太多无意义,因此分成3类或4类为 宜。


我们也许可以对分成三类的情况予以如下实际 解释; 儿童从1岁到11岁可分为三个阶段;1岁的儿童 睡得多吃得多,处于体重增加最快的阶段;2 岁至7岁的儿童处于入学前或刚入学的阶段, 体重增加有所减缓 ,8岁至11岁后生活规律化, 开始进入发育期.体重稳定增加。
1.2 聚类分析的定义


聚类分析又称为群分析或分类分析等分析,是一 种重要的分类方法。它是根据事物自身的特征, 通过已建立的统计模型对事物进行多元分析方法 的一种统计分析,其目的在于将相似的事物进行 归类。这些类不是事先给定的,而是需要通过聚 类分析来给以确定类型。 分类一般是对样品分类或者对变量分类,对样品 进行分类称为Q型聚类分析,对变量进行分类称 为R型聚类分析。
例2 对某地21个古墓挖掘后,记录每个古墓陪葬的瓷

此处 x和 1 x2均可以看作平面直角坐标系中点的两个坐标, 每个古墓可以用该坐标平面上的一个点来表示,得图
2.6.1。我们采用通常平面上点的距离作为对应的古墓


对于另一种分类方法 {1.、2、3、4} 、{5、6}、{7、 8、9、10、11} 其第一类的类内差异为7.6,第二类的类内差异为 0.2.第三类的类内差异为0.9。该分类方法的优劣指 标K为2.9。相比之下,此分类方法不如前一种分类方 法好。 试问:分三类最好的分类方法应怎么分?

把11个有序数据分成3类共有45种方法,计算每类分 法的优劣指标并加以比较,可以得到最好的(分三类) 方法为 {1}、{2,3,4,5,6,7} 、{8、9、10、11} 此分 类方法的优劣指标K是 0.3
样品相似性的度量
设有n个样品 、、、 的测试数据,用矩阵表示为: ,每个样品有个指标
X 1 x11 x X 2 21 X Xn xn1
x12 x22 xn 2
x1 p x2 p xnp
称为样品观测值矩阵。用 表示 与 之间的距离,p表示p维空间,n表示样品 个数。则有:
第三步:将“距离”最近的两个类进一步 聚成一类, 共聚成 n-2 类;
……以上步骤一直进行下去,最后将所有的样品 (或变量)聚成 一类。 为了直观地反映以上的系统聚类过程,可以把整 个分类系统地画成一张谱系图。所以 有时系统聚类 也称为谱系分析。


在进行系统聚类之前,我们首先要定义类与类之间的 距离,由类间距离定义的不同产生了不同的系统聚类 法,系统聚类法中常用的距离有最短距离法、最长距 离法、中间距离法、重心法等等。每种距离法的归类 步骤是一致的,主要差异是类间距离的计算方法不同 。我们以最短距离为例进行说明。 用d i, j表示第i个事物与第j个事物之间的距离, 设 G1 , G2 ,..... 表示类,用 D p, q 表示类 G p 与类 Gq 之间的距离
2 d ij (2) xik x jk k 1 p 12
欧氏距离是聚类分析中最常用的距离。
(3)切比雪夫距离(q=∞ )
dij () max xik x jk
1 k p
变量相似性的度量

多元数据中的变量表现为向量形式,在几何 上可用有向线段表示。在对多元数据进行分 析时,相对于数据的大小,我们更多的对变 量的变化趋势或方向感兴趣。因此变量之间 的相似性可以从它们的方向趋同性或相关性 进行考察,从而得到夹角余弦法和相关系数 两种度量方法。
x11x21 x12 x22
2 2 2 2 x11 x12 x21 x22

k 1 2 2 x 1k k 1
x1k x2k
k 1 2 x 2k 2
(2)相关系数:
相关系数经常用来度量变量之间的相似性,变量 X i 、X j 的相关系数定义为:

rij
( x x )( x x )
这样,我们把比较相似的变量聚为一类,把不太相似
的变量归到不同的类中。
3、聚类分析的方法

常见的聚类方法有:有序样品聚类法 、系统聚类法、K均值法、模糊聚类法 和动态聚类法等等。 不同的聚类方法可以将样品或变量分 成不同的类别,根据分类要求的不同 ,选择不同的分类方法。

(1)有序样品聚类法


许多实际问题中有序事物按一定次序排列的, 这样的事物称为有序事物。 如儿童的增重数按年龄排序;历史的研究按时 间的先后排序;地质勘探取样资料按地层的深 浅排序等。对有序事物分类时不能打乱原先事 物的次序。
2、聚类的依据


为了将样品(或变量)进行分类,就需要研究样品之 间关系。目前用的最多的方法有两个:一种方法是用 相似系数,性质越接近的样品,它们的相似系数的绝 对值越接近于1;而彼此无关的样品,它们的相似系数 的绝对值越接近于0.比较相似的样品归为一类,不怎 么相似的样品归为不同的类。另一种方法是将一个样 品看做P维空间的一个点,并在空间定义距离,距离越 近的点归为一类,距离较远的点归为不同的类。 对样品进行聚类分析,通常采用距离测量样品之间的 相似程度。目前最常用的距离是明氏距离。对变量进 行进行聚类分析,一般采用夹角余弦或相关系数。

在社会经济领域中存在着大量分类问题。比如: 对我国30个省市自治区独立核算工业企业经济效益进 行分析,一般不是逐个省市自治区去分析,而较好的 做法是选取能反映企业经济效益的代表性指标,如百 元固定资产实现利税 、资金利税率、产值利税率、百 元销售收入实现利润 、全员劳动生产率等等,根据这 些指标对30个省市自治区进行分类,然后根据分类结 果对企业经济效益进行综合评价,就易于得出科学的 分析。
聚类分析
主讲人:尹婷婷
目录
聚类分析背景和定义
聚类的依据
常见的聚类方法
1.1 聚类产生的背景



聚类分析起源于分类学,在考古的分类学中人们 主要依靠经验和专业知识来实现分类。 随着生产技术和科学的发展,人类的认识不断加 深,分类越来越细,要求也越来越高,有时光凭 经验和专业知识是不能进行确切分类的,往往需 要定性和定量分析结合起来去分类,于是数学工 具逐渐被引进分类学中,形成了数值分类学。 后来随着多元分析的引进,聚类分析又逐渐从数 值分类学中分离出来而形成一个相对独立的分支。
1 i i j j
p
(x x ) (x x )
2 1 i i 1 j j
p
p
2
1 rij 1

无论是夹角余弦还是相关系数,他们的绝对值都小于 等于1,作为变量近似值得工具,我们把它们统计为 当 当 当 当 =1时,说明两个变量完全相似; 近似于1时,说明两变量非常密切; =0时,说明两变量完全不一样; 近似于0时,说明两变量差别很大。

明氏距离(闵可夫斯基距离):
明氏距离的表现公式为:
q dij (q ) xik x jk k 1 p 1q
这里的p表示p维空间,q表示自然数,根据q的取值不同 又可以分为: (1)绝对值距离(q=1):
dij (1) xik x jk
k 1
p
(2)欧氏距离(q=2)
Gr 与其他类再进行求出最短距离,再进行合并。
(4)重复上述步骤,直到所有元素并成一类为止。
例1,设有6个样品,每个只测量一个指标,分别为 1,2,5,7,9,10,试用最短距离法将他们分类。 (1)样品采用绝对值距离,计算样品间的距离阵,如下表

G1 G1 G2 G3 G4 G5 G6 0 1 4 6 8 9
(2)系统聚类法


3.1 系统聚类的基本思想
Baidu Nhomakorabea
系统聚类的基本思想是:距离相近的样品(或变量) 先聚成类,距离相远的后聚成类, 过程一直进行下去 ,每个样品(或变量)总能聚到合适的类中。 系统聚类过程是: 假设总共 有 n 个样品(或变量), 第一步:将每个样品(或变量)独自聚成一类,共有 n 类; 第二步:根 据所确定的样品(或变量)“距离”公式, 把距离较近的两个样品(或变量)聚合成一类,其 他 的样品(或变量)仍各自聚为一类,共聚成 n-1 类;
以同样的方法分析,可知把这11个数据分成 两类的最好分类方法是
1, 2,3,4,5,6,7,8,9,10,11
这时的优劣指标K为 0.5
那么这11个数据分成几类为宜呢? 为此.我们分别找到把11个数据分成1类、2类、„、11类 的最好的分类法,计算出各最好分类方法的优劣指标,列 表如下:
G2 0 3 5 7 8
G3
G4
G5
G6
0 2 4 5 0 2 3 0 1 0
(2)上述矩阵中最小的元素是D12,D56,于是将G1,G2 合并成G7,将G5,G6合并成G8,可知G7={1,2}, G8={9,10},于是得到新的距离阵:
G3
G3 G4 G7 G8 0 2 3 4
G4
0 5 2
G7
一个好的分类方法就是应该使处于同一类事物之间的差别尽 可能地小,而使类与类之间的差别尽可能地大。为了表示类 内部事物与事物的差别,我们借用统计中全距(直径)的计 算方法, 以 4,5,6,7,8 、9,10,11这个分类为例来说 1,2,3 、 明计算类内差别的方法: 1,2,3 对应的数据为9.3、1.8、1.9,最大值为 其中第一类 9.3,最小值为1.8,这一类的差异我们用全距 9.3-1.8=7.5 第二类 4,5,6,7,8 中最大值为2.0,最小值为1.3,则 2.0-1.3=0.7 第三类 9,10,11 中的最大值为2.3,最小值为1.9,则 2.3-1.9=0.4 为衡量上述分类方法的优劣,我们计算此种分类方法中的三 个类内的平均差异,即规定该分类方法的优劣指标K为 7.5 0.7 0.4 K 2.87 3
(1)夹角余弦:
的夹角余弦可用下式进行计算
X i 与 X j 看做p维空间中的两个向量,这两个向量间
COSij
k 1 p 2 xik k 1
xik x jk
k 1 2 x jk p
p
1 cos ij 1
例如在二维空间中, 对 、 这两个变量有:
2
COS12

例如:为了了解儿童的生长发育规律,今随机抽样统计了 男孩从出生到11岁平均增长的重量数据表如下,试问:男 孩发育可分为几个阶段?

记与年龄对应的儿童增重数的11个数据,表示儿童的增重 数,例如 x8 2.0表示8岁儿童的平均年增重为 2 (千克)。 如果要把增重数 分成保持次序的3个组.这时 x1 , x2 ....x11 2 9,10,11就是一 4,5,6,7,8 , 可以有C10 种选择。例如 1,2,3 , 种可选择的分类方法。

最短距离法:
Gq 任一事物距离的最小值。
定义:即 G p中任一事物与
最短距离法进行聚类分析的步骤如下:
(1)定义样品之间的距离,计算样品的两两距离,得一距离
阵,开始时每个样品自成一类。 (2)找出距离最小元素,设为 D p, q ,则将 G p与 一个新类,记为 (3)将
Gq合并成
Gr={ G p ,Gq}
G8
0 7 0
在上述距离阵中最小值是D34=D48=2,于是G3与G4 合并,再与G8合并,成一个新类G9={5,7,9,10}, 将其再与其他类进行计算,得新的距离阵:
G7 G7 G9 0 3 0 G9
(4)最后将G7,G9合并成G10,这时所有的六种样品 聚为一类,过程终止。

器用具数和陶桶数,分别记为 x1 和 x2要求按这两个指 标对古墓进行分类。 数据列表如下:


又比如若对某些大城市的物价指数进行考察,而物价 指数很多,有农用生产物价指数、服务项目物价指数 、食品消费物价指数、建材零售价指数等等。由于要 考察的物价指数很多,通常先对这些物价指数进行分 类。 总之,需要分类的问题很多,因此聚类分析这个数学 工具越来越受到人们的重视,它在数学的领域中都得 到了广泛的应用。
相关文档
最新文档