聚类分析数学建模

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析
分类
俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多
种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础
设施等指标; 既可以用某一项来分类,也可以同时考虑多项
指标来分类。
1、组间连接法 2、组内连接法 3、最近距离法 4、最远距离法 5、重心法 6、中位数法 7、Ward最小偏差平 方和法
观测量概述表
聚类步骤,与图结合看!
研究各种饮料在市场消费的分配规律,试确定各种饮料消费类型
哪两个样本或小 类聚成一类
相应的样本距离 或小类距离
指明是样本(0)还 是小类(n)
常见的距离有:
minkowski distance (明氏距离):
1
d
tp1xit x jt
q
q
d x x 当 q=1 block distance 绝对值距离:
p
t 1
it
jt
当 q=2 squared euclidean distance 平方欧式距离
当q=
p
x x d
2
it
jt
当然还有一些和距离相反但起同样作用的概念,比如相似性等, 两点越相似度越大,就相当于距离越短。
由一个点组成的类是最基本的类;如果每一类都由一个点组成, 那么点间的距离就是类间距离。但是如果某一类包含不止一个点, 那么就要确定类间距离,
类间距离是基于点间距离定义的:比如两类之间最近点之间的距 离可以作为这两类之间的距离,也可以用两类中最远点之间的距 离作为这两类之间的距离;当然也可以用各类的中心之间的距离 来作为类间距离。在计算时,各种点间距离和类间距离的选择是 通过统计软件的选项实现的。不同的选择的结果会不同,但一般 不会差太多。
本章要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观 测值聚类称为Q型聚类。这两种聚类在数学上是对 称的,没有什么不同。
聚类分析的基本思想是认为我们所研究的样本或指标(变 量)之间存在着程度不同的相似性(亲疏关系)。于是根据 一批样本的多个观测指标,具体找出一些彼此之间相似程度 较大的样本(或指标)聚合为一类,把另外一些彼此之间相 似程度较大的样本(或指标)又聚合为另一类,关系密切的 聚合到一个小的分类单位,关系疏远的聚合到一个大的分类 单位,直到把所有样本(或指标)都聚合完毕,把不同的类 型一一划分出来,形成一个由小到大的分类系统。最后把整 个分类系统画成一张谱系图,用它把所有样本(或指标)间 的亲疏关系表示出来。这种方法是最常用的、最基本的一种, 称为系统聚类分析。
D
3. 构造个类,每类只含有一个样本;
dij
4. 合并符合类间距离定义要求的两类为一个新类;
5. 计算新类与当前各类的距离。若类的个数为1,则转 到步骤6,否则回到步骤4;
6.画出聚类图;
7.决定类的个数和类。
系统聚类分析的方法
系统聚类法的聚类原则决定于样品间的距离 以及类间距离的定义,类间距离的不同定义 就产生了不同的系统聚类分析方法。
x8
13.29 14.87 9.76 11.35 10.81
将每一个省区视为一个样本,先计算5个省区之间 的出欧下式三距角离阵,)用D0表示距离矩阵(对称阵,故给
1
2
3
4 5
辽宁
1
0
浙江 2 11.67 0
D0 河南 3 13.80 24.63 0
Leabharlann Baidu
甘肃 4 13.12 24.06 2.20 0
⒉相似系数 夹角余弦 相关系数
① 夹角余弦
两变量的夹角余弦定义为:
② 相关系数
两变量的相关系数定义为:
系统聚类方法
1 、最短距离(Nearest Neighbor)
x11• x12•
d13
x21•
x22•
16
三、系统聚类法基本步骤
1. 选择样本间距离的定义及类间距离的定义;
2. 计算n个样本两两之间的距离,得到距离矩阵
1)、 聚类原则:都是相近的聚为一类,即距 离最近或最相似的聚为 一类。
2)、 分层聚类的方法可以用于样本聚类(Q) 型,也可以用于变量聚类(R型)。
2、非系统聚类法-----(快速聚类法----K-均值聚类 法)(K-means Cluster)
3、两步聚类法-----一种探索性的聚类方法 (TwoStep Cluster)
简单介绍基本原理
分两步进行
第一步:预聚类。对记录进行初始的归类,用户自定义最大 类别数。通过构建和修改特征树(CT Free)完成。
第二步:正式聚类。对第一步完成的初步聚类进行再聚类并 确定最终的聚类方案,系统根据一定的统计标准确定聚类的 类别数目。
青海 5 12.80 23.54 3.51 2.21 0
因此将3.4合并为一类,为类6,替代了3、4两类 类6与剩余的1、2、5之间的距离分别为:
d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12 d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06 d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21
聚类分析
对于一个数据,人们既可以对变量(指标)进行 分类(相当于对数据中的列分类),也可以对观测值 (事件,样品)来分类(相当于对数据中的行分 类)。
比如学生成绩数据就可以对学生按照理科或文科 成绩(或者综合考虑各科成绩)分类,
当然,并不一定事先假定有多少类,完全可以按 照数据本身的规律来分类。
t 1
chebychev distance 切比雪夫距离
d Max xit x jt t
明氏距离在实际中应用的很多, 但也存在一些缺点:
1、量纲的问题; 处理办法:标准化
2、指标间的相关问题;
改进的办法,采用马氏距离
Mahalanobis 马氏距离 dij (M ) ( Xi X j )S 1( Xi X j )
G8 12.80 0
最后合并为一个大类。这就是按最短距离定义类间距离的 系统聚类方法。最长距离法类似!
最长距离(Furthest Neighbor )

x11•
d12


x21•
• •

26
组间平均连接(Between-group Linkage)


• •


d1 d9 9
27
组内平均连接法(Within-group Linkage)
根据谱系图确定分类个数的准则:
各类重心间的距离必须很大; 类中保包含的元素不要太多; 类的个数必须符合实际应用; 如果采用几种不同的聚类方法处理,则在各
种聚类图中应该发现相同的类。
聚类分析
1、系统聚类法------(分层聚类)系统聚类法是应 用最广泛的一种(Hierarchical Cluster过程)
一、聚类分析的基本概念
研究对样品或指标进行分类的一种多元统 计方法,是依据研究对象的个体的特征进行 分类的方法。
聚类分析把分类对象按一定规则分成若干 类,这些类非事先给定的,而是根据数据 特征确定的。在同一类中这些对象在某种 意义上趋向于彼此相似,而在不同类中趋 向于不相似。
职能是建立一种能按照样品或变量的相似 程度进行分类的方法。
以下用dij表示样品X(i)和X(j)之间的距离,当样
品间的亲疏关系采用相似系数Cij时,

d
2 ij
1 Ci2j

以下用D(p,q)表示类Gp和Gq之间的距离。
3.重心法(CENtroid method)
4.类平均法(AVErage method)

为了研究辽宁等5省1991年城镇居民生活消费情况 的分布规律,根据调查资料做类型分类,用最短 距离做类间分类。数据如下:
二、距离
每个样本有p个指标,因此每个样本可以看成 p维空间中的一个点,n个样本就组成p维空间 中的n个点,这时很自然想到用距离来度量n 个样本间的接近程度。
用 dij 表示第i个样本与第j个样本之间的距 离。一切距离应满足以下条件:
dij 0, 对于一切i, j dij 0,等价于样本i与样本j的指标相同 dij=d ji,对于一切i, j dij dik dkj , 对于一切i, j, k
聚类分析的第几步
下面第几 步用到
垂直冰柱图 显示层次聚 类分析
从冰柱图最 后一行开始 观察,第一 列表示类数
两步聚类法
TwoStep Cluster
一种探索性的聚类方法,是随着人工智能的发展起来的智能聚 类方法中的一种。用于解决海量数据或具有复杂类别结构的聚类分 析问题。
两步聚类法特点:
1、同时处理离散变量和连续变量的能力 2、自动选择聚类数 3、通过预先选取样本中的部分数据构建聚类模型 4、可以处理超大样本量的数据
最短距离法
4. Furthest neighbor
最长距离法
5.Centroid clustering
重心法
(欧式距离)
6.Median clustering
中间距离法 (欧式距离)
7.Ward Method
离差平方法 (欧式距离)
数据标准化处理:
存储中间过程数据
数据标准 化处理, 并存储。
四、系统聚类的参数选择
㈠聚类类别:
㈡统计
㈢图:树型谱系图 冰柱谱系图
㈣聚类方法
1.Between-groups linkage 类间平均法
两类距离为两类元素两两之间平均平方距离
2.Within-groups linkage 类内平均法
两类距离为合并后类中可能元素两两之间平均平方距离
3.Nearest neighbor
三维或者更高维的情况也是类似;只不过三维以 上的图形无法直观地画出来而已。在饮料数据中, 每种饮料都有四个变量值。这就是四维空间点的 问题了。
两个距离概念
按照远近程度来聚类需要明确两个概念:一个是点和点之间的距 离,一个是类和类之间的距离。
点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距 离。
x1 x2 x3 x4 x5 x6 x7
辽宁1 7.90 39.77 8.49 12.94 19.27 11.05 2.04 浙江2 7.68 50.37 11.35 13.30 19.25 14.59 2.75 河南3 9.42 27.93 8.20 8.14 16.17 9.42 1.55 甘肃4 9.16 27.98 9.01 9.32 15.99 9.10 1.82 青海5 10.06 28.64 10.52 10.05 16.18 8.39 1.96
d1 d2 d3 d4 d5 d6 6
x11• x12•
x21• x22•
28
重心法(Centroid clustering):均值点的距离
x1, y1
x2, y2


29
类的个数的确定
由适当的阈值确定; 根据数据点的散布直观地确定类的个数; 根据统计量确定分类个数;
类的个数的确定
饮料数据(drink.sav )
16种饮料的热量、咖啡因、钠及价格四种变量
如何度量远近?
如果想要对100个学生进行分类,如果仅仅知道 他们的数学成绩,则只好按照数学成绩来分类; 这些成绩在直线上形成100个点。这样就可以把 接近的点放到一类。
如果还知道他们的物理成绩,这样数学和物理成 绩就形成二维平面上的100个点,也可以按照距 离远近来分类。
得到新矩阵
G6 G1 G2 G5
D1 GG16
0 13.12
0
G2 24.06 11.67 0
G5 2.21 12.80 23.54 0
合并类6和类5,得到新类7
类7与剩余的1、2之间的距离分别为:
d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80 d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54
指定5类
收敛标准值
存储最终结果输出情况,在数据文件中(QCL-1、QCL-2)
初始聚心选项,输出方差分析表
初始聚类中心表
最终聚类中心表 具体城市看后表
聚类结果:QCL-1说明聚类结果,QCL-2说明聚类的长度情况
主要城市日照时数
注:连续变量
SPSS提供不同类间距 离的测量方法
得到新矩阵
G7 G1 G2
D2 GG17
0 12.80
0
G2 23.54 11.67 0
合并类1和类2,得到新类8
此时,我们有两个不同的类:类7和类8。 它们的最近距离
d(7,8) =min(d71,d72)=min(12.80,23.54)=12.80
得到矩阵
G7 G8
D3 G7 0
相关文档
最新文档