聚类分析(数学建模)讲解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

⒉相似系数 夹角余弦 相关系数
① 夹角余弦
两变量的夹角余弦定义为:
② 相关系数
两变量的相关系数定义为:
系统聚类方法
1 、最短距离(Nearest Neighbor)
x11• x12•
d13
x21•
x22•
16
三、系统聚类法基本步骤
1. 选择样本间距离的定义及类间距离的定义;
2. 计算n个样本两两之间的距离,得到距离矩阵
三维或者更高维的情况也是类似;只不过三维以 上的图形无法直观地画出来而已。在饮料数据中, 每种饮料都有四个变量值。这就是四维空间点的 问题了。
两个距离概念
按照远近程度来聚类需要明确两个概念:一个是点和点之间的距 离,一个是类和类之间的距离。
点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距 离。
x1 x2 x3 x4 x5 x6 x7
二、距离
每个样本有p个指标,因此每个样本可以看成 p维空间中的一个点,n个样本就组成p维空间 中的n个点,这时很自然想到用距离来度量n 个样本间的接近程度。
用 dij 表示第i个样本与第j个样本之间的距 离。一切距离应满足以下条件:
dij 0, 对于一切i, j dij 0,等价于样本i与样本j的指标相同 dij=d ji,对于一切i, j dij dik dkj, 对于一切i, j, k
以下用dij表示样品X(i)和X(j)之间的距离,当样
品间的亲疏关系采用相似系数Cij时,
令 di2j 1 Ci2j

以下用D(p,q)表示类Gp和Gq之间的距离。
3.重心法(CENtroid method)
4.类平均法(AVErage method)

为了研究辽宁等5省1991年城镇居民生活消费情况 的分布规律,根据调查资料做类型分类,用最短 距离做类间分类。数据如下:
当然还有一些和距离相反但起同样作用的概念,比如相似性等, 两点越相似度越大,就相当于距离越短。
由一个点组成的类是最基本的类;如果每一类都由一个点组成, 那么点间的距离就是类间距离。但是如果某一类包含不止一个点, 那么就要确定类间距离,
类间距离是基于点间距离定义的:比如两类之间最近点之间的距 离可以作为这两类之间的距离,也可以用两类中最远点之间的距 离作为这两类之间的距离;当然也可以用各类的中心之间的距离 来作为类间距离。在计算时,各种点间距离和类间距离的选择是 通过统计软件的选项实现的。不同的选择的结果会不同,但一般 不会差太多。
饮料数据(drink.sav )
16种饮料的热量、咖啡因、钠及价格四种变量
如何度量远近?
如果想要对100个学生进行分类,如果仅仅知道 他们的数学成绩,则只好按照数学成绩来分类; 这些成绩在直线上形成100个点。这样就可以把 接近的点放到一类。
如果还知道他们的物理成绩,这样数学和物理成 绩就形成二维平面上的100个点,也可以按照距 离远近来分类。
聚类分析
对于一个数据,人们既可以对变量(指标)进行 分类(相当于对数据中的列分类),也可以对观测值 (事件,样品)来分类(相当于对数据中的行分 类)。
比如学生成绩数据就可以对学生按照理科或文科 成绩(或者综合考虑各科成绩)分类,
当然,并不一定事先假定有多少类,完全可以按 照数据本身的规律来分类。
本章要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观 测值聚类称为Q型聚类。这两种聚类在数学上是对 称的,没有什么不同。
聚类分析的基本思想是认为我们所研究的样本或指标(变 量)之间存在着程度不同的相似性(亲疏关系)。于是根据 一批样本的多个观测指标,具体找出一些彼此之间相似程度 较大的样本(或指标)聚合为一类,把另外一些彼此之间相 似程度较大的样本(或指标)又聚合为另一类,关系密切的 聚合到一个小的分类单位,关系疏远的聚合到一个大的分类 单位,直到把所有样本(或指标)都聚合完毕,把不同的类 型一一划分出来,形成一个由小到大的分类系统。最后把整 个分类系统画成一张谱系图,用它把所有样本(或指标)间 的亲疏关系表示出来。这种方法是最常用的、最基本的一种, 称为系统聚类分析。
t 1
chebychev distance 切比雪夫距离
d Max xit xjt t
明氏距离在实际中应用的很多, 但也存在一些缺点:
1、量纲的问题; 处理办法:标准化
2、指标间的相关问题;
改进的办法,采用马氏距离
Mahalanobis 马氏距离
dij (M) (Xi X j )S1(Xi X j )
一、聚类分析的基本概念
研究对样品或指标进行分类的一种多元统 计方法,是依据研究对象的个体的特征进行 分类的方法。
聚类分析把分类对象按一定规则分成若干 类,这些类非事先给定的,而是根据数据 特征确定的。在同一类中这些对象在某种 意义上趋向于彼此相似,而在不同类中趋 向于不相似。
职能是建立一种能按照样品或变量的相似 程度进行分类的方法。
常见的距离有:
minkowski distance (明氏距离):
1
d
tp1xit x jt
q
q
d x x 当 q=1 block distance 绝对值距离:
p
t 1
it
jt
当 q=2 squared euclidean distance 平方欧式距离
当q=
p
x x d
2
it
jt
聚类分析
Hale Waihona Puke Baidu
分类
俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多
种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础
设施等指标; 既可以用某一项来分类,也可以同时考虑多项
指标来分类。
D
3. 构造个类,每类只含有一个样本;
d ij
4. 合并符合类间距离定义要求的两类为一个新类;
5. 计算新类与当前各类的距离。若类的个数为1,则转 到步骤6,否则回到步骤4;
6.画出聚类图;
7.决定类的个数和类。
系统聚类分析的方法
系统聚类法的聚类原则决定于样品间的距离 以及类间距离的定义,类间距离的不同定义 就产生了不同的系统聚类分析方法。
相关文档
最新文档