聚类分析(数学建模)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3
聚类分析
对于一个数据,人们既可以对变量(指标)进行分 类(相当于对数据中的列分类),也可以对观测值( 事件,样品)来分类(相当于对数据中的行分类 )。
比如学生成绩数据就可以对学生按照理科或文科成 绩(或者综合考虑各科成绩)分类,
当然,并不一定事先假定有多少类,完全可以按照 数据本身的规律来分类。
研究对样品或指标进行分类的一种多元统计 方法,是依据研究对象的个体的特征进行分 类的方法。
聚类分析把分类对象按一定规则分成若干类 ,这些类非事先给定的,而是根据数据特 征确定的。在同一类中这些对象在某种意 义上趋向于彼此相似,而在不同类中趋向 于不相似。
职能是建立一种能按照样品或变量的相似程 度进行分类的方法。
聚类分析
1ห้องสมุดไป่ตู้
分类
俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多种
分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础设
施等指标; 既可以用某一项来分类,也可以同时考虑多项指
标来分类。
2
一、聚类分析的基本概念
2. 计算n个样本两两之间的距离,得到距离矩阵
D
3. 构造个类,每类只含有一个样本;
d ij
4. 合并符合类间距离定义要求的两类为一个新类;
5. 计算新类与当前各类的距离。若类的个数为1,则转 到步骤6,否则回到步骤4;
6.画出聚类图;
7.决定类的个数和类。
17
系统聚类分析的方法
系统聚类法的聚类原则决定于样品间的距离 以及类间距离的定义,类间距离的不同定 义就产生了不同的系统聚类分析方法。
5
饮料数据(drink.sav )
16种饮料的热量、咖啡因、钠及价格四种变量
6
如何度量远近?
如果想要对100个学生进行分类,如果仅仅知道他 们的数学成绩,则只好按照数学成绩来分类;这 些成绩在直线上形成100个点。这样就可以把接 近的点放到一类。
如果还知道他们的物理成绩,这样数学和物理成绩 就形成二维平面上的100个点,也可以按照距离 远近来分类。
三维或者更高维的情况也是类似;只不过三维以上 的图形无法直观地画出来而已。在饮料数据中, 每种饮料都有四个变量值。这就是四维空间点的 问题了。
7
两个距离概念
按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离 ,一个是类和类之间的距离。
点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距离 。
12
⒉相似系数
夹角余弦 相关系数
13
① 夹角余弦
两变量的夹角余弦定义为:
14
② 相关系数
两变量的相关系数定义为:
15
系统聚类方法
1 、最短距离(Nearest Neighbor)
x11• x12•
d13
x21•
x22•
16
16
三、系统聚类法基本步骤
1. 选择样本间距离的定义及类间距离的定义;
当然还有一些和距离相反但起同样作用的概念,比如相似性等,两 点越相似度越大,就相当于距离越短。
由一个点组成的类是最基本的类;如果每一类都由一个点组成,那 么点间的距离就是类间距离。但是如果某一类包含不止一个点, 那么就要确定类间距离,
类间距离是基于点间距离定义的:比如两类之间最近点之间的距离 可以作为这两类之间的距离,也可以用两类中最远点之间的距离 作为这两类之间的距离;当然也可以用各类的中心之间的距离来 作为类间距离。在计算时,各种点间距离和类间距离的选择是通 过统计软件的选项实现的。不同的选择的结果会不同,但一般不 会差太多。
本 章 要 介 绍 的 分 类 的 方 法 称 为 聚 类 分 析 ( cluster analysis)。对变量的聚类称为R型聚类,而对观 测值聚类称为Q型聚类。这两种聚类在数学上是对 称的,没有什么不同。
4
聚类分析的基本思想是认为我们所研究的样本或指标(变 量)之间存在着程度不同的相似性(亲疏关系)。于是根据 一批样本的多个观测指标,具体找出一些彼此之间相似程度 较大的样本(或指标)聚合为一类,把另外一些彼此之间相 似程度较大的样本(或指标)又聚合为另一类,关系密切的 聚合到一个小的分类单位,关系疏远的聚合到一个大的分类 单位,直到把所有样本(或指标)都聚合完毕,把不同的类 型一一划分出来,形成一个由小到大的分类系统。最后把整 个分类系统画成一张谱系图,用它把所有样本(或指标)间 的亲疏关系表示出来。这种方法是最常用的、最基本的一种 ,称为系统聚类分析。
t 1
chebychev distance 切比雪夫距离
d Max xit xjt t
10
明氏距离在实际中应用的很多, 但也存在一些缺点:
1、量纲的问题; 处理办法:标准化 2、指标间的相关问题;
11
改进的办法,采用马氏距离 Mahalanobis 马氏距离
dij (M) (Xi X j )S1(Xi X j )
9
常见的距离有:
minkowski distance (明氏距离):
1
d
tp1xit xjt
q
q
d x x 当 q=1 block distance 绝对值距离:
p
t 1
it
jt
当 q=2 squared euclidean distance 平方欧式距离
当q=
p
x x d
2
it
jt
8
二、距离
每个样本有p个指标,因此每个样本可以看成 p维空间中的一个点,n个样本就组成p维空 间中的n个点,这时很自然想到用距离来度量 n个样本间的接近程度。
用 dij 表示第i个样本与第j个样本之间的距 离。一切距离应满足以下条件:
dij 0, 对于一切i, j dij 0,等价于样本i与样本j的指标相同 dij=d ji,对于一切i, j dij dik dkj, 对于一切i, j, k
以下用dij表示样品X(i)和X(j)之间的距离,当 样 ;品d间i2j 的亲1疏C关i2j 系采用相似系数Cij时,令
以下用D(p,q)表示类Gp和Gq之间的距离。
18
3.重心法(CENtroid method)
19
4.类平均法(AVErage method)
20
例
为了研究辽宁等5省1991年城镇居民生活消费情况 的分布规律,根据调查资料做类型分类,用最短 距离做类间分类。数据如下:
聚类分析
对于一个数据,人们既可以对变量(指标)进行分 类(相当于对数据中的列分类),也可以对观测值( 事件,样品)来分类(相当于对数据中的行分类 )。
比如学生成绩数据就可以对学生按照理科或文科成 绩(或者综合考虑各科成绩)分类,
当然,并不一定事先假定有多少类,完全可以按照 数据本身的规律来分类。
研究对样品或指标进行分类的一种多元统计 方法,是依据研究对象的个体的特征进行分 类的方法。
聚类分析把分类对象按一定规则分成若干类 ,这些类非事先给定的,而是根据数据特 征确定的。在同一类中这些对象在某种意 义上趋向于彼此相似,而在不同类中趋向 于不相似。
职能是建立一种能按照样品或变量的相似程 度进行分类的方法。
聚类分析
1ห้องสมุดไป่ตู้
分类
俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多种
分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础设
施等指标; 既可以用某一项来分类,也可以同时考虑多项指
标来分类。
2
一、聚类分析的基本概念
2. 计算n个样本两两之间的距离,得到距离矩阵
D
3. 构造个类,每类只含有一个样本;
d ij
4. 合并符合类间距离定义要求的两类为一个新类;
5. 计算新类与当前各类的距离。若类的个数为1,则转 到步骤6,否则回到步骤4;
6.画出聚类图;
7.决定类的个数和类。
17
系统聚类分析的方法
系统聚类法的聚类原则决定于样品间的距离 以及类间距离的定义,类间距离的不同定 义就产生了不同的系统聚类分析方法。
5
饮料数据(drink.sav )
16种饮料的热量、咖啡因、钠及价格四种变量
6
如何度量远近?
如果想要对100个学生进行分类,如果仅仅知道他 们的数学成绩,则只好按照数学成绩来分类;这 些成绩在直线上形成100个点。这样就可以把接 近的点放到一类。
如果还知道他们的物理成绩,这样数学和物理成绩 就形成二维平面上的100个点,也可以按照距离 远近来分类。
三维或者更高维的情况也是类似;只不过三维以上 的图形无法直观地画出来而已。在饮料数据中, 每种饮料都有四个变量值。这就是四维空间点的 问题了。
7
两个距离概念
按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离 ,一个是类和类之间的距离。
点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距离 。
12
⒉相似系数
夹角余弦 相关系数
13
① 夹角余弦
两变量的夹角余弦定义为:
14
② 相关系数
两变量的相关系数定义为:
15
系统聚类方法
1 、最短距离(Nearest Neighbor)
x11• x12•
d13
x21•
x22•
16
16
三、系统聚类法基本步骤
1. 选择样本间距离的定义及类间距离的定义;
当然还有一些和距离相反但起同样作用的概念,比如相似性等,两 点越相似度越大,就相当于距离越短。
由一个点组成的类是最基本的类;如果每一类都由一个点组成,那 么点间的距离就是类间距离。但是如果某一类包含不止一个点, 那么就要确定类间距离,
类间距离是基于点间距离定义的:比如两类之间最近点之间的距离 可以作为这两类之间的距离,也可以用两类中最远点之间的距离 作为这两类之间的距离;当然也可以用各类的中心之间的距离来 作为类间距离。在计算时,各种点间距离和类间距离的选择是通 过统计软件的选项实现的。不同的选择的结果会不同,但一般不 会差太多。
本 章 要 介 绍 的 分 类 的 方 法 称 为 聚 类 分 析 ( cluster analysis)。对变量的聚类称为R型聚类,而对观 测值聚类称为Q型聚类。这两种聚类在数学上是对 称的,没有什么不同。
4
聚类分析的基本思想是认为我们所研究的样本或指标(变 量)之间存在着程度不同的相似性(亲疏关系)。于是根据 一批样本的多个观测指标,具体找出一些彼此之间相似程度 较大的样本(或指标)聚合为一类,把另外一些彼此之间相 似程度较大的样本(或指标)又聚合为另一类,关系密切的 聚合到一个小的分类单位,关系疏远的聚合到一个大的分类 单位,直到把所有样本(或指标)都聚合完毕,把不同的类 型一一划分出来,形成一个由小到大的分类系统。最后把整 个分类系统画成一张谱系图,用它把所有样本(或指标)间 的亲疏关系表示出来。这种方法是最常用的、最基本的一种 ,称为系统聚类分析。
t 1
chebychev distance 切比雪夫距离
d Max xit xjt t
10
明氏距离在实际中应用的很多, 但也存在一些缺点:
1、量纲的问题; 处理办法:标准化 2、指标间的相关问题;
11
改进的办法,采用马氏距离 Mahalanobis 马氏距离
dij (M) (Xi X j )S1(Xi X j )
9
常见的距离有:
minkowski distance (明氏距离):
1
d
tp1xit xjt
q
q
d x x 当 q=1 block distance 绝对值距离:
p
t 1
it
jt
当 q=2 squared euclidean distance 平方欧式距离
当q=
p
x x d
2
it
jt
8
二、距离
每个样本有p个指标,因此每个样本可以看成 p维空间中的一个点,n个样本就组成p维空 间中的n个点,这时很自然想到用距离来度量 n个样本间的接近程度。
用 dij 表示第i个样本与第j个样本之间的距 离。一切距离应满足以下条件:
dij 0, 对于一切i, j dij 0,等价于样本i与样本j的指标相同 dij=d ji,对于一切i, j dij dik dkj, 对于一切i, j, k
以下用dij表示样品X(i)和X(j)之间的距离,当 样 ;品d间i2j 的亲1疏C关i2j 系采用相似系数Cij时,令
以下用D(p,q)表示类Gp和Gq之间的距离。
18
3.重心法(CENtroid method)
19
4.类平均法(AVErage method)
20
例
为了研究辽宁等5省1991年城镇居民生活消费情况 的分布规律,根据调查资料做类型分类,用最短 距离做类间分类。数据如下: