聚类分析方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.414
2.9
94.8
4 231.5
574.6
1.17
假设有m个聚类对象,每一个聚类对象 都有x1,x2,…,xn个要素构成,它们所对 应的要素数据用下表给出:
聚类对象 1 2 „ i „ m
x1 x11 x21 … xi1 … xm1
x2 x12 x22 … xi2 … xm2
要 … … … … … … …
得出聚类谱系图
8 7 5 3 G1 G2 G8 G3 G4 4 1 G9 G5 2ห้องสมุดไป่ตู้G7 G6 6
直接聚类谱系图
(2)最短距离法 最短距离法,是在原来的m×m距离矩阵的非 对角线元素中找出dpq=min{dij},把分类对象Gp和 Gq归并为新的一类Gr,然后按计算公式 drk=min{dpk,dqk} (k≠p,q)
G4
G5 G6
0.44
0.03 0.03
0.38
0.03 0.03
0.00
1.00 0.61
0.13
1.00 0.69
0.18
1.00 0.65
0.13
0.45 0.13
0.00
1.00 0.59
G7
G8 G9
0.00
0.91 0.38
0.00
0.53 0.26
0.90
0.07 0.04
0.81
0.00 0.00
ij
(2)标准差标准化
xij
xij x j sj
i 1, 2, ...,m;j 1, 2, ...,n
(3) 极大值标准化
xij
max xij
i
xij
(i 1, 2, ...,m;j
1, 2, ...,n )
(4)极差标准化
xij
maxxij minxij
第四节 系统聚类分析
1 、聚类分析原理
2 、系统聚类法 3 、系统聚类分析的SPSS实现
什么叫聚类分析
聚类(Clustering)就是将数据分组 成为多个类(Cluster)。在同一个类 内对象之间具有较高的相似度,不同 类之间的对象差别较大。
聚类的应用领域
经济领域:
帮助市场分析人员从客户数据库中发现不同的客户群,并 且用购买模式来刻画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 ……
二、系统聚类法
1、聚类分析对象的确定
聚类单元的选择应合理和具有可操作性
2、聚类要素的选择
又称聚类因子,它是聚类分析对象的各特征值,直接 影响分类结果的准确性和可靠性(例:班级的优劣的评 定)。
在土地利用规划分区中,为了使分区更加合理可行,必
须首先建立起土地利用规划分区指标体系。
土地利用规划分区指标体系分三大类: (1) 土地开发利用程度:土地利用率、垦殖指数、 园地指数、林地指数、牧草地指数、居民点及工矿用 地指数、交通用地指数、水域指数。 (2) 土地集约经营程度:人口密度、人均耕地、人 口城镇化水平。 (3) 土地利用效果: 人均粮食、粮食单产、单位土 地农业社会总产值、单位土地工业总产值。
i i
xij minxij
i
i 1, 2, ... ,m;j 1, 2, ... ,n
例4:下表给出了某地区九个农业区的七项指标
区 代 号 人均耕地 X1 /(hm2 人-1) 0.294 0.315 0.123 0.179 0.081 0.082 0.075 0.293 劳均 耕地X2 /(hm2 个-1 ) 1.093 0.971 0.316 0.527 0.212 0.211 0.181 0.666 水田 比重 X3 /% 5.63 0.39 5.28 0.39 72.04 43.78 65.15 5.35 复种 指数 x4 /% 113.6 95.1 148.5 111 217.8 179.6 194.7 94.9 粮食 单产x5 /(kg hm -2) 4 510.5 2 773.5 6 934.5 4 458 12 249 8 973 10 689 3 679.5 人均粮食 x6 /(kg 人-1 ) 1 036.4 683.7 611.1 632.6 791.1 636.5 634.3 771.7 稻谷占粮 食比重 x7/%
·
·
水田 比重 X3 /% 5.63 0.39 5.28 0.39 72.04 43.78 65.15 5.35
复种 指数 x4 /% 113.6 95.1 148.5 111 217.8 179.6 194.7 94.9
粮食 单产x5 /(kg hm -2) 4 510.5 2 773.5 6 934.5 4 458 12 249 8 973 10 689 3 679.5
(2)欧氏距离
d ij
x
n k 1
ik
x jk i, j 1,2,...,m
2
(3)明科夫斯基距离
p n d ij xik x jk i, j 1,2,...,m k 1 1 p
(4)切比雪夫斯基距离 当明科夫斯基距 离P→∞时,有
素 xj x1j x2j … xij … xmj
… … … … … … …
xn x1n x2n … xin … xmn
(1) 总和标准化
分别求出各聚类要素所对应 的数据的总和,以各要素的数据除以该要素的 数据的总和,即
xij
xij
x
i 1
m
i 1, 2, ... ,m;j 1, 2, ... ,n
D d ij 9*9
0 4.77 2.99 4.06 1.29 0.51
0 1.78 0 0.83 1.07 0 5.14 3.96 5.03 0 4.84 3.06 3.32 1.40
0
5、聚类分析
如何选取类间相似度量或距离是非常重要,它 是两类聚合为一类的依据。常用的方法有直接聚类 法、最短距离法、最大距离法、类平均距离法等。
step4 在第三步之后余下的元素中,除对角 线元素外,d43=d34=1.23为最小,将第三区和第 四区并为一类,划去第四行和第四列,此时第 3、 4、9区已并为一类
step5 在第四步之后余下的元素中,除对 角线元素外,d21=d12=1.52为最小,将1、2区 并为一类,划去第二行和第二列,此时第1、2、 8区已并为一类。 step6 在第五步之后余下的元素中,除对 角线元素外, d65=d56=1.78 为最小,将第五区 和第六区并为一类,划去第六行和第六列,此 时5、6、7区已并为一类。
0.84
0.10 0.15
0.13
0.43 0.00
1.00
0.09 0.00
4、距离的计算
距离是事物之间差异性的测度,是系统聚类分 析的依据和基础,常见的距离包括
(1)绝对值距离
dij xik x jk i, j 1,2,...,m
k 1
n
式中,dij代表第i个对象与第j个对象之间的距离;xik 代表第i个对象第k个要素的特征;xjk代表第j个对象第 k个要素的特征值;k代表要素个数。
生物学领域
推导植物和动物的分类; 对基因分类,获得对种群的认识
数据挖掘领域
作为其他数学算法的预处理步骤,获得数据分布状况,集 中对特定的类做进一步的研究
聚类分析原理介绍
聚类分析中“类”的特征: A、聚类所说的类不是事先给定的,而是根据数据的 相似性和距离来划分 B、聚类的数目和结构都没有事先假定 聚类方法的目的是寻找数据中: 潜在的自然分组结构a structure of “natural” grouping 感兴趣的关系relationship
dij max xik x jk i,j 1, 2, ...,m
k
根据例4的数据,用绝对值距离计算出九个农业区之间的 绝对值距离矩阵如下:
0 1.52 3.10 2.19 5.86 4.72 5.79 1.32 2.62 0 2.70 1.47 6.02 4.46 5.53 0.88 1.66 0 1.23 3.64 1.86 2.93 2.24 1.20
(1)直接聚类法 直接聚类法,是根据距离矩阵的结构一次并 类得到结果,是一种简便的聚类方法。
具体方法
先把各个分类对象单独视为一类,然后根据距离最小
的原则,依次选出一对对象,并成新类。如果其中一
个分类对象已归于一类、则把另一个也归入该类;如
果一对分类对象正好属于已归的两类,则把这两类并
为一类。每一次归并,都划去该对象所在的列和与列
3、聚类要素的数据处理
被聚类对象常常是多个要素构成的, 不同要素的数据往往具有不同的单位和量 纲。因此在进行聚类分析之前,首先要对
聚类要素进行标准化处理。
例4:下表给出了某地区九个农 业区的七项指标
区 代 号 人均耕地 X1 /(hm2 人-1) 0.294 0.315 0.123 0.179 0.081 0.082 0.075 0.293 劳均 耕地X2 /(hm2 个-1 ) 1.093 0.971 0.316 0.527 0.212 0.211 0.181 0.666
序相同的行。经过m-1次就可以把分类对象归为一类。 这样就可以根据归并的先后顺序作出聚类谱系图。
根据例4的距离矩阵,用直接聚类法对该地区九个 区进行聚类分析
step1 在距离矩阵D中,除对角线元素外, d49=d94=0.51为最小,故将第四区和第九区并为一 类,划去第九行和第九列 step2 在余下的元素中。除对角线元素外, d75=d57=0.83为最小。将第五区和第七区并为一 类,划去第七行和第七列
用绝对值距离计算出九个农业区之间的绝对值距离矩阵如下:
0 1.52 3.10 2.19 5.86 4.72 5.79 1.32 2.62 0 2.70 1.47 6.02 4.46 5.53 0.88 1.66 0 1.23 3.64 1.86 2.93 2.24 1.20
D d ij 9*9
step7 在第六步之后余下的元素中,除对 角线元素外,d31=d13=3.10为最小,将第一区和 第三区并为一类,划去第三行和第三列。此时 第1、2、3、4、8、9区已并为一类。 step8 在第七步之后余下的元素中除对角 线元素外 d51=d15=5.86 为最小,将第一区和第五 区并为一类,划去第五行和第五列。此时第1、 2、3、4、5、6、7、8、9区已并为一类。
一 聚类分析原理
研究多要素事物分类问题的 数量方法,是定量地研究地 理事物分类问题和地理分区 问题的重要方法。
聚类分析
基本原理:根据样本自身属性,用数学方法按照
某种相似性或差异性指标,定量地确定样本之间
的亲疏关系,并按照这种亲疏关系程度对样本进
行聚类。
常见的聚类分析方法:
系统聚类法、动态聚类法、模糊聚类法等。
计算原来各类与新类之间的距离,这样就得到一个
新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小 这样一直下去,直至各分类对象被归并为一类。
者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,
人均粮食 x6 /(kg 人-1 ) 1 036.4 683.7 611.1 632.6 791.1 636.5 634.3 771.7
·
·
稻谷占粮 食比重 x7/%
G1 G2 G3 G4 G5 G6 G7 G8
12.2 0.85 6.49 0.92 80.38 48.17 80.17 7.8
G9
0.167
·
·
·
·
G1 G2 G3 G4 G5 G6 G7 G8
12.2 0.85 6.49 0.92 80.38 48.17 80.17 7.8
G9
0.167
0.414
2.9
94.8
4 231.5
574.6
1.17
用极差标准化处理后得
区代号 G1 G2 G3 x1 0.91 1.00 0.20 x2 1.00 0.87 0.15 x3 0.07 0.00 0.07 x4 0.15 0.00 0.44 x5 0.18 0.00 0.44 x6 1.00 0.24 0.08 x7 0.14 0.00 0.07
0 4.77 2.99 4.06 1.29 0.51
0 1.78 0 0.83 1.07 0 5.14 3.96 5.03 0 4.84 3.06 3.32 1.40
0
step3 在第二步之后余下的元素中,除对角 线元素外,d82=d28=0.88最小,将第二区和第八区 并为一类,划去第八行和第八列