聚类分析及其应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 2 i m
xm 2 xmj
常用的聚类要素的数据处理方法有如下 几种:
① 总和标准化。分别求出各聚类要素所对应的 数据的总和,以各要素的数据除以该要素的数 据的总和,即 xij xij m (i 1,2,, m; j 1,2,, n) xij
i 1
这种标准化方法所得到的新数据满足:
基本步骤:
(1)每个样品为一类,计算各 样品之间的距离系数。 (2)把距离最小的两类合并为 一类。 (3)计算新的各类间的距离。 (4)重复(2)、(3)步直到 合并为一类止。
3、中间距离法
中间距离法是介于最短距离法和 最长距离法之间的方法。它在计 算两类之间的距离时,既不取最 远的两点,也不取最近的两点, 而是取中间距离 。
i
(i 1,2,, m; j 1,2,, n)
经过这种标准化所得的新数据,各要素的极 大值为1,极小值为0,其余的数值均在0与1之间。
2、距离的计算
• 距离是事物之间差异性的测度,差异性越 大,则相似性越小,所以距离是系统聚类 分析的依据和基础。 • 如果把每一个分类对象的n个聚类要素看成 n维空间的n个坐标轴,则每一个分类对象 的n个要素所构成的n维数据向量就是n维空 间中的一个点。 • 这样,个分类对象之间的差异性,就可以 由它们所对应的n维空间中点之间的距离量 度。
64.609 62.804 60.102 68.001 60.702 63.304 54.206 55.901 54.503 49.102
968.33 957.14 824.37 1 255.42 1 251.03 1 246.47 814.21 1 124.05 805.67 1 313.11
181.38 194.04 188.09 211.55 220.91 242.16 193.46 228.44 175.23 236.29
二、聚类要素的数据处理
在聚类分析中,聚类要素的选择是十 分重要的,它直接影响分类结果的准确性 和可靠性。
在地理分类和分区研究中,被聚类的对象 常常是多个要素构成的。不同要素的数据 往往具有不同的单位和量纲,其数值的变 异可能是很大的,这就会影响分类结果。 因此当分类要素的对象确定之后,在进行 聚类分析之前,首先要对聚类要素进行数 据处理。
五、其他聚类方法概述
有序样品聚类法
要求样品按一定顺序排列,分类时不能打乱次 序。实质上是找一些分点,将有序样品划分为几 个分段,每个分段看做一个类。显然,分点取在 不同的位置就可以得到不同的分割。
(i, j 1,2,, m)
④ 切比雪夫距离。当明科夫斯基距 p→∞时,有:
d ij max xik x jk
k
(i, j 1,2,, m)
三、系统聚类方法
最短距离法 最长距离法 中线法(中间距离法) 可变法 重心法 组平均法(类平均法) 距离平方和法(离差平方和法) 可变数平均法
假设有m 个聚类的对象,每一个聚类对象都有n个 要素构成。它们所对应的要素数据可用下表给出。
要 聚 类 对 象 素
x1
x11 x21 xi1 xm1
x2 x j xn
x12 x22 xi 2 x1 j xij x1n xin xmn x 2 j x2 n
5.402 5.79 8.413 3.425 5.593 8.701 12.945 12.654 8.461 10.078
某农业生态经济系统各个区域单元的有关数据 ,下面我们运用系统聚类法,对该农业生态经 济系统进行聚类分析,步骤如下:
(1)用标准差标准化方法,对9项 指标的原始数据进行处理; (2)采用欧氏距离测度21个区域单 元之间的距离; (3)选用组平均法,计算类间的距 离,依据不同的聚类标准(距离),对 各样本(各区域单元)进行聚类,并作 出聚类谱系图。
图 某农业生态经济系统区域单元的系统聚 类(组平均法)谱系图
从聚类分析谱系图(图3.4.5)可以看出,在不同 的聚类标准(距离)下,聚类结果不同,当距离 标准逐渐放大时,21个区域单元被依次聚类。 当距离为0时,每个样本为单独的一类; 当距离为5,则21个区域单元被聚为16类; 当距离为10,则21个区域单元被聚为9类; 当距离为15,则21个区域单元被聚为5类; 当距离为20,则21个区域单元被聚为3类; 最终,当聚类标准(距离)扩大到25时, 21个区域单元被聚为1类。
聚 类 分 析 及 其 应 用
目录
一 、 二 、 三 、
基本思路
聚类要素的数据处理
系统聚类方法原理
四 、
五 、
实例分析
其他聚类方法概述
什么是“聚类”? 根据同类事物应具有相近特性而不 同事物在这些事物上的差异较大的假定 ,将所研究的事物进行分类,这种研究 方法叫做聚类“Cluster”. 聚类方法广泛应用于经济社会研究 当中,如自然区域类型划分、经济区域 类型划分、地区系统影响因子的划分等 等。
x
i 1
m
ij
1
( j 1,2, , n)
② 标准差标准化,即Z分数法
xij
xij x j sj
(i 1,2,, m; j 1,2,, n)
由这种标准化方法所得到的新数据,各要 素的平均值为0,标准差为1,即有
1 m x j xij 0 m i 1 1 m sj ( xij x j ) 2 1 m i 1
2、地学中的实例分析
(1)遥感应用:以最小距离分类法为例 包括最小距离判别法及最近领域分类法。二者 共同的特点如下: 缺点:原理简单,分类精度不高 优点:计算速度快,可在快速浏览分类概况 中使用
2、地学中的实例分析
(2)DEM及地学分析中的应用: 地貌十分复杂,地貌分类是其研究基础。DEM 的应用为地貌学定量化的研究提供了强有力的 数据支持,大大提高了地貌分类的精度和速度 。实现了由定性向定量的转变。 系统聚类方法可应用于DEM的地貌分类之中, 它根据地理要素间的相似程度,逐步合并为若 干类别。 本节重点——聚类在空间分析上的应用
常见的距离有:
① 绝对值距离
d ij xik x jk
n
(i, j 1,2,, m)
② 欧氏距离
d ij
n
i 1
( xik x jk ) 2
k 1
(i, j 1,2,, m)
③ 明科夫斯基距离
p n d ij xik x jk k 1 1 p
人均耕地 面积x 森林覆盖 农民人均纯收 样本 人口密度 -2 2 序号 x 1 /(人.km ) 率x 3 /% 入x 4 /(元.人-1 ) 2 /hm 1 2 3 4 5 6 7 8 9 10 11 363.912 141.503 100.695 143.739 131.412 68.337 95.416 62.901 86.624 91.394 76.912 0.352 1.684 1.067 1.336 1.623 2.032 0.801 1.652 0.841 0.812 0.858 16.101 24.301 65.601 33.205 16.607 76.204 71.106 73.307 68.904 66.502 50.302 192.11 1 752.35 1 181.54 1 436.12 1 405.09 1 540.29 926.35 1 501.24 897.36 911.24 103.52
12 13 14 15 16 17 18 19 20 21
51.274 68.831 77.301 76.948 99.265 118.505 141.473 137.761 117.612 122.781
1.041 0.836 0.623 1.022 0.654 0.661 0.737 0.598 1.245 0.731
一、基本思路
概念:根据地理变量(或指wk.baidu.com或样品)的属
性或特征的相似性、亲疏程度,用数学的方 法把它们逐步地分型划类,最后得到一个能 反映个体或站点之间、群体之间亲疏关系( 相似程度)的分类系统。 基本特点:事先无需知道分类对象的分类结 构,而只需要一批地理数据;然后选好分类 统计量,并按一定的方法步骤进行计算;最 后便能自然地、客观地得出一张完整的分类 系统图。
③ 极大值标准化,即
xij xij max{xij }
i
(i 1,2,, m; j 1,2,, n)
经过这种标准化所得的新数据,各要素的极 大值为1,其余各数值小于1。 ④ 极差的标准化,即
xij maxxij minxij
i i
xij minxij
实例:实现我国基本地貌类型的定量化及自动分类
概述:应用系统聚类思想,结合遥感影像的监督、非监督分类法 ,利用我国1:100万DEM数据,有效地实现了我国基本地貌 类型的定量化及自动分类。 基本过程 选取地形起伏度、地表切割度、高程变异系数、地表粗糙度 、平均高程、平均坡度六个地形因子 按极差标准化法对因子进行标准化处理,将标准化后的各因 子作为单波段图像 按平均高程、地形起伏度、地表切割度、粗糙度、高程变异 系数、平均坡度的顺序分别放入6个通道中,组合成多波段图 像 采用遥感中的ISODATA算法进行非监督分类 选择典型样区进行训练,采用Bayes最大似然法作监督分类, 实现对地貌的自动划分 通过分层采样法对实验结果进行精度评估 返回
4、可变法
如果将中间距离法递推公式中前两项系数也改成依赖 于可变参数β。 5、重心法 从物理的观点来看,某一类在m维空间的位置用它的 重心(即该类样品向量的平均值)作代表比较合理。类与 类的距离用它们重心之间。 6、类平均法(组平均法) 重心法虽然有较好的代表性,但它未充分利用各样品 的信息,为此有人用两类元素两两之间平均值来定义两类 件距离的平方和。 7、距离平方和法(离差平方和法) 因为首先由Ward提出,故称Ward法。 8、可变数平均法
四、实例分析 1、统计学中的实例分析
表
某农业生态经济系统各区域单元的有关数据
经济作物 人均粮食 占农作物 耕地占土 果园与林 产量x 5 播面比例 地面积比 地面积之 /(kg.人-1 ) x 6 /% 率x 7 /% 比x 8 /% 295.34 452.26 270.12 354.26 586.59 216.39 291.52 225.25 196.37 226.51 217.09 26.724 32.314 18.266 17.486 40.683 8.128 8.135 18.352 16.861 18.279 19.793 18.492 14.464 0.162 11.805 14.401 4.065 4.063 2.645 5.176 5.643 4.881 2.231 1.455 7.474 1.892 0.303 0.011 0.012 0.034 0.055 0.076 0.001
2、地学中的实例分析
(2)DEM及地学分析中的应用——总结 相似性统计量
• 描述要素间相似程度较常用的指标 • 包括:距离系数,相似系数和相关系数三个量
系统聚类分析的一般步骤:
• 数据转换 • 计算相似系数矩阵 • 分类
关于系统聚类方法的总结—— 系统聚类分析的基本思想: • 假定研究对象存在不同的相似程度,根据观 测样找出并计算度量因子间相似程度的统计 量,eg距离系数 • 按相似性统计量大小,将相似程度大的聚合 到一类,关系疏远的聚合到另一类 • 直到把所有的样品都聚合完毕 • 形成一个由小到大的分类系统 了解:其它聚类方法
4.005 9.11 19.409 11.102 4.383 10.706 11.419 9.521 18.106 26.724
4.066 4.484 5.721 3.133 4.615 6.053 6.442 7.881 5.789 7.162
0.015 0.002 5.055 0.01 0.011 0.154 0.012 0.069 0.048 0.092