空间聚类的研究现状及其应用_戴晓燕
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
空间聚类的研究现状及其应用*
戴晓燕1 过仲阳1 李勤奋2 吴健平1
(1华东师范大学教育部地球信息科学实验室 上海 200062)
(2上海市地质调查研究院 上海 200072)
摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。
关键词 空间聚类 K-均值法 散度
1 前言
随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。
空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。
空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。
本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。
2 划分法
设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。
K-均值法[3]根据簇中数据对象的平均值来计算
———————————————
*基金项目:国家自然科学基金资助。(资助号:
40371080)
收稿日期:2003-7-11
第一作者简介:戴晓燕,女,1979年生,华东师范大学
地理系硕士研究生,主要从事空间数
据挖掘的研究。
·
41
·
2003年第4期 上海地质
Shanghai Geology
相似度,将簇中对象的平均值(或称为质心)作为簇中心。算法首先在n 个数据对象中随机选择k 个对象,每个对象代表了一簇的平均值;对余下的每个对象,根据其与各个簇中心的距离,按距离最小的原则,将它们分配给最近的簇;在此基础上,重新计算每个簇的平均值;如此往复,直到误差平方和的值最
小,即:E =∑k
j =1
∑i l ∈Cj ︳i l -w j ︳2的值最小,此时,簇中的成员不再发生变化。式中,il 是给定的数据对象,wj 是簇Cj 的平均值。其时间复杂度为O (nkt ),其中,n 是数据对象的个数(下同),k 是簇的个数(下同),t 是迭代次数。该法在实际工作中得到了广泛的应用。例如,Lucchese 和Mitra 利用K -均值法实现了对彩色图像的非监督分割
[4]
;Linde 和Buzo
等人则在对K -均值法修改的基础上,提出了用于图像压缩的LB G 算法[5];Tapas 和David 等人根据kd -树的数据结构特征对K -均值法进行了改进,提出了一种简单而有效的过滤算法(filtering algo -rithm )[6],并将它应用于色彩定量化、数据压缩和图像分割,取得了较好的效果。此外,Steinbach 的研究也表明,分层划分的K -均值法也适合于文本聚类[7]。然而,运用该法进行聚类时,其缺点是容易陷入局部最优解,很难找到全局最优解,且对噪声和异常数据敏感,因而限制了其应用范围。
K -中心法将簇中位置最中心的对象作为簇中心,其目的是消除K -均值法对于孤立点的敏感性。
例如,PAM (Partitioning around Medoid )[8]
是一种早期
提出的K -中心法,该法首先从n 个数据对象中随机选择k 个对象作为初始中心点,进而分析所有可能的对象对,用产生误差平方和值减少的对象代替原来的中心点;迭代过程中产生的最佳对象集就成为下次迭代的中心点,直到误差达到最小。其每步
迭代的时间复杂度为O (k (n -k )2)。与K -均值法
相比,其效率较低。
与前述方法相比,基于选择的方法CLARA
(Clustering Large Applications )[8]
则适合处理数据量较大的情形。计算过程中,首先从数据库中随机提取多个样本,对每个样本应用PAM 法选择中心点,在此基础上,选择误差值最小的中心点集合,将误差最小的聚类结果作为输出。聚类的质量即平均相异度根据整个数据集中的所有对象计算。CLARA 法每步迭代的时间复杂度为O (ks 2+k (n -k )),其中,s
是样本的大小。然而,运用该法聚类时,若采样的均匀性较差,那么,基于样本的最优聚类结果并不能代表整个数据集合的最优聚类,因而就不能得到最佳的聚类结果。
而ClARANS (Clustering Large Applications based
upon Randomized Search )[9]
法则是一种基于随机搜索
的方法,其优点是一方面改进了CLARA 的聚类质量,另一方面拓展了数据处理量的伸缩范围。CL AR ANS 法与CL ARA 法的本质区别在于CLARA 法在搜索的开始是抽取节点的样本,而CLARANS 法在搜索的每一步是抽取邻居的样本。Ng 与Han 的研究表明[9],与PAM 和CLARA 法相比,Cl A R ANS 法的聚类效果明显占优,但其时间复杂度仍为O (n 2
),因此,低效仍是其存在的缺点之一。为此,Ester 等人在已有研究的基础上,利用R *-树和聚焦技术来改善其效率[10],取得了明显的成效。
此外,Ng 与Han 对ClARANS 法进行了改进,提出了空间属性占优法(Spatial Dominant Approach )和非空间属性占优法(Non -Spatial Dominant Ap -proach ),其主要思想是假定输入的空间数据库同时包含空间属性和非空间属性数据,利用CLARANS 法来处理空间属性数据,用DBLE AR N 法来处理非空间属性数据。DBLE AR N 的实质就是从非空间属性数据中挖掘出有用的信息和知识,根据学习要求,首先用SQL 查询抽取相关维的一个集合,随后,在属性概念分层的基础上循环地概括维。空间属性占优法首先利用CLAR ANS 法进行空间聚类,并用启发式算法来确定簇的自然个数,然后利用DB LE ARN 对每个簇进行非空间属性概括,它侧重于发现空间簇的非空间特征。与空间属性占优法不同,非空间属性占优法侧重于发现存在于非空间数据集中的空间簇。算法首先使用DBLEAR N 对非空间属性进行概括,在此基础上,运用CLAR ANS 法进行空间聚类。Ng 与Han 通过对Vancouver 地区住房单元数的聚类研究表明,运用这两种方法来处理空间属性数据,效果十分明显[9]。
3 层次法
该法通过对给定的数据对象集按层次进行分
解,形成一棵以数据子集为节点的树。层次法可分为凝聚和分裂两类方法。运用凝聚法进行聚类时,
·42· 上海地质
Shanghai Geology 总第88期