基于栅格数据的空间聚类

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于栅格数据的空间聚类

作者:李敏

来源:《信息安全与技术》2013年第06期

【摘要】空间聚类是GIS空间分析的主要内容之一,传统矢量空间聚类算法存在数据冗余、结果不直观等弊端,介绍了基于栅格数据的空间聚类,并且针对现下主流的网格和密度方法的聚类算法存在效率和质量问题,提出了与栅格相结合的聚类挖掘算法,以期得到时间效率和聚类质量上的提高。

【关键词】栅格;空间聚类;地图代数;距离变换

1 引言

空间聚类是GIS空间分析的主要内容之一,近几年来,随着空间数据挖掘研究的发展,空间聚类对于海量数据处理、大型空间数据库中有用信息和知识的提取等方面具有十分重要的意义。传统观念上,由于矢量数据模型对于现实世界中的抽象描述与表达更符合人的思维习惯,其分析方法自然采用了矢量途径,而对于栅格途径相应的研究及成果却少见;所见的国外文献中,大多限于栅格途径“ 可行性” 的研究,没有对其进行系统、深入的探讨。

传统的空间聚类算法都是基于矢量数据的,矢量空间分析方法具有简单、易操作的特点,但同时存在数据冗余、难以向高维和全形态扩展的缺点,为此本文着重于介绍基于栅格距离变换的空间聚类算法及其在各个领域的应用。

2 基于栅格的空间聚类算法

从空间聚类的算法过程来看,可以分为系统聚类、逐步分解和判别聚类。系统聚类由各点自成一类开始,逐步合并至一个适当的分类数目。与此相反,则为逐步分解。判别聚类是先确定若干聚类中心,然后逐点比较以确定各离散点的归属。从一般聚类的算法特征上看,目前主要有划分法(如K-means、K-medoids等)、层次法(如AGNES、BIRCH_l等)、基于密度的方法(如DBSCAN、DENCLUE等)和基于网格的方法(如STING等)。常用的空间聚类分析统计量有分布密度、相关系数、夹角余弦、指数相似系数、欧氏距离、绝对值距离、切比雪夫距离、兰氏距离、马氏距离、斜交空间距离、非参数方法等l0余种,尤以最短欧氏距离最为常用。本文就简单介绍基于最短欧式聚类的空间聚类栅格算法。

地图代数以栅格点集严密的量度作为其理论和方法论述的起点,来度量空间距离。其距离变换的核心是建立栅格平方平面,坐标值在栅格平面上均为整数,距离值与横纵坐标的平方和为一一映射关系,由于欧式距离需要开平方,为了增加计算精度,用距离平方值代替距离值参与运算。设距离平方值记为SqD,每个栅格单元的SqD值需要根据周同的8领域栅格单元的SqD来判断。这8个栅格单元的SqD值按图3依次标记为SqD1,SqD:,…, SqD8。

据此其变换的步骤为:

①赋所有实体点为0值,并赋所有非实体空间点为一足够大的正数M;②顺序访问,即行号由0,l,2,…递增,列号由0,l,2,…递增,按下式改写各点平方值:SqD(0,0)=0,SqD(i,j) =MIN(SqDl(i,J),SqD2(i,j),SqD3(i,j),SqD4(i,j),SqD (i,j));③逆序访问并改写各点平方值:SqD(i,j) =MIN(Sqi)5(i,j),SqD6(i,j),SqD7(i,j),SqD8(i,j),SqD(i,j));④改写各点距离平方值为距离值:c(i,j) =INT{[SqD(i,j)] +0.5}。

经过地图代数栅格距离变换后的整个栅格空间被颜色不同的象素所填充,我们将其称为距离波,用黑线将那些色度值相同的栅格连接起来就构成了等距线。这些等距线与空间点集之间的关系就可以揭示空间聚类过程。经计算过后,各计算点被从最小距离到最大距离之间的间隔为1的等距线包围,然后就可以根据不同的条件(等距线数值)聚类。

3 与其他算法的结合

空间聚类(Spatial Clustering)是空间数据挖掘的重要组成部分,是聚类研究在空间数据分析中的应用.空间聚类应用广泛,如地理信息系统、生态环境、军事、市场分析等领域。通过空间聚类可以从空间数据集中发现隐含的信息或知识,包括空间实体聚集趋势、分布规律和发展变化趋势等。

3.1 研究现状

目前国内外对聚类挖掘算法的研究众多,其中基于网格的聚类算法和基于密度的聚类算法成为聚类算法中最重要的两种方法。

基于网格的聚类方法主要采用网格技术对空间进行划分,以单一的网格对象作为聚类处理目标,忽略其内部的所有数据属性。这样处理的一个突出优点就是速度快、聚类效率高。但是利用网格技术存在的最大问题是没有涉及聚类边界点的处理,可能造成聚类边界对象的丢失,导致聚类精度的降低。

而基于密度的聚类方法是将簇视为对象空间中被低密度区域分割开的高密度对象区域。此方法主要的优点就是可以发现任意形状的类簇,但是对主存要求较高,主要由于在密度聚类过程中对每一个对象必须与其他对象求解其距离。因此,合理地设计出质量精确和时间效率高的聚类算法,成为数据挖掘领域迫切需要解决的问题,也是一个难点问题。

3.2 算法结合

虽然基于栅格的本身隐含了拓扑关系这种特性,避免了很多情况下矢量数据初始化大量的工作,但是现在处理数据还是以矢量较多。我们可以将栅格聚类融于网格聚类和密度聚类中,进一步简化算法。

以密度聚类为例,栅格单元进行局部密度聚类后,生成的局部聚簇,需将原本属于一类的两个不同分区局部聚簇进行聚簇合并。该算法将对每一个栅格单位进行密度聚类,这样对栅格单元中的小数据集进行聚类,大大提高了聚类效率。如果每个栅格单元都进行密度聚类,那么将大大增加聚类时间。因此,引入概念密度阈值DT来计算栅格空间中的密度大小,并衡量是否需要进一步DBSCAN 密度聚类。设d 维空间的点集P ={p1 ,p2 ,…,pn },当数据对象pi 划分到栅格单元G 时,设置一个阈值minpts,若划分到某一栅格单元中的数据量大于或等于minpts,则是高密度栅格单元;反之,则是低密度栅格单元。这个minpts称为密度阈值DT。如果栅格单元中的数据量小于密度阈值时,那么将不进行DBSCAN 聚类分析,并将数据对象标记为全局噪声点,这样无须对小数据集进行密度聚类,大大减少了聚类时间,从而降低时间复杂度;反之,若栅格单元中的数据量大于密度阈值时,那么将用DBSCAN 对栅格空间进行聚类分析。而实验结果也表明融入栅格技术可以使密度聚类算法获得更高的聚类效率,保留DBSCAN密度聚类算法,可以保证聚类结果的一致性。

4 结束语

空间聚类分析是从总体、全局的角度来描述空间变量和空间物体的特性,在空间数据量日益海量化的现代GIS中,简单、直观进行空间聚类分析具有重要的意义。地图代数以点集变换与运算的代数观念来全面而本质地阐述图形符号的可视化及空间分析。本文只是对栅格数据的空间聚类算法进行初步的介绍,提出将栅格聚类与其他聚类方法融合的思路,寻求优势互补,提高计算的精确度和成功率。

密度聚类的网格聚类的基本单元都可视为点,这为算法互补提供了基础,而栅格距离变换后的特征点、线蕴藏着更深的空间关系,有待进一步地发掘。

参考文献

[1] 耿协鹏,胡鹏.基于最短欧式距离的空间点集聚类的栅格算法 [J].测绘科学,2008,33(3):35-37.

[2] 柳盛,吉根林.空间聚类技术研究综述[J].南京师范大学学报(工程技术版),2010,10(2):57-62.

[3] 郭金来,胡鹏.网络最短路径的地图代数栅格算法[J].测绘科学,2007,32(1):109-111.

[4] 熊仕勇.一种新型的基于密度和栅格的聚类算法[J].计算机应用研究,2011,28(5):1721-1724.

[5] 胡鹏,游涟,杨传勇.地图代数[M].武汉:武汉大学出版社,2001:117—136.

相关文档
最新文档