空间数据挖掘的常用方法

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

空间数据挖掘的常用方法

4.1 空间分析方法

空间分析是指利用GIS的各种空间分析模型和空间操作对空间数据库中的数据进行深加工，从而产生新的信息和知识，其结果取决于被分析对象的位置，可采用拓扑结构分析、空间缓冲区及距离分析、叠置分析等方法，旨在发现目标在空间上的相连、相邻和共生等关联关系。这些技术不仅需要获取对象的位置，还需要知道对象的属性。GIS数据库中的空间数据提供了空间分析所需要的位置，非空间数据提供了对象的属性数据，因此 GIS数据库提供了空间分析所需要的各种数据，可以进行空间分析。

空间分析的主要目的是从空间关系中开发数据，以得到空间的内部关系并加以理解。例如空间分析中的探测性空间分析方法不仅可以揭示空间数据库中许多非直观的内容，如空间异常点、层次关系、时域变化及空间交互模型，还可以揭示用传统的地图不能辨明的数据模式和趋势。

为了达到此目的，空间分析应利用和开发GIS及其数字环境。在这种数字环境中，数据的比例尺寸能够很方便地改变，能放下层次间的不连续性，还能将不同的数据媒介如文字、声音、图形和影像联结在一起。此外，数字环境要能提供物体间更广泛的联系，因为地图上只是表明了物体空间上的接近及邻近关系，而不能提供物体间的相互作用，以及文化、贸易和社会网络的联系。在面向对象的环境中，属性和空间数据统一在一个对象中存储和管理，以上这些想法相对而言更易于实现。从现实来看，地理位置与地形、土壤、植被及气候等要素是紧密相关的，相互制约的。所以说属性与空间数据是一对矛盾统一体，如果能找到属性形成与空间分布的对应关系，那么若已知某一对象的属性则可知道其相应的空间分布，若已知其空间分布情况，则也可以根据其对应关系知道其相应的属性。 4.2 统计的方法统计的方法一直是 DM中最主要的方法，有着较强的理论基础，拥有大量的算法，可有效地处理数字型数据，在 AI领域的关系数据库中它已经得到了充分的利用，它还可以用于空间数据库中。这类方法有时需要数据满足统计不相关假设，但很多情况下这种假设在空间数据库中难以满足，另外，统计方法还难以处理字符型数据。

应用统计方法需要有领域知识和统计知识，一般由具有统计经验的领域专家来完成。如在遥感影像分析中，对影像进行监督分类和非监督分类，都是利用统计的方法得出影像模式后，再按此模式对影像分类。实际上，遥感影像的计算机自动分

类也可算是较简单的 DM过程，只是其数据为一些以栅格方式存储的影像数据，而不是像关系数据库中的数据那样以关系元组的方式存储。 4.3 归纳和演绎的方法

归纳方法是一种逻辑方法，是从数据库中获取知识的最基本的方法，即从多个已存在的事实中归纳出规则。在 GIS中，无论是属性数据还是空间拓扑关系，若进行抽象和概括时，均可用到此方法。大部分算法归纳学习的算法来源于机器学习领域，有很多算法:如Michaski等的AQ11、AQ15，洪家荣等的AE1、AE9，lHunt的CLS，Quinlan的ID3、 C5.0等，其中最著名的是Quinlan提出的,5.0决策树算法。

归纳法一般需要背景知识，常以概念树的形式给出。在GIS数据库中，可有属性概念树和空间关系概念树两类。背景知识由用户提供，在有些情况下也可以作为知识发现任务的一部分自动获取。如在对游牧民族地区草资源调查中，通过相邻分析，便可归纳出只要有蒙古包，其周围都有草地，且附近必有淡水湖泊。这样的规则完全可以从 GIS数据库中发现，并用于以后的遥感调查和建立新的GIS。 4.4 聚类与分类的方法

聚类和分类方法按一定的距离或相似性系数将数据分成一系列相互区分的组。分类和聚类都是对目标进行空间划分，划分的标准是类内差别最小而类间差别最大。分类和聚类的区别在于分类事先知道类别数和各类的典型特征，而聚类则事先不知道。聚类分析方法按一定的距离或相似性测度将数据分成一系列相互区分的组，它与归纳法不同之处在于不需要背景知识而直接发现一些有意义的结构与模式。经典统计学中的聚类分析方法对属性数据库中的大数据量存在速度慢、效率低的问题，对图形数据库应发展空间聚类方法。常用的经典聚类方法有Kmean、Kmeriod和ISO DATA等。

4.5 探测性的数据分析

李德仁、邸凯昌等提出的探测性的数据分析，简称EDA，采用动态统计图形和动态链接窗口技术将数据及其统计特征显示出来，可发现数据中非直观的数据特征及异常数据。

EDA与空间分析相结合，构成探测性的空间分析(简称ESA)。EDA和ESA技术在知识发现中用于选取感兴趣的数据子集，即数据聚焦，并可初步发现隐含在数据中的某些特征和规律。

4.6 粗集(Rough集)方法

粗集理论是波兰华沙大学Z.Pawlak教授在1982年提出的一种智能数据决策分析工具，被广泛研究并应用于不精确、不确定、不完全的信息的分类分析和知识获取。

粗集理论为GIS的属性分析和知识发现开辟了一条新途径，可用于GIS数据库属性表的一致性分析、属性的重要性、属性依赖、属性表

简化、最小决策和分类算法生成等。

粗集理论与其它知识发现方法相结合，可以在GIS数据库中数据不确定情况下获取多种知识。例如，在经过统计和归纳从原始数据得到普遍化数据的基础上，粗集用于普遍化数据的进一步简化和最小决策算法生成，使得在保持普遍化数据内涵的前提下最大限度地精练知识。

4.7 云理论

云理论是李德仁、邸凯昌等为解决模糊集在隶属度概念上的不确定性而提出的一种新理论，由云模型、不确定性推理和云变换3大支柱构成，包括云模型、虚云、云运算、云变换和不确定性推理等主要内容。

云理论将模糊性和随机性结合起来，解决了作为模糊集理论基石的隶属函数概念的固有缺陷，为KDD中定量与定性相结合的处理方法奠定了基础。运用云理论进行空间数据挖掘，可进行概念和知识的表达、定量和定性的转化、概念的综合与分解、从数据中生成概念和概念层次结构、不确定性推理和预测等。

4.8 空间特征和趋势探测方法

这是Ester等人在第4届KDD国际研讨会(1998)上提出的基于邻域图(neighborhood graphs)和邻域路径(neighborhood path)概念的挖掘算法。

Ester等将一个空间特征定义为空间数据库中具有空间/非空间性质的目标对象集，并以非空间属性值出现的相对频率和不同空间对象出现的相对频率(目标对象集相对于整个数据库)作为感兴趣的性质，从空间目标集合经过它的相邻扩展后的集合中，发现相对频率的明显不同，以此提取空间规则。

空间趋势探测挖掘是从一个开始点出发，发现一个或多个非空间性质的变化规律。这种算法的效率在很大程度上取决于其处理相邻关系的能力。

4.9 数字地图图像分析和模式识别方法

空间数据库(数据仓库)中含有大量的图形图像数据，一些图像分析和模式识别方法可直接用于挖掘数据和发现知识，或作为其他挖掘方法的预处理方法。