地理空间数据不确定性与研究报告进展

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

地理空间数据不确定性与研究进展
王春,汤国安,赵牡丹,王雷,张婷
<西北大学城市与资源学系，陕西西安，710069）
摘要：在介绍空间数据不确定性概念、研究意义与常用的研究理论与方法的基础上，回顾了地理空间数据不确定性研究的历程，对地理空间数据不确定性研究的现状、所取得的主要成果问题进行了总结。

分析了当前空间数据不确定性研究中所存在的基本问题：研究的内容与研究方法缺乏整体性与总览性，研究的对象与应用目标还不够明确。

建议在今后的研究中应着重于：细化地理空间数据不确定性的内容；强化地理空间数据应用的不确定性研究；研究方法上注重多种理论和方法综合使用，以建立不确定性数据处理模型为其出发点和基础。

关键词：地理空间数据；不确定性；研究进展
中图分类号：TP391文献标识码：A文章编号：1000-274X(2004>0078-08
地理空间数据建设是国家空间数据基础设施<NSDI）建设的核心内容。

目前，世界上各主要发达国家都建立了较为完善的空间数据建设与更新技术体系，在我国各级测绘与基础地理信息中心的努力下，高精度、多尺度的国家基础地理数据库建设已经基本完成，可望在国民经济与国防建设中发挥重要的作用。

地理空间数据涉及的范围与种类很广，由于人类测量与表达能力的局限性，描述数据的模型也只能是对客观实体的一种近似，此外GIS的各种空间操作、处理等又会引入新的误差和不确定性，可以说误差的存在是各类观测与分析数据的基本特征。

这往往使得空间特征和空间过程很难被准确确定，从而直接关系到对GIS产品的质量控制，影响了空间数据的反演、多尺度和多角度数据分析和应用建模的效果。

因此，GIS 产品的质量如何，GIS输出成果的精度和可靠性是多少，GIS综合分析、推理所得结论的精确度和可信度是多少，GIS原始录入数据的误差和错误会不会严重干扰GIS对问题所作的结论等等，成为GIS用户关心的重要问题。

国际著名GIS专家曾强调指出：“没有以准确数据为基础的GIS分析的结论是不正确的，至少是不健全的”[1]；“不考虑质量的GIS能以相当快的速度生产各种垃圾，而这些垃圾看起来似乎精美无比”[2]。

因此，在GIS初步形成和产品化时，就提出了地理空间数据的不确定性问题，且被国际上列为地理信息科学界重大基础理论研究课题之一。

1误差与不确定性
误差通常被定义为观测数据与其真值之间的差异。

对于一组数据的误差来说，它们可能是随机误差或系统误差，系统误差在其数值大小和符号上呈现出一定的规律，而随机误差的数值大小或符号呈现着随机性，但它们之间也有其统计规律。

此外，在一组数据的误差中，还可能出现少量的异常值，或称之为粗
差。

误差是地理空间数据的固然属性，因为：①变化和模糊是自然界的两个固有属性，它们直接影响着GIS信息的准确表达；②由于观测条件的限制，利用测量设备进行的任何测量都不可避免地要引入误差；
③测量结果等描述数据的模型只能是客观实体的一种近似和抽象。

需要说明的是，通常情况下误差的大小并不能直接衡量地理空间数据质量的优劣，对于只含有随机误差的数据，人们一般用精度的概念来衡量。

即：精度高是指小误差出现的概率大，大误差出现的概率小；精度低是指小误差出现的概率小，大误差出现的概率大，数据的精度反映了数据误差的离散程度。

对于数据的不确定性，早在20世纪70年代初的电子测量和计量学的文献中就已经出现。

当时不确定性的实质其实仍主要指数据的误差，不确定性和误差常被任意选用，较多的还是使用误差这一简洁的概念。

随着现代测量技术的迅速发展，以及地理空间数据信息来源的多源化，考虑误差的范围也从数字上扩大到概念上，虽然以数值误差为主，但也要顾及不能用数值来度量的误差。

这样，传统的误差理论已远远不能满足需要，数据不确定性的研究逐渐得到重视。

时至今日，人们趋向于认为，数据不确定性<uncertainty）主要指数据“真实值”不能被肯定的程度[3,4]。

从这个意义看，数据不确定性可以看作是一种广义误差，但它比误差更具有包容性与抽象性，既包含随机误差，也包含系统误差；既包含可度量的误差，又包含不可度量的误差。

因此，数据的随机性、模糊性、未确定性、灰性等均可视为不确定性的研究内容。

从研究的具体形式看，地理空间数据不确定性的研究又可细分为：位置不确定性、属性不确定性、时域不确定性、逻辑一致性、数据完整性、不确定性的传播、不确定性的可视化表示等[5~12]。

地理空间数据不确定性研究的核心，就是建立一套不确定性分析和处理的理论体系和方法体系[6]。

未来的GIS在提供其产品的同时，应根据地理空间数据不确定性研究的成果，附带提供产品的质量指标，从而有效地指导GIS用户或其他空间数据使用者正确选择空间数据与空间分析模型的类型、正确制定合理的GIS空间分析技术路线、预估分析结果的精度与适用性，真正发挥GIS技术与空间数据的效能。

2研究的基础理论
地理空间数据误差来源的复杂性以及地理信息很难重复采样，使得地理空间数据不确定性既有空间位置的不确定性和空间属性数据的不确定性，还具有与其空间位置相关的结构性问题，同时尺度也是不确定性研究要考虑的因素。

不确定性问题是非线性复杂问题。

因此，除了经典误差理论、概率论、数理统计仍是研究该问题的理论基础外，还需要寻找证据理论、模糊数学、空间统计学、熵理论、云理论、信息论、人工智能等非线性科学理论的支持，随机几何学、分形几何学、神经网络、遥感信息模型等基于边缘学科的不确定性分析处理方法也逐渐受到重视[3~12]。

2.1基于概率论及数理统计的不确定性研究
这方面的理论主要有概率论、证据理论、空间统计学。

概率论主要用于处理由于随机误差而产生的不确定性。

在概率论中，不确定性被描述成在给定某些观测值的条件下某一假设成真的条件概率。

如在经典的测量理论中，点位误差的分布可看作二维正态分布或圆正态分布，一维点的不确定性指标用均方差表示，用点位中误差和误差椭圆代表平面点的不确定性模型。

概率论可以使用相当复杂的联合概率研究地理
空间数据不确定性问题，但此时它需要大量的概率观测值，并且概率论本身不提供其可靠性的度量指标，很多情况下人们很难找到一个概率值质量的描述指标。

证据理论也称Dempster-Shafer理论，是对传统概率论的一个扩展。

该理论的一个基本策略是把一个证据集合分解成一系列不相关的证据集合，在这些证据集合中分别作判断，最后利用Dempster结合规则将这些判断结合起来。

在证据理论中，样本为真的概率量测值由满足这一假设的可获得的证据的概率来代替，它是基于可信度和可能函数所确定的一个区间。

证据理论是概率论的更一般性表达，证据理论可以利用结合规则和两两比较的方法分析不确定性。

其最大弱点在于，不能就矛盾证据或不同假设之间具有的微弱支持问题提出解决办法。

空间统计较之非空间统计是一个更一般的理论，它可以被认为是对非空间变量的一个空间扩展，而时-空统计则是更一般的扩展。

空间统计学利用有序的模型描述无序事件，根据不确定性和有限信息分析、评价、预测或模拟空间趋势及其相互关系。

在地理空间数据不确定的研究中，空间统计学运用空间自协方差结构、变异函数或与其相关的自协变量，或局部变量值的相似程度来描述空间属性的不确定性，改善GIS对随机过程的处理，估计模拟决策分析的不确定性范围，分析空间模型的误差传播规律，为分析连续域的空间相关性提供理论依据和量化工具。

2.2基于模糊集合、粗集理论的不确定性研究
模糊数学是由Zadeh(1965>提出的由计算机处理不精确概率的一种理论。

它以模糊集合为基础，用模糊可行区间表示数据非统计不确定度。

模糊数学的优点在于其处理不确定性的能力，如土地分类中土壤渐变区域的处理、基于自然语言的空间查询等。

它的一个弱点是，没有严格证明的过程，它所处理的对象是可能性而不是概率。

因此，模糊数学常用于处理不确定性中的不准确性而非随机性，如两线状地物连接处的不确定性、场模型中确定域与模糊域目标间拓扑空间关系的描述等。

粗集理论中，粗集(roughsets>由上近似集和下近似集组成，适于处理不精确、不确定和不完全的数据。

粗集理论从集合论的观点出发，在给定论域中以知识足够与否作为实体分类的标准，并给出划分类型的精度。

粗集理论不排斥不确定性，力求按照实体的原形来研究实体，非常适合用于不确定影像分类、模糊边界划分、属性不确定性及评定属性的绝对不确定性和相对不确定性、简化属性依赖和属性表等。

2.3 基于云理论、信息熵的不确定性研究
云理论是一个分析不确定信息的新理论，包括云模型、不确定性推理和云变换三部分。

云在空间由系列云滴组成，具有期望值、熵和超熵3个数字特征。

期望值完全是一个定性的概念；熵是定性概念模糊度的度量，其值越大，概念越模糊；超熵反映云滴的离散程度，其值越大，隶属的随机离散度越大。

以云理论为基础提出了云方法，它用期望值、熵和超熵这3个数字特征描述整个云团，实现定性和定量的转换，适用于空间关联规则的挖掘、空间数据库的不确定性查询及地理空间数据中模糊性和随机性为一体的属性不确定性问题。

熵是信息论中的一个基本概念，是用以度量信息源不确定性的惟一量，非常适合用来对测量结果的不
确定度进行评定。

利用熵理论评定测量数据的不确定性方法主要有2种：①直接根据样本的信息熵计算测量值的不确定度；②由最大偏方法确定出样本的概率分布，再根据此概率分布计算测量结果的估计及其不确定度。

其优点是在小样本容量下能获得可靠的评定结果。

2.4基于多学科融合模型的不确定性研究
使用多学科融合模型日益成为分析处理地理空间数据不确定性的有效手段。

如：目标模型、域模型是经典的GIS数据处理模型；“ε-带”模型已成为研究线不确定性问题的基础；神经网络模型的建模方法不需要对象的先验知识，不管对象模型是线性的或非线性的均根据测量数据直接建模，避开了空间数据不确定度评定的数学模型构建难题，特别适用于空间数据的不确定度评定问题；遥感信息模型可以直接对图像进行计算，非常适合对场模型地物的不确定性进行计算和分析，但该方法有待进一步的验证和改善。

除此之外，基于复制、交叉和变异的遗传算法、基于灰色分析的灰色系统、基于信息无序互动的混沌理论等等，均具有各自独特的优势，有望进一步促进不确定性研究的进展。

当然，这些理论和方法不是孤立的，在实际分析处理不确定性时，常常要予以综合应用。

3研究现状与进展
早在20世纪60～70年代，一些学者采用数理统计学原理对地理空间数据的不确定性展开分析。

1960年，Mailing等首先采用统计学分析制图问题；1969年，Frolov建立拓扑匹配误差公式，讨论空间操作运算的精度；1975年，Switzer提出一种估计从矢量到栅格数据转换精度的方法，MacDougall用实例说明了不考虑空间数据误差所带来的严重后果；1978年，Michael Goodchild给出了检验多边形叠置过程中产生的无意义多边形的统计量运算。

到了80年代，除了继续采用统计学原理进行研究外，开始进行影像分类和判读过程中的误差分析。

具有代表意义主要有：1982年，Chrisman引入著名的“ε-误差带”，以后被许多学者发展；1983年，Congalto和Mead将Kappa系数引入遥感数据处理，来评判遥感数据的解译结果与验证数据的一致性；1986年，Burrough、Goodchild和Gopal(1989>对空间数据误差的重要研究成果进行了系统总结。

90年代后，随着GIS技术在国民经济各个方面广泛的应用，国内外对于地理空间数据的不确定性问题非常重视。

在国际空间数据处理会议(ISDH>、欧洲地理信息系统会议(EGIS>、美国地理信息系统年会(AGIS>、自然资源数据库空间数据不确定性等国际会议中，都设立了关于空间数据不确定性专题讨论组；美国的Kansas大学、纽约州立大学Buffalo分校、Washington大学、麻省理工学院<MIT）、Kent州立大学、澳大利亚Melbourne大学、荷兰的Amsterdam大学等都设立了专门的空间数据不确定性研究机构；同时，我国的武汉大学、香港理工大学、同济大学、中国科学院遥感应用研究所以及北京大学遥感与地理信息研究所等单位也已经开始这方面的研究。

而且，不确定性研究的内容进一步细化，研究方法也开始多样化。

邬伦<2002）等根据美国国家地理信息和分析中心<1998）、《Accuracy 2000》国际会议、Buffalo分校国家地理信息和分析中心、史文中<1998）等归纳提出的GIS不确定性问题的研究内容，初步探讨了地理空间数据不确定性框架体系[7，9]。

从当前研究的重点看，地理空间数据不确定性研究主要集中
在位置不确定性、属性不确定性、不确定性的可视化表示，也有部分学者在时域不确定性、数据不完整与逻辑不一致性、不确定性的传播等方面进行了非常有意义的探索，得到一批很有应用价值的研究成果。

初期，位置不确定性的研究主要集中在对线元和面元不确定性模型的研究，其研究工作主要体现在对Chrisman(1982>提出的“ε-误差带”的扩展与改进以及置信域模型。

刘大杰等利用“ε-误差带”模型，对GIS 中点、直线、圆曲线、一般曲线、面的不确定性进行了研究，建立了误差模型，导出了误差带的数学方程，分析了误差带的形状特征并加以可视化表达[6]。

同时，很多学者运用模糊集合理论和概率论对此进行了修正和发展，进而产生了“E-带”、“S-带”和“G-带”等模型[13~19]。

Tveite等用缓冲区覆盖统计(BOS>方法，分析线相邻控制点间的距离、线弯曲变化的频率分形特征，得到线的精度评价指标，这种方法与“ε-带”有相似之处，但是避免了重复抽样的困难[17]。

近年来，人们将直线的位置不确定模型扩展到了曲线的位置不确定性模型，从具有明确空间范围的空间实体的不确定性研究，转向模糊目标的空间不确定的研究，以及基于信息熵、场模型的空间位置不确定性研究[20,21]。

在早期的空间数据不确定性处理中，通常假设已经检核了属性数据，并把属性不确定性和位置不确定性隔离讨论。

这造成地理空间数据不确定性研究的重点主要基于分析位置的不确定性，而对属性数据不确定性的研究相对较少。

随着GIS研究与应用的不断深入，目前属性不确定性研究异常活跃，人们引入一些新的数学理论，如模糊数学、粗集理论、证据理论和云理论等，来研究不能精确描述的属性不确定性。

主要的研究成果有：基于高斯分布的分类数据不确定性自回归模型；基于知识推理的遥感数据解译不确定性模型；数据分类和边界划分不确定性模糊数学模型；从区域分类不确定性、边界定位误差和区域内部定量属性数据的抽样误差出发，综合进行属性数据不确定性的度量和传播分析；从遥感数据中提取DEM的不确定性；用模糊数学方法研究边界分类和连续变量的不对称边界模型等[2~8,22]。

位置不确定性与属性不确定性在很多情况下往往是紧密相关、相互影响的[23]。

对此，史文中<1998）讨论了地理信息系统与遥感集成中位置与属性结合的不确定性问题，提出了“S-带”模型[7]。

黄幼才等对前人的研究成果进行了比较详细的介绍[5]。

不确定性的可视化研究是进入90年代以后随着计算机技术的发展而兴起的，目前主要采用灰度方法、彩色加三维的方法，通过采用直观的二维、三维图形或其他灵活的形式，把抽象的空间数据不确定性的大小及分布转换为人的视觉可以直接感受的具体图形，以利于用户对数据质量的认识。

这方面的研究主要有空间矢量数据位置不确定性的可视化表示、影像分类不确定性的可视化表示、GIS应用系统中不确定性的可视化等[7,24]。

不确定性的传播是不确定性研究的难关所在。

目前对该问题的研究非常薄弱，现有的研究主要集中在地图叠置及知识推理中的不确定性传播，Manfred Ehlers<2000）等研究了地理信息系统与遥感集成过程中地理空间的不同概念模型转换时的不确定性模型[16]。

同样，对于时域不确定性、数据不完整性及逻辑不一致性的研究目前还处于初期试探阶段。

刘文宝等用模糊集和粗集理论对模糊的、不精确的地理区域间的不确定性拓扑关系进行了描述[24]，张保钢提出了空间数据时域不确定性的现势度表示的概念和方法[25]，Suzana Dragicevic等采用模糊集理论对连续快照之间的空间变化进行了模拟。

特别值得注意的是，数字高程模型<DEM）是地理信息系统地理数据库中最为重要的空间信息资料和赖以进行数字地形分析的基础，对DEM不确定性的研究已引起国内外众多学者的关注。

Carter、李志林等对于DEM数据精度作了深层次的研究，从不同角度探讨了DEM误差的成因、影响因素、数学模拟以及对GIS空间分析应用的影响，初步建立了一套利用不同信息源建立DEM的技术规范[26]。

汤国安<2000）在DEM对地形描述的不确定性研究中首次提出数字高程模型<DEM）地形描述误差概念，对DEM地形描述误差的形成条件、空间分布特征、数学模拟方法等一系列问题进行了系统分析，提出了DEM地形描述误差在宏观与微观两个层面的数学模拟的模型。

同时，还对不同比例尺、不同栅格分辨率DEM的不确定性特征与转换模型进行了研究，为有效估算DEM的地形描述精度及确定适宜的DEM分辨率提供了理论依据[27~30]。

4 结论与讨论
空间数据不确定性的研究，涉及测绘学、数学、地理学、计算机科学、地理信息科学等多门学科，是地学界的重大理论问题。

对评价空间数据质量、确定GIS数据录用标准、改善GIS算法、提高GIS分析结果的可信度、完善GIS基础理论和技术等有着重要的意义。

目前，对空间数据不确定性的研究方兴未艾，在诸多领域取得了突破性进展，基本上构建了空间数据不确定性研究的理论与方法体系。

4.1目前所存在的主要问题
1>研究的内容与研究方法缺乏整体性与总览性。

由于地理空间数据来源的复杂性和综合性，引起地理空间数据不确定性的原因是多种多样的，是多种因素综合作用的结果，有些是已知的，有些是未知的，各种不确定性之间也常常是相互联系、相互影响的，各种不确定性之间存在很大的相关性。

但是，目前大多数研究基本上基于一个方面或一个特定的内容孤立进行，仅适合特定的条件，在一定程度上影响了研究的深入与应用效果。

2>研究的对象与应用目标还不够明确。

目前对地理空间数据不确定的研究，大多数都是针对数据本身进行的，很少对地理空间数据的实际应用<应用范围、应用结果等）的不确定性展开研究。

在GIS中，采集、收集、存储和查询地理空间数据只是完成应用资料的管理，而实现特定的应用目的，输出可靠的结果，则是GIS的核心功能和主要目的。

因此，对地理空间数据的应用范围，以及在规定的应用范围内将产生怎样的应用结果进行不确定性评定，远比只研究地理空间数据本身的不确定性更为重要。

4.2 对今后研究的建议
1>细化地理空间数据不确定性的内容，完善不确定性问题框架体系。

注意选取一些典型问题进行深入分析，逐步建立研究地理空间数据不确定性的理论体系、研究方法体系，以及应用框架体系。

2>研究方法上注重多种理论和方法综合使用，以建立不确定性数据处理模型为其出发点和基础。

在建立模型时应顾及各种不确定性之间的相关性及数据如何抽样等问题，把地理空间数据不确定性研究与地理空间数据挖掘联系起来，建立基于知识的不确定性分析模型，从而使建立的不确定性模型具有更好的实用性与可操作性。

3>强化地理空间数据应用的不确定性研究。

即加强地理空间数据的应用范围，以及在规定的应用范围
内所产生的应用结果的不确定性研究。

同时，研究GIS空间分析与各类操作结果不确定性在GIS软件平台上的发布问题，实现不确定性理论研究成果的实用化。

4>地理空间数据质量控制的根本在于提高测量数据的精确性和对事物描述的抽象模型的科学性。

因此，应该加强地理空间数据的元数据、不确定性的传播和可视化、数据完整性和逻辑一致性的研究，从数据集建立开始就建立起数据质量描述的体系。

参考文献:
[1]GOODCHILD M F，GOPALS. The Accuracy of Spatial Database[M]. NewYork：Taylor and francis，1989，
107-113.
[2]ABLER RF. The national science foundation center for geographic information and analysis[J]. International
Journal of Geographic Information Systems，1987，<1）：303-326.
[3]陶本藻. GIS质量控制中不确定性理论[J]. 测绘学院学报，2002，17(4>：235-238
[4]刘文宝. GIS空间数据的不确定性理论[D]. 武汉：武汉大学，1995.
[5]黄幼才，刘文宝，李宗华，等. GIS空间数据误差分析与处理[M]. 武汉：中国地质大学出版社，1995.7-13.
[6]刘大杰，史文中，童小花，等. GIS空间数据精度分析与质量控制[M]. 上海：科学技术文献出版社，
1999.109-149.
[7]史文中. 空间数据误差处理的理论与方法[M]. 北京：科学出版社，1998.23-147.
[8]刘大杰，刘春. GIS空间数据不确定性与质量控制的研究现状[J]. 测绘工程，2001，10(1>：6-10.
[9]邬伦，丁海龙，高振纪，等.GIS不确定性框架体系与数据不确定性研究方法[J]. 地理学与国土研究
2002，18(4>：1-4.
[10]GOODCHILD M F，SUN G，Y ANG S. Development and test of an error model for categorical data[J].
Internatioal Journal of Geographic Systems，1992，6(2>：87-104.
[11]CHRISMAN NR. Atheory of cartographic error and it's measurement in digital databases[J]. Auto-Carto，
1982，<5）：59-168.
[12]WALTER V，FRITSCH D. Matching spatial data sets: statistical approach [J]. Int J Geographical Information
Science，1999，13(5>：445-452.
[13]CASPARY W，SCHEURING R. Positional accuracy in spatial databases[J]. Comput, Environand
UrbanSystems，1993，17：103-110.
[14]DUTTON G.. Handling positional uncertainty in spatial databases[J]. In:Proceedings of 5th International
Symposium on Spatial Data Handling，1992.460-469.
[15]HUNTER G J，BEARD K. Understanding error in spatial database[J]. The Australian Surveyor，1992，37(2>：11-19.
[16]MARK G，MANFRED E.A framwork for the modelling of uncertainty between remote sensing and
geograohic information systems[J].ISPKS Journal of Photogrammetry & Remote Sensing，2000，55：176-188.
[17]TVEITE H，LANGASS S. An accuracy assessment method of geographical line data sets based on
buffering[J]. Geo-graphical Information Science，1999，13(1>：27-30.。