数据质量检查与质量控制讲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据质量检查与质量控制
要想清楚并深层次的了解数据质量检查与质量控制的原理,首先应该知道数据质量的基本概念以及数据误差的来源。因为在某些情况下,数据质量问题在很大程度上可以看作是数据误差问题。下面我就详细的为大家介绍数据质量的基本概念和误差来源及其分析,并就其误差,我们再结合相应的检查方法进行精度分析的探讨。
一、数据质量的基本概念
1、准确性(Accuracy)
即一个记录值(测量或观察值)与它的真实值之间的接近程度。这个概念是相当抽象的,似乎人们已经知道存在这样的事实。在实际中,测量的知识可能依赖于测量的类型和比例尺。一般而言,单个的观察或测量的准确性的估价仅仅是通过与可获得的最准确的测量或公认的分类进行比较。空间数据的准确性经常是根据所指的位置、拓扑或非空间属性来分类的。它可用误差(Error)来衡量。
2、精度(Precision)
即对现象描述的详细程度。如对同样的两点,精度低的数据并不一定准确度也低。精度要求测量能以最好的准确性来记录,但是这可能误导提供了较大的精度,因为超出一个测量仪器的已知准确度的数字在效率上是冗于的。因此,如果手工操作的数字化板所返回的坐标不可能依赖于比0.1mm还要准确的一个“真正的”数值,那么就不存在任何的点,在十分之一的地方是以mm表示的。
3、空间分辨率(Spatial Resolution)
分辨率是两个可测量数值之间最小的可辩识的差异。那么空间分辨率可以看作记录变化的最小距离。在一张用肉眼可读的地图上,假设一条线用来记录一个边界,分辨率通常由最小线的宽度来确定。地图上的线很少以小于0.1mm的宽度来画。在一个图形扫描仪中最细的物理分辨率从理论上讲是由设施的像元之间的分离来确定的。在一个激光打印机上这是一英寸的300分之一,而且在高质量的激光扫描仪上,这会细化十倍。如果没有放大,最细的激光扫描仪的线是看不到的,尽管这依赖于背景颜色的对照。因此,在人的视觉分辨率和设备物理分辨率之间存在着一个差异。一个相似的区别可以存在于两个最小距离之间,即当人操作者操作数字化仪时所区别的最小距离和数字化仪硬件可以不断地报告的最小距离。
4、比例尺(Scale)
比例尺是地图上一个记录的距离和它所表现的“真实世界的”距离之间的一个比例。地图的比例尺将决定地图上一条线的宽度所表现的地面的距离。例如,在一个1:10000比例
尺的地图上,一条0.5mm宽度的线对应着5m的地面距离。如果这是线的最小的宽度,那么就不可能表示小于5m的现象。
5、误差(Error)
定义出一个所记录的测量和它的事实之间的准确性以后,很明显对于大多数目的而言,它的数值是不准确的。误差研究包括:位置误差,即点的位置的误差、线的位置的误差和多边形的位置的误差;属性误差;位置和属性误差之间的关系。
6、不确定性(Uncertainty)
地理信息系统的不确定性包括空间位置的不确定性、属性不确定性、时域不确定性、逻辑上的不一致性及数据的不完整性。空间位置的不确定性指GIS中某一被描述物体与其地面上真实物体位置上的差别;属性不确定性是指某一物体在GIS中被描述的属性与其真实的属性之差别;时域不确定性是指在描述地理现象时,时间描述上的差错;逻辑上的不一致性指数据结构内部的不一致性,尤其是指拓扑逻辑上的不一致性;数据的不完整性指对于给定的目标,GIS没有尽可能完全地表达该物体。
二、空间数据质量问题的来源
从空间数据的形式表达到空间数据的生成,从空间数据的处理变换到空间数据的应用,在这两个过程中都会有数据质量问题的发生。下面按照空间数据自身存在的规律性,从几个方面来阐述空间数据质量问题的来源。
1、空间现象自身存在的不稳定性
空间数据质量问题首先来源于空间现象自身存在的不稳定性。空间现象自身存在的不稳定性包括空间特征和过程在空间、专题和时间内容上的不确定性。空间现象在空间上的不确定性指其在空间位置分布上的不确定性变化;空间现象在时间上的不确定性表现为其在发生时间段上的游移性;空间现象在属性上的不确定性表现为属性类型划分的多样性,非数值型属性值表达的不精确性。因此,空间数据存在质量问题是不可避免的。
2、空间现象的表达
数据采集中的测量方法以及量测精度的选择等受到人类自身的认识和表达的影响,这对于数据的生成会出现误差。如在地图投影中,由椭球体到平面的投影转换必然产生误差;用于获取各种原始数据的各种测量仪器都有一定的设计精度,如GPS提供的地理位置数据都有用户要求的一定设计精度,因而数据误差的产生不可避免。
3、空间数据处理中的误差
在空间数据处理过程中,容易产生的误差有以下几种:
投影变换:地图投影是开口的三维地球椭球面到二维场平面的拓扑变换。在不同投影形式下,地理特征的位置、面积和方向的表现会有差异。
地图数字化和扫描后的矢量化处理:数字化过程采点的位置精度、空间分辨率、属性赋值等都可能出现误差。
数据格式转换:在矢量格式和栅格格式之间的数据格式转换中,数据所表达的空间特征的位
置具有差异性。
数据抽象:在数据发生比例尺变换时,对数据进行的聚类、归并、合并等操作时产生的误差,如知识性误差和数据所表达的空间特征位置的变化误差。
建立拓扑关系:拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化。
与主控数据层的匹配:一个数据库中,常存储同一地区的多层数据面,为保证各数据层之间空间位置的协调性,一般建立一个主控数据层以控制其它数据层的边界和控制点。在与主控数据层匹配的过程中也会存在空间位移,导致误差。
数据叠加操作和更新:数据在进行叠加运算以及数据更新时,会产生空间位置和属性值的差异。
数据集成处理:指在来源不同、类型不同的各种数据集的相互操作过程中所产生的误差。数据集成是包括数据预处理、数据集之间的相互运算、数据表达等过程在内的复杂过程,其中位置误差、属性误差都会出现。
数据的可视化表达:数据在可视化表达过程中为适应视觉效果,需对数据的空间特征位置、注记等进行调整,由此产生数据表达上的误差。
数据处理过程中误差的传递和扩散:在数据处理的各个过程中,误差是累计和扩散的,前一过程的累计误差可能成为下一个阶段的误差起源,从而导致新的误差的产生。
4、空间数据使用中的误差
在空间数据使用的过程中也会导致误差的出现,主要包括两个方面:一是对数据的解释过程,二是缺少文档。对于同一种空间数据来说,不同用户对它的内容的解释和理解可能不同,处理这类问题的方法是随空间数据提供各种相关的文档说明,如元数据。另外,缺少对某一地区不同来源的空间数据的说明,如缺少投影类型、数据定义等描述信息,这样往往导致数据用户对数据的随意性使用而使误差扩散。
表:数据的主要误差来源
数据处理过程误差来源
数据搜集野外测量误差:仪器误差、记录误差
遥感数据误差:辐射和几何纠正误差、信息提取误差
地图数据误差:原始数据误差、坐标转换、制图综合及印刷
数据输入数字化误差:仪器误差、操作误差
不同系统格式转换误差:栅格-矢量转换、三角网-等值线转换
数据存储数值精度不够
空间精度不够:每个格网点太大、地图最小制图单元太大
数据处理分类间隔不合理
多层数据叠合引起的误差传播:插值误差、多源数据综合分析误
差
比例尺太小引起的误差