第五节 误差与精度评价
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五节误差与精度评价
一、误差及其来源
任何分类都会产生不同程度的误差。分析误差的来源和特征既是对分类过程的检验,也是改进分类方法的主要前提。分类误差主要有两类,一类是位置误差,即各类别边界的不准确;另一类是属性误差,即类别识别错误。分类误差的来源很多,遥感成像过程、图像处理过程、分类过程以及地表特征等都会产生不同程度和不同类型的误差。
遥感成像过程中,遥感平台翻滚、俯仰和偏航等姿态的不稳定会造成图像的几何畸变;传感器本身性能和工作状态也有可能造成几何畸变或辐射畸变;大气中的雾、霾、灰尘等杂质必然造成图像中的辐射误差;地形的起伏会使图像中产生像点位移造成几何畸变;坡度也会影响地表的接受的辐射和反射水平,造成辐射误差。
遥感图像分类前,一般都要进行辐射校正、几何校正、研究区的拼接与裁切等预处理。在这些图像处理过程中,由于模型的不完善或控制点选取不准确等人为因素的影响,处理后的图像中仍然可能存在残留的几何畸变和辐射畸变。此外,几何校正中像元亮度的重采样所造成的信息丢失是无法避免的,对分类结果也将产生一定影响。
地表各种地物的特征直接影响分类的精度。一般来说,地表景观结构越简单,越容易获得较高的分类精度,而类别复杂、破碎的地表景观则容易产生较大的分类误差。因此,各类别之间的差异性和对比度对分类精度有显著影响。
图像分类过程中,分类方法、各种参数的选择、训练样本的提取,分类时所采用的分类系统与数据资料的匹配程度也会影响分类结果。不论是采用何种算法模型,目前还没有任何一种方法堪称完美,其分类结果中都会出现错分的现象。
遥感图像的空间分辨率、光谱分辨率和辐射分辨率的高低也是影响分类精度的重要因素。有些分类结果精度不高,不是分类方法的问题,而是直接受制于图像本身的特征。
上述各个环节所产生的误差,最终都有可能累积并传递到分类结果中,形成分类误差。因此,分类误差是一种综合误差,很难把它们区分开来。分析发现,分类误差在图像中并不是随机分布的,而是与某些地物类别的分布相关联,从而呈现出一定的系统性和规律性。了解和分析分类误差产生的原因和分布特征,对分类结果的修订或分类方法的改进都具有重要意义。
二、精度评价的方法
遥感图像分类精度的评价是把分类结果与检验数据进行比较以得到分类效果的过程。精度评价中所使用的检验数据可以来自于实地调查数据或参考图像。参考图像包括分类的训练样本、更高空间分辨率的遥感图像或其目视解译结果和具有较高比例尺的地形图、专题地图等。实际工作中,检验数据往往以参考图像为主,实地调查数据为辅。
精度评价最好是比较分类图和参考图像上所有像元之间的一致性,但这种做法往往是不现实的,也是无意义的。因此,精度评价一般都是通过采样的方法来完成的,即从检验数据中选择一定数量的样本,通过样本与分类结果的符合程度来确定分类的准确度。
(一)采样方法
这里所说的采样方法是指从检验数据中选择样本的方法。精度评价有多种采样方法,具体采用哪种方法,应根据研究目标来确定。常用的概率采样方法包括简单随机采样、分层采样和系统采样等(图8.21)。
1、简单随机采样
简单随机采样是指在分类图上随机选择一定数量的像元,然后比较这些像元的类别与其对应的检验数据之间的一致性。该方法对样本空间中的所有单元来说,被选中的概率都是相同的。如果区域内各种地物类别的分布均匀,且面积差异不大,简单随机采样应该是一种理想的采样方法。
2、分层采样
分层采样是指分别对每个类别进行随机采样。该方法克服了简单随机采样的不足,保证了在采样空间或类型选取上的均匀性及代表性,使每个类别都能在采样中出现。分层的依据可因精度评价的目标而不同。常用的分层有地理区、自然生态区、行政区域和分类后的类别等。在每层内采样的方式可以是随机的,也可以是系统的。
3、系统采样
系统采样是指按照某种确定的间隔或规则进行采样的一种方法。该方法简单易行,但其固有的周期性及其存在的规则间隔性,可能造成以某些样本数采样时,即便方差很小,但均值仍然会偏离真值较大,从而使评价存在较大偏差。
图8.21 几种采样方法示意图
(二)样本容量
样本容量(Sample Size )又称样本数,指样本必须达到的最少数目,是保证样本具有充分代表性的基本前提。样本容量可通过统计方法来计算,如百分率样本容量、基于多项式分布的样本容量等。
百分率样本容量的计算方法为
2
2)(E pq Z N =
(8-18)
式中:N 为样本容量;Z 为标准误差的置信水平,一般取2,表示1.96的标准正态误差和95%的双侧置信度;p 是期望百分比精度(这里的精度指的是评价结果的精度,而非图像的分类精度);q =100−p ;E 表示容许误差。根据公式可知,期望精度(p )越低,允许误差(E )越大,则用来估算分类精度所需的检验样本就越少。如期望精度为85%,允许误差为5%,根据公式(8-18)可算出样本容量为203,即至少选取203个样本;当允许误差放宽到10%时,51个样本就可以满足要求。
基于多项式分布的样本容量计算方法为
2
)
(1i i i b -W BW N =
(8-19)
式中:N 为样本容量;W i 为所有k 个类别中面积比例最接近50%的第i 类的面积比例;b i 为该类的容许误差;B 为自由度为1且服从x 2分布的(b/k )×百分位数,可以从自由度为1的x 2分布表查得; k 是总分类数。
假如一幅图像共分为8个类,类W i 约占总面积的30%且其面积百分比最接近50%,要求置信度为95%,容许误差为5%。可算出样本容量为636,每个类别大约需要80个样本。
如果无法知道任意一个类别所占的面积比例,在公式(8-19)中可假设其中一种类型的面积比例为50%,这样可以计算出一个比已知面积比例的情况下更大的样本容量。在有些