利用随机森林和纹理特征的森林类型识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

利用随机森林和纹理特征的森林类型识别
吕杰;郝宁燕;李崇贵;史晓亮;李宗泽
【摘要】To improve the accuracy of forest tree type identification and reduce the classification model complexity from remote sensing images,this paper tries to propose a new method integrating GF-1 satellite images with ground survey,vegetation index,texture and terrain factors and other extracted features,and build minimum distance model,support vector machines model and random forest identification model for Liangshui Nature Reserve of Heilongjiang forest dominant tree species classification.The results show that:random forest model achieves an overall accuracy and Kappa coefficient of 81.01% and
0.76,respectively,which has improved significantly compared with support vector machines method.The proposed method is able to achieve highly satisfactory forest type identification results,improve the self-sufficiency rate in using of GF-1 remotely sensed data and provide an important technical support for the effective management of forest resources.%针对利用遥感影像进行森林类型识别容易出现树种误分和模型复杂的问题,以高分一号卫星影像为数据源,结合遥感判读样地、植被指数、纹理信息以及地形因子等多源数据,构建最小距离分类模型、支持向量机分类模型和随机森林分类模型,对黑龙江凉水自然保护区森林优势树种进行分类.结果表明,基于随机森林模型的分类结果总精度和Kappa系数分别为81.01%和0.76,较支持向量机分类方法有明显提高.该研究为提高我国高分辨率数据的自给率和森林资源的有效管理提供了一定的参考价值.
【期刊名称】《遥感信息》
【年(卷),期】2017(032)006
【总页数】6页(P109-114)
【关键词】GF-1影像;随机森林;森林类型识别;支持向量机;纹理特征
【作者】吕杰;郝宁燕;李崇贵;史晓亮;李宗泽
【作者单位】西安科技大学测绘科学与技术学院,西安710054;西安科技大学测绘科学与技术学院,西安710054;西安科技大学测绘科学与技术学院,西安710054;西安科技大学测绘科学与技术学院,西安710054;西安科技大学测绘科学与技术学院,西安710054
【正文语种】中文
【中图分类】TP75;P237
0 引言
森林是陆地生态系统的主体,是人类赖以生存的基础资源,对经济、社会和环境的可持续发展具有不可替代的重要作用[1]。

了解和掌握森林资源的种类、数量和空间分布等信息,是科学、合理经营管理森林资源的前提条件,正确地识别森林类型是利用和保护森林资源的基础依据[2-3]。

传统的森林类型识别方法主要依赖野外森林调查或利用大比例尺航片进行人工判读,周期长、效率低、时效性差、精度也不高,难以满足林业发展的需求[4]。

而遥感技术具有宏观、动态、快捷和节约成本等优势,将其应用到森林类型的识别和调查中具有十分重要的意义和价值。

利用遥感手段获取森林类型信息的一个重要环节就是影像分类。

目前,针对不同的
影像有很多种分类方法,诸如最小距离法、最大似然法、循环集群法等监督非监督分类法,以及近年来流行的神经网络[5]、决策树[6-7]和支持向量机[8-10]等。

其中,Breiman提出的随机森林(random forests,RF)是一种非常有效的分类器集
成算法[11]。

PAL M等将随机森林用于Landsat数据与地理辅助数据或纹理等组
成的多源数据上的土地覆盖分类中[12-14],发现与其他多源数据上的聚合算法相比,随机森林方法具有很好的分类性能,相同时间内运算比较快,并且已经被证明对噪声和孤立点不敏感,不存在适应的问题[15-16]。

“高分一号”(GF-1)卫星具有多种空间分辨率、多种光谱分辨率和多源遥感数据特征,可满足不同用户的应用需求[17-18]。

本文以GF-1卫星影像为数据源,结合
遥感判读样地、植被指数、纹理信息以及地形因子等多源数据,构建支持向量机分类模型和随机森林分类模型,对黑龙江凉水自然保护区森林类型进行分类。

通过比较分类结果,得出各个分类算法对森林类型识别的优势与劣势,以分析利用GF-1卫星数据进行森林类型识别的可行性。

基于高分一号多光谱影像开展森林类型识别对于推动我国国产卫星的在林业行业应用,提高我国高分辨率数据自给率,具有重大战略意义。

以黑龙江凉水为研究区开展森林类型识别具有代表性,研究结果将对我国东北小兴安岭森林的树种识别和森林资源管理具有重要的参考价值和实际意义。

1 研究区与数据源
1.1 研究区概况
黑龙江凉水国家级自然保护区位于小兴安岭东南段达里带岭支脉东坡,地理坐标为128°47′8″E~128°57′19″E,47°6′49″N~47°16′10″N。

研究区总面积6 374 ha,海拔280~707 m,为典型的低山丘陵地貌。

区内森林覆盖率达91.3%,既有处
于演替顶极状态的原始阔叶红松林、云冷杉林和兴安落叶松林,又有处于不同演替阶段的次生林,几乎囊括了小兴安岭山脉的所有森林植被类型。

本区地处欧亚大陆的东缘,深受海洋气候的影响,具有明显的温带大陆性气候特征。

冬长夏短,冬季气候严寒干燥,夏季气候温凉多雨。

由于纬度较高,太阳辐射较少年平均气温只有-0.3 ℃左右,年均最高气温7.5 ℃,年均最低气温-6.6 ℃,正值积温在2 200~2 600 ℃,年均降水量676 mm,积雪期130~150 d,年均相对湿度78%,年均蒸发量805 mm,年日时数1 850 h[19]。

1.2 数据来源
数据选用凉水自然保护区高分一号多光谱(wide field of view,WFV)遥感影像。

样本采用1 km×2 km间距系统在研究区范围内布设正方形样地,每块样地大小为0.06 ha,样地长宽均为30 m。

样地调查包括样地号、树种类型、树高、胸径、GPS坐标、海拔等,通过样地调查和人工判读,获得250块样地数据。

将采样数据按照7∶3的比例分割,其中70%作为训练样本用于森林类型分类模型的建立,30%作为验证样本对分类结果进行精度检验。

其他数据包括分辨率为8 m的DEM 和凉水自然保护区的行政区划图。

1.3 数据预处理
高分一号遥感影像预处理包括辐射校正和几何校正,以此用来校正传感器获取影像的辐射变形和几何变形。

由于影像内光照的差异、几何视场角的变化、大气状况的不同,以及传感器的噪声等影响,传感器获取的遥感影像存在着失真,由于地形和树冠产生的阴影会影响森林类型识别,因此高分一号遥感影像预处理对森林类型分类显得尤为重要。

高分一号遥感影像预处理技术路线如图1所示。

图1 高分一号卫星遥感影像预处理流程图
首先,通过中国资源卫星应用中心网站公布的GF-1卫星载荷在轨绝对辐射定标系数,利用公式(1)将GF-1卫星载荷的通道观测值(DN)转换为卫星载荷入瞳处等效表观辐亮度数据。

Le(λe)=Gain·DN+Bias
(1)
式中:Gain为定标斜率,单位为W·m-2·sr-1·μm-1;DN为卫星载荷通道观测值;Bias为定标截距,单位为W·m-2·sr-1·μm-1。

然后,每景影像选取60个左右控制点进行多项式三次纠正,利用点位中误差进行几何校正精度检查。

点位中误差计算公式为:
(2)
式中:RMS为点位中误差;n为检查点个数;和分别为遥感影像上第i个特征地
物点与检查点的x,y坐标误差。

接着,将研究区域边界Shape文件导入ArcGIS中,进而叠加到GF-1卫星遥感影像中,根据研究区范围,裁剪GF-1卫星影像。

通过HOT变换(haze optimized transformation,HOT)进行GF-1卫星遥感影
像中薄云识别,然后利用HOT变换实现遥感影像中薄云的去除。

其中HOT计算
公式为:
HOT=B1sin Θ-B3cos Θ
(3)
式中:B1和B3分别是遥感影像的第1波段和第3波段。

最后对GF-1卫星影像进行阴影增强处理。

先取对数,进行小波变换,然后用小波滤波函数处理,再进行小波逆变换,通过指数运算得到阴坡和阳坡增强处理后的影像,从而得到预处理之后的研究区GF-1卫星影像。

2 研究方法
2.1 遥感特征提取
1)植被指数。

对于复杂的森林类型,仅用个别波段或多个单波段数据分析对比来提取树种信息是相当困难的。

因而往往选用多光谱的遥感数据,经分析运算产生某些对植被长势、生物量等有一定指标意义的数值——即所谓的“植被指数”[20]。

植被指数是从多光谱遥感数据中提取的、能够有效度量地表植被状况的数值,与植被的覆盖度、生物量等有较好的相关性[21]。

本文选取归一化植被指数(NDVI)、转换型植被指数(TNDVI)、比值植被指数(RVI)、差值植被指数(DVI)等进行分析研究。

2)纹理信息。

在影像判读中使用纹理表示图像的均匀、细致、粗糙等现象[22]。

GF-1卫星影像纹理特征包含着丰富的地物信息,是地物识别的主要依据,通过提取影像的纹理信息,可以提高森林类型类型分类的精度。

纹理特征采用灰度共生矩阵(grey-level co-occurrence matrix,GLCM)纹理特征提取方法,基于灰度共生矩阵的纹理度量有:均值、同质性、对比度、标准差、非相似性、熵、角二阶距、灰度差分向量角二阶距、灰度差分向量熵、反距离。

3)地形因子。

地形通过控制光、热、水、土壤养分等资源的再分配而成为影响植被分布的最重要的环境因子。

选用ArcGIS10.1软件对研究区DEM数据提取坡度和坡向图。

将高程、坡度、坡向因子引入到研究区森林类型空间分布中,对森林资源的合理经营、科学管理有重要的意义。

2.2 支持向量机模型
支持向量机是由Vapnik提出的建立在统计学习(statistical learning)理论基础之上的机器学习算法,能够按照给定误差获得分离一组训练数据的最优分离超平面,使得该平面两侧距平面最近的二类样本之间的距离最大化[23]。

支持向量机能够处理小样本、非线性、高维数的问题,能够避免“维数灾难”,具有较好的鲁棒性。

但是SVM算法对样本数量不敏感,解决多分类问题存在困难。

近年来支持向量机已经在遥感图像智能解译[24-27]、遥感反演[28-30]、遥感图像分类[31-32]等方面得到广泛应用。

2.3 随机森林模型
随机森林(random forest)是Breiman于2001年提出的一种非常有效的机器学习
算法[33]。

随机森林基本思想是利用bootsrap重抽样方法从原始样本选取多个子样本,并逐一进行决策树建模,每棵树单独完成分类后,由投票得出最终输出的分类结果,见图2。

图2 随机森林的流程图
随机森林不需要对数据的分布进行估计,这对不同类型或不同尺度的输入变量非常有意义,并且随机森林具有对结果的可解释性。

这些优异的性能使得随机森林非常适合处理遥感影像的森林类型识别。

随机森林结果的对因子可解释性在其对变量重要性的测算。

变量重要性的测算是计算每棵树OOB(out of bag)误差和挑选自变
量序列后每棵树的OOB误差的差(式(4))。

每一个随机挑选序列的自变量OOB变
化便是这个特定自变量的重要性标志。

如果一个自变量是不相关的,那么随机挑选序列的OOB值应该有非常小的OOB误差。

(4)
式中:βc(t)与第t棵树的OOB样本相关,其中
和预测的样本xi在转换特征f前后的预测类别。

需要指出的是,如果特征f不在第t棵树中时,FI(t)(f)=0。

特征f的作为全部树的变量重要性计算如下:
(5)
式中:T为树的数目。

3 结果分析
为提高分类精度,在原始多光谱影像上分别提取植被指数和纹理信息,并加入地形因子对原始影像进行静态波段扩充。

对构造的多源特征影像数据逐波段进行归一化,使其满足所有波段像素值范围在[0,1]之间,以排除新增波段与原始多光谱影像像
素灰度量化等级及数值类型不同产生的影响。

根据实地采样数据和研究区森林类型,结合先验知识确定研究区优势树种类型为红松、冷杉、落叶松、云杉和白桦5种
类型。

此外,根据研究区现状确定水体和其他2种土地利用类型,其他包括云、
道路以及建设用地。

所选样本中不同优势树种类别光谱曲线具有良好的分离性,满足分类的要求。

利用训练样本构建支持向量机和随机森林分类模型,对叠加的多源特征影像数据进行分类。

本文对原始影像进行主成分分析,选取包含影像信息量98.29%的第1主成分进行纹理计算,通过结合优势树种样地面积大小,发现适合研究区森林类型识别的最优窗口为3×3纹理特征提取窗口。

图3为SVM模型对凉水自然保护区
GF-1影像的森林类型分类结果,图4为RF模型对凉水自然保护区GF-1影像森
林类型分类结果,图5为最小距离分类法对对凉水自然保护区GF-1影像森林类型分类结果,图6为检验点在遥感影像上的位置分布图。

结合验证样本采用总体分
类精度、Kappa系和用户精度对2种分类模型的分类精度进行检验,得到分类精
度如表1所示。

图3 SVM森林类型分类结果图
图4 RF森林类型分类结果图
图5 最小距离分类森林类型分类结果图
图 6检验点位置分布图表1 利用最小距离法、支持向量机和随机森林的森林类型
分类精度的比较
类别分类方法最小距离法SVMRF总精度/(%)70.4276.7181.01Kappa系数
0.630.710.76
从分类结果可以看出,支持向量机和随机森林分类方法在基于GF-1影像的森林类型识别上均取得了良好的分类结果,相对于最小距离分类法精度都有所提高。

在分类耗费的时间上,随机森林的分类速度比支持向量机更快,而且在有限的样本数量
情况下,随机森林相较支持向量机分类方法总体精度由76.71%提高到81.01%,Kappa系数也由0.71提高到0.76。

其中红松、冷杉、落叶松、云杉、水体以及
其他类型的用户精度明显提高,说明随机森林在小样本数据下也能有很好的泛化性,更适宜研究区森林类型的识别(表2)。

表2 利用最小距离法、支持向量机和随机森林的森林类型识别精度的比较类型分
类方法最小距离法SVMRF白桦53.4555.1753.45红松82.8689.1591.30冷杉67.3171.1576.92落叶松67.6575.0080.55云杉34.6257.6961.54水体
100.0090.91100.00其他71.4377.3490.48
随机森林模型中,需要人为调整的参数是树的个数T和变量个数m。

m一般设为
变量总数的平方根,本研究变量数目为26,取平方根设置m=5。

为了探究分类树个数对RF模型分类精度的影响规律,设置T从1~100逐一变化对多源特征影像进行分类,并统计总体精度,如图7所示。

图7 分类精度随树的个数变化情况
由图7可以看出,随着树的个数的增加,分类精度呈增加趋势,当树的个数增加
到50左右时,分类精度趋于稳定,当T=100时,分类精度仍很高且很稳定,说
明随机森林不会过拟合。

但是,随着T的增加,分类所消耗的时间逐渐加大。


衡分类精度和时间消耗成本,对于随机森林算法,本文的最优参数选择为T=50,m=5。

随机森林提供了一种计算变量重要性的方法,通过删除该变量,保持其他变量不变,计算OOB分类精度,并计算与删除该变量之前OOB分类精度的减少量,该减少
量就是该变量的重要性[16](图8)。

对于多源数据分类,特征变量的个数一般会很多,在样本数不足的情况下,容易造成维数灾难。

因此,知道变量对分类结果的重要性,以便能够挑选出重要变量显得尤为重要。

随机森林分类变量指标的重要性如图9所示,可以看出对分类结果贡献较大的12个变量分别是:GF-1影像的4个
波段、植被指数(NDVI、TNDVI、RVI、DVI)、地形因子(DEM、Slope、Aspect)和纹理信息Mean波段。

在样本不足的情况下,为降维进行的波段选择提供理论
支持和技术依据。

图8 不同数目树的随机森林OOB误差
图9 随机森林分类变量指标的重要性
4 结束语
本文尝试将随机森林方法用于凉水自然保护区的GF-1卫星影像分类,并与传统支持向量机方法进行对比分析,得出随机森林分类对研究区森林类型识别的优势,以分析利用GF-1卫星数据进行森林类型识别的可行性。

结果表明:采用随机森林分类法对研究区进行优势树种识别,总体精度达到81.01%,Kappa系数0.76。


类结果较好,相较传统的支持向量机分类方法精度提高了4%和0.05,精度更高,速度更快,稳定性更好,并且在小样本数据下有很好的泛化性。

随机森林方法在分类过程中要选择合适的分类树个数和特征变量数,本文经过反复试验确定树的数目T=50,特征变量个数m=5。

根据OOB精度估计,确定出对研究区优势树种识别贡献较大的12个变量,为多源数据的波段选择提供依据。

由于遥感影像类型不同或研究区域各具特点,随机森林模型中的参数设置还需进一步分析验证。

因此,对不同的遥感数据随机森林分类方法具有不同的适用性。

研究选取GF-1卫星影像从植被指数、纹理信息以及地形因子等特征进行模型构建,今后的研究中还需要加入更多的数据源,同时扩大样本的数量和纯度,在特征变量树和分类树个数方面对模型进行进一步的优化。

参考文献
[1] 刘尚斌,孙涛,黄国胜.遥感技术在森林资源连续清查中的应用研究[J].林业资
源管理,2000(6):51-57.
[2] 王雪.遥感技术在森林资源二类调查中的应用研究[D].西安:长安大学,2009.
[3] 刘旭升,张晓丽.森林植被遥感分类研究进展与对策[J].林业资源管理,2004(1):61-64.
[4] 谭炳香,李增元,陈尔学,等.高光谱与多光谱遥感数据的森林类型识别[J].东
北林业大学学报,2005,33(33):61-63.
[5] 章杨清.利用分维向量改进神经网络在遥感模式识别中的分类精度[J].环境遥感,1994(2):68-72.
[6] FRIEDL M A,BRODELEY C E.Decision tree classification of land cover from remotely sensed data[J].Remote Sensing of Environment,1997,61:399-409.
[7] 吴见,彭道黎.基于TM 影像的多伦县土地利用信息提取[J].东北林业大学学报,2010,38(10):88-90.
[8] 陶卿,姚穗,范劲松,等.一种新的机器学习算法:support vector machines[J].模式识别与人工智能,2000,13(3):285-290.
[9] 赵更寅,邱兆文.一种基于支持向量机的图像检索方法[J].东北林业大学学报,2009,37(10):127-128.
[10] 黎良财,张晓丽,郭航.基于SVM方法的SPOT-5影像植被分类[J].东北林业
大学学报,2014,42(1):51-56.
[11] BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.
[12] PAL M.Random forest classifier for remote sensing
classification[J].International Journal of Remote Sensing,2005,26(1):
217-222.
[13] RODRIGUEZ-GALIANO V F,CHICA-OLMO M,ABARCA-HERNANDEZ F,et al.Random forest classification of Mediterranean land cover using multi-seasonal imagery and multi-seasonal texture[J].Remote Sensing of
Environment,2012,121(138):93-107.
[14] RODRIGUEZ-GALIANO V F,GHIMIRE B,ROGAN J,et al.An assessment of the effectiveness of a random forest classifier for land-cover classification[J].ISPRS Journal of Photogrammetry and Remote Sensing,2012,67(1):93-104.
[15] GISLASON P O,BENEDIKTSSON J A,SVEINSSON J R.Random forests for land cover classification[J].Pattern Recognition Letters,2006,27(4):294-300.
[16] 张迷霞.基于随机森林的遥感图像分类算法研究[D].青岛:山东科技大学.2013.
[17] 陆春玲,王瑞,尹欢.“高分一号”卫星遥感成像特性[J].航天返回与遥感,2014,35(4):67-73.
[18] 黄世存,吴海平,王奇,等.“高分一号”卫星PMS图像几何定位精度验证[J].航天返回与遥感,2014,35(5):81-87.
[19] 牛健植,余新晓,高甲荣.凉水自然保护区景观动态研究初探[J].北京林业大学学报,2003,25(3):74-78.
[20] 何柏华.基于SPOT5 影像数据的森林资源分类与蓄积量反演研究[D].南京:南京林业大学学报,2008.
[21] MOHAMADI H,HABIBI J,ABADEH M S,et al.Data mining with a simulated annealing based fuzzy classification system[J].Pattern Recognition,2008,41(5):1824-1833.
[22] 刘磊.多光谱遥感图像的特征提取与比较[D].上海:上海交通大学,2005.
[23] VAPNIK V.The nature of statistical learning theory[M].New York:Springer Science & Business Media,1995,138-145.
[24] DU P,SAMAT A,BJORN WASKE,et al.Random forest and rotation
forest for fully polarized SAR image classification using polarimetric and spatial features[J].ISPRS Journal of Photogrammetry & Remote Sensing,2015,105:38-53.
[25] WANG H,GLENNIE G.Fusion of waveform LiDAR data and hyperspectral imagery for land cover classification[J].ISPRS Journal of Photogrammetry and Remote Sensing,2015,108:1-11.
[26] CONRAD C,RUDLOFF M,ABDULLAEV I,et al.Measuring rural settlement expansion in Uzbekistan using remote sensing to support spatial planning[J].Applied Geography,2015,62:29-43.
[27] MELLOR A,BOUKIR S,HAYWOOD A,et al.Exploring issues of training data imbalance and mislabelling on random forest performance for large area land cover classification using the ensemble margin[J].ISPRS Journal of Photogrammetry & Remote Sensing,2015,105:155-168. [28] 罗亦泳,张豪,张立亭.基于自适应进化相关向量机的耕地面积预测模型[J].农业工程学报,2015(9):257-264.
[29] 唐翠翠,黄文江,罗菊花,等.基于相关向量机的冬小麦蚜虫遥感预测[J].农业工程学报,2015(6):201-207.
[30] 田有文,程怡,王小奇,等.基于高光谱成像的苹果虫伤缺陷与果梗/花萼识别方法[J].农业工程学报,2015(4):325-331.
[31] 刘毅,杜培军,郑辉,等.基于随机森林的国产小卫星遥感影像分类研究[J].测绘科学,2012,37(4):194-196.
[32] 王书玉,张羽威,于振华,等.基于随机森林的洪河湿地遥感影像分类研究[J].测绘与空间地理信息,2014,37(4):83-85.
[33] CUTLER A,CUTLER D R,STEVENS J R.Random forests[J].Machine
Learning,2012,45(1):157-176.。

相关文档
最新文档