随机森林遥感图像分类实验教学软件开发研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随机森林遥感图像分类实验教学软件开
发研究
摘要:随着科学技术的发展,我国的森林遥感图像分类技术有了很大进展,在我国现阶段的众多高校中,都开设了“遥感图像解译”或“遥感原理与应用”等课程。
遥感图像的监督分类,是遥感类课程不可或缺的教学内容。
然而,在目前相关课程的实验教学中,存在教学内容陈旧、更新频率较低等问题。
为了充实高校遥感类课程的实验教学,本文首先分析了随机森林回归模型,其次探讨了遥感图像分类实验教学软件设计,以供参考。
关键词:随机森林;遥感图像;分类;实验教学
引言
随着遥感技术的发展,人类的对地观测能力逐步增强,数据量与日俱增。
在此背景下,遥感数字图像处理课程的专业知识和理论方法须不断推陈出新,以应对海量空间数据的快速处理与分析,并结合城市、农业、生态、环境、生活等不同领域的应用实践,不断拓展其时间、空间尺度。
1随机森林回归模型
随机森林(randomforest,RF)是一种基于决策树的集成学习算法,其通过Bootstrap取样法从n个训练样本中有放回地随机选取n个样本得到m个子集,并对每个子集单独训练一棵决策树,将m棵决策树预测结果的平均值作为回归随机森林的输出。
随机森林回归模型以每种重金属元素选取的建模因子作为输入变量,以其真实的含量值作为输出。
在建立模型的过程中需要确定两个关键参数:决策树数量和决策树特征数量,试验中通过网格搜索和交叉验证确定上述参数的取值。
算法原理如图1所示。
图1随机森林回归模型算法原理
2遥感图像分类实验教学软件设计
2.1软件框架设计
要深入了解随机森林(RF)进行遥感图像分类的原理与过程,除了要实现RF 的分类功能,还需要允许学员能够对RF的各项训练参数进行设置。
在
MVC(ModelViewController)的软件设计体系框架下,本文给出了基于RF的遥感图像分类实验教学软件的设计架构。
MVC是软件工程领域中通用的软件架构设计模块,它包含三大部分:1)模型层;2)视图层;3)控件层。
如图2所示。
图2遥感图像分类实验教学软件设计架构图
在具体的软件设计过程中,需要根据软件需求分析,模块化各个功能,以便提高软件编程实现过程的效率,以及提升软件的易用度。
基于RF的遥感图像分类需要三部分的输入,包括遥感图像、训练数据,以及RF的参数。
在实际的实
验教学中,遥感图像可由教师提供,或在教师的指导下由学生搜集。
训练数据需
在教师的指导下,由学生根据遥感图像的内容进行采集。
本文采用CSV格式的文
本文件来储存训练数据,具体可以利用Excel与专业遥感图像处理系统ENVI联
合获取。
参数设置包含两个层次:1)RF的参数N和m(其定义见本文1.2节);2)
决策树的参数,其中第二部分可被定义被高级参数。
本软件为初学者提供高级参
数的默认设置;学生在对RF与决策树有了较为深入的理解之后,本软件允许其对
高级参数进行调整。
在实现技术中,本文采用的集成开发环境(IntegratedDevelopmentEnvironment,IDE)是微软的VisualStudio2010;所采用
的开发语言为VisualC++;对于用户图形界面,本文利用了微软的MFC控件类库来
实现人机交互的各项功能,包括选择和打开文件、参数设置、信息提示等。
2.2实验设计
对MCD12Q1中的图表数据对应的遥感影像做好标记得到真实值数据,反射率
数据预处理后将目标的区域作为训练的数据,然后将这其中的20%作为验证组,
将数据输入训练方法中进行训练,得到结果后对真实值数据进行精度对比,之后
再将数据作为初始数据代入之前的方法中进行训练。
设定随机森林生成树木最大
为500,挑选出其中精度最高的一组作为植被分类图,使用python将矩阵数据进
行上色,得到可视化的植被分类图。
2.3拓展教学渠道
实施线上/线下教学、课堂讨论、实验和学习汇报相结合的教学模式,形成
多样化的教学渠道。
在遥感数字图像处理课程教学中,添加相关时政要闻。
在实
践实训中,充分体现国家、地区的发展战略需求;在课程讨论中,加强师生互动。
通过课程讲授、专题实践、课堂讨论等多样化教学手段,夯实学生的专业基础,
提高学生的自主学习和实践能力,培养学生的学习兴趣,增强学生对专业的认可度。
2.4训练数据准备
训练数据的准备包括两大步骤:1)利用ENVI的感兴趣区功能,从图像里手动
提取训练点数据;2)将所提取的训练点数据转化为本软件能够识别的CSV格式文
本文件,这一过程可由Excel软件完成。
在第一步中,需先利用ENVI显示遥感图像,然后用菜单命令打开感兴趣区对话框:叠加(Overlay)→感兴趣区(Regionofinterest,ROI)。
在感兴趣区对话框中,选择点类型(R
OI_Type→Point)的ROI来选择训练点。
在训练点选择过程中,学生需在教师或实验辅导人员的指导下完成,以得到图像中各个地物类别、数量足够多的训练数据。
值得注意的是,训练点的选择是本实验的关键步骤,需要教师详细指导以及学生认真完成。
要导出选好的训练点,需利用感兴趣区对话框中的菜单命令:文件(File)→输出ROI到ASCII码文件(OutputROIstoASCII)。
值得注意的是,在导出训练点文本文件时,需手动添加.txt后缀名。
在第二步中,首先启动Excel,然后打开上一步得到的训练点文件。
由于Excel默认把导入的文本文件归为一列,而训练点数据包含像素的x、y坐标,因此需要手动分列操作。
这一步的Excel命令是:数据→分列。
需注意的是,在分列向导对话框中,要选择“分隔符号”的方式,并且在分隔符号的选择中利用“空格”进行分列。
在分列完成后,要把各个训练点的x、y坐标,复制到一个新建表单文件中,并且在点坐标的之前一列,设置训练点的类别标识。
将所有训练点的类别标识、坐标信息配置完成后,在第一行输入两个数字:1)类别数,2)训练点总数。
最后,把文件另存为CSV格式的文件,即完成训练点数据的准备。
分类结果的评价是根据混淆矩阵进行的。
在ENVI软件中,其对应的菜单命令为:分类(Classification)→分类后处理(PostClassification)→混淆矩阵(ConfusionMatri x)→使用地面真值感兴趣区(UsingGroundTruthROIs),得到分类混淆矩阵、分类总精度、KAPPA系数等精度评价数值。
在这一步骤中需要地面真值的感兴趣区(ROI)数据,这些数据可由指导教师提供,或由以下实验教学实施方案解决。
在实验教学前,预先分配两人一组。
每组同学处理相同的遥感图像,但在提取训练点时,每人要在不同的图像部分进行提取。
例如,对于一组中A、B两名同学,A只提取图像中上半部分的训练点,B只提取该图像中下半部分的训练点。
两名同学要确保其训练点提取的位置是不重合的,且每人提取的训练点数量足够多,并涵盖该图像的所有地物类型。
这样,A同学的训练点ROI数据可被当作B的地面真值,而B的训练点可被当作A的地面真值。
以上方案不但解决了提供地面真值数据的问题,也使同学们充分了解基于地面真值数据进行分类精度评价的流程。
结语
综上所述,随机森林分类法已经证明是同类分类法中效果最好的一种,其运
算速度较为迅速而且分类精度也有一定的保障;在我们以往的工作过程中发现,
随机森林分类方法的稳定性超过了神经元网络分类法,受工作时间及硬件的限制,本次试验并没有将现有数据进行神经元网络分类识别,在以后的试验中我们会增
加分类识别的方法以获得更完善的结论。
参考文献
[1]李德仁,姚远,邵振峰.智慧城市中的大数据[J].武汉大学学报
(信息科学版),2014,39(6):631-640.
[2]李德仁.展望大数据时代的地球空间信息学[J].测绘学报,2016,
45(4):379-384.
[3]高仁强,陈亮雄,杨静学,等.一种高分影像随机森林变化检测方法[J].测绘科学,2020,45(11):130-138.
[4]张天一,苏华,杨欣,等.基于LightGBM的全球海洋次表层温盐遥感
预测[J].遥感学报,2020,24(10):1255-1269.。