干旱区资源与环境-基于流形学习的土壤高光谱数据特征提取研究_吕杰

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第29卷第7期干旱区资源与环境Vol.29No.7 2015年7月Journal of Arid LandResources and Environment July.2015文章编号:1003-7578(2015)07-176-05doi:10.13448/j.cnki.jalre.2015.242

基于流形学习的土壤高光谱数据特征提取研究*

吕杰,郝宁燕,史晓亮

(西安科技大学测绘科学与技术学院,西安710054)

提要:尾矿重金属污染是当今矿区环境污染面临的主要问题之一,精确反演土壤重金属含量对矿区土壤污染监测和治理具有非常重要的意义。以陕西金堆城矿区尾矿为研究区,利用ASD光谱仪测量土壤光谱,通过实验室化学分析获取土壤样本铜元素含量;将Isomap流形学习方法应用于土壤高光谱数据降维,利用随

机森林方法对矿区尾矿土壤的Cu含量进行反演建模,并与原始高光谱数据反演结果和PCA降维后的反演结

果进行对比。结果表明:土壤铜含量反演模型在经过Isomap降维后的光谱数据集上预测铜元素含量的相关系

数R2为0.7272,均方根误差RMSE为1140.20,在预测的准确性方面均优于原始高光谱数据。研究结果为探

索土壤高光谱数据特征提取提供了理论依据,同时对尾矿重金属污染监测具有重要的现实指导意义。

关键词:流形学习;土壤;铜;随机森林;高光谱

中图分类号:O433.1;O433.4文献标识码:A

尾矿重金属污染是矿区环境污染最严重问题之一。重金属具有很高的生物毒性,金属矿在开采过程中产生的重金属离子会随着雨水或灌溉进入土壤,通过一系列物理化学过程迁移转化,以一种或多种形式长期驻留在环境中,最终通过食物链等途径危及人类健康[1]。因此,如何更好地反演尾矿土壤重金属含量是矿区环境监测和治理的重要课题之一。

通常采用的土壤重金属污染监测和识别方法是从野外采样带回实验室进行化学分析。化学测试分析普遍要求破坏土壤样本,从大量的土壤样本采集、烘干、称重、研磨到进行测试,在大尺度监测土壤重金属含量时费时、费力。

高光谱遥感技术以其光谱分辨率高、波段连续性强、数据丰富的特点,在土壤盐渍化监测[2-4]、植被叶绿素遥感反演[5]、水质参数定量反演[6-7]、土壤重金属含量的监测研究中得到广泛应用[8]。但同时也因其数据量大、数据冗余度高和Hughes现象给数据处理带来极大的挑战[9]。因此,有效减少数据维数的同时保持数据的内在结构信息为高光谱遥感技术的广泛应用开启了一扇新的大门。目前,针对高光谱数据提出了许多有效的降维方法[10-18],主要包括线性降维中的主成分分析法(PCA),Fisher线性判别分析(LDA)、多维尺度变换(MDS)、局部保留投影(LPP),非线性降维方法中的局部线性嵌入(LLE)、拉普拉斯特征映射(LE)、等距映射(Isomap)等。

流形学习(manifold learning)是模式识别和机器学习研究中的热点,它能够对高维数据空间进行非线性降维,并且揭示其流形分布,从中找出隐藏在高维光谱数据中有特定的低维结构,从而从中提取易于识别的特征,近年来流形学习已被用于遥感影像的降维与特征提取[19-21]。

重金属污染土壤的光谱信息影响微弱,并且重金属含量与土壤的光谱信息是非线性的关系,因此有必要对土壤光谱进行非线性降维处理,将流形学习引入到重金属污染土壤的高光谱数据降维,是一个有意义的尝试。文中以陕西金堆城矿区尾矿为研究区,以矿区土壤为研究对象,探索运用Isomap流形学习进行高光谱数据降维,利用随机森林构建矿区尾矿铜含量反演模型。

1材料与方法

1.1研究区概况

*收稿日期:2015-1-21。

基金项目:国家自然科学基金(51409204、41401496);地理空间信息技术国家地方联合工程实验室开放基金项目(2013GSIJJ002);江西省数字国土重点实验室开放研究基金项目(DLLJ201305)资助。

作者简介:吕杰(1982-),男,山东蓬莱人,博士,讲师,主要从事高光谱遥感研究。Email:rsxust@163.com

选取陕西金堆城钼矿尾矿区为研究区域,金堆城钼矿位于秦岭东段著名的西岳华山南麓陕西省华县

金堆城,矿区面积4.5km 2

矿区中心地理坐标为东经109ʎ57'22ᵡ,北纬34ʎ19'41ᵡ,海拔高度1211m ,金堆城钼矿床是我国闻名的大型钼矿床,钼精矿产量居全国之冠,已探明钼资源量1011461.22t 。1.2数据准备

2013年8月在研究区域分别采取60个采样点数据,采集0-20cm 的表层土,在20ʎC 风干3d ,碾碎后过2mm 的聚乙烯筛,以筛除碎石、卵石以及植物残骸,研磨后过0.15mm 的聚乙烯筛,将最终筛过的样品分成两份,一份用于土壤铜含量测试分析,一份用于土壤光谱测量。

土壤光谱采用美国ASD (Analytical Spectral Devices ,ASD )野外光谱仪进行测定,光谱仪使用前需要用

白板校零。测量时间为10:30-12:00,在室外自然光照条件下,选择无风的时间,将筛过的土壤样品放满于土壤盘上,并用小平铲铲平土壤表面,使其与盘边缘水平。光谱仪选用8ʎ视场角探头,探头到土壤样本

表面距离为1.35m ,测量1m 2

范围内的土壤光谱,

每个土壤样本连续获取10条测量光谱,取均值作为土壤的反射率光谱。

土壤铜含量采用盐酸-硝酸-氢氟酸-高氯酸全分解的方法,彻底破坏土壤的矿物晶格,使土壤样本中的铜元素全部进入试液。接着,将土壤消解液喷入空气-乙炔火焰中。在火焰的高温下,铜化合物离解为基态原子,该基态原子蒸汽对相应的空心阴极灯发射的特征谱线产生选择性吸收。在选定的最佳条件

处,测定铜的吸光度(GB /T17138-1997)

[22]

。1.3Isomap 算法

等距特征映射(Isometrio Mapping ,

简称Isomap )算法是Tenenbaum 等于2000年提出的一种典型的全局特性保持方法[23]

。它是在MDS 的基础上,

使用样本点之间的测地距离代替欧式距离。Isomap 算法因其在数据降维的过程中力求保持数据点的内在几何特性已经在医学、农业、天文等领域得到广泛应用

[24-26]

。Isomap 算法具体描述如下:首先,

构造领域图G :计算每个样本点和其余样本点之间的欧氏距离。如果样本点x i 和x j 的欧氏距离d x (i ,j )小于给定阈值ε或者x i 是x j 的第k 个邻近点,则规定x i 和x j 是相邻的。即图G 有边,并设边

的权重为d x (i ,

j )。其次,计算最短路径:当图G 有边时,

初始化最短路径d G (i ,j )=d x (i ,j ),否则d G (i ,j )=ɕ。根据迪杰斯特拉(Dijkstra )算法求出任意两个样本点之间的最短路径距离d G (i ,

j )=min {d G (i ,j ),d G (i ,k )+d G (k ,j )}(k =1,2,...n ;n 为样本数),得到最短路径距离矩阵D G ={d G (i ,

j )}。最后,计算d 维嵌入:令λp 表示矩阵τ(D G )的第p 个特征值(降序),v i

p 表示第p 个特征值的第i 个组分。然后设置d 维坐标矢量y i 的第p 个组分的值为λp v 槡i

p 。图1随机森林的流程图Figure 1Flow chart of random forest

1.4随机森林

随机森林(Random Forest )是Breiman 于2001年提出的一种非常有效的机器学

习算法[27]

。国内外学者已经将随机森林算法广泛应用在生物、遥感和医学领域

[28-34]

。随机森林基本思想是利用bootsrap 重抽样方法从原始样本选取多个子样本,并逐一进行决策树建模,每棵树单独完成预测后,由投票得出最终输出的预测结果(图1)。

2实验与分析

2.1数据集描述

实验采用陕西金堆城钼矿尾矿区采集的60个土壤样本数据,波长范围350nm -1230nm ,维数881以及对应的60个实测土壤Cu 含量结果。根据实验需求分成43个校正样本和17个测试样本,采用交叉验

证(CV ,cross validation )方法优化土壤铜含量反演模型,设定交叉验证的范围N ,即将输入校正样本数据均

分成N 组,任意选取其中N -1组子集数据作为训练集,剩余一组作为验证集,所得模型经交叉验证优化

·

771·第7期吕杰等基于流形学习的土壤高光谱数据特征提取研究

相关文档
最新文档