基于DBSCAN算法的虚假卫星林火热点挖掘研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于DBSCAN算法的虚假卫星林火热点挖掘研究
吴鑫;谭三清;蔡琼;周璀;张贵
【摘要】利用卫星遥感数据自动识别林火热点的过程中,需要尽可能排除卫星林火虚假热点以提高林火热点识别的精度.利用DBSCAN算法对湖南省范围内的卫星林火热点信息数据库(2015年10月—2017年12月)进行了数据挖掘,并建立了虚假林火热点历史经验库,对挖掘结果进行了分析和判别验证.结果表明:运用得到的虚假林火热点历史经验数据库进行比对,能够对固定热源类、农用火源类和水面反射类的卫星林火虚假热点进行有效过滤,为提高森林火灾卫星动态监测的准确度提供了一种有效的解决办法.
【期刊名称】《中南林业科技大学学报》
【年(卷),期】2018(038)008
【总页数】5页(P62-66)
【关键词】卫星林火热点;DBSCAN算法;时空数据挖掘;森林火灾
【作者】吴鑫;谭三清;蔡琼;周璀;张贵
【作者单位】中南林业科技大学数字洞庭湖南省重点实验室,湖南长沙 410004;中南林业科技大学数字洞庭湖南省重点实验室,湖南长沙 410004;中南林业科技大学数字洞庭湖南省重点实验室,湖南长沙 410004;中南林业科技大学数字洞庭湖南省重点实验室,湖南长沙 410004;中南林业科技大学数字洞庭湖南省重点实验室,湖南长沙 410004
【正文语种】中文
【中图分类】S762.3+2
森林火灾不仅造成经济损失,也严重地危害森林生态系统,提高林火热点监测的准确度对保护森林资源具有重大意义[1]。

遥感卫星具有监测范围广、时空分辨率高
和获取数据方便的特性,其对林火热点监测具有重要作用[2]。

前人利用遥感卫星
在林火热点监测方面的研究已有很多,大多采用阀值法、绝对火点识别法和上下文火点监测算法等对林火进行识别[3-5]。

但通过遥感卫星监测林火热点时会提取地
面所有热点,严重影响林火监测的精度。

因此如何将虚假林火热点从卫星遥感林火热点监测数据中剔除是提高林火监测精度的关键。

随着遥感卫星和地理信息系统的普遍应用,积累了大量的气象数据、数字影像数据和地理科学数据。

这些时空数据同时包括了时间、空间和非空间类型的数据,在时间和空间上均存在着一定的自相关性[6]。

时空数据挖掘作为一个新兴的研究领域,已经成为数据挖掘中的研究热点,在众多领域中取得了一定的研究成果。

时空数据挖掘是综合了多种新兴学科与多种相关技术相互交叉而形成的新领域,例如统计、机器学习、数据库学习等领域的相关技术[7],主要方法有数学统计方法、归纳方法、神经网络方法、聚类与分类方法等。

本研究以湖南省为研究区域,以2015—2017年历史林火数据为数据源,以DBSCAN算法为虚假林火挖掘方法,对计算
机自动判读的历史林火热点数据进行挖掘,给虚假林火热点的判识提供了新的思路。

1 数据来源与虚假火点分析
1.1 数据来源
本研究数据来源于中南林业科技大学气象卫星地面接收站,通过研制的林火热点自动识别系统,可处理EOS卫星的MODIS数据、风云3的VIRR数据以及NOAA
气象卫星的AVHRR数据,系统能采用相应算法提取林火热点。

本研究中所采用从2015年10月至2017年12月的湖南省共3 789条历史火点数据,包含火点所在
县市、经纬度、火场面积(像元数)、有无烟云等相关信息。

1.2 虚假火点类别分析
自然界物体的温度和其物体性质不同,其向外发射的辐射量也有所不同。

根据史蒂夫-波尔滋曼(Stefan-Boltzman)定律,物体的温度和辐射强度成正比,温度越高
的物体其辐射值越高。

从卫星遥感数据中提取热点的基本原理就是利用不同的波谱特征来区分地物。

在识别过程中能满足热点条件的,除了真实的林火热点外同时还可能夹杂着以下这些情况:
(1)固定热源。

固定热源分为两种,一种为有火、有烟雾的固定热源;另一种为非火点、无烟雾的地面恒热源。

有火、有烟雾的固定热源是指热源位置固定、且热源释放具有连续性和一定规律性的热点。

非火点的地面恒热源通常是指沙地、裸地、裸露的石头或城市热岛。

(2)水面反射。

当太阳光是由水面反射至卫星扫描辐射仪中时,在遥感图像上会出现一块明亮的特征,这样的特征称为太阳耀斑。

由于反射率强,对遥感图像进行处理时,在彩色合成图上也会被呈现为红色,同样会被认为是高温点,水面包括湖泊、河流、湿地,这类会被认为是热点的情况一般出现在晴朗天气。

(3)农用火源。

农用火源包括秸秆焚烧和传统祭祀扫墓造成的人为火源。

秸秆焚烧一般多为收获季节,所以具有季节性。

秸秆焚烧一般都会在种植地附近或农田的耕地表面上。

秸秆焚烧造成的虚假林火热点是虚假林火热点类型中特征最接近林火现象的虚假林火热点。

传统祭祀扫墓造成的人为火源这类火源在遥感影像上呈现的规律,通常在时间特征上很明显,于每年的春节前后和清明节前后,且热点位置相对集中。

(4)云层反射。

云层是卫星监测森林火灾中的重要干扰因子。

云具有不确定特征,时而有时而无,时而厚时而薄。

不同的云量和不同的形状以及不同的厚度对太阳的反射是不同的。

(5)不确定性异常高温点。

不确定性异常高温点一般包括居民房屋失火、烧窑、烧砖、烧垃圾等。

这些热源有不确定性。

其中烧窑、烧砖一般泛指在人工搭建的建筑物中,通过高温烧制黏土成型。

不确定性异常高温点的热源一般具有短时性,并不会引起森林火灾,但又是热源。

2 挖掘方法
DBSCAN算法是一种具有代表性的基于密度的聚类算法[8]。

DBSCAN算法要聚集的簇定义为密度相连的点的最大集合。

DBSCAN聚类与其他聚类方法的区别就是不用事先知道聚类的簇为多少,通过聚类前选取合适的聚类半径和聚类的最少点数,按照给出的参数进行聚类划分。

DBSCAN算法可以应用于许多领域,例如位置轨迹分析、数据分区、图像处理、预测模型等[9-12]。

DBSCAN算法的本质是计算给定的半径范围内包含了多少时空对象,算法包含两个参数Eps和MinPts,算法的核心概念如下:
(1)Eps领域:在给定半径为E内的时空对象为该对象的E领域;
(2)核心对象:核心对象是指在E领域中达到设定密度值范围的点,即在Eps中的点数大于或者等于MinPts;
(3)直接密度可达:对于任意一个以对象P为核心对象的集合G,对象D在对象P的Eps领域内,那么对象D到对象P之间直接密度可达;
(4)密度可达:当存在集合{D1,D2,…,Dn},假如集合中任意点Di从Di-1都是直接密度可达,那么集合中的点都是密度可达;
(5)密度相连:当集合G中点一个点使得任意点A,与对象P与对象D都是密度可达,那么任意点P与对象P和对象D称为密度相连;
(6)聚类:当样本集合内要素为非空集合时为一类;
(7)噪声点:当样本集合中的存在某一点不属于任何类,该点为噪声点。

DBSCAN算法进行聚类原理的可以总结:根据输入的邻域参数(Eps,MinPts)
和样本的欧式距离,对样本数据中的每个点的Eps领域来搜索成簇,当样本数据
中的对象点P的Eps领域包含的样本数据点个数多于MinPts时,则建立以对象
点P为核心对象的簇。

之后DBSCAN不断地迭代,聚集核心对象直接密度可达的所有对象点,历遍所有对象点,当没有新对象点添加到任何簇时,聚类过程结束。

DBSCAN算法的聚类结果是否合理,最大程度上取决于Eps参数的确定,当聚类半径Eps过大时会导致过多的噪声点被聚类成一簇,也有可能将本身不为同一簇
的对象聚类。

当聚类半径Eps过小时又会将本身属于同一簇的点给分成了不同的簇,则此聚类没有意义。

因此,合理的Eps是聚类成功与否的关键。

DBSCAN聚类所用的计算距离为欧式距离,因此需要将历史林火热点坐标的经纬度转换为平面坐标来进行计算。

本研究中建立的林火热点挖掘流程如图1所示。

图1 林火热点挖掘流程Fig. 1 Mining flow chart of forest fire hot-spot
3 虚假林火热点挖掘结果分析
3.1 挖掘结果分析
将采用DBSCAN算法进行林火热点挖掘的结果在ArcGIS平台上进行可视化分析,如图2所示,图中黄点为每个聚类点,每个聚类点中的林火热点数量在4个及以上。

图2 林火热点聚类结果Fig. 2 Clustering result of forest fire hot-spot
对各市行政区划范围内簇的数量及簇中的热点数进行统计汇总,如表1所示,全
省共发现173个符合参数的簇,之后对每个簇的林火热点数据查看属性,并判断
每个林火热点是否处于同一地表覆盖类型和是否具有时序特征。

表 1 林火热点簇和数量统计Table 1 Statistics of forest fire hot-spots of cluster and number市名簇个数热点个数长沙市20 167湘潭市12
70邵阳市11 56常德市22 90益阳市 5 24永州市 5 15娄底市 5
24株洲市17 77衡阳市24 127岳阳市11 46张家界市 4 16郴州市17 60怀化市18 53湘西土家族苗族自治州 2 8合计173 833
满足同一地表覆盖类型和满足时序条件热点的簇的个数为169个,不符合的为4个。

且不符合的簇内的林火热点数均为4个。

可以得出在样本中进行DBSCAN聚类得出的热点个数在4个以上时更符合虚假林火热点的特征。

对169个属于同一地表覆盖类型和满足时序条件热点的簇进行分类统计,结果如
表2所示。

表 2 林火热点簇和数量分类统计Table 2 Classification statistics of forest fire hot-spots of cluster and number类别簇个数热点个数F/%固定热源76 365 44.7农用火源89 432 52.9水面反射 4 20 2.4合计169 817 100
根据统计结果可以看出通过DBSCAN算法挖掘出的不同虚假林火热点类别的个数与占比情况,具体情况如下:
(1)固定热源。

固定热源类的虚假林火热点占挖掘出的虚假林火热点总数的
44.7%。

同时发现,固定热源几乎都处于人造地表覆盖类型,且根据城市发达程度,越发达的城市由固定热源造成的虚假林火热点越多。

固定热源的时序特征以5、6、7、8月最为显著。

(2)农用火源。

虚假林火热点中由农用火源造成的虚假热点的个数占比为52.9%。

同时发现,农用火源除了处于耕地中外,也会处于森林中。

农用火源造成的虚假热点的时间特征为农历春节前后、清明前后以及农作物春耕、秋耕期间,以2、4月份最为显著。

(3)水面反射。

由水面反射造成的虚假林火热点仅占2.4%。

通过挖掘发现,由
水面原因造成20个虚假林火热点的卫星检测时间都为下午1:30左右。

通过地图
查询,20点中有4个点在郴州的资兴市东江水库、4个点在岳阳湘阴县的湖泊、5
个点在常德桃源县的沅江水段,7个点在岳阳县的东洞庭湖。

3.2 虚假热点判别应用验证
根据中国森林防火网的数据对挖掘结果进行对比检验,可知固定热源和水面反射造成的虚假林火热点非常准确。

因此,根据固定热源类和水面反射造成的虚假林火热点的位置具有明显的位置特征性,可将以DBSCAN算法聚类的这两类成簇的核心对象热点建立数据库。

以后接收的林火热点数据中含有由核心对象点位置2 km范围内产生的热点,通过调用数据库进行比对,便可直接将其排除。

将挖掘结果与方法对2018年2月26日的林火点进行了应用,通过本研究方法从10个林火热点中找出2个由农用火源造成的虚假林火热点,与中国森林防火网比
对验证了结果的正确性,验证本方法能有效提高林火热点的监测精度。

4 结论与展望
本研究对卫星遥感数据进行计算机自动判读,获取湖南省林火热点数据,采用DBSCAN算法进行数据挖掘,从识别出的热点中进行虚假林火热点判识,得到以
下结论:
(1)采用DBSCAN算法为挖掘算法,将Eps设置为1 km,MinPts设置为3,
识别出了3种不同类型的虚假火点,分别为固定热源类、农用火源类和水面反射类。

(2)将挖掘结果和方法应用于实时虚假林火热点识别,能有效提高林火监测精度。

本研究虽然利用时空数据挖掘的方法对虚假林火热点进行了挖掘,并将方法应用于虚假林火的实时判识,但有些问题还需要进一步探讨:
①利用计算机从卫星遥感数据中自动判读出的历史林火热点数据对虚假林火热点进行判识时,不能将所有类别的虚假林火热点进行排除。

如云层反射造成的虚假林火热点,是否能不利用遥感数据中的反射波段特征来排除是未来的一个研究方向。

②本研究应用的算法中的参数选择仅以2 a间的历史林火热点数据为基础,在算法
的参数选择上是否会随着历史火点数据的增加而发生变化,也是一个值得研究的问题。

参考文献:
【相关文献】
[1] 郭海峰,禹伟. 湖南省森林火险天气等级预测模型研究[J].中南林业科技大学学报, 2016, 36(12): 44-47.
[2] 黎良财,陆灯盛,张晓丽,等. 基于时序遥感的喀斯特山区植被覆盖研究[J]. 中南林业科技大学学报, 2017, 37(7): 11-17.
[3] Roberts DA,Dennison PE,Peterson S,et al.Evaluation of Airborne Visible/infrared Imaging Spectrometer (aviris) and Moderate Resolution Imaging Spectrometer (modis) Measures of Live Fuel Moisture and Fuel Condition in a Shrubland Ecosystem in Southern California[J]. Journal of Geophysical Research Biogeosciences, 2015, 111(G4): 1069-1069.
[4] 慕臣英,徐全辉,张菁,等. RS和GIS技术在沈阳市火灾监测中的应用研究[J]. 中国农学通报, 2016, 32(9): 179-182.
[5] Pacheco A P, Claro J, Oliveira T. Simulation Analysis of the Impact of Ignitions, Rekindles, and False Alarms on Forest Fire Suppression[J]. Canadian Journal of Forest Research, 2013,44(1): 45-55.
[6] 刘大有,陈慧灵,齐红,等. 时空数据挖掘研究进展[J]. 计算机研究与发展, 2013, 50(2): 225-239.
[7] Roddick J F, Spiliopoulou M. A Bibliography of Temporal,Spatial and Spatio-temporal Data Mining Research[M]. Acm,1999: 34-38.
[8] Campello RJGB,Moulavi D,Zimek A,et al.A Framework for Semi-supervised and Unsupervised Optimal Extraction of Clusters From Hierarchies[J]. Data Mining & Knowledge Discovery, 2013, 27(3): 344-371.
[9] 张俊涛,武芳,张浩. 利用出租车轨迹数据挖掘城市居民出行特征[J]. 地理与地理信息科学, 2015, 31(6): 104-108.
[10] 周水庚,周傲英,曹晶. 基于数据分区的DBSCAN算法[J].计算机研究与发展, 2000, 37(10): 1153-1159.
[11] 刘双喜,王盼,张春庆,等. 基于优化DBSCAN算法的玉米种子纯度识别[J]. 农业机械学报, 2012, 43(4): 188-192.
[12] Bird S,Klein E,Loper E. Natural Language Processing with Python[M]. 南京:东南大学出版社, 2010: 581-592.。

相关文档
最新文档