基于随机森林算法的福建林火发生驱动因子分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四、结果与分析
(一) 福建林火的空间分布格局 本文应用 Ripley's K- 函数分别对福建省 2000-2005 年每 年的森林火灾和 2000-2005 年所有的森林火灾进行空间点格局 分析。空间点格局分析结果(图 1)显示 K(d)值全部在置 信区间的上方,这表明福建省 2000-2005 年的森林火灾的空间 分布格局呈空间聚集状态分布,说明存在着高火险的区域。
一、研究区域概况
福建省位于我国东南沿海地区,以山地丘陵为主,降水 量非常充沛,其年平均降水量有 1400-2000 毫升之多,在我国 各省份中居首位,加之日照时间长,为林木的生长提供了优越 的自然条件。然而,近几十年来,由于人类活动范围扩大,对 森林施加的影响也越来越多,森林火灾发生的频次也随之大量 增加。据统计,1951 年到 1998 年间福建省一共发生了 66,000 次的火灾,森林火灾发生次数大约 1385 次 / 年,受影响的森林 面积逾 320 万公顷 [17];森火灾次数最多的 2004 年,共发生了 1164 起,哪怕是森林火灾次数最少的 1998 年,也发生了大大 小小的森林火灾 156 次,影响之大,次数之频繁,令人触目惊 心,森林火灾问题越来越严重,不容忽视 。 [18]
关键词:随机森林算法;福建省;森林火灾;驱动因子
森林是地球上最大的陆地生态系统,对整个地球的生态 平衡至关重要,是人类赖以生存和发展的重要资源和环境,被 誉为“地球之肺”[1]。然而,近几十年来,随着人类社会的发展, 全球气候变暖,地形、植被遭到破坏,林区用火增加,森林火 灾发生次数越来越多,森林资源遭到破坏,严重影响了森林的 生态系统,同时也严重影响了林区周边人民群众生活的各个方 面 [2-4]。目前,我国在森林火灾方面的研究已经取得了一定的 进展,但是研究成果多针对北方林区,南方森林火灾方面的研 究还有很大的空间,因此本次研究可以填补我国森林火灾研究 领域的部分空缺,使之更加完善,对森林火灾的管理系统可以 起到一定的参考作用。
1977 年 Ripley 提出了 Ripley's K(d)函数,该函数是计算
最小邻近距离的一种统计分析方法,该统计方法现在已经被广
泛地应用在判断空间点的空间分布格局方面。下面是 Ripley's
K(d)函数的计算公式:
K
(d
)
ACADEMIC RESEARCH 学术研究
基于随机森林算的福建林火发生驱动因子分析
◆ 梁慧玲 孙锋锋 丁桂芹
摘要:森林生态系统是地球陆地上最大的生态系统,对人类有着重要的意义,然而,森林火灾会严重 影响森林的生态系统,森林火灾不仅会影响森林生态系统对气候的调节作用和涵养水源、保持水土等重要 作用,而且还会威胁到人类生活的各个方面。福建省因其特殊的地形和位置,森林覆盖率多年来位居全国 第一,森林资源非常丰富,也是我国森林火灾的高发区,林火发生次数频繁且危害严重。论文应用随机森 林算法对福建省森林火灾的气候、地形、植被以及人为因素等驱动因子进行分析,研究结果为该地区的森 林火灾预防工作提供一定的科学参考。
二、数据资料来源与分析
(一)数据来源 本次研究使用的数据资料包含人口、植被、地形、林火 数据、基础设施、经济和每日气象数据,一共有 25 个影响森 林火灾发生的驱动因子。 森林火灾的数据资料来自林业科学数据中心(http://www. /indexAction.action?classId=1)提供的福建省 2000-2005 年卫星火点解译数据。 植被的数据资料来自中国科学院寒区旱区环境与工程研 究所(/)提供的植被功能类型图。
=
S n2
∑
i≠ j
∑
I
(dij
)
其中,dij 表示火点 i 与 j 之间的距离,S 表示研究区域的
146 信息系统工程 │ 2019.9.20
ACADEMIC RESEARCH 学术研究
面积,n 表示研究区域内观测点的个数,d 为距离尺度,I(dij) 为指示函数,如果 dij<d,则 I(dij)=1,否则 I(dij)=0。
每日的气象数据资料来源于中国气象数据共享网络(http:// /)。
(二)数据处理 本文遵循空间和时间上的随机性原则应用 ArcGIS 软件按 照 1:1(大约)的比例创建了 4114 个对照火点 , [19-20] 一共有 8683 个林火数据。然后将这些林火数据划分成了 60% 的训练 样本和 40% 的测试样本两部分,分别用来建立模型和检验模 型 [21]。并且随机的重复 5 次林火数据资料的划分,从而尽量避 免样本分布给试验结果带来的影响,也就是随机的重复 5 次训 练样本和测试样本的划分,最后选择出现 3 次或 3 次以上的重 要因子对全样本数据进行拟合计算。
决策树的数量,{ϕn}是独立同分布的随机向量。随机森林算法 将大量的分类和回归树聚集在一起,从而来提高模型的预测精
度,随机森林算法除了可以被用来预测和分析变量之间的内在
联系,处理分类、回归等问题之外,还可以被用来分析自变量
的重要性和做生存分析等 。 [22-23]
(二) Ripley's K-function
地 形 的 数 据 资 料 来 源 于 地 理 空 间 数 据 云(http://www. /)。
人口的数据资料来自地球系统科学技术共享平台(http:// /Portal/index.jsp)。
基础设施的数据资料来自国家测绘地理信息局 (http://218.244.250.78/NgccDigitalHall/)。
三、研究方法
(一) 随机森林算法
随 机 森 林 算 法(random forest,RF) 是 以 分 类 和 回 归
树(classification and regression trees) 为 基 础 的 组 合 分 类 器
{h(X ,ϕn ), n = 1,2,..., N},其中,X 是自变量,N 是随机森林算法中
(一) 福建林火的空间分布格局 本文应用 Ripley's K- 函数分别对福建省 2000-2005 年每 年的森林火灾和 2000-2005 年所有的森林火灾进行空间点格局 分析。空间点格局分析结果(图 1)显示 K(d)值全部在置 信区间的上方,这表明福建省 2000-2005 年的森林火灾的空间 分布格局呈空间聚集状态分布,说明存在着高火险的区域。
一、研究区域概况
福建省位于我国东南沿海地区,以山地丘陵为主,降水 量非常充沛,其年平均降水量有 1400-2000 毫升之多,在我国 各省份中居首位,加之日照时间长,为林木的生长提供了优越 的自然条件。然而,近几十年来,由于人类活动范围扩大,对 森林施加的影响也越来越多,森林火灾发生的频次也随之大量 增加。据统计,1951 年到 1998 年间福建省一共发生了 66,000 次的火灾,森林火灾发生次数大约 1385 次 / 年,受影响的森林 面积逾 320 万公顷 [17];森火灾次数最多的 2004 年,共发生了 1164 起,哪怕是森林火灾次数最少的 1998 年,也发生了大大 小小的森林火灾 156 次,影响之大,次数之频繁,令人触目惊 心,森林火灾问题越来越严重,不容忽视 。 [18]
关键词:随机森林算法;福建省;森林火灾;驱动因子
森林是地球上最大的陆地生态系统,对整个地球的生态 平衡至关重要,是人类赖以生存和发展的重要资源和环境,被 誉为“地球之肺”[1]。然而,近几十年来,随着人类社会的发展, 全球气候变暖,地形、植被遭到破坏,林区用火增加,森林火 灾发生次数越来越多,森林资源遭到破坏,严重影响了森林的 生态系统,同时也严重影响了林区周边人民群众生活的各个方 面 [2-4]。目前,我国在森林火灾方面的研究已经取得了一定的 进展,但是研究成果多针对北方林区,南方森林火灾方面的研 究还有很大的空间,因此本次研究可以填补我国森林火灾研究 领域的部分空缺,使之更加完善,对森林火灾的管理系统可以 起到一定的参考作用。
1977 年 Ripley 提出了 Ripley's K(d)函数,该函数是计算
最小邻近距离的一种统计分析方法,该统计方法现在已经被广
泛地应用在判断空间点的空间分布格局方面。下面是 Ripley's
K(d)函数的计算公式:
K
(d
)
ACADEMIC RESEARCH 学术研究
基于随机森林算的福建林火发生驱动因子分析
◆ 梁慧玲 孙锋锋 丁桂芹
摘要:森林生态系统是地球陆地上最大的生态系统,对人类有着重要的意义,然而,森林火灾会严重 影响森林的生态系统,森林火灾不仅会影响森林生态系统对气候的调节作用和涵养水源、保持水土等重要 作用,而且还会威胁到人类生活的各个方面。福建省因其特殊的地形和位置,森林覆盖率多年来位居全国 第一,森林资源非常丰富,也是我国森林火灾的高发区,林火发生次数频繁且危害严重。论文应用随机森 林算法对福建省森林火灾的气候、地形、植被以及人为因素等驱动因子进行分析,研究结果为该地区的森 林火灾预防工作提供一定的科学参考。
二、数据资料来源与分析
(一)数据来源 本次研究使用的数据资料包含人口、植被、地形、林火 数据、基础设施、经济和每日气象数据,一共有 25 个影响森 林火灾发生的驱动因子。 森林火灾的数据资料来自林业科学数据中心(http://www. /indexAction.action?classId=1)提供的福建省 2000-2005 年卫星火点解译数据。 植被的数据资料来自中国科学院寒区旱区环境与工程研 究所(/)提供的植被功能类型图。
=
S n2
∑
i≠ j
∑
I
(dij
)
其中,dij 表示火点 i 与 j 之间的距离,S 表示研究区域的
146 信息系统工程 │ 2019.9.20
ACADEMIC RESEARCH 学术研究
面积,n 表示研究区域内观测点的个数,d 为距离尺度,I(dij) 为指示函数,如果 dij<d,则 I(dij)=1,否则 I(dij)=0。
每日的气象数据资料来源于中国气象数据共享网络(http:// /)。
(二)数据处理 本文遵循空间和时间上的随机性原则应用 ArcGIS 软件按 照 1:1(大约)的比例创建了 4114 个对照火点 , [19-20] 一共有 8683 个林火数据。然后将这些林火数据划分成了 60% 的训练 样本和 40% 的测试样本两部分,分别用来建立模型和检验模 型 [21]。并且随机的重复 5 次林火数据资料的划分,从而尽量避 免样本分布给试验结果带来的影响,也就是随机的重复 5 次训 练样本和测试样本的划分,最后选择出现 3 次或 3 次以上的重 要因子对全样本数据进行拟合计算。
决策树的数量,{ϕn}是独立同分布的随机向量。随机森林算法 将大量的分类和回归树聚集在一起,从而来提高模型的预测精
度,随机森林算法除了可以被用来预测和分析变量之间的内在
联系,处理分类、回归等问题之外,还可以被用来分析自变量
的重要性和做生存分析等 。 [22-23]
(二) Ripley's K-function
地 形 的 数 据 资 料 来 源 于 地 理 空 间 数 据 云(http://www. /)。
人口的数据资料来自地球系统科学技术共享平台(http:// /Portal/index.jsp)。
基础设施的数据资料来自国家测绘地理信息局 (http://218.244.250.78/NgccDigitalHall/)。
三、研究方法
(一) 随机森林算法
随 机 森 林 算 法(random forest,RF) 是 以 分 类 和 回 归
树(classification and regression trees) 为 基 础 的 组 合 分 类 器
{h(X ,ϕn ), n = 1,2,..., N},其中,X 是自变量,N 是随机森林算法中