梅雨降水季节预测的多方法比较

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

梅雨降水季节预测的多方法比较作者:李琳菲杨颖朱志伟王蔚
来源:《大气科学学报》2024年第02期
摘要基于1961—2000年逐月降水观测资料和全球大气再分析资料,分析了6—7月长江中下游(108°~123°E,27°~33°N)梅雨的时空分布特征。

通过观测诊断和数值试验确定了影响梅雨异常偏多的3个前期因子:4—5月平均的西北太平洋海平面气压正异常;3月至5月北大西洋海平面气压负变压倾向;1月至4月西伯利亚的2 m温度负倾向。

利用这3个具有物理意义的影响因子构建了梅雨季节预测模型,该模型在训练期(1961—2000年)和独立预测期(2001—2022年)均具有显著的预测技巧(相关系数分别为0.79和0.77,均方根误差分别为0.59和0.68)。

同时,基于相似的潜在预测因子,对比了利用偏最小二乘回归方法和5种机器学习方法(随机森林、轻量级梯度提升机、自适应提升、类别型特征提升、极端梯度提升)建立的预测模型的技巧。

虽然训练期(1961—2000年)偏最小二乘回归和机器学习建模拟合效果更高,但在独立预测期(2001—2022年)上述模型的预测技巧显著降低(相关系数均低于0.44,均方根误差均大于0.93),出现了明显的过拟合问题。

本研究强调梅雨的短期气候预测应建立在物理机制基础之上,而使用机器学习方法需谨慎。

关键词梅雨;季节预测;物理经验预测模型;机器学习
梅雨期是东亚夏季风雨带由南向北推进过程中的重要阶段(Ding,1992;Ding et al.,2020)。

梅雨降水多寡直接影响长江流域的旱涝状况,尤其是梅雨异常带来的旱涝灾害严重影响长江流域经济发展和人民生产生活。

例如:1998年梅雨异常偏多导致长江中下游大洪水,造成3 000余人死亡,直接经济损失将近2 500亿元(陶诗言等,1998;Lu,2000);2020年超級暴力梅打破了1961年以来长江流域梅雨季降水纪录,3 800余万人受洪涝影响(刘芸芸和丁一汇,2020;Ding et al.,2021);2022年梅雨历史性极端偏少,长江流域出现大范围干旱(张强,2022;孙博等,2023),导致64万hm2耕地受灾、83万人供水困难。

因此,揭示梅雨变异规律、理解其物理成因、进而提升梅雨季节预测水平,是国家防灾减灾的迫切需求。

作为热带暖湿空气和中高纬度冷干气流汇合的锋面系统,梅雨降水多寡受到热带和中高纬度环流系统共同控制(Ding,1992;Wang and Lin,2002)。

夏季对流层低层太平洋副热带高压西北侧的西南风将水汽向北输送至长江流域,提供梅雨主要水汽来源(张庆云和陶诗言,2003);对流层高层南亚高压的东伸通过抽吸作用增强梅雨降水(Ren et al.,2015);欧亚大陆上阻塞高压(张庆云和陶诗言,1998)和东北冷涡(王丽娟等,2010)引导干冷空气南下,与北上的暖湿空气在长江中下游交汇,形成梅雨环流形势;此外,丝绸之路型遥相关(Lu et al.,2002)和太平洋-日本/东亚-太平洋型遥相关(Nitta,1986)均可通过影响东亚局地环流,进而影响梅雨降水(Guan et al.,2019;陶丽等,2020)。

调控梅雨降水的局地环流异常是更大尺度海陆气相互作用的结果:ENSO作为全球最显著的热带年际气候模态,通过西北太平洋风-蒸发-海温反馈机制(Wang et al.,2000;Wu et al.,2017)、印度洋“电容器”效应(Xie et al.,2016)影响西北太平洋反气旋异常,进而调控梅雨降水;而不同类型的ENSO事件也会对梅雨造成差异性影响(陈文等,2018;Zhou et al.,2019);北大西洋海温异常可以通过热带和热带外两条路径调控东亚环流形势,进而影响梅雨降水(Yang et al.,2023;Zhu et al.,2023);而北极
海冰(Guo et al.,2014)、欧亚大陆积雪(Zhang et al.,2021)、局地土壤湿度(Zuo and Zhang,2016)等陆面因子也能直接或间接调控东亚环流,最终影响梅雨降水。

除梅雨变异机理研究,准确预测梅雨也是国家防灾减灾的迫切需求(宋进波等,2018)。

范可等(2007)通过考察与梅雨年际增幅相关的环流异常,建立了统计预测模型,其在独立预报时段平均均方根误差控制在20%以内;Xing et al.(2016)结合经验正交分解和偏最小二乘回归方法建立了中国夏季降水统计预测模型,其提前4个月预测结果远优于动力模式提前1个月的预报技巧。

除统计模型外,英国气象局数值预报业务模式(GloSea5)由于准确预测海洋性大陆对流活动及其向中国南方和长江流域的水汽输送,所以对梅雨降水的回报技巧高于欧盟ENSEMBLES多模式集合系统(Li et al.,2016);中国国家气候中心全球海气耦合模式第2代气候预测模式相比第1代模式对环流和物理量场的预报性能明显提升,但仍低估了中国东部夏季降水(张丹琦等,2019),其原因在于低估了西太平洋及印度洋海表温度,导致预测的西太平洋副热带高压及水汽辐合偏弱。

综上所述,统计模型预测和动力模式在梅雨预测中均存在显著不足。

近年来,基于物理机制的经验预测模型(Physical-based Empirical Model,PE模型)被证明优于传统统计模型以及大部分数值预报模式。

PE模型强调预测因子与预报量间的物理联系以及预测因子间的相互独立性,保证了预测的稳定性,同时避免了过拟合问题。

比如:在印度夏季风全区平均降水的季节预测中,PE模型在92 a(1921—2012年)回报中具有显著的技巧(相关系数为0.64),独立预测期技巧优于动力模式(Wang et al.,2015)和业务预测(Li et al.,2017);针对中国东北夏季降水季节预测,PE模型独立预测的2003—2019年降水序列与观测的相关系数为0.70,显著高于5个动力模式集合平均的结果(0.24)(Zhao et al.,2022);在中国南方夏季降水(Yim et al.,2014;Li et al.,2023)、东亚初夏副热带锋面(Xing et al.,2017)的预测中,PE模型也具有稳定而出色的独立预测技巧。

随着人工智能的兴起,机器学习在天气预报和气候预测领域得到越来越多的运用(杨淑贤,2022)。

沈皓俊等(2020)利用长短期记忆网络对中国夏季降水进行了回报实验,所得PS评分高于同期全国会商和业务模式;苗春生等(2017)通过C4.5算法,基于前期春季因子建立了长江中下游地区夏季降水预测模型,其预测准确率可达80%以上;Fan et al.(2023)基于自动编码器确定了中国东部夏季降水预测因子,并利用随机森林(Random Forest)和梯度回归算法建立了降水预测模型,其在华南地区的预测结果优于主流模式10%以上。

相比于动力模式和传统统计模型,在大样本训练下的机器学习模型处理非线性问题具有更大优势。

然而,由于过拟合问题,机器学习在独立预报以及测试数据集中的技巧急速下降,实际业务预测中的表现常常不尽如人意。

因此,机器学习方法能否应用于梅雨季节预测还有待进一步验证。

为了进一步厘清梅雨异常机理、提升梅雨季节预测技巧,本文主要解决2个关键科学问题:影响梅雨降水的物理机制是什么?基于物理机制的经验预测模型、传统统计模型和机器学习模型3者对梅雨的季节预测水平究竟孰优孰劣?本文将利用降水站点观测资料和全球再分析
数据,揭示6—7月长江中下游梅雨的相关物理机制,建立PE预测模型,并对比传统统计模型和机器学习模型对梅雨的预测技巧,以期提升6—7月梅雨降水的季节预测水平,为业务部门预测提供参考。

1 资料、方法和模式
1.1 资料
1)国家气象信息中心格点化数据集(CN05.1)中的逐月降水资料(吴佳和高学杰,2013),空间分辨率为0.25°×0.25°;2)欧洲中期天气预报中心(ECMWF)第5代大气再分析数据集(ERA5),空间分辨率为1.0°×1.0°(Hersbach et al.,2020);3)美国国家海洋和大氣管理局第5套全球逐月海表温度(SST)重构资料(ERSSTv5),空间分辨率为2.0°×2.0°(Huang et al.,2017);4)日本气象台逐月再分析降水数据,水平分辨率为1.25°×1.25°(Kobayashi et al.,2015)。

本文将1961—2000年作为训练期,用于统计诊断分析以及预测模型建模;将2001—2022年作为独立预测期,用于预测模型的独立预测检验。

1.2 方法
1)物理经验预测模型。

PE模型有别于传统的统计模型,更注重预测因子与预测量之间的物理机制联系,在东亚气候季节预测中表现出良好技巧(Yim et al.,2014;Wang et al.,2015)。

PE模型的建立有2个关键步骤:1)通过梅雨指数与前期下垫面异常进行超前滞后相关分析,普查潜在的预测因子。

下垫面异常包括海表温度(SST)、2 m温度(T2M)、海平面气压(SLP)、土壤湿度(SM)和积雪深度(SD)。

考虑到前期下垫面异常存在持续和变化2种态势,我们将潜在预测因子分为2类:持续信号(如4—5月平均的下垫面异常)和趋势信号(如5月减4月的下垫面异常或4—5月平均减前1年12月—当年1月平均的下垫面异常);2)逐步回归筛选出最优预测因子并建立统计预测模型方程。

将所有潜在预测因子与预测量(梅雨指数)进行逐步回归分析,挑选出最显著相关且相互独立的预测因子,建立起PE预测模型。

相比于多元回归方法,逐步回归方法同时兼顾预测因子与预测对象的显著相关性和预测因子间的相对独立性。

2)偏最小二乘回归预测模型。

基于偏最小二乘(Partial Least Square,PLS)回归方法(Wold et al.,1984;Wu and Yu,2016)的预测模型建立步骤如下:首先对所有预测因子X和预报量Y进行相关分析,将预测因子X投影到相关系数上得到特征向量Z1,同时计算Z1对预报量Y的解释方差。

PLS方法的核心思想是提高对预报量Y的解释方差,考虑到Z1只包含了预测场X的部分信息,因此对X和Y进行残差估计并提取新一轮的特征向量Z2,直到最终的Zk(k为特征向量的个数)能够使对Y的解释方差及X、Y之间的相关性最大化。

最后,对Z1、Z2、…、Zk与预报量Y进行多元回归分析,建立起PLS预测模型。

PLS预测模型中预测因子X包括了前期下垫面异常场中的所有统计相关区域,即包含了更多前期下垫面异常的可预测信息(Li et al.,2017)。

3)机器学习预测模型。

为了对比不同机器学习预测模型对长江流域梅雨季节预测的技巧,本文采用了5种机器学习模型:基于Bagging方法的Random Forest模型和基于Boosting 方法的LightGBM、Adaboost、Catboost、XGboost模型。

在机器学习模型建模中,我们使用贝叶斯优化来确定各个模型的最优参数,以提高机器学习方法的预测性能(崔佳旭和杨博,2018)。

Bagging方法类似于多模式集合平均,即通过计算模型中所有学习器的预测结果平均值来减小模型的方差,在一定程度上能克服过拟合问题,但其缺点在于易被学习能力较差的模型影响。

随机森林(Random Forest)模型是典型的Bagging集成模型之一,通过对变量和数据的使用随机化,生成很多分类树,再汇总分类树的结果(Breiman,2001)。

Boosting方法的核心思想是通过迭代训练多个“弱”学习器组装成“强”学习器来改进模型的预测能力。

Boosting方法的众多子算法区别在于在组合弱学习器的不同策略,例如:轻量级梯度提升机算法(light gradient boosting machine,LightGBM)使用直方图分割方法(Ke et al.,2017);自适应提升算法(adaptive boosting,Adaboost)通过调整概率分布改变权重(Freund and Schapire,1997);类别型特征提升算法(categorical boosting,Catboost)通过添加先验分布项来处理类别特征(Dorogush et al.,2018);极端梯度提升算法(eXtreme gradient boosting,XGboost)采用前向分布方法且兼顾线性求解器和树算法的特性(Chen and Guestrin,2016)。

随着人工智能的兴起,机器学习在天气预报和气候预测领域得到越来越多的运用(杨淑贤,2022)。

沈皓俊等(2020)利用长短期记忆网络对中国夏季降水进行了回报实验,所得PS评分高于同期全国会商和业务模式;苗春生等(2017)通过C4.5算法,基于前期春季因子建立了长江中下游地区夏季降水预测模型,其预测准确率可达80%以上;Fan et al.(2023)基于自动编码器确定了中国东部夏季降水预测因子,并利用随机森林(Random Forest)和梯度回归算法建立了降水预测模型,其在华南地区的预测结果优于主流模式10%以上。

相比于动力模式和传统统计模型,在大样本训练下的机器学习模型处理非线性问题具有更大优势。

然而,由于过拟合问题,机器学习在独立预报以及测试数据集中的技巧急速下降,实际业务预测中的表现常常不尽如人意。

因此,机器学习方法能否应用于梅雨季节预测还有待进一步验证。

为了进一步厘清梅雨异常机理、提升梅雨季节预测技巧,本文主要解决2个关键科学问题:影响梅雨降水的物理机制是什么?基于物理机制的经验预测模型、传统统计模型和机器学习模型3者对梅雨的季节预测水平究竟孰优孰劣?本文将利用降水站点观测资料和全球再分析数据,揭示6—7月长江中下游梅雨的相关物理机制,建立PE预测模型,并对比传统统计模型和机器学习模型对梅雨的预测技巧,以期提升6—7月梅雨降水的季节预测水平,为业务部门预测提供参考。

1 资料、方法和模式
1.1 资料
1)国家气象信息中心格点化数据集(CN05.1)中的逐月降水资料(吴佳和高学杰,2013),空间分辨率为0.25°×0.25°;2)欧洲中期天气预报中心(ECMWF)第5代大气再分析数据集(ERA5),空间分辨率为1.0°×1.0°(Hersbach et al.,2020);3)美国国家海洋和大气管理局第5套全球逐月海表温度(SST)重构资料(ERSSTv5),空间分辨率为2.0°×2.0°(Huang et al.,2017);4)日本气象台逐月再分析降水数据,水平分辨率为1.25°×1.25°(Kobayashi et al.,2015)。

本文将1961—2000年作为训练期,用于统计诊断分析以及预测模型建模;将2001—2022年作为独立预测期,用于预测模型的独立预测检验。

1.2 方法
1)物理经验预测模型。

PE模型有別于传统的统计模型,更注重预测因子与预测量之间的物理机制联系,在东亚气候季节预测中表现出良好技巧(Yim et al.,2014;Wang et al.,2015)。

PE模型的建立有2个关键步骤:1)通过梅雨指数与前期下垫面异常进行超前滞后相关分析,普查潜在的预测因子。

下垫面异常包括海表温度(SST)、2 m温度(T2M)、海平面气压(SLP)、土壤湿度(SM)和积雪深度(SD)。

考虑到前期下垫面异常存在持续和变化2种态势,我们将潜在预测因子分为2类:持续信号(如4—5月平均的下垫面异常)和趋势信号(如5月减4月的下垫面异常或4—5月平均减前1年12月—当年1月平均的下垫面异常);2)逐步回归筛选出最优预测因子并建立统计预测模型方程。

将所有潜在预测因子与预测量(梅雨指数)进行逐步回归分析,挑选出最显著相关且相互独立的预测因子,建立起PE预测模型。

相比于多元回归方法,逐步回归方法同时兼顾预测因子与预测对象的显著相关性和预测因子间的相对独立性。

2)偏最小二乘回归预测模型。

基于偏最小二乘(Partial Least Square,PLS)回归方法(Wold et al.,1984;Wu and Yu,2016)的预测模型建立步骤如下:首先对所有预测因子X和预报量Y进行相关分析,将预测因子X投影到相关系数上得到特征向量Z1,同时计算Z1对预报量Y的解释方差。

PLS方法的核心思想是提高对预报量Y的解释方差,考虑到Z1只包含了预测场X的部分信息,因此对X和Y进行残差估计并提取新一轮的特征向量Z2,直到最终的Zk(k为特征向量的个数)能够使对Y的解释方差及X、Y之间的相关性最大化。

最后,对Z1、Z2、…、Zk与预报量Y进行多元回归分析,建立起PLS预测模型。

PLS预测模型中预测因子X包括了前期下垫面异常场中的所有统计相关区域,即包含了更多前期下垫面异常的可预测信息(Li et al.,2017)。

3)机器学习预测模型。

为了对比不同机器学习预测模型对长江流域梅雨季节预测的技巧,本文采用了5种机器学习模型:基于Bagging方法的Random Forest模型和基于Boosting 方法的LightGBM、Adaboost、Catboost、XGboost模型。

在机器学习模型建模中,我们使用贝叶斯优化来确定各个模型的最优参数,以提高机器学习方法的预测性能(崔佳旭和杨博,2018)。

Bagging方法类似于多模式集合平均,即通过计算模型中所有学习器的预测结果平均值来减小模型的方差,在一定程度上能克服过拟合问题,但其缺点在于易被学习能力较差的模型影响。

随机森林(Random Forest)模型是典型的Bagging集成模型之一,通过对变量和数据的使用随机化,生成很多分类树,再汇总分类树的结果(Breiman,2001)。

Boosting方法的核心思想是通过迭代训练多个“弱”学习器组装成“强”学习器来改进模型的预测能力。

Boosting方法的众多子算法区别在于在组合弱学习器的不同策略,例如:轻量级梯度提升机算法(light gradient boosting machine,LightGBM)使用直方图分割方法(Ke et al.,2017);自适应提升算法(adaptive boosting,Adaboost)通过调整概率分布改变权重(Freund and Schapire,1997);类别型特征提升算法(categorical boosting,Catboost)通过添加先验分布项来处理类别特征(Dorogush et al.,2018);极端梯度提升算法(eXtreme gradient boosting,XGboost)采用前向分布方法且兼顾线性求解器和树算法的特性(Chen and Guestrin,2016)。

隨着人工智能的兴起,机器学习在天气预报和气候预测领域得到越来越多的运用(杨淑贤,2022)。

沈皓俊等(2020)利用长短期记忆网络对中国夏季降水进行了回报实验,所得PS评分高于同期全国会商和业务模式;苗春生等(2017)通过C4.5算法,基于前期春季因子建立了长江中下游地区夏季降水预测模型,其预测准确率可达80%以上;Fan et al.(2023)基于自动编码器确定了中国东部夏季降水预测因子,并利用随机森林(Random Forest)和梯度回归算法建立了降水预测模型,其在华南地区的预测结果优于主流模式10%以上。

相比于动力模式和传统统计模型,在大样本训练下的机器学习模型处理非线性问题具有更大优势。

然而,由于过拟合问题,机器学习在独立预报以及测试数据集中的技巧急速下降,实际业务预测中的表现常常不尽如人意。

因此,机器学习方法能否应用于梅雨季节预测还有待进一步验证。

为了进一步厘清梅雨异常机理、提升梅雨季节预测技巧,本文主要解决2个关键科学问题:影响梅雨降水的物理机制是什么?基于物理机制的经验预测模型、传统统计模型和机器学习模型3者对梅雨的季节预测水平究竟孰优孰劣?本文将利用降水站点观测资料和全球再分析数据,揭示6—7月长江中下游梅雨的相关物理机制,建立PE预测模型,并对比传统统计模型和机器学习模型对梅雨的预测技巧,以期提升6—7月梅雨降水的季节预测水平,为业务部门预测提供参考。

1 资料、方法和模式
1.1 资料
1)国家气象信息中心格点化数据集(CN05.1)中的逐月降水资料(吴佳和高学杰,2013),空间分辨率为0.25°×0.25°;2)欧洲中期天气预报中心(ECMWF)第5代大气再分析数据集(ERA5),空间分辨率为1.0°×1.0°(Hersbach et al.,2020);3)美国国家海洋和大气管理局第5套全球逐月海表温度(SST)重构资料(ERSSTv5),空间分辨率为2.0°×2.0°(Huang et al.,2017);4)日本气象台逐月再分析降水数据,水平分辨率为1.25°×1.25°
(Kobayashi et al.,2015)。

本文将1961—2000年作为训练期,用于统计诊断分析以及预测模型建模;将2001—2022年作为独立预测期,用于预测模型的独立预测检验。

1.2 方法
1)物理经验预测模型。

PE模型有别于传统的统计模型,更注重预测因子与预测量之间的物理机制联系,在东亚气候季节预测中表现出良好技巧(Yim et al.,2014;Wang et al.,2015)。

PE模型的建立有2个关键步骤:1)通过梅雨指数与前期下垫面异常进行超前滞后相关分析,普查潜在的预测因子。

下垫面异常包括海表温度(SST)、2 m温度(T2M)、海平面气压(SLP)、土壤湿度(SM)和积雪深度(SD)。

考虑到前期下垫面异常存在持续和变化2种态势,我们将潜在预测因子分为2类:持续信号(如4—5月平均的下垫面异常)和趋势信号(如5月减4月的下垫面异常或4—5月平均减前1年12月—当年1月平均的下垫面异常);2)逐步回归筛选出最优预测因子并建立统计预测模型方程。

将所有潜在预测因子与预测量(梅雨指数)进行逐步回归分析,挑选出最显著相关且相互独立的预测因子,建立起PE预测模型。

相比于多元回归方法,逐步回归方法同时兼顾预测因子与预测对象的显著相关性和预测因子间的相对独立性。

2)偏最小二乘回归预测模型。

基于偏最小二乘(Partial Least Square,PLS)回归方法(Wold et al.,1984;Wu and Yu,2016)的预测模型建立步骤如下:首先对所有预测因子X和预报量Y进行相关分析,将预测因子X投影到相关系数上得到特征向量Z1,同时计算Z1对预报量Y的解释方差。

PLS方法的核心思想是提高对预报量Y的解释方差,考虑到Z1只包含了预测场X的部分信息,因此对X和Y进行残差估计并提取新一轮的特征向量Z2,直到最终的Zk(k为特征向量的个数)能够使对Y的解释方差及X、Y之间的相关性最大化。

最后,对Z1、Z2、…、Zk与预报量Y进行多元回归分析,建立起PLS预测模型。

PLS预测模型中预测因子X包括了前期下垫面异常场中的所有统计相关区域,即包含了更多前期下垫面异常的可预测信息(Li et al.,2017)。

3)机器学习预测模型。

为了对比不同机器学习预测模型对长江流域梅雨季节预测的技巧,本文采用了5种机器学习模型:基于Bagging方法的Random Forest模型和基于Boosting 方法的LightGBM、Adaboost、Catboost、XGboost模型。

在机器学习模型建模中,我们使用贝叶斯优化来确定各个模型的最优参数,以提高机器学习方法的预测性能(崔佳旭和杨博,2018)。

Bagging方法类似于多模式集合平均,即通过计算模型中所有学习器的预测结果平均值来减小模型的方差,在一定程度上能克服过拟合问题,但其缺点在于易被学习能力较差的模型影响。

随机森林(Random Forest)模型是典型的Bagging集成模型之一,通过对变量和数据的使用随机化,生成很多分类树,再汇总分类树的结果(Breiman,2001)。

Boosting方法的核心思想是通过迭代训练多个“弱”学习器组装成“强”学习器来改进模型的预测能力。

Boosting方法的众多子算法区别在于在组合弱学习器的不同策略,例如:轻量级梯度提升机算法(light gradient boosting machine,LightGBM)使用直方图分割方法(Ke et al.,2017);自适应提升算法(adaptive boosting,Adaboost)通过调整概率分布改变权重(Freund and Schapire,1997);类别型特征提升算法(categorical boosting,Catboost)通过添加先验分布项来处理类别特征(Dorogush et al.,2018);极端梯度提升算法(eXtreme gradient boosting,XGboost)采用前向分布方法且兼顾线性求解器和树算法的特性(Chen and Guestrin,2016)。

随着人工智能的兴起,机器学习在天气预报和气候预测领域得到越来越多的运用(杨淑贤,2022)。

沈皓俊等(2020)利用长短期记忆网络对中国夏季降水进行了回报实验,所得PS评分高于同期全国会商和业务模式;苗春生等(2017)通过C4.5算法,基于前期春季因子建立了长江中下游地区夏季降水预测模型,其预测准确率可达80%以上;Fan et al.(2023)基于自动编码器确定了中国东部夏季降水预测因子,并利用随机森林(Random Forest)和梯度回归算法建立了降水预测模型,其在华南地区的预测结果优于主流模式10%以上。

相比于动力模式和传统统计模型,在大样本训练下的机器学习模型处理非线性问题具有更大优势。

然而,由于过拟合问题,机器学习在独立预报以及测试数据集中的技巧急速下降,实际业务预测中的表现常常不尽如人意。

因此,机器学习方法能否应用于梅雨季节预测还有待进一步验证。

为了进一步厘清梅雨异常机理、提升梅雨季节预测技巧,本文主要解决2个关键科学问题:影响梅雨降水的物理机制是什么?基于物理机制的经验预测模型、传统统计模型和机器学习模型3者对梅雨的季节预测水平究竟孰优孰劣?本文将利用降水站点观测资料和全球再分析数据,揭示6—7月长江中下游梅雨的相关物理机制,建立PE预测模型,并对比传统统计模型和机器学习模型对梅雨的预测技巧,以期提升6—7月梅雨降水的季节预测水平,为业务部门预测提供参考。

1 资料、方法和模式
1.1 资料
1)国家气象信息中心格点化数据集(CN05.1)中的逐月降水资料(吴佳和高学杰,2013),空间分辨率为0.25°×0.25°;2)欧洲中期天气预报中心(ECMWF)第5代大气再分析数据集(ERA5),空间分辨率为1.0°×1.0°(Hersbach et al.,2020);3)美国国家海洋和大气管理局第5套全球逐月海表温度(SST)重构资料(ERSSTv5),空间分辨率为2.0°×2.0°(Huang et al.,2017);4)日本气象台逐月再分析降水数据,水平分辨率为1.25°×1.25°(Kobayashi et al.,2015)。

本文将1961—2000年作为训练期,用于统计诊断分析以及预测模型建模;将2001—2022年作为独立预测期,用于预测模型的独立预测检验。

1.2 方法。

相关文档
最新文档