融合马尔科夫链_蒙特卡洛算法的改进通用似然不确定性估计方法在流域水文模型中的应用
马尔可夫链蒙特卡洛方法在生态学建模中的应用案例分析(八)
![马尔可夫链蒙特卡洛方法在生态学建模中的应用案例分析(八)](https://img.taocdn.com/s3/m/ca8e451cbf23482fb4daa58da0116c175f0e1ecd.png)
马尔可夫链蒙特卡洛方法在生态学建模中的应用案例分析引言生态学是研究生物与环境相互作用的学科,它涉及到多种不确定性因素,例如气候变化、生物种群的迁徙和扩散等。
为了更好地理解这些复杂的生态系统,科学家们需要依靠数学模型来进行建模和预测。
近年来,马尔可夫链蒙特卡洛方法在生态学建模中的应用越来越广泛,这种方法能够有效地模拟出生态系统中复杂的动态过程,为科学家们提供了一种强大的工具来研究生态系统的变化和演化。
马尔可夫链蒙特卡洛方法简介马尔可夫链蒙特卡洛方法(Markov Chain Monte Carlo, MCMC)是一种基于马尔可夫链的随机模拟算法。
它通过在状态空间中进行随机抽样,来模拟出系统的演化过程。
MCMC方法最早是由Stanislaw Ulam和John von Neumann在上世纪40年代提出的,后来由Metropolis等人在上世纪50年代发展完善。
MCMC方法的核心思想是通过马尔可夫链的转移矩阵来实现状态的转移和抽样,最终达到对系统进行模拟的目的。
马尔可夫链蒙特卡洛方法在生态学建模中的应用马尔可夫链蒙特卡洛方法在生态学建模中的应用非常广泛,它能够帮助科学家们对生态系统中的种群动态、演化过程和生态系统的稳定性进行深入研究。
例如,在研究生态系统中的食物链结构和物种迁徙过程时,科学家们可以利用MCMC方法来模拟出不同物种之间的相互作用和迁徙规律,从而更好地理解生态系统中的复杂动态过程。
另外,MCMC方法还可以在生态系统中的资源分配和能量流动方面发挥重要作用。
通过模拟不同环境条件下的资源分配和能量流动过程,科学家们可以更好地预测生态系统的稳定性和可持续性,为生态保护和资源管理提供科学依据。
案例分析:MCMC方法在森林生态系统建模中的应用为了更具体地展示马尔可夫链蒙特卡洛方法在生态学建模中的应用,下面将以森林生态系统为例进行案例分析。
森林生态系统是地球上最重要的生态系统之一,它不仅是生物多样性的重要栖息地,也是全球碳循环和气候调节的重要组成部分。
基于马尔可夫链蒙特卡洛方法的数据关联算法研究
![基于马尔可夫链蒙特卡洛方法的数据关联算法研究](https://img.taocdn.com/s3/m/17c06ad9d4bbfd0a79563c1ec5da50e2524dd170.png)
基于马尔可夫链蒙特卡洛方法的数据关联算法研究李景熹;王树宗;王航宇【期刊名称】《武汉理工大学学报(交通科学与工程版)》【年(卷),期】2007(031)006【摘要】数据关联是杂波环境下多目标跟踪问题的难点之一.文中提出了一种基于马尔可夫链蒙特卡洛(MCMC)方法的数据关联算法(MCMCDA),该算法通过在相应的关联事件空间中采样,可以有效地估计数据的边际关联概率,而且算法的估计精度可根据需要进行调节.仿真结果表明,在需要跟踪的目标数目较多,探测概率较低、杂波概率较高的情况下,JPDA算法因出现"组合爆炸"问题而难以在实际中应用;MCMCDA算法则能在保持较高估计精度的情况下降低计算负荷,从而能够较好地满足实时跟踪系统的要求.【总页数】4页(P1045-1048)【作者】李景熹;王树宗;王航宇【作者单位】海军工程大学海军兵器新技术应用研究所,武汉,430033;海军驻426厂军代室,大连,116005;海军工程大学海军兵器新技术应用研究所,武汉,430033;海军工程大学电子工程学院,武汉,430033【正文语种】中文【中图分类】TP301.6【相关文献】1.基于数据关联的多雷达点迹融合算法研究 [J], 张昕;张博文;张玉萍;李军侠;燕瑞超2.基于FP-growth关联规则的图书馆数据快速挖掘算法研究 [J], 文芳;黄慧玲;李腾达;王佳斌3.基于FP-growth关联规则的图书馆数据快速挖掘算法研究 [J], 文芳;黄慧玲;李腾达;王佳斌4.基于关联关系的海洋数值预报数据推荐算法研究 [J], 李学强;赵文洋;解玉琪5.基于关联规则与相似度的数据挖掘算法研究 [J], 李英;汤庸因版权原因,仅展示原文概要,查看原文内容请购买。
马尔可夫链蒙特卡洛方法在环境科学中的应用案例分析
![马尔可夫链蒙特卡洛方法在环境科学中的应用案例分析](https://img.taocdn.com/s3/m/617a8d68443610661ed9ad51f01dc281e53a56cf.png)
马尔可夫链蒙特卡洛方法在环境科学中的应用案例分析介绍马尔可夫链蒙特卡洛方法,简称MCMC,是一种用于模拟概率分布的数值方法,它通过马尔可夫链的随机抽样来生成服从特定概率分布的样本。
在环境科学中,MCMC方法被广泛应用于气象、水文、生态等领域,用于模拟自然系统的复杂动态过程,评估环境风险和预测环境变化。
本文将通过几个实际案例,探讨MCMC方法在环境科学中的应用。
气候变化模拟气候变化对全球环境产生深远影响,因此对气候变化进行准确模拟和预测至关重要。
MCMC方法可以用于气候模型的参数估计和不确定性分析。
例如,研究人员可以利用MCMC方法对气候模型的参数进行贝叶斯估计,从而获得更加可靠的气候模拟结果。
通过对气候系统进行MCMC模拟,可以更好地理解气候变化的概率分布和不确定性,为应对气候变化提供科学依据。
水文模拟与预测水资源是人类生存和发展的重要基础,而气候变化和人类活动对水资源的影响日益显著。
MCMC方法在水文模拟与预测中发挥了重要作用。
例如,通过MCMC方法可以对降雨、蒸发和径流等水文要素的概率分布进行模拟,从而实现对水文过程的准确模拟和预测。
这对于水资源管理、洪涝灾害预警等方面具有重要意义。
生态系统评估生态系统是地球上自然资源的重要组成部分,而生态系统的稳定性和可持续发展对于人类社会的发展至关重要。
MCMC方法可以用于生态系统的评估与管理。
例如,通过MCMC方法可以对生态系统中各种因素之间的概率关系进行建模,从而实现对生态系统动态过程的模拟和预测。
这有助于科学评估生态系统的健康状况,为生态环境保护和资源管理提供科学依据。
结语马尔可夫链蒙特卡洛方法在环境科学中的应用案例众多,涉及气候变化、水文模拟、生态系统评估等多个领域。
通过MCMC方法,可以更好地理解自然环境的复杂动态过程,为环境保护和可持续发展提供科学支持。
随着计算机技术的不断发展和数据的不断积累,MCMC方法在环境科学中的应用前景将更加广阔。
希望本文所介绍的MCMC方法在环境科学中的应用案例,能够为读者提供一些启发和思考。
基于MCMC和ES-MDA方法的地下水数值模型非均质参数场及开采量的反演研究
![基于MCMC和ES-MDA方法的地下水数值模型非均质参数场及开采量的反演研究](https://img.taocdn.com/s3/m/a58724abafaad1f34693daef5ef7ba0d4a736dc8.png)
2023年10月水 利 学 报SHUILI XUEBAO第54卷 第10期文章编号:0559-9350(2023)10-1236-12收稿日期:2023-04-08;网络首发日期:2023-10-19网络首发地址:https:??kns.cnki.net?kcms?detail?11.1882.TV.20231018.1051.001.html基金项目:国家自然科学基金重点项目(U21A2004)作者简介:刘墉达(1998-),硕士生,主要从事地下水数值模拟研究。
E-mail:liuyongda@tju.edu.cn通信作者:陈喜(1964-),博士,教授,主要从事地下水数值模拟研究。
E-mail:xi_chen@tju.edu.cn基于MCMC和ES-MDA方法的地下水数值模型非均质参数场及开采量的反演研究刘墉达,陈 喜,高 满,孟详博,刘维翰,黄日超(天津大学地球系统科学学院表层地球系统科学研究院,天津300072)摘要:马尔科夫链蒙特卡罗方法(MCMC)和多重数据同化集合平滑器方法(ES-MDA)近年来在地下水参数反演得到广泛应用,但对三维多层非均质含水层参数反演精度和计算效率还缺乏对比分析。
本文构建了含有基于Karhunen-Loève展开的非均质参数场的潜水和多层承压水含水层案例,并建立了地下水数值模型和基于Kriging方法的替代模型,模拟含水层分层水头变化,探讨了基于替代模型的MCMC、替代模型和数值模型相结合的两阶段MCMC以及ES-MDA方法反演的含水层渗透系数以及开采量。
结果表明,针对本文算例,在非均质参数和开采量的反演中,相比而言,两阶段MCMC反演参数精度更高,ES-MDA方法计算效率更高。
本研究为地下水数值模型参数反演方法选择提供参考依据。
关键词:MCMC算法;ES-MDA算法;替代模型;地下水参数;地下水数值模拟 中图分类号:TV123文献标识码:Adoi:10.13243?j.cnki.slxb.202301971 研究背景对于复杂的多层含水层,根据有限的地下水水位等观测数据,反演水文地质参数、开采量等通常存在不唯一性、不确定性问题,且在调用地下水数值模型进行参数反演时,随着调用次数和参数维度增加,反演计算成本变高。
河流水文模拟与水资源管理技术研究
![河流水文模拟与水资源管理技术研究](https://img.taocdn.com/s3/m/aeaae1438f9951e79b89680203d8ce2f0166655e.png)
河流水文模拟与水资源管理技术研究随着人口的不断增长和城市化进程的不断推进,水资源管理已成为各地政府重点关注的问题。
如何科学地利用和保护水资源,成为了当今社会面临的一大难题。
河流是水资源管理的重要组成部分,而河流水文模拟是研究河流水环境和水资源管理的重要手段之一。
在这篇文章中,我们将探讨河流水文模拟与水资源管理技术研究的现状和未来发展趋势。
一、河流水文模拟的意义河流水文模拟是指利用计算机模拟河流水文过程,包括径流、水位、流速等参数,以分析和优化水文系统的运行。
河流水文模拟能够预测河流水位、洪水、干旱等自然灾害,为水资源管理提供重要的参考依据。
河流水文模拟还能够模拟河流生态系统的运转过程,探究河流水质、水生态环境,为生态保护和河流治理提供科学依据。
二、水资源管理技术的现状水资源管理技术的现状可以从以下几方面进行分析。
1. 水资源综合管理水资源综合管理是指对水资源进行整体规划和管理,从多方面利用和保护水资源。
近年来,各地政府加强了对水资源综合管理的重视,通过制定相关政策和建立管理机制,有效管理和利用水资源。
2. 水污染治理技术水污染治理技术是指采用多种技术手段,对水体中的污染物进行去除和控制。
目前,水污染治理技术已经相当成熟,包括化学混凝沉淀、生物处理、吸附等多种技术手段。
这些技术的应用,有效改善了水环境质量。
3. 智能水利智能水利是指通过应用现代信息技术,构建智能水务系统,实现对水资源管理的智能化。
智能水利技术可以对水资源进行智能化监测、分析、控制和调度,提高水资源利用效率和水环境保护效果。
三、河流水文模拟技术的研究现状河流水文模拟技术的研究现状可以从以下几方面进行分析。
1. 模型建立河流水文模拟的核心是模型建立,建立优质的水文模型对实现精准预测和优化管理至关重要。
目前,有很多流域水文模型,包括SWAT、HSPF等,不同的模型适用于不同的河流和研究需求。
2. 模型参数优化模型参数优化对水文模拟精度和可信度有很大的影响。
蒙特卡洛与马尔可夫方法在降水预测中的应用
![蒙特卡洛与马尔可夫方法在降水预测中的应用](https://img.taocdn.com/s3/m/ac5fd0de9fc3d5bbfd0a79563c1ec5da50e2d623.png)
蒙特卡洛与马尔可夫方法在降水预测中的应用作者:黄鹤张维江李娟来源:《人民黄河》2020年第05期摘要:為了更深入地分析原州区的降水特征,为该区域水资源预测提供依据,基于原州区1957—2016年60 a降水资料,采用蒙特卡洛方法推求降水分布,采用K-S检验对模型进行显著性检验,采用基于欧氏距离的层次聚类方法进行状态划分,确定了原州区的降水分布,建立了适用于原州区的滑动平均加权马尔可夫预测模型。
根据已有数据验证了预测结果的有效性,再结合已确定的降水分布,通过K-S检验,检验了未来5 a降水预测的准确性。
结果表明:原州区降水分布符合P-Ⅲ型分布;马尔可夫模型适用于原州区降水预测,且未来5 a的降水预测结果是准确的,分别为508.5、520.8、554.9、451.0、466.6 mm。
关键词:蒙特卡洛方法;马尔可夫模型;随机模拟;降水预测;原州区;K-S检验中图分类号:TV11 文献标志码:Adoi:10.3969/j.issn.1000-1379.2020.05.004Abstract: In order to analyze the characteristics of precipitation in YuanzhouDistrict and provide a basis for water resources prediction in the region, based on the precipitation data from 1957 to 2016 of the district, the Monte Carlo method was used to estimate the precipitation distribution and the K-S test was used to model the significant test. It used the hierarchical clustering method based on Euclidean distance to divide the state, determined the precipitation distribution of the region and established a sliding average weighted Markov prediction model which was suitable for Yuanzhou District. Based on the existing data, the true validity of the prediction results was verified. Combined with the determined precipitation distribution, the accuracy of precipitation prediction for the next 5 years was tested by K-S test. Comparing with Pearson three-type distribution, the results show that the precipitation distribution in Yuanzhou District is more consistent with the log-normal distribution. The Markov model can be applied to the precipitation forecast in the region, and the prediction results of the sliding average precipitation in the next 5 years are real and effective,respectively 508.5, 520.8, 554.9, 451.0 and 466.6 mm.Key words: Monte Carlo method; Markov model; stochastic simulation; precipitation prediction; Yuanzhou District; K-S test1 引言由于客观世界中的一些现象可能与另一种现象存在着某种相似性,因此我们经常从一种现象出发来研究另一种现象。
基于改进马尔柯夫链的区域干旱预测
![基于改进马尔柯夫链的区域干旱预测](https://img.taocdn.com/s3/m/ed09c7100a4c2e3f5727a5e9856a561252d3216d.png)
基于改进马尔柯夫链的区域干旱预测
王志成
【期刊名称】《国际沙棘研究与开发》
【年(卷),期】2018(000)002
【摘要】本文依据阿克苏河支流协和拉水文站1961—2007年降水量资料,采用SPI指数进行干旱分级,在此基础上,建立了适用于研究区的加权马尔科夫链预测模型,并对模型进行改进预测.结果表明:该模型可提高中度以上干旱等级预测精度,为流域干旱预警及抗旱减灾提供了较好的参考价值.
【总页数】3页(P55-57)
【作者】王志成
【作者单位】新疆塔里木河流域管理局,新疆库尔勒 841000
【正文语种】中文
【中图分类】P331
【相关文献】
1.基于改进马尔柯夫链的区域干旱预测 [J], 王志成;
2.基于改进LSTM的区域综合能源系统多元负荷短期预测研究 [J], 田浩含;张智晟;于道林
3.基于典型代表电站和改进SVM的区域光伏功率短期预测方法 [J], 张扬科;李刚;李秀峰
4.基于改进BP神经网络的干旱区芦苇腾发量预测模型 [J], 苏里坦;玉米提;宋郁东
5.基于区域气候模式与作物干旱模式嵌套技术的华北农业干旱监测预测 [J], 邬定荣;刘建栋;刘玲;房世波;姜朝阳;罗立军
因版权原因,仅展示原文概要,查看原文内容请购买。
马尔可夫链蒙特卡洛方法在环境科学中的应用案例分析(Ⅲ)
![马尔可夫链蒙特卡洛方法在环境科学中的应用案例分析(Ⅲ)](https://img.taocdn.com/s3/m/b68e9f08777f5acfa1c7aa00b52acfc789eb9f8e.png)
马尔可夫链蒙特卡洛方法在环境科学中的应用案例分析马尔可夫链蒙特卡洛方法是一种重要的随机模拟技术,广泛应用于金融、生物、物理等领域。
在环境科学领域,马尔可夫链蒙特卡洛方法同样发挥着重要的作用。
本文将通过几个具体的应用案例,介绍马尔可夫链蒙特卡洛方法在环境科学中的应用。
案例一:气候模拟气候模拟是环境科学领域中一个重要的问题。
马尔可夫链蒙特卡洛方法可以用来模拟气候系统的随机性。
通过对气候系统中的各种参数进行采样,并使用马尔可夫链蒙特卡洛方法进行模拟,可以得到气候系统的概率分布。
这对于预测未来气候变化、制定应对气候变化的政策具有重要意义。
案例二:水资源管理在水资源管理中,马尔可夫链蒙特卡洛方法可以用来模拟水文过程中的随机变量,比如降雨量、蒸发量等。
通过对这些随机变量进行采样,并使用马尔可夫链蒙特卡洛方法进行模拟,可以得到水资源的概率分布。
这对于合理利用和管理水资源具有重要意义。
案例三:生态系统建模生态系统是环境科学中一个复杂的系统。
马尔可夫链蒙特卡洛方法可以用来对生态系统进行建模和模拟。
通过对生态系统中的各种参数进行采样,并使用马尔可夫链蒙特卡洛方法进行模拟,可以得到生态系统的概率分布。
这对于保护生态环境、维护生物多样性具有重要意义。
案例四:大气污染模拟大气污染是环境科学中一个严重的问题。
马尔可夫链蒙特卡洛方法可以用来模拟大气污染物的扩散和传播过程。
通过对大气污染物的扩散和传播过程中的各种参数进行采样,并使用马尔可夫链蒙特卡洛方法进行模拟,可以得到大气污染物的概率分布。
这对于预测大气污染的影响范围、制定减排政策具有重要意义。
结论马尔可夫链蒙特卡洛方法在环境科学中具有广泛的应用前景。
通过对环境系统中的各种随机变量进行采样,并使用马尔可夫链蒙特卡洛方法进行模拟,可以得到环境系统的概率分布,为环境科学领域的研究和应用提供重要的参考。
因此,我们有理由相信,马尔可夫链蒙特卡洛方法将在环境科学领域发挥越来越重要的作用。
水文模型参数不确定性分析方法探讨
![水文模型参数不确定性分析方法探讨](https://img.taocdn.com/s3/m/f7bcc1e65ef7ba0d4a733b3d.png)
() , + 一 Ob , , ) =( 6 lO , . . .
( )从指 定的先 验概率 中抽取 : 3 ,
X"dx ,’,此处 =) ,v ≠I ‘ 1 (L )  ̄ :. c j 。
作 者简 介 :陈 昌军 ( 9 4年 一 ) 男 , 高 级 工 程 师 。 17 ,
水 文水 资源
水 利规 划与 设计
2 1 第 3期 0 2年
水 文模 型 参数 不确 定 性 分析 方 法探 讨
陈 昌军 郑雄 伟
( 浙江省水利 水 电勘 测设 计院 杭 州 3 0 0 ) 1 02
【 摘 要 】 应用 基 于马 尔科 夫 链 蒙托 卡 罗 ( a k v C a n M n e C r o M r o h i o t a l )理 论 的 删 ( h e r p l t e M t o o i S
f xY = —— (,) —
2c √ 一 7 1
一
链 收 敛 后 , 两 参 数 散 点 图见 图 2 ,结 果 与 已
一
{ 却
2 t … 19 .
+ )
知 的概率 分布相一致 。 由此可见 ,M H算法可 以 成 功 模 拟 出参 数 后 验 分 布 的强 香 蕉 形 曲线 ,故 可
2 2 模 拟 验 证 . 根 据 以 上 马 尔 科 夫 链 蒙 托 卡 罗 法 的 算 法 原 理 ,采 用 M T A A L B语 言 编 写 计 算 程序 进 行 模 拟 计 算 , 为 测 试 计 算 程 序 的 正 确 性 , 检 验 M ( h H te
M t o o i a t n s l o i h e r p l H s i g a g r t m)算 法 在 不 确 S
地下水模拟不确定性问题的多模型分析
![地下水模拟不确定性问题的多模型分析](https://img.taocdn.com/s3/m/07de5f1a6d85ec3a87c24028915f804d2a168756.png)
地下水模拟不确定性问题的多模型分析宋凯;刘丹;刘建【摘要】Multiple Model Analysis was applied to study the groundwater modelling uncertainties caused by the deviation of model structure and heterogeneity in aquifer media. According to different natural conditions,two hydrogeological conceptual models were established. Using a large number of model parameter data,obtained through hydrogeological tests,as a priori information and based on the two conceptual models,a series of seepage field models was constructed using the Adaptive Metropolis-Markov Chain Monte Carlo method that acceptance condition was adjusted. Uncertainties of modelling output data are analysed based on corrected Akaike's Information Criteron. Research indicates that the ergodicity and convergence of sample parameters will not be affected by changes in acceptance conditions. The model output data include the following effects:"same results with different parameters"and"same results with different models". Although these effects exist,the model structure is closer to the objective of improving the probability of obtaining a high precision model. The proportion of the primary conceptual model,with a variance between 1 and 2,is 65%. When the model with Delta values greater than 10 is excluded,the top 10 models are retained and the cumulative a posterior probability is 0. 996. The proportion of the second conceptual model,with a variance between 1 and 2,is 46%. When the model with Delta values greater than 10 isexcluded,the top 21 models are retained. The cumulative posterior probability of the top 10 models is only 0.884.%为研究地下水概念模型的构建偏差及水文地质参数非均质性引起的地下水渗流场模拟不确定性问题,首先根据自然条件的差异构建2组概念模型;以大量原位水文地质试验获取的待估参数数据为先验信息,应用接受条件进行调整的马尔科夫链蒙特卡罗方法(MCMC)中的自适应采样算法(A-M)进行参数样本采集,并基于2组概念模型分别构建多组渗流场计算模型;将输出结果基于AICc准则进行相关多模型定量分析.研究结果表明:调整的A-M采样算法,参数样本的遍历性及收敛性未受影响;计算模型中除存在"异参同效",亦存在"异构同效";异构同效虽存在,但更接近客观条件的概念模型结构获取高精度模型的概率较大,1#、2#概念模型中方差值介于1~2的模型比例分别为65%、46%;各概念模型的100组计算模型中,剔除Delta值大于10的计算模型后,1#模型中仅保留排名前10个模型,累计后验概率0.996,2#模型则保留排名前21个模型,而其排名前10的模型累计后验概率仅为0.884.【期刊名称】《西南交通大学学报》【年(卷),期】2018(053)003【总页数】8页(P574-581)【关键词】地下水模拟;不确定性;多模型分析;AM-MCMC【作者】宋凯;刘丹;刘建【作者单位】西南交通大学地球科学与环境工程学院,四川成都610031;西南交通大学地球科学与环境工程学院,四川成都610031;西南交通大学地球科学与环境工程学院,四川成都610031【正文语种】中文【中图分类】P641.2近年来,地下水模拟已成为研究地下水环境各类问题的主要方法,地下水模拟的高度概化、水文地质条件的不协调与研究问题本身的复杂性,致使地下水模拟不确定性问题的出现,直观表征为模拟预报结果与实际情况的偏差.现广泛应用的确定性数值模型仅能获得唯一解,未考虑模拟不确定性对模型预测结果的影响,依据此预测结果进行决策存在风险.因此,十分必要对模型进行不确定分析获取优化模型,提高模型精度.地下水模拟不确定性根据其来源可分为:参数不确定性、模型不确定性和资料不确定性[1].主要通过参数识别方法研究参数不确定性问题,如单纯形法、最速下降法、共轭梯度法、高斯-牛顿法、遗传算法、模拟退火算法、蒙特卡罗法及贝叶斯方法等[2];一般通过多模型方法探讨概念模型不确定性问题;可通过连续长期观测资料,不依赖于某时刻或单一空间数据来克服资料不确定性.地下水模型参数的不确定性问题己经获得了广泛的关注,如Beven和Binley提出的GLUE (generalized likelihood uncertainty estimation)方法对水文模型的参数不确定性进行估计[3-4];马尔科夫链-蒙特卡洛(Markov Chain Monte Carlo, MCMC)也是一种重要的不确定性分析方法,它在蒙特卡洛模拟框架内不断演化马尔科夫链,使采集的样本参数收敛于模型参数的后验概率分布[5-6],能够有效地探索参数分布空间的高概率密度区域,并反映出参数后验概率的分布特征[7].Hassan等[5]使用MCMC方法对Alaska、Amchitka Island的Milrow试验场地下水模型参数进行了不确定性评价.Kuczera和Parent[8]、Rojas[9]、陆乐[2]和刑贞相[10]等依托不同的试验场地及水文模型研究各类参数不确定性对模型的影响,并应用于模型参数的识别及地下水环境的风险分析.有关地下水概念模型的不确定性分析起步较晚,部分研究针对模型结构的不确定性进行了分析,如Rojas等[11]提出了GLUE与贝叶斯模型平均(Bayesian model averaging)结合的方法,分别对模型参数和概念模型的不确定性进行了统计.此外,Neuman[12]、Ye[13]、吴吉春[1]、曾献奎[14]等亦对概念模型不确定性进行了相关研究.这些研究多侧重于对多个概念模型模拟结果的综合分析,以获取输出变量的分布特征;或假设以理想模型的不同边界条件构建多模型进行影响分析研究.然而,各类不确定因素对模型影响的敏感度及概念模型的可靠性等方面缺乏系统的分析研究.本文应用调整接受条件后的自适应采样(adaptive metropolis, A-M)算法,以大量水文地质试验数据为参数分布的先验信息构建多模型,根据模型输出数据进行参数识别,并结合基于AICc准则的多模型分析方法,研究参数不确定性及不同结构概念模型对模拟输出的影响及其敏感性.1 地下水模拟的多模型分析方法1.1 多模型的构建思路传统的多模型分析遵循的主要步骤:(1) 考虑构建模拟区多个可能的模型;(2) 在相同观测数据条件下校正模型;(3) 使用某种准则对模型进行排序;(4) 去掉可能性小的模型;(5) 对余下模型得到的预测值与统计量进行权重分析[15-16].通过调整A-M接受样本条件,对多模型分析步骤进行调整:(1) 将不同概念模型结合服从某分布的随机抽样参数样本,构建研究区多个可能的计算模型;(2) 在相同观测数据条件下,通过调整后A-M采样的样本接受条件,直接剔除预测值与观测值偏差较大模型;(3) 对余下模型得到的预测值与统计量进行权重分析.1.2 AM-MCMC的优化MCMC是一种重要的不确定性分析方法,该方法的效率很大程度上取决于其采样的算法.常用的算法有:metropolis-hastings(M-H)算法、吉布斯(Gibbs)采样[17]、A-M算法[18]及single component adaptive metropolis(SCAM)算法[19]等.相比传统的M-H与Gibbs采样,A-M不再需要确定变量的推荐分布,而是决定于初始抽样的协方差,将先验的推荐分布定义为空间的多维正态分布形式,其初始协方差可根据先验信息确定,因此大量先验数据成为A-M采样算法效率及准确性的基础.A-M及SCAM采样原理相近,但若参数组中包含较多维向量,需要分析全局最优解为多维向量参数组时,A-M算法较SCAM更适用.A-M算法是将参数组看成多维的向量,第i步参数样本推荐服从第i-1次采样所得的向量θi-1为均值,协方差矩阵为Ci的多元正态分布.在初始i0次抽样中,协方差矩阵Ci取固定值C0,C0的确定可依据先验信息,之后自适应更新.协方差矩阵计算如式(1).(1)式中:C0为初始协方差矩阵;COV(θ0,…,θi-1)为已有的所有样本向量的协方差矩阵;ε为较小的正数,本次研究取值10-5,为确保Ci不成为奇异矩阵;sd为比例因子,依赖于参数空间维度d,以确保接受率在一个合适的范围内,sd=2.42/d;Id为d维的单位矩阵[20].Ci+1为参数i+1次采样的协方差矩阵,由式(1)推出协方差公式为(2)式中:和为前i-1和i次的抽样均值;和为向量和的转置.A-M算法采样具体步骤如下:步骤1 按先验分布随机产生初始样本向量θ0;步骤2 利用公式计算Ci;步骤3 产生的参数样本θ*~N(θi,Ci);步骤4 计算接受概率α,(3)若接受产生样本θ*,令θi+1=θ*;传统的参数样本接受与否,通过模型的计算值与实际观测资料计算得来的接受概率判定,如式(3).A-M算法不再依赖于参数的推荐分布,假设参数样本先验及后验分布均服从于多元正态分布,以大量实测参数数据为先验信息,随机采集样本的“失真”及后验分布的不收敛基本可忽略.后期依据AICc 信息量准则统计模型的预测值进行权重分析,获取最优参数区间.为提高采样效率,尝试将原接受条件调整为模型的各项计算值与对应观测值的残差均值在K范围内,对模型进行初步筛选,即将步骤4接受样本条件由式(3)调整为式(4).(4)式中:为残差均值;y1、y2分别为实际观测及模型计算值;n为观测数据个数.步骤5 重复步骤(2)~(4),直到取得足够多的样本.1.3 基于AICc准则的多模型分析基于AICc准则的参数识别是利用模型预测结果来计算模型平均预测值及模型残差,并通过排列模型,计算模型概率或权重来分析模型的最优取值区间.单个模型的权重通常是由信息量准则来确定的.信息量准则是信息理论和似然理论结合的成果,日本统计学家赤池弘次首先提出了赤池信息量准则AIC (Akaike’s information criteron),将信息理论中的Kullback-Leibler距离和Fisher极大似然函数联系起来[21].继AIC之后提出修正的AIC信息量准则(AICc).AICc信息量的计算如式(5)~(7).(5)(6)(7)式中:Ai为AICc信息量的计算值;分别为残差平方和及最优目标函数值的残差平方和;分别为残差平方均值和最优目标函数值的残差平方均值;k为待估参数个数.AICc与AIC的不同仅在于它多了式(5)右边第3项.这项是标识因观测数据较少产生的二阶偏差,当n/k<40时,尤其需要考虑到二阶偏差对多模型分析的影响.在对地下水系统进行建模分析时,n/k<40的情况很普遍[22],因此推荐使用AICc准则.得到AICc值之后,用模型的AICc值减去所有备选模型中的AICc最小值,计算每个模型的Delta值Δi、Δj(i≠j).最后根据Delta值计算模型的后验概率ωi,R是参加多模型分析得到的备选模型总数[23].(8)2 实例计算研究2.1 研究区概况及水文地质条件研究区位于我国西南某平原区,区内主要分布第四系松散沉积砂砾卵石孔隙潜水含水层.模拟区位于该平原区某河流右岸的一级阶地,地下水类型为第四系全新统冲洪积层砂卵砾石孔隙潜水,根据钻探及模拟区原位水文地质试验成果,含水层厚度约为25 m,渗透系数介于31.34~138.96 m/d,东侧为当地最低侵蚀基准面,地下水由西北向东南径流.区内1995年起运营生活垃圾填埋场,2010年停止堆填并采取封场措施,至今原始地形地貌已然发生改变,根据收集的原始地形资料及现有堆填区实测地形数据分析,堆填区经过削坡、整形等封场措施后仍高于原始地形约9 m.地表高程及坡降等因素的改变将对地下水补给条件产生影响,本文将依据上述差异构建2组不同概念的模型.2.2 多模型构建根据原始地形资料及实测的地形数据,构建2组地形存在差异,其余水文地质条件相同的概念模型,1#模型考虑堆填体对原始地形的改变,2#模型为原始地形(图1).依靠先验信息即原位水文地质试验获取的渗透系数数据,生成渗透系数对数的初始平均值及初始方差,依次按AM-MCMC采样方法生成每组样本.每组样本中包含对应网格数的渗透系数对数值,将每组对数值进行转化并输入1#模型进行模拟计算.根据接受条件筛选100组(每组含2 250个数据)参数并获取相应输出数据;将筛选好的100组参数输入2#模型,对应获取相应输出数据;最后依据AICc准则进行多模型分析.2.2.1 模型概化及边界条件设置根据水文地质条件及钻孔信息构建的2组概念模型范围均为X(1 000 m)×Y(900m)(X为南北向,Y为东西向),网格为10 m×10 m,含水层厚度约为25 m,东侧边界为当地最低侵蚀基准面,设置为河流边界,西侧及北侧设置为定水头边界,同时,模拟区内设置14个水位观测孔.以原始地形数据及堆填后实测地形数据分别输入模型来刻画2组模型中地形地貌差异(图1).(a) 1#模型(b) 2#模型图1 根据不同地形地貌条件概化的2组模型Fig.1 Groups hydrogeological conceptual model2.2.2 AM-MCMC采样渗透系数为待估参数,视为随机变量.按前述接受条件调整后的A-M算法进行采样.先验信息是参数随机采样的基础,其来源的可靠性将决定采样的合理性.研究区主要地下水类型为松散堆积孔隙潜水,主要由:山前扇状冲洪积砂砾卵石层孔隙潜水,河道漫滩、一级阶地冲洪积砂卵砾石层孔隙潜水,河间二级阶地冰-水堆积泥质砂砾卵石层孔隙潜水构成,3类孔隙潜水分布于平原坝区,相互叠置,介质类型相似,其间无明显的隔水层,地下水有着密切的水力联系,构成了研究区上部潜水含水层组. 因此,本次先验信息由模拟区周边上述3类含水介质的原位水文地质试验数据构成[24-26],其中包括129个钻孔的174组抽水试验数据(图2)及模拟区5个钻孔的14组数据.经统计,先验信息参数对数取值范围为1.369~5.583,初始参数样本服从均值3.407,协方差C0为0.713的正态分布.依次通过A-M算法采集参数样本,耦合地下水数值模拟软件Modflow输出模拟结果进行不确定性分析.2.3 地下水流场模拟不确定性分析文中A-M算法中的接受条件由似然函数求解的后验概率修正为更直接的残差平方的接受值域范围.基于此接受条件的修改,首先需检验条件改变后参数取值的遍历性及收敛性.注:Q4al+pl为第四系全新统河道漫滩、一级阶地冲洪积砂卵砾石层孔隙潜水;Q4alp为第四系全新统山前扇状冲洪积砂卵砾石层孔隙潜水;Q3fgl+al为第四系上更新统河间二级阶地冰-水堆积泥质砂卵砾石层孔隙潜水;Q1+2fgl+al为第四系中、下更新统泥卵砾石孔隙潜水.图2 研究区同类含水介质水文地质试验孔分布Fig.2 Distribution of boreholes at similar aquifers2.3.1 参数取值遍历性分析采用A-M算法对参数样本进行采样,根据接受条件共筛选100组参数,每组含2 250个样本值.图3(a)、(b)为参数在采样过程中均值与方差的迭代迹线.当取样20组(样本个数达到45 000个以上)时,参数的均值和方差趋于平稳.图3(c)、(d)分别为45 000个参数样本的采样过程中样本值遍历参数的可能取值范围,通过自适应更新,样本值取样波动逐步减弱,采样过程基本稳定.综合考虑均值、方差迭代迹线和样本采样过程,调整接受条件后的A-M采样方法并没有对参数后验分布的遍历性及收敛性产生影响,更直接的接受条件可修正样本取样空间,提高样本采集效率.2.3.2 多模型分析多模型的构建旨在分析参数不确定性与模型不确定性对模拟结果的影响.在剔除不符合接受条件的模型后,2组不同的概念模型分别在其中选取100个计算模型.并依据AICc准则多模型分析方法计算得到各模型的AICc值、Delta值及模型的后验概率ωi.运用AICc准则分析参数不确定性对模拟预测结果的影响时,Burnham和Anderson建议如果模型的后验概率超过0.9时,可视其为最佳模型用于预测.而在地下水模拟不确定性研究中,是不易输出如此高概率模型从而获取单个的最优解,输出的是一系列拟合程度相近的模型,即分析所得的是参数样本的最优取值区间而非唯一解.多模型分析方法可通过对预测平均值或预测值置信区间的分析来反映预测值的范围及其与参数的不确定性关系.运用AICc分析认为Delta值小于2的模型是较好的模型,Delta值介于4~7的模型为经验推荐模型,而Delta值大于10的模型可以舍去[17].甄选1#模型中Delta值小于10的计算模型,对输出观测孔地下水位序列值进行统计分析,可计算各观测孔的众数和置信区间.观测孔水位众数、95%置信区间和实际观测值的序列如图4表示,再进一步剔除Delta值大于10的模型后,剩余计算模型的水位众数与观测值几乎重合.(a) 参数对数均值(b) 方差(c) 随机样本(d) 相对频率图3 采样过程Fig.3 Sampling process根据1#模型与2#模型的输出结果排序,排名前三的参数样本相同,排名前十的计算模型中有6组相同,表明在本文设定的不确定性条件下,较之概念模型的不确定性,参数的不确定性的敏感性更高,对模型输出结果的精度更具控制性.虽地下水流场模拟过程中不仅会出现“异参同效”,甚至存在“异参、异构同效”,但仍能从高精度模型出现频次及最优解区间区间范围等方面分析,考虑地形实际变化的1#模型优于2#,反映模型的不确定性仍对模拟结果有着明显的影响.根据输出结果统计分析:(1) 高精度模型出现频次的不同,1#、2#概念模型分别有65%、46%方差值介于1~2之间;(2) 最优解区间取值范围及概率的不同,剔除Delta值大于10的计算模型后,1#模型中仅保留前10个模型,累计后验概率为0.996;2#模型保留前21个模型,而其前10个模型的累计后验概率仅为 0.884(图5).图4 1#模型计算模型地下水位众数、95%置信区间(阴影区域)与观测值Fig.4 95% confidence intervals (shadow areas), observations and mean values图5 不同精度模型比例Fig.5 Comparative precision of the different models 3 结论地下水模拟不确定性与模型的输入参数、模型结构等因素有关.研究表明:(1) 由于影响因素间的相互补偿致使模型的输出存在“异参同效”甚至“异参、异构同效”,因此,综合考虑参数和模型结构因素而获取的取值区间应是更合理的. (2) 在充实的先验数据及参数分布特征既定的条件下,将A-M采样算法中的接受条件调整为模型输出值与实际值方差的接受值域,不会对参数样本的遍历性及收敛性产生影响.(3) 文中构建的多模型分析方法可识别不同影响因素的敏感性,经过参数样本接受条件及基于AICc准则的多模型分析的双重筛选,能较为高效及准确地获得参数最优区间,同时,亦可完成较优概念模型的甄选识别.参考文献:【相关文献】[1] 吴吉春,陆乐. 地下水模拟不确定性分析[J]. 南京大学学报:自然科学,2011,47(3): 227-234. WU Jichun, LU Le. Uncertainty analysis for groundwater modeling[J]. Journal of Nanjing University: Natural Sciences, 2011, 47(3): 227-234.[2] 陆乐,吴吉春,陈景雅. 基于贝叶斯方法的水文地质参数识别[J]. 水文地质工程地质,2008(5): 58-63.LU Le, WU Jichun, CHEN Jingya. Identification of hydrogeological parameters based on the Bayesian method[J]. Hydrogeology and Engineering Geology, 2008(5): 58-63.[3] BEVEN K, BINLEY A. The future of distributed models-model calibration and uncertainty prediction[J]. Hydrological Processes, 1992, 6(3): 279-98.[4] BEVEN K, FREER J. Equifinality, data assimilation, and uncertainty estimation in mechanistic modelling of complex environmental systems using the GLUE methodology[J]. Journal of Hydrology, 2001, 249(1): 11-29.[5] HASSAN A E, BEKHIT H M, CHAPMAN J B. Using Markov Chain Monte Carlo to quantify parameter uncertainty and its effect on predictions of a groundwater flow model[J]. Environmental Moddelling & Software, 2009, 24(6): 749-63.[6] ROJAS R, KAHUNDE S, PETERS L, et al. Application of a multimodel approach to account for conceptual model and scenario uncertainties in groundwater modelling[J]. Journal of Hydrology, 2010, 394(3): 416-35.[7] BLASONE R S, VRUGT J A, MADSEN H, et al. Generalized likelihood uncertainty estimation(GLUE) using adaptive Markov Chain Monte Carlo sampling[J]. Advances in Water Resources, 2008, 31(4): 630-48.[8] KUCZERA G, PARENT E. Monte Carlo assessment of parameter uncertainty inconceptual catchment models: the metropolis algorithm[J]. Journal of Hydrology, 1998, 211(1): 69-85.[9] ROJAS R, FEYEN L, BATCLAAN O, et al. On the value of conditioning data to reduce conceptual model uncertainty in groundwater modeling[J]. Water Resources Research, 2010, 46: W08520-1-W08520-75.[10] 刑贞相,芮孝芳,崔海燕,等. 基于AM-MCMC算法的贝叶斯概率洪水预报模型[J]. 水利学报,2007,38(12): 1500-1506.XING Zhenxiang, RUI Xiaofang, CUI Haiyan, et al. Bayesian probabilistic flood forecasting model based on adaptive metropolis-MCMC algorithm[J]. Journal of Hydraulic Engineering, 2007, 38(12): 1500-1506.[11] ROJAS R, FEYEN L, DASSARGUES A. Conceptual model uncertainty in groundwater modeling: Combining generalized likelihood uncertainty estimation and Bayesian model averaging[J]. Water Resources Research, 2008, 44: 12418.[12] NEUMAN S P. Maximum likelihood Bayesian averaging of uncertain model predictions[J]. Stochastic Environmental Research and Risk Assessment, 2003, 17(5): 291-305.[13] YE M, NEUMAN S P, MEYER P D. Maximum likelihood Bayesian averaging of spatial variability models in unsaturated fractured tuff[J]. Water Resources Research, 2004, 40:W05113-1-W05113-21.[14] 曾献奎,王栋,吴吉春. 地下水流概念模型的不确定性分析[J]. 南京大学学报:自然科学,2012,48(6): 746-752.ZENG Xiankui, WANG Dong, WU Jichun. Uncertainty analysis of groundwater flow conceptual model[J]. Journal of Nanjing University: Natural Sciences, 2012, 48(6): 746-753.[15] NEUMAN S P. Maximum likelihood Bayesian averaging of alternative conceptual mathematical models[J]. Stochastic Environmental Research and Risk Assessment, 2003, 17(5): 291-305.[16] REFSGAARD J C, SLUIJS J P V D , BROWN J, et al. A framework for dealing with uncertainty due to model structure error[J]. Advances in Water Resources, 2006, 29: 1586-1597.[17] GILKS W R, RICHARDSON S, SPIEGELHALTER D J. Markov chain monte carlo in practice[M]. London: Chapman & Hall, 1996: 112-119.[18] HAARIO H, SAKSMAN E, TAMMINEN J. An adaptive metropolis algorithm[J]. Bernoulli, 2001, 7(2): 223-242.[19] HAARIO H, SAKSMAN E, TANMIINEN J. Componentwise adaptation for high dimensional MCMC[J]. Computational Statistics, 2005, 20(2): 265-273.[20] GEHNAN A, CARLIN J B, STREN H.S, et al. Bayesian data analysis[M]. London: Chapmann and Hall, 1995: 142-151.[21] BURNHAM K P, ANDERSON D R. Model selection and multi-model inference: a practical information-theoretic approach[M]. New York: Springer-Verlag, 2002: 163-177.[22] POETER E P, ANDERSON D. Multi-model ranking and inference in groundwater modeling[J]. Ground Water, 2005, 43(4): 597-605.[23] 夏强. 地下水不确定性问题的多模型分析方法及应用[D]. 北京:中国地质大学,2011.[24] 四川省地质局. 成都幅水文地质报告[R]. 成都:四川省地质局,1977.[25] 四川省地质局. 都江堰幅水文地质报告[R]. 成都:四川省地质局,1977.[26] 四川省地质矿产局. 成都平原水文地质工程地质综合勘察评价报告[R]. 成都:四川省地质矿产局,1985.。
马尔可夫链蒙特卡洛方法中的哈密尔顿蒙特卡洛算法解析(Ⅱ)
![马尔可夫链蒙特卡洛方法中的哈密尔顿蒙特卡洛算法解析(Ⅱ)](https://img.taocdn.com/s3/m/5c0e818f88eb172ded630b1c59eef8c75fbf953c.png)
马尔可夫链蒙特卡洛方法中的哈密尔顿蒙特卡洛算法解析1. 引言马尔可夫链蒙特卡洛方法(MCMC)是一种在概率统计中广泛应用的方法,它通过构建马尔可夫链来模拟复杂的概率分布。
其中,哈密尔顿蒙特卡洛算法(HMC)作为MCMC的一种变种,在处理高维问题时表现出了更高的效率和准确性。
本文将对HMC算法进行解析,探讨其原理和应用。
2. 哈密尔顿蒙特卡洛算法原理HMC算法是一种基于哈密尔顿力学的蒙特卡洛方法,其核心思想是通过模拟物理中的哈密尔顿系统来生成样本。
哈密尔顿系统可以描述系统在动力学过程中能量的变化,其关键方程为哈密尔顿方程:\[ \frac{d\boldsymbol{q}}{dt} = \frac{\partial H}{\partial\boldsymbol{p}},\ \ \frac{d\boldsymbol{p}}{dt} = -\frac{\partialH}{\partial \boldsymbol{q}} \]其中,\( \boldsymbol{q} \)表示广义坐标,\( \boldsymbol{p} \)表示广义动量,\( H \)为哈密尔顿函数。
HMC算法的基本步骤如下:- 选取初始状态\( \boldsymbol{q}_0 \)和\( \boldsymbol{p}_0 \);- 通过哈密尔顿动力学方程模拟动力学轨迹,得到新的状态\( \boldsymbol{q}_1 \)和\( \boldsymbol{p}_1 \);- 根据接受概率决定是否接受新状态,若接受则转移到新状态,否则保持原状态。
3. 哈密尔顿蒙特卡洛算法应用HMC算法在贝叶斯统计推断中得到了广泛的应用。
在贝叶斯框架下,我们希望从后验分布中抽取样本,以进行参数估计和预测。
然而,后验分布通常是复杂的多维分布,传统的MCMC方法往往在高维空间中遇到了维度灾难的困扰。
HMC算法通过模拟哈密尔顿动力学系统,能够在高维空间中更高效地生成样本,提高了采样的效率。
水文统计学题集
![水文统计学题集](https://img.taocdn.com/s3/m/15719a5deef9aef8941ea76e58fafab069dc44f0.png)
水文统计学题集一、选择题1. 在水文统计学中,以下关于随机事件的说法正确的是()。
A. 随机事件是指在一定条件下必然发生的事件。
B. 随机事件是指在一定条件下可能发生也可能不发生的事件。
C. 随机事件是指在任何条件下都不会发生的事件。
D. 随机事件是指在任何条件下都会发生的事件。
答案:B。
解析:在水文统计学中,随机事件是指在一定条件下可能发生也可能不发生的事件。
随机事件的发生具有不确定性,但可以通过概率来描述其发生的可能性大小。
2. 对于水文事件的概率,下列说法错误的是()。
A. 概率是对随机事件发生可能性大小的定量描述。
B. 概率的取值范围是 0 到 1。
C. 概率为 0 表示事件一定不发生,概率为 1 表示事件一定发生。
D. 概率可以大于 1。
答案:D。
解析:在水文统计学中,概率是对随机事件发生可能性大小的定量描述,其取值范围是 0 到 1。
概率为 0 表示事件一定不发生,概率为 1 表示事件一定发生,概率不可能大于 1。
3. 若某水文事件发生的概率为 0.3,那么其不发生的概率为()。
A. 0.3B. 0.7C. 1D. 0答案:B。
解析:对于一个随机事件,其发生的概率与不发生的概率之和为 1。
已知该水文事件发生的概率为 0.3,那么其不发生的概率为 1 0.3 = 0.7。
4. 在水文统计学中,两个相互独立的水文事件同时发生的概率等于()。
A. 两个事件概率之和。
B. 两个事件概率之差。
C. 两个事件概率之积。
D. 两个事件概率之商。
答案:C。
解析:在水文统计学中,如果两个事件相互独立,那么它们同时发生的概率等于两个事件概率之积。
5. 若事件 A 在水文统计中的概率为 0.4,事件 B 的概率为 0.5,且 A 与 B 相互独立,那么事件 A 和事件 B 至少有一个发生的概率为()。
A. 0.2B. 0.7C. 0.9D. 1答案:B。
解析:首先求事件 A 和事件 B 都不发生的概率,因为 A 与B 相互独立,所以两个事件都不发生的概率为(1 0.4)×(1 0.5)= 0.6×0.5 = 0.3。
求van Genuchten模型参数的AM-MCMC方法
![求van Genuchten模型参数的AM-MCMC方法](https://img.taocdn.com/s3/m/df3e9e26915f804d2a16c10e.png)
土 壤(Soils), 2012, 44 (2): 345-350求van Genuchten模型参数的AM-MCMC方法①石晓蕾1, 徐绍辉1*, 廖凯华2(1 青岛大学环境科学系,青岛 266071;2 南京大学水科学系,南京 210093)摘 要:采用基于自适应采样算法的马尔科夫链蒙特卡罗方法(简称AM-MCMC)来估算描述土壤水分特征曲线的van Genuchten模型的参数,并推求出模型参数的后验分布,从而为模型参数的不确定性分析提供依据。
结果表明,对于van Genuchten 模型而言,采用AM-MCMC算法能得到模型参数后验均值和方差的分布,并且能推求出模型参数的置信区间,所以用这种算法来求解van Genuchten方程的参数是行之有效的,为求解van Genuchten模型参数提供了一种新的思路。
关键词: 土壤水分特征曲线;van Genuchten模型;AM-MCMC算法中图分类号: S152土壤水分特征曲线表征了土壤压力水头与水分含量之间的函数关系,是土壤最重要的水力特性之一。
在研究土壤水入渗、蒸发、滞留、土壤侵蚀及溶质运移过程中,土壤水分特征曲线是推求各种水分运动参数的重要工具,因此土壤水分特征曲线一直是土壤物理学家们关注的重点。
由于土壤水分特征曲线的影响因素复杂,至今还没有从理论上建立土壤含水量和土壤基质势之间的关系,通常用经验公式来描述。
van Genuchten提出的描述土壤水分特征曲线方程匹配大部分土壤水分特征曲线的形状,因此得到广泛应用。
然而,因van Genuchten 方程是一个复杂的非线性方程,其中的参数较多,并且参数拟合属于非线性问题,许多学者对土壤水分特征曲线的拟合做过研究。
如最小二乘法[1]、非线性单纯形法[1]、单纯形调优法[2]等。
但用上述这些方法会遇到求解停止或参数为负以及计算效率低等问题。
描述土壤水分特征曲线的模型,在数值求解过程中存在很多不确定因素,如模型参数和模型输入的不确定性、模型本身的不确定性、模型对复杂的实际问题进行简化而产生的不确定性以及观测资料的不确定性等。
狄利克雷过程混合模型的马尔可夫链蒙特卡洛方法
![狄利克雷过程混合模型的马尔可夫链蒙特卡洛方法](https://img.taocdn.com/s3/m/fa58ec48f02d2af90242a8956bec0975f465a4bc.png)
狄利克雷过程混合模型的马尔可夫链蒙特卡洛方法狄利克雷过程混合模型是一种非参数贝叶斯模型,用于对未知数据分布进行建模,并且具有灵活的聚类性质和能够处理数据分布不均匀情况的优势。
马尔可夫链蒙特卡洛方法(MCMC)是一种统计计算方法,可用于从概率分布中采样,并且广泛应用于贝叶斯推断问题的求解。
当将狄利克雷过程混合模型与马尔可夫链蒙特卡洛方法结合时,可以得到一种用于从后验分布中抽样的有效方法。
以下是关于狄利克雷过程混合模型的马尔可夫链蒙特卡洛方法的50条详细描述:1. 狄利克雷过程混合模型的马尔可夫链蒙特卡洛方法可以用于对数据集中的聚类结构进行混合建模。
2. MCMC方法在狄利克雷过程混合模型中的应用,能够有效地对模型参数进行贝叶斯推断。
3. 通过MCMC方法,可以从未知分布中抽样,从而获得对数据生成过程的更全面理解。
4. 狄利克雷过程混合模型的MCMC方法可以适应数据集中聚类结构和分布形状的多样性。
5. 由于MCMC方法的随机性,可以得到对模型参数的后验分布进行抽样,而不需要对参数进行明确的数值计算。
6. 马尔可夫链蒙特卡洛方法可以解决狄利克雷过程混合模型中的参数估计问题,尤其是在非参数建模中的应用。
7. 通过MCMC方法,可以从未知的狄利克雷过程中获得对隐含聚类结构的建模与推断。
8. 使用马尔可夫链蒙特卡洛方法,可以对狄利克雷过程混合模型中的模型误差进行充分的控制。
9. 狄利克雷过程混合模型的MCMC方法可以用于对数据集中隐藏的聚类数目进行自动估计。
10. MCMC方法在狄利克雷过程混合模型中的应用,可以提供对模型参数后验分布的置信区间等统计信息。
11. 通过MCMC方法,可以有效地估计狄利克雷过程的参数,从而对分布进行建模。
12. 马尔可夫链蒙特卡洛方法可以对狄利克雷过程混合模型中的超参数进行贝叶斯推断,从而获得对模型复杂度的准确理解。
13. 狄利克雷过程混合模型的MCMC方法可以用于对数据分布的非参数建模,避免了对数据分布形状的事先假设。
如何使用马尔可夫链蒙特卡洛进行贝叶斯模型融合(十)
![如何使用马尔可夫链蒙特卡洛进行贝叶斯模型融合(十)](https://img.taocdn.com/s3/m/be024fc0ed3a87c24028915f804d2b160b4e8605.png)
在贝叶斯统计学中,蒙特卡洛方法是一种重要的技术,用于进行贝叶斯模型融合。
这种方法通过随机抽样来估计模型参数的分布和不确定性,从而可以在模型融合中更好地处理不确定性和复杂性。
而马尔可夫链蒙特卡洛(MCMC)则是蒙特卡洛方法的一种重要技术,它通过马尔可夫链的转移来实现对参数空间的随机抽样。
本文将介绍如何使用马尔可夫链蒙特卡洛进行贝叶斯模型融合。
第一节:贝叶斯模型融合的基本原理在贝叶斯统计学中,模型融合是一种重要的技术,它可以帮助我们将多个模型的信息进行整合,从而得到更准确和鲁棒的推断结果。
贝叶斯模型融合的基本原理是通过贝叶斯定理来更新模型的后验分布,从而得到更准确的参数估计和预测结果。
在贝叶斯模型融合中,我们通常需要对参数空间进行随机抽样,以获得参数的后验分布。
而马尔可夫链蒙特卡洛就是一种很好的方法,可以实现对参数空间的随机抽样。
第二节:马尔可夫链蒙特卡洛的基本原理马尔可夫链蒙特卡洛是一种通过马尔可夫链的转移来实现对参数空间的随机抽样的方法。
其基本原理是构建一个马尔可夫链,使得该链的平稳分布就是我们所关心的参数的后验分布。
通过对该马尔可夫链进行抽样,我们就可以得到参数的后验分布的近似值。
在实际应用中,常用的马尔可夫链蒙特卡洛方法包括Metropolis-Hastings算法和Gibbs抽样算法等。
第三节:如何使用马尔可夫链蒙特卡洛进行贝叶斯模型融合在实际应用中,我们可以使用马尔可夫链蒙特卡洛来进行贝叶斯模型融合。
具体而言,我们可以先使用马尔可夫链蒙特卡洛方法对各个模型的参数空间进行随机抽样,得到参数的后验分布的近似值。
然后,我们可以通过对这些后验分布进行整合,得到对模型参数的更准确和鲁棒的估计。
最后,我们可以基于这些参数的后验分布,来进行模型的预测和推断。
第四节:实例应用举一个实例来说明如何使用马尔可夫链蒙特卡洛进行贝叶斯模型融合。
假设我们有两个线性回归模型,分别是y=β1x1+β2x2+ϵ和y=γ1x1+γ2x2+ϵ,其中ϵ是误差项。
如何进行水文模型参数估计与优化
![如何进行水文模型参数估计与优化](https://img.taocdn.com/s3/m/fd284f28f08583d049649b6648d7c1c708a10b08.png)
如何进行水文模型参数估计与优化水文模型是研究水文过程的数学和物理模型,在水资源管理、洪水预报、水文预测等领域具有重要的应用价值。
水文模型通过对流域内水文过程的数学描述,可以模拟和预测流域内的水文变化,为水资源利用和水灾防治提供科学依据。
水文模型的准确性和可靠性取决于其参数的估计与优化。
本文将着重探讨水文模型参数估计与优化的方法和技术。
一、水文模型参数估计方法水文模型中的参数是用于表征流域水文过程特征的数值,包括径流系数、蒸散发系数、水库出流系数等。
水文模型参数的估计是建立模型并进行模拟预测的基础,常见的水文模型参数估计方法包括以下几种。
1. 直接观测法:通过野外观测和实测数据,直接获取模型参数。
例如,通过水文站点的水位、降雨量等实测数据,运用流量-水位关系曲线和单位线法等方法,推算出流域的径流系数。
2. 统计法:利用历史观测数据和统计分析方法,对模型参数进行估计。
例如,对于蒸散发系数,可以通过观测站点的气象数据,利用统计分析方法拟合出蒸发量与气象因子之间的关系,并将拟合参数应用于水文模型。
3. 迭代优化法:使用数值优化算法,通过不断迭代计算,寻找使模型模拟结果与实测数据拟合最好的参数。
其中,常用的数值优化算法包括梯度下降法、遗传算法、模拟退火算法等。
这些算法通过不断调整参数数值,优化模型的适应性。
二、水文模型参数优化技术水文模型参数优化的目标是寻找模型输出与实测数据之间最好的拟合程度,通常使用的评价指标包括均方根误差(RMSE)、平均绝对误差(MAE)等。
为了提高参数优化的效果,可以采用以下技术。
1. 敏感性分析:通过敏感性分析,确定影响模型输出的关键参数。
敏感性分析可以基于数值计算或数学推导,得到不同参数对输出结果的影响程度。
通过优先调整敏感性较高的参数,可以提高参数优化的效果。
2. 参数拟合范围设定:对于某些参数,可能存在边界约束或物理意义约束。
在进行参数优化时,需要合理设定参数的拟合范围,以保证优化结果的可靠性和合理性。
均生函数、马尔可夫链法在中长期洪水预报中的应用
![均生函数、马尔可夫链法在中长期洪水预报中的应用](https://img.taocdn.com/s3/m/88bbc54af11dc281e53a580216fc700abb68522c.png)
均生函数、马尔可夫链法在中长期洪水预报中的应用
田野;解立强;梁策;林树刚
【期刊名称】《水科学与工程技术》
【年(卷),期】2016(000)004
【摘要】中长期洪水预报,影响因素多,目前科技手段难以在很长预见期内实现准确预知。
通过对均生函数、马尔可夫链法综合应用,对比分析,可以确认是值得推广应用的新方法。
【总页数】3页(P34-35,36)
【作者】田野;解立强;梁策;林树刚
【作者单位】辽宁省沈阳水文局,沈阳 150400;辽宁省沈阳水文局,沈阳 150400;辽宁省丹东水文局;辽宁省沈阳水文局,沈阳 150400
【正文语种】中文
【中图分类】TV124
【相关文献】
1.灰色系统理论在中长期洪水预报中的应用 [J], 徐凤才;杨杰
2.周期分析法在中长期洪水预报技术中的应用 [J], 蔡晓红;郭翠芳;刘丹丹
3.“单元汇流单位线”法洪水预报方案在陆浑水库洪水预报中的运用情况分析 [J], 朱婕;金嵩涛;周超峰
4.马尔可夫链在龙江中长期水文预报中的应用 [J], 杨胜峰
5.多元线性回归与逐步回归在洪水预报中的应用——以南汀河中长期洪水预报为例[J], 宋润虎
因版权原因,仅展示原文概要,查看原文内容请购买。
融合数据同化与机器学习的流域径流模拟方法
![融合数据同化与机器学习的流域径流模拟方法](https://img.taocdn.com/s3/m/90a91c54bfd5b9f3f90f76c66137ee06eef94e59.png)
第34卷第6期2023年11月㊀㊀水科学进展ADVANCES IN WATER SCIENCE Vol.34,No.6Nov.2023DOI:10.14042/ki.32.1309.2023.06.002融合数据同化与机器学习的流域径流模拟方法邓㊀超1,陈春宇1,尹㊀鑫2,王明明3,张宇新4(1.河海大学水文水资源学院,江苏南京㊀210098;2.南京水利科学研究院水灾害防御全国重点实验室,江苏南京㊀210029;3.宿迁市水利局,江苏宿迁㊀223800;4.南京水科院瑞迪建设科技集团有限公司,江苏南京㊀210098)摘要:环境变化影响下流域径流的精确模拟对洪涝灾害防治与区域水资源管理都具有重要意义㊂在径流模拟研究中,现有机器学习模型未能充分考虑水文中间状态变量对降雨-径流过程的影响,本研究基于集合卡尔曼滤波(En-KF)更新水文状态变量,结合主成分分析(PCA)提取预报因子的主要特征,采用长短时记忆神经网络(LSTM)构建考虑水文中间变量的机器学习水文模型EnKF-PCA-LSTM㊂以赣江流域为例,评估EnKF-PCA-LSTM 模型的径流模拟效果,同时将模拟结果与LSTM 模型㊁物理水文模型HYMOD 做对比分析㊂结果表明,EnKF-PCA-LSTM 模型模拟径流的纳什效率系数㊁Kling-Gupta 效率系数和对数纳什效率系数分别为0.954㊁0.971和0.972,比LSTM 模型和HYMOD 模型具有更好的模拟性能,说明考虑水文状态变量可有效提高机器学习模型的径流模拟精度及稳定性㊂研究成果可为流域径流模拟提供技术参考㊂关键词:径流模拟方法;水文状态变量;集合卡尔曼滤波;主成分分析;长短时记忆神经网络中图分类号:TV122㊀㊀㊀文献标志码:A㊀㊀㊀文章编号:1001-6791(2023)06-0839-11收稿日期:2023-05-29;网络出版日期:2023-10-25网络出版地址:https :ʊ /urlid /32.1309.P.20231025.1028.0022基金项目:国家重点研发计划资助项目(2022YFC3202802);中央高校基本科研业务费专项资金资助项目(B210201030)作者简介:邓超(1989 ),男,湖南常德人,副教授,博士,主要从事水文过程机理及其模拟研究㊂E-mail:dengchao@ 径流模拟是流域水文预报领域非常重要的一环,也是水文水资源研究中最重要的科学问题之一[1]㊂近年来,受强人类活动和全球气候变暖等因素的影响,极端天气事件频发,洪涝干旱灾害加剧,对中国经济和社会造成了极为严重的损失[2-3]㊂因此,提出能够适应变化环境的流域径流模拟方法,从而提高流域径流模拟精度[4],具有重大的科学意义和实际应用价值㊂随着智能监测技术的全面发展,水文数据更易获取[5],而利用机器学习方法构建水文输入变量与输出变量的映射关系,用来开展流域径流模拟成为当前的研究热点之一[6-7]㊂长短时记忆神经网络(long short-term memory,LSTM)作为热门机器学习方法之一,在径流模拟领域已经有了广泛的研究和应用[8]㊂李大洋等[9]提出了基于变分贝叶斯与深度学习的水文概率预报新方法VB-LSTM,应用于黄河源区流域,结果表明,VB-LSTM 具有一定的灵活性与通用性,且有效提高了径流预报精度;Khandelwal 等[10]将LSTM 模型应用到500多个流域,发现LSTM 模型在更多样本数据训练时,预测结果优于物理机制模型㊂但目前基于LSTM 模型的流域径流模拟预报研究大多是将预测因子直接输入模型[11],而数据的多源性增加了模型的不确定性,影响了径流模拟的精准度和计算效率㊂近期,李步等[12]将主成分分析(principal component analysis,PCA)与LSTM 结合,构建了融合气象要素时空特征的PCA-LSTM 模型,该方法在黄河源区的应用效果证明了其适用性和鲁棒性㊂对于流域降雨-径流过程,水文中间状态变量如土壤湿度㊁蒸散发等,对流域径流的形成有着重要影响[11]㊂因此,如何提高水文模型对水文中间状态变量的估计,并将其充分应用到基于机器学习的流域径流模拟中以提高径流模拟精度,有待进一步研究㊂本文将采用集合卡尔曼滤波(ensemble Kalman filter,EnKF)㊁PCA 和LSTM 方法构建一种融合数据同化与机器学习的流域径流模拟模型,记为EnKF-PCA-LSTM,以赣江流域开展实例研究,通过同化土壤湿度㊁840㊀水科学进展第34卷㊀蒸散发状态变量,以期提高机器学习径流模拟精度,并选取HYMOD水文模型和LSTM模型进行对比分析,系统评估EnKF-PCA-LSTM模型的流域径流模拟效果㊂1㊀研究方法1.1㊀EnKF-PCA-LSTM模型本文提出的一种融合EnKF㊁PCA和LSTM的流域径流模拟模型㊂基于水文气象实测数据,通过SCE-UA 算法[13-14]率定HYMOD水文模型参数的最优值,以流域历史径流序列,采用EnKF更新流域水文模型的状态变量,即实际蒸散发(E T)和土壤湿度(M S);通过PCA方法进行主成分提取,得到流域径流模拟因子集合;根据筛选的径流模拟因子集合和流域实测径流训练LSTM模型,基于训练好的LSTM模型进行流域径流模拟㊂1.1.1㊀集合卡尔曼滤波EnKF结合了集合模拟预报的形式和卡尔曼滤波算法,通过蒙特卡洛方法计算状态变量的预测误差协方差,将预测值和观测值之间的误差协方差最小化来优化目标估计㊂主要步骤分为预测和更新,首先利用状态转移方程对实际问题的状态变量进行预测,然后根据观测信息和计算得到的增益因子,更新状态变量[15-16]㊂1.1.2㊀主成分分析PCA是最常用的线性降维方法之一,主要步骤是对每一个特征进行去均值处理,求其协方差矩阵,再求协方差矩阵的特征值和相对应的特征向量,选取前k个最大的特征值,最后将原始特征投影到选取的特征向量上,得到降维后的k维特征,以此使用较少的数据维度,同时保留住较多的原数据点的特性㊂PCA具体计算步骤可参考文献[17]㊂当PCA能够提取满足赣江流域径流模拟的因子特征时,进一步增加主成分阈值对径流模拟影响较小[12],故本文主成分阈值设为85%㊂1.1.3㊀长短时记忆神经网络LSTM能够有效捕捉长时序数据之间的关联,缓解梯度消失或爆炸现象㊂LSTM的核心结构分为4个部分:遗忘门㊁输入门㊁细胞状态和输出门㊂其中,遗忘门决定从之前隐藏层状态中需要舍弃的信息;输入门选择用哪些新获取的信息更新状态;细胞状态负责更新记忆单元状态变量,这也是LSTM有长时间记忆能力的关键;输出门将部分记忆单元状态变量生成隐藏层状态变量,形成循环结构㊂LSTM在水文模拟预报中的详细运算过程可参考文献[18]㊂1.1.4㊀EnKF-PCA-LSTM模型基于以上方法,本文构建了一种融合EnKF㊁PCA和LSTM的流域径流模拟模型,该方法步骤主要包括(图1):(1)将降水(P)㊁潜在蒸散发(E TP)以及流域出口断面径流(Q int)等作为输入数据;采用SCE-UA优化算法,率定得到HYMOD模型参数的最优值,而后基于HYMOD模型采用EnKF更新状态变量(E T㊁M S),更新过程中HYMOD水文模型参数固定不变[19]㊂(2)参考PCA与机器学习结合在水文预报领域的研究[20-21],将主成分阈值设为85%,并采用2种方式进行流域径流模拟因子主成分提取:①针对更新后的状态变量,结合驱动变量P㊁Q int,同时作为输入变量通过PCA进行主成分提取;②将更新后的状态变量与驱动变量分别采用PCA进行主成分提取㊂(3)将提取得到的主成分输入LSTM模型,基于流域径流实测资料训练LSTM模型,最后基于训练好的LSTM模型,开展流域径流模拟㊂㊀第6期邓超,等:融合数据同化与机器学习的流域径流模拟方法841㊀图1㊀EnKF-PCA-LSTM 模型流程Fig.1Flow chart of the proposed EnKF-PCA-LSTM model1.2㊀对照模型为评估EnKF-PCA-LSTM 模型的可行性,本文与LSTM 机器学习模型和HYMOD 水文模型作对比研究㊂为验证同化后水文状态变量对径流模拟的影响,LSTM 模型的输入变量包括降水㊁径流㊁蒸散发和HYMOD 模拟得到的未同化处理的土壤湿度㊂HYMOD 模型是一种基于蓄满产流理论的集总式水文模型,将一个流域分为无限个不相关联的点的集合,每一个点都含有一定的初始土壤含水量,并且该点有其最大蓄水能力(C max ),当该点的降水量超过C max 时,超出的降水则转为径流㊂模型的产流计算基于流域蓄水能力曲线[22-23],公式如下:F (C )=1-1-C C max ()B (1)式中:F (C )为流域内某点蓄水能力累积率;C 为流域内某点的蓄水能力,mm;B 为流域内某点的蓄水能力空间变化指数㊂2㊀研究区域与数据2.1㊀研究区域赣江是长江主要支流之一,为江西省最大河流,流域面积达81800km 2㊂赣江位于长江中下游南岸,自然落差为937m,平均年径流深为849mm,平均年径流系数为0.61㊂流域发源于江西省赣州市石城县洋地乡石寮岽,地形组成较为复杂,其中山地㊁低丘㊁丘陵分别占流域总面积的44%㊁31%和21%,其他为水域和平原㊂流域汛期为4 9月,丰枯变化显著,汛期水量约占全年的73%~78%,多年平均最大月径流量与最小月径流量比值为5~9[24-25]㊂2.2㊀数据本文构建模型的输入数据分别为:(1)Q int 来源于水文年鉴外州水文控制站的实测日平均流量数据㊂(2)降水来源于中国气象数据网(http:ʊ /)中赣江流域内及其附近的16个气象站点(如图2所示)数据㊂(3)蒸散发包括潜在蒸散发和实际蒸散发㊂潜在蒸散发采用中国气象数据网获取的蒸发皿蒸发数据,实际蒸散发来源于国家青藏高原科学数据中心(http:ʊ /zh-hans /)的遥感反演产品PML-V2[26]㊂采用泰森多边形法计算流域面平均降水㊁面平均蒸发皿蒸发㊂流域面平均实际蒸散发基于蒸散发产品,采用Python 的GeoPandas 库处理得到㊂由于蒸散发产品PML-V2的起始时间序列为2002-07-04,故输入数据样本选用2002-07-04/2010-12-31,并将该段样本数据以7ʒ3的比例分为率定期和验证期,即2002-07-04/2008-06-12为训练期(率定期),2008-06-13/2010-12-31为测试期(验证期)㊂842㊀水科学进展第34卷㊀由于模型的预热期导致EnKF同化之后的数据初始阶段误差较大,为降低对后续模型径流模拟的影响,同时考虑数据的完整性,选择2002-07-04/10-04共3个月为预热期㊂在EnKF更新水文中间状态变量之后,t 记为径流模拟当前时刻,t-1为模拟当天的前一日,则PCA的输入变量为Q t-1㊁P t㊁E T,t和M S,t㊂图2㊀赣江流域地理位置及观测站点分布Fig.2Ganjiang River basin and the location of gauging stations2.3㊀模型参数设置(1)EnKF-PCA-LSTM模型㊂HYMOD水文模型参数的初始值和参考取值范围如表1所示,模型参数采用SCE-UA优化算法率定得到;LSTM模型的超参数主要包括隐藏层数(num_layers)㊁舍弃率(droupout)㊁迭代次数(epochs)㊁隐藏神经元数量(hidden_size)㊁训练批次大小(batch_size)㊁学习率(learning_size),超参数的设置也会影响到模型的预测效果和预测时间[27]㊂本研究参考相关文献并结合前期实验选取参数率定范围[27-28],LSTM模型根据给定的参数率定范围进行多次迭代计算,并自动输出评价指标Kling-Gupta效率系数最优值对应的一组参数㊂EnKF-PCA-LSTM模型中LSTM的主要超参数设置如下:num_layers值为1㊁droupout值为0.15㊁epochs值为10㊁hidden_size值为40㊁batch_size值为32㊁learning_size值为0.01,其中num_layers默认设置为1层,不参与模型参数优选率定过程,则LSTM模型需要通过参数优选率定的超参数为5个,模型损失函数选取均方根误差(E MS),模型采用Adam优化器,输入数据采用 Max-Min 归一化方法㊂表1㊀HYMOD模型参数及取值范围Table1Definition of HYMOD model parameters and their ranges模型参数初始值最小值最大值最大蓄水能力(C max)201500土壤持水量空间分布指数(B)0.20.12快㊁慢流速分水系数(α)0.100.99慢速流退水系数(R s)0.10.10.99三层线性快速流退水系数(R q)0.0500.1㊀第6期邓超,等:融合数据同化与机器学习的流域径流模拟方法843㊀㊀㊀(2)对照模型㊂为充分证明EnKF-PCA-LSTM 模型的可行性,HYMOD 模型㊁LSTM 模型的超参数设置与EnKF-PCA-LSTM 模型中对应参数设置保持一致㊂其中,HYMOD 模型的输入为流域径流量㊁面平均降水量和潜在蒸散发量,输出为土壤湿度和HYMOD 模拟径流;LSTM 模型的输入为流域径流量㊁面平均降水量㊁潜在蒸散发量和HYMOD 模型模拟的土壤湿度,输出为流域径流㊂同时,为了检验模型的鲁棒性,本文采用设置不同标准差的高斯噪音来模拟真实环境中的不确定性[29],检验EnKF-PCA-LSTM 模型是否对作为LSTM 模型的输入数据过拟合㊂2.4㊀评价指标本文采用3个指标评价模型的性能,分别为纳什效率系数(E NS )㊁Kling-Gupta 效率系数(E KG )和径流对数的纳什效率系数(E NSlnQ )㊂计算公式分别为:E NS =1-ðn t =1(Q sim,t -Q obs,t )2ðn t =1(Q obs,t -Q obs,t )2(2)E KG =1-(r -1)2+(α-1)2+(β-1)2(3)E NSlnQ =1-ðn t =1[ln(Q sim,t +ζ)-ln(Q obs,t +ζ)]2ðn t =1[ln(Q obs,t +ζ)-ln(Q obs,t +ζ)]2(4)式中:Q sim,t 为t 时刻的模型模拟流量;Q obs,t 为t 时刻的观测流量;Q obs,t 为观测流量的平均值;r 为皮尔逊线性相关系数;α为日径流量模拟值与日径流量观测值标准差的比值;β为模拟日径流量与实测日径流量平均值的比值;n 为时间序列的长度;ζ为常数,用来处理流域特别时段出现的零流量现象,建议取值为整个时段观测径流平均值的1%[30],即ζ=0.01Q obs,t ;ln(Q obs,t +ζ)为观测流量加上常数ζ后取对数的平均值㊂E NS 为一个标准化统计指标[31],E KG 主要用于对高流量模拟的评估[32],E NSlnQ 主要用于评估低流量的模拟效果[30],E NS ㊁E KG 和E NSlnQ 的取值范围都为(-ɕ,1],取值越接近于1,说明模型的模拟效果越好,反之越差㊂3㊀结果与讨论3.1㊀PCA 2种方式对比为了对比在EnKF-PCA-LSTM 模型径流模拟过程中数据同化之后,状态变量与驱动变量同时或分别作为输入变量进行主成分提取的降维结果对最终径流模拟效果的影响,做如下对比研究㊂方案一:当数据同化之后,对状态变量与驱动变量分别进行主成分提取,再将二者的主成分集合作为LSTM 的输入数据,进行径流模拟㊂方案二:将数据同化后的状态变量与驱动变量共同进行主成分提取,并将主成分集合输入LSTM 模型进行模拟,2种方案的评价指标对比见表2,径流模拟结果如图3所示㊂表2㊀2种PCA 降维方案下径流模拟结果对比Table 2Comparison of catchment streamflow performances under two PCA dimension reduction scenariosPCA 方案率定期验证期E NS E KG E NSlnQ E NS E KG E NSlnQ 方案一0.9480.9580.9740.9510.9190.976方案二0.9480.9580.9700.9540.9710.974844㊀水科学进展第34卷㊀㊀㊀根据表2所示结果,在验证期内,方案二的E KG比方案一高,其可能的原因是:方案一进行的2次PCA 过程共保留了2个主成分,这也增加了噪声数据对径流模拟的影响[33],而方案二进行的PCA过程只保留了1个主成分,且贡献率约为97%,相比于方案一在保留输入数据主要特征的同时,也有效降低了噪声数据的影响㊂为了评估PCA在提出方法中的必要性,本文设置了驱动数据和同化后的状态变量不进行PCA处理的对比方案,直接作为LSTM的输入数据,参数设置与方案二保持一致,结果显示率定期的E KG为0.918,验证期的E KG为0.916,其他评价指标也均略低于方案一和方案二㊂表明采用PCA方法进行主成分提取能够降低噪声数据对径流模拟结果的影响㊂在考虑PCA的情景下,2种方案的E NS和E NSlnQ相差不大,但在湿润㊁半湿润地区径流模拟工作中,一般更关注高流量径流,因此,本文采用方案二与HYMOD模型和LSTM模型作以下对比研究㊂图3㊀2种PCA降维方案下径流模拟过程对比Fig.3Comparison of simulated and observed streamflow under two PCA dimension reduction scenarios3.2㊀不同模型结果对比图4展示了EnKF-PCA-LSTM模型(方案二)与对比模型HYMOD模型和LSTM模型的径流模拟过程,表3展示了各模型的评价指标结果㊂以验证期为例,EnKF-PCA-LSTM㊁LSTM和HYMOD模型的E NS分别为0.954㊁0.952和0.841,E KG分别为0.971㊁0.900和0.849,E NSlnQ分别为0.974㊁0.972和0.825㊂结果显㊀第6期邓超,等:融合数据同化与机器学习的流域径流模拟方法845㊀示,3种模型的所有评价指标均大于0.8,表明3种模型在赣江流域均能取得良好的径流模拟效果㊂提出的EnKF-PCA-LSTM模型结果最优,LSTM模型次之,而HYMOD模型最差㊂相较于对照模型LSTM和HYMOD, EnKF-PCA-LSTM模型径流模拟结果的E NS分别提高了0.2%和13.4%,E KG分别提高了7.9%和14.4%,而E NSlnQ相较于LSTM模型无提升,相较于HYMOD模型则提高了17.8%㊂图4㊀不同模型模拟径流与实测径流对比Fig.4Comparison of observed and simulated streamflow different modelsHYMOD模型作为物理过程水文模型,是对流域真实水文过程的概化,其刻画的降雨径流过程会存在不足,导致径流的模拟存在一定的误差㊂径流过程的高水㊁低水过程较小的绝对误差亦会产生较大的相对误差,使得HYMOD模型对于径流过程的总体结果相对较差㊂LSTM模型是基于数理统计的数据驱动模型[34],846㊀水科学进展第34卷㊀能够基于历史降水㊁径流等实测数据挖掘更为准确的降雨径流映射关系,相比于HYMOD模型其径流模拟过程更接近于实测径流,但LSTM模型本质仍然是基于数据分析建立的映射关系,未能考虑水文循环过程中的中间变量对径流过程的影响[35-36]㊂提出的EnKF-PCA-LSTM模型既能充分考虑了水文中间状态变量对径流过程的影响,也能减少噪声数据,提高LSTM模型的计算效率,上述径流模拟结果也验证了该模型在3个模型中表现最优,特别是在径流过程高水部分的效果提升㊂表3㊀不同模型评价指标对比结果Table3Comparison of streamflow performances from different models模型率定期验证期E NS E KG E NSlnQ E NS E KG E NSlnQEnKF-PCA-LSTM0.9480.9580.9700.9540.9710.974 LSTM0.9430.9030.9650.9520.9000.972HYMOD0.7900.8620.8520.8410.8490.8253.3㊀模型鲁棒性检验表4展现了在不同标准差的高斯噪声下,EnKF-PCA-LSTM模型与LSTM模型径流模拟结果的E NS值㊂结果表明,EnKF-PCA-LSTM模型与LSTM模型对于不同标准差的高斯噪声几乎不受影响,E NS值始终保持在0.94以上,并且没有发生骤降趋势,证明了EnKF-PCA-LSTM模型未对作为LSTM模型的输入数据过拟合,具有很好的鲁棒性㊂表4㊀EnKF-PCA-LSTM模型与LSTM模型鲁棒性表现Table4Robust performance of EnKF-PCA-LSTM model and LSTM model模㊀型不同标准差下的E NS值0.030.040.060.080.100.120.140.160.180.20EnKF-PCA-LSTM0.9540.9540.9530.9530.9530.9520.9520.9520.9510.951 LSTM0.9520.9520.9520.9510.9510.9510.9500.9500.9490.9494㊀结㊀㊀论本研究以赣江流域为例,对比了EnKF-PCA-LSTM模型㊁LSTM模型和HYMOD模型在日尺度下的径流模拟结果,主要结论为:(1)本研究提出了考虑水文中间状态变量的机器学习模型EnKF-PCA-LSTM,通过融合集合卡尔曼滤波和主成分分析方法,不仅考虑了水文状态变量对径流过程的影响,还减少了输入数据的不确定性,提高了机器学习模型对径流模拟输入因子有效信息的引入,可为变化环境下的流域水文模拟提供技术支撑㊂(2)在EnKF-PCA-LSTM模型径流模拟过程中,经过EnKF同化之后,状态变量与驱动变量同时作为输入变量进行降维处理,其最终径流模拟结果要优于状态变量与驱动变量分开降维的结果,说明并非主成分数量越多,EnKF-PCA-LSTM模型径流模拟效果越好,过多的主成分数量会增加噪声数据的影响,削弱主成分分析的降维效果㊂(3)以验证期为例,EnKF-PCA-LSTM模型的Kling-Gupta效率系数对比LSTM模型和HYMOD模型分别提高了7.9%和14.4%;纳什效率系数和径流对数的纳什效率系数较HYMOOD模型分别提高了13.4%和17.8%,表明EnKF-PCA-LSTM模型具有很好的适用性和鲁棒性,模型可提高径流模拟精度,特别是在高水径流过程㊂㊀第6期邓超,等:融合数据同化与机器学习的流域径流模拟方法847㊀本文引入EnKF-PCA-LSTM模型的目的在于通过数据同化技术考虑水文中间状态变量的影响,从而提高流域径流模拟精度㊂本次研究采用了集总式水文模型,后续可基于分布式水文模型考虑多维状态变量及下垫面空间异质性对流域产汇流的影响来开展流域径流模拟预报研究㊂参考文献:[1]NIU W J,FENG Z K.Evaluating the performances of several artificial intelligence methods in forecasting daily streamflow time se-ries for sustainable water resources management[J].Sustainable Cities and Society,2021,64:102562.[2]宋晓猛,张建云,占车生,等.气候变化和人类活动对水文循环影响研究进展[J].水利学报,2013,44(7):779-790. (SONG X M,ZHANG J Y,ZHAN C S,et al.Review for impacts of climate change and human activities on water cycle[J]. Journal of Hydraulic Engineering,2013,44(7):779-790.(in Chinese))[3]张建云,王银堂,贺瑞敏,等.中国城市洪涝问题及成因分析[J].水科学进展,2016,27(4):485-491.(ZHANG J Y, WANG Y T,HE R M,et al.Discussion on the urban flood and waterlogging and causes analysis in China[J].Advances in Water Science,2016,27(4):485-491.(in Chinese))[4]张海荣.耦合天气预报的流域短期水文预报方法研究[D].武汉:华中科技大学,2017.(ZHANG H R.Watershed short-term hydrological forecast coupling with weather forecasting[D].Wuhan:Huazhong University of Science and Technology,2017. (in Chinese))[5]芮孝芳.水文学与 大数据 [J].水利水电科技进展,2016,36(3):1-4.(RUI X F.Hydrology and big data[J].Ad-vances in Science and Technology of Water Resources,2016,36(3):1-4.(in Chinese))[6]HAO R N,BAI Z parative study for daily streamflow simulation with different machine learning methods[J].Water, 2023,15(6):1179.[7]董宁澎,余钟波,王浩,等.耦合水库群参数化方案的区域陆面水文模拟[J].水科学进展,2021,32(5):670-682. (DONG N P,YU Z B,WANG H,et al.Regional coupled land surface-hydrologic simulation fully coupled with reservoir network scheme[J].Advances in Water Science,2021,32(5):670-682.(in Chinese))[8]张力,王红瑞,郭琲楠,等.基于时序分解与机器学习的非平稳径流序列集成模型与应用[J].水科学进展,2023,34 (1):42-52.(ZHANG L,WANG H R,GUO B N,et al.Integrated model and application of non-stationary runoff based on time series decomposition and machine learning[J].Advances in Water Science,2023,34(1):42-52.(in Chinese)) [9]李大洋,姚轶,梁忠民,等.基于变分贝叶斯深度学习的水文概率预报方法[J].水科学进展,2023,34(1):33-41. (LI D Y,YAO Y,LIANG Z M,et al.Probabilistic hydrological forecasting based on variational Bayesian deep learning[J].Ad-vances in Water Science,2023,34(1):33-41.(in Chinese))[10]KHANDELWAL A,XU S M,LI X,et al.Physics guided machine learning methods for hydrology[EB/OL].[2023-04-29].https:ʊ/abs/2012.02854.pdf.[11]BHASME P,VAGADIYA J,BHATIA U.Enhancing predictive skills in physically-consistent way:physics informed machinelearning for hydrological processes[J].Journal of Hydrology,2022,615:128618.[12]李步,田富强,李钰坤,等.融合气象要素时空特征的深度学习水文模型[J].水科学进展,2022,33(6):904-913.(LI B,TIAN F Q,LI Y K,et al.Development of a spatiotemporal deep-learning-based hydrological model[J].Advances in Water Science,2022,33(6):904-913.(in Chinese))[13]王宇晖,雷晓辉,蒋云钟,等.HYMOD模型参数敏感性分析和多目标优化[J].水电能源科学,2010,28(11):15-17,122.(WANG Y H,LEI X H,JIANG Y Z,et al.Parameter sensitivity analysis and multi-objective optimization on HYMOD model[J].Water Resources and Power,2010,28(11):15-17,122.(in Chinese))[14]DUAN Q Y,GUPTA V K,SOROOSHIAN S.Shuffled complex evolution approach for effective and efficient global minimization[J].Journal of Optimization Theory and Applications,1993,76(3):501-521.[15]BURGERS G,jan van LEEUWEN P,EVENSEN G.Analysis scheme in the ensemble Kalman filter[J].Monthly Weather Re-view,1998,126(6):1719-1724.[16]REICHLE R H,MCLAUGHLIN D B,ENTEKHABI D.Hydrologic data assimilation with the ensemble Kalman filter[J].Monthly Weather Review,2002,130(1):103-114.[17]朱春苗,吴海江,宋小燕,等.基于多因子组合的SVR模型在松花江流域径流预报中的应用[J].水电能源科学,848㊀水科学进展第34卷㊀2021,39(6):12-15,41.(ZHU C M,WU H J,SONG X Y,et al.Application of SVR model based on multi-factors combi-nation in streamflow forecasting of Songhua River basin[J].Water Resources and Power,2021,39(6):12-15,41.(in Chi-nese))[18]KRATZERT F,KLOTZ D,BRENNER C,et al.Rainfall-runoff modelling using Long Short-Term Memory(LSTM)networks[J].Hydrology and Earth System Sciences,2018,22(11):6005-6022.[19]王卫光,邹佳成,邓超.赣江流域多种数据同化方案的径流模拟比较[J].湖泊科学,2023,35(3):1047-1056.(WANG W G,ZOU J C,DENG parison of data assimilation based approach for daily streamflow simulation under multi-ple scenarios in Ganjiang River basin[J].Journal of Lake Sciences,2023,35(3):1047-1056.(in Chinese)) [20]HUANG S C,LAWRENCE D,IRENE BEOX N,et al.Direct statistical downscaling of monthly streamflow from atmosphericvariables in catchments with differing contributions from snowmelt[J].International Journal of Climatology,2021,41(S1): E2757-E2777.[21]FAN Y R,HUANG G H,LI Y P,et al.Development of PCA-based cluster quantile regression(PCA-CQR)framework for stre-amflow prediction:application to the Xiangxi River watershed,China[J].Applied Soft Computing,2017,51:280-293. [22]MOORE R J.The probability-distributed principle and runoff production at point and basin scales[J].Hydrological SciencesJournal,1985,30(2):273-297.[23]全钟贤,罗华萍,孙文超,等.概念性水文模型HYMOD在雅砻江流域的适用性研究[J].北京师范大学学报(自然科学版),2014,50(5):472-477.(QUAN Z X,LUO H P,SUN W C,et al.Application of conceptual hydrological model HYMOD in the Yalong River basin[J].Journal of Beijing Normal University(Natural Science),2014,50(5):472-477.(in Chinese))[24]SOLDATOVA E A,SAVICHEV O G,ZHOU D,et al.Ecological-geochemical conditions of surface water and groundwater andestimation of the anthropogenic effect in the basin of the Ganjiang River[J].Water Resources,2022,49(3):483-492. [25]邴建平,邓鹏鑫,吴智,等.赣江流域生态流量与地表水资源可利用量研究[J].人民长江,2023,54(2):127-131,170.(BING J P,DENG P X,WU Z,et al.Ecological flow and available surface water resources in Ganjiang River basin[J].Yangtze River,2023,54(2):127-131,170.(in Chinese))[26]ZHANG Y Q,KONG D D,GAN R,et al.Coupled estimation of500m and8-day resolution global evapotranspiration and grossprimary production in2002 2017[J].Remote Sensing of Environment,2019,222:165-182.[27]殷兆凯,廖卫红,王若佳,等.基于长短时记忆神经网络(LSTM)的降雨径流模拟及预报[J].南水北调与水利科技,2019,17(6):1-9,27.(YIN Z K,LIAO W H,WANG R J,et al.Rainfall-runoff modelling and forecasting based on long short-term memory(LSTM)[J].South-to-North Water Transfers and Water Science&Technology,2019,17(6):1-9,27.(in Chinese))[28]田远洋,徐显涛,彭安帮,等.训练数据量对LSTM网络学习性能影响分析[J].水文,2022,42(1):29-34,22.(TIAN Y Y,XU X T,PENG A B,et al.Effects of training data on the study performance of LSTM network[J].Journal of Chi-na Hydrology,2022,42(1):29-34,22.(in Chinese))[29]KRATZERT F,KLOTZ D,SHALEV G,et al.Towards learning universal,regional,and local hydrological behaviors via ma-chine learning applied to large-sample datasets[J].Hydrology and Earth System Sciences,2019,23(12):5089-5110. [30]PUSHPALATHA R,PERRIN C,LE MOINE N,et al.A review of efficiency criteria suitable for evaluating low-flow simulations[J].Journal of Hydrology,2012,420/421:171-182.[31]NASH J E,SUTCLIFFE J V.River flow forecasting through conceptual models part I:a discussion of principles[J].Journal ofHydrology,1970,10(3):282-290.[32]SANTOS L,THIREL G,PERRIN C.Technical note:pitfalls in using log-transformed flows within the KGE criterion[J].Hy-drology and Earth System Sciences,2018,22(8):4583-4591.[33]张婧,刘倩.主成分分析阈值选择差异性分析研究[J].数据采集与处理,2022,37(5):1012-1017.(ZHANG J,LIUQ.Difference analysis research of threshold selection in principal component analysis[J].Journal of Data Acquisition and Pro-cessing,2022,37(5):1012-1017.(in Chinese))[34]LEE J,NOH J.Development of a one-parameter new exponential(ONE)model for simulating rainfall-runoff and comparison withdata-driven LSTM model[J].Water,2023,15(6):1036.㊀第6期邓超,等:融合数据同化与机器学习的流域径流模拟方法849㊀[35]PENG A B,ZHANG X L,XU W,et al.Effects of training data on the learning performance of LSTM network for runoff simula-tion[J].Water Resources Management,2022,36(7):2381-2394.[36]HASHEMI R,BRIGODE P,GARAMBOIS P A,et al.How can we benefit from regime information to make more effective use oflong short-term memory(LSTM)runoff models?[J].Hydrology and Earth System Sciences,2022,26(22):5793-5816.Catchment runoff simulation by coupling data assimilation andmachine learning methods∗DENG Chao1,CHEN Chunyu1,YIN Xin2,WANG Mingming3,ZHANG Yuxin4(1.College of Hydrology and Water Resources,Hohai University,Nanjing210098,China;2.The National Key Laboratory ofWater Disaster Prevention,Nanjing Hydraulic Research Institute,Nanjing210029;China;3.Suqian Municipal WaterResources Bureau,Suqian223800,China;4.Nanjing R&D Tech Group Co.,Ltd,Nanjing210098,China) Abstract:Accurate catchment runoff simulation under the changing environment has a great significance in the flood disaster prevention and regional water resources management.The machine learning(ML)approach has been widely and successfully applied in runoff modelling during recent years,which,however,has not yet fully considered the potential impact of changes in hydrological intermediate state variables.This study proposed a coupled ML-based model for runoff simulating by integrating the ensemble Kalman filter(EnKF),the principal component analysis (PCA)and the long short-term memory(LSTM),which denoted as EnKF-PCA-LSTM.The specific steps include:①The dynamic update of hydrological intermediate state variables via the EnKF method;②The integration of updated state variables into the input set for predictor selection by the PCA method;③Runoff simulation through the combination of chosen predictors with the LSTM model.Taking the Ganjiang River basin as a case study,we provided a comprehensive assessment on the runoff simulation performance of the EnKF-PCA-LSTM,and performed comparisons against that of the original LSTM model and the physical hydrological model HYMOD.Results show that the EnKF-PCA-LSTM outperforms both the LSTM and HYMOD models,as reflected by the higher Nash-Sutcliffe efficiency coefficients,the Kling-Gupta efficiency coefficient and the Nash-Sutcliffe efficiency for the log-transformed runoff(0.954,0.971and0.972,respectively).This finding suggests that considering the hydrological intermediate state could effectively improve the accuracy and stability of ML models in terms of runoff simulation, which undoubtedly provides valuable insight into the catchment runoff modeling.Key words:runoff simulation approach;hydrological intermediate state variable;ensemble Kalman Filter;principal component analysis;long short-term memory∗The study is financially supported by the National Key R&D Program of China(No.2022YFC3202802)and the Fundamental Research Funds for the Central Universities,China(No.B210201030).。
马尔可夫链蒙特卡洛采样中的常见问题和解决方法(Ⅰ)
![马尔可夫链蒙特卡洛采样中的常见问题和解决方法(Ⅰ)](https://img.taocdn.com/s3/m/d0a2519c51e2524de518964bcf84b9d529ea2c52.png)
马尔可夫链蒙特卡洛(MCMC)采样是一种广泛应用于概率统计和机器学习领域的方法。
它通过一系列的随机抽样来模拟和估计复杂的概率分布。
然而,在实际应用中,MCMC采样也面临着一些常见的问题,本文将探讨这些问题以及相应的解决方法。
1. 收敛速度慢MCMC采样的一个常见问题是收敛速度慢。
当概率分布的维度较高或者分布本身非常复杂时,MCMC算法通常需要大量的迭代才能收敛到稳定的分布。
这导致了采样效率低下,尤其在大规模数据集上表现更为明显。
解决方法:一种解决收敛速度慢的方法是使用更高效的MCMC算法。
例如,一些改进的MCMC算法,如HMC(哈密尔顿蒙特卡洛)和NUTS(无约束的哈密尔顿蒙特卡洛),能够通过利用梯度信息来加速收敛过程。
此外,一些并行化的MCMC算法也可以通过并行计算来提高采样效率。
2. 自相关性高另一个常见的问题是MCMC采样中自相关性较高。
由于MCMC算法的特性,相邻的采样点通常具有较高的相关性,这使得采样结果的有效样本数量大大减少,从而影响了对概率分布的估计精度。
解决方法:为了降低自相关性,可以通过一些方法对MCMC采样结果进行后处理。
例如,子采样(Thinning)方法可以只保留部分采样点,从而减少自相关性。
另外,一些自相关性较低的MCMC算法,如HMC和NUTS,也可以通过减小自相关性来提高采样效率。
3. 初始值敏感MCMC算法对初始值敏感是另一个常见的问题。
由于MCMC算法通常需要在概率分布的支撑集上进行采样,选择不合适的初始值往往会导致采样结果偏离目标分布,从而影响了估计的准确性。
解决方法:为了解决初始值敏感的问题,可以使用一些自适应的MCMC算法。
这些算法能够根据采样过程中的信息自动调整步长或者提议分布,从而减少对初始值的依赖。
此外,一些启发式的初始值选择方法,如使用先验分布或者历史采样结果,也可以帮助减少初始值对采样结果的影响。
总结:MCMC采样在实际应用中常常面临收敛速度慢、自相关性高和初始值敏感等问题。
如何使用马尔可夫链蒙特卡洛进行贝叶斯模型融合(九)
![如何使用马尔可夫链蒙特卡洛进行贝叶斯模型融合(九)](https://img.taocdn.com/s3/m/7ee7e74a77c66137ee06eff9aef8941ea76e4b08.png)
马尔可夫链蒙特卡洛(MCMC)是一种用于贝叶斯统计推断的强大工具。
通过MCMC方法,可以对多个模型进行融合,得出更准确的推断结果。
本文将介绍如何使用马尔可夫链蒙特卡洛进行贝叶斯模型融合。
马尔可夫链蒙特卡洛是基于马尔可夫链的一种蒙特卡洛方法。
马尔可夫链是一种具有马尔可夫性质的随机过程,即给定当前状态,未来状态的概率分布只与当前状态有关,而与过去状态无关。
蒙特卡洛方法则是一种通过随机抽样来近似求解问题的数值方法。
将这两种方法结合起来,就得到了马尔可夫链蒙特卡洛方法,用于对概率分布进行近似求解。
在贝叶斯统计推断中,我们常常需要对多个模型进行融合,得出对参数或未知量的推断结果。
而MCMC方法正是能够胜任这一任务的利器。
通过MCMC方法,我们可以对多个模型进行联合推断,得出更为准确的结果。
在使用MCMC方法进行贝叶斯模型融合时,首先需要确定要融合的多个模型。
这些模型可以是不同的概率分布模型,也可以是不同的参数模型。
接下来,需要构建联合分布模型,将这些模型进行融合。
这一步通常需要一定的数学推导和模型设计能力。
在确定了联合分布模型之后,就可以使用MCMC方法进行参数估计和推断。
MCMC方法会通过对联合分布模型进行随机抽样,从而近似求解得出参数的后验分布,进而得出推断结果。
MCMC方法有多种实现方式,其中最为经典的是Metropolis-Hastings算法和Gibbs采样算法。
Metropolis-Hastings算法是一种接受-拒绝算法,通过不断生成候选样本,并按照一定规则接受或拒绝这些样本,从而得到符合目标分布的样本。
而Gibbs采样算法是一种特殊的Metropolis-Hastings算法,它能够对联合分布模型的每个参数进行逐一抽样,从而更为高效地完成参数估计和推断。
在进行MCMC方法时,需要注意对初始值的选取和采样步长的调整。
初始值的选取会直接影响到MCMC方法的收敛速度和结果准确度,而采样步长的调整则可以有效地提高采样效率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2009年4月水 利 学 报SHUILI XUEBAO 第40卷 第4期收稿日期:2008-04-23基金项目:国家自然科学基金重点项目(40730632);教育部新世纪优秀人才支持计划(NCET-05-0624);霍英东青年教师基金资助项目(101077)作者简介:卫晓婧(1984-),女,山西阳泉人,硕士生,主要从事水文水资源方面的研究。
E -mail:hellomuki@to 文章编号:0559-9350(2009)04-0464-10融合马尔科夫链-蒙特卡洛算法的改进通用似然不确定性估计方法在流域水文模型中的应用卫晓婧,熊立华,万 民,刘 攀(武汉大学水资源与水电工程科学国家重点实验室,湖北武汉 430072)摘要:本文在Blasone 研究工作的基础上,进一步提出了基于马尔科夫链-蒙特卡洛算法的改进通用似然不确定性估计方法(Markov Chain -Monte Carlo based Modified Generalized Likelihood Uncertainty Esti mation,MMGLUE)。
该方法结合近年来被广泛用于推求参数后验分布的MC MC 方法,对基于Mon te Carlo 随机取样方法的传统GLUE 方法进行改进,并以预测区间性质最优为标准,对可行参数组阈值进行判断与选择,提出了衡量预测区间对称性的标准,并就预测区间性质与可行参数组个数的相关关系进行了探索。
在汉江玉带河流域的实例研究证明,MMGLUE 方法较传统的GLUE 方法能够推求出性质更为优良的预测区间,从而更真实合理地反映水文模型的不确定性。
关键词:MC MC;GLUE;MMGLUE;预测区间;覆盖率;区间宽度;区间对称性中图分类号:P333文献标识码:A1 研究背景近10年来,流域水文模型的不确定性研究逐渐成为当今水文界广泛研究的热点之一,各国的水文学家就此做了大量的工作[1]。
Beven [2-3]于1992年率先提出了流域水文模型/异参同效性0的观点,并针对流域水文模型的不确定性研究问题提出了通用似然不确定性估计(Generalized Likelihood Uncertainty Estimation,GLUE)方法。
该方法结合Monte Carlo 随机取样技术与Bayesian 框架,对由模型结构、参数冗余及相关性、输入输出误差等因素造成的不确定性进行综合分析。
GLUE 方法原理简单,易于操作,但由于其自身理论结构的缺陷,越来越多的研究者就GLUE 方法提出了质疑[4-5],即并非经典的Bayesian 方法、主观判断参数可行域阈值和推求的参数后验概率分布不具有显著的统计特征。
因此,基于不同假设的其他不确定性研究方法,如:基于经典Bayesian 理论的Ba RE(Bayesian Recursive Estimation)方法[6],基于全局卡尔曼滤波理论的EnKF(Ense mble Kalman Filter )方法[7],多目标方法如MOSCE M (Mult-i objective Shuffled Complex Evolution Metropolis)方法[8]等被用于估计模型的不确定性工作中。
然而,上述方法尽管理论结构相对复杂,应用效果与GLUE 方法相比却并没有明显的提高。
同时期另一种基于经典Bayesian 理论的马尔科夫链-蒙特卡洛(Markov Chain Monte Carlo,MC MC)方法也被广泛应用于推求参数后验分布的研究中。
特别是SCE M -UA (The Shuffled Complex E volutionMetropolis Algorithm)方法[9]能够有效地探索参数空间,使Markov Chain 能够朝着高概率密度区进化,从而推导出具有显著统计特征的水文模型参数的后验分布。
因此,Blasone [10]提出将两种方法结合起来,采用SCE M -UA 采样方法替代传统的GLUE 方法中的)464)Monte Carlo随机取样方法,并根据估计的预测区间的覆盖率来控制可行参数组个数的选择,对传统的GL UE方法进行改进。
本文在Blasone所做工作基础之上,进一步提出以预测区间性质最优为指标来控制可行参数组个数的选取。
2方法211贝叶斯统计推断贝叶斯学派是数理统计中的一个重要学派,其重要观点是[11]:任一未知参数H 都可以看作随机变量,因为任一未知量都有不确定性,因此可以用概率分布来描述。
人们根据先验信息对未知参数H的先验分布P(H),通过实验获得样本x1,x2,,,x n,对H的先验分布进行调整,调整的结果是H的后验分布h(H|x1,x2,,,x n)。
在这个过程中,人们的认识由P(H)调整到h(H|x1,x2,,, x n)。
贝叶斯方法中样本x1,x2,,,x n对H的条件密度p(x,x2,,,x n|H)就是经典方法中H已知时样本的联合密度。
一旦样本已知,就只有H在变化,把联合密度看成参数H的似然函数,用l(H|x1,x2,,, x n)来表示。
参数的后验分布表示为[12]h(H|x1,x2,,,x n)=P(H)l(H|x1,x2,,,x n)Q P(H)l(H|x1,x2,,,x n)d H(1)因为参数的后验分布综合了总体信息、样本信息和先验信息,因此对H的统计推断就应建立在后验分布的基础上。
贝叶斯假设:参数的无信息先验分布P(x)所在的取值范围内是/均匀0分布的。
根据最大熵原则,无信息如果意味着不确定性最大,那么,无信息的先验分布应是最大熵的相应分布,因为只有在分布是均匀时,熵才达到最大值,故本文中两种方法所采用的先验分布都是均匀分布。
经典统计学中处理点估计与区间估计方法不同,但在贝叶斯学派却是统一的。
对于贝叶斯统计中的区间估计,只要存在后验分布,就可以用相应分布的分位点给出参数H的置信区间,就模型参数不确定性分析而言,也就是预测区间。
问题就在于评判估计效果的标准。
本文中采用预测区间覆盖率、区间宽度、区间对称性作为最优后验分布判定的标准。
当后验分布已知时,对于给定的置信概率1-A可以求出很多置信区间。
由于参数H的最大后验区域估计集中了分布密度似然函数值取值尽可能最大的点,因此H的最大后验区间一定是在统一置信概率下区间宽度最狭窄的区间。
进而,推求参数的最大后验估计,成为不确定性分析方法研究的最终目的和手段。
212GL UE方法GLUE方法是目前最常用于不确定性估计的经验频率方法,它的原理与步骤如下:首先假设参数服从某一先验分布,通过Monte Carlo取样方法生成一定数目的可行参数组,然后利用流域降雨、蒸发、径流资料,计算各组参数值的对应的似然值。
那些与实际过程越接近的模型参数被认为具有越高的可信度与似然度。
最后主观选定一阈值,对似然度低于该阈值的参数组,令其相应的似然度为0;对高于该阈值的参数组,按照似然函数值由高到低排序,并标准化,再按照其似然值赋予相应的权重。
通过更新样本信息,从而取得参数的后验分布。
213MC MC方法MC MC是为了获得参数后验分布一系列后验量而发展起来的一种行之有效的计算方法,主要适用于多变量,非标准形式,且各变量间相互不独立时的分布模拟。
显然,MC MC方法非常适用于推求流域水文模型各参数的后验量。
Markov链具有如下特性:(1)无后效性:由随机变量序列组成的Markov链{X(0),X(1),X(2),,},在任一时刻t(t\0),序列中下一时刻处的X(t+1)由条件分布产生,它只依赖于时刻t处的当前状态而与时刻t之前的历史状态{X(0),X(1),,X(t-1)}无关;(2)各态遍历性:从不同的X(0)出发,链经过一段时间的迭代后,历经各种状态的Markov链最终收敛于平稳分布[13]。
MC MC方法的基本原理就是基于建立的平稳分布为P(x)的Markov链来获得P(x)的样本。
产生若干条独立并行的Markov链来探索模型参数空间,通过不断更新样本信息而使Markov链收敛于高概率)465)密度区,也就是Bayesian 方法中的最大后验估计。
MC MC 方法中的SCE M -UA 取样方法能够更有效的探索未知参数空间,因此本文采用该种方法推求实验模型参数的后验分布及其预测区间。
214 MC MC -based Modified GLUE (MMGLUE )方法 MMGLUE 方法,采用SCE M -UA 取样方法代替传统的GL UE 方法中的Monte Carlo 随机取样,并采用预测区间性质作为可行参数组数目x 的选取标准。
从而推求出有统计学意义的、性质优良的预测区间。
方法流程如图1所示,具体步骤如下:图1 MMGLUE 方法结构流程(1)选择实验模型以及相应的流域资料。
(2)确定似然函数,本文采用模型效率系数R 2作为似然函数:R 2=1-E M i =1(Q i -Q ^i )2P E M i =1(Q i - Q )2(2)式中:Q i 为实测径流量;Q ^i 为预测径流量; Q 为实测径流序列的均值;M 表示实测系列长度。
(3)根据先验分布随机产生s 个决策变量H t (t =1,2,,,s )。
(4)将s 个样本点划分为q 个区,每个区采用SCEM -UA[14-18]方法独立并行演化L 次以获得L #q 个样本点。
(5)将这些样本点掺混。
(6)将掺混后的样本点按照似然值由高到低排序。
(7)以预测区间对观测值覆盖率最合理、预测区面宽度最窄、区间对称性最优为标准,选取一合理初值x 带入模型进行预测区间性质检验,调整x 的值,使之达到既定标准。
覆盖率CR [19]及区间宽度IW 计算公式为CR =E M t =1J [Q obs,t ]P M ;IW =E M t =1(Q u p,t -Q low,t )P M (3)其中:J [Q obs,t ]=1,Q low,t <Q obs,t <Q up ,t0,其它式中:Q ob s,t 为时段t 实测径流量;Q low,t 为时段t 预测区间下界;Q up,t 为时段t 预测区间上界。
为了更好的反映预测区间的偏移程度,本文提出预测区间对称性IS 计算公式如下:)466)IS =E M t =1I [Q up,t ]P E M t =1I [Q low,t ](4)其中:I [Q low,t ]=1,Q ob s,t <Q low,t 0,其它; I [Q up,t ]=1,Q obs,t >Q up ,t 0,其它. 由式(4)可以看出,当IS =1时,区间对称,当0[IS <1时,区间较实际观测值偏高,IS >1时,区间偏低。