基于GAMLSS模型的水文系列非平稳性研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于GAMLSS模型的水文系列非平稳性研究
高洁
【摘要】针对水文气象时间序列的非平稳性现象,为了定量分析非平稳序列的时变特征,基于GAMLSS模型原理,根据水文时间序列参数模型和半参数模型模拟方案,采用美国Little Sugar Creek研究案例的83年洪峰流量时间系列,分析了GAMLSS模型研究水文系列非平稳性的方法和流程.基于GAMLSS模拟,该流域内2006年10年一遇洪峰流量,相当于1999年20年重现期洪峰,接近于1989年100年一遇洪峰量级.GAMLSS模拟结果揭示了近年来由于气候变化、城市化进程等影响,极端事件出现频率.研究成果表明GAMLSS模型可定量有效的分析变化环境对水文频率设计值和工程设计的影响.
【期刊名称】《水力发电》
【年(卷),期】2019(045)007
【总页数】6页(P1-6)
【关键词】水文系列;非平稳;研究;GAMLSS
【作者】高洁
【作者单位】水电水利规划设计总院,北京100120
【正文语种】中文
【中图分类】P333
1 研究背景
水文系列的平稳性是工程设计中频率计算、抽样统计的基础。
在工程实践中尤其重视水文系列的三性检验,要求满足可靠性、一致性和代表性。
当气候变化、人类活动等多种因素影响系列的一致性时,通常进行还原计算,以保证采用平稳序列进行频率适线。
但是,随着人类活动加剧,众多江河水文情势发生显著变化,水文极端事件频发[1];区域性的非平稳序列广泛存在,非一致性问题并非个案,流域水文
律情的“一致性”背景已不复存在。
现有的基于平稳序列的工程水文分析计算方法将面临变化环境带来的设计频率失真风险[2]。
在普遍非平稳的环境中,需要采用
针对非平稳序列的统计模型和计算流程[2]。
针对非平稳序列统计参数的时变特征,Strupczewski等[3- 5]通过对时变一阶矩、二阶矩采用极大似然法、加权最小二乘法进行参数估计;并基于AIC准则优选模
型的原理和方法,以波兰河流洪峰流量系列为例,在Mann-Kendall趋势检验的
基础上,分析序列平稳性及统计参数变化趋势。
叶长青等[6]采用时变矩模型,通
过5种分布、8种趋势选择最优拟合模式,分析武江坪石水文站1964年~2008
年和东江龙川水文站1953年~2008年历年最大日流量系列。
研究表明,两者均
符合对数正态分布,分别满足均值均方差线性变化、均值均方差抛物线型变化模式。
基于平稳序列坪石站、龙川站100年一遇洪峰流量分别为4 170、6 020 m3/s;
采用时变矩模型后,坪石站4 170 m3/s的洪水重现期从1970年前大于200年一遇变为2000年以后小于60年一遇。
受水库调蓄影响,龙川站6 020 m3/s洪水
重现期从1962年前小于100年一遇变为2000年以后大于400年一遇,研究认
为传统平稳序列的洪水重现期概念应修正。
刘丙军等[7]通过时变矩模型分析西江
和北江水系的马口水文站和三水水文站1960年~2009年历年最大日流量系列,
发现马口站符合GLO分布,均值抛物线型变化,均方差与变差系数Cv相关;三
水站符合GEV分布,均值抛物线型变化,均方差平稳不变。
马口站100年一遇洪水洪峰洪量,1960年为56 000 m3/s,1975年为52 000 m3/s,2009年增至
67 000 m3/s;三水站100年一遇洪水洪峰洪量1960年为15 000 m3/s,1990年为16 000 m3/s,2009年增至20 000 m3/s。
同一频率设计洪水在20世纪70年代较小,21世纪后明显增大,差异化明显。
考虑到城市化进程对小流域洪水的影响,Villarini等[8]以美国北卡罗来纳州集水面积110 km2的Littele Sugar Creek为对象,通过GAMLSS(Generalized Additive Models for Location, Scale and Shape)研究发现,在83年时间序列中,传统方法计算平稳序列100年一遇洪水洪峰流量设计值为3.2 m3/s。
非平稳序列分析发现,设计流量3.2 m3/s的重现期从1957年的5 000年一遇减小为2007年的8年一遇,与传统频率计算成果差异较大。
本文详细介绍基于开源的专业语言R及软件平台RStudio开发的GAMLSS[9]在非平稳序列中的应用,以美国Little Sugar Creek的经典案例为例,阐明GAMLSS在非平稳时间序列分析中的流程方法。
2 研究基础
2.1 广义可加模型GAM
广义可加模型(Generalized Additive Model,GAM)是在广义线性模型(Generalized Linear Model,GLM)和可加模型(Additive Model)的基础上,由Hastie和Tibshirani于1990年提出。
模型的解释变量不限于正态分布,响应变量形式灵活,采用非参数的方法进行拟合,将存在复杂非线性关系的解释变量通过不同的函数形式,以加和的方式构成模型,可反映变量间非单调、非线性关系[10- 12],包括了可加项(additive component)、随机项(random component)和联系两者的连接函数(link function)。
即
广义线性模型
g(θ)=η=α+β1X1+…+βJkXJk
(1)
可加模型
E(Y/X1,…,XJk)=α +h(x1)+…+h(xJk)
(2)
广义可加模型
(3)
式中,η为预测值或观测值;X为解释变量;Jk为解释变量的个数;α为常数项;β为解释变量的线性参数;g(·)为连接函数;θ= E(Y/X1,…,XJk)为Y的数学期望值;hj(·)为平滑函数,包括光滑样条函数、核函数、局部回归平滑函数等各种不同形式。
其灵活非参数形式,可反映解释变量的非线性效应[13]。
2.2 基于位置、尺度和形状参数的广义可加模型GAMLSS
GAMLSS模型是由Rigby和Stasinopoulos于2005年提出的(半)参数回归模型。
GAMLSS模型在拟合位置、尺度和形状参数的基础上,通过可加的半参数项或非
参数项、随机效应项,建立响应变量统计参数(位置、尺度、形状等)与解释变量的关系[14]。
GAMLSS模型在医学、经济学[15- 16]等领域已得到广泛应用,对于超峰度、平顶峰度、高度正偏或负偏等高偏度和高峰度的随机变量系列具有较好的拟合效果[17]。
江聪和熊立华 [17]将GAMLSS模型应用于宜昌站1882年~2009
年历年平均和年最小月流量系列趋势分析。
研究结果表明,该站的年最小月流量系列非平稳,均值呈非线性变化,偏度系数呈线性变化。
2.2.1 模型I——不考虑随机项
GAMLSS模型假设独立随机变量第i时刻观测值的概率密度函数为f(yi|θi)。
其中,θi可通过位置参数(以均值、中位数等表征)、尺度参数(方差均方差等表征)和形状
参数(偏度系数,峰度系数)反映。
即
(4)
式中,ηk为第k时刻观测值,共n个时刻的观测值组成n维向量。
gk(·)为单调可微的连接函数,表示统计参数θk与解释变量Xk之间的关系,其中是Jk维回归参数向量;Xk是已知的n×Ik解释变量矩阵,针对时间序列,可表示为时间t相关矩阵,也可表达为与大气环流因子的相关关系。
Zjk、γjk为第j项随机项(其中,Zjk为n×qjk设计矩阵,γjk为qjk维随机变量)。
如果不考虑随机效应的影响,则gk(θk)=ηk=Xkβk。
针对位置参数θ1和尺度参数θ2的两参数模型,以时间t为解释变量不考虑随机效应的全参数模型
g1(θ1)=η1=X1β1=β11+β21t+…+βI1tI1-1
(5)
g2(θ2)=η2=X2β2=β12+β22t+…+βI2tI2-1
(6)
式中,可设定解释变量矩阵Xk为时间线性相关或抛物线型相关矩阵,并通过RS 法[3- 4]对β进行参数估计。
2.2.2 模型II——半参数化可加项
GAMLSS还引入一些子模型,如半参数可加模型、非线性半参数模型、非线性参数模型等[9]。
相同的分布函数有多种参数化方案,需要针对具体问题建模优选。
设Zjk=In,In是m×m的单位矩阵,γjk=hjk=hjk(xjk),则GAMLSS半参数可加模型
(7)
式中,Xkβk是解释变量的线性函数矩阵,hjk是解释变量xjk的未知函数,
xjk(j=1,2,…,Jk)均是n维向量,hjk(xjk)体现了对解释变量模拟效果更为灵活
的平滑函数。
时间序列模拟如不考虑其他变量的线性可加项,仅保留时间变量的平滑函数,针对位置参数θ1和尺度参数θ2的半参数化模型可表示为
(8)
(9)
上述模型均可通过AIC(Akaike Information Criterion)或SBC(Schwartz Bayes Criterion)准则对拟合效果进行优选,选出AIC值或SBC值最小者为最优模型,最终求得非平稳序列的统计参数分布函数及模型形式
(10)
AIC=-2lnML+2k
(11)
SBC=-2lnML+ln(n)
(12)
式中,n为序列长度(观测数目);ML为似然函数极大值;k为模型参数个数。
3 研究方法
3.1 研究步骤
通过GAMLSS模型对水文系列进行分析,可分为模型拟合、残差判别和成果分析三个步骤。
(1)在模型拟合中,一是根据模型I的特点,以水文系列时间变量或大气环流因子作为解释变量,针对水文系列的位置参数、尺度参数等选择不同的概率分布和时间变化趋势进行组合,通过AIC准则选择最优模型。
二是根据模型II的特点,在平滑函数中考虑时间变量或大气环流因子,选择不同的概率分布,通过AIC准则优
选位置参数、尺度参数等有效自由度,并确定模型。
(2)模型残差判别,一是通过plot函数进行总体检验,二是通过worm plot检验
正态标准化残差序列是否符合标准正态分布。
所有散点位于两条椭圆线之间的95%置信区间,模型选择合理,模拟结果可接受。
(3)在成果分析中,通过统计参数随时间的变化趋势,获取不同时期各种频率的流
量值,以揭示同一流量不同时期测算的重现期之间的差异,反映水文频率特征值是否随时间变化及变化情况,为研究水文时间序列的非平稳性提供基础。
3.2 研究思路
(1)概率分布。
根据河川年最大流量年际分布特点,本研究初选两参数的Gamma、Lognormal(对数正态)、Gumbel、Weibull和Normal(正态)分布函数作为模型
优选的基础。
位置参数和尺度参数分别采用均值和均方差表征。
(2)模型优选:①模型I,根据水文时间序列特点,综合考虑模型拟合效果和预测外延性,选择统计参数随时间的变化函数。
本研究将均值和均方差随时间变化模式,简化为三种情形:无趋势(S)、线性变化(L)和抛物线变化(P)。
根据AIC准则,对均值和均方差选择最优概率分布函数和时间变化模式。
②模型II,根据水文时间序列特点,本研究选择三次样条插值函数作为平滑函数。
通过AIC准则,分别选出均值、均方差拟合效果最优的有效自由度。
综合考虑模型应用的预测外延性,在拟合效果基本不降低、模型残差满足要求的条件下,可对自由度进行微调和降维。
(3)残差判别。
通过残差散点图、QQ图、worm plot图等验证模型拟合效果。
(4)成果分析。
首先判断水文时间序列是否平稳,再基于统计参数随时间的变化特
征分析频率设计值。
表1 概率分布分布概率密度函数均值、均方差与位置参数(一阶矩)、形状参数(二
阶距)的关系Gammaf(x)=1(σ2μ)1/σ2x1σ2-1exp[-
y/(σ2μ)]Γ(1/σ2)E(X)=μVar(X)=σ2μ2Lognormalf(x)=1xσ2πexp-(logx-μ)22σ2)
E(X)=expμ+σ22 Var(X)=E2(X)·[exp(σ2)-1]Gumbelf(x)=1σexp-x-μσ-exp-x-μσ E(X)=μ+γσ≅μ+0.577 2σVar(X)=π2σ2/6≅1.644 9σ2Weibullf(x)=σxσ-
1μσexp-xμ σ E(X)=μΓ1σ+1 Var(X)=μ2Γ2σ+1 -Γ1σ+1 2
Normalf(x)=1σ2πexp-(x-μ)22σ2) E(X)=μVar(X)=σ2
4 研究应用
本研究主要借鉴Villarini等[8]采用的美国Little Sugar Creek 1924年~2006年共83 a年最大洪峰流量数据,介绍GAMLSS模型进行非平稳序列分析的方法和流程。
4.1 软件基础
采用开源的专业软件平台RStudio,下载并加载gamlss,gamlss.data及gamlss.dist软件包和数据包,导入水文系列数据集。
4.2 概率分布
在gamlss.family中,Gamma、Lognormal、Gumbel、Weibull、Normal概率分布,分别对应于的GA()、LOGNO()、GU()、WEI()和NO()函数。
4.3 模型拟合
4.3.1 模型I
(1)对位置参数(mu)和尺度参数(sigma),采用不同的概率分布函数,分别按照平稳过程(S)、随时间线性变化(L)、随时间抛物线型变化(P)进行模型拟合。
(2)选择AIC值最小者为最佳模型,具体AIC值见表2。
由表2可知,采用Gamma分布和对数正态分布模拟效果均较好。
Gamma分布中,位置参数抛物线型、尺度参数平稳模型最优,位置参数抛物线型、尺度参数抛物线型模型其次。
经多模型比较,尺度参数与时间不相关、线性相关、抛物线型相关的模拟效果差异不大,随时间的变化规律不明显。
表2 不同概率分布模式和变化趋势模型AIC值趋势模型概率分布Gamma分布对
数正态分布Gumbel分布Weibull分布正态分布mu-S-sigma-
S141.110140.040202.412150.325160.157 3mu-L-sigma-
S119.888119.656171.544127.385138.814 6mu-P-sigma-
S110.162112.470150.343114.278128.806 1mu-S-sigma-
L142.542141.682175.616145.972147.161 6mu-L-sigma-
L120.669119.754167.253128.909136.161 7mu-P-sigma-
L112.014114.097147.061116.167122.360 9mu-S-sigma-
P142.276140.977167.664144.499141.050 7mu-L-sigma-
P119.662117.442157.931126.211128.708 4mu-P-sigma-
P111.785113.283142.486117.142115.860 2
注:下划线标识不同分布函数的最优拟合值,斜体标识最优分布函数的最优拟合值。
4.3.2 模型II
对位置参数和尺度参数,采用不同的概率分布函数,选取三次样条平滑函数,通过迭代算法,推求均值和均方差最优自由度,选择AIC值最小者为最佳模型。
模型II仍以Gamma分布的拟合效果最优(见表3),位置参数和尺度参数的自由度分别为2.0和0.9。
根据Villarini等[8]研究采用的正态分布模拟结果,其流量系列均值和均方差的自由度分别为1.71和5.02,与本文相应正态分布的结果(1.7,5.1)基本一致。
Villarini等为简化模型复杂度,在不显著降低模拟效果的情况下,最终将尺度参数的自由度调整为1.7。
根据AIC值初步判断,本文所选用的Gamma
分布更优于Villarini采用的正态分布拟合方式。
表3 不同概率分布和自由度模型AIC值分布函数自由度位置参数自由度尺度参数AIC值Gamma2.00.9108.812对数正态
2.01.1110.121Gumbel1.96.6132.360Weibull2.80.511
3.819正态分布
1.75.1113.350
注:下划线和斜体标识分别为最优分布函数和自由度的最优拟合值。
4.4 残差判别
通过plot函数统计残差的均值、方差、偏度系数、峰度系数、Filliben相关系数,并根据核密度估计图、QQ图等检验正态标准化残差是否服从标准正态分布。
当模型残差服从标准正态分布时,均值、方差、偏度系数和峰度系数分别接近0、1、
0和3。
经检验,模型残差满足标准正态分布要求。
4.5 模型成果
(1)根据模拟效果较优的模型I(mu-P-Sigma-S)和模型II(Gamma(2.0,0.9)),该
流域年最大流量分布均值(位置参数)随时间先减小后增大,在1950年左右出现转折。
1950年之前,流量呈现缓慢减小趋势,1950年后流量分布均值增幅逐渐增大,尤其在1965年以后增幅显著增大(见图2)。
结合文献[8]的背景介绍,在83
年观测期间,该区域城市化进程主要分为两个时期。
以1965年为界,后半期的城市化进程明显加剧。
关于流量分布均方差(尺度参数)的时变特征,与时间无关、线性相关、抛物线型相关均适用,自由度变化范围较大,对模拟效果影响不显著,不是模型的敏感参数。
图1 模型I均值和均方差的时变特征
图2 模型II位置参数和尺度参数的时变特征
(2)结合水文系列实测点,分析模型模拟效果。
实测水文系列的点据分散,存在一
定带宽(见图3),通过单一频率的拟合线仅能从趋势上逼近,很难反映散点的分布
特征。
对不同时期、不同量级的实测流量赋予时间和频率双重属性,图4和图5
可反映了流量随时间的变化趋势和分布的频率特征,更全面和直观的解释实测流量数据的意义。
图3 模型拟合效果
图4 模型I流量分位数
图5 模型II流量分位数
(3)根据模型成果,分析水文系列在不同时期的频率特征值。
通过centiles.pred函数可导出不同时间各种频率相应流量。
根据文献[8]成果,经自由度优选模型,该流域100年一遇洪水洪峰流量,在计算之初的1924年为2.8 m3/s,20世纪50年代后期最小值为2.1 m3/s,截至2007年达到5.1 m3/s。
在本研究中,根据模型I和II模拟结果,100年一遇洪水洪峰流量设计值在1924年分别为2.5 m3/s 和2.7 m3/s,截至2006年分别达5.1 m3/s和4.6 m3/s。
其中,模型I在1947年~1950年降至最小值2.1 m3/s,模型II在1951年~1956年最小值为1.9
m3/s。
多种方法计算成果基本一致,均有效揭示了该区域水文时间序列的非平稳特征。
由于水文系列的非平稳特征,在不同时期,不同频率设计值波动较大;因此,频率值的时间属性尤为重要。
在模型I中,1940年~1958年期间,1000年一遇洪水洪峰流量约2.6 m3/s,该流量级相当于1976年的100年一遇、1987年的20年一遇、1992年的10年一遇;在模型II中,2006年10年一遇洪峰流量约3.3 m3/s,相当于1999年的20年一遇,1989年的100年一遇,1926年和1980年的1000年一遇。
随着时间变化,由于下垫面条件不同,某个时期10年一遇洪水量级甚至可能超过其他时期1000年一遇洪水。
GAMLSS模型揭示的相同流量重现期差异正反映了水文时间序列的非平稳现象。
5 结语
本研究通过GAMLSS模型及RStudio开发平台研究水文时间序列的非平稳特征。
基于GAM模型及GAMLSS模型原理,根据对水文时间序列模型参数化方案不同的处理方式,在前人研究的基础上,按照模型I和模型II两种方案,对水文系列进行模拟。
借鉴美国Little Sugar Creek 1924年至2006年共83年历年最大洪峰
流量数据的研究案例,介绍了GAMLSS模型研究水文系列非平稳性的方法,通过概率分布时变模式选择、模型优选、残差判别、成果分析的系列流程,多模型多途径对比分析模型的有效性。
研究发现,GAMLSS模型研究方法和流程可有效揭示水文系列的非平稳性特征。
在气候变化和人类活动加剧的区域,水文系列的非平稳性已显著影响统计参数和频率设计值。
以研究案例区域为例,受城市化影响,某个时期10年一遇洪水量级甚至可能超过其他时段1000年一遇洪水,由此造成了工程设计和环境评估的极大不确定性,应在推求频率设计值时,综合考虑设计值的频率要素和时间趋势。
参考文献:
【相关文献】
[1] SCHIERMEIER Q. Increased flood risk linked to global warming[J]. Nature, 2011,
470(7334): 316.
[2] MILLY P C D, BETANCOURT J, FALKENMARK M, et al. Stationarity is dead: whither water management?[J]. Science, 2008, 319(5863): 573- 574.
[3] STRUPCZEWSKI W G, SINGH V P, FELUCH W. Non-stationary approach to at-site flood frequency modelling I. Maximum likelihood estimation[J]. Journal of Hydrology, 2001, 248(1- 4): 123- 142.
[4] STRUPCZEWSKI W G, KACZMAREK Z. Non-stationary approach to at-site flood frequency modelling II. Weighted least squares estimation[J]. Journal of Hydrology, 2001, 248(1- 4): 143- 151.
[5] STRUPCZEWSKI W G, SINGH V P, MITOSEK H T. Non-staionary approach to at-site flood frequency modeling III. Flood analysis of Polish river[J]. Journal of Hydrology, 2001, 248(1- 4): 152- 167.
[6] 叶长青, 陈晓宏, 张家鸣, 等. 不同变化环境背景下非平稳性洪水频率对比研究[J]. 水力发电学报, 2014, 33(3): 1- 9.
[7] 刘丙军, 邱凯华, 廖叶颖. 基于TVM的西北江三角洲地区非一致性洪水频率分析[J]. 中山大学学报: 自然科学版, 2016, 55(4): 130- 135.
[8] VILLARINI G, SMITH J A, SERINALDI F, et al. Flood frequency analysis for nonstationary
annual peak records in an urban drainage basin[J]. Advances in Water Resources, 2009, 32(8): 1255- 1266.
[9] STASINOPOULOS D M, RIGBY R A. Generalized Additive Models for Location Scale and Shape (GAMLSS) in R[J]. Journal of Statistical Software, 2007, 23(7): 1- 46.
[10] 饶克勤. 卫生统计方法与应用进展[M]. 北京: 人民卫生出版社, 2008: 107- 116.
[11] SCHIMEK M G, TURLACH B A. Additive and generalized additive
models[M]//SCHIMEK M G. Smoothing and regression: approaches, computation, and application. New York: John Wiley, 2000: 277- 327.
[12] 柯慧, 马骏, 张帆, 等. 广义加性模型在医疗费用控制中的应用[J]. 中国卫生统计, 2012, 29(6): 833- 836.
[13] 李丽霞, 郜艳晖, 周舒冬, 等. 广义加性模型及其应用[J]. 中国卫生统计, 2007, 24(3): 243- 244.
[14] 刘昊, 陈浪南. 基于GAMLSS模型的高频流动性指标分布特征[J]. 山西财经大学学报, 2011(4): 25- 33.
[15] 吕定海, 黄大庆. GAMLSS在非寿险费率分析中的应用[J]. 保险研究, 2013(8): 54- 65.
[16] 严恺, 王倩, 姚华. 应用GAMLSS技术构建基于性别、年龄和身高的新疆7- 17岁儿童青少年血压参考标准[J]. 中国循证儿科杂志, 2011, 6(5): 340- 348.
[17] 江聪, 熊立华. 基于GAMLSS模型的宜昌站年径流序列趋势分析[J]. 地理学报, 2012, 67(11): 1505- 1514.
[18] STASINOPOULOS M D, RIGBY B A, HELLER G Z, et al. Flexible regression and smoothing using GAMLSS in R[M]. CRC Press, 2017.。