基于SVR-ARIMA组合模型的金泽水库氨氮预测研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于SVR-ARIMA组合模型的金泽水库氨氮预测研究
作者:童俊
来源:《微型电脑应用》2020年第04期
摘要:;介绍了用于水质预测的Support Vector Regerssion (SVR)及Autoregressive Integrated Moving Average model (ARIMA)两种回归模型的优缺点,以金泽水库取水口水质氨氮为例,构建SVR-ARIMA组合模型,通过模型和实际数据验证了SVR-ARIMA模型的可预测性,预测效果优于单模型,短期的水质预测模型较准确的预测了金泽水库取水口的水质,可为水库取水水质提供支撑。

关键词:;水质; 时间序列数据; SVR; ARIMA; SVR-ARIMA模型
中图分类号: TP 311
文献标志码: A
Prediction of Ammonia Nitrogen in Jinze Reservoir Based on
SVR-ARIMA Combination Model
TONG Jun
(Shanghai Municipal Monitor Center of Water Supply, Shanghai 200002, China)
Abstract:
This paper introduces the advantages and disadvantages of SVR and ARIMA regression models for water quality prediction. The SVR-ARIMA combination model is constructed based on the ammonia nitrogen data of Jinze Reservoir. The model and actual data verification shows that the SVR-ARIMA model is predictable. The prediction effect is better than the single model. The short-term water quality prediction model is used to predict the water quality of the reservoir intake accurately and give the support to ensure water quality of the reservoir.
Key words:
water quality; time series data; SVR; ARIMA; SVR-ARIMA model
0 引言
隨着生产生活用水的增加,水资源的利用成为研究的热点[1],而水质是水资源能否高效合理利用的关键,因此研究水质的变化趋势是极其迫切和必要的。

以往对于水质的研究常常局限于从生物化学角度出发[2],从水源地采样进行生物、化学机理性分析,研究其组成成分,按照人为规定的指标对其参数进行比对以确定所采水样的各项指标是否达到一定的标准[3],这一类的研究特点是效果好、研究检测目标明确,但从采样到分析结果报告,水质检测周期较长,对于一些突发的水质污染反应时间慢,无法及时应对。

因此有必要进行基于非机理性的水
质参数预测[4]。

为了对水质参数进行更好的预测研究,需要分别对其线性特点和非线性特点进行有针对性的分析。

支持回归向量机模型(SVR)[5]通常对于非线性的数据有一定的预测效果,而ARIMA模型[6]则对于线性的时间序列预测有较好的效果,本文采取结合SVR和ARIMA模型两者的优势,通过优势互补,建立SVR-ARIMA组合模型[7]对水质进行预测,以氨氮为例,研究其变化规律。

1 数据来源和数据特征分析
1.1 数据来源
本文数据的时间为2017年11月—2018年11月,水质数据以氨氮为例。

水质数据是每小时金泽水库取水口的在线实测数据。

由于水质数据每小时变化的缓慢性和受上游水质变化的影响,因此呈现出一定的时间序列特性。

1.2 水质数据特性分析
如图1所示。

实线为金泽水库取水口的水质氨氮参数,红色虚线则反映了整个时段的水质氨氮指标的变化趋势。

通过分析,取水口的水质数据主要呈现出如下的特点:第一、夏季4—5月是上游来水较大,藻类增多水质变化呈现出较强的非线性特点;第二、8—9月由于秋季上游来水减少,水质变化较小;第三、在冬季到春季10—3月由于河流水量减少,汛期未到,河流两岸排污,氨氮总体含量偏高。

除了一些极端的天气如骤降暴雨、台风的侵袭等影响,其他时段水质的变化趋势总体较为平稳。

2 水质预测模型
2.1 支持向量机回归模型SVR
Vapnik及其合作者提出了支持向量机(SVM)[8],SVR作为SVM的一个变种的模型,由于其很强的非线性拟合能力,目前被用于各行各业,如电力负荷预测、金融股票预测等领域。

支持向量回归及SVR通过引入ε不敏感损失函数从而达到实现回归的目的,例如,一组训练样本数据:
的回归问题可以看成要找到一个函数f∈F={f|f·Rn→R}
(F为假设函数集)使得在训练样本上该函数值f(x)与期望值y之间的误差不大于给定的值ε。

现假设f(x)=ωT(x)+b,其中ω为权重矢量,b为阈值。

引入不敏感损失函数ε,支持向量机回归表示为下面的问题,如式(1)—(3)。

其中C>0为惩罚参数,表示样本拟合精度核函数回归模型的复杂度之间的折中参数,C 值越大表示拟合效果越好,松弛变量用
ξi和ξ*i表示。

引入拉格朗日乘子αi和α*i及核函数,再利用对偶原理,将上式转化为其对偶问题,如式(4)—(7)。

核函数K(xi,xj)=(xi)(xj),其特点就是将高维空间的内积运算转化为了低维空间的核函数计算,解决因输入函数而使得ω无法显示表达的问题。

其表达式为式(8)。

它使SVR具有更强的非线性预测能力,构造SVR,最终得到支持向量机回归函数为式(9)。

2.2 ARIMA模型
2.2.1 ARIMA模型基本原理
自回归积分滑动平均(ARIMA)模型是20世纪60年代美国统计学家GeoPerE.PBox等提出的Box-Jenkins建模方法之一。

ARIMA通过把非平稳时间序列数据进行差分处理,将其转化为平稳的时间序列并对其进行建模,一般用ARIMA(p,d,q)来表示,p表示模型自回归部分的阶数,d表示使得非平稳时间序列数据转化为平稳时间序列所要用的差分阶数,q来表示移动平均项数。

定义1 设{Wt},t=0,±1,…是随机时间序列,如果存在非负整数d,如式(10)。

是平穩可逆ARMA(p,d)序列,也就是{xt},t=0,±1,…,此平稳可逆序列满足以下的随机差分方程,如式(11)。

2.2.2 ARIMA建模
为了将过去的数据对于现在的影响体现出来,通常用时间序列的自相关函数即自相关性AC代表。

用偏相关性函数即偏相关性PAC表示剔除掉其因素干扰之后两者的相关性。

两者分别由图2所示。

由图1可以看出历史水质参数数据具有一定的时段差异性,因此其呈现出一种非平稳的序列图。

除此之外,通过生成的自相关性和偏相关性图,历史的水质参数数据的ACF、PACF还呈现出了一定的拖尾状态,其95%以上的点落在置信区间内,初步判断这是一个ARIMA模型,进一步对其历史数据进行ADF单位根检验,ADF检验结果如表1所示。

由上表可以知道,单位根统计量ADF=-2.136 376大于临界值,p-value<0.05,因而原历史水质数据序列为非平稳序列。

因此,能够观察到的Q的统计量非常的显著,当伴随概率小于0.05时,则表明原历史水质数据存在自相关性现象。

2.3 SVR-ARIMA 组合模型
本文使用3—8月的水质数据作为模型的训练数据,10-11月的水质数据作为测试集。

为了选择SVR模型的参数,如惩罚参数C和不敏感损失函数ε以及核函数的参数σ,本文采用传统的粒子群算法寻优找到ε=0.015,σ=5.03,C=13.91,其中设定占训练集63.4%的总计85个支持向量机的个数,从而建立SVR模型进行预测。

假设时间序列为yt分为非线性Nt和线性残差Lt两部分,如式(16)。

yt=Nt+Lt(16)
首先,利用SVR模型对非线性部分进行建模,测试集进行测试用于SVR预测模型,将拟合序列和所得的预测序列合并为序列
,即预测结果为N^t,进一步得出SVR模型产生的残差序列et,其中
是SVR-ARIMA模型中ARIMA部分预测出来的结果,两者相加即为SVR-ARIMA模型最终的预测结果。

SVR_ARIMA组合模型的水质参数预测流程图,如图3所示。

3 数据处理和输入变量
在进行模型的训练预测之前,为了提高预测精度,有必要对原始水质数据序列进行预处理。

为了使数据平稳,首先对原始水质序列取对数得到序列Mt,再经过常用式(20)。

Yt=0.69Nt-Nmin Nmax-Nmin+0.14(20)
将对数序列归一化到(0,1)区间内[10],其中Nmin,Nmax分别为对数序列的最小值和最大值,得到序列Yt。

4 实验结果及比较分析
使用ARIMA、SVR、SVR-ARIMA三种不同的模型分别对金泽水库取水口的水质氨氮进行预测。

三种模型预测的结果,如图4所示。

氨氮含量预测的相对误差
由图4能够看出本文建立的SVR-ARIMA模型对于水质氨氮参数的预测具有很好的效果,而单个的ARIMA模型和单个的SVR模型预测出来的效果相对较差。

如表2所示。

由表2可以看出,SVR-ARIMA模型相较于ARIMA和SVR其平均绝对误差和平均相对误差较小。

5 总结
从SVR-ARIMA模型的结构来看,SVR模型用于水质数据非线性部分预测,ARIMA模型用于水质数据线性部分预测,通过对SVR和ARIMA模型的综合应用,发挥两种模型各自的优势,最终提高预测效果的精确性。

基于非机理性的水质参数预测的研究还有待进一步的深入,因为对于水质参数的外界影响因素非常多,除此之外对于预测模型和数据分析处理的优化改进也有待深入研究。

本文从非机理性水质参数含量的趋势预测入手,提供了一种新的角度,较于传统的机理性分析有着较为广阔的应用空间。

金泽水库取水口氨氮短期(一天)内呈现非线性变化,即趋势不显著,变化缓慢,规律不明显;从长期来看,氨氮呈现季节性和周期性的变化趋势,由春季到夏季虽然会受到藻类的影响,但是由于受上游河流来水增多的影响,氨氮含量反而会逐渐的减少,由夏季到秋季变化趋于平缓,呈现一定的下降趋势;由秋季到冬季由于上游来水相对减少,加之藻类等上游污染物排放量的影响氨氮含量呈现上升的趋势;而由冬季到春季随着开春的到来,上游来水水量增加,氨氮含量呈现下降的变化趋势。

一年的氨氮含量呈现出这种周而复始的变化规律。

由一年内三种模型的水质氨氮量的预测性能比较可以看出ARIMA、SVR、SVR-ARIMA 三种模型的预测精度分别是:3.92%,7.56%,2.05%,SVR-ARIMA 模型结合了ARIMA和SVR模型对于线性和非线性序列的拟合优势,总体的预测精度较单一的模型预测精度有所提高。

参考文献
[1] 曹永强,李维佳,袁立婷. 基于文献计量学的我国水资源优化配置研究现状分析[J]. 华北水利水电大学学报(自然科学版), 2017, 38(5):63-69.
[2] 李玥琪,胡敬芳,邹小平,等. 水环境重金属分析仪的研究现状及发展趋势[J]. 传感器世界, 2017, 23(11):7-15.
[3] 张兆吉,费宇红,郭春艳,等. 华北平原区域地下水污染评价[J]. 吉林大学学报(地), 2012(5):1456-1461.
[4] 樊敏,顾兆林. 非机理性水质模型研究综述[J]. 环境科学与管理, 2009, 34(9):63-67.
[5] 梁晓龙,李祚泳,汪嘉杨. 基于SVR的指标规范值的水资源可持续利用评价模型[J]. 水电能源科学, 2016(3):40-43.
[6] 王菲. 基于组合模型的水质预测和评价研究[D]. 兰州:兰州大学, 2017.
[7] 孙轶轩,邵春福,计寻,等. 基于ARIMA与信息粒化SVR组合模型的交通事故时序预测[J]. 清华大学学报(自然科学版), 2014(3):348-353.
[8] 张欢. 支持向量机多分类方法研究及其在基金评价中的应用[D]. 北京:北京交通大学,2014.
[9] 基于Piotroski方法和ARIMA-SVR模型的股票投资策略研究[D]. 广州:华南理工大学, 2016.
[10] 姚亚. 数据预处理和直方图时间序列在水质预测中的应用[D]. 杭州:浙江大学, 2013.
(收稿日期: 2019.07.21)。

相关文档
最新文档