基于支持向量机的水质预测应用实例_张秀菊
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章编号:1007-2284(2015)01-0085-
05基于支持向量机的水质预测应用实例
张秀菊1,
安 焕1,赵文荣1,张琴玲2(1.河海大学水文与水资源学院,南京21
0098;2.芜湖水文水资源局,安徽芜湖241000) 摘 要:
水质预测作为水环境污染控制的重要手段,能够预测水质的变化趋势,从而有效地控制水质恶化情况。
分析了支持向量机的回归理论和算法;构建了支持向量机水质预测模型。
应用实例以通州区新江海河站点为研究对象,取NH3-N浓度和TP浓度为时间序列样本,运用支持向量回归机的理论与方法,构造预测模型,并利用Libsvm软件包和MA
TLAB软件进行水质预测。
从整体预测效果来看,其预测结果能较好地反映水质情况。
关键词:
水环境;水质预测;支持向量机;回归理论 中图分类号:
TV213.4 文献标识码:AAn Application Example of Water Quality
Prediction Based on Support Vector MachinesZHANG Xiu-ju1,AN Huan1,ZHAO Wen-rong1,ZHANG Qin-ling
2
(1.College of Hydrology and Water Resources,Hohai University,Nanjing 210098,China;2.Wuhu Hydrology
and Water Resources Bureau,Wuhu 241000,Anhui Province,China)Abstract:As an important means of water environmental pollution control,water quality prediction can predict the change trend ofwater quality so as to control water deterioration effectively.This paper analyses regression theory and algorithm of Support VectorMachine,and establishes Support Vector Machine model for water quality prediction.We take Xinjianghai River of Tongzhou Dis-trict as a research example,and the concentration of NH3-N and TP as time series samples,and establishes a model to predict wa-ter quality by using the theory and method of Support Vector Regression and taking advantage of Libsvm software and MATLABsoftware.From the perspective of overall prediction results,it shows that prediction results of Support Vector Machine model canreflect water quality
situation well.Key words:water environment;water quality prediction;support vector machine;regression theory收稿日期:2014-04-
29基金项目:中央高校基本科研业务费专项资助项目(20
11B01814);江苏省水利科技资助项目(2010015
)。
作者简介:张秀菊(19
71-),女,博士,副教授,研究方向为水资源规划与管理。
E-mail:xj
zh03@sina.com。
我国水污染严重,
水环境治理迫在眉睫。
水质预测是水环境治理的主要研究内容之一,建立数学模型,系统准确地进行水质预测,是进行水污染控制的有效手段。
污染物进入水体后,在随水流迁移过程中受到水文、物理、化学、生物等因素的影响,引起污染物的输移、混合、分解和衰减
[1]。
根据已经掌握
的资料和监测数据,研究水质预测影响因子之间的关系、建立水质预测模型。
通过可靠的水质预测模型,可以根据监测数据等条件计算出水体中的污染物浓度及其随时间发展的变化情况,从而用来预测和控制水质,掌握水质现状及其发展趋势,分
析水环境污染原因和危害性[2]
,减小各方面的损失。
因而水质
预测模型对水质预测分析和水环境污染防治管理具有十分重要的意义。
1 水质预测模型研究现状
国内外学者上个世纪开始用水质模型来研究水质。
早在1925年,美国科学家Streeter和Phelps研究俄亥俄河污染问题时建立了一维河流水质模型;其后,前苏联Bel等根据简化的和统计的模型来讨论各种水动力弥散理论、边界与初始条件的形式,以及弥散系数与水流速度和渗透介质几何形状关系的理
论[3]
;Fried[4]研究了经典模型与水动力弥散方程,
提出了考虑固体物质与孔隙分界面上浓度与浓度梯度跳跃变动的新水动力弥散模型;1979年,美国麻省理工学院提出了多目标规划理论和水质数学模型。
随着人工智能算法的兴起,人工神经网络在水质预测方面也发展迅速。
5
8中国农村水利水电·20
15年第1期
国内对水质模型的研究起步相对较晚。
20世纪80年代初,杨天行、王秉忱等人在《湘江重金属水环境容量研究》中建了“湘江重金属随水-悬浮物-底泥态建立的迁移转化联合模型”。
随后一些学者尝试用指数平滑法进行水质预测,预测结果接近于实际,适用于中短期的预测。
灰色系统分析法对于信息不完整(或不完全)情况,具有良好的适用性,其中邓聚龙教授创建的灰色系统理论预测模型GM(1,1)模型及其改进型在水质预测中得到较为广泛的运用[5]。
总的来说,当前的水质预测方法大致可以分为5类:数理统计预测方法、灰色系统理论预测法、神经网络模型预测法、水质模拟模型预测法、混沌理论预测法[6]。
根据监测数据与水质参数之间的映射关系,可分为两类:一是建立显式关系,其本质上是通过建立线性模型来进行预测,实现起来较容易,但模型可靠性较差。
二是建立隐式关系,如人工神经网络方法;这些方法也存在一些问题,比如如何确定网络结构的问题、过拟合与欠拟合问题、局部极小点问题等[7]。
因此,有限样本情况下的学习机器理论研究逐渐成熟起来,形成了较完善的理论体系———统计学习理论。
支持向量机(Support Vector Machine,SVM)是基于统计学习理论发展起来的一种新类型的机器学习方法,是结构风险最小化准则的具体实现,已成为当今的研究热点之一。
2 支持向量机理论
2.1 支持向量机发展现状
支持向量机是由AT&T贝尔实验室的Vapnik[8]及其研究小组于1995年根据统计学理论提出来的一类新型的机器学习方法。
它采用核函数思想,把非线性空间的问题转换到线性空间,降低了算法的复杂度,具有较强的学习泛化能力,该方法是求解一个二次型寻优的问题,采用结构风险最小化原则,从理论上得到的是全局最优解,能够在对小样本学习的基础上对其他样本进行快速、准确的拟合预测。
由于SVM有较完备的理论基础和较好的学习性能,在解决有限样本、非线性、过学习及高维模式识别问题中表现出许多特有的优势,成为当前的研究热点问题之一,并在很多领域都得到了成功应用。
总之,无论在理论基础上还是在应用前景上,SVM都具有很大的优越性。
水质预测问题的实质是水质参数回归的问题[9],因此新兴的机器学习支持向量机能够解决水质预测问题。
本文基于这一出发点,利用支持向量回归机的理论与方法,并利用Libsvm软件包和MATLAB软件进行水质预测,详细研究了支持向量机的理论与方法,探讨将支持向量机算法应用于水环境的水质预测的可行性,并运用于实际问题的研究,为水资源规划和可持续开发利用提供了决策依据和技术支持。
2.2 支持向量机回归理论
用SVM预测水质的基本思想是:给定一组水质训练样本集的训练集(xi,yi)(i=1,2,…,n),其中xi∈Rn,yi∈R,通过一个非线性映射φ将样本数据从样本空间映射到高维特征空间进行线性回归,从而求解出一个包含多种因素影响的水质最优回归函数[10]。
在最优回归函数中采用适当的核函数k(xi,x)代替高维空
间中的向量内积φ(xi)·φ(x)就可以实现φ非线性变换后的线性拟合,得到最优回归函数为:
f(x)=∑
i∈SV
(α
i-α*i
)k(x
i
,x)+b(1)式中:αi、α*i为拉格朗日乘子;b为回归阈值;SV为支持向量。
模型建立过程中还需要选择核函数、损失函数和确定SVM参数。
核函数的选择是支持向量机理论研究的一个核心问题。
目前常用的几种核函数的选择主要还是根据经验来选取,没有一个针对特定问题选择最佳核函数的有效办法。
只有在选择了核函数后,才能对惩罚参数C进行调整,所以核函数的选择对支持向量机的性能在不同的应用领域有不同的影响。
在实际应用中,径向基(Radial Basis Function,RBF)核函数是目前在支持向量机中被应用得最广泛的一种核函数。
对于初学者来说,RBF核无疑是优先考虑的核函数之一。
故本研究选择了RBF核函数建模;选择RBF核函数K(x,y)=e-γ|x-y|2,损失函数选取ε不敏感损失函数c(x,y,f(x))=^c(y-f(x)),SVM参数包括惩罚参数C、不敏感参数ε和RBF核参数γ。
基于支持向量机的回归模型建立过程见图1。
图1 基于支持向量机的回归模型建立过程
Fig.1 Establishment of regression model based
on Support Vector Machine
2.3 支持向量机算法步骤
(1)数据归一化。
为了消除输入变量之间由于量纲和数值大小的差异而造成的影响,避免模型计算时出现病态,将模拟数据标准化到[0,1]区间,然后将标准化后的数据作为模型的输入值。
其标准化公式为:
x′i=(xi-minxi)/(maxxi-minxi)(2)式中:x′i为第i项评价因子xi的规范化处理值。
(2)输入输出变量设置。
通过编号m时的前k个编号的历史数据来预测编号m时的NH3-N值,即估计动态系统[11]:
ym=f(xm-1,xm-2,…,xm-k)(3)式中:ym为编号m时的污染物浓度值;k为滞后编号数,这样整个系统的输入就是某编号m时的前k个编号至前1个编号的污染物浓度值,而输出则是编号m时的污染物浓度值(表1)。
表1 基于时间序列的支持向量机水质预测模型
Tab.1 Support Vector Machine water quality prediction
model based on time series method
样本输入变量输出变量第1个样本x1,x2,…,xkyk+1=xk+1
第2个样本x2,x3,…,xk+1yk+2=xk+2
第n-k个样本xn-k,xn-k+1,…,xn-1yn=xn
(3)惩罚参数C和核函数参数γ的确定。
核函数确定为RBF核函数K(x,y)=e-γ|x-y|2,确定了参数γ就可以确定核函数。
在libsvm软件包中γ就是g。
固定γ值,通过调整C值来选择最佳拟合结果,此时的C值作为最优值。
用交叉验证比较方法来选择参数C和g。
k折交叉验证法是机器学习中推广能力估计的一种重要方法,且具有无偏估计性。
其基本思想如下:将原始训练样本划分成k个互不相交的、具有类似长度和类分布的子集S1,S2,
…,S
k,训练和测试分别进行k次。
在第i次测试中,S
i
用作测
试集,其余子集都作为训练集,Si子集的泛化误差ei=(Si-
^S
i),其中^S
i
为子集Si的预测集。
最后得到的k折交叉验证误
差为k次泛化误差的平均值。
5折和10折交叉验证法是常用的方法。
3 支持向量机在水质预测中的应用实例
3.1 研究对象
论文以新江海河为例进行研究。
新江海河位于江苏省南通市通州区内,属一级河道,河水直接流入长江,其水质好坏直接影响长江水体,因此对其进行水质预测具有十分重要的意义。
取新江海河姜灶大桥监测断面的监测数据系列为样本集,系列为2009年以及2010年共24组数据。
选用NH3-N、TP两个监测指标的测量值作为网络的识别数据,通过建立支持向量机回归模型,预测下几个时段的NH3-N和TP的浓度值。
新江海河2009年和2010年的水质浓度如表2所示。
表2 姜灶大桥监测断面水质监测结果mg/LTab.2 Water quality monitoring results of the
monitoring section of Jiangzao Bridge
注:保留两位有效数字。
3.2 实例计算
首先按照式(2)将表1当中的数据进行归一化处理。
取k=7,则可确定训练样本为24-7=17个,ym为编号m时的NH3-N值,k为滞后编号数,这样整个系统的输入就是某编号m时的前k个编号至前1个编号的NH3-N值,而输出则是编号m时的NH3-N值。
利用5折交叉验证法计算参数C和γ,由2009年和2010年的24组数据作为训练样本,得到各C和γ的最优组合见表3。
表3 不同水质指标对应的C、γ以及均方误差MSETab.3 The corresponding C、γand mean square error(MSE)
of different water quality indicators
指标εCγMSE
NH3-N 0.01 2 0.5 0.020 4TP 0.01 0.35 16 0.007 9
注:C为惩罚参数、ε为不敏感参数、γ为RBF核参数。
3.3 数据拟合
本文SVM预测模型利用Libsvm库文件构建,取k=7,确定训练样本为1
7个。
利用MATLAB软件计算得各个支持向量的权向量w
值及其对应的样本序号见表4,相应的偏置b分别为0.5,0.295。
支持向量机预测的8~24时段的2个指标的实测值与回归预测值的拟合结果见图2,具体数值以及相对误差见表5。
表4 各个支持向量所对应的w值
Tab.4 The corresponding value of w to each support vector
图2 NH3-N和TP的回归预测值与实测值拟合图
Fig.2 Values of regression predicted and measured of NH3-N and TP表5 已知时段的回归预测值与实测值
Tab.5 Values of regression predicted and measured of a certain time
时段序号
NH3-N
回归预测
值/(mg
·L-1)
实测值/
(mg·
L-1)
相对
误差/
%
TP
回归预测
值/(mg
·L-1)
实测值/
(mg·
L-1)
相对
误差/
%
8 0.67 0.65 3.08 0.58 0.65 10.078
9 0.53 0.55 3.64 0.18 0.18 4.000
10 1.05 1.03 1.94 0.32 0.31 2.258
11 1.75 1.77 1.13 0.32 0.31 2.258
12 1.33 1.41 5.67 0.13 0.12 5.691
13 1.55 0.77 101.30 0.580 0.83 29.988
14 1.72 1.74 1.15 0.31 0.30 2.302
15 1.08 1.10 1.82 0.49 0.50 1.411
16 0.99 0.81 22.22 0.53 0.54 1.294
17 1.31 1.05 24.76 0.38 0.38 1.823
18 0.93 0.87 6.90 0.22 0.22 3.241
19 1.73 2.19 21.01 0.28 0.27 2.564
20 0.82 0.80 2.50 0.49 0.50 1.397
21 1.59 1.61 1.24 0.17 0.16 4.375
22 1.60 1.62 1.24 0.22 0.21 3.302
23 0.62 0.64 3.13 0.24 0.23 3.017
24 1.67 1.69 1.18 0.18 0.17 4.070
注:TP的相对误差为回归预测值和实测值保留三位数时计算所得。
由图2和表5可以看出,NH3-N的回归预测值与实测值的17个相对误差中,除第13组外其余组的拟合效果较好,平均误差11.99%,构建的支持向量回归机预测模型的预测效果较好。
TP的17个预测数据中15个数据相对误差小于6%,平均相对误差4.89%,构建的支持向量回归机预测模型的预测效果较好。
同时也可以看到第13组数据(实测时间为2010年1月)预测值与实测值相差较大,尤其是NH3-N浓度的预测值,其相对误差高达101.30%。
由表5中可以看出,第13组数据,两
种污染物的浓度值都有明显的波动,NH3-N的浓度值为0.77mg/L,相比前后几个月的浓度值明显偏小,而TP当月的浓度值为0.83mg/L,比前后几个月的浓度值高出许多。
由于NH3-N和TP浓度的异常波动导致了其预测结果的偏差,这种波动产生的可能原因有以下几种。
(1)水文特性的影响。
降雨的增加会导致河流水量的增多,稀释污染物,导致污染物浓度降低;蒸发量的增加,会导致污染物浓度的增加。
通州区降雨量具有冬季少雨夏季多雨周期变化规律,蒸发量特点为夏季大于冬季。
据有关统计分析资料,2010年1月份降雨量与前后几个月并没有大的波动。
并且降雨或蒸发量的增多,不会使一种污染物浓度降低,而另一种浓度增加,所以水文特性的变化不是造成污染物浓度大幅波动的原因。
(2)水利工程的影响。
工程放水或引水入河道,也会导致污染物浓度的降低。
工程的影响会导致两种污染物浓度同时增大或减小,而两种污染物浓度一个增大,一个降低,故不是受到水利工程的影响。
并且,2010年1月份,通州新江海河水利工程并没有蓄、放水作业。
所以,水利工程不是造成污染物浓度大幅波动的原因。
(3)污染源排放的影响。
若当月工厂采取节污措施等,排污量减小或污染物排放浓度降低,会使测得的NH3-N的浓度减小。
与此同时,生活污水(主要污染物为TP)排放量的增加,会导致TP浓度的增加。
(4)测量误差的影响。
测量仪器、测量时间以及人为因素的影响,都会导致污染物实测值的增大或减小。
(5)软件自身的影响。
运用软件进行数据计算时,可能由于软件自身存在一定的缺陷,计算结果产生误差,从而造成预测结果的偏差。
综上所述,污染物浓度大幅波动可能是由污染源排放量(或排放浓度)增多(或减少)或测量误差引起的,也有可能是软件自身存在一定的缺陷,从而导致了水质预测结果的误差。
但总体看来,支持向量机建立起的水质预测模型能够用来预测水质。
3.4 水质预测
以8~24时段的NH3-N浓度作为一组输入值,通过模型可预测得到未来第一个时段的NH3-N的浓度为1.33mg/L;同理以8~24时段的TP浓度作为一组输入值,通过模型可预测得到未来第一个时段的TP的浓度为0.37mg/L。
再分别以9~24时段以及预测的未来第一个时段的NH3-N和TP的浓度作为一组输入值,可预测得到未来第二个时段的各指标的浓度分别为1.35mg/L,0.31mg/L。
分别以10~24时段以及预测的未来第一个时段和第二个时段的NH3-N和TP的浓度作为一组输入值,可预测得到未来第三个时段的各指标的浓度分别为1.28mg/L,0.33mg/L。
未来3个时段的预测值见表6。
表6 未来时段的预测值mg/LTab.6 Predicted values of the future time
水质指标第一时段第二时段第三时段
NH3-N 1.33 1.35 1.28TP 0.37 0.31 0.33
图3 NH3-N和TP的浓度变化趋势图
Fig.3 Concentration change trend of NH3-N and TP
将两种污染物的浓度数据绘制成变化趋势图,如图3所示。
图中,8~24时段的数据为拟合数据,25~27时段为预测的后三个时段(即2011年1月、2月、3月)的数据。
由上图可以看出,NH3-N的浓度呈波动平稳状态,TP的浓度呈波动下降的趋势,两组预测数据均符合原有污染物浓度的变化趋势。
由此可以说明,支持向量机可以进行水质预测并且能够较好地反映水质的情况。
4 结 语
本文在研究SVM理论和算法的基础上,尝试将该方法用于水质指标浓度预测问题,并结合实际问题进行分析。
实验表明,从整体预测效果来看,SVM预测结果能较好地反映水质情况。
研究丰富了水质预测的理论和方法,为水环境监控管理提供了基础数据和科学的技术支持,具有较好的理论意义和应用价值。
然而SVM算法也尚处于发展阶段,尚需完善,如何把降雨、排污、人为等因素的影响考虑在内,如何使用支持向量机很好地处理大规模数据集是有待解决的问题。
支持向量机方法有待进一步的完善,还有更大的发展空间。
□
参考文献:
[1] 梁 勇.基于支持向量回归的水质预测研究[D].武汉:武汉理工大学,2012.
[2] 叶常明.水环境数学模型的研究进展[J].环境科学进展,1993,1(1):74-80.
[3] 高 佳.基于支持向量机的地下矿泉水质预测研究[D].济南:山东师范大学,2010.
[4] Fried.Ground water pollution[J].Developments in Water Sci-ence,1975,(4):19-21.
[5] 李如忠,王 超.灰色动态模型群法在河流水质预测中的应用初探[J].中国农村水利水电,2003,(1):76-78.
[6] 曾向前,姜应和,程 静,等.管道输送过程中污染物的降解及污水厂进水水质预测[J].中国农村水利水电,2010,(10):47-49,52.
[7] 郑一华.基于支持向量机的水质评价和预测研究[D].南京:河海大学,2006.
[8] Vapnik V.The nature of statistical learning theory[M].NewYork:Springer-Verlag,1995.
[9] 徐红敏.基于支持向量机理论的水环境质量预测与评价方法研究[D].长春:吉林大学,2007.
[10] 梁 坚,何通能.基于小波变换和支持向量机的水质预测[J].计算机应用与软件,2011,28(2):83-86.
[11] 武国正,徐宗学,李畅游.支持向量回归机在水质预测中的应用与验证[J].中国农村水利水电,2012,(1):25-29,
33.
(上接第84页)
[15] 张瑞君,段争虎,谭明亮,等.石羊河流域天然植被生态需水量估算及预测[J].中国沙漠,2012,32(2):545-550.
[16] 肖生春,肖洪浪.黑河流域水环境演变及其驱动机制研究进展[J].地球科学进展,2008,23(7):748-755.
[17] 陈怀录,刘艳霞,迟守乾,等.石羊河流域生态危机的综合治理探讨[J].中国沙漠,2008,28(5):886-890.
[18] 孙栋元,伊力哈木,冯省利,等.干旱内陆河流域地表水地下水联合调度研究进展[J].地理科学进展,2009,28(2):167-173.[19] 陈仁升,康尔泗,杨建平,等.内陆河流域分布式水文模型———以黑河流域干流山区建模为例[J].中国沙漠,2004,24(4):416-
424.
[20] 吴红燕,王云智,董新光,等.新疆平原区井渠结合地下水数值模拟与分析[J].地下水,2007,29(2):23-27.
[21] 胡立堂.干旱内陆河地区地表水和地下水集成模型及应用[J].水利学报,2008,39(4):410-418.
[22] 王 蕊,王中根,夏 军.地表水和地下水耦合模型研究进展
[J].地理科学进展,2008,27(4):37-41.
[23] 李 扬,秦大庸,于福亮,等.黑河中游地区水资源优化配置模型研究[J].人民黄河,2008,30(8):72-74.
[24] 李福生,侯红雨,谢越韬.黑河中游地表水、地下水转化及水资源配置模型[J].人民黄河,2008,30(8):64-66.
[25] 李恒鹏,陈 雯,刘晓玫.流域综合管理方法与技术[J].湖泊科学,2004,16(1):85-90.
[26] 肖生春,肖洪浪,蓝永超,等.近50a来黑河流域水资源问题与流域集成管理[J].中国沙漠,2011,31(2):529-535.
[27] 程国栋,肖洪浪,李彩芝,等.黑河流域节水生态农业与流域水资源集成管理研究领域[J].地球科学进展,2008,23(7):661-665.
[28] 肖洪浪,程国栋,李彩芝,等.黑河流域生态-水文观测试验与水-生态集成管理研究[J].地球科学进展,2008,23(7):666-670.
[29] 李锋瑞,刘七军,李光棣.干旱区流域水资源集成管理的基础理论与创新思路[J].冰川冻土,2009,31(2):318-327.。