基于支持向量机的水质预测应用实例_张秀菊
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章编号:1007-2284(2015)01-0085-
05基于支持向量机的水质预测应用实例
张秀菊1,
安 焕1,赵文荣1,张琴玲2(1.河海大学水文与水资源学院,南京21
0098;2.芜湖水文水资源局,安徽芜湖241000) 摘 要:
水质预测作为水环境污染控制的重要手段,能够预测水质的变化趋势,从而有效地控制水质恶化情况。分析了支持向量机的回归理论和算法;构建了支持向量机水质预测模型。应用实例以通州区新江海河站点为研究对象,取NH3-N浓度和TP浓度为时间序列样本,运用支持向量回归机的理论与方法,构造预测模型,并利用Libsvm软件包和MA
TLAB软件进行水质预测。从整体预测效果来看,其预测结果能较好地反映水质情况。 关键词:
水环境;水质预测;支持向量机;回归理论 中图分类号:
TV213.4 文献标识码:AAn Application Example of Water Quality
Prediction Based on Support Vector MachinesZHANG Xiu-ju1,AN Huan1,ZHAO Wen-rong1,ZHANG Qin-ling
2
(1.College of Hydrology and Water Resources,Hohai University,Nanjing 210098,China;2.Wuhu Hydrology
and Water Resources Bureau,Wuhu 241000,Anhui Province,China)Abstract:As an important means of water environmental pollution control,water quality prediction can predict the change trend ofwater quality so as to control water deterioration effectively.This paper analyses regression theory and algorithm of Support VectorMachine,and establishes Support Vector Machine model for water quality prediction.We take Xinjianghai River of Tongzhou Dis-trict as a research example,and the concentration of NH3-N and TP as time series samples,and establishes a model to predict wa-ter quality by using the theory and method of Support Vector Regression and taking advantage of Libsvm software and MATLABsoftware.From the perspective of overall prediction results,it shows that prediction results of Support Vector Machine model canreflect water quality
situation well.Key words:water environment;water quality prediction;support vector machine;regression theory收稿日期:2014-04-
29基金项目:中央高校基本科研业务费专项资助项目(20
11B01814);江苏省水利科技资助项目(2010015
)。作者简介:张秀菊(19
71-),女,博士,副教授,研究方向为水资源规划与管理。E-mail:xj
zh03@sina.com。 我国水污染严重,
水环境治理迫在眉睫。水质预测是水环境治理的主要研究内容之一,建立数学模型,系统准确地进行水质预测,是进行水污染控制的有效手段。污染物进入水体后,在随水流迁移过程中受到水文、物理、化学、生物等因素的影响,引起污染物的输移、混合、分解和衰减
[1]
。根据已经掌握
的资料和监测数据,研究水质预测影响因子之间的关系、建立水质预测模型。通过可靠的水质预测模型,可以根据监测数据等条件计算出水体中的污染物浓度及其随时间发展的变化情况,从而用来预测和控制水质,掌握水质现状及其发展趋势,分
析水环境污染原因和危害性[2]
,减小各方面的损失。因而水质
预测模型对水质预测分析和水环境污染防治管理具有十分重要的意义。
1 水质预测模型研究现状
国内外学者上个世纪开始用水质模型来研究水质。早在1925年,美国科学家Streeter和Phelps研究俄亥俄河污染问题时建立了一维河流水质模型;其后,前苏联Bel等根据简化的和统计的模型来讨论各种水动力弥散理论、边界与初始条件的形式,以及弥散系数与水流速度和渗透介质几何形状关系的理
论[3]
;Fried[4]研究了经典模型与水动力弥散方程,
提出了考虑固体物质与孔隙分界面上浓度与浓度梯度跳跃变动的新水动力弥散模型;1979年,美国麻省理工学院提出了多目标规划理论和水质数学模型。随着人工智能算法的兴起,人工神经网络在水质预测方面也发展迅速。
5
8中国农村水利水电·20
15年第1期
国内对水质模型的研究起步相对较晚。20世纪80年代初,杨天行、王秉忱等人在《湘江重金属水环境容量研究》中建了“湘江重金属随水-悬浮物-底泥态建立的迁移转化联合模型”。随后一些学者尝试用指数平滑法进行水质预测,预测结果接近于实际,适用于中短期的预测。灰色系统分析法对于信息不完整(或不完全)情况,具有良好的适用性,其中邓聚龙教授创建的灰色系统理论预测模型GM(1,1)模型及其改进型在水质预测中得到较为广泛的运用[5]。
总的来说,当前的水质预测方法大致可以分为5类:数理统计预测方法、灰色系统理论预测法、神经网络模型预测法、水质模拟模型预测法、混沌理论预测法[6]。根据监测数据与水质参数之间的映射关系,可分为两类:一是建立显式关系,其本质上是通过建立线性模型来进行预测,实现起来较容易,但模型可靠性较差。二是建立隐式关系,如人工神经网络方法;这些方法也存在一些问题,比如如何确定网络结构的问题、过拟合与欠拟合问题、局部极小点问题等[7]。因此,有限样本情况下的学习机器理论研究逐渐成熟起来,形成了较完善的理论体系———统计学习理论。支持向量机(Support Vector Machine,SVM)是基于统计学习理论发展起来的一种新类型的机器学习方法,是结构风险最小化准则的具体实现,已成为当今的研究热点之一。
2 支持向量机理论
2.1 支持向量机发展现状
支持向量机是由AT&T贝尔实验室的Vapnik[8]及其研究小组于1995年根据统计学理论提出来的一类新型的机器学习方法。它采用核函数思想,把非线性空间的问题转换到线性空间,降低了算法的复杂度,具有较强的学习泛化能力,该方法是求解一个二次型寻优的问题,采用结构风险最小化原则,从理论上得到的是全局最优解,能够在对小样本学习的基础上对其他样本进行快速、准确的拟合预测。由于SVM有较完备的理论基础和较好的学习性能,在解决有限样本、非线性、过学习及高维模式识别问题中表现出许多特有的优势,成为当前的研究热点问题之一,并在很多领域都得到了成功应用。
总之,无论在理论基础上还是在应用前景上,SVM都具有很大的优越性。水质预测问题的实质是水质参数回归的问题[9],因此新兴的机器学习支持向量机能够解决水质预测问题。本文基于这一出发点,利用支持向量回归机的理论与方法,并利用Libsvm软件包和MATLAB软件进行水质预测,详细研究了支持向量机的理论与方法,探讨将支持向量机算法应用于水环境的水质预测的可行性,并运用于实际问题的研究,为水资源规划和可持续开发利用提供了决策依据和技术支持。2.2 支持向量机回归理论
用SVM预测水质的基本思想是:给定一组水质训练样本集的训练集(xi,yi)(i=1,2,…,n),其中xi∈Rn,yi∈R,通过一个非线性映射φ将样本数据从样本空间映射到高维特征空间进行线性回归,从而求解出一个包含多种因素影响的水质最优回归函数[10]。
在最优回归函数中采用适当的核函数k(xi,x)代替高维空
间中的向量内积φ(xi)·φ(x)就可以实现φ非线性变换后的线性拟合,得到最优回归函数为:
f(x)=∑
i∈SV
(α
i-α*i
)k(x
i
,x)+b(1)式中:αi、α*i为拉格朗日乘子;b为回归阈值;SV为支持向量。
模型建立过程中还需要选择核函数、损失函数和确定SVM参数。核函数的选择是支持向量机理论研究的一个核心问题。目前常用的几种核函数的选择主要还是根据经验来选取,没有一个针对特定问题选择最佳核函数的有效办法。只有在选择了核函数后,才能对惩罚参数C进行调整,所以核函数的选择对支持向量机的性能在不同的应用领域有不同的影响。在实际应用中,径向基(Radial Basis Function,RBF)核函数是目前在支持向量机中被应用得最广泛的一种核函数。对于初学者来说,RBF核无疑是优先考虑的核函数之一。故本研究选择了RBF核函数建模;选择RBF核函数K(x,y)=e-γ|x-y|2,损失函数选取ε不敏感损失函数c(x,y,f(x))=^c(y-f(x)),SVM参数包括惩罚参数C、不敏感参数ε和RBF核参数γ。
基于支持向量机的回归模型建立过程见图1
。
图1 基于支持向量机的回归模型建立过程
Fig.1 Establishment of regression model based
on Support Vector Machine
2.3 支持向量机算法步骤
(1)数据归一化。为了消除输入变量之间由于量纲和数值大小的差异而造成的影响,避免模型计算时出现病态,将模拟数据标准化到[0,1]区间,然后将标准化后的数据作为模型的输入值。其标准化公式为:
x′i=(xi-minxi)/(maxxi-minxi)(2)式中:x′i为第i项评价因子xi的规范化处理值。
(2)输入输出变量设置。通过编号m时的前k个编号的历史数据来预测编号m时的NH3-N值,即估计动态系统[11]:
ym=f(xm-1,xm-2,…,xm-k)(3)式中:ym为编号m时的污染物浓度值;k为滞后编号数,这样整个系统的输入就是某编号m时的前k个编号至前1个编号的污染物浓度值,而输出则是编号m时的污染物浓度值(表1)。