ARIMA与SVM混合模型在害虫预测中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ARIMA与SVM混合模型在害虫预测中的应用
向昌盛1,周子英2,武丽娜2
(1. 湖南农业大学东方科技学院,长沙410128;2. 湖南农业大学资源环境学院,长沙410128)
摘要:害虫发生是一种复杂且难以预测的时间序列数据,传统预测方法都是基于线性模型,忽略了害虫发生的非线性因子,导致预测精度不高。本研究用ARIMA模型对昆虫发生时间序列进行线性建模,然后采用SVM对昆虫发生时间序列的非线性部分进行建模,最后得到两种模型的综合预测结果。将组合模型应用到松毛虫发生面积的预测,实验结果表明该组合模型相对于单模型的预测具有更高的精度,发挥了2种模型各自的优势。
关键词:支持向量机;害虫;预测;时间序列
中图分类号:S763.3 S431 文献标识码: A
Application in Pest Forecasting Based on ARIMA and SVM Hybrid Model
Xiang Chang-sheng1, Zhou Zi-ying2, Wu Li-na2
(1. College of Orient Science & Technology, Hunan Agricultural University, Changsha, Hunan, 410128;
2. College of Resources & Environment, Hunan Agricultural University, Changsha, Hunan, 410128) Abstract:The data of pest occurrence is complicated and unpredictable time series, the nonlinear factor of pest time series often overlooked in tradition prediction. A new hybrid forecasting model based on ARIMA and SVM is proposed in this paper, ARIMA model was used to predict the linear component while SVM model for the nonlinear residual component of pest time series, then the hybrid forecasting results is obtained. The prediction performances of the method are tested on Dendrolimus punctatus occurrence, the results show that the hybrid model, which takes advantage of the unique strength of the two models in linear and nonlinear modeling, has better accuracy than the single model.
Key words: support vector machines; pest; forecast; time series
1 前言
害虫预测预报是害虫综合防治的重要组成部分,是一项监测害虫未来种群变动趋势的重要工作,也是有效地防治和控制害虫发生发展的依据,它根据害虫种群过去和现在的变化规律、调查取样和气象预报等资料,借助统计学原理和方法,建立数学模型,分析害虫发生资料,研究其变化规律以及预报因子与预报对象之间关系,然后进行预报。
近年来许多学者应用时间序列分析方法研究害虫种群动态变化并进行预测分析[],最具代表性的时间分析方法为差分自回归移动平均(autoregressive integrating moving average,ARIMA),ARIMA模型极具弹性,融合了时间序列分析和回归分析的优点,由于害虫的发生是受到多种因素的影响的,是一种非常复杂的自然现象,其发生在空间上既有全域性又有区域性,在时间上又表现出无序的不稳定性、有序的规律性和周期性,这样基于线性模型的ARIMA无法捕捉害虫发生过程中的非线性数据的信息,从而导致预测精度不高[1]。80年代以来,非线性的神经网络算法产生,为害虫发生的预测预报的深入研究开拓了新的空间[2-4],然而神经网络是基于经验风险最小化原则,要求数据样本大,但实际的昆虫历史数据属于小样本数据,往往不能满足大样本这一要求,
所以在预测过程中容易出现结果过拟合、泛化能力不强等现象。基于结构风险最小化的支持向量机(Support Vector Machines ,SVM ),是一种新的机器学习方法,较好地解决了小样本、非线性、过拟合、维数灾和局极小等问题,且泛化推广能力优异,在病虫害预测领域里取得了不错的预测结果[5]。
基于著名的M-竞争理论[6],为了有效地利用各种模型的优点,一些学者利用组合预测方法来进行时间序列预测研究[7,8],实证结果表明,相对于单个的各种模型,组合模型大大提高了预测精度,表明组合预测模型能够较大限度地利用各种预测样本信息,比单个预测模型考虑问题更系统、更全面,因而能够有效地减少单个预测模型过程中存在的环境因素的影响,从而提高了预测的精度。
目前,通过ARIMA 和SVM 组合预测方法进行害虫发生预测还鲜有文献报到,本研究提出了一种基于ARIMA 和SVM 组合模型的害虫发生预测新方法—ARIMA-SVM 。ARIMA 模型描述历史数据的线性关系,SVM 捕捉数据的非线性规律,对辽宁朝阳市松毛虫发生面积进行仿真实验,来验证ARIMA-SVM 模型的有效性和可行性。 2
ARIMA 和SVM 的概述
2.1 ARIMA 模型
时间序列分析是处理动态数据的一种有效的参数化时域分析方法,ARIMA 是一种精确度较高的线性时间序列预测方法,是20世纪70年代美国学者鲍克斯·乔瑞(Georage Box)和英国统计学家詹肯·格威勒姆(Gwilym Jenkins)所建立的鲍克斯-詹姆(B-J)方法的进一步发展和改进[9],它把回归分析应用于时间序列,又不同于通常因果分析中的普通最小二乘法。ARIMA 模型预测方程可以表示为:
011121122(1)k yk yk pyk p k k k q k q
y θϕϕϕεθεθεθε------=+++++----
式中:k y 为样本值;(1,2,,)i i p ϕ= 和(1,2,,)j j q θ= 为模型参数;k ε为随机误差,它的均值为0。
ARIMA 时间序列预测的建模过程如下:
(1)样本平稳化处理:建立ARIMA 模型要求时间序列是平稳随机过程,因此在建模之前必须检验时间序列数据的平稳性,如果数据序列是非平稳的,如存在一定的增长或下降趋势等,则需对数据进行差分处理;
(2)模型定阶:ARIMA(p ,d ,q)模型定阶的方法主要有4种:样本自相关函数(Auto Correlation Function ,ACF)和偏自相关函数(Partial Auto Correlation Function ,PACF)定阶法、最小化最终预