基于LSTM模型的Web页面访问量预测

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文章编号:1007-1423(2019)27-0076-04DOI:10.3969/j.issn.1007-1423.2019.27.017

基于LSTM模型的Web页面访问量预测

林峰,江荔

(福州职业技术学院,福州350108)

摘要:

为了有效预测未来高热度的Web页面,基于循环人工神经网络的理论,通过对Web页面访问量进行最大最小化预处理,形成标准时间序列,并构建含1,169个参数的LSTM网络模型,经过测试,该模型具有收敛性,均方根误差值可达19.45,具有较高的准确性。

关键词:

长短期记忆网络(LSTM);访问量预测;时间序列

基金项目:

福建省教育厅中青年教师教育科研项目(No.JAT171063)

0引言

互联网用户的激增和上网行为的普及,给网站的正常运维带来了挑战。为了应对用户的高并发访问,负载均衡、缓存技术、分布式存储是IT运维人员常用的技术手段和解决方案。特别是缓存技术的使用,将

Web页面内容存储在专用的缓存服务器内存中,能够提高网页的加载速度,减少磁盘的I/O操作,极大地缓解网站的负载,为用户带来更好的体验。但是缓存服务器的数量和性能是有限的,特别是中小企业的Web 站点,不可能将庞大的Web页面内容完全存储到缓存服务器中。因此如何预测未来高热度的Web页面地址,并将其内容提前存储到缓存服务器中已成为当前研究的热点之一[1-3]。

时间序列分析是用来研究数据随时间变化而变化的一类技术,它的基本出发点是事物的发展具有一定的连续性,会按照本身固有的规律进行,只要规律依赖的条件不产生质的变化,则事物未来的基本发展趋势仍将会有规律的延续下去。Web页面访问量就可采用时间序列分析技术进行预测。时间序列分析常用的算法包括移动平均(MA)、指数平滑(ES)和差分自回归移动平均模型(ARIMA),这些算法基于数理统计,对大数

据量的时间序列预测存在精度不高的问题[4]。LSTM (Long Short Term Memory,长短期记忆网络)是一种循环神经网络,是当前深度学习技术领域中较为热门的算法模型,在语音识别、时间序列、机器翻译等领域具有广泛而成功的应用,对大数据量的时间序列预测有较高的精确度[5-6]。

本文基于循环人工神经网络的理论,通过对Web 页面访问量进行标准化预处理,构造含1,169个参数的长短期记忆网络,经过100轮的训练,长短期记忆网络损失函数可逐步收敛,通过样本集的测试,模型均方根误差(Root Mean Square Error,RMSE)可达19.45,具有较高的准确性,可用于Web页面访问量的预测,结合

Web缓存等技术,对提高网站的整体性能将有显著的成效。

1LSTM网络

循环神经网络(Recurrent Neural Network,RNN)是一类递归神经网络,可处理序列数据,具有记忆性、持续性等特点,能以很高的效率对序列特征进行学习,在机器翻译、语音识别和个性化推荐领域中,有着广泛的应用。LSTM是循环神经网络RNN的一种改进版本,由Hochreiter和Schmidhuber于1997年提出,可解决

传统RNN网络梯度消失、不能有效保留长时间记忆信

息等缺点。LSTM通过输入门(Input Gate)、忘记门

(Forget Gate)、候选门(Candidate Gate)、输出门(Output Gate)等4个相互交互的“门”单元,控制着记忆信息值的修改。

忘记门是较为重要和复杂的门单元,其作用是控

制着要从前面的记忆中丢弃多少信息。以音乐个性化

推荐为例,用户过去的行为操作,对当前的推荐决策有

重要的影响:对于正向操作行为,如用户对某一位歌手

的歌曲特别感兴趣,那么这种正向操作的“记忆”将得到加强;相反对于负向操作行为,如删除、跳过等行为,其对应的信息则会逐渐减弱。忘记门是通过如公式(1)所示的激活函数来实现的:

f

t=sigmoid(W T f×S t-1+U T f×x t+b f)(1)

式中通过将上一隐藏层的输出信息S t-1与当前的输入x t进行线性组合,利用激活函数将函数值进行压缩,得到一个0到1之间的值:当该值越接近于1时,表征记忆体保留的信息越多;当该值越接近于0时,表征记忆体丢弃的信息越多[7-9]。

2基于LSTM模型的Web页面访问预测2.1数据集描述

本文所使用的时间序列数据集,来自互联网标准测试数据集“Web Traffic Time Series Forecasting”,该数据集记录了近145,000篇维基百科页面,从2015年7月1日到2016年12月31日近550天内,每日的访问量情况。数据格式如表1所示。

表1数据集样例

其中,中文维基百科“3C”词条的页面日访问情况如图1所示,可以观测到该访问曲线存在两个高峰值,若能成功预测出现高峰的日期,并提前对该页面内容进行预处理,势必能极大提高网站性能,缓解服务器压力。

图1维基百科某页面日访问情况

2.2数据预处理

页面访问量数据原始值取值范围差异过大,不适合直接用于分析和建模,需要经过标准化预处理。根据本文问题域的特点,采用如公式(2)所示的最大最小标准化方法,经过预处理后的时间序列值的范围在[0,

1],适合进行统一的建模分析使用。

X=x-min

max-min(2)2.3构建LSTM循环神经网络

数据集经过最大最小标准化预处理后,按时间递进关系,将前70%的数据用做训练集,后30%的数据用做测试集。需要注意的是,与传统有监督学习建模方法不同,训练集和测试集必须严格按照时间排序,不能随机抽选,以避免模型无法学习到正确的时间特征。

经过多次分析测试,本文所构建的LSTM循环神经网络主要由LSTM及DENSE两个层级构成,其中LSTM层共有16个神经元,涉及参数1,152个;DENSE 层共有1个神经元,涉及参数17个,整个神经网络合计参数1,169个。

此外,在LSTM循环神经网络迭代训练过程中,使用的损失函数为均方误差(Mean-Square Error,MSE),优化函数使用标准的Adam函数,整个神经网络具有较高的学习效率及较快的收敛速度。

3实验结果分析

3.1实验环境

本次实验所用计算机设备CPU型号为英特尔Xe⁃on E5-2650,8核心16线程,主频2.2GHz;内存16GB,DDR3代。LSTM网络的构建前端使用Keras

2.2.2,后端使用TensorFlow1.11.0。

相关文档
最新文档