处理缺失数据的短时交通流预测模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
处理缺失数据的短时交通流预测模型
作者:徐健锐李星毅施化吉
来源:《计算机应用》2010年第04期
摘要:针对交通检测中数据的缺失问题,提出了一种新的交通流综合短时预测模型,这种模型可以对交通检测中的缺失数据进行重建,并在此基础上运用改进的卡尔曼平滑算法进行短时交通流预测。
该模型克服了传统的预测方法无法对检测数据的缺失进行处理的缺点,能在数据缺失时进行有效的交通流预测。
通过深圳市的实际流量数据的验证,并比对传统方法,证实该方法具有较好的预测性能,模型预测精度可以保持在88%以上,具有较好的实用性。
关键词:数据缺失;交通流;小波降噪;卡尔曼平滑滤波;短时预测
中图分类号: TP391.9
文献标志码:A
Short-term traffic flow forecasting model under missing data
XU Jian---
(
1. School of Computer Science and Telecommunication Engineering, Jiangsu University,
2. Information Center, Zhenjiang Electrical and Mechanical Higher Vocational Technical School, Zhenjiang Jiangsu 212016, China
)
Abstract:
In view of missing data issue of traffic detection, this paper proposed a kind of new short-term traffic flow composite forecasting model. The model adopts imputation method to solve the missing data problem, and uses improved Kalman smoothing to implement short-term traffic flow forecasting. The model resolved the defeats of traditional forecasting methods which cannot deal with the missing data, and also can attain a high forecasting precision. Through the validation of Shenzhen data and compared with the traditional methods, the new model has been proved that it has high forecasting precision, the forecasting result can maintain at 88% or more, and the model also has good practicality.
In view of missing data issue of traffic detection, this paper proposed a new short-term traffic flow composite forecasting model. The model adopted reconstruction method to solve the missing data problem, and used improved Kalman smoothing to implement short-term traffic flow forecasting. The model resolved the defeats of traditional forecasting methods which cannot deal with the missing data, and also can attain a high forecasting precision. Through the validation of Shenzhen data and being compared with the traditional methods, it has been proved that the new method has high forecasting precision, the forecasting result can maintain at 88% or more, and the model also has good practicality.
Key words:
data missing; traffic flow; wavelet de-noising; Kalman smooth filtering; short-term forecasting
0 引言
交通检测数据在交通规划、设计、控制、组织和管理等领域得到广泛应用,然而,检测数据的缺失将导致数据分析变得异常困难。
文献[1]在运用季节ARIMA模型和指数平滑模型进行短时交通流预测研究过程中发现有大约20%的检测数据存在缺失。
在加拿大亚伯达地区七年的交通数据中有近一半的数据存在缺失,某些时间段中这个比例更是高达90%。
在美国明尼苏达州
交通管理部门给出的数据中也有超过40%的数据存在缺失。
在通常情况下,伴有缺失数据的交
通数据是进行特定研究的一类数据,越来越多的学者关注于缺失数据的重建,缺失数据的研究在交通问题研究中显得非常重要[2]。
为道路使用者和交通管理者提供准确可靠的实时交通信息成为先进交通信息系统(Advanced Transportation Information System,ATIS)的重要功能。
众多ATIS方向的研究都强调
了两个方面的问题:一是交通信息的预测;二是交通信息的可靠性。
在伴有缺失的实时数据的情
况下,交通预测模型的可靠性显得特别敏感[3]。
如何解决检测数据的缺失一直是交通技术研究与交通工程领域关注的一个重要问题。
本文提出了一种用于短时交通流预测的综合预测模型,该模型能对数据缺失进行有效处理,同时具有较高的预测精度。
最近十几年,短时交通流预测得到了长足的发展,出现了多达百种的预测模型,主要有计量模型、神经网络模型、非线性系统理论模型、动态交通分配及仿真模型等,本文采用改进的卡尔曼平滑(Rauch-Tung-Striebel,RTS)算法作为预测方法,RTS算法[4]是一种固定区间最优平滑算法,它的基础就是卡尔曼滤波。
综合预测模型包含数据重建模块和预测模块,数据重建模块负责对检测数据中的缺失数据进行重建,预测模块则会利用重建后的数据进行短时交通流预测。
本文实验数据选用深圳市广深高速99.5公里处(广深方向,检测点编号:20501803,3车
道)2007年7月份的实际检测数据,。
1 综合预测模型
1.1 预测模型结构
综合预测模型如图1所示。
模型首先对检测系统检测数据进行故障识别,如判定检测数据存在缺失,则模型重建部分将会对缺失数据进行重建;否则,重建模型将更新历史趋势数据。
预测模块运用改进的RTS算法在对检测数据进行处理的基础上进行短时交通流预测,预测结果供其他交通系统使用。
1.2 趋势数据重建方法
1.2.1 数据缺失现象
实时交通监测系统的数据采集经常会产生一些缺失和错误的数据,这是实时交通信息系统中的一个常见问题,文献[5]给出的统计数字表明从检测点获得的检测数据平均有15%的数据存在缺失或者是错误的,且对交通信息数据缺失的处理进行了一定的讨论。
产生数据缺失的最普遍的原因有3种:1)数据传输线路断开,数据无法传输;2)数据库或数据缓存满,在没有保护机制的情况下,系统主动放弃数据;3)在大量并行操作或队列操作时,因资源分配问题,数据存储线程未被执行,造成数据丢失。
图片
图1 综合预测模型结构
数据缺失现象表现为在一个时间段内数据量为0或极小。
图2显示了一个典型的数据缺失现象,在椭圆区域发生了数据缺失。
缺失数据在形态上与低流量十分相似,如图2中[30,70]区间的流量分布。
两者的差异在于前者数据在一定时间内基本保持稳定,后者则存在波动,并在一些子区间存在明显的下降和上升趋势。
第4期徐健锐等:处理缺失数据的短时交通流预测模型
计算机应用第30卷
本文采用的数据为深圳市广深高速处(广深方向,检测点编号:20501803,3车
道)2007年10月17号的交通流数据,交通流数据的检测时间间隔为图3为检测数据处于正常检测状态下得到的理想流量数据样本,图2是经过处理后存在部分数据缺失情况下的流量数据样本,本文的实验是基于这两组数据进行的。
图片
图2 含缺失数据的交通流检测数据样本
图片
图3 理想状态下的检测数据样本
1.2.2 数据重建
交通系统是一个具有高非线、强随机、大时变、不确定的复杂系统,为了保证交通模型的实时性、准确性和可靠性,对原始交通数据进行预处理是必不可少的环节,数据预处理没有统一的标准,只能根据不同类型的分析数据和业务需求,在对数据特性进行充分理解之后,再选择相关的数据预处理技术。
1)交通流数据特性分析。
交通流数据虽然在一天范围内来看具有高度的非线性,但图4给出的4天的交通流数据却显示出一个点的交通流量是遵循一定规律的,即它是以一天为周期重复再现的。
交通流预测中的历史平均模型预测法就是基于上面的这个特性,早在1981年Stephanedes就开始将历史平均模型应用于城市交通控制系统中[6]。
历史平均法算法简单,但在静态的预测上表现不好,因为它不能反映动态交通流基本的不确定性与非线性特性,尤其无法克服随机干扰的影响。
图片
图4 20501803检测点4天的检测数据
虽然运用历史平均模型预测法进行短时交通流预测存在着很大的问题,但这个理论却揭示了交通流数据的一个重要特性,即同一检测点多天的交通流数据具有相近的历史趋势,这也给本文构造历史趋势数据进行交通检测过程中的缺失数据的重建提供了理论依据。
2)历史趋势数据提取。
历史趋势数据的提取分两步进行:首先,采用小波变换的方法对实测数据进行消噪处理,得到各天的趋势数据;其次,在得到各天趋势数据基础上运用加权算术平均数法得到前一个周期的历史趋势,本文所建模型的历史周期为四天,即以四天为一个趋势计算周期进行更迭操作。
提取趋势数据第一步。
小波变换的实质是把原始信号不同频率段信息抽取出来。
噪声一般分为确定性噪声和随机噪声。
对于确定性噪声,由于其频率或频率范围可预知,只需利用小波变换的特性将该频率段的信号滤除即可;对于随机噪声,由于其频率或频率范围不可预知,通过多分辨率的小波分解识别出信号包含的噪声(高频部分),然后舍弃高频部分进行信号重构。
当越来越多的高频信息从信号中滤去时,相应的低频部分变得越来越“纯洁”,即所含的噪声越来越小。
对
文中4天的实测数据进行小波变换,变换使用Coiflet小波族,通过5层分解后的低频重构得到图5的结果。
从图5中可以看出重构信号与原始信号相比噪声小了很多,且消噪后的数据具有较强的实测数据代表性[7]。
提取趋势数据第二步。
在用小波变换得到前面4天代表性数据基础上,再运用加权算术平均数法得到前一个周期的历史趋势数据,本文所用的周期为4天,图6所示为一个周期的历史趋势数据。
3)缺失交通数据识别。
无论是固定检测器,还是移动检测器都是按照一定的时间间隔来采集数据,但是在实际情况中,检测器扫描频率不固定,传输线路出现故障,车辆过度密集造成检测器无法检测车辆等多种原因都会使采集到的交通数据无法严格按照一定的时间间隔上传,甚至会有部分数据丢失,给以后的数据处理和交通预测工作带来不利的影响。
文献[8]中设计了一种丢失数据的识别方法,把在一定时间段内得到的数据定义成某一时段的数据,例如,将采集数据的时间间隔为则在8:00~8:05这个时间范围内得到的数据均视为8:00的数据,然后对数据的时间段进行扫描,如果在某一时间段内没有得到数据,则认为该时间段的数据产生了缺失,系统就要对缺失数据进行数据重建。
4)缺失数据重建。
在前文得到某一路段历史趋势值的基础上,模型根据当前检测数据的具体情况决定是否需要对历史趋势数据进行更新。
图片
图5 原采样数据和小波处理后的数据
图片
图6 一个周期的历史趋势数据
对于经过数据故障识别过程,认为不存在故障的数据,无需对实测的流量数据进行重建,可直接作为下一阶段交通流预测模块的输入数据,并用实测数据对前一周期的历史趋势进行更新,作为下一天数据重建的基础,对于历史趋势数据的更新操作可以离线进行,这样在实际工程中提高了数据处理的速度和效能。
对于系统识别出的缺失数据,系统将使用历史趋势值对其进行重建,重建工作是实时的。
1.3 预测模块
1.3.1 交通流KF预测模型[9]
设为τ时刻以后k个时间段的路段L上的交通流量,它与路段两端各入口和出口的交通流量有关。
设V(τ)是τ时刻的各出入口的交通流量向量, V(τ-1)是τ时刻前一个时段的各出入口的交通流量向量。
考虑到一些较长的路段,本模型考虑m个时段各出入口的交通流量(即τ,τ-1,τ-2,…,τ-m+1时段的交通流量)对路段L上的交通流量的影响。
交通流量预测模型为:
--2)+
--m+1)+w(τ)(1)
其中、、、…、-为参数矩阵
是状态变量为交通流量向量
为预测的交通流量;n为路段上入口和出口处所考虑的检测器的总数;w(τ)为观测噪声,假定为零均值的白色噪声,它的协方差矩阵为R(τ)。
为了方便应用卡尔曼滤波理论预估状态变量,特作以下变换:
--m+1)](2)
-
y(τ)=
可得:
X(τ)=B(τ) X(τ-1)+u(τ-1)(5)
y(τ)= A(τ) X(τ)+ w(τ) (6)
其中:y(τ)为观察向量;X(τ)为状态向量;A(τ)为观察矩阵;B(τ)为状态转移矩阵,B(τ)=I;u(τ-1)为模型噪声,假定为零均值的白色噪声,它的协方差矩阵为Q(τ-1)。
1.3.2 改进的卡尔曼平滑算法
离散时间卡尔曼平滑算法是一种固定区间最优平滑算法。
∶
均值和方差通过如下方程式进行计算:
-
-
--
--
--
和是时间步k的状态均值和状态协方差的平滑估计。
和是时间步k的状态均值和状态协方差的滤波估计。
-和-是时间步k+1的预测状态均值和状态协方差,这和卡尔曼滤波相同。
是时间步k的平滑增益,它可以用来修正特定时间步的平滑估计结果。
从上面的式子可以看出,卡尔曼滤波和算法之间的不同在于前者向前循环,后者向后循环。
在算法中,循环开始于最后的时间步T,且。
由于是一种事后处理的方法,而不是传统预测过程根据1~T-1时刻的状态预测T时刻的状态,直接应用进行预测会失去预测的实时性,文献[4]中所进行的实验就存在这个问题。
为了既保留的预测精度较高的优点,又让预测具有实时性,本文对传统RTS算法加以改进,提出了一种改进的RTS算法。
改进的R算法考虑了数据的边界效应,采用边界镜像对称的方法对原数据进行处理,将T个数据转变为2T-1个数据,再运用算法对这2T-1个数据进行处理,取第T个数据作为预测结果。
根据交通流不间断的特点,本文所采用的固定区间为10,即平滑处理只针对前10个检测数据,这样既提高了模型的预测精度,也减少了预测的计算量。
2 短时交通流预测及其结果分析
2.1 改进的RTS算法实现短时交通流预测
图7(a)及(b)显示了运用改进的RTS算法实现短时交通流预测的结果,预测数据基于前文所提到的深圳市广深高速处20501803检测点,2007年7月17号的交通流数据。
图7(a)为基于理想状态下的数据,即检测数据不存在缺失;图7(b)为基于一般状态下的数据,即检测数据存在缺失。
从图7(b)可以明显看出,在数据存在缺失或错误情况下,运用改进的RTS算法进行短时交通流预测没法克服缺失数据给预测模型所带来的影响,预测结果随着数据的缺失发生剧烈的波动,整个模型的预测精度非常低,预测结果不能拿来供其他交通系统使用。
图7(b)的原预测结果中存在负值,考虑到交通流数据是一个正数据,所以处理时将所有的负值以0.001替代。
图片
图7 两种情况下的预测对比
2.2 综合预测模型实现短时交通流预测
图8是用本文所提出的综合预测模型进行的预测结果,在对检测数据进行预处理的基础上,即通过历史趋势值进行缺失数据重建后,可以看到预测精度有了明显的提高。
2.3 对比分析
对应预测结果的预测误差评价,目前有很多的评价指标,常用的评价指标有以下2种。
1)平均相对误差
-
2)平均绝对相对误差
-
其中:n为测试样本数为样本预测值为样本测量值。
本文以这2种预测误差指标作为评价指标。
表1所示为改进的RTS算法和综合预测模型分别在理想检测数据和检测数据存在缺失情况下的MRE和MARE值。
从图7(b)可以看出,在检测数据缺失时预测结果随数据缺失发生剧烈波动,已经失去了预测的意义,所以,表1中没有给出改进的RTS算法在数据存在缺失时的MRE 和MARE值。
从表1可以看出本文所提出的综合预测模型克服了数据缺失对于短时交通流预测所带来的影响,预测精度相比改进的RTS在理想数据情况下的预测略有下降,但依旧能保持在一个较高的水平上。
图片
图8 综合预测模型实现短时交通流预测
表格(有表名)
表1 短时交通流预测误差
误差指标MREMARE
改进的RTS预测理想检测数据)-79
综合预测模型预测检测数据存在缺失)-
3 结语
交通检测数据都存在着缺失问题,传统的短时交通流预测模型没法克服数据缺失对预测模型所带来的影响,预测精度较低,预测结果无法供其他交通系统使用。
为克服数据缺失对短时交通流预测所带来的影响,本文提出了一种新的综合预测模型,该模型由重建模块和预测模块两部分组成。
在重建部分,当检测到数据发生缺失时,模型应用历史趋势值对这部分数据进行重建,如检测数据正常,则模型更新历史趋势数据。
在预测部分,对原RTS算法进行改进,以使其具有实时预测能力,满足短时交通流预测的需要。
通过实验及对比分析可以看出,这种新的综合预测模型克服了检测数据缺失对预测模型所造成的影响,相比理想检测数据下的预测结果,综合模型所实现的预测依旧达到了一个较理想的精度,且这种模型实现起来容易,具有较强的实用性。
参考文献:
[1]WILLIAMS B M, DURVASULA P K, BROWN D E. Urban freeway traffic flow prediction: Application of seasonal autoregressive integrated moving average and exponential smoothing models[C]// Transportation Research Board 1644, Transportation Research Board. Washington, DC:TRB,1998:132-141.
[2]RAMSEY B, HAYDEN G. AutoCounts: A way to analyse automatic traffic count data[J]. Traffic Engineering and Control, 1994, 35(4):245-247.
[3]LINT J W C, HOOGENDOORN S P, ZUYLEN H J. Accurate freeway travel time prediction with state-space neural networks under missing data[J]. Transportation Research, 2005,13(5/6):347-369.
-a Manual for Matlab toolbox EKF/UKF[EB/OL]. [2009-07-01]. http://www.cs. /~welch/kalman, 2007-08.
[5]ZHONG M, LINGRAS P, SHARMA S. Estimation of missing traffic counts using factor, genetic, neural, and regression techniques[J]. Transportation Research, 2004,12(2):139-166.
[6]STEPHANEDES Y J, MICHALOPOULOS P G, PLUM R A. Improved estimation of traffic flow for real-time control[C]// Transportation Research Record 795. Washington,DC: [s.n.],1981:28-39.
[7]DAUBECHIES I. Ten lectures on wavelets[M]. Philadelphia:Society for Industrial and Applied Mathematics,1992.
[8]姜桂艳, 江龙晖, 张晓东,等. 动态交通数据故障识别与修复方法[J]. 交通运输工程学报,2004,4(1):121-125.
[9]杨兆升,朱中. 基于卡尔曼滤波理论的交通流实时预测模型[J]. 中国公路学
报,1999,13(3):63-67.。