数据处理与建模流程_1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据处理与建模流程:
1数据处理
1.1 替换缺失值:
数据完整没有缺失值的情况基本不存在,我们的数据中,0点-5点的航班为0的情况很多,所以数据缺失比较严重。时间序列分析要求时间周期完整,如果将缺失的数据只简单地用其他所有数据的缺失值填充,误差较大。经过反复尝试,发现用临近两点均值填充,结果最为理想。
2 时间序列的预处理
2.1 时间序列平稳化
首先绘制替换缺失值之后的原始数据的自相关图与偏自相关图。如下图所示:
可以看到自相关图并没有收敛到置信区间之内,趋近0以后又增长,且所有值均在置信区间之外。故序列不平稳。
为了进行时间序列平稳化,首先进行差分,即前值减后值,消除前后数据的依赖性。再次制作自相关图,勾选一次差分。结果如图所示:
如图所示偏ACF图仍然所有值均在置信区间之外。序列仍不平稳。勾选季节性差分再次制作自相关图,后一个周期相同位置的值减去前一个周期相同位置的值称为季节性差分。
结果如图所示:
从图中可知ACF为截尾,PACF为拖尾。序列已稳定。
故将原始序列先进行差分,后进行季节性差分。
2.2 平稳序列的检验
为了考察单个序列是否的确已经转换为平稳的随机序列,制作自相关图(ACF)与偏相关图(PACF)。此次将延迟拉大,观察相关图是否具有周期性:
图中所示,ACF在1阶之后骤减,为截尾。进一步观察,发现其具有周期性,在q+Sq后仍然骤减。PACF拖尾。根据下图,符合MA(q),Seas.MA(Q)模型。
(ACF与PACF怎么看:第一列数为lag值,第二列为相关系数的估计值,第三列为标准误差,其余为Box-Ljung检验结果。如果相关系数是突然收敛到置信区间之内,95%的值在置信区间之内,为截尾。如果相关系数像一条常常的尾巴,95%的值在置信区间之外,为拖尾。故,自相关图为截尾,偏相关图为拖尾。符合MA模型)
3 指数平滑与ARIMA的比较
指数平滑:
用序列过去值的加权均数来预测将来的值,并给序列中近期的数据以较大的权重,远期的数据以较小的权重。理由是随着时间的流逝,过去值的影响逐渐减小。基本公式:
Ft是t时刻的预测值,Y是t时刻的实际值。指数平滑沿袭了修正的思想,T+1时刻的
预测值是T时刻的实际观测值对T时刻的预测值加以修正后得到的。展开式:
实际观测值对预测值的影响随着时间距离的增大而呈指数级数衰减,这就是指数平滑的由来。
根据指数平滑法的公式可以知道:
指数平滑法适合于影响随时间的消失呈下降的数据。
ARIMA模型:
AR(p)模型(Auto regression Model)——自回归模型
p阶自回归模型:
这里的d是对原时序进行逐期差分的阶数,差分的目的是为了让某些非平稳(具有一定趋势的)序列变换为平稳的,通常来说d的取值一般为0,1,2。对于具有趋势性非平稳时序,不能直接建立ARMA模型,只能对经过平稳化处理,而后对新的平稳时序建立ARMA(p,q)模型。这里的平稳化处理可以是差分处理,也可以是对数变换,也可以是两者相结合,先对数变换再进行差分处理。
自回归积分滑动平均模型
对于具有季节性的非平稳时序(如冰箱的销售量,羽绒服的销售量),也同样需要进行季节差分,从而得到平稳时序。这里的D即为进行季节差分的阶数;PQ分别是季节性自回归阶数和季节性移动平均阶数;S为季节周期的长度。
确定pqd,PQD主要根据自相关图与偏自相关图。
4. 建模
首先了解一下各个参数的意义:
R方、平稳的R方:R方是使用原始序列计算出的模型决定系数,只能在序列平稳时使用。平稳的R方则是用模型的平稳部分计算出的决定系数,当序列具有趋势或季节波动时,该指标优于普通R房。两者取值均为小于等于1的任意数,负值表示该模型预测效果比只用均数预测还差。
RMSE:均方误差的平方根,表示模型预测因变量的精度,其值越小,精度越高。
MAE:平均绝对误差;
MaxAE:最大绝对误差;
MAPE:平均绝对误差百分比;
MaxAPE:最大绝对误差百分比;
正态化的BIC:是基于均方误差的分数,包括模型中参数数量的罚分和序列长度。罚分去除了具有更多参数的模型优势,从而可以容易地比较相同序列的不同模型的统计量。
其中百分比用来比较不同的模型,最大绝对误差与最大绝对误差百分比对于考虑预测最坏情况很有用。
4.1指数平滑法建模
根据前面叙述,知道指数平滑法适用于影响随时间的消失呈下降的数据。对于我们的数
据可能不适用。但是保险起见,仍用指数平滑法进行建模。如图所示R方为负值,表示该模型效果太差。故抛弃该方法。
4.2 专家建模法选择合适模型
专家建模法默认两种建模方法均使用,因为手动计算合适参数较为复杂,专家建模器会为用户选择合适的模型与参数。如图所示,专家建模器选择的是ARIMA模型,并设置参数为ARIMA(0,0,2)(0,0,1),根据前面分析可知中p=0,d=0,q=2,P=0,D=0,Q=1。结合数据的ACF图,说明ARIMA相对于指数平滑法更适合。
模型参数如下,图中R方与平稳的R方相等,该模型为非季节性模型。Ljung-Box Q 检验中白噪声未超过限定值,通过检验。
下图为该模型预测的9月一天的数据。
4.2调整模型参数
但是由前面进行的季节性分解分析可知,我们的数据具有周期性。由前面分析的图中所示,ACF在1阶之后骤减,为截尾。进一步观察,发现其具有周期性,在q+Sq后仍然骤减。PACF 拖尾。根据下图,符合MA(q),Seas.MA(Q)模型。
设置d=1,D=1,q=1,Q=1,设置p跟P均为0,建立模型如下。R方为负值表示该模型拟合效果很差。需要进一步调整参数。
故进一步调整模型参数。经过反复调整试验,模型参数设置为:ARIMA(2,1,1)(1,1,1)的时候,模型具有最大的稳定R方值。如下图所示: