时间序列大作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用时间序列
大作业课题:基于ARIMA模型的全国1980-2013年邮电业务函件数量时间序列分析及预测。
姓名:***
学号:**********
编号:48
基于ARIMA 模型全国1980-2013年邮电业务函件数量时间序列分析及预测
一.摘要
时间序列就是按照时间的顺序记录的一列有序数据。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势。时间序列分析在日常生活中随处可见,有着非常广泛的应用领域。邮政与我们息息相关,他已经成为社会经济生活不可或缺的通信手段。在世界上,函各国都以件量来衡量一个国家的邮政发展水平,而我国的函件量增长却不容乐观,这勾起了我研究的兴趣,加上我本人又有集邮的爱好,因此我选用了函件量进行分析研究。
本文用时间序列分析方法,对一段时间序列进行了拟合。通过对1980至2013年全国邮电业务函件量序列进行观察分析,建立合适的ARIMA 模型,对未来五个月的全国邮电业务函件量序列进行预测。然后对预测值和真实值进行比较,得出结论,所建立的模型有较好的拟合效果,从而提供了一个行情预测的有效方法。 关键词:时间序列 函件量 ARIMA 时间序列分析 预测
二.前言
邮政的最初发展史从人们的信函寄送需要开始的,现在邮政的众多业务也是借助经营函件业务而衍生出来的。目前,函件业务的主要包括为用户传递书面通信、文件资料和书籍等。他已经成为社会经济和生活不可缺少的通信手段。如果的函件业务搞不好,邮政其他业务也就失去了赖以生存的基础,这将严重削弱邮政在社会中的地位和作用。 当前,世界各国都以函件量来衡量一个国家邮政发展水平,然而几十年随着经济建设的飞速发展,邮电业务的需求量迅猛增长,唯有函件业务增长不容乐观,与发达国家和甚至一些发展中国家相比还有很大差距。原因何在?
因此,本文就以以我国1980-2013年全国邮电业务函件量的数据为研究对象,做时间序列分析。首先,对全国33年来全国邮电业务函件量的发展变化规律,运用SAS 软件进行分析其发展趋势。再则,通过检验说明模型拟合效果的好坏,再利用模型对下一年进行预测。最后,从国家经济、政策和社会发展等方面对全国邮电业务函件量变化规律及未来走势进行分析。
ARIMA 模型建模思路
(一)模型介绍:
ARIMA 模型( p, d, q) 又称为自回归移动平均模型。其中AR 指自回归; p 为模型的自回归阶数; MA 为移动平均; q 为模型的移动平均阶数; I 指积分; d 为时间序列成为平稳之前必须取差分的次数。其一般的表达式为:
q
t q t t p t y p t y t y t y -++-+-++-++-+-+=μβμβμβμβαααα 22110022110
(二) 建模思路:
ARIMA 建模思路是: 假设所研究的时间序列是由某个随机过程产生的, 用实际统计序列建立、估计该随机过程的自回归移动平均模型, 并用此模型求出预测值。
(三) 建模步骤:
1. 观察时间序列。根据时间序的散点图自相关函数( ACF) 图和偏自相关函
( PACF) 图以及ADF 单位根检验观察其方差、趋势及其季节性变化规律, 识别该序列的平稳性。
2. 对序列进行平稳化处理。如果数据序列是非平稳的, 并存在一定的增长或下降趋势, 则需对数据进行差分处理; 如果数据序列存在异方差性, 则需对数据进行对数转换或者开方处理, 直到处理后数据的自相关函数值和偏相关函数值无显著地异于零。
3. 模型识别。若平稳时间序列的偏相关函数是截尾的, 而自相关函数是拖尾的, 则可断定此序列适合AR 模型; 若平稳时间序列的偏相关函数是拖尾的, 而自相关函数是截尾的, 则可断定此序列适合MA 模型; 若平稳时间序列的偏相关函数和自相关函数均是拖尾的, 则此序列适合ARMA 模型。
4. 对ARIMA( p, d, q) 模型定阶, 估计参数。
5. 模型检验。进行假设检验, 诊断白噪声检验假设模型残差的ACF 值和PACF 值在早期或季节性延迟点处不得大于置信区间, 同时残差应理想化为0 均值。可观察残差的ACF图、PACF 图, 并辅以D—w 值、t 值等检验法。
6. 预测分析。时间序列分析包括以下步骤: 分析时间序列的随机特性; 用实际统计序列构造预测模型; 根据所得模型做出最佳的预测值。
ARIMA模型建模流程图
(四)ARIMA(p,d,q)模型:
在ARIMA模型的识别过程中,我们主要用到两个工具:自相关函数(ACF),偏自相关函数(PACF)以及它们各自的相关图。对于一个序列{Xt}来说,它的第i 阶自相关系数定义为它的i阶自协方差除以它的方差,它是关于i的函数,因此我们也称之为自相关函数,通常记ACF(i)。偏自相关函数PACF(i)度量了消除中间滞后项影响后两滞后变量之间的相关关系。自相关系数和偏自相关系数这两个统计量来识别ARIMA(p,d,q)模型的系数特点和模型的阶数。并用游程检验
三.数据预处理及具体模型(建模)
1.数据录入:
1980-2013年全国邮电业务函件量
2绘制时序图
程序如下:
data a;
input a@@;
time=1980+_n_-1;
cards;
33.13 33.88 33.94 35.21 39.48 46.78 49.59 54.79 59.77 57.28 54.87 52.11 57.18 68.70 76.50 79.55 78.68 68.55 65.51 60.52 77.71 86.93 106.01 103.84 82.81 73.51 71.31 69.50 73.63 75.32 74.01 73.78 70.74 63.41;
Proc gplot;
plot a*time;
symbol1v=star i=join c=black;
run;
原时序图