预测模型数据处理方法分解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

也就是说,移动平均修匀后的方差,随着N的加大而减 少。也就是N越大,对原始数据修匀能力越强。下表数据可 清楚反映这一规律。
(某日用品电器销售额的移动平均预测)表(2)
(1) (2) 月份 期数 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12
M 3 5600 5796 5930 / 3 5775.33
1 1
M 4 5796 5930 6092 / 35939.3
……………………………………
M11 7436 7738 8045 / 3 7739.7
1
在此基础上再计算二次移动平均数:
1
可见,移动平均法实际上是对于某一期数据, 取前N个数据进行平均,N个数权数相同,而其它数 据的权这样,经过移动平均,将消除数据列中异常 的因素,对数据进行修匀。一般情况下,如果数据 没有明显的周期变化和趋势变化,可用第t期的一 次移动平均值作为t+1期的预测值,即 Y t 1 Mt1 其一般公式为
预 测 模 型
最近几年,在全国大学生数学建模竞赛常常出 现预测模型或是与预测有关的题目,例如疾病的传 播,雨量的预报,人口的预测等。什么是预测模型? 如何预测?有那些方法?对此下面作些介绍。 预测的目的在于认识自然和社会发展规律,以及 在不同历史条件下各种规律的相互作用,揭示事物 发展的方向和趋势,分析事物发展的途径和条件, 使人们尽早地预知未来的状况和将要发生的事情, 并能动地控制其发展,使其为人类和社会进步服务。
二阶后向差分定义为
x x t xt 1
' t
'' t ' t
x x x
' t 1
xt 2xt 1 xt 2
中心差分:在处理时间数列时,一阶中心差分定义 为 xt' xt 1 xt 1
2 2
二阶中心差分为 xt'' xt' 1 xt' 1 xt 1 2 xt xt 1
机因素干扰,数据离散度很大,采用平均值法也难 以处理。这时可采用一次、二次、甚至三次移动平 均和指数平滑对数据进行平滑,用平滑的数据建模。
在分解预测时,为处理季节数据,则必须采用高次 幂的移动平均法,对数据平滑。
(7)差分法
有些模型,例如鲍克斯-詹金斯模型只能处理平 稳数据,如果原始数据为非平稳数据,则需釆取差 分处理。差分有三种主要类型:前向差分、后向差 分、中心差分。
M 以N=5为例: 5
1
1 M6
1 1
Y1 Y2 Y3 Y4 Y5 5 Y2 Y3 Y4 Y5 Y6 5
M5 、M 6 表示第五、第六个周期的一次移动平均值,
依次类推。若移动平均的周期为N,则可得到计算移 动平均值的一般公式:
Yt Yt 1 … Yt N 1 Mt N 1 M 其中, t表示第t期的一次移动平均值
(一)移动平均值模型 移动平均法是一种最简单的适应模型,是在算术平 均的基础上发展起来的一种预测方法。 算术平均虽能代表一组数据的平均水平,但它不能 反映数据的变化趋势,而原始数据虽然存在某种趋 势,但数据可能是零散的或杂乱无章的,无法直接 加以分析。移动平均法克服了上述弱点,其基本方 法是,选一个固定的周期N,对数据进行平均,每递 推一个周期就加上后一个数据,舍去初始数据,依 次类推,直至把数据处理完毕。
(1)水平式 也就是趋势保持不变,移动平均值是无编差 的,M值与N值无关。 (2)脉冲式 趋势仅在某一段时间突然增加或减少,随后 又保持不变,N取得越大,M的误差越小,因此N应取得较 大些。 (3)阶梯式 趋势仅在开始一段时间保持不变,然后增加 或减少到一个新的水平后又保持不变,N取得越小,M的误 差越小,因此N应取得较小。
售的影响,也说明以前的销售统计数据所体现出的 销售发展规律不再适用之于目前的情况了。如果仍 然利用这些数据建立预测模型,将无法体现销售条 件和环境变化后的销售量变化的规律,用这样的模 型进行预测,将会造成较大的误差。因此,如果还 想利用这些数据建立模型,进行预测,就应该把它 们处理成能体现条件与环境发生变化之后的情况的 数据。对于这类数据,比例法就是一种比较有效的 处理方法。 (6)移动平均和指数平滑法 如果原始数据总体走向具有一定规律性,但因受随
( 5) 五个月 移动平均值 —— —— —— —— —— 207.5 202.5 206.5 193.5 198.0 191.4 203.5
然而修匀能力与对外界变化的反映速度是互相 矛盾的,两者不能兼得。因此,对于N值一般应视 具体情况,采用折衷办法确定。根据过程的实际发 展趋势,N值大体有如下四种选择方法:
2 2
在处理时间数列时,主要应用后向差分。一次
多项式数据通过一阶差分就可转换为平稳数据,二
次多项式和三次多项式数据分别通过二阶和三阶差 分可转换为平稳数据,而三次以上的高次多项式在 应用中很少采用。
二 预测的数学准备
• 在预测过程中需要很多数学知识,主要有
微分方程、概率与数理统计、线性规划和 非线性规划等等。但使用最多的是统计学 的相关知识:常用的统计量、参数的估算、 假设检验、区间估计等。这些我们就不做 介绍了。
定量预测法
• 时间序列模型 时间序列模型主要研究事物的自身发展规律, 借以预测事物的未来趋势。主要方法有移动平均、 指数平滑、分解预测、鲍克斯詹金斯模型、多变 量模型以及类推法等。 特点和应用范围 时间序列一般指一组按时间顺 序排列的数据,展示了研究对象在一定时期的发 生变化过程。时间序列模型,就是根据预测对象 时间变化特征,研究事物自身的发展规律,探讨 未来发展趋势,是一种重要的定量预测方法,包 括多种模型,主要适用于经济预测、商业预测、 需求预测、库存预测等,预测期限主要为中、短 期,不适用于有拐点的长期预测。
2 M5 5775.3 5939.3 6039 / 3 5935.8
M 6 5939.3 6039 6305.3 / 3 6112.5
2
……………………………………
2 M11 7142.7 7438.3 7739.7 / 3 7440.2
(4)拉平法 由于条件发生变化,常常使一些厉史数据不能 反映现时的情况,例如,大型钢铁厂、化肥厂、或 油气田的建成投产或开发,可以使产量猛增,这时 历史数据将发生突变,出现一个转折,如用这类数 据建模,则需要处理。这时拉平法是一种较好的方 法。它的原理是对转折点前的数据加一个适当的量 值,使其与折点后的数据走向一致。 (5)比例法 销售条件与环境的变化常常会引起一个企业产 品市场销售比例的改变。当比例变化较大时,说明 销售条件与环境对销售的影响己超过其他因素对销
移动平均值 表(1) 序 列 原 始 数 据 一次移动平均值 M 1 二次移动平值 M 2
1 2 3 4 5 6 7 8 9 10 11
5600 5796 5930 6092 6257 6567 6851 7141 7436 7738 8045
5775.3 5939.3 6093.0 6305.3 6558.3 6853.0 7142.7 7438.3 7739.7
一 预测的前期准备工作
为保证预测结果的精确度,预测之前必须做一系 列的准备工作: (一)数据的准备:
数据的收集和整理;
数据的分析和处理; 数据的内涵及数量;
数据处理的原则
• 准确,处理后的数据能正确反映事物发展的未 来趋势和状况; • 及时,数据的处理要及时;
• 适用,处理的数据能满足建模的需要;


对于上表中的数据,如以11期数据预测12期值, 当取N=3时,则有:
1 2 a11 2M11 M11 2 7739.7 7440.2 8039.2
2 1 2 b11 ( M11 M11 ) 7739.7 7440.2 299.5 3 1
5935.9 6112.5 6318.9 6572.2 6851.3 7144.7 7440.2
在二次移动平均值的基础上,可建立线性模型:
Y t at bt
式中:τ---预测超前期数 通过查表(多项式模型参数估算公式)可知:
at 2M t1 M t 2 2 bt M t1 M t 2 N 1
预测方程为
Y 11 8039.2 299.5 Y 12 809.2 299.5 1 8338.7
使用移动平均法,最重要的是移动周期N的选 择。因为 2
S 式中:
2
S S N
2 a
S
2
2 a
—— 移动平均值方差
S
Nຫໍສະໝຸດ Baidu
—— 原始数据点方差
—— 数据点数
年份 人数 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 5600 5796 5930 6092 6257 6567 685 714 7436 7738 8045
1980~1990年我国工业劳动人数(万人)(表3)
首先,选择移动平均周期N。本例中数据趋势 较明显,呈直线趋势,为尽量反映近期变化动向, 可取N=3。利用移动平均公式,首先计算一次移动 平均数:
(4)斜坡式 趋势周期的递增或递减,M总是比实 际趋向落后,因此N应取得越小越好。 一般情况下,如欲加大原始数据的修句力度, 则N宜取大些,如果希望加大对外界变化的反映力 度,刨N宜取小些。N的取值范围一般为3~20。
例 我国1980~1990年工业劳动人数见表,用二次 移动平均数法预测1991~1994年的劳动人数。
(3) 实际 销售额 200.0 135.0 195.0 197.5 310.0 175.0 155.0 130.0 220.0 277.0 235.0 ——
(4) 三个月 移动平均值 —— —— —— 176.7 175.8 234.2 227.5 213.3 153.3 168.3 209.2 244.2
• 经济,要尽量减少数据处理的费用,以降低预 测成本; • 一致,处理的数据在整个比较性。使用期间内 必须是一致的,具有可比较性
数据处理的方法
(1)判别法 通过对历史数据的判断,选择其中可代表整个 预测过程中很可能发生的模式的数据作为建模数据 (2)剔除法 如果数据量比较大,且非必须具备连续的数据 量,这时可剔除数据中受随机干扰的异常值; (3)平均值法 在数据比较少或需要连续数据时,则可采取平 均值法对数据进行处理。
前向差分:在处理时间数列时,一阶前向差分定义

一阶前向差分是当时间由t变到t+1时, xt 的改变量。
二阶前向差分定义为
x xt 1 xt
' t
x x xt xt 2 2xt 1 xt
'' t ' t 1
后向差分:在处理时间数列时,一阶后向差分定义 为
xt的改变量。 一阶后向差分是当时间由t递推到t-1时,
Mt
1
Yt Yt N M t 1 N
1
表1中的的第一列和第二列,即是原始数据与 一次移动平均值的对比。始取N=3的3期移动平均, 则第三期数据的移动值为5766.33,是l由(5600+ 5796+5930)/3得到的。如用于预测,它可以作为 第4期的预测值。在一次移动平均值的基础上,应 用移动平均的原理,还可以进行二次甚至多次的移 动平均,二次移动平均,就是以一项移动平均值为 原始数据,再进行一次移动平均,如以N=5为例: 其公式为其公式为
M9
2
1 1 1 1 1 M5 M6 M7 M8 M9 5
2 表示第9期的二次移动平均值, 式中: M9
其一般公式为 M t 2
1 1 M M 2 t tN M t 1 N
二次移动平均使原始数据得到了进一步修匀, 使其显现线性趋势。表1中的第三列数据为N=3的二 次移动平均值。
相关文档
最新文档