评价两种预测模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

判断预测方法优劣

摘要

本文围绕着数据预测方法的评论问题展开讨论,采用数理统计学中假设检验的方法来评价四个时段两种预测方法的准确性,得到方差分别与实测值进行比较建立了模型1,对两种预测方法的准确性作出了定量的分析。若分四个时段来评价两种预测方法的准确性,在不同的时间、时段有不同的评价结果;然后继续采用数理统计学中的假设检验方法,将两种预测方法中的预测数据分别与实际值作差,得到每一天中的不同时段的差值,再求出这些差值的平均值,把这两组差值的平均值进行检验,并且作出比较。最后,得出最终结果:预测方法一比预测方法二预测出的结果更好一些。

关键词:预测假设检验平均值

1 问题重述

数据预测对我们的学习工作和日常生活有重要作用!。但准确、及时地对未来数据作出预测是一个十分困难的问题,广受世界各国的关注。我国某地观测站正在研究某项数据的预测方法,即每天按四个不同的时段在观测点对这项数据进行观测。这些位置位于东经120度、北纬32度附近的53*47的等网格点上。同时设立91个观测站点实测这些时段的实际数据!由于各种条件的限制! 站点的设置是不均匀的。观测站希望建立一种科学评价预测方法好坏的数学模型与方法。观测站提供了41天的两种不同方法的预报数据和相应的实测数据。预报数据在文件夹FORECASE中,实测数据在文件夹MEASURING 中。其中的文件都可以用Windows系统的“写字板”程序打开阅读。其中文件名为_dis1和_dis2,例如f6181_dis1

中包含2002年6月18日采用第一种方法预报的第一段数据(其数据为

该时段各网格点的雨量),而f6183_dis2中包含2002年6月18日采用第二种方法预报的第三时段的数据。MEASURING中包含了41个名为<

日期>.SIX的文件! 如020618.SIX表示2002年6月18日的连续4 个时

段各站点的实测数据! 这些文件的格式是:

站号纬度经度第1段第2段第3段第4段58138 32.9833 118.5167 0.0000 0.2000 10.1000 3.1000 58139 33.3000 118.8500 0.0000 0.0000 4.6000 7.4000 58141 33.6667 119.2667 0.0000 0.0000 1.1000 1.4000 58143 33.8000 119.8000 0.0000 0.0000 0.0000 1.8000

58146 33.4833 119.8167 0.0000 0.0000 1.5000 1.9000 ……

现在观测站要求建立一个合适的数学模型来对这两个预测方法进行评估,并且对这两个方法进行判断优劣。

2、模型假设

(1)观测站的设立的位置对观测数据不构成任何影响;

(2)实际测量所得的数据都准确无误,没有误差;

(3)设置的网格点是一个质点。

3、符号说明

x

i1、x

i2

、x

i

:分别为预测方法一、二和实际数据的样本;

H

0、H

1

:模型1中假设检验的原假设和备用假设:

1

x、2x、实x:各组数据的总平均值;

S2

1、S2

2

、S2

:各组数据的方差;

μ:数据的检验统计量;

n1、n2、n实:样本个数;

zs1、z2、zs3、zs4:四个时段所测得的真实值;

yc11、yc12、yc13、yc14:预测方法一预测的各个时段的预测值;yc21、yc22、yc23、yc24:预测方法二预测的各个时段的预测值;cz11、cz12、cz1、3cz14:预测方法一预测的各个时段的预测值与实际值的差值;

cz21、cz22、cz23、cz24:预测方法二预测的各个时段的预测值与实际值的差值;

cz1、cz2:两种预测方法预测的各个时段的预测值与实际值的差值的平均值。

4、模型分析

对于评价两种数据预报方法的准确性问题, 我们首先对两种数据预报方法所测得数据做了分析, 两组数据均与实测数据有关。因此,我们将实测数据作为中间量, 运用统计学中相关知识将两种模型的准确性做出评价。 同时,我们对两种预报方法所得数据和实测数据分别进行了拟合,对两种方法的准确性进行了定性的分析和评价。

5、模型的建立与求解

5.1 从每一天的不同时段来考虑:

观察所给的数据,据有关资料可知, 这些数据符合正态分布。 将两种数据预报方法中的数据作为两个样本x 11、 x 12…,x 21、x 22…, 实测数据作为样本x 1实、x 2实… 样本之间是相互独立的。并将每一天的数据作为一个数据集输入到SAS 软件中,得到41张数据集。 检验假设 H 0:x 1=x 实

H 1:x 2=x 实

检验H 0: m 1=m 实: 计算1x =

1

1

n ∑=1

11x i i

x

x =实

n 1∑=实实x i i

1

x

s 21

=1

1n ∑=-1

1

i 1)1(x i

x x

)2

s 2实

=

n 1∑=-实实

实)x 1

i i x (x 2

检验统计量为: μ=

)实

实n x 1n 1(

x 11+-/σ

在假设为真时,服从(0,1)分布,对于给定的信度а,查正态分布表,得 μ0再由实测数据和预测方法1所得的数据算出μ值。当μ>μ0时则拒绝原假设H 0;反之,则接受原假设H 0。 同理检验: 假设H 1

观察所给的数据表可知: 预测值和实测值方差变化不大, 以σ2记

之。由于σ未直接给出,而n 实 n 1 n 2都很大, 因此可用

来代替,于是做统计量

给出信度а的值,将μ1、μ

2

进行比较,

其中接近μ

的方法就比较准确。

以上便是我们给出的评价模型1

观测站将24小时数据情况分成了四个时段来预测数据#,我们对这四段分别进行讨论来确定具体在哪个时段哪种预报方法更准确。因为要检验两种预测方法哪个准确, 所以我们在所有的数据中随机抽取几组数据用上面建立的模型来讨论哪种方法比较准确。

相关文档
最新文档