数学建模之统计回归模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数学建模大作业

摘要

某公司想用全行业的销售额作为自变量来预测公司的销售额,题目给出了1977—1981此公司的销售额和行业销售额的分季度数据表格。通过对所给数据的简单分析,我们可以看出:此公司的销售额有随着行业销售额的增加而增加的趋势,为了更加精确的分析题目所给的数据,得出科学的结论,从而达到合理预测的目的。我们使用时间序列分析法,参照课本统计回归模型例4,做出了如下的统计回归模型。

在问题一中,我们使用MATLB数学软件,画出了数据的散点图,通过观察散点图,发现公司的销售额和行业销售额之间有很强的线性关系,于是我们用线性回归模型去拟合,发现有很好的拟合性。但是这种情况下,并没有考虑到数据的自相关性,所以我们做了下面几个问题的分析来对这个数学模型进行优化。

在问题二中,通过建立了公司销售额对全行业销售额的回归模型,并使用DW检测诊断随机误差项的自相关性。通过计算和查DW表比较后发现随即误差存在正自相关,也就是说前面的模型有一定的局限性,预测结果存在一定的偏差,还有需要改进的地方。

在问题三中,因为在问题二中得出随即误差存在正自相关,为了消除随机误差的自相关性,我们建立了一个加入自相关后的回归模型。并对其作出了分析和验证,我们发现加入自相关后的回归模型更加合理。通过使用我们建立的模型对公司的销售额进行预测,发现和实际的销售额很接近,也就是说模型效果还不错。

关键词:销售额、回归模型、自相关性

一、问题提出

某公司想用全行业的销售额作为自变量来预测公司的销售额,下表给出了1977-1981年公司销售额和行业销售额的分季度数据(单位:百万元).

(1)画出数据的散点图,观察用线性回归模型拟合是否合适。

(2)监理公司销售额对全行业销售额的回归模型,并用DW检验诊断随机误差项的自相关性。

二、基本假设

假设一:模型中ε(对时间t )相互独立。

三、符号说明

公司销售额:y (百万)

行业销售额:x (百万) 概念介绍:

1.自相关:自相关(auto correlation ),又称序列相关(serial correlation )是指总体回归模型的随机误差项之间存在的相关关系。即不同观测点上的误差项彼此相关。

2.置信区间:如果P (a b x ≤≤)=1-α,α=0.1或0.05,则称区间[a,b]为x 的置信度为1-α的置信区间。

3.时间序列:时间序列法是一种定量预测方法,亦称简单外延方法。时间序列即按时间的推移或排布会对规律的变化有所影响。

四、问题分析

问题一:表中的数据是以时间为顺序的。由于前期的销售额对后期的投资一般有明显的影响,从而对后期的后期的销售额造成影响。因此在此模型中应考虑到存在自相关,我们可以先建立基本的回归模型,然后再进行自相关性诊断,并建立新的回归模型。

问题二:在问题一之后,就可以接着求出问题二,然后利用DW 检验诊断随机误差项的自相关性。

问题三:进行了自相关诊断后,将自相关加入模型中,建立消除了随机误差项自相关性的回归模型。

五、模型的建立与求解

5.1 问题一

5.1.1 问题一的分析

表中数据是以时间为序的,建立基本的回归模型。

5.1.2 问题一模型的建立

基本回归模型:

设该公司第t 时间的公司销售额为t

y ,行业销售额为

t

x 。为了大致分析

t

y 和

t

x 的关系,

首先利用表中的数据作出

t

y 对

t

x 关系作出散点图,如下(见图中的“+”):做散点图:

可以看出,随着行业销售额的增加,公司销售额增大,而且两者有很强的线性关系,图中的直线说明两者呈线性模型,因此本题用线性回归模型拟合非常合适。 5.2 问题二

5.2.1 问题二的分析

从问题一中的图形可以看出,随着行业销售额的增加,公司销售额增大,而且两者有很强的线性关系,图中的直线说明两者呈线性模型,因此可建立一元线性回归模型。

5.2.2 问题二模型的建立

由题意建立一元线性回归模型

t t t x y εββ++=10 (1) 模型(1)中除了行业销售额和公司销售额的影响外,影响

t

y 的其他因素都包含在随机

误差t ε内,这里假设t ε

(对t 相互独立)且服从均值为零的正态分布N(0, )。

5.2.3 问题二模型的求解

根据表中的数据。对模型(1)直接利用MATLAB 统计工具箱求解(具体算法见附录),得到的回归系数估计值及置信区间(置信水平α=0.05)、检验统计量R ,F ,p 的结果见下表:

参数

参数估计值

参数置信区间

0β -1.4548

【-1.9047 -1.0048】 0β

0.1763

【0.1732 0.1793】 R=1.0e+004 *0.0001

F=1.0e+004 *1.4888

P=1.0e+004 *0.0000

将参数估计值代入(1)得到:

t t x y 1763.04548.1+-= (2)

用MATLAB 中rstool 命令得到的交互式画面见图 (1) ,由此可以得出不同水平下的预测值及其置信区间。通过左下方的Export 下拉式菜单。可以输出模型的统计结果。

图1

自相关性诊断与处理方法 从表面上来看得到的基本模型(2)拟合度(R )非常之高,接近你

100%,应该很满意了,但是,这个模型并没有考虑到我们的数据是一个时间序列(将原表中的数据打乱不影响模型(2)的结果)。实际上对于时间序列数据做回归分析时,模型的随机误差t ε有可能存在相关性,违背模型关于t ε(对时间t )相互独立的基本假设,其他相关因素对公司销售额的影响肯能也有时间上的延续,包含在随机误差t ε中,即随机误差t ε会出现自相关性。

残差^

t t t y y e -=可以作为随机误差t ε的估计值,画出t e 1~-t e 的散点图,能够从直观上判断t ε的自相关性。模型(2)的残差可在计算过程中得到表1,以及数据t e 1~-t e 的图见图 2

t 1

2

3

4

5

e -0.0282

-0.0642

0.0198

0.1616

0.0443

t 6

7

8

9

10

e 0.0441

0.0412

-0.0608

-0.0968

-0.1516

t 11

12

13

14

15

e -0.1505

-0.0555

-0.0255

0.1033

0.0828

t 16

17

18

19

20

e

0.1034

0.0263

0.0395

-0.047

-0.0359

相关文档
最新文档