数学建模之统计回归模型

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数学建模大作业

摘要

某公司想用全行业的销售额作为自变量来预测公司的销售额，题目给出了1977—1981此公司的销售额和行业销售额的分季度数据表格。通过对所给数据的简单分析，我们可以看出：此公司的销售额有随着行业销售额的增加而增加的趋势，为了更加精确的分析题目所给的数据，得出科学的结论，从而达到合理预测的目的。我们使用时间序列分析法，参照课本统计回归模型例4，做出了如下的统计回归模型。

在问题一中，我们使用MATLB数学软件，画出了数据的散点图，通过观察散点图，发现公司的销售额和行业销售额之间有很强的线性关系，于是我们用线性回归模型去拟合，发现有很好的拟合性。但是这种情况下，并没有考虑到数据的自相关性，所以我们做了下面几个问题的分析来对这个数学模型进行优化。

在问题二中，通过建立了公司销售额对全行业销售额的回归模型，并使用DW检测诊断随机误差项的自相关性。通过计算和查DW表比较后发现随即误差存在正自相关，也就是说前面的模型有一定的局限性，预测结果存在一定的偏差，还有需要改进的地方。

在问题三中，因为在问题二中得出随即误差存在正自相关，为了消除随机误差的自相关性，我们建立了一个加入自相关后的回归模型。并对其作出了分析和验证，我们发现加入自相关后的回归模型更加合理。通过使用我们建立的模型对公司的销售额进行预测，发现和实际的销售额很接近，也就是说模型效果还不错。

关键词：销售额、回归模型、自相关性

一、问题提出

某公司想用全行业的销售额作为自变量来预测公司的销售额，下表给出了1977-1981年公司销售额和行业销售额的分季度数据（单位：百万元）.

（1）画出数据的散点图，观察用线性回归模型拟合是否合适。

（2）监理公司销售额对全行业销售额的回归模型，并用DW检验诊断随机误差项的自相关性。

二、基本假设

假设一：模型中ε（对时间t ）相互独立。

三、符号说明

公司销售额：y （百万）

行业销售额：x （百万）概念介绍：

1.自相关：自相关（auto correlation ），又称序列相关（serial correlation ）是指总体回归模型的随机误差项之间存在的相关关系。即不同观测点上的误差项彼此相关。

2．置信区间：如果P （a b x ≤≤）=1-α，α=0.1或0.05，则称区间[a,b]为x 的置信度为1-α的置信区间。

3.时间序列：时间序列法是一种定量预测方法，亦称简单外延方法。时间序列即按时间的推移或排布会对规律的变化有所影响。

四、问题分析

问题一：表中的数据是以时间为顺序的。由于前期的销售额对后期的投资一般有明显的影响，从而对后期的后期的销售额造成影响。因此在此模型中应考虑到存在自相关，我们可以先建立基本的回归模型，然后再进行自相关性诊断，并建立新的回归模型。

问题二：在问题一之后，就可以接着求出问题二，然后利用DW 检验诊断随机误差项的自相关性。

问题三：进行了自相关诊断后，将自相关加入模型中，建立消除了随机误差项自相关性的回归模型。

五、模型的建立与求解

5.1 问题一

5.1.1 问题一的分析

表中数据是以时间为序的，建立基本的回归模型。

5.1.2 问题一模型的建立

基本回归模型：

设该公司第t 时间的公司销售额为t

y ，行业销售额为

t

x 。为了大致分析

t

y 和

t

x 的关系，

首先利用表中的数据作出

t

y 对

t

x 关系作出散点图，如下（见图中的“+”）：做散点图：

可以看出，随着行业销售额的增加，公司销售额增大，而且两者有很强的线性关系，图中的直线说明两者呈线性模型，因此本题用线性回归模型拟合非常合适。 5.2 问题二

5.2.1 问题二的分析

从问题一中的图形可以看出，随着行业销售额的增加，公司销售额增大，而且两者有很强的线性关系，图中的直线说明两者呈线性模型，因此可建立一元线性回归模型。

5.2.2 问题二模型的建立

由题意建立一元线性回归模型

t t t x y εββ++=10 （1）模型（1）中除了行业销售额和公司销售额的影响外，影响

t

y 的其他因素都包含在随机

误差t ε内，这里假设t ε

（对t 相互独立）且服从均值为零的正态分布N(0, )。

5.2.3 问题二模型的求解

根据表中的数据。对模型（1）直接利用MATLAB 统计工具箱求解（具体算法见附录），得到的回归系数估计值及置信区间（置信水平α=0.05）、检验统计量R ,F ,p 的结果见下表：

参数

参数估计值

参数置信区间

0β -1.4548

【-1.9047 -1.0048】 0β

0.1763

【0.1732 0.1793】 R=1.0e+004 *0.0001

F=1.0e+004 *1.4888

P=1.0e+004 *0.0000

将参数估计值代入（1）得到：

t t x y 1763.04548.1+-= (2)

用MATLAB 中rstool 命令得到的交互式画面见图（1），由此可以得出不同水平下的预测值及其置信区间。通过左下方的Export 下拉式菜单。可以输出模型的统计结果。

图1

自相关性诊断与处理方法从表面上来看得到的基本模型（2）拟合度（R ）非常之高，接近你

100%，应该很满意了，但是，这个模型并没有考虑到我们的数据是一个时间序列（将原表中的数据打乱不影响模型（2）的结果）。实际上对于时间序列数据做回归分析时，模型的随机误差t ε有可能存在相关性，违背模型关于t ε（对时间t ）相互独立的基本假设，其他相关因素对公司销售额的影响肯能也有时间上的延续，包含在随机误差t ε中，即随机误差t ε会出现自相关性。

残差^

t t t y y e -=可以作为随机误差t ε的估计值，画出t e 1~-t e 的散点图，能够从直观上判断t ε的自相关性。模型（2）的残差可在计算过程中得到表1，以及数据t e 1~-t e 的图见图 2

t 1

2

3

4

5

e -0.0282

-0.0642

0.0198

0.1616

0.0443

t 6

7

8

9

10

e 0.0441

0.0412

-0.0608

-0.0968

-0.1516

t 11

12

13

14

15

e -0.1505

-0.0555

-0.0255

0.1033

0.0828

t 16

17

18

19

20

e

0.1034

0.0263

0.0395

-0.047

-0.0359