数学建模之统计回归模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数学建模大作业
摘要
某公司想用全行业的销售额作为自变量来预测公司的销售额,题目给出了1977—1981此公司的销售额和行业销售额的分季度数据表格。通过对所给数据的简单分析,我们可以看出:此公司的销售额有随着行业销售额的增加而增加的趋势,为了更加精确的分析题目所给的数据,得出科学的结论,从而达到合理预测的目的。我们使用时间序列分析法,参照课本统计回归模型例4,做出了如下的统计回归模型。
在问题一中,我们使用MATLB数学软件,画出了数据的散点图,通过观察散点图,发现公司的销售额和行业销售额之间有很强的线性关系,于是我们用线性回归模型去拟合,发现有很好的拟合性。但是这种情况下,并没有考虑到数据的自相关性,所以我们做了下面几个问题的分析来对这个数学模型进行优化。
在问题二中,通过建立了公司销售额对全行业销售额的回归模型,并使用DW检测诊断随机误差项的自相关性。通过计算和查DW表比较后发现随即误差存在正自相关,也就是说前面的模型有一定的局限性,预测结果存在一定的偏差,还有需要改进的地方。
在问题三中,因为在问题二中得出随即误差存在正自相关,为了消除随机误差的自相关性,我们建立了一个加入自相关后的回归模型。并对其作出了分析和验证,我们发现加入自相关后的回归模型更加合理。通过使用我们建立的模型对公司的销售额进行预测,发现和实际的销售额很接近,也就是说模型效果还不错。
关键词:销售额、回归模型、自相关性
一、问题提出
某公司想用全行业的销售额作为自变量来预测公司的销售额,下表给出了1977-1981年公司销售额和行业销售额的分季度数据(单位:百万元).
(1)画出数据的散点图,观察用线性回归模型拟合是否合适。
(2)监理公司销售额对全行业销售额的回归模型,并用DW检验诊断随机误差项的自相关性。
二、基本假设
假设一:模型中ε(对时间t )相互独立。
三、符号说明
公司销售额:y (百万)
行业销售额:x (百万) 概念介绍:
1.自相关:自相关(auto correlation ),又称序列相关(serial correlation )是指总体回归模型的随机误差项之间存在的相关关系。即不同观测点上的误差项彼此相关。
2.置信区间:如果P (a b x ≤≤)=1-α,α=0.1或0.05,则称区间[a,b]为x 的置信度为1-α的置信区间。
3.时间序列:时间序列法是一种定量预测方法,亦称简单外延方法。时间序列即按时间的推移或排布会对规律的变化有所影响。
四、问题分析
问题一:表中的数据是以时间为顺序的。由于前期的销售额对后期的投资一般有明显的影响,从而对后期的后期的销售额造成影响。因此在此模型中应考虑到存在自相关,我们可以先建立基本的回归模型,然后再进行自相关性诊断,并建立新的回归模型。
问题二:在问题一之后,就可以接着求出问题二,然后利用DW 检验诊断随机误差项的自相关性。
问题三:进行了自相关诊断后,将自相关加入模型中,建立消除了随机误差项自相关性的回归模型。
五、模型的建立与求解
5.1 问题一
5.1.1 问题一的分析
表中数据是以时间为序的,建立基本的回归模型。
5.1.2 问题一模型的建立
基本回归模型:
设该公司第t 时间的公司销售额为t
y ,行业销售额为
t
x 。为了大致分析
t
y 和
t
x 的关系,
首先利用表中的数据作出
t
y 对
t
x 关系作出散点图,如下(见图中的“+”):做散点图:
可以看出,随着行业销售额的增加,公司销售额增大,而且两者有很强的线性关系,图中的直线说明两者呈线性模型,因此本题用线性回归模型拟合非常合适。 5.2 问题二
5.2.1 问题二的分析
从问题一中的图形可以看出,随着行业销售额的增加,公司销售额增大,而且两者有很强的线性关系,图中的直线说明两者呈线性模型,因此可建立一元线性回归模型。
5.2.2 问题二模型的建立
由题意建立一元线性回归模型
t t t x y εββ++=10 (1) 模型(1)中除了行业销售额和公司销售额的影响外,影响
t
y 的其他因素都包含在随机
误差t ε内,这里假设t ε
(对t 相互独立)且服从均值为零的正态分布N(0, )。
5.2.3 问题二模型的求解
根据表中的数据。对模型(1)直接利用MATLAB 统计工具箱求解(具体算法见附录),得到的回归系数估计值及置信区间(置信水平α=0.05)、检验统计量R ,F ,p 的结果见下表:
参数
参数估计值
参数置信区间
0β -1.4548
【-1.9047 -1.0048】 0β
0.1763
【0.1732 0.1793】 R=1.0e+004 *0.0001
F=1.0e+004 *1.4888
P=1.0e+004 *0.0000
将参数估计值代入(1)得到:
t t x y 1763.04548.1+-= (2)
用MATLAB 中rstool 命令得到的交互式画面见图 (1) ,由此可以得出不同水平下的预测值及其置信区间。通过左下方的Export 下拉式菜单。可以输出模型的统计结果。
图1
自相关性诊断与处理方法 从表面上来看得到的基本模型(2)拟合度(R )非常之高,接近你
100%,应该很满意了,但是,这个模型并没有考虑到我们的数据是一个时间序列(将原表中的数据打乱不影响模型(2)的结果)。实际上对于时间序列数据做回归分析时,模型的随机误差t ε有可能存在相关性,违背模型关于t ε(对时间t )相互独立的基本假设,其他相关因素对公司销售额的影响肯能也有时间上的延续,包含在随机误差t ε中,即随机误差t ε会出现自相关性。
残差^
t t t y y e -=可以作为随机误差t ε的估计值,画出t e 1~-t e 的散点图,能够从直观上判断t ε的自相关性。模型(2)的残差可在计算过程中得到表1,以及数据t e 1~-t e 的图见图 2
t 1
2
3
4
5
e -0.0282
-0.0642
0.0198
0.1616
0.0443
t 6
7
8
9
10
e 0.0441
0.0412
-0.0608
-0.0968
-0.1516
t 11
12
13
14
15
e -0.1505
-0.0555
-0.0255
0.1033
0.0828
t 16
17
18
19
20
e
0.1034
0.0263
0.0395
-0.047
-0.0359