年销售额的回归模型预测

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

学号

武汉理工大学

数学建模与仿真

课程设计

设计题目

专业班级

姓名

指导老师

2011年 1 月16 日

附件2：

课程设计任务书

学生姓名：专业班级：

指导教师：工作单位：

题目:

初始条件：

要求完成的主要任务:（包括课程设计工作量及其技术要求，以及说明书撰写等具体要求）

时间安排：

指导教师签名：年月日

系主任（或责任教师）签名：年月日

年销售额的回归模型预测

【摘要】

本文首先利用题目所给数据做出散点图，分析自变量与因变量之间的线性关系，建立基本的线性回归模型t t t x y εββ++=10[1]，对所建立的模型直接用MATLAB 统计工具箱

[2]

求解，得到的回归系数估计值及其置信区间（置信水平05.0=α）、检验统计量

2R ,F ,P [3]，将参数估计值代入初始模型得到t t x y 17628.04548.1+-=∧

。

但是这个模型没有考虑到题目所给的数据是一个时间序列。实际上，在对时间序列数据作回归分析时，模型的随机误差项t ε有可能存在相关性。违背模型关于t ε（对t ）相互独立的基本假设。所以对原模型进行自相关检验，发现其随机误差存在正自相关，故对原模型作变量变换：1'--=t t t y y y ρ ，1'--=t t t x x x ρ得到新的模型：t t t u x y ++=''1'0'ββ，其中，()ρββ-=10'0，1'1ββ=。

对新的模型利用MATLAB 统计工具箱求解，并对新的模型也作一次自相关检验，即诊断随机误差t u 是否还存在自相关，经检验认为新的模型中随机误差不存在自相关。因此经变换所得到的回归模型t t t u x y ++=''1'0'ββ是适用的。

最后，将模型t t t u x y ++=''1'0'ββ中的't y 和't x 还原为原始变量t y 和t x ，得到结果为：

111099.01737.06326.03916.0--∧

-++-=t t t t x x y y

关键词：时间序列回归模型统计检验 D —W 检验

一、问题重述与分析

1.1、问题提出

某公司（记为A）想用全行业的销售额作为自变量来预测公司的销售额,表1给出了2006年～2010年公司销售额和行业销售额的分季度数据(单位:百万元)。

表1 A公司的公司销售额和行业销售额的分季度数据(单位:百万元)

年季t 公司

销售

额y

行业

销售

额x

年季t

公司

销售

额y

行业

销售

额x

2006 1 1 20.96 127.3

2008

3 11 24.5

4 148.3

2 2 21.40 130.0 4 12 24.30 146.4

3 3 21.96 132.7

2009

1 13 25.00 150.

2 4 4 21.52 129.4 2 14 25.64 153.1

2007 1 5 22.39 135.0 3 15 26.36 157.3

2 6 22.76 137.1 4 16 26.98 160.7

3 7 23.48 141.2

2010

1 17 27.5

2 164.2 4 8 23.66 142.8 2 18 27.78 165.6

2008 1 9 24.10 145.5 3 19 28.24 168.7

2 10 24.01 145.

4 20 28.78 171.7

1.2、问题分析

表1的数据是以时间序列为序的，称为时间序列。由于公司销售额和行业销售额等经变量均有一定的滞后性，因此，在这样的时间序列数据中，同一变量的顺序观测值之间出现相关现象（称自相关）是很自然的。然而，一旦数据中存在这种自相关序列，如果仍采用普通的回归模型直接处理，将会出现不良后果，其观测也会失去意义，为此，我们必须先来诊断数据是否存在自相关，如果存在，就要考虑自相关关系，建立新的模型。

二、模型假设

根据题目所给出的数据信息，做出以下简化假设：

1、假设只考虑题目所给的信息，不考虑其他因素对公司销售额的直接影响；

2、假设其他各种随机因素对公司销售额的影响都归为随机误差；

三．模型的符号说明

t y ：表示公司销售额。 t x ：表示行业销售额。

i β：表示线性回归模型的回归系数。

t ε：表示各种随机因素对t y 的影响总和，称为随机误差。

∧

t y ：表示公司销售额的估计值。

四、模型的建立与求解

4.1、基本回归模型的建立

由于题目中所给数据较少，故将每年每季度的销售额数据作为一个单独研究的对象，将所有数据按年份和季度编号。

记该公司的行业销售额为t x ,公司销售额为t y ,()20,2,1==n t 。利用MATLAB 作出因变量t y 与自变量t x 的散点图，如图1。

图1 公司销售额t y 与行业销售额t x 的散点图

从图1可以看出，随着行业销售额的增加，公司销售额也增大，而且两者有很强的线性关系，因此可以建立线性回归模型

t t t x y εββ++=10 （1）

上述线性回归模型中除了行业销售额外，影响的其他因素的作用包含在随机误差t

ε内，这里假设t ε（对t ）相互独立，且服从均值为零的正态分布，n t ,2,1=. 对于初步估计的回归模型能否客观揭示所研究的经济现象中诸因素之间的关系，是否符合变量之间的客观规律性，引入所影响因素是否有效，变量之间是否存在线性相关关系，模型能否付诸应用，应通过模型检验决定。

4.2、统计检验

(一)拟合优度检验(2R 检验)

拟合优度检验是检验回归方程对样本观测值的拟合程度，即检验所有解释变量与被解释变量之间的相关程度。检验的方法是构造一个可以表征拟合程度的指标，这个指标是通过对总变差(总离差)的分解而得到。

(

)

∑∑∑

⎪

⎭⎫

⎝⎛-+⎪⎭⎫ ⎝⎛-=-=∧∧

y y y y y y S i i i i 总

其中 2

∑⎪⎭⎫ ⎝⎛-=∧

i i y y S 残，2

∑⎪⎭

⎫

⎝⎛-=∧y y S i 回

总变差平方和总S 是各个观察值与样本均值之差的平方和，反映了全部数据之间的差异；残差平方和残S 是总变差平方和中未被回归方程解释的部分，由解释变量

k x x x ,,21中未包含的一切因素对被解释变量y 的影响而造成的；回归平方和回S 是总变差平方和中由回归方程解释的部分。

一个拟合得好的回归模型，体现在总体平方和与回归平方和的接近程度，即总S 中

残S 越小越好。于是采用：

()

1012

2≤≤-=-⎪⎭⎫

⎝

⎛-==∑∑∧R

S S y y y y S S R i i 总

残

总回

对回归方程的拟合优度进行检验。如果所有样本观测值都位于回归方程上，即：