销售额的回归模型

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

销售额的回归模型

组员:周东海 20087610

熊潘 20087618

文跃忠 20087622

摘要:

本文过对预测某公司的销售额的问题,利用统计回归的方法,建立了回归模型,并利用MATLAB 软件进行模型的求解与分析,再通过对模型进行变换,建立了优化后的回归模型。

对问题一:根据数据的散点图建立起来的线性回归模型

t t x y 1763.04548.1ˆ+-=,其拟合度是非常的好,看起来是合适的。

对问题二:残差t e 可以作为随机误差t ε的估计值,从1~-t t

e e 的散点图,能够从直观

上定性的判断随机误差t ε存在自相关性;也可以用W D -检验法去定量判断,对于本文中,由L d DW <1,随机误差t ε存在自相关性。因此,模型t t x y 1763.04548.1ˆ+-=是

不可取的。

对问题三:为了消除随机误差t ε存在的自相关性,我们对模型进行优化变换后得到新的模型

110.1112080.1763630791.0537126.0ˆ---++-=t t t t x x y y ,再

对此模型用W D -检验法进行判定,由于U U d DW d -<<42 ,随机误差t ε无自相关性,因此,这个模型就可以作为预测公司的销售额的问题的回归模型。

关键词: 回归模型 时间序列 拟合 MATLAB W D -检验

一、问题的重述

某公司想用全行业的销售额作为自变量来预测公司的销售额,附录I给出了1977-1981年公司销售额和行业销售额的分季度数据(单位:百万元)。

(1)画出数据的散点图,观察用线性回归模型拟合是否合适。

(2)建立公司销售额对全行业销售额的回归模型,并用DW检验诊断随机误差项的自相关性。

二、符号说明

y:公司的第t次季度销售额

t

x:全行业的第t次季度销售额

t

a,:模型I中的常量与系数

b

yˆ:由模型求得的公司的第t次季度销售额

t

e:公司的第t次季度销售额的残差

t

三、模型的建立与分析

1. 绘制散点图 程序见附录

输出图形见图1

图1 行业销售额与公司销售额数据的散点图

根据图1,初步判断应以一次线性曲线为拟合目标,即选择线性回归模型,目标函数为:

t t bx a y +=

2. 模型分析

程序及结果见附录

b 的数据表示在线性回归模型中,1763.0,4548.1=-=b a ;

即拟合的线性回归模型I 为:

t t x y 1763.04548.1ˆ+-=

bint 的数据表示拟合系数a 和b 的95%的置信区间分别为:

[-1.9047 -1.0048]和[0.1732 0.1793] r 中的数据表示模型拟合残差向量t e ;

rint 中的数据表示模型拟合残差的95%的置信区间;

在states 的数据中

表示包含10.0001 * 004

1.0e 2

≈+=R 方差分析的F 统计量4888.1=F 方差分析的显著性概率0=p

模型方差的估计值0000.0ˆ2

四、 自相关性诊断与处理

从表面上看得到的基本模型I 的拟合度非常之高(10.0001 * 004

1.0e 2

≈+=R ),应该很满意了。但是,这个模型并没有考虑到我们的数据是一个时间序列(将表1的年份序号

打乱,不影响模型I 的结果)。实际上,在对时间序列数据做回归分析时,模型的随机误差项t ε有可能存在相关性,违背模型关于t ε(对时间t )相互独立的假设。

残差t t t y y e ˆ-=可以作为随机误差t ε的估计值,画出1~-t t e e 的散点图(图1),能

够从直观上判断t ε的自相关性。模型I 的残差t e 可以在计算中得到,如表2,数据1

~-t t

e e 的散点图如图2,可以看到,大部分点子落在第1,3象限,表明t e 存在正的自相关。

为了对t e 的自相关性作定量诊断,并在确诊后得到新的结果,我们考虑如下模型:

t t t t t t u bx a y +=++=-1,ρεεε

其中,ρ是自相关系数,1||≤ρ ,t u 相互独立且服从均值为零的正态分布,,,,2,1n t ⋅⋅⋅=

表2 模型I 的残差t e

图2 模型I 1~-t t e e 的散点图

根据模型I 得到的残差计算DW 统计量如下:

()

738418.0220

22

120

2

1=-∑=

∑=-=t t t t t e e e DW

图3 与DW 值对应的自相关状态

对于显著性水平2,20,05.0===k n α,查D-W 分布表,得到检验的临界值20.1=L d 和

40.1=U d 。现在L d DW <1,由图2可以认为随机误差存在自相关。且正自相关系数ρ的

估计值630791.02

738418

.0121ˆ11=-=-=DW ρ

对模型中的变量作变换:

11*630791.0---=-=t t t t t y y y y y ρ; 11*630791.0---=-=t t t t t x x x x x ρ.

则模型I 化为:

)1(,****ρ-=++=a a u bx a y t t t ;

代入数据得到:

t t t u x y ++-=**0.1763537126.0

将式中

**,t t x y 还原为原始变量t t x y ,得到结果即是模型II :

110.1112080.1763630791.0537126.0ˆ---++-=t t t t x x y y ;

结果分析:

根据模型II 得到的残差计算DW 统计量如下:

()

74967.1220

32

120

3

2=-∑=

∑=-=t t t t t e e e DW

现在U U d DW d -<<42,由图2可以认为随机误差无自相关,

从机理上看,对于带滞后性的经济规律作用下的时间序列数据,加入自相关的模型II

更为合理,而且在本题当中,衡量与实际数据拟合程度的指标——剩余标准差从模型I 的

0.36514减小到0.28329 。我们将模型II 、模型I 的计算值t y

ˆ与实际数据t y 的比较,以及两个模型的残差t e 表示在表3中,可以看出模型II 更合适一些。

相关文档
最新文档