销售额的回归模型

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

销售额的回归模型

组员：周东海 20087610

熊潘 20087618

文跃忠 20087622

摘要：

本文过对预测某公司的销售额的问题，利用统计回归的方法，建立了回归模型，并利用MATLAB 软件进行模型的求解与分析，再通过对模型进行变换，建立了优化后的回归模型。

对问题一：根据数据的散点图建立起来的线性回归模型

t t x y 1763.04548.1ˆ+-=，其拟合度是非常的好，看起来是合适的。

对问题二：残差t e 可以作为随机误差t ε的估计值，从1~-t t

e e 的散点图，能够从直观

上定性的判断随机误差t ε存在自相关性；也可以用W D -检验法去定量判断，对于本文中，由L d DW <1，随机误差t ε存在自相关性。因此，模型t t x y 1763.04548.1ˆ+-=是

不可取的。

对问题三：为了消除随机误差t ε存在的自相关性，我们对模型进行优化变换后得到新的模型

110.1112080.1763630791.0537126.0ˆ---++-=t t t t x x y y ，再

对此模型用W D -检验法进行判定，由于U U d DW d -<<42 ，随机误差t ε无自相关性，因此，这个模型就可以作为预测公司的销售额的问题的回归模型。

关键词：回归模型时间序列拟合 MATLAB W D -检验

一、问题的重述

某公司想用全行业的销售额作为自变量来预测公司的销售额，附录I给出了1977-1981年公司销售额和行业销售额的分季度数据（单位：百万元）。

（1）画出数据的散点图，观察用线性回归模型拟合是否合适。

（2）建立公司销售额对全行业销售额的回归模型，并用DW检验诊断随机误差项的自相关性。

二、符号说明

y：公司的第t次季度销售额

x：全行业的第t次季度销售额

a,:模型I中的常量与系数

yˆ：由模型求得的公司的第t次季度销售额

e：公司的第t次季度销售额的残差

三、模型的建立与分析

1. 绘制散点图程序见附录

输出图形见图1

图1 行业销售额与公司销售额数据的散点图

根据图1，初步判断应以一次线性曲线为拟合目标，即选择线性回归模型，目标函数为：

t t bx a y +=

2. 模型分析

程序及结果见附录

b 的数据表示在线性回归模型中，1763.0,4548.1=-=b a ；

即拟合的线性回归模型I 为：

t t x y 1763.04548.1ˆ+-=

bint 的数据表示拟合系数a 和b 的95%的置信区间分别为：

[-1.9047 -1.0048]和[0.1732 0.1793] r 中的数据表示模型拟合残差向量t e ；

rint 中的数据表示模型拟合残差的95%的置信区间；

在states 的数据中

表示包含10.0001 * 004

1.0e 2

≈+=R 方差分析的F 统计量4888.1=F 方差分析的显著性概率0=p

模型方差的估计值0000.0ˆ2

=σ

四、自相关性诊断与处理

从表面上看得到的基本模型I 的拟合度非常之高（10.0001 * 004

1.0e 2

≈+=R ），应该很满意了。但是，这个模型并没有考虑到我们的数据是一个时间序列（将表1的年份序号

打乱，不影响模型I 的结果）。实际上，在对时间序列数据做回归分析时，模型的随机误差项t ε有可能存在相关性，违背模型关于t ε（对时间t ）相互独立的假设。

残差t t t y y e ˆ-=可以作为随机误差t ε的估计值，画出1~-t t e e 的散点图（图1），能

够从直观上判断t ε的自相关性。模型I 的残差t e 可以在计算中得到，如表2，数据1

~-t t

e e 的散点图如图2，可以看到，大部分点子落在第1,3象限，表明t e 存在正的自相关。

为了对t e 的自相关性作定量诊断，并在确诊后得到新的结果，我们考虑如下模型：

t t t t t t u bx a y +=++=-1,ρεεε

其中，ρ是自相关系数，1||≤ρ ，t u 相互独立且服从均值为零的正态分布，,,,2,1n t ⋅⋅⋅=

表2 模型I 的残差t e

图2 模型I 1~-t t e e 的散点图

根据模型I 得到的残差计算DW 统计量如下：

()

738418.0220

120

1=-∑=

∑=-=t t t t t e e e DW

图3 与DW 值对应的自相关状态

对于显著性水平2,20,05.0===k n α，查D-W 分布表，得到检验的临界值20.1=L d 和

40.1=U d 。现在L d DW <1，由图2可以认为随机误差存在自相关。且正自相关系数ρ的

估计值630791.02

738418

.0121ˆ11=-=-=DW ρ

对模型中的变量作变换：

11*630791.0---=-=t t t t t y y y y y ρ； 11*630791.0---=-=t t t t t x x x x x ρ.

则模型I 化为：

)1(,****ρ-=++=a a u bx a y t t t ；

代入数据得到：

t t t u x y ++-=**0.1763537126.0

将式中

**,t t x y 还原为原始变量t t x y ,得到结果即是模型II ：

110.1112080.1763630791.0537126.0ˆ---++-=t t t t x x y y ；

结果分析：

根据模型II 得到的残差计算DW 统计量如下：

()

74967.1220

120

2=-∑=

∑=-=t t t t t e e e DW

现在U U d DW d -<<42，由图2可以认为随机误差无自相关，

从机理上看，对于带滞后性的经济规律作用下的时间序列数据，加入自相关的模型II

更为合理，而且在本题当中，衡量与实际数据拟合程度的指标——剩余标准差从模型I 的

0.36514减小到0.28329 。我们将模型II 、模型I 的计算值t y

ˆ与实际数据t y 的比较，以及两个模型的残差t e 表示在表3中，可以看出模型II 更合适一些。