销售额的回归模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
销售额的回归模型
组员:周东海 20087610
熊潘 20087618
文跃忠 20087622
摘要:
本文过对预测某公司的销售额的问题,利用统计回归的方法,建立了回归模型,并利用MATLAB 软件进行模型的求解与分析,再通过对模型进行变换,建立了优化后的回归模型。
对问题一:根据数据的散点图建立起来的线性回归模型
t t x y 1763.04548.1ˆ+-=,其拟合度是非常的好,看起来是合适的。
对问题二:残差t e 可以作为随机误差t ε的估计值,从1~-t t
e e 的散点图,能够从直观
上定性的判断随机误差t ε存在自相关性;也可以用W D -检验法去定量判断,对于本文中,由L d DW <1,随机误差t ε存在自相关性。因此,模型t t x y 1763.04548.1ˆ+-=是
不可取的。
对问题三:为了消除随机误差t ε存在的自相关性,我们对模型进行优化变换后得到新的模型
110.1112080.1763630791.0537126.0ˆ---++-=t t t t x x y y ,再
对此模型用W D -检验法进行判定,由于U U d DW d -<<42 ,随机误差t ε无自相关性,因此,这个模型就可以作为预测公司的销售额的问题的回归模型。
关键词: 回归模型 时间序列 拟合 MATLAB W D -检验
一、问题的重述
某公司想用全行业的销售额作为自变量来预测公司的销售额,附录I给出了1977-1981年公司销售额和行业销售额的分季度数据(单位:百万元)。
(1)画出数据的散点图,观察用线性回归模型拟合是否合适。
(2)建立公司销售额对全行业销售额的回归模型,并用DW检验诊断随机误差项的自相关性。
二、符号说明
y:公司的第t次季度销售额
t
x:全行业的第t次季度销售额
t
a,:模型I中的常量与系数
b
yˆ:由模型求得的公司的第t次季度销售额
t
e:公司的第t次季度销售额的残差
t
三、模型的建立与分析
1. 绘制散点图 程序见附录
输出图形见图1
图1 行业销售额与公司销售额数据的散点图
根据图1,初步判断应以一次线性曲线为拟合目标,即选择线性回归模型,目标函数为:
t t bx a y +=
2. 模型分析
程序及结果见附录
b 的数据表示在线性回归模型中,1763.0,4548.1=-=b a ;
即拟合的线性回归模型I 为:
t t x y 1763.04548.1ˆ+-=
bint 的数据表示拟合系数a 和b 的95%的置信区间分别为:
[-1.9047 -1.0048]和[0.1732 0.1793] r 中的数据表示模型拟合残差向量t e ;
rint 中的数据表示模型拟合残差的95%的置信区间;
在states 的数据中
表示包含10.0001 * 004
1.0e 2
≈+=R 方差分析的F 统计量4888.1=F 方差分析的显著性概率0=p
模型方差的估计值0000.0ˆ2
=σ
四、 自相关性诊断与处理
从表面上看得到的基本模型I 的拟合度非常之高(10.0001 * 004
1.0e 2
≈+=R ),应该很满意了。但是,这个模型并没有考虑到我们的数据是一个时间序列(将表1的年份序号
打乱,不影响模型I 的结果)。实际上,在对时间序列数据做回归分析时,模型的随机误差项t ε有可能存在相关性,违背模型关于t ε(对时间t )相互独立的假设。
残差t t t y y e ˆ-=可以作为随机误差t ε的估计值,画出1~-t t e e 的散点图(图1),能
够从直观上判断t ε的自相关性。模型I 的残差t e 可以在计算中得到,如表2,数据1
~-t t
e e 的散点图如图2,可以看到,大部分点子落在第1,3象限,表明t e 存在正的自相关。
为了对t e 的自相关性作定量诊断,并在确诊后得到新的结果,我们考虑如下模型:
t t t t t t u bx a y +=++=-1,ρεεε
其中,ρ是自相关系数,1||≤ρ ,t u 相互独立且服从均值为零的正态分布,,,,2,1n t ⋅⋅⋅=
表2 模型I 的残差t e
图2 模型I 1~-t t e e 的散点图
根据模型I 得到的残差计算DW 统计量如下:
()
738418.0220
22
120
2
1=-∑=
∑=-=t t t t t e e e DW
图3 与DW 值对应的自相关状态
对于显著性水平2,20,05.0===k n α,查D-W 分布表,得到检验的临界值20.1=L d 和
40.1=U d 。现在L d DW <1,由图2可以认为随机误差存在自相关。且正自相关系数ρ的
估计值630791.02
738418
.0121ˆ11=-=-=DW ρ
对模型中的变量作变换:
11*630791.0---=-=t t t t t y y y y y ρ; 11*630791.0---=-=t t t t t x x x x x ρ.
则模型I 化为:
)1(,****ρ-=++=a a u bx a y t t t ;
代入数据得到:
t t t u x y ++-=**0.1763537126.0
将式中
**,t t x y 还原为原始变量t t x y ,得到结果即是模型II :
110.1112080.1763630791.0537126.0ˆ---++-=t t t t x x y y ;
结果分析:
根据模型II 得到的残差计算DW 统计量如下:
()
74967.1220
32
120
3
2=-∑=
∑=-=t t t t t e e e DW
现在U U d DW d -<<42,由图2可以认为随机误差无自相关,
从机理上看,对于带滞后性的经济规律作用下的时间序列数据,加入自相关的模型II
更为合理,而且在本题当中,衡量与实际数据拟合程度的指标——剩余标准差从模型I 的
0.36514减小到0.28329 。我们将模型II 、模型I 的计算值t y
ˆ与实际数据t y 的比较,以及两个模型的残差t e 表示在表3中,可以看出模型II 更合适一些。