销售额的回归模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
销售额回归模型 20098511 袁少伟
摘要
公司销售额是对公司综合收益的一个重要表现,某公司希望通过公司与全行业销售额进行对比来对公司未来销售额进行预测。我们利用统计回归的方法,建立了回归模型,并利用MATLAB 软件进行模型的求解与分析,再通过对模型进行变换,建立了优化后的回归模型。
针对问题一:利用已知数据绘制散点图并建立起来线性回归模型
t t x y
1763.04548.1ˆ+-=,其拟合度是非常的好,看起来是合适的。 针对问题二:利用残差t e 作为随机误差t ε的估计值,从1~-t t e e 的散点图,能够从直观上定性的判断随机误差t ε存在自相关性;也可以用W D -检验法去定量判断,对于本文中,由L d DW <1,随机误差t ε存在自相关性。因此,模型
t t x y
1763.04548.1ˆ+-=是不可取的。 针对问题三:为了消除随机误差t ε存在的自相关性,我们对模型进行优化变换后得到新的模型:
110.1112080.1763630791.0537126.0ˆ---++-=t t t t x x y y
,再对此模型用W D -检验法进行判定,由于U U d DW d -<<42 ,随机误差t ε无自相关性,因此,这个模型就可以作为预测公司的销售额的问题的回归模型。
关键词: 回归模型 时间序列 拟合 自相关性 W D -检验
一、问题重述
某公司想用全行业的销售额作为自变量来预测公司的销售额,附录I给出了1977-1981年公司销售额和行业销售额的分季度数据(单位:百万元)。
(1)画出数据的散点图,观察用线性回归模型拟合是否合适。
(2)建立公司销售额对全行业销售额的回归模型,并用DW检验诊断随机误差项的自相关性。
(3)建立消除了随机误差项自相关性后的回归模型。
二、模型假设
y:公司的第t次季度销售额
t
x:全行业的第t次季度销售额
t
a,:模型I中的常量与系数
b
yˆ:由模型求得的公司的第t次季度销售额
t
t e :公司的第t 次季度销售额的残差
三、模型的建立与分析
1. 绘制散点图
利用已知表格(表1)绘制出散点图,绘制方法及程序见附录Ⅰ
图1 行业销售额与公司销售额数据的散点图
根据图1,可以看出行业销售额增大,公司销售额也增大,且具有一定的线性关系,初步
判断应以一次线性曲线为拟合目标,即选择线性回归模型,则目标函数为:
t
t bx a y +=
2. 模型分析
利用Matlab 程序求解a ,b 。程序设计见附录Ⅱ。得到回归系数估计值
1763.0,4548.1=-=b a ;
则拟合的线性回归模型I 为:
t t x y
1763.04548.1ˆ+-=
参数
参数估计值
置信区间
β
1.4548-
[1.9047-,1.0048-] 1β
0.1763
[1.9047-,0.1793]
2R =0.99879 F=1488.8 p=0.007
拟合系数a 和b 的95%的置信区间分别为:[-1.9047 -1.0048]和[1.9047 0.1793]r 中的数据表示模型拟合残差向量t e ;rint 中的数据表示模型拟合残差
的
95%的置信区间;在states 的数据中表示包含10.0001 * 0041.0e 2≈+=R 方差分析的F 统计量8.1488=F 方差分析的显著性概率007.0=p 模型方差的估计
值0000.0ˆ2=σ
四、 自相关性诊断与处理
从表面上看得到的基本模型I 的拟合度非常之高(10.0001 * 0041.0e 2≈+=R ),应该很满意了。但是,这个模型并没有考虑到我们的数据是一个时间序列(即将表1的年份序号打乱,不影响模型I 的结果)。实际上,在对时间序列数据做回归分析时,模型的随机误差项t ε有可能存在相关性,违背模型关于t ε(对时间t )相互独立的假设。
残差t t t y
y e ˆ-=可以作为随机误差t ε的估计值,画出1~-t t e e 的散点图(图1),能够从直观上判断t ε的自相关性。模型I 的残差t e 可以在计算中得到,如表2,数据1~-t t e e 的散点图如图2,可以看到,大部分点子落在第1,3象限,表明t e 存在正的自相关。
为了对t e 的自相关性作定量诊断,并在确诊后得到新的结果,我们考虑如下模型:
t t t t t t u bx a y +=++=-1,ρεεε
其中,ρ是自相关系数,1||≤ρ ,t u 相互独立且服从均值为零的正态分布,
,,,2,1n t ⋅⋅⋅=
表2
模型I 的
残差t e
图2 模型I 1~-t t e e 的散点图
根据模型I 得到的残差计算DW 统计量如下:
()
738418
.0220
22
120
2
1=-∑=
∑=-=t t t t t e e e DW t e -0.0229
0.1059 0.0855 0.1061 0.0291 0.0423 t
19
20 t e -0.0442 -0.0330
图3 与DW 值对应的自相关状态
对于显著性水平2,20,05.0===k n α,查D-W 分布表,得到检验的临界值
20.1=L d 和40.1=U d 。现在L d DW <1,由图2可以认为随机误差存在自相关。且正自相关系数ρ的估计值630791.02
738418
.0121ˆ11=-=-=DW ρ
对模型中的变量作变换:
11*630791.0---=-=t t t t t y y y y y ρ; 11*630791.0---=-=t t t t t x x x x x ρ.
则模型I 化为:
)1(,****ρ-=++=a a u bx a y t t t ;
代入数据得到:
t t t u x y ++-=**0.1763537126.0
将式中
**,t t x y 还原为原始变量t t x y ,得到结果即是模型II :
110.1112080.1763630791.0537126.0ˆ---++-=t t t t x x y y
; 结果分析:
根据模型II 得到的残差计算DW 统计量如下:
()
74967.1220
32
120
3
2=-∑=
∑=-=t t t t t e e e DW
现在U U d DW d -<<42,由图2可以认为随机误差无自相关,
从机理上看,对于带滞后性的经济规律作用下的时间序列数据,加入自相关