案例之四回归分析:销售额影响因素--------解答
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
销售额影响因素
XD是一家大型通讯设备生产公司,在我国主要的大中型城市都设有子公司。
张伟最近被提拔为销售部经理。
在即将召开的全国各地子公司负责人会议上,他想让大家清楚地了解影响销售额的相关因素。
于是,从全国各地的子公司中,随机收集了十五个城市子公司的销售额、促销活动投入额和竞争对手销售额的数据。
表1 XD子公司销售额及相关因素数据(百万元)
子公司地址子公司销售额子公司促销活动投入额竞争对手销售额成都101.80 1.30 20.40
沈阳44.40 0.70 30.50
长春108.30 1.40 24.60
哈尔滨85.10 0.50 21.70
青岛77.10 0.50 25.50
武汉158.70 1.90 21.70
西安180.40 1.20 6.80
南京64.20 0.40 12.60
济南74.60 0.60 31.30
广州143.40 1.30 18.60
厦门120.60 1.60 19.90
深圳69.70 1.00 25.60
大连67.80 0.80 27.40
杭州106.70 0.60 24.30
宁波119.60 1.10 13.70
计算与思考:
1)分析子公司销售额与促销活动投入额、竞争对手销售额间的关系。
答:
子公司销售额与促销活动投入额的散点图如下:
可以看出大致趋势为子公司销售额与促销活动投入额成正比关系
子公司销售额与竞争对手销售额间的散点图如下
可以看出子公司销售额与竞争对手销售额间成反比关系
2)建立子公司促销活动投入额对其销售额的回归方程;解释方程的含义,说明子公司促销活动投入额对其销售额的影响程度;假设某地的子公司促销活动投入额为120万元,预计其销售额及在置信水平95%下的预测区间。
答:设y为销售额,x为促销活动投入额,做回归分析过程如下SUMMARY OUTPUT
回归统计
Multiple R 0.707693
R Square 0.500829
Adjusted R Square 0.462431
标准误差27.9912
观测值15
方差分析
df SS MS F Significance
F
回归分析 1 10219.42 10219.42 13.04317 0.003161 残差13 10185.59 783.5072
总计14 20405.01
Coefficients 标准误差t Stat P-value Lower 95% Upper
95%
下
95
Intercept 42.21206 17.93509 2.353601 0.03499 3.465645 80.95847 3.46 X Variable 1 59.67914 16.5246 3.611532 0.003161 23.9799 95.37837 23.
子公司促销活动投入额对其销售额的回归方程为:
y = 59.679x + 42.212 R² = 0.5008
子公司促销活动投入额对其销售额的影响程度:从R²= 0.5008,可以看出回
归方程拟合优度不高,子公司促销活动投入额对其销售额的影响程度仅为
50%。
假设某地的子公司促销活动投入额为120万元,预计其销售额及在置信水平
95%下的预测区间:(32.242,195.413)
3)建立子公司促销活动投入额和竞争对手销售额对子公司销售额的回
归方程;解释方程的含义,检验子公司促销活动投入额和竞争对手销售
额各自对子公司销售额影响的显著性。
答:设y为销售额,x1为促销活动投入额,x2为竞争对手销售额,做回归
分析过程如下
回归统计
Multiple R 0.856066
R Square 0.732849
Adjusted R Square 0.688324
标准误差21.31358
观测值15
方差分析
df SS MS F Significance
F
回归分析 2 14953.79 7476.893 16.45919 0.000364 残差12 5451.223 454.2686
总计14 20405.01
Coefficients 标准误差t Stat P-value Lower 95% Upper
95%
下
9
Intercept 113.1735 25.87788 4.37337 0.000907 56.79049 169.5566 56 X Variable 1 49.72006 12.95513 3.837868 0.002362 21.49327 77.94685 21 X Variable 2 -2.82203 0.874153 -3.22831 0.007242 -4.72665 -0.91742 -4.
子公司促销活动投入额和竞争对手销售额对子公司销售额的回归方程:
y = 49.679x1-2.822x2+113.174 R² =0.856
子公司促销活动投入额和竞争对手销售额对子公司销售额的解释可达
85.6%
根据x1和x2的P值均小于0.05,所以子公司促销活动投入额和竞争对手销售额各自对子公司销售额均有显著影响
4)除了子公司促销活动投入额、竞争对手销售额之外,你认为还有哪些因素可能会对子公司销售额产生影响?若能取得相应的数据,你知道哪些筛选自变量的方法?试叙述。
答:当所研究的问题涉及较多的自变量时,我们很难想象事先选定的全部自变量对因变量的影响都有显著性意义;也不敢保证全部自变量之间是相互独立的。
换句话说,在建立多元线性回归方程时,需要根据各自变量对因变量的贡献大小进行变量筛选,剔除那些贡献小和与其他自变量有密切关系的自变量、发现那些对回归方程有很坏影响的观测点(这些都是回归诊断的重要内容),从而求出精练的、稳定的回归方程。
一下介绍几种常见筛选变量的方法:
1.向前选择法(FORWARD)
模型中变量从无到有依次选一变量进入模型,并根据该变量在模型中的Ⅱ型离差平和(SS2)计算F统计量及P值。
当P小于SLENTRY(程序中规定的选变量进入方程的显著性水平)则该变量入选,否则不能入选;
当模型中变量少时某变量不符合入选标准,但随着模型中变量逐次增多时,该变量就可能符合入选标准;这样直到没有变量可入选为止。
SLENTRY缺省值定为0.5,亦可定为0.2到0.4,如果自变量很多,此值还应取得更小一些,如让SLENTRY=0.05。
向前选择法的局限性∶SLENTRY取值小时,可能任一个变量都不能入选;SLENTRY大时,开始选入的变量后来在新条件下不再进行检验,因而不能剔除后来变得无显著性的变量。
2.向后消去法(BACKWARD)
从模型语句中所包含的全部变量开始,计算留在模型中的各个变量
所产生的F统计量和P值,当P小于SLSTAY(程序中规定的从方程中剔除变量的显著性水平)则将此变量保留在方程中,否则,从最大的P值所对应的自变量开始逐一剔除,直到模型中没有变量可以剔除时为止。
SLSTAY缺省值为0.10,欲使保留在方程中的变量都在α=0.05水平上显著时,应让SLSTAY=0.05。
程序能运行时, 因要求所选自变量的子集矩阵满秩,所以当观测点少、且变量过多时程序会自动从中选择出观测点数减1个变量。
向后消去法的局限性∶SLSTAY大时,任一个变量都不能剔除;SLSTAY小时,开始剔除的变量后来在新条件下即使有了显著性,也不能再次被入选回归模型并参入检验。
3.逐步筛选法(STEPWISE)
此法是向前选择法和向后消去法的结合。
模型中的变量从无到有像向前选择法那样,根据F统计量按SLENTRY水平决定该变量是否入选;当模型选入变量后,又像向后消去法那样,根据F统计量按SLSTAY 水平剔除各不显著的变量,依次类推。
这样直到没有变量可入选,也没有变量可剔除或入选变量就是刚剔除的变量,则停止逐步筛选过程。
逐步筛选法比向前选择法和向后消去法都能更好地在模型中选出变量,但也有它的局限性∶其一,当有m个变量入选后,选第m+1个变量时,对它来说,前m个变量不一定是最佳组合;其二,选入或剔除变量仅以F值作标准,完全没考虑其他标准。
4.最大R2增量法(MAXR)
首先找到具有最大决定系数R2的单变量回归模型,其次引入产生最大R2增量的另一变量。
然后对于该两变量的回归模型,用其他变量逐次替换,并计算其R2,如果换后的模型能产生最大R2增量,即为两变量最优回归模型,如此再找下去,直到入选变量数太多,使设计矩阵不再满秩时为止。
它也是一种逐步筛选法,只是筛选变量所用的准则不同,不是用F
值,而是用决定系数R2判定变量是否入选。
因它不受SLENTRY和SLSTAY的限制,总能从变量中找到相对最大者;胀克服了用本节筛选法1~3法时的一种局限性∶找不到任何变量可进入模型的情况。
本法与本节第3种方法都是逐步筛选变量方法,每一步选进或剔除变量都是只限于一个,因而二者局限性也相似∶第一,当有m个变量入选后,选第m+1个变量时,对它来说,前m个变量不一定是最佳组合;第二,选入或剔除变量仅以R2值作标准,完全没考虑其他标准。
5.最小R2增量法(MINR)
首先找到具有最小决定系数R2的单变量回归模型,然后从其余变量中选出一个变量,使它构成的模腥其他变量所产生的R2增量最小,不断用新变量进行替换老变量,依次类推,这样就会顺次列出全部单变量回归模型,最后一个为单变量最佳模型;两变量最小R2增量的筛选类似第4种方法,但引入的是产生最小R2增量的另一变量。
对该两变量的回归模型,再用其他变量替换,换成产生最小R2增量者,直至R2不能再增加,即为两变量最优回归模型。
依次类推,继续找含3个或更多变量的最优回归模型等等,变量有进有出。
它与本节第4种方法选的结果不一定相同,但它在寻找最优模型过程中所考虑的中间模型要比本节第4种方法多。
本法的局限性与本节第3、4种方法相似∶第一,当有m个变量入选后,选第m+1个变量时,每次只有1个变量进或出,各变量间有复杂关系时,就有可能找不到最佳组合;第二,选入变量或替换变量仅以R2值作标准,完全没考虑其他标准。
6.R2选择法(RSQUARE)
从模型语句中的各自变量所有可能子集中选出规定数目的子集,使该子集所构成的模型的决定系数R2最大。
要注意∶当观测点少、且模型语句中变量数目过多时, 程序不能运行,因为过多变量使误差项无自由度,设计矩阵不满秩,所以最多只能从所有可能的变量中选择观测点
数减1个变量放入模型。
本法和第7、8种方法分别是按不同标准选出回归模型自变量的最优子集,这类选变量法不是从所有可能形成的变量中,而仅仅从模袖量中穷举。
本法的局限性在于∶其一,当样本含量小于等于自变量(含交互作用项)个数时,只能在一定数目的变量中穷举,为找到含各种变量数目的最优子集,要么增加观测,要么反复给出不同模型;其二,选最优子集的标准是R2,完全没考虑其他标准。
7.修正R2选择法(ADJRSQ)
根据修正的决定系数R2取最大的原则,从模型的所有变量子集中选出规定数目的子集。
程序能运行的条件是设计矩阵X满秩。
本法的局限性与第6种方相似: 其一,与第6种方中“其一”相同;其二,选最优子集的标准只是用修正的R2取代未修正的R2而已,完全没考虑其他标准。
8.Mallow's Cp选择法(CP)
根据Mallow's Cp统计量,从模袖量子集中选出最优子集。
Cp统计量的数值比第6、7种方法更大地依赖于MODEL语句所给出的模型,它比前二者多考虑的方面是∶用模型语句决定的全回归模型估计出误差平和。
程序能运行的条件是设计矩阵满秩。