多元回归分析的步骤

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

三、研究方法

本文采取多元线性回归的方法来设定并建立模型，再利用逐步回归来对变量予以确认和剔除。逐步回归是通过筛选，挑选偏回归平方和贡献最大的因子建立回归方程，在决定是否引入一个新的因素时，回归方程要用方差比进行显著性检验。如果判别该影响因子通过显著性检验，那么可选入方程中，否则就不应该进入到回归方程，回归方程中剔除一个变量的标准也是用方差比进行显著性检验剔除偏回归平方和贡献最小的变量，无论是入选回归方程还是从回归方程中剔除符合条件的选入项和剔除项为止，逐步回归的方法剔除了对因变量影响小的因素减小了分析问题的难度，提高了计算效率和回归方程的稳定性有较好的预测精度。

运用多元线性回归预测的基本思路是在确定因变量和多个自变量以及它们之间的关系后，通过设定自变量参数的回归方程对因变量进行预测。具体如下:

n n 2211X a ++ X a + X a +C = Y

式中: Y 表示为粮食总产量，C 和a 为回归系数，C 、a 是待定参数，X 为所选取的影响因素.多元线性回归方法可分为强行进入法、消去法、向前选择法、向后剔除法和逐步进入法等，本文运用SPSS22.0 软件，对选择的自变量全部进入回归模型，即强行进入法进行预测。该模型的优点是方法简单、预测速度快、外推性好等。

四、分析与结果

本文选取6个解释变量，研究河南省粮食产量y ，解释变量为:X1粮食播种面积，X2农业从业人，X3农用机械总动力，X4农田有效灌溉面积，X5化肥施用折纯量，X6农村用电量。以河南省粮食产量为因变量，以如上6个解释变量为自变量做多元线性回归（数据选取2014年《河南统计年鉴》，见附录一）。

用SPSS 做变量的相关分析，从相关矩阵（表4-1）中可以看出y 与自变量的相关系数大多都在0.9以上，说明所选择变量与y 高度线性相关，用y 与自变量做多元线性回归是合适的。

表4-1 相关

X1 X2 X3 X4 X5 X6 y X1 1 .687

.965

.918

.927

.970

.978

X2 .687

1 .686 .456 .448 .731 .616 X3 .965 .686 1 .946 .930 .990 .985 X4 .918 .456 .946 1 .961 .921 .960 X5 .927 .448 .930 .961 1 .901 .965 X6

.970

.731

.990

.921

.901

1

.979

表4-2 系数

B 标准错误 Beta T 显著性（常数） -6733.268 3146.969

-2.140 .041 X1 8.315 2.765 .262 3.007 .006 X2 .155 .296 .121 .524 .604 X3 -.199 .105 -.607 -1.901 .068 X4 2.619 2.687 .169 .974 .338 X5 5.770 2.492 1.047 2.315 .028 X6

1.086

5.174

.089

.210

.835

从（表4-2）中可以得到解释变量与因变量之间的方程为：

654321086.177.5619.2199.0155.0315.8268.6733x x x x x x y +++-++-=

表4-3 变异数分析

平方和 df 平均值平方 F 显著性回归 40712064.126 6 6785344.021 165.292

.000 残差 1149417.679 28 41050.631

估计

41861481.805

34

从（表4-3）中发现F=165.292，说明6个自变量整体对因变量y 产生显著线性影响。但从表(4-2)中不难发现农业从业人员、农田有效灌溉面积、农村用电量的P 值较大，说明方程某些解释变量并不显著，对没有通过检验的回归系数，在一定程度上说明他们对应的自变量在方程中可有可无，一般为了使模型简化，需要剔除不显著的自变量，重新建立回归方程。而且粮食播种面积、农业从业人员、农田有效灌溉面积、化肥施用折纯量、农村用电量对国民总收入起正影响，农用机械总动力却对国民总收入起负影响，与常识相违背，可能存在多重共线性。

应用SPSS 进行异方差性检验。用斯皮尔曼相关系数检验异方差性也就是检验随机误差项的方差与解释变量观测值之间的相关性。若相关系数较高，则存在异方差性，则不能通过异方差性检验，此时可能会导致参数OLS 估计的方差增大，t 检验失效，预测精度降低。

从表4-4中发现残差绝对值预与解释变量的皮尔逊相关系数最高为0.303，不能认为残差绝对值与解释变量显著相关。所以不存在异方差性。

应用SPSS 进行自相关检验。检验自相关性就是检验针对不同的样本点与随机误差项之间是否不相关。如果存在某种相关性，则认为出现了序列相关性。若存在自相关性，参数估计量仍然是线性的、无偏的，但非有效；OLS 估计量的被估方差是有偏的且会被低估，因而会使相应的t 值变大；甚至模型的t 和F 统计检验失效；导致最小二乘估计量对抽样波动非常敏感。首先用杜宾和沃特森检验法来判断其是否存在自相关性。

表4-5 模型摘要

R R 平方调整后 R 平方

标准偏斜度错误 Durbin-Watson

.986a

.973

.967

202.60955

1.616

由表4-5得到DW 检验为1.616。查表可知在1%的上下界中k=6，n=36的dl=0.99，du=1.59，可知du

从上述已知数据不存在异方差性和一阶自相关性，用SPSS 进行多重共线性检验。若存在多重共线性，将会引起参数估计量不存在；近似共线性下OLS 估计量非有效；参数估计量经济含义不合理；变量的显著性检验失去意义，可能将重要的解释变量排除在模型之外；模型的预测功能失效。

表4-6 系数

B 标准错误 Beta 允差 VIF （常數） -6733.268 3146.969

-2.140 .041 X1 8.315 2.765 .262 3.007

.006 .129 7.731 X2 .155 .296 .121 .524 .604 .018 54.325 X3 -.199 .105 -.607 -1.901 .068 .010 103.768 X4 2.619 2.687 .169 .974 .338 .032 30.852 X5 5.770 2.492 1.047 2.315 .028 .005 208.612 X6

1.086

5.174

.089

.210

.835

.005

182.444

从表4-6中可以发现X1粮食播种面积的VIF 明显小于10，说明存在共线性。由于模型存在多重共线性，我们对模型进行调整，应用SPSS 进行逐步回归来消除多重共线性。

表4-7 系数

模型 B 标准错误 Beta T 显著性（常數） -1945.921 1136.720

-1.712 .097 X1 4.921 .223 .893 22.038 .000 X5

4.360

1.287

.137

3.388

.002

剔除变量x2，x3，x4，x6后的984.0R 2 可知解释变量与因变量x1粮食播种