多元回归分析的步骤
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、研究方法
本文采取多元线性回归的方法来设定并建立模型,再利用逐步回归来对变量予以确认和剔除。逐步回归是通过筛选,挑选偏回归平方和贡献最大的因子建立回归方程,在决定是否引入一个新的因素时,回归方程要用方差比进行显着性检验。如果判别该影响因子通过显着性检验,那么可选入方程中,否则就不应该进入到回归方程,回归方程中剔除一个变量的标准也是用方差比进行显着性检验剔除偏回归平方和贡献最小的变量,无论是入选回归方程还是从回归方程中剔除符合条件的选入项和剔除项为止,逐步回归的方法剔除了对因变量影响小的因素减小了分析问题的难度,提高了计算效率和回归方程的稳定性有较好的预测精度。
运用多元线性回归预测的基本思路是在确定因变量和多个自变量以及它们之间的关系后,通过设定自变量参数的回归方程对因变量进行预测。具体如下:
式中:Y表示为粮食总产量,C和a为回归系数,C、a是待定参数,X为所选取的影响因素.多元线性回归方法可分为强行进入法、消去法、向前选择法、向后剔除法和逐步进入法等,本文运用SPSS22.0软件,对选择的自变量全部进入回归模型,即强行进入法进行预测。该模型的优点是方法简单、预测速度快、外推性好等。
四、分析与结果
本文选取6个解释变量,研究河南省粮食产量y,解释变量为:X1粮食播种面积,X2农业从业人,X3农用机械总动力,X4农田有效灌溉面积,X5化肥施用折纯量,X6农村用电量。以河南省粮食产量为因变量,以如上6个解释变量为自变量做多元线性回归(数据选取2014年《河南统计年鉴》,见附录一)。
用SPSS做变量的相关分析,从相关矩阵(表4-1)中可以看出y与自变量的相关系数大多都在0.9以上,说明所选择变量与y高度线性相关,用y与自变量做多元线性回归是合适的。
用SPSS 做变量系数分析(表4-2)
表4-2系数
B 标准错误 Beta
T 显着性 (常数)
-6733.268 3146.969 -2.140
.041 X1 8.315 2.765 .262 3.007 .006 X2 .155 .296 .121 .524 .604 X3 -.199 .105 -.607 -1.901 .068 X4 2.619 2.687 .169 .974 .338 X5 5.770 2.492 1.047 2.315 .028 X6
1.086
5.174
.089
.210
.835
从(表4-2)中可以得到解释变量与因变量之间的方程为:
表4-3变异数分析
平方和 df 平均值平方 F 显着性 回归
6
6785344.021 165.292
.000
残差
1149417.679
28 41050.631
X1 1 .687 .965 .918 .927 .970 .978 X2 .687 1 .686 .456 .448 .731 .616 X3 .965 .686 1 .946 .930 .990 .985 X4 .918 .456 .946 1 .961 .921 .960 X5 .927 .448 .930 .961 1 .901 .965 X6 .970 .731 .990 .921 .901 1 .979 y
.978
.616
.985
.960
.965
.979
1
从(表4-3)中发现F=165.292,说明6个自变量整体对因变量y产生显着线性影响。但从表(4-2)中不难发现农业从业人员、农田有效灌溉面积、农村用电量的P值较大,说明方程某些解释变量并不显着,对没有通过检验的回归系数,在一定程度上说明他们对应的自变量在方程中可有可无,一般为了使模型简化,需要剔除不显着的自变量,重新建立回归方程。而且粮食播种面积、农业从业人员、农田有效灌溉面积、化肥施用折纯量、农村用电量对国民总收入起正影响,农用机械总动力却对国民总收入起负影响,与常识相违背,可能存在多重共线性。
应用SPSS进行异方差性检验。用斯皮尔曼相关系数检验异方差性也就是检验随机误差项的方差与解释变量观测值之间的相关性。若相关系数较高,则存在异方差性,则不能通过异方差性检验,此时可能会导致参数OLS估计的方差增大,t检验失效,预测精度降低。
从表4-4中发现残差绝对值预与解释变量的皮尔逊相关系数最高为0.303,不能认为残差绝对值与解释变量显着相关。所以不存在异方差性。
应用SPSS进行自相关检验。检验自相关性就是检验针对不同的样本点与随
机误差项之间是否不相关。如果存在某种相关性,则认为出现了序列相关性。若存在自相关性,参数估计量仍然是线性的、无偏的,但非有效;OLS估计量的被估方差是有偏的且会被低估,因而会使相应的t值变大;甚至模型的t和F统计
检验失效;导致最小二乘估计量对抽样波动非常敏感。
首先用杜宾和沃特森检验法来判断其是否存在自相关性。
表4-6系数
B 标准错误Beta 允差VIF
(常数)
-6733.268 3146.969 -2.140 .041
X1 8.315 2.765 .262 3.007 .006 .129 7.731 X2 .155 .296 .121 .524 .604 .018 54.325 X3 -.199 .105 -.607 -1.901 .068 .010 103.768 X4 2.619 2.687 .169 .974 .338 .032 30.852 X5 5.770 2.492 1.047 2.315 .028 .005 208.612 X6 1.086 5.174 .089 .210 .835 .005 182.444 从表4-6中可以发现X1粮食播种面积的VIF明显小于10,说明存在共线性。由于模型存在多重共线性,我们对模型进行调整,应用SPSS进行逐步回归来消除多重共线性。