线性回归分析操作实例
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图 4.11 回归方法及变量选择
b Model Summary
Model 1
R R Square .999a .999
Adjus ted R Square .998
Std. Error of the Estimate 412.10364
DurbinWats on 2.237
a. Predictors: (Co ns tant), 政 府 消 费 , 原 油 , 生 铁 , 原 煤 , 铁 路 货 运 量 , 固 定 资产 投资, 发电 量, 居民 消费 b. De pen den t Variab le: 成 品 钢 材
b Variables Entered/Removed
来自百度文库Model 1
Variables Entered 政府 消费, 原油 , 生 铁, 原煤 , 铁路 货运 量, 固定 资产 投资, 发电 量, a 居民 消费
Variables Removed
Method
.
Enter
a. All reques ted variables entered. b. De pen den t Variab le: 成 品 钢 材
图 4.9 回归分析的统计量选项卡
点击 Options,出现回归分析设定选项卡 4.10。Stepping Method Criteria 提供逐步回归标 准的设定,包括使用 F 的概率(Use probability of F)和使用 F 值(Use F value)两个选项。此时 的 F,即为偏 F 检验,由于 F 值涉及到自由度的问题,所以一般选择使用 F 的概率,或者通 常所说的显著性水平,进入(Entry)的显著性水平设定为 0.05,移除(Removal)的显著性水平 设定为 0.10。Include constant in equation 的含义为在方程中包含常数项,一般情况下都保留 此选项,也可根据分析结果取消这一选择。对缺失值(Missing Values)的处理,默认为列删 (listwise)。点击 Continue,返回图 4.8。
图 4.10 回归分析的设定选项卡
2.包含全部自变量的回归分析 在图 4.8 中,点击 OK,将得到以下输出结果,我们逐个对其进行分析。图 4.11 表明变
量的选择方法为 Enter,进入方程的变量为全部自变量。图 4.12 为模型信息的汇总,内容依 次为复相关系数 R,R2,调整 R2,回归标准差,D-W 统计量。由图 4.12 可知,方程的拟合 效果很好,调整 R2 达到 0.998,查表可知 D-W 统计量的取值表明模型残差不存在序列自相 关。图 4.13 为方程显著性的方差分析,总平方和的自由度为 25,回归平方和的自由度为 8, 残差平方和的自由度为 17,F 统计量为 1516.279,显著性水平为 0,说明方程非常显著,所 有自变量作为一个整体对因变量有显著影响。图 4.14 为回归系数及多重共线性诊断结果, 内容依次为:非标准化的回归系数,包括回归系数值和标准差;标准化的回归系数;回归系 数显著性检验的 t 统计量;显著性水平;共线性统计量,包括容忍度(Tolerance)和方差扩大 因子(VIF)。观察显著性水平一列,可见大部分变量都不显著,容忍度都很低,而且方差扩 大因子都很大,最高的达到 1865.966,上述结果表明模型存在严重的多重共线性问题。
资料来源:2006 年中国统计年鉴
4.3.1 线性回归分析的模型选择
选择菜单“Analyze”→“Regression” →“Linear” ,出现图 4.8 所示的回归分析选项 卡,选项卡 4.8 包含了回归分析的常用分析选项。
图 4.8 回归分析选项卡
Dependent 为因变量,本例中为成品钢材,Independent 为自变量,本例中为原油、生铁、 原煤、发电量、铁路货运量、固定资产投资、居民消费和政府消费,分别将上述变量选入相 应列表。 Method 为回归方法的选择,包括 Enter、Stepwise、Backward、Forward。Enter 的含义 是将 Independent 列表中的所有变量不加选择的放入回归方程中。Forward 称为前进法,其 思想是由少到多, 每次选择对因变量解释作用最显著的变量引入方程, 直到剩余的变量都不 足以引入方程为止。Backward 称为后退法,其思想是由多到少,利用全部变量建立回归方 程,每次剔除最不显著的一个变量,直到方程中只包含显著的变量。Stepwise 称为逐步回归 法,其思想是有进有出,将变量逐个引入,每引入一个变量,就对方程中的变量逐个检验, 当早先引入的变量由于后来引入的变量而变得不显著时将其剔除。 变量的引入或剔除反复进 行,直至无进无出。逐步回归法充分考虑了变量间的相互作用,优于前进法和后退法。在这 三种方法中,我们使用偏 F 检验(与偏相关系数类似,不再详述)作为判断变量是否显著 的依据,F 值越大或 p 值越小变量越显著。为此我们需要预先设定显著性水平 in 与 out , p< in 则引入,p> out 则剔除,为此要求 in < out (Fin>Fout),否则可能产生死循环。虽然 Method 提供了关于回归方法的多种选择, 一般我们还是从 Enter 开始, 先将所有自变量放入 回归方程,观察结果,再选择其他回归方法。 Selection Variable 提供观测值选择规则的设定,若将某个变量选入此列表,可以点击其 后的 Rule 按钮,设置观测值选择的规则。Case Label 提供观测值标签的选择。WLS Weight 提供加权最小二乘中权重变量的选择, 加权最小二乘有专门的分析命令, 在此我们先不讲述。 1.Statistics 及 Options 选项卡 点击 Statistics,出现图 4.9 所示统计量选项卡。Regression Coefficients 提供回归系数输 出内容的选择,Estimates 为估计值;Confidence intervals 为回归系数估计值的置信区间; Covariance matrix 为回归系数估计值的协方差矩阵,包括每个回归系数估计值的方差,以及
不同回归系数估计值之间的协方差。 Model fit 输出模型对数据的拟合程度, R squared change 2 输出 R 的变化, Descriptives 输出各变量的描述统计量, Part and partial correlations 输出部分 相关和偏相关系数,Collinearity diagnostics 输出共线性诊断结果。Residuals 提供残差分析选 项,包括 D-W 统计量(Durbin-Waston);逐个观测值诊断,其中可以对离群点(Outlier)进行定 义。 在模型选择阶段, 我们主要关注所设定的模型是否存在多重共线性和残差的序列自相关 问题,所以选择 Collinearity diagnostics 和 Durbin-Waston,其他暂不选择,点击 Continue 返 回图 4.8。Plots 选项提供残差绘图选项,Save 选项提供预测值和残差的保存选项,在模型选 择阶段,暂时不进行选择。
线性回归分析操作实例
以数据表 4.2 说明线性回归分析在 SPSS 中的实现。数据表 4.2 是成品钢材需求的影响 因素分析,其中成品钢材的需求为因变量,原油、生铁、原煤、发电量、铁路货运量、固定 资产投资、居民消费、政府消费为自变量。
表 4.2 成品钢 年份 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 材(万吨) 2716.2 2670.1 2902 3072 3372 3693 4058 4386 4689 4859 5153 5638 6697 7716 8428 8979.8 9338.02 9978.93 10737.8 12109.78 13146 16067.61 19251.59 24108.01 31975.72 37771.14 原油 (万吨) 10595 10122 10212 10607 11461.3 12489.5 13068.8 13414 13704.6 13764.1 13830.6 14099.2 14209.7 14523.7 14608.2 15004.94 15733.39 16074.14 16100 16000 16300 16395.87 16700 16959.98 17587.33 18135.29 生铁 (万吨) 3802.4 3416.6 3551 3738 4001 4384 5064 5503 5704 5820 6238 6765 7589 8739 9741 10529.27 10722.5 11511.41 11863.67 12539.24 13101.48 15554.25 17084.6 21366.68 26830.99 34375.19 成品钢材需求的影响因素 原煤 (亿吨) 6.2 6.2 6.66 7.15 7.89 8.72 8.94 9.28 9.8 10.54 10.8 10.87 11.16 11.51 12.4 13.61 13.97 13.73 12.5 12.8 12.99 13.81 14.55 17.22 19.92 22.05 发电量 (亿千瓦 小时) 3006.2 3092.7 3277 3514 3770 4107 4495 4973 5452 5848 6212 6775 7539 8395 9281 10070.3 10813.1 11355.53 11670 12393 13556 14808.02 16540 19105.75 22033.09 25002.6 铁路货 运量 (万吨) 111279 107673 113495 118784 124074 130709 135635 140653 144948 151489 150681 152893 157627 162794 163216 165982 171024 172149 164309 167554 178581 193189 204955 221178 249017 269296 固定资产 投资额(亿 元) 910.9 961 1230.4 1430.1 1832.9 2543.2 3120.6 3791.7 4753.8 4410.4 4517 5594.5 8080.1 13072.3 17042.1 20019.3 22913.5 24941.1165 28406.1756 29854.7185 32917.7381 37213.4923 43499.9103 55566.6159 70477.4489 88773.6129 居民消 费 ( 亿 元) 2331.2 2627.9 2902.9 3231.1 3742 4687.4 5302.1 6126.1 7868.1 8812.6 9450.9 10730.6 13000.1 16412.1 21844.2 28369.7 33955.9 36921.5 39229.3 41920.4 45854.6 49213.2 52571.3 56834.4 63833.5 70906 政府消 费 ( 亿 元) 676.7 733.6 811.9 895.3 1104.3 1298.9 1519.7 1678.5 1971.4 2351.6 2639.6 3361.3 4203.2 5487.8 7398 8378.5 9963.6 11219.1 12358.9 13716.5 15661.4 17665.1 19119.9 20615.1 23199.4 26012.1
图 4.12 模型信息的汇总