第11章 多重线性回归分析案例辨析及参考答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第11章 多重线性回归分析
案例辨析及参考答案
案例11-1 预测人体吸入氧气的效率。
为了解和预测人体吸入氧气的效率,某人收集了31名中年男性的健康调查资料。
一共调查了7个指标,分别是吸氧效率(Y ,%)、年龄(1X ,岁)、体重(2X ,kg )、跑1.5 km 所需时间(3X ,min )、休息时的心跳频率(4X ,次/min )、跑步时的心跳频率(5X ,次/min )和最高心跳频率(6X ,次/min )(教材表11-9)。
试用多重线性回归方法建立预测人体吸氧效率的模型。
教材表11-9 吸氧效率调查数据
该研究员采用后退法对自变量进行筛选,最后得到结果如教材表11-10所示。
教材表11-10 多重线性回归模型的参数估计 Table 11-10 Parameter estimation of regression model
Variable Unstandardized Coefficients Standardized Coefficients
t
P
B Std. Error Intercept
100.079 11.577 8.644 0.000 1X -0.213 0.091 -0.214
-2.337 0.027 3X -2.768 0.331 -0.721 -8.354 0.000 5X -0.339 0.116 -0.653 -2.939 0.007 6X
0.255
0.132
0.439
1.936
0.064
* 90.34=F , 001.0<P 843.02
=R
对模型进行方差分析的结果认为模型有统计学意义(P <0.05),确定系数的数值(0.843)也说明模型拟合的效果较好。
考察各个自变量的偏回归系数,研究者发现,6X 的偏回归系数符号为正,认为最高心跳频率越大,人的吸氧效率就越高,这与专业结论相反。
出现这种悖论的原因是什么呢?
案例辨析 我们先分析一下各个自变量之间的简单相关系数,结果发现5X 和6X 存在有较强的相关(r =0.930, P <0.001), 对回归模型进行共线性诊断,结果发现自变量5X 的容忍度为0.122,方差膨胀因子等于8.188,自变量6X 的容忍度为0.117,方差膨胀因子等于8.522,说明自变量之间存在多重共线性,所以出现了与专业结论相反的现象。
正确做法 在这里,我们可以把自变量6X 从模型中删除以消除多重共线性的影响,应重新建立多重线性回归方程。
最好多用几种筛选自变量的方法(如前进法、后退法、逐步回归分析、最优回归子集法等)筛选自变量,结合专业知识和统计学知识,综合分析和比较,从而得到比较优的多重回归方程。
案例11-2 医院住院人数的预测 石磊(1991)发表了其所在医院1970-1989年期间历年门诊人次1X 、病床利用率2X 、病床周转次数3X 和住院人数Y 的数据(教材表11-11),建立由1X 、2X 、3X 预测Y 的线性回归方程[中国卫生统计,1991,8(6)]。
下面列出了多重线性回归分析的主要结果(教材表11-12)。
教材表11-11 重庆医科大学附属第二医院1970-1989年若干统计资料
年份 住院人数
Y 门诊人数/万人
1X
病床利用率/%
2X
病床周转次数
3X
1970 6 349 49.8 94.25 19.84 1971 6 519 38.1 98.50 20.37 1972 5 952 36.6 89.86 18.80 1973 5 230 36.0 86.00 16.34 1974 5 411 32.3 83.29 16.91 1975 5 277 37.8 77.88 18.07 1976 3 772 34.1 92.62 17.96 1977 3 846 42.2 86.57 18.31 1978 3 866 38.1 84.29 18.41 1979 5 142 39.5 89.29 20.61 1980 7 724 55.8 97.63 21.72 1981 8 167 63.0 96.53 23.33 1982 8 107 65.2 93.43 21.91 1983 7 998 66.1 94.45 21.05 1984 7 331 65.4 93.03 19.96 1985 6 447 60.1 91.79 18.81 1986 4 869 56.9 88.94 15.82 1987 5 506 57.7 91.79 16.01 1988 5 741 53.4 99.03 16.59 1989
5 568
48.7
94.93
19.09
教材表11-12 多重线性回归模型的参数估计
Table 11-12 Parameter estimation of regression model
Variable Unstandardized Coefficients Standardized
Coefficients t
P
B Std. Error Intercept
-3219.628 1505.165 -2.139 0.047 1X
59.834 15.780 0.512
3.792 0.001 3X
327.553
85.725
0.515
3.821
0.001
*39.24=F , 001.0<P 861.02
=R
作者采用逐步回归的方法建立了门诊人数和病床周转次数关于住院人数的多重回归方程,得到表11-12的结果,认为回归效果很好。
但是,读者小明作了残差分析图(教材图11-4),认为回归效果不好。
请仲裁一下,到底谁对谁错?
教材图11-4 残差分析图
案例辨析 作者采用逐步回归的方法建立了门诊人数和病床周转次数关于住院人数的多重回归方程。
从结果中可以看出,整个方程是有统计学意义的,各个总体偏回归系数不为零,确定系数等于0.861,说明回归的效果也很好。
但是,回头考虑资料是否适合进行多重线性回归分析,也就是资料是否满足多重回归分析的前提条件LINE ?于是,对回归分析的结果进行残差分析,上面的残差图提示资料不满足方差齐性的要求。
Durbin-Watson 统计量等于0.580,结果提示资料不满足独立性的要求。
其实,常识也认为同一医院不同年份之间的数据不是独立的。
因此,可以认为本资料不满足多重线性回归分析的前提条件,不宜进行多重线性回归分析。
正确做法 由于各年数据前后可能存在关联性,即其取值与时间有关,故可以考虑采用时间序列等分。