主成分回归多重共线性
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验八:主成分回归
实验题目:对例的Hald水泥问题用主成分方法建立模型,并与其他方法的结果进行比较。例如下:本例为回归经典的Hald水泥问题。某种水泥在凝固时放出的热量y(卡/克,cal/g)与水泥中的四种化学成分的含量(%)有关,这四种化学成分分别是x1铝酸三钙(),x2硅酸三钙(),x3铁铝酸四钙(),x4硅酸三钙()。现观测到13组数据,如表5-3所示。
表5-3
实验目的:
SPSS输出结果及答案:
一、主成分法:
多重共线性诊断:
N1313131313
**. 在.01 水平(双侧)上显著相关。
由表可知,x1,x2,x4的相关性都比较大,较接近,所以存在多重共线性
主成分回归:
解释的总方差
成份
初始特征值提取平方和载入
合计方差的%累积%合计方差的%累积%
1
2
3.187.187
4.002.041.002.041
提取方法:主成份分析。
输出结果显示有四个特征根,最大的是λ1=,最小的是λ4=。方差百分比显示
第一个主成分Factor1的方差百分比近56%的信息量;前两个主成分累计包含近%
的信息量。因此取两个主成分就已经足够。
由于前两个主成分的方差累计已经达到%,故只保留前两个主成分。
成份矩阵a
成份
1234
x1.712.292.010
x2.843.520.026
x3.759.275.011
x4.027
提取方法:主成分
已提取了4 个成份。
由解释的总方差表中累计贡献性知,f1和f2的累计贡献性就在85%~95%之间。所以主成分取f1,f2。
得到因子得分的数值,并对其进行处理:sqrt* FAD1_1, sqrt* FAD2_1可以得出主成分表(f1
f2)。
对f1 f2进行普通最小二乘线性回归
模型非标准化系数标准系数
t Sig. B标准误差试用版
1(常量).000.000 x1.000.000
x2.027.000.330.000
x3.094.000.482.955.000
x4.000.000
a.因变量: f2
f2=所以还原后的主成分回归方程为:
^y=++从主成分法得出的方程中我们可以看出某种水泥在凝固时放出的热量与铝酸三钙,硅酸三钙成正比,与铝酸四钙和硅酸二钙成反比,且当该水泥放出1单位的热量时,需要消耗的铝酸三钙和的硅酸三钙;当该水泥吸收1单位的热量时,需要消耗的铝酸四钙和的硅酸二钙。
二.岭回归法
由系数表中的方差扩大因子VIF可以初步看出直接建立的线性模型具有严重的共线性,所以我们直接用岭回归方法进行处理,与再与主成分法进行比较。
岭回归
INCLUDE 'C:\Program Files\IBM\SPSS\Statistics\19\Samples\English\RIDGE '.
RIDGEREG enter x1 x2 x3 x4
/dep=y
R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K
K RSQ x1 x2 x3 x4
______ ______ ________ ________ ________ ________
.00000 .98238 .606512 .527706 .043390
.05000 .98092 .465987 .298422
.10000 .97829 .429975 .299810
.15000 .97492 .403545 .300180
.20000 .97105 .382726 .299130
.25000 .96676 .365601 .297070
.30000 .96212 .351071 .294335
.35000 .95717 .338452 .291156
.40000 .95195 .327295 .287687
.45000 .94649 .317289 .284036
.50000 .94082 .308211 .280279
.55000 .93497 .299900 .276467
.60000 .92897 .292231 .272638
.65000 .92284 .285109 .268820
.70000 .91660 .278460 .265032
.75000 .91027 .272222 .261287
.80000 .90386 .266349 .257597
.85000 .89740 .260798 .253968
.90000 .89089 .255537 .250406
.95000 .88436 .250537 .246913
.87780 .245775 .243491
由上述的岭迹图可以看出,所有的回归系数的岭迹线的稳定性较强,整个系统呈现比较平稳的现象,所以我们可以对最小二乘有信心,且x1,x2的岭迹线一直在零的上,对y产生正影响,而x3,x4系数的岭迹线一直小于零,所以对y产生负影响。
再做岭回归:
当岭参数k=时,4个自变量的岭回归系数变化幅度较小,此时逐渐稳定,所以我们给定
k=,再做岭回归
Run MATRIX procedure:
****** Ridge Regression with k = ******
Mult R .2
RSquare .2
Adj RSqu .7
SE
ANOVA table
df SS MS
Regress
Residual
F value Sig F
.0000002
--------------Variables in the Equation----------------
B SE(B) Beta B/SE(B) x1 .1468176 .4894165
x4 .0515969
Constant .0000000
------ END MATRIX -----