主成分回归和岭回归的差异

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

可以看出前两个主成分已达到 98%的贡献率,而且λ4=0.0003~0 ,所以变量间存在多重共线 性。
表 2.2.2.2 对中心标准化的数据进行主成分分析
Comp.1 Standard deviation Proportion of variance Cumulative proportion 1.45 0.56 0.56 Comp.2 1.21 0.40 0.95 Comp.3 0.42 0.05 0.99 Comp.4 0.04 0.0004 1.00
估计 Intercept X1 X2 X3 X4 62.4054 1.5511 0.5102 0.1019 -0.1441 标准误 70.0710 0.7448 0.7328 0.7547 0.7091 T值 0.891 2.083 0.705 0.135 -0.203 P值 0.3991 0.0708 0.5009 0.8959 0.8441
估计 系数 第一主成分 第二主成分 3.746e-15 9.495 -0.12 标准误 0.85 0.57 0.68 T值 0.00 -16.61 -0.18 P值 1.00 1.31e-08 0.864
由表 2.2.2.4 可以看出,只有第一主成分通过了检验,回归方程为:
Y 9.495Z1
下面看一下对数据进行标准化之后的主成分回归方程。
主成分回归和岭回归的差异
来自百度文库一、引言
当自变量出现多重共线性时,经典回归方法做回归系数的最小二乘估计一般效果会较 差, 采用主成分回归和岭回归能够直接克服回归的不足。 现在来比较这两种方法在拟合模型 上的差异。 做岭回归时要对数据进行中心标准化, 而主成分回归并不强制性的要求对数据做 该变换。所以,为了更好的体会到主成分回归和岭回归的差异,我们要对数据分别做以下变 换来进行主成分回归:1、对数据不做任何变换;2、对数据进行中心化;3、对数据进行标 准化;4、对数据进行中心标准化。
二、研究方法
2.1 研究数据
本文对水泥数据(薛毅《统计建模与 R 软件 P280》)分别利用主成分回归与岭回归。 数据见表 2,1。其中 Y:水泥在凝固时放出的热量;X1,X2,X3,X4 为水泥中四种化学成分;希望 从中选出合适的变量,建立 Y 和它们的线性回归方程。
表 2.1 水泥数据
x1 7 1 11 11 7 11 3 1 2 21 1 11 10 x2 26 29 56 31 52 55 71 31 54 47 40 66 68 x3 6 15 8 8 6 9 17 22 18 4 23 9 8 x4 60 52 20 47 33 22 6 44 22 26 34 12 12 y 78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4
2.2 研究方法
2.2.1 一般多元线性回归
首先对数据做一般多元线性回归, 根据变量的显著性检验变量之间是否存在多重共线性 的问题。结果见表 2.2.1. 由表 2.1 可以看出,在显著性水平为 0.05 的条件下,所有的变量均不显著。我们可以猜 测变量间可能存在多重共线性才使得回归系数不显著。
表 2.2.1 多元线性回归系数检验
2.2.2 主成分分析和主成分回归
先对原始数据进行主成分回归,首先要进行主成分分析消除共线性。结果见表 2.2.2.1
表 2.2.2.1 对原始数据进行主成分分析
Comp.1 Standard deviation Proportion of variance Cumulative proportion 21.86 0.87 0.87 Comp.2 7.89 0.11 0.98 Comp.3 3.38 0.02 0.999 Comp.4 0.47 0.0003 1.000
2.2.1.2 检验多重共线性
利用 car 包中的 VIF()函数查看各变量间的共线情况。结果见表 2.2.1.2
表 2.2.1.2 各自变量的 VIF 值
变量 VIF X1 38.50 X2 254.42 X3 46.87 X4 282.51
从结果看,各自变量的 VIF 值都超过 10,存在多重共线性,其中,x2 与 x4 的 VIF 值均 超过 200.下面使用主成分回归和岭回归对数据消除共线性,从而得出合理地模型。
Y 0.95 0.095 Z1
表 2.2.2.6 对中心标准化后的数据的主成分回归
估计 系数 第一主成分 第二主成分 1.792e-16 -6.570e-01 -8.309e-03 标准误 5.682e-02 3.955e-02 4.711e-02 T值 0.000 -16.610 -0.176 P值 1.000 1.31e-08 0.864
表 2.2.2.5 对标准化数据的主成分回归
估计 系数 第一主成分 第二主成分 0.95 -0.095 -0.001 标准误 0.009 0.006 0.007 T值 111.635 -16.610 -0.176 P值 <2e-16 1.31e-08 0.864
由表 2.2.2.5 可以看出对数据进行标准化之后, 只有第一主成分对响应变量的作用是显著的, 即得到回归方程为:
进行中心标准化后的数据前两个主成分达到 95%的贡献率。 下面做主成分回归。 首先计算样本的主成分的预测值, 并将第一主成分的预测值和第二主成 分的预测值存放在数据框中,然后再对主成分做回归分析。结果见表 2.2.2.3 和表 2.2.2.4
表 2.2.2.3 对原始数据的主成分回归
估计 系数 第一主成分 第二主成分 95.42 -0.55 0.92 标准误 0.98 0.04 0.12 T值 96.89 -12.29 7.37 P值 3.36e-16 2.33e-17 2.40e-05
由表 2.2.2.3 可以看出回归系数与回归方程均通过检验,而且效果显著,即得到回归方程为
Y 95.42 0.55Z1 0.92 Z 2
上述方程得到的是响应变量与主成分的关系, 但应用起来不方便, 还是希望得响应变量与原
变量之间的关系。回归方程为:
Y 95.42 4.45 X 1 5.40 X 2 3.67 X 3 5.26 X 4 表 2.2.2.4 对中心化数据的主成分回归
相关文档
最新文档