偏最小二乘回归方法及其应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

偏最小二乘回归方法及其应用

王惠文著

国防工业出版社1999年版

偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析

与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1)能够在自变量存在严重多重相关性的条件下进行回归建模;(2)允许在样本点个数少于变量个数的条件下进行回归建模;(3)偏最小二乘回归在最终模型中将包含原有的所有自变量;(4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。

在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取1/(n-1);如果不是随机抽取的,这个系数可取1/n。

多重相关性的诊断

1 经验式诊断方法

1、在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。

2、回归系数的代数符号与专业知识或一般经验相反;或者,它同该自变量与y 的简单相关系数符号相反。

3、对重要自变量的回归系数进行t检验,其结果不显著。

特别典型的是,当F检验能在高精度下通过,测定系数R2的值亦很大,但自变量的t检验却全都不显著,这时,多重相关性的可能性将很大。

4、如果增加(或删除)一个变量,或者增加(或删除)一个观测值,回归系数的估计值发生了很大的变化。

5、重要自变量的回归系数置信区间明显过大。

6、在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。

7、对于一般的观测数据,如果样本点的个数过少,样本数据中的多重相关性是经常存在的。

但是,采用经验式方法诊断自变量系统中是否确实存在多重相关性,并不十分可靠,另一种较正规的方法是利用统计检验(回归分析),检查每一个自变量相对其它自变量是否存在线性关系。

2 方差膨胀因子

最常用的多重相关性的正规诊断方法是使用方差膨胀因子。自变量x j的方差膨胀因子记为(VIF)j,它的计算方法为

(4-5)(VIF)j =(1-R j2)-1

式中,R j2是以x j为因变量时对其它自变量回归的复测定系数。

所有x j变量中最大的(VIF)j通常被用来作为测量多重相关性的指标。一般认为,如果最大的(VIF)j超过10,常常表示多重相关性将严重影响最小二乘的估计值。

(VIF)j被称为方差膨胀因子的原因,是由于它还可以度量回归系数的估计方差与自变量线性无关时相比,增加了多少。

不妨假设x1,x2,…,x p均是标准化变量。采用最小二乘法得到回归系数向量B,它的精度是用它的方差来测量的。B的协方差矩阵为

Cov(B)= σ2 (X'X)-1

式中,σ2是误差项方差。所以,对于回归系数b j,有

Var(b j)= σ2c jj

c jj是(X'X)-1矩阵中第j个对角元素。可以证明,

c jj =(VIF)j

岭回归分析

1 岭回归估计量

岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计,并且回归系数的标准差也比最小二乘估计的要小。

根据高斯——马尔科夫定理,多重相关性并不影响最小二乘估计量的无偏性和最小方差性。但是,虽然最小二乘估计量在所有线性无偏估计量中是方差最小的,但是这个方差却不一定小。于是可以找一个有偏估计量,这个估计量虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。

在应用岭回归分析时,它的计算大多从标准化数据出发。对于标准化变量,最小二乘的正规方程为

r XX b=r yX

式中,r XX是X的相关系数矩阵,r yX是y与所有自变量的相关系数向量。

岭回归估计量是通过在正规方程中引入有偏常数c(c≥0)而求得的。它的正规方程为+

(4-8)(r XX+ c I) b R=r yX

所以,在岭回归分析中,标准化回归系数为

(4-9)b R =(r XX+ c I)-1 r yX

2 岭回归估计量的性质

(1)岭回归系数是一般最小二乘准则下回归系数的线性组合,即

(4-10)b R =(I+ c r XX-1)-1b

(2)记β是总体参数的理论值。当β≠0时,可以证明一定存在一个正数c0,使得当0< c< c0时,一致地有

(4-11) E|| b R -β||2≤ E|| b -β||2

(3)岭回归估计量的绝对值常比普通最小二乘估计量的绝对值小,即

(4-12) || b R||<|| b ||

岭回归估计量的质量取决于偏倚系数c的选取。c的选取不宜过大,因为

E(b R)=(I+ c r XX-1)-1 E(b)=(I+ c r XX-1)-1β

关于偏倚系数c的选取尚没有正规的决策准则,目前主要以岭迹和方差膨胀因子为依据。岭迹是指p-1个岭回归系数估计量对不同的c值所描绘的曲线(c值一般在0~1之间)。在通过检查岭迹和方差膨胀因子来选择c值时,其判断方法是选择一个尽可能小的c值,在这个较小的c值上,岭迹中的回归系数已变得比较稳定,并且方差膨胀因子也变得足够小。

从理论上,最佳的c值是存在的,它可以使估计量的偏差和方差的组合效应达到一个最佳水准。然而,困难却在于c的最优值对不同的应用而有所不同,对其选择还只能凭经验判断。

其他补救方法简介

最常见的一种思路是设法去掉不太重要的相关性变量。由于变量间多重相关性的形式十分复杂,而且还缺乏十分可靠的检验方法,删除部分多重相关变量的做法常导致增大模型的解释误差,将本应保留的系统信息舍弃,使得接受一个错误结论的可能和做出错误决策的风险都不断增长。另一方面,在一些经济模型中,从经济理论上要求一些重要的解释变量必须被包括在模型中,而这些变量又存在多重相关性。这时采用剔除部分相关变量的做法就不符合实际工作的要求。

另一种补救的办法是增加样本容量。然而,在实际工作中,由于时间、经费以及客观条件的限制,增大样本容量的方法常常是不可行的。

此外,还可以采用变量转换的方式,来削弱多重相关性的严重性。一阶差分回归模型有可能减少多重相关性的严重性。然而,一阶差分变换又带来了一些其它问题。差分后的误差项可能不满足总体模型中关于误差项不是序列相关的假定。事实上,在大部分情形下,在原来的误差项是不自相关的条件下,一阶差分所得到的误差项将会是序列相关的。而且,由于差分方法损失了一个观察值,这在小样本的情况下是极不可取的。另外,一阶差分方法在截面样本中是不宜利用的。

1 主成分分析

主成分分析的计算结果必然受到重叠信息的影响。因此,当人为地采用一些无益的相关变量时,无论从方向上还是从数量上,都会扭曲客观结论。在主成分分析之前,对变量系统的确定必须是慎之又慎的。

2 特异点的发现

第i个样本点(样本量为n)对第h主成分的贡献率是

(5-32) CTR(i)=F h2(i)/(nλh) (若远超过1/n,为特异点)

3 典型相关分析

从某种意义上说,多元回归分析、判别分析或对应分析等许多重要的数据分析方法,都可以归结为典型相关分析的一种特例,同时它还是偏最小二乘回归分析的理论基石。

典型相关分析,是从变量组X中提取一个典型成分F=Xa,再从变量组Y中提取一个成分G=Yb,在提取过程中,要求F与G的相关程度达到最大。

在典型相关分析中,采用下述原则寻优,即

max=aX'Yb a'X'Xa=1, b'Y'Yb=1

其结果为,a是对应于矩阵V11-1 V12 V22-1 V21最大特征值的特征向量,而b是对应于矩阵V22-1 V21V11-1 V12最大特征值的特征向量,这两个最大特征值相同。其中,

V11=X'X,V12=X'Y,V22=Y'Y。

相关文档
最新文档