(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。
(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。在普通多元线形回归的应用中,我们常受到许多限制。最典型的问题就是自变量之间的多重相关性。如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。
一、偏最小二乘回归的建模策略\原理\方法
1.1建模原理
设有 q 个因变量{q y y ,...,1}和p 自变量{p x x ,...,1}。为了研究因变量和自变量的统计关系,我们观测了n 个样本点,由此构成了自变量与因变量的数据表X={p x x ,...,1}和.Y={q y y ,...,1}。偏最小二乘回归分别在X 与Y 中提取出成分1t 和1u (也就是说, 1t 是p x x ,...,1 的线形组合, 1u 是q y y ,...,1 的线形组合).在提取这两个成分时,为了回归分析的需要,有下列两个要求:
(1) 1t 和1u 应尽可能大地携带他们各自数据表中的变异信息;
(2) 1t 与1u 的相关程度能够达到最大。
这两个要求表明,1t 和1u 应尽可能好的代表数据表X 和Y ,同时自变量的成分 1t 对因变量的成分1u 又有最强的解释能力。
在第一个成分1t 和 1u 被提取后,偏最小二乘回归分别实施X 对 1t 的回归以及 Y 对1u 的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X 被1t 解释后的残余信息以及Y 被1t 解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对 X 共提取了 m 个成分1t ,…,m t ,偏最小二乘回归将通过实施 k y 对1t ,…,m t , 的回归,然后再表达成k y 关于原变量
x 1,…,x m , 的回归方程,k=1,2,…,q 。
1.2计算方法推导 为了数学推导方便起见,首先将数据做标准化处理。X 经标准化处理后的数据矩阵记为0E =(E 01,…,E p 0)p n ⨯,j Y 经标准化处理后的数据矩阵记为0F =(01F ,…,q F 0)p n ⨯。
第一步 记1t 是0E 的第一个成分,1w 是0E 的第一个轴,它是一个单位向量,
既||1w ||=1。
记1u 是0F 的第一个成分,1u =0
F c 1。c 1 是0F 的第一个轴,并且||c 1||=1。
如果要1t ,1u 能分别很好的代表X 与Y 中的数据变异信息,根据主成分分析原理,应该有
Var(1u )→max
Var(1t )→max
另一方面,由于回归建模的需要,又要求1t 对1u 有很大的解释能力,有典型相关分析的思路,1t 与1u 的相关度应达到最大值,既
r (1t ,1u )→max
因此,综合起来,在偏最小二乘回归中,我们要求1t 与1u 的协方差达到最大,既
Cov(1t ,1u )=)()(11u t Var Var r(1t ,
1u ) →max 正规的数学表述应该是求解下列优化问题,既
因此,将在||1w ||2=1和||c 1||2=1的约束条件下,去求(w '1
E '0
F 0c 1)的最大值。
如果采用拉格朗日算法,记
s=w '1
E '00
F c 1-λ1 (w '11w -1)-λ2 (c '1c 1-1) 对s 分别求关于1w ,c 1,λ1和λ2的偏导并令之为零,有
1w s ∂∂=E '
00F c 1 -λ121w =0 (1 -2)
1c s ∂∂=F '
00E 1w -λ22c 1
=0 (1-3) 1
λ∂∂s =-(w '11w -1)=0 (1-4)
2
λ∂∂s =-(c '1c 1-1)=0 (1-5) 由式(1-2)~(1-5),可以推出
>=<==1010100'1'21,22c F w E c F E w λλ
记100'1'21122c F E w ===λλθ,所以,1θ正是优化问题的目标函数值.
把式(1-2)和式(1-3)写成
11100'w c F E θ= (1-6) 11100'c w E F θ= (1-7)
将式(1-7)代入式(1-6),有
121100'00'w w E F F E θ= (1-8)
同理,可得
121100'00'c c F E E F θ= (1-9)
可见,1w 是矩阵00'00'E F F E 的特征向量,对应的特征值为21θ.1θ是目标函数值,它要求取最大值,所以, 1w 是对应于00'00'E F F E 矩阵最大特征值的单位特征向量.而另一方面, 1c 是对应于矩阵00'00'F E E F 最大特征值21θ的单位特征向量.
求得轴1w 和1c 后,即可得到成分
101w E t =
101c F u =
然后,分别求0E 和0F 对1t ,1u 的三个回归方程
11'10E p t E += (1-10) 11'10*+=F q u F (1-11) 11'10F r t F += (1-12) 式中,回归系数向量是