偏最小二乘回归
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
偏最小二乘回归(1983年由S.Wold和 C.Albano等人提出)
在多元线性回归模型中,设有一组自变 量 X x1 , x2 , , x p 和一组因变量
Y y1 , y2 , , yq
当 数据满足高斯—马尔科夫假定时,根据 最小二乘法,有
ˆ (X Y X )1 X Y
怎样确定所应提取的成分个数
在偏最小二乘回归建模中,可通过考察增加一个 新的成分后,能否对预测功能有明显的改进来考 虑。把所有的n个样本点分成两部分:第一部分是 除去某个样本点i 的所有样本点的集合(共含n 1个 样本点),用这部分样本点并使用h个成分拟合一 ˆ hj 个回归方程,得到y j 在样本点i, n, 重复上述测试,则可定义 y j的预测误差平方和为:
2 ˆ hj PRESShj ( yij y ) (-i ) i 1 n
定义Y的预测误差平方和为: PRESSh PRESShj
j 1 p
如果回归方程的稳健性不好,误差很大,它对样本 点的变动就会十分敏感,这种扰动误差的作用,就 会加大PRESSh值。
比较PRESS h 和SS h -1. SSh -1是用样本点拟合的具有h-1个成分的拟合 误差;PRESS h 增加了一个成分th ,但却含有样 本点的扰动误差。如果h个成分的回归方程的 含扰动误差能在一定程度上小于h-1个成分回 归方程的拟合误差,则认为增加一个成分th, 会使预测的精度明显提高。因此我们希望 PRESS h与SS h -1的比值能越小越好. 若 PRESS h / SS h -1 0.952 就认为增加成分是 有益的,反之,则认为新增加的成分对减少 方程的预测误差无明显的改善作用。
4. 变量 x j 与 xk的相关系数 rjk r(x j , xk ) s jk s j sk
Cov(x j , xk ) Var(x j )Var(xk )
s V s p1
2 1
s1 p 2 sp , x p ) 的协方差矩阵,有
称为(x1 , x2 ,
若数据矩阵X *已中心化, 则g * (0, 0, 1 * * Var ( x ) x j x j , n n 1 * * 1 * * * * Cov( x j , xk ) x j , xk xij . xik n n i 1
* j
, 0),
rjk
x , x
* j * k
x
* j
x
* k
即为两向量夹角的余弦
2. (中心)标准化 i 1, 2, x
* 2 j * j
x
* ij
xij x j sj , p.
, n, j 1, 2,
若数据矩阵X *已中心化, 则 n, Var ( x* j) 1
* k * x* , x j k
1 * * * Cov( x , x ) x j , xk * * r ( x* , x j k) n x j xk 即协方差矩阵就是相关系数矩阵。
F0 F0E0的最大特征根所对应 (1)求矩阵E0 的单位特征向量w1,得成分t1 E0 w1, 残差矩阵 E1 E0 t1 p1 , 其中 p1 E0 t1 t1
2
.
(2)求矩阵E1 F0 F0E1的最大特征根所对应 的单位特征向量w2,得成分t2 E1w2, , 残差矩阵 E2 E1 t2 p2 其中 p2 E1 t2 t2
最小二乘回归
把数据矩阵 X , Y 中心标准化,并分别记为 E0和F0 . 在E0中提取成分 t1 E0 w1 , 在F0中提 取成分 u1 F0c1 , 满足 (1) t1 和u1 应尽可能多地携带它们各自数据 表中的变异信息。 (2) t1 和u1 的相关程度能达到最大,即t1 对u1 有最强的解释能力。
在提取成分 t1和u1后,分别实施E0 对t1的 回归和F0对t1的回归。如果回归方程已达 到满意的精度,则算法停止,否则用E0 被 t1解释后的残余信息以及F0被 t1解释后 的残余信息进行第二轮的成分提取,如此 往复, 直到能达到一个满意的精度。
若最终对X *提取了m个成分t1 , t2 , 将通过施行F0对t1 , t2 , 归方程,k 1, 2, , q. 再表达成yk 关于原变量x1 , x2 ,
,tp,
, t p的回归,然后 , x p的回
设t1 E0 w1 , u1 F0 c1 , 满足 w1 1, c1 1. 偏最小二乘准则为 Var (t1 ) max Var (u1 ) max r (t1 , u1 ) max 即 Cov(t1 , u1 ) max . 于是可归结为如下优化问题: max E0 w1 , F0 c1 使得 w1 1, c1 1
2
, r2
F1 t2 t2
2
,
如此计算下去,如果X 的秩为s (注:X 的秩 等于E0的秩),则有 +t2 p2 + + t s ps E0 t1 p1 F0 t1 r1 + t2 r2 + + t s rs + Fs
( 1) , E0 p
由于t1,t2 , , t s 均可表示成E01 , E02 ,
* 的线性组合,因此,式 ( 1)可以还原成yk
( F0 k )关于x* j ( E0 j )的回归方程形式,即 y x + x +
* k * k1 1 * k2 2
+ x +Fsk ,
* kp p
k 1, 2,
, q. Fsk 是Fs的第k列.
在许多情况下,偏最小二乘回归方程并不 需要选用全部的成分t1,t2 , , ts 进行回归 建模,而是可以像在主成分分析时一样, 采用截尾的方式选择前m个成分t1,t2 , , tm (m s),事实上,如果后续的成分已经不能 为解释F0提供更有意义的信息时,采用过多 的成分反而会引导错误的预测结论。
2
主要性质
5. 如果矩阵E0的秩为s,则有 ( 1 ) E0 (2) F0
2
h 1 s
s
th th
2
. ph . rh
2
2
2
h 1
2
Fs
2
性质5是性质4的推论,它在精度分析中 十分重要。如果提取了m个成分,则可 知每一个成分th 对E0,F0的变异解释能 力分别为: bh th
另一方面,采用所有的样本点拟合含h个 成分的回归方程。这时,记第 i个样本点 ˆijh , 定义y j的误差平方和为: 的预测值为y ˆijh ) 2 SS hj ( yij y
i 1 n
定义Y的误差平方和为: SS h SS hj
j 1 p
一般说来,PRESS h 大于SS h, 而SS h总是小于 SS h -1.
这里矩阵 x11 K X = M O x L n1 y11 K x1 p M, Y = M O y L xnp n1 y1q M ynq
变量的数字特征: 1 n 1. 变量 x j 的均值 x j = xij n i 1 1 n 2 2 2. 变量 x j 的方差 Var(x j )= ( xij x j ) @ s j n i 1 3. 变量 x j与 xk的协方差 1 n Cov(x j , xk )= ( xij x j )( xik xk ) @ s jk n i 1
2 * 1
, q1
F0 u1 u1
2
, r1
F0 t1 t1
2
,
E1 , F , F1 分别是三个回归方程的 残差矩阵。
用残差矩阵E1和F1分别取代E0和F0, 求第二个 轴w2和c2以及第二个成分t2 , u1,有: t2 E1w2 , u2 F1c2 F1 F1E1的最大特征根所对应 其中w2是矩阵E1 F1的 的单位特征向量; c1是矩阵 F1E1 E1 最大特征根所对应的单位特征向量.建立回 归方程 + E2 E1 t2 p2 F1 t2 r2 + F2 回归系数的最小二乘估计为: p2 E1 t2 t2
2
.
以此类推,可求成分t3,t4, , tm (成分 的个数由前面的准则确定)
(2)求矩阵E1 F0 F0E1的最大特征根所对应 的单位特征向量w2,得成分t2 E1w2, , 残差矩阵 E2 E1 t2 p2 其中 p2 E1 t2 t2
2
.
以此类推,可求成分t3,t4, , tm (成分 的个数由前面的准则确定)
2
. ph
2
2
E0
,
dh
th
2
. rh
2
2
F0
一个重要的等式
Fh FhEh Eh F0 F0Eh 定理:Eh 该定理表明:在迭代过程中,可以始终 采用F0进行wh和th的计算,而无需求残差 矩阵F ( h h 1, 2, L , s). 于是,可得到偏最小二乘回归的一种简 洁算法.
1 V X X gg n 其中 g (x1 , x2 ,
, xp )
数据矩阵的中心标准化 1. 中心化 x xij x j
* ij
i 1, 2,
, n, j 1, 2,
, p.
中心化不改变样本点间的相对位置,也不改变 变量间的相关性,但变换后却常常有许多技术 上的便利。
主要性质
1. 成分th与其同阶的残差矩阵正交,即 Eh = 0 th 2. 成分t1,t2, L ,th 相互正交. 3. w1,w2, L ,wh 相互正交. 4.在任意第h步,该步的残余变异信息量 等于上步的残余变异信息量减去本步 提取的信息量,即 Eh
2
Eh -1
2
th
2
. ph
用拉格朗日常数法,可得上述优化问题 的解: F0 F0E0的最大特征根所对应 w1是矩阵E0 F0的 的单位特征向量; c1是矩阵 F0E0 E0 最大特征根所对应的单位特征向量. 求出w1 和 c1 后,即可得到成分 t1 E0 w1 , u1 F0c1
分别求E0和F0 对t1 , u1的三个回归方程: + E1 E0 t1 p1 + F1* F0 u1 q1 F0 t1 r1 + F1 上述回归系数的最小二乘估计为: p1 E0 t1 t1
在多元线性回归模型中,设有一组自变 量 X x1 , x2 , , x p 和一组因变量
Y y1 , y2 , , yq
当 数据满足高斯—马尔科夫假定时,根据 最小二乘法,有
ˆ (X Y X )1 X Y
怎样确定所应提取的成分个数
在偏最小二乘回归建模中,可通过考察增加一个 新的成分后,能否对预测功能有明显的改进来考 虑。把所有的n个样本点分成两部分:第一部分是 除去某个样本点i 的所有样本点的集合(共含n 1个 样本点),用这部分样本点并使用h个成分拟合一 ˆ hj 个回归方程,得到y j 在样本点i, n, 重复上述测试,则可定义 y j的预测误差平方和为:
2 ˆ hj PRESShj ( yij y ) (-i ) i 1 n
定义Y的预测误差平方和为: PRESSh PRESShj
j 1 p
如果回归方程的稳健性不好,误差很大,它对样本 点的变动就会十分敏感,这种扰动误差的作用,就 会加大PRESSh值。
比较PRESS h 和SS h -1. SSh -1是用样本点拟合的具有h-1个成分的拟合 误差;PRESS h 增加了一个成分th ,但却含有样 本点的扰动误差。如果h个成分的回归方程的 含扰动误差能在一定程度上小于h-1个成分回 归方程的拟合误差,则认为增加一个成分th, 会使预测的精度明显提高。因此我们希望 PRESS h与SS h -1的比值能越小越好. 若 PRESS h / SS h -1 0.952 就认为增加成分是 有益的,反之,则认为新增加的成分对减少 方程的预测误差无明显的改善作用。
4. 变量 x j 与 xk的相关系数 rjk r(x j , xk ) s jk s j sk
Cov(x j , xk ) Var(x j )Var(xk )
s V s p1
2 1
s1 p 2 sp , x p ) 的协方差矩阵,有
称为(x1 , x2 ,
若数据矩阵X *已中心化, 则g * (0, 0, 1 * * Var ( x ) x j x j , n n 1 * * 1 * * * * Cov( x j , xk ) x j , xk xij . xik n n i 1
* j
, 0),
rjk
x , x
* j * k
x
* j
x
* k
即为两向量夹角的余弦
2. (中心)标准化 i 1, 2, x
* 2 j * j
x
* ij
xij x j sj , p.
, n, j 1, 2,
若数据矩阵X *已中心化, 则 n, Var ( x* j) 1
* k * x* , x j k
1 * * * Cov( x , x ) x j , xk * * r ( x* , x j k) n x j xk 即协方差矩阵就是相关系数矩阵。
F0 F0E0的最大特征根所对应 (1)求矩阵E0 的单位特征向量w1,得成分t1 E0 w1, 残差矩阵 E1 E0 t1 p1 , 其中 p1 E0 t1 t1
2
.
(2)求矩阵E1 F0 F0E1的最大特征根所对应 的单位特征向量w2,得成分t2 E1w2, , 残差矩阵 E2 E1 t2 p2 其中 p2 E1 t2 t2
最小二乘回归
把数据矩阵 X , Y 中心标准化,并分别记为 E0和F0 . 在E0中提取成分 t1 E0 w1 , 在F0中提 取成分 u1 F0c1 , 满足 (1) t1 和u1 应尽可能多地携带它们各自数据 表中的变异信息。 (2) t1 和u1 的相关程度能达到最大,即t1 对u1 有最强的解释能力。
在提取成分 t1和u1后,分别实施E0 对t1的 回归和F0对t1的回归。如果回归方程已达 到满意的精度,则算法停止,否则用E0 被 t1解释后的残余信息以及F0被 t1解释后 的残余信息进行第二轮的成分提取,如此 往复, 直到能达到一个满意的精度。
若最终对X *提取了m个成分t1 , t2 , 将通过施行F0对t1 , t2 , 归方程,k 1, 2, , q. 再表达成yk 关于原变量x1 , x2 ,
,tp,
, t p的回归,然后 , x p的回
设t1 E0 w1 , u1 F0 c1 , 满足 w1 1, c1 1. 偏最小二乘准则为 Var (t1 ) max Var (u1 ) max r (t1 , u1 ) max 即 Cov(t1 , u1 ) max . 于是可归结为如下优化问题: max E0 w1 , F0 c1 使得 w1 1, c1 1
2
, r2
F1 t2 t2
2
,
如此计算下去,如果X 的秩为s (注:X 的秩 等于E0的秩),则有 +t2 p2 + + t s ps E0 t1 p1 F0 t1 r1 + t2 r2 + + t s rs + Fs
( 1) , E0 p
由于t1,t2 , , t s 均可表示成E01 , E02 ,
* 的线性组合,因此,式 ( 1)可以还原成yk
( F0 k )关于x* j ( E0 j )的回归方程形式,即 y x + x +
* k * k1 1 * k2 2
+ x +Fsk ,
* kp p
k 1, 2,
, q. Fsk 是Fs的第k列.
在许多情况下,偏最小二乘回归方程并不 需要选用全部的成分t1,t2 , , ts 进行回归 建模,而是可以像在主成分分析时一样, 采用截尾的方式选择前m个成分t1,t2 , , tm (m s),事实上,如果后续的成分已经不能 为解释F0提供更有意义的信息时,采用过多 的成分反而会引导错误的预测结论。
2
主要性质
5. 如果矩阵E0的秩为s,则有 ( 1 ) E0 (2) F0
2
h 1 s
s
th th
2
. ph . rh
2
2
2
h 1
2
Fs
2
性质5是性质4的推论,它在精度分析中 十分重要。如果提取了m个成分,则可 知每一个成分th 对E0,F0的变异解释能 力分别为: bh th
另一方面,采用所有的样本点拟合含h个 成分的回归方程。这时,记第 i个样本点 ˆijh , 定义y j的误差平方和为: 的预测值为y ˆijh ) 2 SS hj ( yij y
i 1 n
定义Y的误差平方和为: SS h SS hj
j 1 p
一般说来,PRESS h 大于SS h, 而SS h总是小于 SS h -1.
这里矩阵 x11 K X = M O x L n1 y11 K x1 p M, Y = M O y L xnp n1 y1q M ynq
变量的数字特征: 1 n 1. 变量 x j 的均值 x j = xij n i 1 1 n 2 2 2. 变量 x j 的方差 Var(x j )= ( xij x j ) @ s j n i 1 3. 变量 x j与 xk的协方差 1 n Cov(x j , xk )= ( xij x j )( xik xk ) @ s jk n i 1
2 * 1
, q1
F0 u1 u1
2
, r1
F0 t1 t1
2
,
E1 , F , F1 分别是三个回归方程的 残差矩阵。
用残差矩阵E1和F1分别取代E0和F0, 求第二个 轴w2和c2以及第二个成分t2 , u1,有: t2 E1w2 , u2 F1c2 F1 F1E1的最大特征根所对应 其中w2是矩阵E1 F1的 的单位特征向量; c1是矩阵 F1E1 E1 最大特征根所对应的单位特征向量.建立回 归方程 + E2 E1 t2 p2 F1 t2 r2 + F2 回归系数的最小二乘估计为: p2 E1 t2 t2
2
.
以此类推,可求成分t3,t4, , tm (成分 的个数由前面的准则确定)
(2)求矩阵E1 F0 F0E1的最大特征根所对应 的单位特征向量w2,得成分t2 E1w2, , 残差矩阵 E2 E1 t2 p2 其中 p2 E1 t2 t2
2
.
以此类推,可求成分t3,t4, , tm (成分 的个数由前面的准则确定)
2
. ph
2
2
E0
,
dh
th
2
. rh
2
2
F0
一个重要的等式
Fh FhEh Eh F0 F0Eh 定理:Eh 该定理表明:在迭代过程中,可以始终 采用F0进行wh和th的计算,而无需求残差 矩阵F ( h h 1, 2, L , s). 于是,可得到偏最小二乘回归的一种简 洁算法.
1 V X X gg n 其中 g (x1 , x2 ,
, xp )
数据矩阵的中心标准化 1. 中心化 x xij x j
* ij
i 1, 2,
, n, j 1, 2,
, p.
中心化不改变样本点间的相对位置,也不改变 变量间的相关性,但变换后却常常有许多技术 上的便利。
主要性质
1. 成分th与其同阶的残差矩阵正交,即 Eh = 0 th 2. 成分t1,t2, L ,th 相互正交. 3. w1,w2, L ,wh 相互正交. 4.在任意第h步,该步的残余变异信息量 等于上步的残余变异信息量减去本步 提取的信息量,即 Eh
2
Eh -1
2
th
2
. ph
用拉格朗日常数法,可得上述优化问题 的解: F0 F0E0的最大特征根所对应 w1是矩阵E0 F0的 的单位特征向量; c1是矩阵 F0E0 E0 最大特征根所对应的单位特征向量. 求出w1 和 c1 后,即可得到成分 t1 E0 w1 , u1 F0c1
分别求E0和F0 对t1 , u1的三个回归方程: + E1 E0 t1 p1 + F1* F0 u1 q1 F0 t1 r1 + F1 上述回归系数的最小二乘估计为: p1 E0 t1 t1