偏最小二乘回归方法-PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
F0TE01 1c1
将(6)代入(5),有
(5)式 (6)式
E0 TF0F0TE0 112 1 (7)式
15
多因变量偏最小二乘算法推导
易知, 1 是矩阵 E0TF0F0TE0的特征
向量,对应的特征值为
2 1
。
1
是目
标函数,它要求取最大值。
所以, 1 是对应于矩阵 E0TF0F0TE0 的最大特征值的单位特征向量。
F m k 是残差矩阵 F m 的第k 列。
24
偏最小二乘回归的简化算法
(1)求矩阵 E0TF0F0TE0 最大特征值
所对应的单位特征向量 1 ,求成分 ,
得t1
t1 E01
E1 E0 t1p1T
其中
25
p1
E
T 0
t1
t1 2
偏最小二乘回归的简化算法
(2)求矩阵 E1TF0F0TE1 最大特征
27
偏最小二乘回归的简化算法
则求 F 0 在 t1,L ,th 上的普通最小二 乘回归方程为
F 0 t1 r 1 T t2 r 2 T L F m
其中
28
ri
F0Tti ti 2
,i
1,2,
h
交叉有效性具体的步骤:
记 y i j为原始数据,t1,t2,L tm 是在 偏最小二乘回归过程中提取的成分,
E 0t1p 1 T Ltm p m T
F 0 t1 r 1 T L tm r m T F m
由于 t1,L ,tm 均可以表示成 E01,L,E0p 的线性组合。
23
多因变量偏最小二乘算法推导
因此,(8)式还可以还原成
yk* F0k
关于
x
* j
E0
j
的回归方程形式,
即
y k *k 1 x 1 * L k p x * p F m k k1,2,L,q
PRESSh
(yij yˆhj(i))2
j1 i1
30
Qh2
1
PRESSh SSh1
交叉有效性具体的步骤:
当 Qh2 0.0975即 时, PRESSh0.95SSh1 引进新的成分 会对t h 模型的预测能 力有明显的改善作用。
31
典型相关分析中的精度分析
在偏最小二乘回归计算过程中, 所提取的自变量成分 ,尽t i 可能多 地代表 中的X 变异信息。
同理,可得
16
F0TE0E0TF0c112c1
多因变量偏最小二乘算法推导
易知,c 1 是对应于矩阵 F0TE0E0TF0
的最大特征值 12 的单位特征向量。
求得轴 c 1 和 1 后,即可得到成
分 t1 E01,u1 F0c1 。然后,分别求
E
和
0
F
0
对 t 1 与 u 1 的三个回归方程
值所对应的单位特征向量 2 ,求成
分t 2 ,得
t2 E12
E2 E1t2p2T
26
其中
p2
E
T 1
t
2
t2 2
……
偏最小二乘回归的简化算法
至第h步,求成分 , th Eh1h h 是 EhT1F0F0TEh1 矩阵最大特征值所对应 的特征向量。
如果根据交叉有效性,确定共 抽取h个主成分 t1,L ,th 可以得到一 个满意的预测模型。
s 1 T E 0 T F 0 c 1 11 T 1 1 2 c 1 T c 1 1
对 s 分别求关于 1 ,c 1 , 1 和 2 的偏导
数,并令之为零,有
12
多因变量偏最小二乘算法推导
s
1
E0TF0c12110
(1)式
s c1
F0TE0122c1
0(2)式
s
1
1T1
1
0
(3)式
17
多因变量偏最小二乘算法推导
E0 t1p1T E1 F0 u1q1T F1*
其中
F0 t1r1T F1
p1
E
T 0
t1
t1 2
r1
F
T 0
t1
t1 2
q1
F
T 0
u
1
u1 2
18
多因变量偏最小二乘算法推导
而 E 1 ,F 1 * ,F 1 分别是三个回归方程的 残差矩阵。
19
多因变量偏最小二乘算法推导
的特征向量;
c
2
是对应
于矩阵
F1T E1E1T F1 的最大特征值
的 2
2
特征向量。
21
多因变量偏最小二乘算法推导
计算回归系数
p2
E
T 1
t
2
t2 2
r2
F
T 1
t
2
t2 2
因此,有回归方程
E1 t2p2T E2
F1 t2r2T F2
(8)式
22
多因变量偏最小二乘算法推导
如此计算下去,如果的 X 秩是 , 则会m 有
t1,L ,th 对 x k 的解释能力为
h
Rd(xk;t1,L,th) Rd(xk;ti) i1
34
典型相关分析中的精度分析
t1,L ,th 对Y 的解释能力为
h
Rd(Y;t1,L,th) Rd(Y;ti) i1
t1,L ,th 对 y k 的解释能力为
h
Rd(yk;t1,L,th) Rd(yk;ti) i1
第二步:用残差矩阵E 1 和F 1 取
代 E 0 和 F 0 。然后,求第二个轴 2 和 c 2 以及第二个成分 t 2 ,u 2 ,有
t2 E12
u2 F1c2
2t2,u2 2 TE1 TF 1c2
20
多因变量偏最小二乘算法推导
2 是对应于矩阵 E1T F1F1T E1 的最
大特征值
2 2
E 0(E 0 1,L,E 0p)n p
原因变量数据表 Y(y1,y2,Lyq)n q 经标准化后的数据矩阵记
6
F 0(F 01,L,F 0q)n q
多因变量偏最小二乘算法推导
第一步:记 t 1是 E 0 的第一个成 分,t1 E01 , 1是 E 0 的第一个轴,它 是一个单位向量,即有 1 1 。
是使yˆ用h j i 全部样本点并取h
个
成分回归建模后,第 个i 样本点的
拟合值, yˆ h j是( i ) 在建模时删除样本 点 ,i
29
交叉有效性具体的步骤:
取 h 个成分回归建模后,再用此模
型计算的 y i j 的拟合值,记
p
pn
SSh SShj
(yij yˆhji)2
i1
j1i1
pn
C o v t 1 ,u 1 V a r t 1 V a r u 1 r t 1 ,u 1 m a x
10
多因变量偏最小二乘算法推导
正规的数学表述应该是求解下 列优化问题,即
max
1,c1
E0
1,F0c1
s .t
T 1
c
T 1
1
c1
1 1
11
多因变量偏最小二乘算法推导
采用拉格朗日算法,记
35
谢谢!
讲演人:汤佳佳
36
记 u 1 是 F 0 的第一个成分 u1 F0c1 , c 1 是 F 0 的第一个轴,它是一个单位 向量,即 c 1 1 。
7
多因变量偏最小二乘算法推导
如果要使 t 1 ,u 1 能很好的代表 X
与Y 中的数据变异信息,根据主成
分分析原理,应该有 Vart1max, Varu1max 。
8
t i 对某自变量 x j 的解释能力为
Rd(xj;ti)r2(xj,ti)
32
典型相关分析中的精度分析
t i 对某因变量y k 的解释能力为
Rd(yk;ti)r2(yk,ti)
t i 对X 的解释能力为
Rd(X;ti)1pkp1Rd(xk;ti)
33
Fra Baidu bibliotek
t1,L ,th 对X 的解释能力为
h
Rd(X;t1,L,th) Rd(X;ti) i1
(3)偏最小二乘回归在最终模 型中将包含原有的所有自变量,易 于辨识系统信息与噪声,而且其自 变量的回归系数也将更容易解释。
4
此方法的优点:
(4)偏最小二乘回归方法与其 他的建模方法相比,具有计算简单、 预测精度高,易于定性解释的优点。
5
多因变量偏最小二乘算法推导
首先将数据做标准化处理。
原自变量数据表 X(x1,x2,Lxp)np 经标准化后的数据矩阵记为
多因变量偏最小二乘算法推导
另一方面,由于回归建模的需
要,又要求 t 1 对u 1 有最大的解释能
力,由典型相关分析的思路,t 1 与 u 1
的相关度应达到最大值,即
rt1,u1max
9
多因变量偏最小二乘算法推导
因此,综合起来,在偏最小二
乘回归中,我们要求 t 1 与 u 1 的协
方差达到最大,即
13
s
2
c1Tc1 1
0
(4)式
多因变量偏最小二乘算法推导
由上述四个式子可以推出
21 221 T E 0 T F 0 c 1E 01 ,F 0 c 1
记 12 12 2 1 TE 0 TF 0c1,所以 1 正是 优化问题的目标函数值。
14
多因变量偏最小二乘算法推导
把(1)和(2)式写成 E0TF0c1 11
偏最小二乘回归方法
讲演人:
1
简言之
偏最小二乘回归是一种集多元 线性回归分析、典型相关分析和主 成分分析的基本功能为一体的新型 多元统计分析方法。
2
此方法的优点:
(1)能在自变量存在严重多重 相关性的条件下进行回归建模;
(2)允许在样本点个数少于自 变量个数的条件下进行回归建模;
3
此方法的优点:
将(6)代入(5),有
(5)式 (6)式
E0 TF0F0TE0 112 1 (7)式
15
多因变量偏最小二乘算法推导
易知, 1 是矩阵 E0TF0F0TE0的特征
向量,对应的特征值为
2 1
。
1
是目
标函数,它要求取最大值。
所以, 1 是对应于矩阵 E0TF0F0TE0 的最大特征值的单位特征向量。
F m k 是残差矩阵 F m 的第k 列。
24
偏最小二乘回归的简化算法
(1)求矩阵 E0TF0F0TE0 最大特征值
所对应的单位特征向量 1 ,求成分 ,
得t1
t1 E01
E1 E0 t1p1T
其中
25
p1
E
T 0
t1
t1 2
偏最小二乘回归的简化算法
(2)求矩阵 E1TF0F0TE1 最大特征
27
偏最小二乘回归的简化算法
则求 F 0 在 t1,L ,th 上的普通最小二 乘回归方程为
F 0 t1 r 1 T t2 r 2 T L F m
其中
28
ri
F0Tti ti 2
,i
1,2,
h
交叉有效性具体的步骤:
记 y i j为原始数据,t1,t2,L tm 是在 偏最小二乘回归过程中提取的成分,
E 0t1p 1 T Ltm p m T
F 0 t1 r 1 T L tm r m T F m
由于 t1,L ,tm 均可以表示成 E01,L,E0p 的线性组合。
23
多因变量偏最小二乘算法推导
因此,(8)式还可以还原成
yk* F0k
关于
x
* j
E0
j
的回归方程形式,
即
y k *k 1 x 1 * L k p x * p F m k k1,2,L,q
PRESSh
(yij yˆhj(i))2
j1 i1
30
Qh2
1
PRESSh SSh1
交叉有效性具体的步骤:
当 Qh2 0.0975即 时, PRESSh0.95SSh1 引进新的成分 会对t h 模型的预测能 力有明显的改善作用。
31
典型相关分析中的精度分析
在偏最小二乘回归计算过程中, 所提取的自变量成分 ,尽t i 可能多 地代表 中的X 变异信息。
同理,可得
16
F0TE0E0TF0c112c1
多因变量偏最小二乘算法推导
易知,c 1 是对应于矩阵 F0TE0E0TF0
的最大特征值 12 的单位特征向量。
求得轴 c 1 和 1 后,即可得到成
分 t1 E01,u1 F0c1 。然后,分别求
E
和
0
F
0
对 t 1 与 u 1 的三个回归方程
值所对应的单位特征向量 2 ,求成
分t 2 ,得
t2 E12
E2 E1t2p2T
26
其中
p2
E
T 1
t
2
t2 2
……
偏最小二乘回归的简化算法
至第h步,求成分 , th Eh1h h 是 EhT1F0F0TEh1 矩阵最大特征值所对应 的特征向量。
如果根据交叉有效性,确定共 抽取h个主成分 t1,L ,th 可以得到一 个满意的预测模型。
s 1 T E 0 T F 0 c 1 11 T 1 1 2 c 1 T c 1 1
对 s 分别求关于 1 ,c 1 , 1 和 2 的偏导
数,并令之为零,有
12
多因变量偏最小二乘算法推导
s
1
E0TF0c12110
(1)式
s c1
F0TE0122c1
0(2)式
s
1
1T1
1
0
(3)式
17
多因变量偏最小二乘算法推导
E0 t1p1T E1 F0 u1q1T F1*
其中
F0 t1r1T F1
p1
E
T 0
t1
t1 2
r1
F
T 0
t1
t1 2
q1
F
T 0
u
1
u1 2
18
多因变量偏最小二乘算法推导
而 E 1 ,F 1 * ,F 1 分别是三个回归方程的 残差矩阵。
19
多因变量偏最小二乘算法推导
的特征向量;
c
2
是对应
于矩阵
F1T E1E1T F1 的最大特征值
的 2
2
特征向量。
21
多因变量偏最小二乘算法推导
计算回归系数
p2
E
T 1
t
2
t2 2
r2
F
T 1
t
2
t2 2
因此,有回归方程
E1 t2p2T E2
F1 t2r2T F2
(8)式
22
多因变量偏最小二乘算法推导
如此计算下去,如果的 X 秩是 , 则会m 有
t1,L ,th 对 x k 的解释能力为
h
Rd(xk;t1,L,th) Rd(xk;ti) i1
34
典型相关分析中的精度分析
t1,L ,th 对Y 的解释能力为
h
Rd(Y;t1,L,th) Rd(Y;ti) i1
t1,L ,th 对 y k 的解释能力为
h
Rd(yk;t1,L,th) Rd(yk;ti) i1
第二步:用残差矩阵E 1 和F 1 取
代 E 0 和 F 0 。然后,求第二个轴 2 和 c 2 以及第二个成分 t 2 ,u 2 ,有
t2 E12
u2 F1c2
2t2,u2 2 TE1 TF 1c2
20
多因变量偏最小二乘算法推导
2 是对应于矩阵 E1T F1F1T E1 的最
大特征值
2 2
E 0(E 0 1,L,E 0p)n p
原因变量数据表 Y(y1,y2,Lyq)n q 经标准化后的数据矩阵记
6
F 0(F 01,L,F 0q)n q
多因变量偏最小二乘算法推导
第一步:记 t 1是 E 0 的第一个成 分,t1 E01 , 1是 E 0 的第一个轴,它 是一个单位向量,即有 1 1 。
是使yˆ用h j i 全部样本点并取h
个
成分回归建模后,第 个i 样本点的
拟合值, yˆ h j是( i ) 在建模时删除样本 点 ,i
29
交叉有效性具体的步骤:
取 h 个成分回归建模后,再用此模
型计算的 y i j 的拟合值,记
p
pn
SSh SShj
(yij yˆhji)2
i1
j1i1
pn
C o v t 1 ,u 1 V a r t 1 V a r u 1 r t 1 ,u 1 m a x
10
多因变量偏最小二乘算法推导
正规的数学表述应该是求解下 列优化问题,即
max
1,c1
E0
1,F0c1
s .t
T 1
c
T 1
1
c1
1 1
11
多因变量偏最小二乘算法推导
采用拉格朗日算法,记
35
谢谢!
讲演人:汤佳佳
36
记 u 1 是 F 0 的第一个成分 u1 F0c1 , c 1 是 F 0 的第一个轴,它是一个单位 向量,即 c 1 1 。
7
多因变量偏最小二乘算法推导
如果要使 t 1 ,u 1 能很好的代表 X
与Y 中的数据变异信息,根据主成
分分析原理,应该有 Vart1max, Varu1max 。
8
t i 对某自变量 x j 的解释能力为
Rd(xj;ti)r2(xj,ti)
32
典型相关分析中的精度分析
t i 对某因变量y k 的解释能力为
Rd(yk;ti)r2(yk,ti)
t i 对X 的解释能力为
Rd(X;ti)1pkp1Rd(xk;ti)
33
Fra Baidu bibliotek
t1,L ,th 对X 的解释能力为
h
Rd(X;t1,L,th) Rd(X;ti) i1
(3)偏最小二乘回归在最终模 型中将包含原有的所有自变量,易 于辨识系统信息与噪声,而且其自 变量的回归系数也将更容易解释。
4
此方法的优点:
(4)偏最小二乘回归方法与其 他的建模方法相比,具有计算简单、 预测精度高,易于定性解释的优点。
5
多因变量偏最小二乘算法推导
首先将数据做标准化处理。
原自变量数据表 X(x1,x2,Lxp)np 经标准化后的数据矩阵记为
多因变量偏最小二乘算法推导
另一方面,由于回归建模的需
要,又要求 t 1 对u 1 有最大的解释能
力,由典型相关分析的思路,t 1 与 u 1
的相关度应达到最大值,即
rt1,u1max
9
多因变量偏最小二乘算法推导
因此,综合起来,在偏最小二
乘回归中,我们要求 t 1 与 u 1 的协
方差达到最大,即
13
s
2
c1Tc1 1
0
(4)式
多因变量偏最小二乘算法推导
由上述四个式子可以推出
21 221 T E 0 T F 0 c 1E 01 ,F 0 c 1
记 12 12 2 1 TE 0 TF 0c1,所以 1 正是 优化问题的目标函数值。
14
多因变量偏最小二乘算法推导
把(1)和(2)式写成 E0TF0c1 11
偏最小二乘回归方法
讲演人:
1
简言之
偏最小二乘回归是一种集多元 线性回归分析、典型相关分析和主 成分分析的基本功能为一体的新型 多元统计分析方法。
2
此方法的优点:
(1)能在自变量存在严重多重 相关性的条件下进行回归建模;
(2)允许在样本点个数少于自 变量个数的条件下进行回归建模;
3
此方法的优点: