数学建模 司守奎11第11章 偏最小二乘回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
27/49
基础部数学教研室
数学 建模
MSE 是一个两行的矩阵,第一行的第 j 个元素对应 着自变量与它的前 j 1个提出成分之间回归方程的剩 余标准差,第二行的第 j 元素对应着因变量与它的前 j 1个提出成分之间回归方程的剩余标准差;stats 返 回 4 个值,其中返回值 stats.W 的每一列对应着特征向
定义 的误差平方和为
p
SS(h) SS j (h). j1
21/49
基础部数学教研室
数学 建模
当 PRESS(h)达到最小值时,对应的 h 即为所求的 成分个数l 。通常,总有PRESS(h)大于SS(h),而SS(h) 则小于SS(h 1)。因此,在提取成分时,总希望比值 PRESS(h) SS(h 1)越小越好;一般可设定限制值为 0.05,即当
s.t.
(1)T
(1)
(1)
2
1,
(1)T (1)
(1)
2
1.
(11.3)
11/49
基础部数学教研室
数学 建模
利用Lagrange乘数法,问题化为求单位向量 (1)和
(1),使1 (1)T AT B (1)达到最大。问题的求解只须通
过计算m m 矩阵 M AT BBT A的特征值和特征向
基础部数学教研室
数学 建模
其中 X 为 n×m 的自变量数据矩阵,每一行对应一 个观测,每一列对应一个变量;Y 为 n×p 的因变量数 据矩阵,每一行对应一个观测,每一列对应一个变量; ncomp 为成分的个数,ncomp 的默认值为 min(n-1,m)。
返回值 XL 为对应于ˆi 的 m×ncomp 的负荷量矩阵,它
基础部数学教研室
数学 建模
而uˆ2 A1 (2),vˆ2 B1 (2)为第二对成分的得分向量, (2) A1T uˆ2 uˆ2 2 , (2) B1T uˆ2 uˆ2 2
分别为 X ,Y 的第二对成分的负荷量。这时有
A B
uˆ1 (1)T uˆ1 (1)T
的每一行为对应于式(11.7)的第一式的回归表达式;
YL 为对应于ˆi的 p×ncomp 矩阵,它的每一行为对应于
式(11.7)的第二式的回归表达式;
26/49
基础部数学教研室
数学 建模
XS 是对应于uˆi 的得分矩阵,Matlab 工具箱中对应
于式(11.3)的特征向量 (i)不是取为单位向量,(i)取
v1是因变量集Y [ y1,L , yp ]T 的线性组合
v1 11 y1 L 1 p y p Y (1)T 。
为了回归分析的需要,要求
i)u1和v1各自尽可能多地提取所在变量组的变异信 息;
ii)u1和v1的相关程度达到最大。
9/49
基础部数学教研室
数学
建模 由两组变量集的标准化观测数据矩阵 A和B,可以
Y [ y1,L , yp ]T 的预测误差平方和为
p
PRESS(h) PRESS j (h). i 1
20/49
基础部数学教研室
数学 建模
另外,再采用所有的样本点,拟合含h个成分的回 归方程。这时,记第i 个样本点的预测值为bˆij (h),则 可以定义 y j的误差平方和为
n
SS j (h) (bij bˆij (h))2 , i 1
数学建模算法与应用
第11章 偏最小二乘回归分析
基础部数学教研室
数学 建模
在实际问题中,经常遇到需要研究两组多重相关 变量间的相互依赖关系,并研究用一组变量(常称为 自变量或预测变量)去预测另一组变量(常称为因变 量或响应变量),除了最小二乘准则下的经典多元线 性回归分析(MLR),提取自变量组主成分的主成分 回归分析(PCR)等方法外,还有近年发展起来的偏最 小二乘(PLS)回归方法。
7/49
基础部数学教研室
数学 建模
为了方便起见,不妨假定 p个因变量 y1,L , yp与m 个自变量 x1,L , xm均为标准化变量。自变量组和因变 量组的n次标准化观测数据矩阵分别记为
a11 L
A
M
an1 L
a1m M
,
B
b11 M
L
anm
bn1 L
uˆr (r )T Ar uˆr (r )T Br .
,
(11.7)
把 uk k1 x1 L km xm ( k 1,2,L , r ), 代 入
Y u1 (1) L ur (r),即得 p个因变量的偏最小二乘回
归方程式
y j c j1x1 L c jm xm, j 1, 2,L , p. (11.8)
uˆ2 (2)T A2 uˆ2 (2)T B2 .
,
16/49
基础部数学教研室
数学 建模
(4)设n m 数据阵 A的秩为r min(n 1,m),则
存在r 个成分u1, u2 ,L , ur ,使得
A B
uˆ1 (1)T uˆ1 (1)T
L L
17/49
基础部数学教研室
数学 建模
(5)交叉有效性检验。 一般情况下,偏最小二乘法并不需要选用存在的r
个成分u1, u2 ,L , ur 来建立回归式,而像主成分分析一 样,只选用前l 个成分(l r ),即可得到预测能力较 好的回归模型。对于建模所需提取的成分个数l ,可以 通过交叉有效性检验来确定。
18/49
基础部数学教研室
数学 建模
每次舍去第i 个观测数据(i 1,2,L ,n),对余下 的n 1个观测数据用偏最小二乘回归方法建模,并考 虑抽取h(h r )个成分后拟合的回归式,然后把舍 去的自变量组第i 个观测数据代入所拟合的回归方程 式,得到 y j ( j 1,2,L , p)在第 i 个观测点上的预测值 bˆ(i) j (h)。
计算第一对成分的得分向量,记为uˆ1和vˆ1
a11 L
uˆ1
A (1)
Байду номын сангаас
M
a1m 11
M
M ,
an1 L anm 1m
(11.1)
b11 L
vˆ1
B (1)
M
bn1 L
b1 p M
M11
.
bnp 1 p
A B
uˆ1 (1)T uˆ1 (1)T
A1, B1,
(11.5)
其中 (1) [11,L ,1m ]T , (1) [ 11,L , 1 p ]T 分别是多对
一的回归模型中的参数向量, A1和B1是残差阵。
13/49
基础部数学教研室
数学 建模
19/49
基础部数学教研室
数学 建模
对i 1, 2,L ,n重复以上的验证,即得抽取h个成 分时第 j 个因变量 y j ( j 1,2,L , p)的预测误差平方和 为
n
PRESS j (h) (bij bˆ(i) j (h))2 , j 1, 2,L , p, i 1
24/49
基础部数学教研室
数学 建模
11.2 Matlab 偏最小二乘回归命令 plsregress Matlab 工具箱中偏最小二乘回归命令 plsregress
的使用格式为 [XL,YL,XS,YS,BETA,PCTVAR,MSE,stats] =
plsregress (X,Y,ncomp)
25/49
量,且 M 的最大特征值为12,相应的单位特征向量就 是所求的解 (1),而 (1)可由 (1)计算得到
(1) 1 BT A (1) 1
(11.4)
12/49
基础部数学教研室
数学 建模
(2)建立 y1,L , yp对u1的回归及 x1,L , xm对u1的回 归。
假定回归模型为
(11.2)
10/49
基础部数学教研室
数学 建模
第一对成分 u1 和 v1 的协方差Cov(u1 , v1 ) 可用第一 对成分的得分向量uˆ1和vˆ1的内积来计算。故而以上两 个要求可化为数学上的条件极值问题
max (uˆ1 vˆ1 ) ( A (1) B (1) ) (1)T AT B (1)
为使得每个uˆi 对应的得分向量是单位向量,且不同的 得分向量是正交的;YS 是对应于vˆi 的得分矩阵,它的 每一列不是单位向量,列与列之间也不正交;BETA 的每一列为对应于式(11.8)的回归表达式;PCTVAR 是一个两行的矩阵,第一行的每个元素对应着自变量 提出成分的贡献率,第二行的每个元素对应着因变量 提出成分的贡献率;
4/49
基础部数学教研室
数学 建模
本章介绍偏最小二乘回归分析的建模方法;通过 例子从预测角度对所建立的回归模型进行比较。
5/49
基础部数学教研室
数学 建模
11.1 偏最小二乘回归分析 考 虑 p 个 因 变 量 y1, y2,L , yp 与 m 个 自 变 量
x1, x2 ,L , xm 的建模问题。偏最小二乘回归的基本作法 是首先在自变量集中提出第一成分u1(u1是 x1,L , xm 的线性组合,且尽可能多地提取原自变量集中的变异
3/49
基础部数学教研室
数学
建模 偏最小二乘回归提供一种多对多线性回归建模的 方法,特别当两组变量的个数很多,且都存在多重相 关性,而观测数据的数量(样本量)又较少时,用偏 最小二乘回归建立的模型具有传统的经典回归分析 等方法所没有的优点。 偏最小二乘回归分析在建模过程中集中了主成 分分析,典型相关分析和线性回归分析方法的特点, 因此在分析结果中,除了可以提供一个更为合理的回 归模型外,还可以同时完成一些类似于主成分分析和 典型相关分析的研究内容,提供一些更丰富、深入的 信息。
b1 p M . bnp
偏最小二乘回归分析建模的具体步骤如下
8/49
基础部数学教研室
数学 建模
(1)分别提取两变量组的第一对成分,并使之相
关性达最大。
假设从两组变量分别提出第一对成分为 u1 和 v1 , u1 是自变量集 X [ x1,L , xm ]T 的线性组合
u1 11 x1 L 1m xm (1)T X ,
回归系数向量 (1) , (1)的最小二乘估计为
(1) AT uˆ1 uˆ1 2 ,
(1) BT uˆ1
uˆ1 2 ,
称 (1) , (1)为模型效应负荷量。
(11.6)
14/49
基础部数学教研室
数学 建模
(3)用残差阵 A1和B1代替 A和B重复以上步骤。
记 Aˆ uˆ1 (1)T ,Bˆ uˆ1 (1)T ,则残差阵 E1 A Aˆ ,
23/49
基础部数学教研室
数学 建模
为此,定义交叉有效性为 Qh2 1 PRESS(h) SS(h 1),
这样,在建模的每一步计算结束前,均进行交叉有效 性检验,如果在第h步有Qh2 1 0.952 0.0975,则模 型达到精度要求,可停止提取成分;若Qh2 0.0975, 表示第h步提取的uh成分的边际贡献显著,应继续第 h 1步计算。
PRESS(h) SS(h 1) (1 0.05)2 0.952 时,增加成分uh有利于模型精度的提高。
22/49
基础部数学教研室
数学 建模
或者反过来说,当 PRESS(h) SS(h 1) 0.952
时,就认为增加新的成分 uh ,对减少方程的预测误差 无明显的改善作用。
B1 B Bˆ 。如果残差阵B1中元素的绝对值近似为 0, 则认为用第一个成分建立的回归式精度已满足需要
了,可以停止抽取成分。否则用残差阵 A1和B1代替 A和 B重复以上步骤即得
(2) [21,L ,2m ]T , (2) [ 21,L , 2 p ]T ,
15/49
信息);同时在因变量集中也提取第一成分 v1 ,并要 求u1与v1相关程度达到最大。然后建立因变量 y1,L , yp 与u1的回归,如果回归方程已达到满意的精度,则算 法中止。
6/49
基础部数学教研室
数学 建模
否则继续第二对成分的提取,直到能达到满意的 精度为止。若最终对自变量集提取r 个成分 u1, u2 ,L , ur ,偏最小二乘回归将通过建立 y1,L , yp 与 u1, u2 ,L , ur 的回归式,然后再表示为 y1,L , yp与原自变 量的回归方程式,即偏最小二乘回归方程式。