偏最小二乘回归分析

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(3)用残差阵 A1 和 B1 代替 A和 B 重复以上步骤。 ˆ u ˆ, ˆ u ˆ1 (1)T , B ˆ1 (1)T ,则残差阵 E1 A A 记A ˆ 。如果残差阵 B 中元素的绝对值近似为 0, B1 B B 1 则认为用第一个成分建立的回归式精度已满足需要 了, 可以停止抽取成分。 否则用残差阵 A1 和 B1 代替 A和 B 重复以上步骤即得
3/49
基础部数学教研室
数学 建模
偏最小二乘回归提供一种多对多线性回归建模的 方法,特别当两组变量的个数很多,且都存在多重相 关性,而观测数据的数量(样本量)又较少时,用偏 最小二乘回归建立的模型具有传统的经典回归分析 等方法所没有的优点。 偏最小二乘回归分析在建模过程中集中了主成 分分析,典型相关分析和线性回归分析方法的特点, 因此在分析结果中,除了可以提供一个更为合理的回 归模型外,还可以同时完成一些类似于主成分分析和 典型相关分析的研究内容,提供一些更丰富、深入的 信息。
Biblioteka Baidu
4/49
基础部数学教研室
数学 建模
本章介绍偏最小二乘回归分析的建模方法;通过 例子从预测角度对所建立的回归模型进行比较。
5/49
基础部数学教研室
数学 建模
11.1
偏最小二乘回归分析 考 虑 p 个 因 变 量 y1 , y2 , , y p 与 m 个 自 变 量
x1 , x2 ,, xm 的建模问题。偏最小二乘回归的基本作法
数学建模算法与应用
第11章 偏最小二乘回归分析
基础部数学教研室
数学 建模
在实际问题中,经常遇到需要研究两组多重相关 变量间的相互依赖关系,并研究用一组变量(常称为 自变量或预测变量)去预测另一组变量(常称为因变 量或响应变量),除了最小二乘准则下的经典多元线 性回归分析(MLR),提取自变量组主成分的主成分 回归分析(PCR)等方法外,还有近年发展起来的偏最 小二乘(PLS)回归方法。
(i ) j
19/49
基础部数学教研室
数学 建模
对 i 1, 2,, n重复以上的验证,即得抽取 h 个成 分时第 j 个因变量 y j ( j 1,2,, p) 的预测误差平方和 为
ˆ ( h))2 , j 1,2, , p , PRESS j ( h) ( bij b (i ) j
的每一行为对应于式(11.7)的第一式的回归表达式; YL 为对应于ˆi 的 p× ncomp 矩阵, 它的每一行为对应于 式(11.7)的第二式的回归表达式;
分别为 X ,Y 的第二对成分的负荷量。这时有 (1)T ( 2)T ˆ ˆ A u u A2 , 1 2 (1)T ( 2)T ˆ ˆ B u u B2 . 1 2
16/49
基础部数学教研室
数学 建模
(4)设 n m 数据阵 A 的秩为 r min( n 1, m ) ,则 存在 r 个成分 u1 , u2 ,, ur ,使得 (1)T ( r )T ˆ ˆ ur Ar , A u1 (11.7) (1)T ( r )T ˆ1 ˆ r u Br . B u 把 uk k 1 x1 km xm ( k 1,2,, r ), 代 入 即得 p 个因变量的偏最小二乘回 Y u1 (1) ur ( r ) , 归方程式
22/49
基础部数学教研室
数学 建模
或者反过来说,当 PRESS(h) SS(h 1) 0.952 时,就认为增加新的成分 uh ,对减少方程的预测误差 无明显的改善作用。
23/49
基础部数学教研室
数学 建模
为此,定义交叉有效性为 2 Qh 1 PRESS( h) SS( h 1), 这样,在建模的每一步计算结束前,均进行交叉有效 2 性检验,如果在第 h 步有Qh 1 0.952 0.0985,则模 2 0.0975 , 型达到精度要求,可停止提取成分;若Qh 表示第 h 步提取的 uh 成分的边际贡献显著,应继续第 h 1步计算。
i 1 n
Y [ y1 , , y p ]T 的预测误差平方和为
PRESS( h) PRESS j ( h).
i 1 p
20/49
基础部数学教研室
数学 建模
另外, 再采用所有的样本点, 拟合含 h 个成分的回 ˆ ( h),则 归方程。这时,记第 i 个样本点的预测值为 b ij 可以定义 y j 的误差平方和为
2 ˆ SS j ( h) (bij bij ( h)) , i 1 n
定义 的误差平方和为
SS( h) SS j ( h) .
j 1
p
21/49
基础部数学教研室
数学 建模
当 PRESS( h) 达到最小值时,对应的 h 即为所求的 成分个数 l 。 通常, 总有 PRESS( h) 大于SS( h) , 而SS( h) 则小于 SS( h 1) 。因此,在提取成分时,总希望比值 PRESS( h) SS( h 1) 越小越好;一般可设定限制值为 0.05,即当 PRESS(h) SS(h 1) (1 0.05)2 0.952 时,增加成分 uh 有利于模型精度的提高。
13/49
基础部数学教研室
数学 建模
回归系数向量 (1) , (1) 的最小二乘估计为 2 (1) AT u ˆ1 u ˆ1 , (1) 2 T ˆ1 u ˆ1 , B u 称 (1) , (1) 为模型效应负荷量。
(11.6)
14/49
基础部数学教研室
数学 建模
7/49
基础部数学教研室
数学 建模
为了方便起见,不妨假定 p 个因变量 y1 , , y p 与 m 个自变量 x1 , , xm 均为标准化变量。自变量组和因变 量组的 n次标准化观测数据矩阵分别记为 b11 b1 p a11 a1m A ,B . bn1 bnp an1 anm 偏最小二乘回归分析建模的具体步骤如下
(1)T (1) (1) 2 1, s.t. (1)T (1) (1) 2 1.
(11.3)
11/49
基础部数学教研室
数学 建模
利用Lagrange乘数法,问题化为求单位向量 (1) 和 使1 (1)T AT B (1) 达到最大。 问题的求解只须通 (1) , T T M A BB A 的特征值和特征向 过计算 m m矩阵 量,且 M 的最大特征值为 12 ,相应的单位特征向量就 是所求的解 (1) ,而 (1) 可由 (1) 计算得到 1 T (1) B A (1) (11.4) 1
18/49
基础部数学教研室
数学 建模
每次舍去第 i 个观测数据( i 1,2,, n) ,对余下 的 n 1个观测数据用偏最小二乘回归方法建模,并考 虑抽取 h ( h r )个成分后拟合的回归式,然后把舍 去的自变量组第 i 个观测数据代入所拟合的回归方程 式,得到 y j ( j 1,2,, p) 在第 i 个观测点上的预测值 ˆ ( h) 。 b
v1 11 y1 1 p y p
(1)T
Y。
为了回归分析的需要,要求 i) u1 和 v1 各自尽可能多地提取所在变量组的变异信 息; ii) u1 和 v1 的相关程度达到最大。
9/49
基础部数学教研室
数学 建模
由两组变量集的标准化观测数据矩阵 A和 B , 可以 ˆ1 和 v ˆ1 计算第一对成分的得分向量,记为 u a11 a1m 11 (1) ˆ u1 A , (11.1) an1 anm 1m
8/49
基础部数学教研室
数学 建模
(1)分别提取两变量组的第一对成分,并使之相 关性达最大。 假设从两组变量分别提出第一对成分为 u1 和 v1 , u1 是自变量集 X [ x1 ,, xm ]T 的线性组合 u1 11 x1 1m xm (1)T X , T v1 是因变量集Y [ y1 , , y p ] 的线性组合
24/49
基础部数学教研室
数学 建模
11.2 Matlab 偏最小二乘回归命令 plsregress Matlab 工具箱中偏最小二乘回归命令 plsregress 的使用格式为 [XL,YL,XS,YS,BETA,PCTVAR,MSE,stats] = plsregress (X,Y,ncomp)
12/49
基础部数学教研室
数学 建模
(2) 建立 y1 , , y p 对 u1 的回归及 x1 , , xm 对 u1 的回 归。 假定回归模型为 (1)T ˆ A u A1 , 1 (11.5) (1)T ˆ1 B1 , B u 其中 (1) [ 11 ,, 1m ]T , (1) [ 11 , , 1 p ]T 分别是多对 一的回归模型中的参数向量, A1 和 B1 是残差阵。
是首先在自变量集中提出第一成分 u1 ( u1 是 x1 , , xm 的线性组合,且尽可能多地提取原自变量集中的变异 信息);同时在因变量集中也提取第一成分 v1 ,并要 求 u1 与 v1 相关程度达到最大。 然后建立因变量 y1 , , y p 与 u1 的回归,如果回归方程已达到满意的精度,则算 法中止。
ˆ1 B (1) v b11 b1 p 11 . bn1 bnp 1 p
(11.2)
10/49
基础部数学教研室
数学 建模
第一对成分 u1 和 v1 的协方差Cov( u1 , v1 ) 可用第一 ˆ1 和 v ˆ1 的内积来计算。故而以上两 对成分的得分向量 u 个要求可化为数学上的条件极值问题 ˆ1 v ˆ1 ) ( A (1) B (1) ) (1)T AT B (1) max ( u
y j c j 1 x1 c jm xm , j 1,2, , p . (11.8)
17/49
基础部数学教研室
数学 建模
(5)交叉有效性检验。 一般情况下,偏最小二乘法并不需要选用存在的 r 个成分 u1 , u2 ,, ur 来建立回归式,而像主成分分析一 样,只选用前 l 个成分( l r ) ,即可得到预测能力较 好的回归模型。对于建模所需提取的成分个数 l ,可以 通过交叉有效性检验来确定。
(2) [ 21 ,, 2 m ]T , (2) [ 21 , , 2 p ]T ,
15/49
基础部数学教研室
数学 建模
ˆ 2 A1 (2) , v ˆ2 B1 (2) 为第二对成分的得分向量, 而u 2 2 (2) T (2) T ˆ2 u ˆ 2 , B1 u ˆ2 u ˆ2 A1 u
25/49
基础部数学教研室
数学 建模
其中 X 为 n× m 的自变量数据矩阵, 每一行对应一 个观测,每一列对应一个变量;Y 为 n× p 的因变量数 据矩阵,每一行对应一个观测,每一列对应一个变量; ncomp 为成分的个数,ncomp 的默认值为 min(n-1,m)。
ˆ i 的 m× 返回值 XL 为对应于 ncomp 的负荷量矩阵,它
6/49
基础部数学教研室
数学 建模
否则继续第二对成分的提取,直到能达到满意的 精度为止。若最终对自变量集提取r 个成分 u1 , u2 ,, ur ,偏最小二乘回归将通过建立 y1 , , y p 与
u1 , u2 ,, ur 的回归式,然后再表示为 y1 , , y p 与原自变
量的回归方程式,即偏最小二乘回归方程式。
相关文档
最新文档