(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析
PLS偏最小二乘法
偏最小二乘法(Partial Least Square) 通过最小化误差平方来寻找数据与函数间的最佳匹配,是一种参数估计方法,一般估计步骤包括:首先将解释变量和被解释变量标准化,并提取解释变量和被解释变量的主成分,例如提取解释变量的主成分,要求与被解释变量高度相关,这个过程体现了典型相关和主成分分析的思想。
其次做解释变量和被解释变量在主成分上的回归,可以分别得到残差,这个还是OLS的思想。
最后,按以上的步骤循环下去,直到新的主成分系数不再显著。
其实PLS仍然是OLS的一种扩展,目前在解决多重共线性问题领域的研究很成熟。
一般认为比岭回归、主成分分析等方法在解决多重共线性问题上更为有效。
此外,PLS与结构方程(SEM)在应用上相得益彰,我们知道SEM是大样本理论的产物,因此其应用受到诸多限制,尤其在小样本下,该模型几乎无法应用,而PLS恰好可以弥补这方面的缺陷。
研究结论认为PLS 在非正态分布、小样本、共线性的情况下,仍然很稳定。
偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首提示来的,偏最小二乘法有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1) 能够在自变量存在严重多重相关性的条件下进行回归建模;(2) 允许在样本点个数少于变量个数的条件下进行回归建模;(3) 偏最小二乘回归在最终模型中将包含原有的所有自变量;(4) 偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5) 在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。
偏最小二乘法是一种多因变量对多自变量的回归建模方法。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
偏最小二乘回归分析
a. 建立关于主成分的MLR回归方程
求出 F0 在 t1,, tm 上的MLR回归方程
F0 t1r1T t2r2T tmrmT Fm.
⒁
b. 变换为关于标准化变量的PLS回归方程
将 ti Ei1wi E0wi*(i 1,2,, m) 代入方程⒁,得
F0 关于 E0 的PLS回归方程
①样本容量要求很高,一般应大于30或大于自变量数 的5-10倍.
②消除变量间多重相关性很难. 若在变量间存在严重多重相关性,将对回归建模与模
型分析工作带来如下危害: Ⅰ.在自变量间存在严重多重相关性的情况下,将造成
模型的正规方程系数矩阵的严重病态性,进而使模型参数 的最小二乘估计失真. 回归系数 的估计方差将随着自变量 之间相关程度的不断增强而迅速扩大,回归系数的估计值 对样本数据的微小变化变得非常敏感,回归系数估计值的 稳定性将变得很差.
对因变量系统有很强的解释能力. 这两个要求表明,PLS方法主成分的提取同主成分分
析中主成份的提取既有相似之处(代表性要求),又有不 同(相关性要求).
在第一个主成分 t1 和 u1 被提取后,分别实施
①各自变量对自变量系统第一主成分的回归(即用
t1 表示X ).
②各因变量对自变量系统第一主成分的回归(即用
关系数.
自变量对因变量系统的解释能力
PLS方法中,自变量对因变量的解释能力是以变量投影 重要性指标(Variable Importance in Projection,VIP) 来测度的.其定义式为
i1
n ② SS(h1)是用所有 个样本点拟合出的含 h 1 个主
成分的回归方程的拟合误差平方和:
x yˆ(h1) ji ─ y j 在样本点 (i) 上的拟合值;
偏最小二乘回归方法
(3-6)
(3-7) (3-8)
T 2 将(3-7)带入(3-6)有: E0 F0 F0T E0 w 1 1 w 1
T T 2 由(3-8)式可知 w 是矩阵 的特征向量,对应的特征值为 。 E F F E 1 0 0 0 0 1 T T 要求 1的最大值,所以 w 是对应于矩阵 E F F 0 0 0 E0 最大特征值的单位特 1 征向量。
将X标准化后的数据矩阵记做 E0 = E01, ....., E0 p n* p ,Y经过标准化后的数据矩阵 记为 F0 F01 , ....., F0 q 。
n*q
w1 是 E0 的第一个轴,且 w1 1 ;记 u1是 F0的第一 1. 记 t1 是 E0 的第一个成分,t1 E0 w1 ,
• 在一般多元线性回归模型中,一组因变量 Y y1 , ....., yq 和一组自变量 X = x1, ....., x p , 1 根据最小二乘法,有 Y X X T X X T Y ,但是 X T X 必须是可逆矩阵,因此:X中的变 量存在严重多重相关性或样本点数与变量个数相比显然过少时,最小二乘估计失 效,于是,偏最小二乘回归分析提出了采用成分提取法。
T T T 采用拉格朗日算法求最优解,记:S =w1T E0 F0 c1 1 w1 w1 1 2 c1 c1 1
w1、c1、1、2 的偏导并令之为0,有: 分别求关于:
s T E0 F0 c1 21 w1 0 w1 s F0T E0 w1 22 c1 0 c1 s T w1 w1 1 0 1 s T c1 c1 1 0 2
t1
2
,Q1
F0T u1 u1
2
偏最小二乘法PLS简介
偏最小二乘法(PLS)简介偏最小二乘法(PLS)简介简介偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。
近几十年来,它在理论、方法和应用方面都得到了迅速的发展。
偏最小二乘法长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。
而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
偏最小二乘法在统计应用中的重要性体现在以下几个方面:偏最小二乘法是一种多因变量对多自变量的回归建模方法。
偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。
偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。
但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。
偏最小二乘回归可以解决这个问题。
它采用对变量X和Y都进行分解的方法,从变量X和Y中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。
现在,我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了基本概念偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模型来描述独立变量Y与预测变量组X之间的关系:Y = b0 + b1X1 + b2X2 + ... + bpXp在方程中,b0是截距,bi的值是数据点1到p的回归系数。
例如,我们可以认为人的体重是他的身高、性别的函数,并且从各自的样本点中估计出回归系数,之后,我们从测得的身高及性别中可以预测出某人的大致体重。
偏最小二乘法
for i=1:n %以下计算 w,w*和 t 的得分向量,
matrix=e0'*f0*f0'*e0; [vec,val]=eig(matrix); %求特征值和特征向量 val=diag(val); %提出对角线元素
[val,ind]=sort(val,'descend'); w(:,i)=vec(:,ind(1)); %提出最大特征值对应的特征向量 w_star(:,i)=chg*w(:,i); %计算 w*的取值 t(:,i)=e0*w(:,i); %计算成分 ti 的得分 alpha=e0'*t(:,i)/(t(:,i)'*t(:,i)); %计算 alpha_i chg=chg*(eye(n)-w(:,i)*alpha'); %计算 w 到 w*的变换矩阵 e=e0-t(:,i)*alpha'; %计算残差矩阵
在上式中, p1
X
T α
t1 2
, s1
YαT t1 2
; X β 、Yβ 为回归方程的残差矩阵。
(2)第2个成分 t2 的提取
以 X β 取代 X α ,以Yβ 取代Yα ,用求 t1 的方法,求到第2个轴 w2 以及第2个成分 t2 。
w2
X
T β
Yβ
X
T β
Yβ
同样, X β 、Yβ 分别对 t2 进行回归,得到 X β 、Yβ 对 t2 的回归方程: X β t2 p2T X δ
6.119 6.9293 6.934 6.1524 7.4984 7.35 7.1299 7.8258 8.9597 8.1966 8.5688 8.5383 9.3404 9.2511 9.4694 9.9961 10.5853 10.616 10.0119 10.0782 11.2238 11.4733 11.3371 11.4427 12.7513 12.3517 12.1622 12.1067 13.2551 13.8308 13.7943 13.9619
偏最小二乘回归原理
偏最小二乘回归原理
偏最小二乘回归(partial least squares regression,PLSR)是一种线性回归算法。
它是一种基于主成分分析(principal component analysis,PCA)的多元统计分析方法,可以用于处理高维数据集中的多个自变量和一个或多个因变量之间的线性关系。
PLSR算法通过将自变量和因变量投影到一个新的低维空间,从而降低数据集的维度,并且可以解决自变量之间存在多重共线性的问题。
PLSR算法的目标是最小化
预测误差的平方和,从而找到最佳的预测模型。
PLSR算法的原理比较复杂,但是可以用简单的数学公式来表示。
PLSR算法中的核心公式是:y = b0 + b1*t1 + b2*t2 + ... + bm*tm,其中y表示因变量,t1、
t2、...、tm表示投影后的自变量,b0、b1、b2、...、bm表示回归系数。
PLSR算法
的主要步骤包括:1)选择投影方向;2)计算投影系数;3)对投影后的变量进行
回归分析;4)对回归分析结果进行交叉验证;5)选择最佳预测模型。
PLSR算法可以应用于很多领域,比如化学、生物、医学、工程等。
在化学领域,PLSR算法可以用于分析光谱数据;在生物领域,PLSR算法可以用于分析基
因数据;在医学领域,PLSR算法可以用于分析疾病诊断数据。
总之,PLSR算法
是一种非常有用的统计分析方法,可以帮助人们更好地理解和解释数据。
(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析教学内容
(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。
近十年来,它在理论、方法和应用方面都得到了迅速的发展。
密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。
(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。
在普通多元线形回归的应用中,我们常受到许多限制。
最典型的问题就是自变量之间的多重相关性。
如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。
变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。
在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。
在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。
这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。
一、 偏最小二乘回归的建模策略\原理\方法1.1建模原理设有 q 个因变量{q y y ,...,1}和p 自变量{p x x ,...,1}。
偏最小二乘回归的应用效果分析
应 用 数 学M ATHE M ATIC A APP LIC AT A2004,17(增):140~143Ξ偏最小二乘回归的应用效果分析申艳,刘次华(华中科技大学数学系,武汉430074)摘要:本文介绍了偏最小二乘回归(P LS)的建模方法,比较了P LS与普通最小二乘回归(O LS)及主成分回归的应用效果,并总结了P LS回归的基本特点.关键词:多重共线性;偏最小二乘回归;最小二乘回归;主成分回归中图分类号:O212.1 AMS(2000)主题分类:62J05文献标识码:A 文章编号:100129847(2004)增20140204、社会经济生活、科学研究等各个领域中,经常要对数据进行分析、拟合及预测,多元线性回归便是常用的方法之一.一般采用普通最小二乘方法估计回归系数,可以使残差平方和达到最小,但当自变量之间存在多重共线性时,最小二乘估计方法往往失效,不仅增大了模型误差,而且使模型丧失稳健性.为消除系统中的多重共线性,常采用主成分回归的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力.近年来发展起来的偏最小二乘回归(P LS)研究的焦点是多因变量对多因变量回归建模,能在自变量之间存在多重共线性的条件下进行建模,更易于辨识系统信息与噪声,对因变量也有较强的解释能力.考虑q个变量y1,…,y q与p个自变量x1,…,x p的建模问题.偏最小二乘回归的基本思想是首先在自变量集中提取第一成分t1(t1是x1,…,x p的线性组合,且尽可能多地携带原自变量集中的变异信息);同时在因变量集中也提取第一成分u1,并要求t1与u1相关程度达最大,然后建立因变量y1,…,y q与t1的回归方程,如果回归方程已达到满意的精度,则算法终止.否则继续第二成分的提取,直到能达到满意的精度为止.若最终对自变量集提取了l个成分t1,…,t l,偏最小二乘回归将通过建立y1,…,y q与t1,…,t l的回归方程式得出y1,…,y q与自变量x1,…,x p的回归方程式,即偏最小二乘回归方程式.首先将数据做标准化处理.记X=(x1,…,x p)n×p经标准化处理后的数据矩阵为E0= (E01,…,E0p)n×p,Y=(y1,…,y q)经标准化处理后的数据矩阵为F0=(F01…F0q)n×q第一步,记t1是E0的第一成分,t1=E0w1,w1是E0的第一个轴,且‖w1‖=1,记u1是F0的第一成分,u1=F0c1,c1是F0的第一个轴,且‖c1‖=1.如果要求t1,u1能分别很好地代表X 与Y中的数据变异信息,根据主成分分析原理,我们要求t1与u1标准差Var(t1),V(u1)趋于最大.另一方面t1对u1要有最大的解释能力,由典型相关分析的思路,t1与u1的相关度应达Ξ收稿日期:2004205213作者简介:申艳,女,讲师,华中科技大学数学系硕士,研究方向:概率与数理统计.到最大值,即r (t 1,u 1)→max ,综合起来就是要求t 1与u 1的协方差达到最大,即C ov (t 1,u 1)=Var (t 1)Var (u 1)r (t 1,u 1)→max ,也就是在‖w 1‖=1,‖c 1‖=1的约束条件下求w T 1E T 0F 0c 1的最大值.采用拉格朗日算法,记s =w T 1E Γ0F 0c 1-λ1(w T 1w 1-1)-λ2(c T1c 1-1),对s 分别求关于w 1,c 1,λ1和λ2的偏导,并令之为零,可以推出E T 0F 0F T 0E 0w 1=θ21w 1,F T 0E 0E T 0F 0c 1=θ21c 1,这里记θ1=2λ1=2λ2=w T 1E T0F 0c 1,容易看出θ1正是优化问题的目标函数值(要求θ1取最大值),w 1是对应于矩阵E T 0F 0F T 0E 0的最大特征值θ21的单位特征向量,c 1是对应于矩阵F T 0E 0E T 0F 0的最大特征值θ21的单位特征向量.求得w 1和c 1后,即可得成分t 1=E 0w 1,u 1=F 0c 1,然后,分别求E 0和F 0对t 1,u 1的三个回归方程E 0=t 1p T 1+E 1,F 0=u 1q T 1+F 31,F 0=t 1r T1+F 1,式中回归系数p 1=E T 0t 1‖t 1‖2,q 1=F T 0u 1‖u 1‖2,r 1=F T0t 1‖t 1‖2,而E 1,F 31,F 1分别是三个回归方程的残差矩阵.第二步用残差矩阵E 1和F 1取代E 0和F 0,用同样的方法求第二个轴w 2和c 2以及第二个成分t 2,u 2.如此计算下去,如果X 的秩是l ,则存在l 个成分t 1,t 2,…,t l ,使得E 0=t 1p T1+…+t l p T l ,F 0=t 1r T 1+…+t l r Tl +F l ,由于t 1,t 2,…,t l 均可以表示成E 01…E 0P 的线性组合,因此可得y 3k =F 0k ,关于x 3j =E 0j 的回归方程式,即y 3k =a k 1x 31+…+a kp x 3p +F lk ,k =1,2,…,q.一般情况下,偏最小二乘回归并不需要选用存在的l 个成分t 1,t 2,…,t l 来建立回归式,而像主成分分析一样,只选用前m 个成分(m ≤l ),即可得到预测能力较好的回归模型.下面讨论确定抽取成分个数m 的两种常用方法.(1)“舍2交叉验证法”:每次舍去第i 个观测(i =1,…,n ),用余下的n -1个观测按偏最小二乘回归方法建模,并考虑抽取h 个成分后拟合的回归式,然后把舍去的第i 个观测点代入所拟合的回归方程式,得到y j 在第i 个观测点上的预测值^y j (-i )(h ).对于每一个i =1,2,…,n ,重复以上测试,可得y j (j =1,2,…,q )的预测残差平方和为PR ESS j (h )=∑ni =1(yij-^y j (-i )(h ))2,(j=1,2,…,q ),Y =(y 1,…,y q )的预测残差平方和为PR ESS (h )=∑qj-1PRESS j(h ).对抽取成分个数h 从1到A 逐个计算Y 的预测残差平方和PR ESS (h ),然后选取使Y 的预测残差平方和达到最小的h ,取m =h.(2)“Q 2h ”验证法:同方法(1)先算出Y =(y 1,…,y q )的预测残差平方和为PR ESS (h )=∑qj-1PRESS j(h ).另外,再采用所有的样本点,拟合含h 个成分的回归方程,记yj在第i 个样本点的预测值为^y ji (h ),则可定义y j 的残差平方和为SS j (h )=∑n i =1(yij-^y ji (h ))2,Y =(y 1,…,y q )的残差平方和为SS (h )=∑qj -1SS j(h ).对于全部因变量Y ,成分th的交叉有效性可定义为Q 2h =1-PR ESS (h )SS (h -1),Q 2h ≥0.097时,表明加入成分能改善模型质量,否则不能.下面我们考察大学生的高考成绩对其大学成绩的影响.选取某高校学生的5门高考成绩141增刊 申艳等:偏最小二乘回归的应用效果分析为自变量X=(x1,x2,x3,x4,x5),其中x12语文,x22数学,x32英语,x42政治,x52历史.并以他们大学第一学期的高等数学成绩为因变量Y.对数据进行标准化处理,建立高考成绩对高等数学的P LS回归模型,有关数据见表1,表2.表1 成分与自变量的相关系数表t1t2t3t4t5E01-0.36740.76290.43190.1979-0.2392E020.8477-0.19340.10820.48080.0330E030.90370.12330.2718-0.25790.1669E040.35820.7693-0.34350.07290.3956E050.44510.4844-0.6779-0.1701-0.2807Y0.72120.20520.0657-0.02790.0002由表1可以看出,第一成分t1与自变量E02,E03的相关系数很高,因此t1是一个体现自变量系统中数学和英语的因子.表2 高等数学的P LS回归模型的精度分析表成分t1t2t3t4t5RdX0.39930.29220.16990.07420.0643累积RdX0.39930.69160.85150.9357 1.000RdY0.52010.04210.00430.00080.000累积RdY0.52010.56220.56650.56130.5673PRESS9.47129.846310.572911.064811.20044RdX=1p∑pj=1r2(x j,t h)表示成分t h对X的解释能力,RdY=1q∑qk=1r2(y k,t h)表示成分t h对Y的解释能力.由表2可以看出,第一主成分解释了自变量系统中39.93%的变异信息,同时解释了因变量系统中52.01%的变异信息,这反映出数学,英语对因变量系数的贡献最大.另一方面,当h=1时,预测残差平方和最小(PR ESS=9.4712),因此我们用第一成分t1来建立P LS 回归模型,对高等数学有较好的观测能力.P LS回归模型是F0=0.0454E01+0.3000E02+0.3725E03-0.0663E04+0.2019E05 为了比较P LS回归与最小二乘回归(O LS),主成分回归(PCR)的回归效果,建立其它几种回归关于高考成绩对高等数学的回归模型如下:1.普通最小二乘回归方程:F0=0.1153E01+0.2442E02+0.5045E03-0.0062E04+0.2210E05 2.主成分回归方程:(1)用两个主成分建立的回归方程:F0=-0.2370E01+0.5356E02+0.6058E03-0.1131E04+0.4659E05 (2)用三个主成分建立的回归方程:F0=0.0857E01+0.5917E02+0.6753E03-0.1155E04+0.3812E05回归系数的大小表示相关程度的高低,或者贡献率的高低.这三个模型回归系数的性质是一致的,都反映出数学,英语对因变量系数的贡献最大,与我们的定性认识比较符合.但从回归模型的预测残差平方和PRESS(下表)241应 用 数 学 2004O LSRPCR (2)PCR (3)P LSR PRESS15.224413.123112.78999.4712可以发现偏最小二乘回归的PRESS 最小,说明由偏最小二乘回归方程拟合的方程对样本点的变动而引起的扰动误差影响最小,可见偏最小二乘回归模型最理想.特别当自变量之间存在严重多重相关性时,P LS 方法的优越性更能充分显示出来.偏最小二乘回归有如下基本特点:(1)P LS 对数据拟合及预测精度和稳定性均高于最小二乘回归(O LS )与主成分回归.(2)P LS 回归可以较好地处理O LS 难以解决的问题.当自变量之间存在严重多重相关性时,使用O LS 无法建立模型.然而P LS 却能利用对系统中的数据信息进行分解和筛选,提取对因变量解释最强的综合变量,识别系统中的噪声,建立适当的模型.另一方面,O LS 建模时的样本数不宜太少,一般要求为拟合项的两倍以上,而P LS 回归却能在自变量多,样本数少的情况下建立精度较高的模型.(2)P LS 回归在建模的过程中集中了O LS 回归、主成分分析、典型相关分析三者的特点.因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息.参考文献:[1] 罗永泰,李小妹.高考入学成绩对后续课程影响的统计分析[J ].数理统计与管理,1996,15(2):14~16.[2] 王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.[3] 何小群.回归分析与经济数据建模[M].北京:中国人民大学出版社,1997.[4] 茆诗松,王静龙.高等数理统计[M].高等教育出版社,2000.Analysis of Applied E ffect of P artial Least Squares R egressionSHEN Yan ,LIU Ci 2hua(Mathematics Department ,Huazhong Univer sity o f Science and Technology ,Wuhan 430074,China )Abstract :In the paper ,we introduced how to build partial least squares regression m odel and com 2pared the applied effect of P LS with O LS and PCR.K ey w ords :Partial least squares regression ;Multi 2correlation ;O LSR341增刊 申艳等:偏最小二乘回归的应用效果分析。
利用偏最小二乘回归方法解析
利用偏最小二乘回归方法解析、优化烧结生产过程提要:本文介绍了分析复杂系统规律的第二代多元统计分析方法——偏最小二乘回归方法(PLS)的原理和技术特点,利用国内第一款在Excel中实现PLS的软件——PEW(PLS+Excel+Word)对影响烧结矿成品率、转鼓强度和RDI的因素进行了分析。
此技术提供了一种模型简单有效,物理意义清晰明确的分析工具,可以打开错综复杂,影响因素交叉重叠这一看不见的生产过程黑箱,指导操作调整,指引改造升级,为解析、优化烧结乃至钢铁生产流程提供了一个很好的手段。
关键词:偏最小二乘回归方法(PLS)解析优化烧结生产过程1 前言烧结是一个非稳态、紧耦合、多时变的复杂系统,在烧结生产实践中,有时很想了解本单位在现有装备水平、原料条件下各种原料特性,各种工艺参数是如何影响烧结矿产量、质量、能耗指标或透气性等限制性环节的,更具体来说就是:众多工艺参数与产品产量、质量、能耗指标或透气性等限制性环节之间是什么关系。
如何能清晰地表明哪些参数对产品产量、质量、能耗指标或透气性等限制性环节而言是重要因素,哪些是次要因素;哪些是正相关,哪些是负相关;变动参数的一个单位对结果影响有多大;哪些数据点是特异点需要关注或剔除;得出这些结论可信度有多大。
由于各厂情况不一样,专业课本没有也不可能给出明确的公式,而实践经验往往也很模糊,从统计学角度来讲专家系统和神经网络预测的精度是最高的,但是专家系统和神经网络只能依据经验或采取随机试探的方法,具用一定的随意性,且对所描述对象的输入输出变量之间的关系往往缺乏很好的解释性。
传统的最小二乘回归能给出一个清晰的关系式,但由于变量之间存在多重相关性,使得模型精度不高,甚至出现与常识相悖的情况。
瑞典化学家伍德和阿巴诺于1983年提出的新型多元统计分析方法——偏最小二乘回归(PLS),它集多元线性回归分析、主成份分析、典型相关分析的基本功能为一体,很好地解决了普通多元回归无法解决的现实问题中普遍存在的自变量之间多重相关性和样本点容量过少的问题,被称为第二代的多元回归分析方法,其应用领域已经从最初的化工领域快速扩展到机械、生物、地质、医学、社会学以及经济学等领域。
偏最小二乘法
偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。
近几十年来,它在理论、方法和应用方面都得到了迅速的发展。
长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。
而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
偏最小二乘法在统计应用中的重要性体现在以下几个方面:偏最小二乘法是一种多因变量对多自变量的回归建模方法。
偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。
偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。
但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。
偏最小二乘回归可以解决这个问题。
它采用对变量X和Y都进行分解的方法,从变量X和Y中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。
现在,我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了基本概念偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模型来描述独立变量Y与预测变量组X之间的关系:Y = b0 + b1X1 + b2X2 + ... + bpXp在方程中,b0是截距,bi的值是数据点1到p的回归系数。
例如,我们可以认为人的体重是他的身高、性别的函数,并且从各自的样本点中估计出回归系数,之后,我们从测得的身高及性别中可以预测出某人的大致体重。
偏最小二乘回归
偏最小二乘回归偏最小二乘回归(Partial Least Squares Regression,简称PLSR)是一种主成分回归方法,旨在解决多元线性回归中自变量数目较多,且存在共线性或多重共线性的问题。
本文将介绍偏最小二乘回归的原理、应用案例以及优缺点。
1. 偏最小二乘回归原理偏最小二乘回归是基于多元线性回归的一种方法,通过压缩自变量的空间,将高维的自变量转化为低维的潜在变量,从而避免了多重共线性的问题。
在偏最小二乘回归中,我们定义两个主成分,其中第一个主成分能最大化自变量与因变量之间的协方差,而第二个主成分垂直于第一个主成分,以此类推。
2. 偏最小二乘回归应用案例偏最小二乘回归在众多领域都有广泛的应用。
以下是一些常见的应用案例:2.1 化学分析在化学领域中,我们常常需要使用红外光谱仪等仪器进行样本的分析。
然而,由于样本中存在大量的杂质,导致光谱数据存在共线性等问题。
通过偏最小二乘回归可以降低样本数据的维度,提取出有用的信息,从而准确地进行化学成分的分析。
2.2 生物医学在生物医学领域中,研究人员常常需要通过大量的生理指标预测某种疾病的发生风险。
然而,由于生理指标之间存在相互关联,使用传统的线性回归模型时,很容易出现共线性的问题。
通过偏最小二乘回归,可以降低指标的维度,减少共线性对预测结果的影响,提高疾病预测的准确性。
2.3 金融领域在金融领域中,偏最小二乘回归也有广泛的应用。
例如,在股票市场的分析中,研究人员常常需要通过一系列宏观经济指标预测股票的涨跌趋势。
然而,这些指标之间往往存在较强的相关性,导致传统的回归模型难以提取出有效的信息。
通过偏最小二乘回归,可以从多个指标中提取出潜在的主成分,预测股票的涨跌趋势。
3. 偏最小二乘回归的优缺点3.1 优点(1)解决了多重共线性问题:偏最小二乘回归通过降低自变量的维度,有效地解决了多重共线性问题,提高了模型的稳定性和准确性。
(2)提取了潜在的主成分:通过偏最小二乘回归,我们可以从高维的自变量中提取出潜在的主成分,这些主成分更具有解释性,有助于理解自变量与因变量之间的关系。
27第二十七章 偏最小二乘回归分析
线性组合: t1 = w11 x1 + L + w1m xm = w1 X , u1 是因变量集 Y = ( y1 ,L , y p ) 的线性组
T
T
合: u1 = v11 y1 + L + v1 p y p = v1 Y 。为了回归分析的需要,要求:
T
① t1 和 u1 各自尽可能多地提取所在变量组的变异信息; ② t1 和 u1 的相关程度达到最大。 由两组变量集的标准化观测数据阵 E0 和 F0 ,可以计算第一对成分的得分向量,记
2 ⎧α = E T tˆ t ˆ1 0 1 ⎪ 1 , ⎨ 2 T ˆ ˆ ⎪ ⎩β1 = F0 t1 t1
称 α1 , β1 为模型效应负荷量。
(3)用残差阵 E1 和 F1 代替 E0 和 F0 重复以上步骤。
ˆ = tˆ α , F ˆ = tˆ β ,则残差阵 E = E − E ˆ ,F = F − F ˆ 。如果残差阵 F 记E 1 0 1 1 0 1 1 1 0 0 1 0 0
-674-
ˆ1 和 u ˆ1 : 为t
⎡ x11 tˆ1 = E0 w1 = ⎢ ⎢ M ⎢ ⎣ xn1 ⎡ y11 ⎢ ˆ1 = F0 v1 = ⎢ M u ⎢ yn1 ⎣ L x1m ⎤ ⎡ w11 ⎤ ⎡t11 ⎤ ⎢ ⎥ ⎢ ⎥ M ⎥ ⎥⎢ M ⎥ = ⎢ M ⎥ L xnm ⎥ ⎦⎢ ⎣ w1m ⎥ ⎦ ⎢ ⎣t n1 ⎥ ⎦
⎡ y11 L y1 p ⎤ ⎡ x11 L x1m ⎤ ⎢ ⎥ F0 = ⎢ M M ⎥ , E0 = ⎢ M ⎥ ⎢M ⎥ ⎢ yn1 L ynp ⎥ ⎢ ⎥ x x L nm ⎦ ⎣ n1 ⎣ ⎦
偏最小二乘回归分析建模的具体步骤如下: (1)分别提取两变量组的第一对成分,并使之相关性达最大。 假设从两组变量分别提出第一对成分为 t1 和 u1 ,t1 是自变量集 X = ( x1 ,L , xm ) 的
【原创】R语言多元线性回归特征降维:主成分回归和偏最小二乘案例分析报告附代码数据
主成分分析(Principal Component Analysis, PCA)一个优秀的模型应该是用尽可能少的特征来涵盖尽可能多的信息。
对于多元线性回归模型,除了对全部特征进行筛选和压缩——这些都是针对原特征本身,那么是否可以把多个特征组合成少数的几个新特征,使模型更加简洁?特别是多个特征之间往往还存在多重共线性关系。
主成分分析的核心思想就是降维,把高维空间上的多个特征组合成少数几个无关的主成分,同时包含原数据中大部分的变异信息。
举个例子,在二维平面中,如果大部分的点都在一条直线附近,是不是就可以直接用这条直线当作一维坐标轴来反映原始数据?在三维空间中,如果大部分的点都在一个平面附近,是不是就可以直接用这个平面当作二维平面来反映原始数据?以上概念中的变异信息就用方差来衡量,第一主成分是高维空间上的一个向量,所有的点沿着这条线波动最大,或者说所有的点到直线的距离的平方和最小。
如下图所示,所有的点沿着绿色直线的波动最大,它就代表着第一主成分向量。
主成分分析几何意义有了第一主成分,还可以依次往后选择主成分,各主成分之间是相互正交的向量。
如下左图所示,右图是左图的旋转,以第一主成分作为x轴,第二主成分作为y轴与之垂直。
第一主成分与第二主成分以上是主成分的几何意义,那么它的数学意义是什么?如何去求解主成分向量?首先,我们定义主成分是原特征的线性组合,即:主成分定义找到一组Φ(其平方和为1),使Z1的方差最大,它的优化问题变成:主成分优化目标第一主成分确定之后,如果是二维空间那么第二主成分就可以通过正交关系直接确定;对于高维空间,一个向量的正交向量可以有无数个,则在其正交向量中继续优化上式至最大值;之后的主成分依次类推。
以下以美国的犯罪记录数据为例,对特征进行PCA:> library(ISLR)> apply(USArrests,2,mean) # 各变量均值差异很大Murder Assault UrbanPop Rape7.788170.76065.54021.232> apply(USArrests,2,var) # 各变量方差差异也很大Murder Assault UrbanPop Rape18.970476945.16571209.5187887.72916>> ## 必须要对变量进行标准化,否则主成分就由Assault一个变量决定>> pr.out = prcomp(USArrests,scale. = T)> names(pr.out)[1] "sdev""rotation""center""scale""x"> pr.out$center # 标准化之后的均值主成分分析双坐标图这张图是主成分分析的双坐标图,略复杂。
偏最小二乘回归方法 PPT课件
多因变量偏最小二乘算法推导
因此,综合起来,在偏最小二
乘回归中,我们要求 t1 与 u1 的协
方差达到最大,即
Cov t1,u1 Var t1 Var u1 r t1,u1 max
多因变量偏最小二乘算法推导
正规的数学表述应该是求解下 列优化问题,即
max
1 ,c1
偏最小二乘回归的简化算法
则求 F0 在 t1,L ,th 上的普通最小二 乘回归方程为
其中
F0 t1r1T t2r2T L Fm
ri
F0T ti ti 2
,i
1,2,
h
交叉有效性具体的步骤:
记 yij为原始数据,t1,t2,L tm 是在 偏最小二乘回归过程中提取的成分,
是使yˆ用hji 全部样本点并取h
E01, F0c1
s.t
c11TT
1
c1
1 1
多因变量偏最小二乘算法推导
采用拉格朗日算法,记
s 1T E0T F0c1 1 1T1 1 2 c1T c1 1
对 s 分别求关于1,c1 ,1和2 的偏导
数,并令之为零,有
多因变量偏最小二乘算法推导
s
1
E0T F0c1
211
0
(1)式
F0 (F01,L , F0q )nq
多因变量偏最小二乘算法推导
第一步:记 t1是 E0的第一个成 分,t1 E01 ,1是 E0 的第一个轴,它 是一个单位向量,即有 1 1 。
记 u1是 F0的第一个成分 u1 F0c1 , c1是 F0的第一个轴,它是一个单位 向量,即 c1 1 。
多因变量偏最小二乘算法推导
值所对应的单位特征向量2,求成
偏最小二乘法PLS简介
偏最小二乘法(PLS)简介偏最小二乘法(PLS)简介简介偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。
近几十年来,它在理论、方法和应用方面都得到了迅速的发展。
偏最小二乘法长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。
而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
偏最小二乘法在统计应用中的重要性体现在以下几个方面:偏最小二乘法是一种多因变量对多自变量的回归建模方法。
偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。
偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。
但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。
偏最小二乘回归可以解决这个问题。
它采用对变量X和Y都进行分解的方法,从变量X和Y中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。
现在,我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了基本概念偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模型来描述独立变量Y与预测变量组X之间的关系:Y = b0 + b1X1 + b2X2 + ... + bpXp在方程中,b0是截距,bi的值是数据点1到p的回归系数。
例如,我们可以认为人的体重是他的身高、性别的函数,并且从各自的样本点中估计出回归系数,之后,我们从测得的身高及性别中可以预测出某人的大致体重。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。
近十年来,它在理论、方法和应用方面都得到了迅速的发展。
密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。
(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。
在普通多元线形回归的应用中,我们常受到许多限制。
最典型的问题就是自变量之间的多重相关性。
如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。
变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。
在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。
在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。
这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。
一、偏最小二乘回归的建模策略\原理\方法1.1建模原理设有 q 个因变量{q y y ,...,1}和p 自变量{p x x ,...,1}。
为了研究因变量和自变量的统计关系,我们观测了n 个样本点,由此构成了自变量与因变量的数据表X={p x x ,...,1}和.Y={q y y ,...,1}。
偏最小二乘回归分别在X 与Y 中提取出成分1t 和1u (也就是说, 1t 是p x x ,...,1 的线形组合, 1u 是q y y ,...,1 的线形组合).在提取这两个成分时,为了回归分析的需要,有下列两个要求:(1) 1t 和1u 应尽可能大地携带他们各自数据表中的变异信息;(2) 1t 与1u 的相关程度能够达到最大。
这两个要求表明,1t 和1u 应尽可能好的代表数据表X 和Y ,同时自变量的成分 1t 对因变量的成分1u 又有最强的解释能力。
在第一个成分1t 和 1u 被提取后,偏最小二乘回归分别实施X 对 1t 的回归以及 Y 对1u 的回归。
如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X 被1t 解释后的残余信息以及Y 被1t 解释后的残余信息进行第二轮的成分提取。
如此往复,直到能达到一个较满意的精度为止。
若最终对 X 共提取了 m 个成分1t ,…,m t ,偏最小二乘回归将通过实施 k y 对1t ,…,m t , 的回归,然后再表达成k y 关于原变量x 1,…,x m , 的回归方程,k=1,2,…,q 。
1.2计算方法推导 为了数学推导方便起见,首先将数据做标准化处理。
X 经标准化处理后的数据矩阵记为0E =(E 01,…,E p 0)p n ⨯,j Y 经标准化处理后的数据矩阵记为0F =(01F ,…,q F 0)p n ⨯。
第一步 记1t 是0E 的第一个成分,1w 是0E 的第一个轴,它是一个单位向量,既||1w ||=1。
记1u 是0F 的第一个成分,1u =0F c 1。
c 1 是0F 的第一个轴,并且||c 1||=1。
如果要1t ,1u 能分别很好的代表X 与Y 中的数据变异信息,根据主成分分析原理,应该有Var(1u )→maxVar(1t )→max另一方面,由于回归建模的需要,又要求1t 对1u 有很大的解释能力,有典型相关分析的思路,1t 与1u 的相关度应达到最大值,既r (1t ,1u )→max因此,综合起来,在偏最小二乘回归中,我们要求1t 与1u 的协方差达到最大,既Cov(1t ,1u )=)()(11u t Var Var r(1t ,1u ) →max 正规的数学表述应该是求解下列优化问题,既因此,将在||1w ||2=1和||c 1||2=1的约束条件下,去求(w '1E '0F 0c 1)的最大值。
如果采用拉格朗日算法,记s=w '1E '00F c 1-λ1 (w '11w -1)-λ2 (c '1c 1-1) 对s 分别求关于1w ,c 1,λ1和λ2的偏导并令之为零,有1w s ∂∂=E '00F c 1 -λ121w =0 (1 -2)1c s ∂∂=F '00E 1w -λ22c 1=0 (1-3) 1λ∂∂s =-(w '11w -1)=0 (1-4)2λ∂∂s =-(c '1c 1-1)=0 (1-5) 由式(1-2)~(1-5),可以推出>=<==1010100'1'21,22c F w E c F E w λλ记100'1'21122c F E w ===λλθ,所以,1θ正是优化问题的目标函数值.把式(1-2)和式(1-3)写成11100'w c F E θ= (1-6) 11100'c w E F θ= (1-7)将式(1-7)代入式(1-6),有121100'00'w w E F F E θ= (1-8)同理,可得121100'00'c c F E E F θ= (1-9)可见,1w 是矩阵00'00'E F F E 的特征向量,对应的特征值为21θ.1θ是目标函数值,它要求取最大值,所以, 1w 是对应于00'00'E F F E 矩阵最大特征值的单位特征向量.而另一方面, 1c 是对应于矩阵00'00'F E E F 最大特征值21θ的单位特征向量.求得轴1w 和1c 后,即可得到成分101w E t =101c F u =然后,分别求0E 和0F 对1t ,1u 的三个回归方程11'10E p t E += (1-10) 11'10*+=F q u F (1-11) 11'10F r t F += (1-12) 式中,回归系数向量是2110'1||||t t E p = (1-13) 2110'1||||u u F q = (1-14) 2110'1||||t t F r = (1-15) 而1E ,1*F ,1F 分别是三个回归方程的残差矩阵.第二步 用残差矩阵1E 和1F 取代0E 和0F ,然后,求第二个轴2w 和2c 以及第二个成分2t ,2u ,有2t =1E 2w2u =1F 2c211'2'222,c F E w u t >==<θ2w 是对应于矩阵11'11'E F F E 最大特征值22θ的特征值, 2c 是对应于矩阵11'11'F E E F 最大特征值的特征向量.计算回归系数 2221'2||||t t E p = 2221'2||||t t F r = 因此,有回归方程22'21E p t E +=22'21F r t F +=如此计算下去,如果X 的秩是A ,则会有A A p t p t E '1'10++= (1-16)A A A F r t r t F +++='1'10 (1-17)由于,A t t ,,1 均可以表示成p E E 001,, 的线性组合,因此,式(1-17)还可以还原成k k F y 0*=关于k j E x 0*=的回归方程形式,即 Ak p kp k k F x x y +++=**11*αα k=1,2,…,qAk F 是残差距阵A F 的第k 列。
1.3交叉有效性下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程。
在许多情形下,偏最小二乘回归方程并不需要选用全部的成分A t t ,,1 进行回归建模,而是可以象在主成分分析一样,采用截尾的方式选择前m 个成分))(,(X A A m 秩=<,仅用这m 个后续的成分m t t ,,1 就可以得到一个预测性较好的模型。
事实上,如果后续的成分已经不能为解释0F 提供更有意义的信息时,采用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论。
在多元回归分析一章中,我们曾在调整复测定系数的内容中讨论过这一观点。
下面的问题是怎样来确定所应提取的成分个数。
在多元回归分析中,曾介绍过用抽样测试法来确定回归模型是否适于预测应用。
我们把手中的数据分成两部分:第一部分用于建立回归方程,求出回归系数估计量B b ,拟合值B y ˆ以及残差均方和2ˆB σ;再用第二部分数据作为实验点,代入刚才所求得的回归方程,由此求出2ˆˆT T y σ和。
一般地,若有≈2ˆT σ2ˆB σ,则回归方程会有更好的预测效果。
若 >>2ˆT σ2ˆB σ,则回归方程不宜用于预测。
在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑。
采用类似于抽样测试法的工作方式,把所有n 个样本点分成两部分:第一部分除去某个样本点i 的所有样本点集合(共含n-1个样本点),用这部分样本点并使用h 个成分拟合一个回归方程;第二部分是把刚才被排除的样本点i 代入前面拟合的回归方程,得到j y 在样本点i 上的拟合值)(ˆi hj y-。
对于每一个i =1,2,…,n,重复上述测试,则可以定义j y 的预测误差平方和为hj PRESS ,有∑=--=ni i hj ij hj yy PRESS 12)()ˆ( (1-18)定义Y 的预测误差平方和为h PRESS ,有∑==pj hj h PRESS PRESS 1 (1-19)显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感,这种扰动误差的作用,就会加大h PRESS 的值。
另外,再采用所有的样本点,拟合含h 个成分的回归方程。
这是,记第i 个样本点的预测值为hji yˆ,则可以记j y 的误差平方和为hj SS ,有 ∑=-=ni hji ij hj yy SS 12)ˆ( (1-20) 定义Y 的误差平方和为h SS ,有∑==pj hj h SS SS 1 (1-21)一般说来,总是有h PRESS 大于h SS ,而h SS 则总是小于1-h SS 。