偏最小二乘回归多元线性回归分析典型相关分析主成分分析
回归分析中的偏最小二乘回归模型应用技巧(Ⅲ)
回归分析是一种统计方法,用于研究自变量与因变量之间的关系。
在实际应用中,常常会遇到变量间存在多重共线性或高维数据的情况,这时偏最小二乘回归模型(PLS回归)就显得尤为重要。
本文将介绍偏最小二乘回归模型的应用技巧,帮助读者更好地理解和运用这一方法。
一、偏最小二乘回归模型的原理偏最小二乘回归模型是一种降维技术,它可以在解决多重共线性和高维数据问题时发挥作用。
其原理是将自变量和因变量在低维空间中表示,通过保留最大的协方差信息来建立预测模型。
与传统的多元线性回归相比,PLS回归可以更好地处理变量间的多重共线性,适用于高度相关的自变量或多元回归中自变量数量远远大于样本量的情况。
二、数据预处理在进行偏最小二乘回归分析之前,数据预处理是非常重要的一步。
首先,需要对数据进行标准化处理,使得所有的自变量和因变量都具有相同的尺度。
其次,对于存在缺失值或异常值的数据,需要进行适当的处理,以提高模型的稳定性和准确性。
最后,如果数据存在较大的噪声或离群点,可以考虑进行平滑处理或异常值检测,以减小数据中的随机误差。
三、变量选择在建立偏最小二乘回归模型时,变量选择是至关重要的一步。
PLS回归可以通过提取主成分的方式,自动选择对预测目标最为重要的自变量,减少不必要的信息冗余。
但在实际应用中,为了更好地理解模型,我们还是需要对变量进行合理的选择和筛选。
可以借助相关性分析、方差膨胀因子等方法,选取与因变量相关性较高且相互独立的自变量,以提高模型的解释性和预测准确性。
四、模型诊断建立偏最小二乘回归模型后,模型诊断是评估模型拟合效果和稳定性的重要手段。
可以利用残差分析、交叉验证等方法,检验模型的预测能力和稳健性。
另外,对于模型中存在的共线性问题,可以通过方差膨胀因子、特征值等指标进行诊断,及时调整模型结构,以提高模型的解释力和预测精度。
五、模型解释偏最小二乘回归模型不仅可以用于预测建模,还可以用于变量的重要性排序和解释。
在模型解释方面,可以利用变量负荷图、VIP值等方法,识别对因变量影响最大的自变量,并对其进行解释和解读。
偏最小二乘法基本知识
偏最小二乘法(PLS)简介-数理统计偏最小二乘法partial least square method是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。
近几十年来,它在理论、方法和应用方面都得到了迅速的发展。
偏最小二乘法长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。
而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
偏最小二乘法在统计应用中的重要性体现在以下几个方面:偏最小二乘法是一种多因变量对多自变量的回归建模方法。
偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。
偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。
但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。
偏最小二乘回归可以解决这个问题。
它采用对变量X和Y都进行分解的方法,从变量X和Y 中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。
现在,我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了基本概念偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模型来描述独立变量Y与预测变量组X之间的关系:Y= b0 + b1X1 + b2X2 + ... + bpXp在方程中,b0是截距,bi的值是数据点1到p的回归系数。
例如,我们可以认为人的体重是他的身高、性别的函数,并且从各自的样本点中估计出回归系数,之后,我们从测得的身高及性别中可以预测出某人的大致体重。
多元线性回归分析的参数估计方法
多元线性回归分析的参数估计方法多元线性回归是一种常用的数据分析方法,用于探究自变量与因变量之间的关系。
在多元线性回归中,参数估计方法有多种,包括最小二乘估计、最大似然估计和贝叶斯估计等。
本文将重点讨论多元线性回归中的参数估计方法。
在多元线性回归中,最常用的参数估计方法是最小二乘估计(Ordinary Least Squares,OLS)。
最小二乘估计是一种求解最优参数的方法,通过最小化残差平方和来估计参数的取值。
具体而言,对于给定的自变量和因变量数据,最小二乘估计方法试图找到一组参数,使得预测值与观测值之间的残差平方和最小。
这样的估计方法具有几何和统计意义,可以用来描述变量之间的线性关系。
最小二乘估计方法有一系列优良的性质,比如无偏性、一致性和有效性。
其中,无偏性是指估计值的期望等于真实参数的值,即估计值不会出现系统性的偏差。
一致性是指当样本容量趋近无穷时,估计值趋近于真实参数的值。
有效性是指最小二乘估计具有最小的方差,即估计值的波动最小。
这些性质使得最小二乘估计成为了多元线性回归中最常用的参数估计方法。
然而,最小二乘估计方法在面对一些特殊情况时可能会出现问题。
比如,当自变量之间存在多重共线性时,最小二乘估计的解不存在或不唯一。
多重共线性是指自变量之间存在较高的相关性,导致在估计回归系数时出现不稳定或不准确的情况。
为了解决多重共线性问题,可以采用一些技术手段,如主成分回归和岭回归等。
另外一个常用的参数估计方法是最大似然估计(Maximum Likelihood Estimation,MLE)。
最大似然估计方法试图找到一组参数,使得给定样本观测值的条件下,观测到这些值的概率最大。
具体而言,最大似然估计方法通过构建似然函数,并对似然函数求导,找到能够最大化似然函数的参数取值。
最大似然估计方法在一定条件下具有良好的性质,比如一致性和渐近正态分布。
但是,在实际应用中,最大似然估计方法可能存在计算复杂度高、估计值不唯一等问题。
(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析教学内容
(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。
近十年来,它在理论、方法和应用方面都得到了迅速的发展。
密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。
(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。
在普通多元线形回归的应用中,我们常受到许多限制。
最典型的问题就是自变量之间的多重相关性。
如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。
变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。
在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。
在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。
这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。
一、 偏最小二乘回归的建模策略\原理\方法1.1建模原理设有 q 个因变量{q y y ,...,1}和p 自变量{p x x ,...,1}。
偏最小二乘法回归系数值
偏最小二乘法回归系数值一、偏最小二乘法回归系数值的定义偏最小二乘法回归系数值是用来量化自变量与因变量之间关系强度的参数,用来衡量自变量和因变量之间关系的强度和方向的统计量。
它通过最小化预测误差方和来估计回归系数,从而得到回归方程。
二、偏最小二乘法回归系数值的意义偏最小二乘法回归系数值是在回归分析中,偏最小二乘法是一种常用的方法,它通过对自变量和因变量进行线性回归分析,得出回归系数值,从而揭示出自变量对因变量的影响程度。
三、偏最小二乘法回归系数值的特点偏最小二乘法回归系数值的特点在于自变量的变换过程,它使用了典型相关分析的目标函数和主成分分析的约束方程,变换是求解组间相关性最强的变量,不过它的约束条件是控制变换向量的范数。
四、偏最小二乘法回归系数值的影响从形式上看,它使用了典型相关分析的目标函数和主成分分析的约束方程。
另一个角度看,偏最小二乘的回归参数也是使用最小二乘估计的,所以它在回归参数求解的时候,对于多个因变量的参数是单独求解的。
在偏最小二乘法回归分析中,回归系数值的正负表示自变量和因变量之间的相关关系方向,正值表示正相关,负值表示负相关。
回归系数值的绝对值大小则表示自变量对因变量的影响程度。
一般来说,如果回归系数值的绝对值较大,说明自变量对因变量的影响程度较大,反之则较小。
五、解释偏最小二乘法回归系数值的注意事项首先,回归系数值并不是一个概率或概率比值,它只表示自变量和因变量之间的相关关系强度和方向。
其次,回归系数值的大小并不代表预测的准确性,预测的准确性需要使用其他统计方法进行评估。
最后,回归系数值并不是固定不变的,它们会随着样本数据的变化而变化。
六、偏最小二乘回归系数值的计算步骤1.收集数据,建立样本矩阵。
2.对样本矩阵进行标准化处理。
3.计算样本矩阵的协方差矩阵。
4.对协方差矩阵进行特征值分解。
5.提取主成分,保留前k个主成分。
6.建立回归模型,使用主成分作为自变量,因变量为原始数据中的因变量。
偏最小二乘回归的应用效果分析
应 用 数 学M ATHE M ATIC A APP LIC AT A2004,17(增):140~143Ξ偏最小二乘回归的应用效果分析申艳,刘次华(华中科技大学数学系,武汉430074)摘要:本文介绍了偏最小二乘回归(P LS)的建模方法,比较了P LS与普通最小二乘回归(O LS)及主成分回归的应用效果,并总结了P LS回归的基本特点.关键词:多重共线性;偏最小二乘回归;最小二乘回归;主成分回归中图分类号:O212.1 AMS(2000)主题分类:62J05文献标识码:A 文章编号:100129847(2004)增20140204、社会经济生活、科学研究等各个领域中,经常要对数据进行分析、拟合及预测,多元线性回归便是常用的方法之一.一般采用普通最小二乘方法估计回归系数,可以使残差平方和达到最小,但当自变量之间存在多重共线性时,最小二乘估计方法往往失效,不仅增大了模型误差,而且使模型丧失稳健性.为消除系统中的多重共线性,常采用主成分回归的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力.近年来发展起来的偏最小二乘回归(P LS)研究的焦点是多因变量对多因变量回归建模,能在自变量之间存在多重共线性的条件下进行建模,更易于辨识系统信息与噪声,对因变量也有较强的解释能力.考虑q个变量y1,…,y q与p个自变量x1,…,x p的建模问题.偏最小二乘回归的基本思想是首先在自变量集中提取第一成分t1(t1是x1,…,x p的线性组合,且尽可能多地携带原自变量集中的变异信息);同时在因变量集中也提取第一成分u1,并要求t1与u1相关程度达最大,然后建立因变量y1,…,y q与t1的回归方程,如果回归方程已达到满意的精度,则算法终止.否则继续第二成分的提取,直到能达到满意的精度为止.若最终对自变量集提取了l个成分t1,…,t l,偏最小二乘回归将通过建立y1,…,y q与t1,…,t l的回归方程式得出y1,…,y q与自变量x1,…,x p的回归方程式,即偏最小二乘回归方程式.首先将数据做标准化处理.记X=(x1,…,x p)n×p经标准化处理后的数据矩阵为E0= (E01,…,E0p)n×p,Y=(y1,…,y q)经标准化处理后的数据矩阵为F0=(F01…F0q)n×q第一步,记t1是E0的第一成分,t1=E0w1,w1是E0的第一个轴,且‖w1‖=1,记u1是F0的第一成分,u1=F0c1,c1是F0的第一个轴,且‖c1‖=1.如果要求t1,u1能分别很好地代表X 与Y中的数据变异信息,根据主成分分析原理,我们要求t1与u1标准差Var(t1),V(u1)趋于最大.另一方面t1对u1要有最大的解释能力,由典型相关分析的思路,t1与u1的相关度应达Ξ收稿日期:2004205213作者简介:申艳,女,讲师,华中科技大学数学系硕士,研究方向:概率与数理统计.到最大值,即r (t 1,u 1)→max ,综合起来就是要求t 1与u 1的协方差达到最大,即C ov (t 1,u 1)=Var (t 1)Var (u 1)r (t 1,u 1)→max ,也就是在‖w 1‖=1,‖c 1‖=1的约束条件下求w T 1E T 0F 0c 1的最大值.采用拉格朗日算法,记s =w T 1E Γ0F 0c 1-λ1(w T 1w 1-1)-λ2(c T1c 1-1),对s 分别求关于w 1,c 1,λ1和λ2的偏导,并令之为零,可以推出E T 0F 0F T 0E 0w 1=θ21w 1,F T 0E 0E T 0F 0c 1=θ21c 1,这里记θ1=2λ1=2λ2=w T 1E T0F 0c 1,容易看出θ1正是优化问题的目标函数值(要求θ1取最大值),w 1是对应于矩阵E T 0F 0F T 0E 0的最大特征值θ21的单位特征向量,c 1是对应于矩阵F T 0E 0E T 0F 0的最大特征值θ21的单位特征向量.求得w 1和c 1后,即可得成分t 1=E 0w 1,u 1=F 0c 1,然后,分别求E 0和F 0对t 1,u 1的三个回归方程E 0=t 1p T 1+E 1,F 0=u 1q T 1+F 31,F 0=t 1r T1+F 1,式中回归系数p 1=E T 0t 1‖t 1‖2,q 1=F T 0u 1‖u 1‖2,r 1=F T0t 1‖t 1‖2,而E 1,F 31,F 1分别是三个回归方程的残差矩阵.第二步用残差矩阵E 1和F 1取代E 0和F 0,用同样的方法求第二个轴w 2和c 2以及第二个成分t 2,u 2.如此计算下去,如果X 的秩是l ,则存在l 个成分t 1,t 2,…,t l ,使得E 0=t 1p T1+…+t l p T l ,F 0=t 1r T 1+…+t l r Tl +F l ,由于t 1,t 2,…,t l 均可以表示成E 01…E 0P 的线性组合,因此可得y 3k =F 0k ,关于x 3j =E 0j 的回归方程式,即y 3k =a k 1x 31+…+a kp x 3p +F lk ,k =1,2,…,q.一般情况下,偏最小二乘回归并不需要选用存在的l 个成分t 1,t 2,…,t l 来建立回归式,而像主成分分析一样,只选用前m 个成分(m ≤l ),即可得到预测能力较好的回归模型.下面讨论确定抽取成分个数m 的两种常用方法.(1)“舍2交叉验证法”:每次舍去第i 个观测(i =1,…,n ),用余下的n -1个观测按偏最小二乘回归方法建模,并考虑抽取h 个成分后拟合的回归式,然后把舍去的第i 个观测点代入所拟合的回归方程式,得到y j 在第i 个观测点上的预测值^y j (-i )(h ).对于每一个i =1,2,…,n ,重复以上测试,可得y j (j =1,2,…,q )的预测残差平方和为PR ESS j (h )=∑ni =1(yij-^y j (-i )(h ))2,(j=1,2,…,q ),Y =(y 1,…,y q )的预测残差平方和为PR ESS (h )=∑qj-1PRESS j(h ).对抽取成分个数h 从1到A 逐个计算Y 的预测残差平方和PR ESS (h ),然后选取使Y 的预测残差平方和达到最小的h ,取m =h.(2)“Q 2h ”验证法:同方法(1)先算出Y =(y 1,…,y q )的预测残差平方和为PR ESS (h )=∑qj-1PRESS j(h ).另外,再采用所有的样本点,拟合含h 个成分的回归方程,记yj在第i 个样本点的预测值为^y ji (h ),则可定义y j 的残差平方和为SS j (h )=∑n i =1(yij-^y ji (h ))2,Y =(y 1,…,y q )的残差平方和为SS (h )=∑qj -1SS j(h ).对于全部因变量Y ,成分th的交叉有效性可定义为Q 2h =1-PR ESS (h )SS (h -1),Q 2h ≥0.097时,表明加入成分能改善模型质量,否则不能.下面我们考察大学生的高考成绩对其大学成绩的影响.选取某高校学生的5门高考成绩141增刊 申艳等:偏最小二乘回归的应用效果分析为自变量X=(x1,x2,x3,x4,x5),其中x12语文,x22数学,x32英语,x42政治,x52历史.并以他们大学第一学期的高等数学成绩为因变量Y.对数据进行标准化处理,建立高考成绩对高等数学的P LS回归模型,有关数据见表1,表2.表1 成分与自变量的相关系数表t1t2t3t4t5E01-0.36740.76290.43190.1979-0.2392E020.8477-0.19340.10820.48080.0330E030.90370.12330.2718-0.25790.1669E040.35820.7693-0.34350.07290.3956E050.44510.4844-0.6779-0.1701-0.2807Y0.72120.20520.0657-0.02790.0002由表1可以看出,第一成分t1与自变量E02,E03的相关系数很高,因此t1是一个体现自变量系统中数学和英语的因子.表2 高等数学的P LS回归模型的精度分析表成分t1t2t3t4t5RdX0.39930.29220.16990.07420.0643累积RdX0.39930.69160.85150.9357 1.000RdY0.52010.04210.00430.00080.000累积RdY0.52010.56220.56650.56130.5673PRESS9.47129.846310.572911.064811.20044RdX=1p∑pj=1r2(x j,t h)表示成分t h对X的解释能力,RdY=1q∑qk=1r2(y k,t h)表示成分t h对Y的解释能力.由表2可以看出,第一主成分解释了自变量系统中39.93%的变异信息,同时解释了因变量系统中52.01%的变异信息,这反映出数学,英语对因变量系数的贡献最大.另一方面,当h=1时,预测残差平方和最小(PR ESS=9.4712),因此我们用第一成分t1来建立P LS 回归模型,对高等数学有较好的观测能力.P LS回归模型是F0=0.0454E01+0.3000E02+0.3725E03-0.0663E04+0.2019E05 为了比较P LS回归与最小二乘回归(O LS),主成分回归(PCR)的回归效果,建立其它几种回归关于高考成绩对高等数学的回归模型如下:1.普通最小二乘回归方程:F0=0.1153E01+0.2442E02+0.5045E03-0.0062E04+0.2210E05 2.主成分回归方程:(1)用两个主成分建立的回归方程:F0=-0.2370E01+0.5356E02+0.6058E03-0.1131E04+0.4659E05 (2)用三个主成分建立的回归方程:F0=0.0857E01+0.5917E02+0.6753E03-0.1155E04+0.3812E05回归系数的大小表示相关程度的高低,或者贡献率的高低.这三个模型回归系数的性质是一致的,都反映出数学,英语对因变量系数的贡献最大,与我们的定性认识比较符合.但从回归模型的预测残差平方和PRESS(下表)241应 用 数 学 2004O LSRPCR (2)PCR (3)P LSR PRESS15.224413.123112.78999.4712可以发现偏最小二乘回归的PRESS 最小,说明由偏最小二乘回归方程拟合的方程对样本点的变动而引起的扰动误差影响最小,可见偏最小二乘回归模型最理想.特别当自变量之间存在严重多重相关性时,P LS 方法的优越性更能充分显示出来.偏最小二乘回归有如下基本特点:(1)P LS 对数据拟合及预测精度和稳定性均高于最小二乘回归(O LS )与主成分回归.(2)P LS 回归可以较好地处理O LS 难以解决的问题.当自变量之间存在严重多重相关性时,使用O LS 无法建立模型.然而P LS 却能利用对系统中的数据信息进行分解和筛选,提取对因变量解释最强的综合变量,识别系统中的噪声,建立适当的模型.另一方面,O LS 建模时的样本数不宜太少,一般要求为拟合项的两倍以上,而P LS 回归却能在自变量多,样本数少的情况下建立精度较高的模型.(2)P LS 回归在建模的过程中集中了O LS 回归、主成分分析、典型相关分析三者的特点.因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息.参考文献:[1] 罗永泰,李小妹.高考入学成绩对后续课程影响的统计分析[J ].数理统计与管理,1996,15(2):14~16.[2] 王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.[3] 何小群.回归分析与经济数据建模[M].北京:中国人民大学出版社,1997.[4] 茆诗松,王静龙.高等数理统计[M].高等教育出版社,2000.Analysis of Applied E ffect of P artial Least Squares R egressionSHEN Yan ,LIU Ci 2hua(Mathematics Department ,Huazhong Univer sity o f Science and Technology ,Wuhan 430074,China )Abstract :In the paper ,we introduced how to build partial least squares regression m odel and com 2pared the applied effect of P LS with O LS and PCR.K ey w ords :Partial least squares regression ;Multi 2correlation ;O LSR341增刊 申艳等:偏最小二乘回归的应用效果分析。
27第二十七章 偏最小二乘回归分析
线性组合: t1 = w11 x1 + L + w1m xm = w1 X , u1 是因变量集 Y = ( y1 ,L , y p ) 的线性组
T
T
合: u1 = v11 y1 + L + v1 p y p = v1 Y 。为了回归分析的需要,要求:
T
① t1 和 u1 各自尽可能多地提取所在变量组的变异信息; ② t1 和 u1 的相关程度达到最大。 由两组变量集的标准化观测数据阵 E0 和 F0 ,可以计算第一对成分的得分向量,记
2 ⎧α = E T tˆ t ˆ1 0 1 ⎪ 1 , ⎨ 2 T ˆ ˆ ⎪ ⎩β1 = F0 t1 t1
称 α1 , β1 为模型效应负荷量。
(3)用残差阵 E1 和 F1 代替 E0 和 F0 重复以上步骤。
ˆ = tˆ α , F ˆ = tˆ β ,则残差阵 E = E − E ˆ ,F = F − F ˆ 。如果残差阵 F 记E 1 0 1 1 0 1 1 1 0 0 1 0 0
-674-
ˆ1 和 u ˆ1 : 为t
⎡ x11 tˆ1 = E0 w1 = ⎢ ⎢ M ⎢ ⎣ xn1 ⎡ y11 ⎢ ˆ1 = F0 v1 = ⎢ M u ⎢ yn1 ⎣ L x1m ⎤ ⎡ w11 ⎤ ⎡t11 ⎤ ⎢ ⎥ ⎢ ⎥ M ⎥ ⎥⎢ M ⎥ = ⎢ M ⎥ L xnm ⎥ ⎦⎢ ⎣ w1m ⎥ ⎦ ⎢ ⎣t n1 ⎥ ⎦
⎡ y11 L y1 p ⎤ ⎡ x11 L x1m ⎤ ⎢ ⎥ F0 = ⎢ M M ⎥ , E0 = ⎢ M ⎥ ⎢M ⎥ ⎢ yn1 L ynp ⎥ ⎢ ⎥ x x L nm ⎦ ⎣ n1 ⎣ ⎦
偏最小二乘回归分析建模的具体步骤如下: (1)分别提取两变量组的第一对成分,并使之相关性达最大。 假设从两组变量分别提出第一对成分为 t1 和 u1 ,t1 是自变量集 X = ( x1 ,L , xm ) 的
偏最小二乘回归结果解读
偏最小二乘回归结果解读
偏最小二乘回归(Partial Least Squares Regression, PLSR)是一种多元线性回归方法,用于建立预测模型。
下面是对偏最小二乘回归结果的解读的一般步骤:
1. PLSR模型摘要:查看回归模型的总体概况,包括模型的拟合优度(如R-squared)以及交叉验证结果(如果进行了交叉验证)。
这可以帮助你评估模型的预测能力。
2. 系数权重解读:PLSR通过计算主成分来建立回归模型。
你可以查看每个主成分的系数权重,这些权重表示每个变量对预测结果的影响程度。
较大的正权重表示该变量对于结果的正相关性较强,较大的负权重表示该变量对于结果的负相关性较强。
3. 模型可解释性:对于每个主成分,查看其解释的方差百分比。
较高的百分比表示该主成分能够较好地解释结果的变异性。
你可以通过累计解释方差百分比来评估模型的整体解释能力。
4. 变量重要性:通过查看每个变量的VIP(Variable Importance in Projection)指标来评估变量的重要性。
VIP值越大,表示该变量在建立模型中的贡献越大。
5. 预测性能验证:使用交叉验证或独立测试数据集来评估模型的预测性能。
比较实际观测值和模型预测值之间的误差,例如均方根误差(Root Mean Squared Error, RMSE)或平均绝对误差(Mean Absolute Error, MAE)。
较小的误差值表示模型具有较好的预测能力。
请注意,上述步骤的具体解读可能因数据集和具体模型而异。
在解读偏最小二乘回归结果时,最好参考相应的文献、专业知识或咨询相关领域的专家以获取更准确的解释。
11第11章 偏最小二乘回归分析汇总
基础部数学教研室
数学 ห้องสมุดไป่ตู้模
否则继续第二对成分的提取,直到能达到满意的 精度为止。若最终对自变量集提取r 个成分 u1 , u2 , , ur ,偏最小二乘回归将通过建立 y1 , , y p 与
u1 , u2 , , ur 的回归式,然后再表示为 y1 ,
, y p 与原自变
量的回归方程式,即偏最小二乘回归方程式。
12/49
基础部数学教研室
数学 建模
(2) 建立 y1 ,
, y p 对 u1 的回归及 x1 ,
, xm 对 u1 的回
归。 假定回归模型为 (1)T ˆ A u A1 , 1 (1)T ˆ B u B1 , 1 其中 (1) [ 11 , , 1m ]T , (1) [ 11 ,
ˆ1 B (1) v b11 bn1 b1 p 11 . bnp 1 p
(11.2)
10/49
基础部数学教研室
数学 建模
第一对成分 u1 和 v1 的协方差Cov( u1 , v1 ) 可用第一 ˆ1 和 v ˆ1 的内积来计算。故而以上两 对成分的得分向量 u 个要求可化为数学上的条件极值问题 ˆ1 v ˆ1 ) ( A (1) B (1) ) (1)T AT B (1) max ( u
(2) [ 21 , , 2 m ]T , (2) [ 21 , , 2 p ]T ,
15/49
基础部数学教研室
数学 建模
ˆ 2 A1 (2) , v ˆ2 B1 (2) 为第二对成分的得分向量, 而u 2 2 (2) T (2) T ˆ2 u ˆ 2 , B1 u ˆ2 u ˆ2 A1 u
偏最小二乘回归方法
讲演人:
简言之
偏最小二乘回归是一种集多元 线性回归分析、典型相关分析和主 成分分析的基本功能为一体的新型 多元统计分析方法。
此方法的优点:
(1)能在自变量存在严重多重 相关性的条件下进行回归建模;
(2)允许在样本点个数少于自 变量个数的条件下进行回归建模;
此方法的优点:
(3)偏最小二乘回归在最终模 型中将包含原有的所有自变量,易 于辨识系统信息与噪声,而且其自 变量的回归系数也将更容易解释。
ti 对某自变量 x j的解释能力为
Rd(xj ;ti ) r2(xj ,ti )
典型相关分析中的精度分析
ti 对某因变量yk 的解释能力为
Rd ( yk ;ti ) r 2 ( yk , ti )
ti 对X 的解释能力为
Rd ( X ;ti )
1 p
p k 1
Rd (xk ;ti )
t1, ,th 对X 的解释能力为
多因变量偏最小二乘算法推导
把(1)和(2)式写成
E0T F0c1 11
F0T E01 1c1
将(6)代入(5),有
E0T F0 F0T E01 121
(5)式 (6)式
(7)式
多因变量偏最小二乘算法推导
易知,1是矩阵 E0T F0F0T E0的特征 向量,对应的特征值为 12 。1 是目 标函数,它要求取最大值。
此方法的优点:
(4)偏最小二乘回归方法与其 他的建模方法相比,具有计算简单、 预测精度高,易于定性解释的优点。
多因变量偏最小二乘算法推导
首先将数据做标准化处理。
原自变量数据表 X (x1, x2 , xp )np 经标准化后的数据矩阵记为
E0 (E01, , E0 p )n p
回归分析中的偏最小二乘回归模型应用技巧(六)
回归分析中的偏最小二乘回归模型应用技巧回归分析是统计学中常用的一种分析方法,用于探究自变量和因变量之间的关系。
而偏最小二乘回归模型是在多元统计分析中应用广泛的一种方法,特别适用于变量之间存在多重共线性的情况。
本文将介绍偏最小二乘回归模型的应用技巧,帮助读者更好地理解和运用这一方法。
一、偏最小二乘回归模型的基本原理偏最小二乘回归模型是一种降维技术,它通过找到与因变量最相关的新变量来解决多重共线性问题。
在传统的多元回归分析中,如果自变量之间存在高度相关性,就会导致回归系数估计不准确。
而偏最小二乘回归模型可以通过构建新的变量,将自变量空间转换为一个新的空间,从而降低自变量之间的相关性,使得回归系数的估计更加准确。
二、偏最小二乘回归模型的应用场景偏最小二乘回归模型特别适用于高维数据集中的特征选择和建模。
在实际应用中,很多数据集都存在大量的变量,而这些变量之间往往存在一定的相关性。
使用偏最小二乘回归模型可以帮助我们找到最重要的变量,从而简化模型,提高预测的准确性。
除此之外,偏最小二乘回归模型还可以用于光谱分析、化学工程、生物信息学等领域。
在这些领域中,往往需要处理大量的高维数据,而偏最小二乘回归模型可以帮助我们挖掘数据之间的潜在关系,找到最相关的变量,从而提高数据分析的效率和准确性。
三、偏最小二乘回归模型的实现步骤实现偏最小二乘回归模型,需要经过以下几个步骤:1. 数据预处理:对原始数据进行标准化处理,使得数据的均值为0,方差为1,以便更好地应用偏最小二乘回归模型。
2. 求解因子载荷矩阵:通过对数据进行主成分分析,求解因子载荷矩阵,得到新的变量空间。
3. 求解回归系数:在新的变量空间中,通过最小二乘法求解回归系数,得到最终的回归模型。
4. 模型评估:对建立的偏最小二乘回归模型进行评估,包括模型的拟合优度、预测准确性等指标。
四、偏最小二乘回归模型的应用技巧在应用偏最小二乘回归模型时,需要注意以下几点技巧:1. 数据标准化:在进行偏最小二乘回归分析之前,一定要对数据进行标准化处理,以避免变量之间的量纲差异对模型结果的影响。
(真正好东西)偏最小二乘回归=多元线性回归分析典型相关分析主成分分析
偏最小二乘回归是一种新式的多元统计数据剖析方法,它与 1983 年由伍德和阿巴诺等人初次提出。
近十年来,它在理论、方法和应用方面都获取了快速的发展。
密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归剖析方法。
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。
(2)偏最小二乘回归能够较好地解决很多过去用一般多元回归没法解决的问题。
在一般多元线形回归的应用中,我们常遇到很多限制。
最典型的问题就是自变量之间的多重有关性。
假如采纳一般的最小二乘方法,这类变量多重有关性就会严重危害参数预计,扩大模型偏差,并损坏模型的稳固性。
变量多重有关问题十分复杂,长久以来在理论和方法上都未给出满意的答案,这向来困扰着从事实质系统剖析的工作人员。
在偏最小二乘回归中开拓了一种有效的技术门路,它利用对系统中的数据信息进行分解和挑选的方式,提取对因变量的解说性最强的综合变量,辨别系统中的信息与噪声,进而更好地战胜变量多重有关性在系统建模中的不良作用。
(3)偏最小二乘回归之所以被称为第二代回归方法,还因为它能够实现多种数据剖析方法的综合应用。
偏最小二乘回归 =多元线性回归剖析 +典型有关剖析 +主成分剖析因为偏最小二乘回归在建模的同时实现了数据构造的简化,所以,能够在二维平面图上对多维数据的特征进行察看,这使得偏最小二乘回归剖析的图形功能十分强盛。
在一次偏最小二乘回归剖析计算后,不只能够获取多因变量对多自变量的回归模型,并且能够在平面图上直接察看两组变量之间的有关关系,以及察看样本点间的相像性构造。
这类高维数据多个层面的可视见性,能够使数据系统的剖析内容更为丰富,同时又能够对所成立的回归模型赐予很多更详尽深入的实质解说。
一、偏最小二乘回归的建模策略原理方法1.1 建模原理有 q 个因量 { y1,..., y q } 和 p 自量 { x1,..., x p } 。
多元变量典型相关分析的分类:最小二乘配方、扩展和分析
多元变量典型相关分析的分类:最小二乘配方、扩展和分析摘要——典型相关分析(CCA)是一种寻找两个多维变量之间相关性的著名的技术。
它是一项把两组变量化到一个低维空间中并且使他们之间的相关性最大的工作。
CCA通常在两组变量分别的是来源于数据和类标签上申请监督降维。
众所周知,CCA可以制定作为在二进制类案件中的一个最小二乘问题。
然而,扩展到更一般的变量尚不清楚。
在本文中,我们表明,在倾向于保持高维数据的温和条件,CCA在多元变量的情况下可以制定作为一个最小二乘问题。
在此基础上等价关系,高效的算法求解最小二乘问题可以应用于非常大的数据集规模CCA问题。
此外,我们提出几个CCA扩展,包括基于1规范正规化的稀疏CCA方程式。
我们进一步扩展最小二乘方程式为偏最小二乘法。
此外,我们表明,投影,让一群CCA变量是独立的,正则化在另组多维变量,提供新的见解的影响CCA的正规化。
我们使用基准数据集进行了实验。
实验数据集确认建立了等价关系。
结果也证明了CCA扩展的有效性和效率的提议。
关键字——典型相关分析、最小二乘法、多元变量学习,偏最小二乘法、正规化。
1 引言典型相关分析(CCA)[1]是一个众所周知的寻找两套多维变量之间的相关性的技术。
它使用两个视图相同的组对象和项目到一个与他们最相关的低维空间中去。
CCA已经成功应用在各种应用中[2]、[3]。
一个流行的使用CCA是监督式学习,它其中一个观点是来源于数据并且其他的观点来源于类标签。
在这种背景,数据可以用标签信息定向的被投影到一个低维空间。
这样的一个方程式在对多元变量进行降维的情况下是非常的吸引人的。
多元线性回归(多元)即最小平方和成本函数是一种专门研究回归问题的技术。
它还可以被应用于通过定义一个合适的类指标矩阵的分类问题[5],[6]。
多元的解决方案基于最小二乘法通过求解一个线性方程组来获得。
一个数量的算法包括共轭梯度算法,可以应用到它有效地解决[7]。
此外,最小二乘方程式可以很容易使用正则化技术进行扩展。
PLS偏最小二乘法
偏最小二乘法(Partial Least Square) 通过最小化误差平方来寻找数据与函数间的最佳匹配,是一种参数估计方法,一般估计步骤包括:首先将解释变量和被解释变量标准化,并提取解释变量和被解释变量的主成分,例如提取解释变量的主成分,要求与被解释变量高度相关,这个过程体现了典型相关和主成分分析的思想。
其次做解释变量和被解释变量在主成分上的回归,可以分别得到残差,这个还是OLS的思想。
最后,按以上的步骤循环下去,直到新的主成分系数不再显著。
其实PLS仍然是OLS的一种扩展,目前在解决多重共线性问题领域的研究很成熟。
一般认为比岭回归、主成分分析等方法在解决多重共线性问题上更为有效。
此外,PLS与结构方程(SEM)在应用上相得益彰,我们知道SEM是大样本理论的产物,因此其应用受到诸多限制,尤其在小样本下,该模型几乎无法应用,而PLS恰好可以弥补这方面的缺陷。
研究结论认为PLS 在非正态分布、小样本、共线性的情况下,仍然很稳定。
偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首提示来的,偏最小二乘法有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1) 能够在自变量存在严重多重相关性的条件下进行回归建模;(2) 允许在样本点个数少于变量个数的条件下进行回归建模;(3) 偏最小二乘回归在最终模型中将包含原有的所有自变量;(4) 偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5) 在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。
偏最小二乘法是一种多因变量对多自变量的回归建模方法。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
偏最小二乘回归方法(PLS)
偏最小二乘回归方法1 偏最小二乘回归方法(PLS)背景介绍在经济管理、教育学、农业、社会科学、工程技术、医学和生物学中,多元线性回归分析是一种普遍应用的统计分析与预测技术。
多元线性回归中,一般采用最小二乘方法(Ordinary Least Squares :OLS)估计回归系数,以使残差平方和达到最小,但当自变量之间存在多重相关性时,最小二乘估计方法往往失效。
而这种变量之间多重相关性问题在多元线性回归分析中危害非常严重,但又普遍存在。
为消除这种影响,常采用主成分分析(principal Components Analysis :PCA)的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力。
最小偏二乘回归方法(Partial Least Squares Regression:PLS)就是应这种实际需要而产生和发展的一种有广泛适用性的多元统计分析方法。
它于1983年由S.Wold和C.Albano等人首次提出并成功地应用在化学领域。
近十年来,偏最小二乘回归方法在理论、方法和应用方面都得到了迅速的发展,己经广泛地应用在许多领域,如生物信息学、机器学习和文本分类等领域。
偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模,它与普通多元回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术。
它不再是直接考虑因变量集合与自变量集合的回归建模,而是在变量系统中提取若干对系统具有最佳解释能力的新综合变量(又称成分),然后对它们进行回归建模。
偏最小二乘回归可以将建模类型的预测分析方法与非模型式的数据内涵分析方法有机地结合起来,可以同时实现回归建模、数据结构简化(主成分分析)以及两组变量间的相关性分析(典型性关分析),即集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体。
下面将简单地叙述偏最小二乘回归的基本原理。
医用数据挖掘案例与实践 第23章 偏最小二乘回归分析
偏最小二乘法与传统的降维方法比较,具有计算量小,速度快等特点, 提高了分类效果,有助于进一步挖掘数据的内在特征。目前,偏最小二乘法 已经在微阵列数据分析中得到了广泛的应用。当然,从实际操作来看,采用 偏最小二乘回归时,也存在一些问题,如自变量之间存在严重的多重共线性, 使得分析结果不稳定;有时选出的成分与我们期望的出入较大或与专业背景 不符等。此时,还应对偏最小二乘进行改进,比如考虑偏最小二乘的互作项 回归等。
图23.1 不同产地黄芪总提取物HPLC-ELSD的七个共有峰和药效值
7
首先采用SPSS软件对该数据做多重共线性诊断。输出的结果如图23.2和图23.3所示。
Coefficientsa
Collinearity Statistics
Model
1
F1
Tolerance .193
VIF 5.171
F2
.190
j
/
tj
2;
qj
Y
T j
t
j
/
tj
2
4
将矩阵 X nm 和Ynk 分别分解为:
p
X t j pTj E
p
; Y bˆjt jqTj F
j 1
j 1
E 和 F 表示提取 p 个自变量和因变量成分后矩阵X nm 和Ynk
的残差。在偏最小二乘回归分析中,每对成分t j 和u j 在迭代过
程中被依次提取,然后计算提取后的残差,并对每一步的残差再
3
n 设 X nm表示自变量,Ynk 表示因变量,其中 为样本个数,m
是自变量个数,k 是因变量个数。偏最小二乘回归的目的是从数
据集中提取自变量成分 t j 和因变量成分u j ( j 1,2,..., p),p 表
数学建模 偏最小二乘回归
计算成分得分向量 tˆ1 = E0w1 ,和残差矩阵 E1 = E0 − tˆ1α1T ,其中α1 = E0T tˆ1 tˆ1 2 。
(2)求矩阵 E1T F0F0T E1 最大特征值所对应的特征向量 w2 ,求得成分 t2 = w2T X ,
i = 1,2,", n 重复以上的验证,即得抽取 h 个成分时第 j 个因变量 y j ( j = 1,2,", p) 的
预测误差平方和为
n
∑ PRESS j (h) = ( yij − yˆ(i) j (h))2 ( j = 1,2,", p ) i=1
Y = ( y1,", y p )T 的预测误差平方和为
中元素的绝对值近似为 0,则认为用第一个成分建立的回归式精度已满足需要了,可以
停止抽取成分。否则用残差阵 E1 和 F1 代替 E0 和 F0 重复以上步骤即得:
w2 = (w21,", w2m )T ; v2 = (v21,", v2 p )T 分 别 为 第 二 对 成 分 的 权 数 。 而
tˆ2 = E1w2 , uˆ2 = F1v2 为第二对成分的得分向量。
跳高(y3)
1
191
36
50
5
162
60
2
189
37
52
2
110
60
3
193
38
58
12
101
101
4
162
35
62
12
105
37
5
189
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德与阿巴诺等人首次提出。
近十年来,它在理论、方法与应用方面都得到了迅速的发展。
密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。
(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。
在普通多元线形回归的应用中,我们常受到许多限制。
最典型的问题就是自变量之间的多重相关性。
如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。
变量多重相关问题十分复杂,长期以来在理论与方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。
在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解与筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。
在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。
这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。
一、 偏最小二乘回归的建模策略\原理\方法 1.1建模原理设有 q 个因变量{q y y ,...,1}与p 自变量{p x x ,...,1}。
为了研究因变量与自变量的统计关系,我们观测了n 个样本点,由此构成了自变量与因变量的数据表X={p x x ,...,1}与.Y={q y y ,...,1}。
偏最小二乘回归分别在X 与Y 中提取出成分1t 与1u (也就是说, 1t 是p x x ,...,1 的线形组合, 1u 是q y y ,...,1 的线形组合).在提取这两个成分时,为了回归分析的需要,有下列两个要求:(1) 1t 与1u 应尽可能大地携带他们各自数据表中的变异信息; (2) 1t 与1u 的相关程度能够达到最大。
这两个要求表明,1t 与1u 应尽可能好的代表数据表X 与Y,同时自变量的成分 1t 对因变量的成分1u 又有最强的解释能力。
在第一个成分1t 与 1u 被提取后,偏最小二乘回归分别实施X 对1t 的回归以及 Y 对1u 的回归。
如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X 被1t 解释后的残余信息以及Y 被1t 解释后的残余信息进行第二轮的成分提取。
如此往复,直到能达到一个较满意的精度为止。
若最终对 X 共提取了 m 个成分1t ,…,m t ,偏最小二乘回归将通过实施ky 对1t ,…,m t , 的回归,然后再表达成ky 关于原变量x 1,…,x m , 的回归方程,k=1,2,…,q 。
1.2计算方法推导为了数学推导方便起见,首先将数据做标准化处理。
X 经标准化处理后的数据矩阵记为0E =(E 01,…,E p0)p n ⨯,j Y 经标准化处理后的数据矩阵记为0F =(01F ,…,q F 0)p n ⨯。
第一步 记1t 是0E 的第一个成分,1w 是0E 的第一个轴,它是一个单位向量,既||1w ||=1。
记1u 是0F 的第一个成分,1u =0F c 1。
c 1是0F的第一个轴,并且||c 1||=1。
如果要1t ,1u 能分别很好的代表X 与Y 中的数据变异信息,根据主成分分析原理,应该有Var(1u )→max Var(1t )→max另一方面,由于回归建模的需要,又要求1t 对1u 有很大的解释能力,有典型相关分析的思路,1t 与1u 的相关度应达到最大值,既r (1t ,1u )→max因此,综合起来,在偏最小二乘回归中,我们要求1t 与1u 的协方差达到最大,既Cov(1t ,1u )=)()(11u t Var Var r(1t ,1u )→max正规的数学表述应该是求解下列优化问题,既因此,将在||1w ||2=1与||c 1||2=1的约束条件下,去求(w '1E '0F 0c 1)的最大值。
如果采用拉格朗日算法,记s=w '1E '00F c 1-λ1 (w '11w -1)-λ2 (c '1c 1-1)对s 分别求关于1w ,c 1,λ1与λ2的偏导并令之为零,有 1w s∂∂=E '00F c 1-λ121w =0 (1 -2)1c s∂∂=F '00E 1w -λ22c 1=0 (1-3)1λ∂∂s =-(w '11w -1)=0 (1-4)2λ∂∂s=-(c '1c 1-1)=0 (1-5) 由式(1-2)~(1-5),可以推出记100'1'21122c F E w ===λλθ,所以,1θ正是优化问题的目标函数值. 把式(1-2)与式(1-3)写成11100'w c F E θ= (1-6)11100'c w E F θ= (1-7)将式(1-7)代入式(1-6),有121100'00'w w E F F E θ= (1-8)同理,可得121100'00'c c F E E F θ= (1-9)可见,1w 是矩阵00'00'E F F E 的特征向量,对应的特征值为21θ.1θ是目标函数值,它要求取最大值,所以, 1w 是对应于00'00'E F F E 矩阵最大特征值的单位特征向量.而另一方面, 1c 是对应于矩阵00'00'F E E F 最大特征值21θ的单位特征向量.求得轴1w 与1c 后,即可得到成分然后,分别求0E 与0F 对1t ,1u 的三个回归方程 11'10E p t E +=(1-10)11'10*+=F q u F (1-11)11'10F r t F += (1-12)式中,回归系数向量是2110'1||||t t E p = (1-13)2110'1||||u u F q =(1-14)2110'1||||t t F r = (1-15) 而1E ,1*F ,1F 分别是三个回归方程的残差矩阵.第二步 用残差矩阵1E 与1F 取代0E 与0F ,然后,求第二个轴2w 与2c 以及第二个成分2t ,2u ,有2w 是对应于矩阵11'11'E F F E 最大特征值22θ的特征值, 2c 是对应于矩阵11'11'F E E F 最大特征值的特征向量.计算回归系数 因此,有回归方程如此计算下去,如果X 的秩是A ,则会有A A p t p t E '1'10++= (1-16)A A A F r t r t F +++='1'10 (1-17)由于,A t t ,,1 均可以表示成p E E 001,, 的线性组合,因此,式(1-17)还可以还原成k k F y 0*=关于k j E x 0*=的回归方程形式,即Ak p kp k k F x x y +++=**11*αα k=1,2,…,qAk F 是残差距阵A F 的第k 列。
1.3交叉有效性下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程。
在许多情形下,偏最小二乘回归方程并不需要选用全部的成分A t t ,,1 进行回归建模,而是可以象在主成分分析一样,采用截尾的方式选择前m 个成分))(,(X A A m 秩=<,仅用这m 个后续的成分m t t ,,1 就可以得到一个预测性较好的模型。
事实上,如果后续的成分已经不能为解释0F 提供更有意义的信息时,采用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论。
在多元回归分析一章中,我们曾在调整复测定系数的内容中讨论过这一观点。
下面的问题是怎样来确定所应提取的成分个数。
在多元回归分析中,曾介绍过用抽样测试法来确定回归模型是否适于预测应用。
我们把手中的数据分成两部分:第一部分用于建立回归方程,求出回归系数估计量B b ,拟合值B y ˆ以及残差均方与2ˆB σ;再用第二部分数据作为实验点,代入刚才所求得的回归方程,由此求出2ˆˆT T y σ和。
一般地,若有≈2ˆT σ2ˆB σ,则回归方程会有更好的预测效果。
若 >>2ˆT σ2ˆB σ,则回归方程不宜用于预测。
在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑。
采用类似于抽样测试法的工作方式,把所有n 个样本点分成两部分:第一部分除去某个样本点i 的所有样本点集合(共含n-1个样本点),用这部分样本点并使用h 个成分拟合一个回归方程;第二部分是把刚才被排除的样本点i 代入前面拟合的回归方程,得到j y 在样本点i上的拟合值)(ˆi hj y-。
对于每一个i =1,2,…,n,重复上述测试,则可以定义j y 的预测误差平方与为hj PRESS ,有∑=--=ni i hj ij hj yy PRESS 12)()ˆ( (1-18) 定义Y的预测误差平方与为h PRESS ,有∑==pj hj h PRESS PRESS 1(1-19)显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感,这种扰动误差的作用,就会加大h PRESS 的值。
另外,再采用所有的样本点,拟合含h 个成分的回归方程。
这是,记第i 个样本点的预测值为hji yˆ,则可以记j y 的误差平方与为hj SS ,有 ∑=-=ni hji ij hj yy SS 12)ˆ( (1-20) 定义Y 的误差平方与为h SS ,有∑==pj hj h SS SS 1(1-21)一般说来,总是有h PRESS 大于h SS ,而h SS 则总是小于1-h SS 。
下面比较1-h SS 与h PRESS 。
1-h SS 是用全部样本点拟合的具有h-1个成分的方程的拟合误差; h PRESS 增加了一个成分h t ,但却含有样本点的扰动误差。
如果h 个成分的回归方程的含扰动误差能在一定程度上小于(h-1)个成分回归方程的拟合误差,则认为增加一个成分h t ,会使预测结果明显提高。