偏最小二乘法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
偏最小二乘法( PLS)是光谱多元定量校正最常用的一种方法, 已被广泛应用于近红外、红外、拉曼、核磁和质谱等波谱定量模型的建立, 几乎成为光谱分析中建立线性定量校正模型的通用方法〔1, 2〕。近年来, 随着PLS方法在光谱分析尤其是分子光谱如近红外、红外和拉曼中应用的深入开展, PLS 方法还被用来解决模式识别、定量校正模型适用性判断以及异常样本检测等定性分析问题。由于PLS方法同时从光谱阵和浓度阵中提取载荷和得分, 克服主成分分析( PCA)方法没有利用浓度阵的缺点, 可有效降维, 并消除光谱间可能存在的复共线关系, 因此取得令人非常满意的定性分析结果〔3 ~5〕。本文主要介绍PLS方法在光
谱定性分析方面的原理及应用实例。
偏最小二乘方法(PLS-Partial Least Squares))是近年来发展起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。该种方法,在化合物结构-活性/性质相关性研究中是一种非常有用的手段。如美国Tripos公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处理部分主要是PLS。在PLS方法中用的是替潜变量,其数学基础是主成分分析。替潜变量的个数一般少于原自变量的个数,所以PLS特别适用于自变量的个数多于试样个数的情况。在此种情况下,
亦可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。
§§ 6.3.1 基本原理
6.3 偏最小二乘(PLS)
为了叙述上的方便,我们首先引进“因子”的概念。一个因子为原来变量的线性组合,所以矩阵的某一主成分即为一因子,而某矩阵的诸主成分是彼此相互正交的,但因子不一定,因为一因子可由某一成分经坐标旋转而得。
在主成分回归中,第一步,在矩阵X的本征矢量或因子数测试中,所处理的仅为X矩阵,而对于矩阵Y 中信息并未考虑。事实上,Y中亦可能包含非有用的信息。所以很自然的一种想法
是,在矩阵X 因子的测试中应同时考虑矩阵Y 的作用。偏最小二乘正是基于这种思想的一种回归方法。
偏最小二乘和主成分分析很相似,其差别在于用于描述变量Y 中因子的同时也用于描述变量X 。为了实现这一点,在数学上是以矩阵Y 的列去计算矩阵X 的因子,与此同时,矩阵Y 的因子则由矩阵X 的列去预测。其数学模型为:
此处,T 和U 的矩阵元分别为X 和Y 的得分,而P 和Q 的矩阵元分别为X 和Y 的装载,E 和F 分别为运用偏最小二乘模型法去拟合X 和Y 所引进的误差。
T = XP(主成分分析)
TP ’ = XPP ’
PP ’ = I
X = TP ’(因子分析)
在理想的情况下,X 中误差的来源和Y 中的误差的来源完全相同,即影响X 与Y 的因素相同。但实际上,X 中误差与Y 中误差并不相关,因而t ≠u ,但当两个矩阵同时用于确定因子时,则X 和Y 的因子具有如下关系:
u = bt + e
式中b 所表征的即为u 和t 间的内在关系。
E
P T X +'=F Q U Y +'=
为了使因子T 既可描述X 矩阵,同时又可描述Y 矩阵,则需采取折衷方案,即将T 进行坐标旋转。显然,坐标旋转后的T 因子对于X 矩阵的表达已不再是最优的状况。
如假设X 矩阵和Y 矩阵均为6*3,即行为6,列为3。在列空间,X 和Y 矩阵的行分别示于图
6.1(上部)。PLS 第一个因子(t 和u )方向在各自的空间均可解释试样的最大偏差。若PLS 模型是正确的,将t 对u 作图则可得一线性关系。事实上,PLS 要将各自空间中的因子进行折衷以增加t 对u 的相关性(图6.1下部)。由于这种折衷才可使所得数学模型较好地同时描述X
和Y 。在行空间,情况与列空间类同。
如有矩阵(见§ 6.2):
⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣
⎡=1241576917621896
821326*********
X ⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎣⎡=2863129334572Y
数据的预处理为:每列减去相应列的平均值(mean-centered ),PLS
所得结果为:
将t 对u 作图(图6.2)可显示出二者的线性关系,其斜率b = 0.53。
图6.2 矩阵X 的因子t 对矩阵Y 的因子u 作图
对于未知试样的预测,要应用X 和Y 的得分模型及相关性bi 。 若有L 个因子,则bl 为表达第l 个因子相关性的系数,其步骤为:由未知试样的测定值x 末通过校正模型(式(6.4)计算出t 末,进而由(式
6.6)及bl 可计算未知试样的得分矢量u 末,最后由校正模型(式6.5)
得未知试样含量。
⎥⎥⎥⎦⎤
⎢⎢⎢⎣⎡--=8.157.45.20t ⎥⎥⎥⎦
⎤⎢⎢⎢⎣⎡-=10010u E P T X +'=u = bt + e
=
Y+'
U
Q
F