偏最小二乘方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§ 6.2 ຫໍສະໝຸດ Baidu成分回归
主成分回归可分为两步: 测定主成分数,并由主成分分 析将X矩阵降维; 对于降维的X矩阵再进行线性回归分析。 主成分分析的概念在前一章已经作了介绍。所谓主成分,
它为一新的变量,而该新变量是原变量xij的线性组合。第一 个主成分所能解释原变量的方差量最大,第二个次之,第三 个再次之,等等。也就是说,主成分是一种线性组合,用它 来表征原来变量时所产生的平方误差最小。运用主成分分析, 原变量矩阵X可以表达为得分(即主成分)矩阵T,而T由X在 本征矢量P上的投影所得。主成分与矩阵X的本征矢量一一对 应,即T = XP。
(3) p pold / pold ; new (4)t Xp / pp ;
(5) 比较步(2)和步(4)中的t ,若二者相等,则停,否则转到(2)。
对于Y: (1)将某yj赋值给ustart即ustart=yi
(2)q uY / uu ( t Y / t t ) ;
第六章 偏最小二乘方法
偏最小二乘方法(PLS-Partial Least Squares))是近年来发展 起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。该种方法,在化合 物结构-活性/性质相关性研究中是一种非常有用的手段。如美国 Tripos公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处 理部分主要是PLS。在PLS方法中用的是替潜变量,其数学基础 是主成分分析。替潜变量的个数一般少于原自变量的个数,所 以PLS特别适用于自变量的个数多于试样个数的情况。在此种 情况下,亦可运用主成分回归方法,但不能够运用一般的多元 回归分析,因为一般多元回归分析要求试样的个数必须多于自 变量的个数。
(3)q qold / qold ; new
§ 6.1 多元线性回归(MLR)
若自变量为m个,xj (j=1,2,…,m),因变量为y,在y与xj间, 我们可以建立一线性模型,即
y b1 x1 b2 x2 ... bm xm e
(6.1a) (6.1b) (6.1c)
y bj x j e
j 1
m
y xb e
u = bt + e
式中b所表征的即为u和t间的内在关系。
(6.6)
为了使因子T既可描述X矩阵,同时又可描述Y矩阵,则需
采取折衷方案,即将T进行坐标旋转。显然,坐标旋转后的T 因子对于X矩阵的表达已不再是最优的状况。
如假设X矩阵和Y矩阵均为6*3, 即行为6,列为3。在列空间, X和Y矩阵的行分别示于图6.1 (上部)。PLS第一个因子 (t和u)方向在各自的空间均 可解释试样的最大偏差。若 PLS模型是正确的,将t对u作 图则可得一线性关系。事实 上,PLS要将各自空间中的因 子进行折衷以增加t对u的相关 性(图6.1下部)。由于这种 折衷才可使所得数学模型较 好地同时描述X和Y。在行空 间,情况与列空间类同。
设矩阵X的阶为I*J,若T的阶与J相等,则主成分回归与 多元线性回归所得结果相同,并不能显示出主成分回归的优 越之处。选取的主成分数一般应该比J 小,而删去那些不重 要的主成分,因为这些主成分所包含的信息主要是噪声,由 此所得的回归方程稳定性较好。 另外,由X所定义的空间可以进一步来说明主成分回归 与多元线性回归的区别。多元线性回归应用了由X的列所定 义的全部空间,而主成分回归所占用的是一子空间。当X的J 列中,有一列可为其它J —1列的线性组合时,则X可用J -1列 的矩阵T来描述,而并不丢失信息。新的矩阵T定义了X的一 个子空间。
在式中,bj为回归系数。 在式(6.1)中仅有一个试样,若有n个试样,即 为yi (i=1,2,…,n),它的列向量形式为y ,b与原来相同, 矢量xj’为矩阵X的行,则: y = Xb + e
若用图形表示,则为: m 1 1 y = X B + e n n m n
1
在此情况下,n为试样数,m为自变量数。有如下三种情况:
含量。
§ 6.3.2 偏最小二乘算法
1.校正模型的建立 首先我们从一最简单的模型开始,然后给出偏最小二乘的完 整算法。 若仅有二矩阵块(block),即X块和Y块。 对于X: (1) 将某xj赋值给tstart,即 tstart= xj ;
(2) p t X / t t ( uX / uu);
b21 b22 ... b2 m
Y ( y1
y11 y y2 ) 12 ... y1n
e11 e e2 ) 12 ... e1n
y12 y22 ... y2 n
e21 e22 ... e2 n
综合上述,X可由它的得分矩阵T来描述(由于删去与小 的本征值相应的维,所以T的维小于X的维): T=XP 若用图形表示,则为: a T = n 由此可得多线性方程: Y=TB+E n m X m P a
其解为:
其图形表示为: n
B (T T ) 1 T Y
p Y = n a T a p B + n p E
0.18 0.42 0.71 0.42 0.19 0.20 B2 0.24 0.20 0.03 0.12 0.03 0.01
对于此模型,Err=0.07。它比前者为小,这就意味着对于矩 阵Y,第二个数学模型比第个要更有效,这是一种假象。由 于X中引入最后一列,使得B2 中上部3*3部分与前边所提B不
分别为X和Y的装载,E和F分别为运用偏最小二乘模型法去
拟合X和Y所引进的误差。
T = XP(主成分分析) TP’ = XPP’ PP’ = I X = TP’(因子分析)
在理想的情况下,X中误差的来源和Y中的误差的来源完全
相同,即影响X与Y的因素相同。但实际上,X中误差与Y中误差 并不相关,因而t≠u,但当两个矩阵同时用于确定因子时,则X 和Y的因子具有如下关系:
20.5 t 4.7 15.8
10. u 0 10
将t 对u作图(图6.2)可显示出二者的线性关系,其斜率b = 0.53。
图6.2 矩阵X的因子
t对矩阵Y的 因子u作图
对于未知试样的预测, 要应用X和Y的得分模型及相
偏最小二乘和主成分分析很相似,其差别在于用于描述
变量Y中因子的同时也用于描述变量X。为了实现这一点, 在数学上是以矩阵Y的列去计算矩阵X的因子,与此同时, 矩阵Y的因子则由矩阵X的列去预测。其数学模型为: 及 (6.4)
X TP E
Y UQ F
(6.5)
此处,T和U的矩阵元分别为X和Y的得分,而P和Q的矩阵元
主成分分析可以解决共线问题,同时由于去掉了不太 重要的主成分,因而可以削弱噪声(随机误差)所产生 的影响。但是,由于主成分回归为二步法,若在第一步 中消去的是有用的主成分,而保留的是噪声,则在第二
步多元线性回归所得结果就将偏离真实的数学模型。
§ 6.3 偏最小二乘(PLS)
§ 6.3.1 基本原理 为了叙述上的方便,我们首先引进“因子”的概念。一个 因子为原来变量的线性组合,所以矩阵的某一主成分即为一 因子,而某矩阵的诸主成分是彼此相互正交的,但因子不一 定,因为一因子可由某一成分经坐标旋转而得。 在主成分回归中,第一步,在矩阵X的本征矢量或因子数 测试中,所处理的仅为X矩阵,而对于矩阵Y 中信息并未考 虑。事实上,Y中亦可能包含非有用的信息。所以很自然的 一种想法是,在矩阵X因子的测试中应同时考虑矩阵Y的作 用。偏最小二乘正是基于这种思想的一种回归方法。
关性bi。 若有L个因子,则bl
为表达第l个因子相关性的系 数,其步骤为:由未知试样 的测定值x末通过校正模型 (式(6.4)计算出t末,进而
X TP E
u = bt + e
Y UQ F
(6.4) (6.6) (6.5)
由(式6.6)及bl可计算未知
试样的得分矢量u末,最后由 校正模型(式6.5)得未知试样
2 7 5 4 3 3 Y 9 12 3 6 8 2
运用式(6.3)则可得B矩阵:
0.48 0.71 0.55 B 0.42 0.41 0.24 0.08 0.28 0.05
所用数学模型有效性的量度可用Err:
ˆ E rr ( yik yik )
2 k 1 i 1 K I
2 ik k 1 i 1
K
I
式中,yik 为矩阵Y中第i行第k列的矩阵元,为由矩阵B所得 的计算值,ik为前面所介绍的矩阵E的矩阵元。此例中, Err = 0.49。 若由于噪音使得X增广一列(注意:对于试样浓度的测定, 它并不包含有用信息),即: 75 152 102 91 2 7 5 63 132 82 36 4 3 3 X2 Y 96 218 176 74 9 12 3 69 157 124 51 6 8 2 由此得到的B矩阵为:
b ( X X ) 1 X y
(6.2)
) 1 by x (bb
在上边的叙述中,因变量为1个,而事实上可以有多个因 变量。如有两个因变量y1和y2,我们可以简单地写成两个线性 方程: y1=Xb1+ e ; y2=Xb2+ e
若用矩阵标表示,则:
x11 x X 21 ... x n1 x12 x22 ... xn 2 x1n ... x2 n ... ... ... xnn ..
应(即因变量)呈现线性,无干扰,无溶液间的相互作用,低
噪声无共线性,则多元线性回归是一种非常好的方法。
事实上,完全满足上述条件比较困难。当噪声较强,或干 扰较严重时,有可能导致所得数学模型失真,如下例:
75 63 X 96 69 152 102 132 82 218 176 157 124
相等(B为真实模型)。由B2计算所得Y尽管误差要小,但其
数学模型所描述的自变量与因变量间的关系并不真实。其原 因主要为多元线性回归方法是采用整个X矩阵来建立数学模
型,而并不顾及在X中的信息与真实模型相关与否。很显然
,若所得结果偏离了其实际数学模型,则对于未知试样的预 测也是错误的。 为了克服多元线性回归的不足,在数学方法上引进了主 成分回归方法(PCR)。
图6.1 PLS处理的图形表示
如有矩阵(见§ 6.2):
75 63 X 96 69
152 102 132 82 218 176 157 124
2 7 5 4 3 3 Y 9 12 3 6 8 2
数据的预处理为:每列减去相应列的平均值(meancentered),PLS所得结果为:
(1) m>n,即变量数多于试样数,对于b来说,则有无穷多个解。 (2) m=n,变量数与试样数相等,若矩阵X满秩时,则矢量b有 唯一解。但是,在实际工作中,这种情况是极少能碰到的。 此时我们有: e = y –Xb =0
(3)m<n,变量数小于试样数,尽管我们得不到准确解b,但 是可以使残差矢量e尽可能小而得到解, e = y – Xb 这就是我们所熟知的最小二乘法。其解为:
B (b1
b11 b b2 ) 12 ... b1m
E (e1
由此得到
Y = XB + E
对于2-P 个因变量的图形表示为: 2-p n 2-p 2-p
Y = X
m 最小二乘的解为: n m
B
+ E
n (6.3)
B ( X X ) 1 X Y
多元线性回归应用很广泛,因为在许多情况下该种方法具有 良好的性能。但是,此种方法也有固有的缺点。假若体系的响
相关文档
最新文档