偏最小二乘方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(2) m=n,变量数与试样数相等,若矩阵X满秩时,则矢量b有 唯一解。但是,在实际工作中,这种情况是极少能碰到的。 此时我们有:
e = y –Xb =0
精选PPT
3
(3)m<n,变量数小于试样数,尽管我们得不到准确解b,但 是可以使残差矢量e尽可能小而得到解,
e = y – Xb 这就是我们所熟知的最小二乘法。其解为:
为yi (i=1,2,…,n),它的列向量形式为y ,b与原来相同, 矢量xj’为矩阵X的行,则: y = Xb + e
精选PPT
2
若用图形表示,则为:
1
m1
1
y= X B+ e
n
nm n
在此情况下,n为试样数,m为自变量数。有如下三种情况:
(1) m>n,即变量数多于试样数,对于b来说,则有无穷多个解。
75 152 102 91
X2
63 96
132 218
82 176
36 74
69 157 124 51
2 7 5
Y
4
3
3
9 12 3
6
8
2
由此得到的B矩阵为:
0.71 0.18 0.42
B2
0.42 0.24
0.19 0.20
0.20 0.03
0.12 0.03
0.01
精选PPT
0.08 0.28 0.05
所用数学模型有效性的量度可用Err:
KI
KI
Err
(yikyˆik)2
2 ik
k1 i1
k 1 i1
精选PPT
7
式中,yik 为矩阵Y中第i行第k列的矩阵元,为由矩阵B所得
的计算值,ik为前面所介绍的矩阵E的矩阵元。此例中,
Err = 0.49。
若由于噪音使得X增广一列(注意:对于试样浓度的测定, 它并不包含有用信息),即:
b(XX)1Xy
(6.2)
x(bb)1by
在上边的叙述中,因变量为1个,而事实上可以有多个因 变量。如有两个因变量y1和y2,我们可以简单地写成两个线性 方程:
y1=Xb1+ e ; y2=Xb2+ e
精选PPT
4
若用矩阵标表示,则:
x11 x12 .. x1n
y11 y12
X
x
21
...
精选PPT
1
§ 6.1 多元线性回归(MLR)
若自变量为m个,xj (j=1,2,…,m),因变量为y,在y与xj间, 我们可以建立一线性模型,即
y b 1 x 1 b 2 x 2 . .b .m x m e (6.1a)
m
y bj xj e j1
(6.1b)
yxbe
(6.1c)
在式中,bj为回归系数。 在式(6.1)中仅有一个试样,若有n个试样,即
第六章 偏最小二乘方法
偏最小二乘方法(PLS-Partial Least Squares))是近年来发展 起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。该种方法,在化合 物结构-活性/性质相关性研究中是一种非常有用的手段。如美国 Tripos公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处 理部分主要是PLS。在PLS方法中用的是替潜变量,其数学基础 是主成分分析。替潜变量的个数一般少于原自变量的个数,所 以PLS特别适用于自变量的个数多于试样个数的情况。在此种 情况下,亦可运用主成分回归方法,但不能够运用一般的多元 回归分析,因为一般多元回归分析要求试样的个数必须多于自 变量的个数。
x22
...
x
2
n
... ... ...
Y ( y1
y2
)
y12 ...
y22
...
x
n1
xn2
...
x
nn
y1n
y2n
B (b1
b11
b2
)
b12 ...
b1m
由此得到
b21
b22
...
b2
m
e11 e21
E (e1
e2
)
e12
...
e
22
...
e1n
精选PPT
10
设矩阵X的阶为I*J,若T的阶与J相等,则主成分回归与 多元线性回归所得结果相同,并不能显示出主成分回归的优 越之处。选取的主成分数一般应该比J 小,而删去那些不重 要的主成分,因为这些主成分所包含的信息主要是噪声,由 此所得的回归方程稳定性较好。
精选PPT
6
事实上,完全满足上述条件比较困难。当噪声较强,或干 扰较严重时,有可能导致所得数学模型失真,如下例:
75 152 102
X
63
132
82
96 218 176
69
157
124
2 7 5
Y
4
3
3
9 12 3
6
8
2
运用式(6.3)则可得B矩阵:
0.71 0.55 0.48 B 0.42 0.41 0.24
为了克服多元线性回归的不足,在数学方法上引进了主 成分回归方法(PCR)。
精选PPT
9
§ 6.2 主成分回归
主成分回归可分为两步: 测定主成分数,并由主成分分 析将X矩阵降维; 对于降维的X矩阵再进行线性回归分析。
主成分分析的概念在前一章已经作了介绍。所谓主成分, 它为一新的变量,而该新变量是原变量xij的线性组合。第一 个主成分所能解释原变量的方差量最大,第二个次之,第三 个再次之,等等。也就是说,主成分是一种线性组合,用它 来表征原来变量时所产生的平方误差最小。运用主成分分析, 原变量矩阵X可以表达为得分(即主成分)矩阵T,而T由X在 本征矢量P上的投影所得。主成分与矩阵X的本征矢量一一对 应,即T = XP。
e
2ห้องสมุดไป่ตู้
n
Y = XB + E
精选PPT
5
对于2-P 个因变量的图形表示为: 2-p n 2-p 2-p
Y=X B+E
m 最小二乘的解为:
n
mn
B(XX)1XY
(6.3)
多元线性回归应用很广泛,因为在许多情况下该种方法具有 良好的性能。但是,此种方法也有固有的缺点。假若体系的响 应(即因变量)呈现线性,无干扰,无溶液间的相互作用,低 噪声无共线性,则多元线性回归是一种非常好的方法。
8
对于此模型,Err=0.07。它比前者为小,这就意味着对于矩 阵Y,第二个数学模型比第个要更有效,这是一种假象。由 于X中引入最后一列,使得B2中上部3*3部分与前边所提B不 相等(B为真实模型)。由B2计算所得Y尽管误差要小,但其 数学模型所描述的自变量与因变量间的关系并不真实。其原 因主要为多元线性回归方法是采用整个X矩阵来建立数学模 型,而并不顾及在X中的信息与真实模型相关与否。很显然 ,若所得结果偏离了其实际数学模型,则对于未知试样的预 测也是错误的。
相关文档
最新文档