偏最小二乘回归方法

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 在一般多元线性回归模型中,一组因变量 Y y1 , ....., yq 和一组自变量 X = x1, ....., x p , 1 根据最小二乘法,有 Y X X T X X T Y ,但是 X T X 必须是可逆矩阵,因此:X中的变 量存在严重多重相关性或样本点数与变量个数相比显然过少时,最小二乘估计失 效,于是,偏最小二乘回归分析提出了采用成分提取法。
t1 u1
T T cov t , u t , u E w F c w 1 1 1 1 也就是说: 0 1 0 1 1 E0 F 0c1 max
即求解下列优化问题:
max E0 w1 , F0 c1 T w 1 w 1 1 T c 1 c1 1
(3-1)
的线性组合) 要求:1. t1和 u1 尽可能大地携带他们各自数据表中的变异信息; 2. t1和 u1 的相关程度能达到最大
2.偏最小二乘分别实施X对 t1 的回归以及Y对 u1 的回归
若最终X共提取了m个成分 t1, ....., tm ,偏最小二乘回归将通过实施YK 对 t1, ....., tm 的回归,然后再表达成YK 关于原变量 x1, ....., xp 的回归方 程,(K=1,…..,q)
T T T 采用拉格朗日算法求最优解,记:S =w1T E0 F0 c1 1 w1 w1 1 2 c1 c1 1
w1、c1、1、2 的偏导并令之为0,有: 分别求关于:
s T E0 F0 c1 21 w1 0 w1 s F0T E0 w1 22 c1 0 c1 s T w1 w1 1 0 1 s T c1 c1 1 0 2
t1 E0 w1 求得轴w 和 c1后,即可得到成分: 1 u1 F0 c1
然后,分别求 E 0 和 F0 对 t1 和 u1 的回归方程:
T T * E0 =t1P E , F u Q F 1 1 0 1 1 1 ,F 0 =t1r 1F 1
T 0 1
其中:P 1
E t
(3-6)
(3-7) (3-8)
T 2 将(3-7)带入(3-6)有: E0 F0 F0T E0 w 1 1 w 1
T T 2 由(3-8)式可知 w 是矩阵 的特征向量,对应的特征值为 。 E F F E 1 0 0 0 0 1 T T 要求 1的最大值,所以 w 是对应于矩阵 E F F 0 0 0 E0 最大特征值的单位特 1 征向量。
主成分分析:提取数据表X的第一主成分 F ,使得: Var( F1 ) max 1 典型相关分析:分别在X和Y中提取了典型成分 F ,满足: 1和 G 1
r F1, G1 max
T F 1 F 1 1
G1T G1 1
如果 F 1和 G 1 存在明显的相关关系,则可以认为,在两个数据表之间存在明显的相关关系。
个成分, 是F 的第一个轴,且 u1 F0c1 ,c1 0 根据主成分分析原理有: Var t2 max Var u1 max
另一方面,要求 t1 对 u1有最大的解释能力,即:r
c1 1 。
t1,
u1 max
r 其中:
cov t1 , u1 D t1 D u1
• 偏最小二乘法是一种新型的多元统计数据分析方 法,在一个算法下,可以同时实现回归建模(多元 线性回归)、数据结构简化(主成分分析)以及两组 变量之间的相关性分析(典型相关分析)。它采用对 变量X和Y都进行分解的方法,从变量X和Y中同时 提取成分(通常称为因子),再将因子按照它们之间 的相关性从大到小排列。
T T 可以得出: 21 =22 =w E 1 0 F 0c 1 E0 w 1,
(3-2) (3-3) (3-4) (3-5)
F0c1
T 1 =21 =22 =w1 E0 F0c1是目标函数值。 记:
T E 将(3-2)和(3-3)写成: 0 F0 c1 1w1 F0T E0 w1 1c1
百度文库t1
2
,Q1
F0T u1 u1
2
向量 r1
F0T t1 t1
2
E1 , F ;
* 1
, F1为回归
方程的残差矩阵。
1.自变量和因变量的数据表:x1, ....., xp 与 在X与Y中提取出 t1 和 u1。
y1, ....., yp ,分别
u Y = y , ....., y ( t1 是X= 的线性组合; 是 x , ..... , x 1 1 q 1 p n*q n* p
将X标准化后的数据矩阵记做 E0 = E01, ....., E0 p n* p ,Y经过标准化后的数据矩阵 记为 F0 F01 , ....., F0 q 。
n*q
w1 是 E0 的第一个轴,且 w1 1 ;记 u1是 F0的第一 1. 记 t1 是 E0 的第一个成分,t1 E0 w1 ,
相关文档
最新文档