典型相关分析与多维标度法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
−1/2 −1/2
Previous Next First Last Back Forward
5
⋄ 称 (a1 , b1 ), . . . , (as , bs ) 为典则方向(canonical directions), 而 称
′ Ui = a′ i X, Vi = bi Y
为第 i 对典型相关变量(canonical variates), 其满足 corr(Ui , Vi ) = λi , i = 1, . . . , s corr(Ui , Uj ) = 0, corr(Vi , Vj ) = 0, corr(Ui , Vj ) = 0, i ̸= j ⋄ 从上面可以看出, 第二对典型相关变量应不包含第一对典型相 关变量的信息 (相关系数为零). 以此类推. 第 k 对典型相关变 量应和之前的 k − 1 对典型相关变量不相关.
a,b −1/2 −1/2 1/2 1/2
Previous Next First Last Back Forward
4
′ 此时最大的相关系数为 ρ1 = corr(a′ 1 X, b1 Y).
• 而给定前 k − 1 (k > 1) 个典则方向 (a1 , b1 ), . . . , (ak−1 , bk−1 ) 后, 第k 个典则方向 为 (ak , bk ) = argmax a′ ΣXY a′ ΣXX a=1 b′ ΣY Y b=1 corr (a′ X,a′ i X )=0,i=1,...,k−1 corr (b′ Y,b′ i Y )=0,i=1,...,k−1 b
Previous Next First Last Back Forward
6
定理 1. 设 X ∗ = A′ X + u, Y ∗ = B ′ Y + v, 其中 A : p × p, B : q × q 为可逆方阵, u : p × 1, v : q × 1 为实常数向量, 则
∗ ∗ (1) X ∗ 和 Y ∗ 的典型相关变量为 a∗′ 和 b∗′ iX i Y , 其中 a i =
s ∑ 1 (p + q + 3)] log (1 − ρ ˆ2 i) 2 i=t+1
χ2 (p−t)(q −t)
一般依次对 t = 0, 1, . . . , s − 1 进行假设检验直至零假设被接 受。相应地,检验也可以对 t = s − 1, s − 2, . . . , 0 直至零假设 被拒绝。 Previous Next First Last Back Forward 11
典型相关分析与多维标度法
张伟平 zwp@ustc.edu.cn Office: 东区管理科研楼 1006 Phone: 63600565 课件 http://staff.ustc.edu.cn/~zwp/ 论坛 http://fisher.stat.ustc.edu.cn
简介
1.1 典型相关分析 . . . . . . . . . . . . . . . . . . 1.1.1 1.1.2 1.2 1.2.1 1.2.2 1
• 选择 a, b, 使得相关性最大: (ˆ a, ˆ b) = arg max corr(a′ X, b′ Y)
a,b̸=0
Cov (a′ X, b′ Y) = arg max √ a,b̸=0 a′ Cov (X)ab′ Cov (Y)b 注意到 corr(ca′ X, cb′ Y) = corr(a′ X, b′ Y), ∀c ̸= 0, 因此上述 (ˆ a, ˆ b) 不唯一. 为此, 可施加适当的限制条件使解唯一. 自然的 限制条件为 a′ Cov (X)a = V ar(a′ X) = 1, b′ Cov (Y)b = V ar(b′ Y) = 1 • 记 ΣXX = Cov (X), ΣY Y = Cov (Y), ΣXY = Cov (X, Y), 则 问题转换为 最大化 a′ ΣXY b
• 所有典则方向可以通过广义特征根方程得到. 令 λ2 1 ≥ ··· ≥
′ ′ λ2 s > 0 为 KK 和 K K 的全部非零特征根, 其中 s ≤ min{p, q }.
对应的 KK ′ 的特征向量为 αi , K ′ K 的特征向量为 βi , 则可以 得到 ai = ΣXX αi , bi = ΣY Y βi , i = 1, . . . , s
Previous Next First Last Back Forward
7
样本典型相关 (classical CCA) • 当总体协方差 ΣXX , ΣY Y , ΣXY 未知时候, 设 {xi , yi , }, i = 1, . . . , n 为总体 Z = {Xp×1 , Yq×1 } 的一组样本, n ≥ p, n ≥ q . • 则由样本协方差矩阵得到 ΣXX , ΣY Y , ΣXY 的估计 ˆ XX = SXX = Σ ˆ Y Y = SY Y = Σ ˆ XY = SXY = Σ
ˆ XX , Σ ˆY Y , Σ ˆ XY 代替得到样本典型相关变量(U ˆi , V ˆi ) • 使用估计 Σ 和典则方向 (ˆ ai , ˆ bi ) Previous Next First Last Back Forward 8
• 这等价于使样本相关最大化: 记 x, y 为中心化的 n × p, n × q 样本矩阵, 则 (ˆ a1 , ˆ b1 ) = argmax a′ x′ yb
10
• 此时, 典则相关分析与线性判别分析等价. • 计算出的典则相关系数分别为 ρ ˆ1 = 0.95, ρ ˆ3 = 0.84 和 ρ ˆ3 = 0.00。因此自然地,是否可以检验假设 H0 : ρ3 = 0? • (一般情形) 设 t ≤ s = min{p, q } 为非零典则相关系数的个数, 欲检验假设 H0 : ρt+1 = ρt+2 = · · · = ρs = 0 则可以得到在零假设下 −[n −
CCA-LDA . . . . . . . . . . . . . . . . 14 PCA-CCA-PLS . . . . . . . . . . . . . 17 度量 MDS . . . . . . . . . . . . . . . . 24 非度量 MDS . . . . . . . . . . . . . . 31
分别对 a, b 求偏导并令为零, 得到 { ΣXY b − λ1 ΣXX a = 0 ΣY X a − λ2 ΣY Y b = 0 由此得到 λ1 = λ1 a′ ΣXX a = a′ ΣXY b = λ2
1 因此记 λ = λ1 = λ2 , 将 λb = Σ− Y Y ΣY X a 带入得到
广义特征根问题
{
1 2 ΣXY Σ− Y Y ΣY X a − λ ΣXX a = 0 1 2 ΣY X Σ− XX ΣXY b − λ ΣY Y b = 0
Previous Next First Last Back Forward
3
即 a, b 分别为矩阵
1 −1 M1 = Σ− XX ΣXY ΣY Y ΣY X 1 −1 M2 = Σ− Y Y ΣY X ΣXX ΣXY
多维标度法 . . . . . . . . . . . . . . . . . . . 20
Previous Next First Last Back Forward
1
1.1
ቤተ መጻሕፍቲ ባይዱ
典型相关分析
• 典型相关分析 (Canonical correlation analysis, CCA) 研究多 个变量与多个变量之间的相关性 • 工厂对原料的主要质量指标 X = (X1 , . . . , Xp )′ 和产品质量的 主要指标 Y = (Y1 , . . . , Yq )′ 之间的关系很感兴趣 • 婚姻研究中, 小伙子对他所追求姑娘的主要指标 X 和姑娘向往 的主要指标 Y 之间的关系 • 直接使用 Cov (X, Y)(或者相关系数矩阵) 在多元场合无法从整 体上合适解释两者之间相关性 • Hotelling (1935,1936) 最早提出使用它们的线性组合变量 (典 型变量)a′ X 和 b′ Y 之间的相关性来度量 X 和 Y 之间的相关 性. 什么样的 a, b 合适呢? Previous Next First Last Back Forward 1
Previous Next First Last Back Forward
9
示第一个地区:
1 y= 0 0 1 0 0 0 1 ··· 0
0 1 0
• 使用 x 和 y 的第一典则相关变量的得分进行可视化, 得到如下 图:
Previous Next First Last Back Forward
Previous Next First Last Back Forward
12
• 最优的 λ1 , λ2 使用交叉验证方法来估计: 记 λ = (λ1 , λ2 ), (aλ
(−i)
n 1 ∑ 1 ¯ )(xi − x ¯ )′ = (xi − x AXX n − 1 i=1 n−1 n 1 ∑ 1 ¯ )(yi − y ¯ )′ = (y − y AY Y n − 1 i=1 i n−1 n 1 ∑ 1 ¯ )(yi − y ¯ )′ = (xi − x AXY n − 1 i=1 n−1
Regularized CCA • CCA 假定了样本量 n > max{p, q }, 因此当 n ≤ {p, q } 时候就 不能使用 (样本协方差矩阵不可逆) • 另外, 当 X 或者 Y 的分量之间高度相关时候, 样本协方差矩阵 SXX 和/或 SY Y 也倾向于病态 • 因此, 经典的 CCA 的一个标准条件为 n ≥ p + q + 1(Eaton and Perlman 1973) • 一种解决方法就是使用 ΣXX (λ1 ) 和 ΣY Y (λ2 ) 来代替 SXX 和 SY Y : ΣXX (λ1 ) = SXX + λ1 Ip ΣY Y (λ2 ) = SY Y + λ2 Iq
s.t. a′ ΣXX a = 1, b′ ΣY Y b = 1 Previous Next First Last Back Forward 2
• 假设 ΣXX > 0, ΣY Y > 0, 则使用 Lagrange 乘子法 G(a, b) = a′ ΣXY b − 1 1 λ1 (a′ ΣXX a − 1) − λ2 (b′ ΣY Y b − 1) 2 2
A−1 ai , b∗ i = B −1 bi , ai , bi 为 X, Y 的第 i 对典型相关变量的系数.
∗ ∗′ ′ ′ (2) corr(a∗′ i X , b i Y ) = corr (ai X, bi Y ), 即线性变换不改变相
关性. 注: 若在定理中取 A = (diag ΣXX )1/2 , B = (diag ΣY Y )−1/2 , 则 前面关于协方差矩阵的结果都可以应用到相关系数矩阵下.
∥xa∥=1,∥yb∥=1
例: 橄榄油数据 • R 包 classifly 中的数据集 olives 记录了 n = 572 种橄榄油的 p = 9 特征变量值, 其中变量 1 取值 {1, 2, 3}, 表示意大利的三 个地区. 其他变量为 8 种脂肪酸含量测量值. • 我们感兴趣的是三个地区与脂肪酸测量之间的相关性. 因此取 x ∈ R572×8 , by ∈ R572×3 为三个地区的示性变量矩阵, 每行表
的特征根为 λ2 所对应的特征向量. • 若记 K = ΣXX ΣXY ΣY Y , α = ΣXX a, β = ΣY Y b, 则 KK ′ α = λ2 α K ′ Kβ = λ2 β 即 α, β 分别为矩阵 KK ′ 和 K ′ K 的特征根 λ2 所对应的特征 向量. • 因此第一典则方向为 (a1 , b1 ) = arg max a′ ΣXY b s.t. a′ ΣXX a = 1, b′ ΣY Y b = 1
Previous Next First Last Back Forward
5
⋄ 称 (a1 , b1 ), . . . , (as , bs ) 为典则方向(canonical directions), 而 称
′ Ui = a′ i X, Vi = bi Y
为第 i 对典型相关变量(canonical variates), 其满足 corr(Ui , Vi ) = λi , i = 1, . . . , s corr(Ui , Uj ) = 0, corr(Vi , Vj ) = 0, corr(Ui , Vj ) = 0, i ̸= j ⋄ 从上面可以看出, 第二对典型相关变量应不包含第一对典型相 关变量的信息 (相关系数为零). 以此类推. 第 k 对典型相关变 量应和之前的 k − 1 对典型相关变量不相关.
a,b −1/2 −1/2 1/2 1/2
Previous Next First Last Back Forward
4
′ 此时最大的相关系数为 ρ1 = corr(a′ 1 X, b1 Y).
• 而给定前 k − 1 (k > 1) 个典则方向 (a1 , b1 ), . . . , (ak−1 , bk−1 ) 后, 第k 个典则方向 为 (ak , bk ) = argmax a′ ΣXY a′ ΣXX a=1 b′ ΣY Y b=1 corr (a′ X,a′ i X )=0,i=1,...,k−1 corr (b′ Y,b′ i Y )=0,i=1,...,k−1 b
Previous Next First Last Back Forward
6
定理 1. 设 X ∗ = A′ X + u, Y ∗ = B ′ Y + v, 其中 A : p × p, B : q × q 为可逆方阵, u : p × 1, v : q × 1 为实常数向量, 则
∗ ∗ (1) X ∗ 和 Y ∗ 的典型相关变量为 a∗′ 和 b∗′ iX i Y , 其中 a i =
s ∑ 1 (p + q + 3)] log (1 − ρ ˆ2 i) 2 i=t+1
χ2 (p−t)(q −t)
一般依次对 t = 0, 1, . . . , s − 1 进行假设检验直至零假设被接 受。相应地,检验也可以对 t = s − 1, s − 2, . . . , 0 直至零假设 被拒绝。 Previous Next First Last Back Forward 11
典型相关分析与多维标度法
张伟平 zwp@ustc.edu.cn Office: 东区管理科研楼 1006 Phone: 63600565 课件 http://staff.ustc.edu.cn/~zwp/ 论坛 http://fisher.stat.ustc.edu.cn
简介
1.1 典型相关分析 . . . . . . . . . . . . . . . . . . 1.1.1 1.1.2 1.2 1.2.1 1.2.2 1
• 选择 a, b, 使得相关性最大: (ˆ a, ˆ b) = arg max corr(a′ X, b′ Y)
a,b̸=0
Cov (a′ X, b′ Y) = arg max √ a,b̸=0 a′ Cov (X)ab′ Cov (Y)b 注意到 corr(ca′ X, cb′ Y) = corr(a′ X, b′ Y), ∀c ̸= 0, 因此上述 (ˆ a, ˆ b) 不唯一. 为此, 可施加适当的限制条件使解唯一. 自然的 限制条件为 a′ Cov (X)a = V ar(a′ X) = 1, b′ Cov (Y)b = V ar(b′ Y) = 1 • 记 ΣXX = Cov (X), ΣY Y = Cov (Y), ΣXY = Cov (X, Y), 则 问题转换为 最大化 a′ ΣXY b
• 所有典则方向可以通过广义特征根方程得到. 令 λ2 1 ≥ ··· ≥
′ ′ λ2 s > 0 为 KK 和 K K 的全部非零特征根, 其中 s ≤ min{p, q }.
对应的 KK ′ 的特征向量为 αi , K ′ K 的特征向量为 βi , 则可以 得到 ai = ΣXX αi , bi = ΣY Y βi , i = 1, . . . , s
Previous Next First Last Back Forward
7
样本典型相关 (classical CCA) • 当总体协方差 ΣXX , ΣY Y , ΣXY 未知时候, 设 {xi , yi , }, i = 1, . . . , n 为总体 Z = {Xp×1 , Yq×1 } 的一组样本, n ≥ p, n ≥ q . • 则由样本协方差矩阵得到 ΣXX , ΣY Y , ΣXY 的估计 ˆ XX = SXX = Σ ˆ Y Y = SY Y = Σ ˆ XY = SXY = Σ
ˆ XX , Σ ˆY Y , Σ ˆ XY 代替得到样本典型相关变量(U ˆi , V ˆi ) • 使用估计 Σ 和典则方向 (ˆ ai , ˆ bi ) Previous Next First Last Back Forward 8
• 这等价于使样本相关最大化: 记 x, y 为中心化的 n × p, n × q 样本矩阵, 则 (ˆ a1 , ˆ b1 ) = argmax a′ x′ yb
10
• 此时, 典则相关分析与线性判别分析等价. • 计算出的典则相关系数分别为 ρ ˆ1 = 0.95, ρ ˆ3 = 0.84 和 ρ ˆ3 = 0.00。因此自然地,是否可以检验假设 H0 : ρ3 = 0? • (一般情形) 设 t ≤ s = min{p, q } 为非零典则相关系数的个数, 欲检验假设 H0 : ρt+1 = ρt+2 = · · · = ρs = 0 则可以得到在零假设下 −[n −
CCA-LDA . . . . . . . . . . . . . . . . 14 PCA-CCA-PLS . . . . . . . . . . . . . 17 度量 MDS . . . . . . . . . . . . . . . . 24 非度量 MDS . . . . . . . . . . . . . . 31
分别对 a, b 求偏导并令为零, 得到 { ΣXY b − λ1 ΣXX a = 0 ΣY X a − λ2 ΣY Y b = 0 由此得到 λ1 = λ1 a′ ΣXX a = a′ ΣXY b = λ2
1 因此记 λ = λ1 = λ2 , 将 λb = Σ− Y Y ΣY X a 带入得到
广义特征根问题
{
1 2 ΣXY Σ− Y Y ΣY X a − λ ΣXX a = 0 1 2 ΣY X Σ− XX ΣXY b − λ ΣY Y b = 0
Previous Next First Last Back Forward
3
即 a, b 分别为矩阵
1 −1 M1 = Σ− XX ΣXY ΣY Y ΣY X 1 −1 M2 = Σ− Y Y ΣY X ΣXX ΣXY
多维标度法 . . . . . . . . . . . . . . . . . . . 20
Previous Next First Last Back Forward
1
1.1
ቤተ መጻሕፍቲ ባይዱ
典型相关分析
• 典型相关分析 (Canonical correlation analysis, CCA) 研究多 个变量与多个变量之间的相关性 • 工厂对原料的主要质量指标 X = (X1 , . . . , Xp )′ 和产品质量的 主要指标 Y = (Y1 , . . . , Yq )′ 之间的关系很感兴趣 • 婚姻研究中, 小伙子对他所追求姑娘的主要指标 X 和姑娘向往 的主要指标 Y 之间的关系 • 直接使用 Cov (X, Y)(或者相关系数矩阵) 在多元场合无法从整 体上合适解释两者之间相关性 • Hotelling (1935,1936) 最早提出使用它们的线性组合变量 (典 型变量)a′ X 和 b′ Y 之间的相关性来度量 X 和 Y 之间的相关 性. 什么样的 a, b 合适呢? Previous Next First Last Back Forward 1
Previous Next First Last Back Forward
9
示第一个地区:
1 y= 0 0 1 0 0 0 1 ··· 0
0 1 0
• 使用 x 和 y 的第一典则相关变量的得分进行可视化, 得到如下 图:
Previous Next First Last Back Forward
Previous Next First Last Back Forward
12
• 最优的 λ1 , λ2 使用交叉验证方法来估计: 记 λ = (λ1 , λ2 ), (aλ
(−i)
n 1 ∑ 1 ¯ )(xi − x ¯ )′ = (xi − x AXX n − 1 i=1 n−1 n 1 ∑ 1 ¯ )(yi − y ¯ )′ = (y − y AY Y n − 1 i=1 i n−1 n 1 ∑ 1 ¯ )(yi − y ¯ )′ = (xi − x AXY n − 1 i=1 n−1
Regularized CCA • CCA 假定了样本量 n > max{p, q }, 因此当 n ≤ {p, q } 时候就 不能使用 (样本协方差矩阵不可逆) • 另外, 当 X 或者 Y 的分量之间高度相关时候, 样本协方差矩阵 SXX 和/或 SY Y 也倾向于病态 • 因此, 经典的 CCA 的一个标准条件为 n ≥ p + q + 1(Eaton and Perlman 1973) • 一种解决方法就是使用 ΣXX (λ1 ) 和 ΣY Y (λ2 ) 来代替 SXX 和 SY Y : ΣXX (λ1 ) = SXX + λ1 Ip ΣY Y (λ2 ) = SY Y + λ2 Iq
s.t. a′ ΣXX a = 1, b′ ΣY Y b = 1 Previous Next First Last Back Forward 2
• 假设 ΣXX > 0, ΣY Y > 0, 则使用 Lagrange 乘子法 G(a, b) = a′ ΣXY b − 1 1 λ1 (a′ ΣXX a − 1) − λ2 (b′ ΣY Y b − 1) 2 2
A−1 ai , b∗ i = B −1 bi , ai , bi 为 X, Y 的第 i 对典型相关变量的系数.
∗ ∗′ ′ ′ (2) corr(a∗′ i X , b i Y ) = corr (ai X, bi Y ), 即线性变换不改变相
关性. 注: 若在定理中取 A = (diag ΣXX )1/2 , B = (diag ΣY Y )−1/2 , 则 前面关于协方差矩阵的结果都可以应用到相关系数矩阵下.
∥xa∥=1,∥yb∥=1
例: 橄榄油数据 • R 包 classifly 中的数据集 olives 记录了 n = 572 种橄榄油的 p = 9 特征变量值, 其中变量 1 取值 {1, 2, 3}, 表示意大利的三 个地区. 其他变量为 8 种脂肪酸含量测量值. • 我们感兴趣的是三个地区与脂肪酸测量之间的相关性. 因此取 x ∈ R572×8 , by ∈ R572×3 为三个地区的示性变量矩阵, 每行表
的特征根为 λ2 所对应的特征向量. • 若记 K = ΣXX ΣXY ΣY Y , α = ΣXX a, β = ΣY Y b, 则 KK ′ α = λ2 α K ′ Kβ = λ2 β 即 α, β 分别为矩阵 KK ′ 和 K ′ K 的特征根 λ2 所对应的特征 向量. • 因此第一典则方向为 (a1 , b1 ) = arg max a′ ΣXY b s.t. a′ ΣXX a = 1, b′ ΣY Y b = 1