第七章典型相关分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ak ,bk T s.t. aT k Σ11 ak = 1, bk Σ22 bk = 1, T aT k Σ11 al = 0, bk Σ22 bl = 0, 1 ≤ l < k.
Vk = bT k Y,
(7.12)
(7.13)
如此确定的(Uk , Vk )称为X和Y的第k 对典型变量,而相应的相关系数ρUk ,Vk 称为第k 典型 相关系数。 7.2.2 总体典型变量与典型相关系数的求法
利用推导主成分的类似方法,可以给出各典型变量对的具体表达式和相应的典型 相关系数。令
1/2 ˜k = Σ11 a a,
a1 ,b1 T s.t. aT 1 Σ11 a1 = 1, b1 Σ22 b1 = 1.
(7.8)
如此确定的(U1 , V1 )称为X和Y的第一对典型变量,而相应的相关系数ρU1 ,V1 称为第一典 型相关系数。 如果(U1 , V1 )还不足以反映X和Y之间的相关性,可进一步构造第二对线性组合 U2 = aT 2 X, 54 V2 = bT 2 Y. (7.9)
a2 ,b2 T s.t. aT 2 Σ11 a2 = 1, b2 Σ22 b2 = 1, T aT 2 Σ11 a1 = 0, b2 Σ22 b1 = 0.
(7.11)
如此确定的(U2 , V2 )称为X和Y的第二对典型变量,而相应的相关系数ρU2 ,V2 称为第二典 型相关系数。 一般地,若前k − 1对典型变量还不足以反映X与Y的相关信息,则构造第k 对线性 组合: Uk = aT k X, 求解如下优化问题: max aT k Σ12 bk ,
第七章
典型相关分析
(本章内容选自[2]并更正了其中的重大错误)
7.1
引言 典型相关分析着眼于识别和量化两组随机变量之间的相关性,它是两个随机变量
之间的相关性在两组变量之下的推广。 我们知道,两个随机变量X 和Y 的相关性可用它们之间的相关系数 Cov(X, Y ) ρX,Y = √ Var(X )Var(Y ) (7.1)
第七章 除要求U2 和V2 具有单位方差,即
典型相关分析
T aT 2 Σ11 a2 = b2 Σ22 b2 = 1
(7.10)
外,还要求(U2 , V2 )反映的相关性与(U1 , V1 )的不重叠,即(U2 , V2 )与(U1 , V1 )不相关: Cov(U2 , U1 ) = Cov(V2 , V1 ) = 0. 因此得到优化问题 max aT 2 Σ12 b2 ,
智能科学系教材—— 数据分析基础 7.2 7.2.1 总体的典型变量与典型相关 总体的典型变量的定义
设有两组随机变量 X = (X1 , · · · , Xp )T , Y = (Y1 , · · · , Yq )T
(XT , YT )T = (X1 , · · · , Xp , Y1 , · · · , Yq )T 的协方差矩阵为 ) ( Σ11 Σ12 , Σ= Σ21 Σ22 其中 Σ11 = Cov(X), Σ22 = Cov(Y), Σ12 = ΣT 21 = Cov(X, Y ), 并假定Σ11 和Σ22 为满秩矩阵,且不失一般性可设p ≤ q . 根据典型相关分析的思想,分别考虑X和Y的线性组合 U1 = aT 1 X, 由于
(7.5)
(7.6)
U1 和V1 的相关系数为 ρU1 ,V1 = √
Baidu Nhomakorabea
aT 1 Σ12 b1 √ . T T a1 Σ11 a1 b1 Σ22 b1
(7.7)
典型相关分析即确定a1 和bb1 ,使得ρU1 ,V1 达到最大。由于a1 和b1 乘以常数时目标函数值 不变,因此得到优化问题: max aT 1 Σ12 b1 ,
T Var(U1 ) = Var(aT 1 X) = a1 Σ11 a1 , T Var(V1 ) = Var(bT 1 Y ) = b1 Σ22 b1 , T T Cov(U1 , V1 ) = Cov(aT 1 X, b1 Y ) = a1 Σ12 b1 ,
(7.3)
(7.4)
V1 = bT 1 Y.
来度量。 但在许多实际问题中,需要研究两组随机变量之间的相关性。 例如,工厂 质量管理人员需要了解原料的主要指标X1 , · · · , Xp 和产品的主要质量指标Y1 , · · · , Yq 之 间的相关性,以采取措施提高产品质量;在生物学中,常常需要了解某生物种群状 况(用一组变量X1 , · · · , Xp 描述)与其生活环境状况(用另一组变量Y1 , · · · , Yq 描述) 之间的相关性,这对于保持生态平衡具有指导意义;在流行病学研究中,需要了解 某种传染病情况(用一组变量X1 , · · · , Xp 刻画)和自然环境及社会环境(用另一组变 量Y1 , · · · , Yq 刻画)之间的相关性,一边制定有效的控防策略,等等。 总之,了解两组 变量的相关性有其广泛的应用背景。 虽然利用(7.1)式可以了解每对变量Xi 和Yj 之间 的相关性,但不能全面反映两组变量间的整体相关性,尤其当两组变量的维数均较大 时,只孤立地了解各对变量之间的相关性,也不利于实际问题的全面分析和解决。 受主成分分析思想的启发,我们可以分别构造各组变量的适当线性组合,将两组 变量的相关性转化为两个变量的相关性来考虑。具体地说,设X1 , · · · , Xp 和Y1 , · · · , Yq 是 感兴趣的两组变量,令 U = aT X, V = bT Y , (7.2)
其中X = (X1 , · · · , Xp )T , Y = (Y1 , · · · , Yq )T 。我们要确定向量a和b使得U, V 之间的相关 性最大。此时我们称(U, V )为一对典型变量。若只有一对典型变量还不足以提取所给两 组变量的相关性,则考虑构造第二对、第三对等等,并是个对典型变量所提取的相关 性不相重叠(即不同对典型变量之间互不相关) 。这样,我们就将两组变量间的相关性 凝结为少数几对典型变量之间的相关性,通过相关性较大的少数几对典型变量的研究 来了解原来的两组变量相关性,从而容易抓住问题的本质。 53
相关文档
最新文档