第九章-典型相关分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二、典型相关分析原理及方法
设有两组随机向量， X (1) 代表第一组的 p 个变量， X (2) 代表
第二组的 q 个变量，假设 p≤q。令
Cov( X (1) ) Σ11 , Cov( X (2) ) Σ22 , Cov( X (1) , X (2) ) Σ12 Σ21
X (1) 1
关变量之后，可以类似的求出各对之间互不相关的第二对、第三对
等典型相关变量。这些典型相关变量就反映了 X (1) ， X (2) 之间的
线性相关情况。这里值得注意的是，我们可以通过检验各对典型相关变量相关系数的显著性，来反映每一对综合变量的代表性，如果某一对的相关程度不显著，那么这对变量就不具有代表性，不具有代表性的变量就可以忽略。这样就可以通过对少数典型相关变量的研究，代替原来两组变量之间的相关关系的研究，从而容易抓住问题的本质。
X (1) 2
X ( pq)1
X (1)
X
(
2)
X
(1) p
X1(
2)
X
(2) 2
X
(2) q
Σ
Cov( X
,
X
)
(
11
p p)
Σ
21
(q p)
Σ
(
12
pq )
Σ22 ( qq )
根据典型相关分析的基本思想，要进行两组随机向量间的相
关分析，首先要计算出各组变量的线性组合——典型变量，
并使其相关系数达到最大。因此，我们设两组变量的线性组
合分别为：
U
aX (1)
a1
X (1) 1
a2
X
(1) 2
ap
X
(1) p
V
bX (2)
b1
X (2) 1
b2
X
(2) 2
bq
X
(2) q
易见
D(U ) D(aX (1) ) aCov( X (1) , X (1) )a aΣ11a
D(V ) D(bX (2) ) bCov( X (2) , X (2) )b bΣ22b
1936年霍特林（Hotelling）最早就“大学表现”和“入学前成绩”的关系、政府政策变量与经济目标变量的关系等问题进行了研究,提出了典型相关分析技术。之后，Cooley和 Hohnes(1971)，Tatsuoka(1971)及Mardia，Kent和 Bibby(1979)等人对典型相关分析的应用进行了讨论， Kshirsagar(1972)则从理论上给出了最好的分析。
一般情况，设
X (1)
(
X (1) 1
,
X
(1) 2
,
,
Xபைடு நூலகம்
(1) p
)
、
X (2)
(
X (2) 1
,
X
(2) 2
,
,
X
(2) q
)
是两个相互关联的随机向量，分别在两组变量中选取若干有
代表性的综合变量Ui、Vi，使得每一个综合变量是原变量的
线性组合，即
Ui
a(i) 1
X (1) 1
a(i) 2
X
(1) 2
典型相关分析的目的是识别并量化两组变量之间的联系，将两组变量相关关系的分析，转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析。
目前，典型相关分析已被应用于心理学、市场营销等领域。如用于研究个人性格与职业兴趣的关系，市场促销活动与消费者响应之间的关系等问题的分析研究。
第二节典型相关的基本理论
一典型相关分析的基本思想二典型相关分析原理及方法
一、典型相关分析的基本思想
典型相关分析由Hotelling提出,其基本思想和主成分分析非常相似。首先在每组变量中找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数。然后选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对，如此继续下去，直到两组变量之间的相关性被提取完毕为此。被选出的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。
a(i) P
X
(1) P
a( i ) X(1)
Vi
b1(i
)
X (2) 1
b(i) 2
X
(2) 2
b(i) q
X
(2) q
b(i)X(2)
为了确保典型变量的唯一性，我们只考虑方差为 1 的 X (1) 、X (2) 的线性函数 a(i) X (1) 与 b(i) X (2) ，求使得它们相关系数达到最大的这
Cov(U ,V ) aCov( X (1) , X (2) )b aΣ12b
Corr(U ,V ) Cov(U ,V )
aΣ12b
D(U ) D(V ) aΣ11a bΣ22b
我们希望寻找使相关系数达到最大的向量 a 与 b ，由于随机向
量乘以常数时并不改变它们的相关系数，所以，为防止结果的
一组。若存在常向量 a(1) ，b(1) ，在 D(a(1)X (1) ) D(b(1)X (2) ) 1
的条件下，使得 (a(1) X (1) , b(1) X (2) ) 达到最大，则称 a(1) X (1) 、
b(1) X (2) 是 X (1) 、 X (2) 的第一对典型相关变量。求出第一对典型相
我们知道,在一元统计分析中，用相关系数来衡量两个随机变量之间的线性相关关系；用复相关系数研究一个随机变量和多个随机变量的线性相关关系。然而，这些统计方法在研究两组变量之间的相关关系时却无能为力。比如要研究生理指标与训练指标的关系，居民生活环境与健康状况的关系，人口统计变量（户主年龄、家庭年收入、户主受教育程度）与消费变量（每年去餐馆就餐的频率、每年出外看电影的频率）之间是否具有相关关系？阅读能力变量（阅读速度、阅读才能）与数学运算能力变量（数学运算速度、数学运算才能）是否相关？这些多变量间的相关性如何分析？
重复出现，令
D(U ) aΣ11a 1
D(V ) bΣ22b 1
那么， Corr(U,V )
aΣ12b aΣ11a bΣ22b
aΣ12b
（9.2）
问题就成为在（9.1）式的约束条件下，求使 Corr(U ,V ) aΣ12b ，
达到最大的系数向量 a 与 b 。
第九章典型相关分析
第一节引言第二节典型相关的基本理论第三节样本典型相关分析第四节典型相关分析应用中的几
个问题第五节实例分析与计算实现
第一节引言
典型相关分析（Canonical Correlation）是研究两组变量之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。