第九章-典型相关分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、典型相关分析原理及方法
设有两组随机向量, X (1) 代表第一组的 p 个变量, X (2) 代表
第二组的 q 个变量,假设 p≤q。令
Cov( X (1) ) Σ11 , Cov( X (2) ) Σ22 , Cov( X (1) , X (2) ) Σ12 Σ21
X (1) 1
关变量之后,可以类似的求出各对之间互不相关的第二对、第三对
等典型相关变量。这些典型相关变量就反映了 X (1) , X (2) 之间的
线性相关情况。这里值得注意的是,我们可以通过检验各对典型相 关变量相关系数的显著性,来反映每一对综合变量的代表性,如果 某一对的相关程度不显著,那么这对变量就不具有代表性,不具有 代表性的变量就可以忽略。这样就可以通过对少数典型相关变量的 研究,代替原来两组变量之间的相关关系的研究,从而容易抓住问 题的本质。
X (1) 2
X ( pq)1
X (1)
X
(
2)
X
(1) p
X1(
2)
X
(2) 2
X
(2) q
Σ
Cov( X
,
X
)
(
11
p p)
Σ
21
(q p)
Σ
(
12
pq )
Σ22 ( qq )
根据典型相关分析的基本思想,要进行两组随机向量间的相
关分析,首先要计算出各组变量的线性组合——典型变量,
并使其相关系数达到最大。因此,我们设两组变量的线性组
合分别为:
U
aX (1)
a1
X (1) 1
a2
X
(1) 2
ap
X
(1) p
V
bX (2)
b1
X (2) 1
b2
X
(2) 2
bq
X
(2) q
易见
D(U ) D(aX (1) ) aCov( X (1) , X (1) )a aΣ11a
D(V ) D(bX (2) ) bCov( X (2) , X (2) )b bΣ22b
1936年霍特林(Hotelling)最早就“大学表现”和“入学前 成绩”的关系、政府政策变量与经济目标变量的关系等问题 进行了研究,提出了典型相关分析技术。之后,Cooley和 Hohnes(1971),Tatsuoka(1971)及Mardia,Kent和 Bibby(1979)等人对典型相关分析的应用进行了讨论, Kshirsagar(1972)则从理论上给出了最好的分析。
一般情况,设
X (1)
(
X (1) 1
,
X
(1) 2
,
,
Xபைடு நூலகம்
(1) p
)
、
X (2)
(
X (2) 1
,
X
(2) 2
,
,
X
(2) q
)
是两个相互关联的随机向量,分别在两组变量中选取若干有
代表性的综合变量Ui、Vi,使得每一个综合变量是原变量的
线性组合,即
Ui
a(i) 1
X (1) 1
a(i) 2
X
(1) 2
典型相关分析的目的是识别并量化两组变量之间的联系,将 两组变量相关关系的分析,转化为一组变量的线性组合与另 一组变量线性组合之间的相关关系分析。
目前,典型相关分析已被应用于心理学、市场营销等领域。 如用于研究个人性格与职业兴趣的关系,市场促销活动与消 费者响应之间的关系等问题的分析研究。
第二节 典型相关的基本理论
一 典型相关分析的基本思想 二 典型相关分析原理及方法
一、典型相关分析的基本思想
典型相关分析由Hotelling提出,其基本思想和主成分分析非 常相似。首先在每组变量中找出变量的线性组合,使得两组 的线性组合之间具有最大的相关系数。然后选取和最初挑选 的这对线性组合不相关的线性组合,使其配对,并选取相关 系数最大的一对,如此继续下去,直到两组变量之间的相关 性被提取完毕为此。被选出的线性组合配对称为典型变量, 它们的相关系数称为典型相关系数。典型相关系数度量了这 两组变量之间联系的强度。
a(i) P
X
(1) P
a( i ) X(1)
Vi
b1(i
)
X (2) 1
b(i) 2
X
(2) 2
b(i) q
X
(2) q
b(i)X(2)
为了确保典型变量的唯一性,我们只考虑方差为 1 的 X (1) 、X (2) 的 线性函数 a(i) X (1) 与 b(i) X (2) ,求使得它们相关系数达到最大的这
Cov(U ,V ) aCov( X (1) , X (2) )b aΣ12b
Corr(U ,V ) Cov(U ,V )
aΣ12b
D(U ) D(V ) aΣ11a bΣ22b
我们希望寻找使相关系数达到最大的向量 a 与 b ,由于随机向
量乘以常数时并不改变它们的相关系数,所以,为防止结果的
一组。若存在常向量 a(1) ,b(1) ,在 D(a(1)X (1) ) D(b(1)X (2) ) 1
的条件下,使得 (a(1) X (1) , b(1) X (2) ) 达到最大,则称 a(1) X (1) 、
b(1) X (2) 是 X (1) 、 X (2) 的第一对典型相关变量。求出第一对典型相
我们知道,在一元统计分析中,用相关系数来衡量两个随机 变量之间的线性相关关系;用复相关系数研究一个随机变量 和多个随机变量的线性相关关系。然而,这些统计方法在研 究两组变量之间的相关关系时却无能为力。比如要研究生理 指标与训练指标的关系,居民生活环境与健康状况的关系, 人口统计变量(户主年龄、家庭年收入、户主受教育程度) 与消费变量(每年去餐馆就餐的频率、每年出外看电影的频 率)之间是否具有相关关系?阅读能力变量(阅读速度、阅 读才能)与数学运算能力变量(数学运算速度、数学运算才 能)是否相关?这些多变量间的相关性如何分析?
重复出现,令
D(U ) aΣ11a 1
D(V ) bΣ22b 1
那么, Corr(U,V )
aΣ12b aΣ11a bΣ22b
aΣ12b
(9.2)
问题就成为在(9.1)式的约束条件下,求使 Corr(U ,V ) aΣ12b ,
达到最大的系数向量 a 与 b 。
第九章 典型相关分析
第一节 引言 第二节 典型相关的基本理论 第三节 样本典型相关分析 第四节 典型相关分析应用中的几
个问题 第五节 实例分析与计算实现
第一节 引言
典型相关分析(Canonical Correlation)是研究两组变量之 间相关关系的一种多元统计方法。它能够揭示出两组变量之 间的内在联系。