第10章 典型相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Y
Y
,
则称
R YXX1XXY
Y Y
为Y与X1,…,Xp的全相关系数,全相关系数用于度量一个随机变量 Y与一组随机向量X1,…,Xp的相关关系.
当 p , q >1时, 利用主成分分析的思想,可以把多个变量与多个 变量之间的相关化为两个新的综合变量之间的相关.也就是
求 (1,,p)' 和 (1, ,q)',使得新的综合变量
Y1
X1
V2 a12X1a22X2 W2 b12Y1b22Y2b32Y3
Y2
X2
(V2,W 2)?
Y3
典型相关分析的思想:
首先分别在每组变量中找出第一对线性组 合,使其具有最大相关性,
V1a11 X1a21 X2 ap1Xp W 1b1Y 11b2Y 12 bq1Yq
然后再在每组变量中找出第二对线性组 合,使其分别与本组内的第一线性组合不相 关,第二对本身具有次大的相关性。
关性以数量的描述?
当 p=q=1 时,就是研究两个变量 X 与 Y 之间的相关关系.相 关系数就是最常见的度量,其定义为
XY
Co(Xv,Y) Va(Xr) Va(Yr)
当 p≥1 , q=1(或 q≥1, p=1) 时, p维随机向量 X(X1, ,Xp)',
设 YX~Np1(,2), YXXX
XY
(a 1 'X ,b 1 'Y ) V( a 'X m ) r 1 ,V( a 'Y a ) r 1( x 'X , 'Y )
则称 a1' X,b1'Y是X,Y的第一组(对)典型相关变量,它们之间的相
关系数称为第一个典型相关系数.
如果存在 ak(a1k, ,apk)' 和 bk(b1k, ,bq)k' ,使得
这说明使得相关系数最大的 'X和'Y并不唯一.故求综合变量
常限定 Va(r 'X)1, Va(r'Y)1.于是有以下定义.
定义10.1.1 设 X(X1, ,Xp)' ,Y(Y1, ,Yq)' , p+q 维随机
向量
X Y
的均值向量为0,协方差阵 >0(不妨设p≤q).如果
存在 a1(a11 , ,ap1)' 和b1(b1,1 ,bq1)' ,使得
第十章 典型相关分析
Canonical Correlation Analysis
何时采用典型相关分析
1. 两个随机变量Y与X
简单相关系数
2. 一个随机变量Y与一组随机变量X1,X2,…, Xp 多重相关(复相关系数)
3. 一组随机变量Y1,Y2,…,Yq与另一组随机变量
X1,X2,…,Xp
典型相关系数
(X1,X2, ,Xp) (Y1,Y2,,Yq)
的相关关系,可以用最原始的方法,分别计 算两组变量之间的全部相关系数,一共有pq 个简单相关系数,这样又烦琐又不能抓住问 题的本质。如果能够采用类似于主成分的思 想,分别找出两组变量的各自的某个线性组 合,讨论线性组合之间的相关关系,则更简 捷。
例 家庭特征与家庭消费之间的关系
V 1 X 1 2 X 2 p X p'X
和 W 1 Y 12 Y 2 q Y q'Y
之间有最大可能的相关,基于这个思想就产生了典型相关分析.Fra Baidu bibliotek
§10.1 总体典型相关
设 X(X1, ,Xp)'及 Y(Y1,,Yq)'为随机向量,我们用
X 和 Y 的线性组合 ' X 和 'Y 之间的相关性来研究两组随机变量
X 和 Y 之间的相关性.我们希望找到 和 ,使 ('X,'Y)最大.
由相关系数的定义
('X,'Y) C(o 'X v,'Y) V(a 'X r) V(a'Y r)
易得出对任意的常数 e , f , c 和 d ,均有
[ e ('X ) f,c ('Y ) d ] ('X ,'Y )
X2
0.80 1.00 0.33 0.59 0.34
Y1
0.26 0.33 1.00 0.37 0.21
Y2
0.67 0.59 0.37 1.00 0.35
Y3
0.34 0.34 0.21 0.35 1.00
W V11ab111Y X 111ba22Y 11X 2 2 b3Y 13
(V1,W 1)?
典型相关是简单相关、多重相关的推广; 或者说简单相关系数、复相关系数是典型相关 系数的特例。
典型相关是研究两组变
量之间相关性的一种统计分析 方法.也是一种降维技术.
由Hotelling (1935, 1936)最早提 出,Cooley and Lohnes (1971)、 Kshirsagar (1972)和 Mardia, Kent, and Bibby (1979) 推动了它的应用。
(1)ak' X,bk'Y和前k面 1对典型相关变量 关;都不 (2 )V(a a k 'X ) r1 ,V(b a k 'Y ) r 1 ; (3)ak' X和bk'Y的相关系数最 , 大
为了了解家庭的特征与其消费模式之间的关系。 调查了70个家庭的下面两组变量:
XX12: :每 每年 年去 外餐 出馆 看就 电餐 影的 频率频 率 Y1:户主的年龄 Y2:家庭的年收入 Y3:户主受教育程度
分析两组变量之间的关系。
变量间的相关系数矩阵
X1
X2
Y1
Y2
Y3
X1
1.00 0.80 0.26 0.67 0.34
➢ 典型相关关系研究两组变量之间整体的线 性相关关系,它是将每一组变量作为一个 整体来进行研究而不是分析每一组变量内 部的各个变量.所研究的两组变量可以是 一组为自变量,而另一组变量为因变量; 两组变量也可以是同等的地位,但典型相 关关系要求两组变量都至少是间隔尺度.
通常情况下,为了研究两组变量
V2a12 X1a22 X2 ap2Xp W 2b1Y 21b2Y 22 bq2Yq
V2和W2与V1和W1相互独立,但V2和W2相关.如 此继续下去,直至进行到 r 步,两组变量的相关性 被提取完为止. R min(p,q),可以得到 r 组变量.
典型相关的数学描述
一般地,假设有一组变量X1,…,Xp与Y1,…,Yq ,我们要 研究这两组变量的相关关系,如何给两组变量之间的相
❖ 什么是典型相关分析?
❖ 典型相关分析是研究两组变量之间相 关关系的一种多元统计分析方法.它借用 主成分分析降维的思想,分别对两组变量 提取主成分,且使两组变量提取的主成分 之间的相关程度达到最大,而从同一组内 部提取的各主成分之间互不相关,用从两 组之间分别提取的主成分的相关性来描述 两组变量整体的线性相关关系.