典型相关分析.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十章 典型相关分析(Canonical Correlation Analyses---CCA)
典型相关分析及基本思想
典型相关分析的数学描述
总体的典型相关系数和典型变量
样本的典型相关系数和典型变量
典型相关系数的显著性检验
计算步骤及实例
DXL 1
2018/10/6
The canonical correlation analysis---CCA
§10.1 典型相关分析及基本思想
典型相关分析方法(canonical correlation analysis---CCA)最早源于荷泰林(H,Hotelling)于 1936年在《生物统计》期刊上发表的一篇论文《两组 变式之间的关系》。他所提出的方法经过多年的应用 及发展,逐渐达到完善,在70年代臻于成熟。 由于典型相关分析涉及较大量的矩阵计算,其方 法的应用在早期曾受到相当的限制。但随着当代计算 机技术及其软件的迅速发展,弥补了应用典型相关分 析中的困难,因此它的应用开始走向普及化。 2018/10/6 DXL 2
αΣ a
12 11
左乘
左乘
1 2
11
1 2
1 2 Σ11 αa 12 Σ 22 β b
DXL
αα 1
ββ 1
13
βΣ b
12 22
2018/10/6
22
The canonical correlation analysis---CCA
根据数学分析中条件极值的求法,引入Lagrange 乘数,求极值问题,则可以转化为求
The canonical correlation analysis---CCA
在解决实际问题中,这种方法有广泛的应用。 如,在工厂里常常要研究产品的 q个质量指标
( x1 , x2 , , x p ) 和 p 个原材料指标 ( y1 , y2 , , yq )
的相关关系。 当然可以用最原始的方法,分别计算两组变量 之间的全部相关系数,一共有p*q个简单相关系数, 这样又烦琐又不能抓住问题的本质。
a Σ12b1 - λΣ11a1 0 1 (2) Σ 21a1 - νΣ 22b1 0 1 Σ12b1 - λΣ11a1 = 0 (3) Σ21a1 - νΣ22b1 = 0
将上面的3式分别左乘 a 1和 b 1
注意 到
ap2 xp bq 2 yq
既:u2和v2与u1和v1相互独立,但u2和v2有次大相
关性。如此继续下去,直至进行到r步,两组变量的
相关性被提取完为止。rmin(p,q),可以得到r组变
2018/10/6
量。
DXL
10
The canonical correlation analysis---CCA
Σ12 Σ-1 22 Σ21a1 - νΣ12b1 0
并将第一式代入,得
2 Σ12 Σ-1 Σ a λ Σ11a1 0 22 21 1 -1 2 Σ11 Σ12 Σ-1 Σ a λ a1 0 22 21 1
DXL
1 1 的特征根 11 12 22 21 是 2 ,相应的特征向
1和 1是相应于A 结论:2 既是A又是B的特征根,
和B的特征向量。
至此,典型相关分析转化为求A和B特征根和特征
向量的问题。 第一对典型变量提取了原始变量 X与Y之间相关的 主要部分,如果这部分还不能足以解释原始变量,可
以在剩余的相关中再求出第二对典型变量和他们的典 型相关系数。
2018/10/6 DXL 18
x2
(u2 , v2 ) ?
2018/10/6
DXL
8
The canonical correlation analysis---CCA
典型相关分析的思想: 首先分别在每组变量中找出第一对线性组合, 使其具有最大相关性,
u1 a11 x1 a21 x2 v1 b11 y1 b21 y2 a p1 x p bq1 yq
所以,典型相关分析就是求a1和b1,使uv达到最大。
DXL 12
The canonical correlation analysis---CCA
§10.3 总体的典型相关系数和典型变量
在约束条件:
Var (u ) aΣ11a 1
Var (v) bΣ22b 1
下,求a1和b1,使uv达到最大。令
Var (u1 ) a 1Var ( X)a1 a1 Σ11a1 1 Var ( v1 ) b 1Var (Y)b1 b1 Σ 22b1 1
u1 ,v1 Cov(u1 ,v1 ) a 1Cov(X, Y)b1 a1 Σ12b1
2018/10/6
量为 1
特征根定义
16
2018/10/6
The canonical correlation analysis---CCA
1 将1211 左乘(3)的第一式,并将第二式代入,得
-1 Σ21Σ11 Σ21b1 - λΣ12a1 0 -1 Σ21Σ11 Σ12b1 - λ 2 Σ22b1 0 -1 2 Σ-1 Σ Σ Σ b λ b1 0 22 21 11 12 1
2018/10/6 DXL 11
The canonical correlation analysis---CCA
如果我们记两组变量的第一对线性组合为:
u1 = a 1X
v1 = b 1Y
, a p1 ) , bq1 )
想一想 如何求?
其中:
a1 (a11 , a21 , b1 (b11 , b21,
DXL 4
2018/10/6
From James . 《Analyzing Multivariate Data》
In principal components analysis (PCA), we found that a small number of components could account for much of the variance (i.e., information )in the entire data set. With canonical correlation, we will find that a few pairs of canonical variates can account for much of the interdependence between two sets of variables.
2018/10/6
DXL
9
The canonical correlation analysis---CCA
然后再在每组变量中找出第二对线性组合,使 其分别与本组内的第一线性组合不相关,第二对线 性组合本身具有次大的相关性。
u2 a12 x1 a22 x2 v2 b12 y1 b22 y2
15
a1Σ12b1 (u1 , v1 )
-1 22
Σ12b1 - λΣ11a1 = 0 Σ21a1 - νΣ22b1 = 0
等于 单位阵
(3)
将 Σ12 Σ 左乘(3)的第二式,得
-1 Σ12 Σ-1 Σ a νΣ Σ 22 21 1 12 22 Σ22b1 0
2018/10/6
DXL
7
The canonical correlation analysis---CCA
u1 a11 x1 a21 x2 V1 b11 y1 b21 y2 b31 y3
(u1 , v1 ) ?
x1
y1
y2 y3
u2 a12 x1 a22 x2 v 2 b12 y1 b22 y2 b32 y3
分析两组变量之间的关系。
2018/10/6 DXL 6
The canonical correlation analysis---CCA
变量间的相关系数矩阵
X1 X1 X2 y1 y2 y3 1.00 0.80 0.26 0.67 0.34 X2 0.80 1.00 0.33 0.59 0.34 y1 0.26 0.33 1.00 0.37 0.21 y2 0.67 0.59 0.37 1.00 0.35 y3 0.34 0.34 0.21 0.35 1.00
如果能够采用类似于主成分的思想,分别找出 两组变量的各自的某个线性组合,讨论线性组合之 间的相关关系,则更简捷。
2018/10/6 DXL 3
With canonical correlation, we are working with two sets of variable (e.g.,we might have one set of variables measuring the personality characteristics of high school students and another set of variables measuring their vocational interests ). In canonical correlation, we are also trying to reexpress and simplify the data. Our goal is to find two linear combinations of the original variables---one combination from the first set variables and one combination from the second (called canonical variables )---- that exhibit the largest possible covariance. From James etc《Analyzing Multivariate Data》
1 1 22 12 11 21的特征根
是 2,相应的特征向 量为 1
令
A B
1 1 22 11 12 1 22 1 21 11
21
12
Al l
2
2018/10/6
Bm m
2
回顾特征根 定义
DXL 17
The canonical correlation analysis---CCA
Var (u ) aΣ11a 1
Var (v) bΣ22b 1
a1Σ12b1 λ 1 Σ 21a1 b
a1Σ12b1 - λa1Σ11a1 = 0 1 Σ 21a1 - νb1 Σ 22b1 = 0 b
2018/10/6 DXL
§10.2 典型相关的数学描述
考虑两组变量的向量 Z ( x1, x2 , , x p , y1, y2 , , yq )
其协方差阵为
Σ11 Σ Σ 21 p Σ12 p Σ 22 q q
矩阵的 分块
其中11是第一组变量的协方差矩阵;22是第二ห้องสมุดไป่ตู้组变量的协方差矩阵; 12 是X和Y的其协方差矩 21 阵。
不含
1
不含
(a1 , b1 ) a1 Σ12b1 (a1 Σ11a1 1) (b 1 Σ 22b1 1) 2 2
1
(1)
的极大值,其中和是 Lagrange乘数。
2018/10/6
DXL
14
The canonical correlation analysis---CCA
2018/10/6 DXL 5
The canonical correlation analysis---CCA
例:家庭特征与家庭消费之间的关系
为了了解家庭的特征与其消费模式之间的关系。
调查了70个家庭的下面两组变量:
y1:户主的年龄 x1:每年去餐馆就餐的频率 y2:家庭的年收入 x 2:每年外出看电影频率 y :户主受教育程度 3
The canonical correlation analysis---CCA
在剩余的相关中再求出第二对典型变量和他们 的典型相关系数。设第二对典型变量为:
典型相关分析及基本思想
典型相关分析的数学描述
总体的典型相关系数和典型变量
样本的典型相关系数和典型变量
典型相关系数的显著性检验
计算步骤及实例
DXL 1
2018/10/6
The canonical correlation analysis---CCA
§10.1 典型相关分析及基本思想
典型相关分析方法(canonical correlation analysis---CCA)最早源于荷泰林(H,Hotelling)于 1936年在《生物统计》期刊上发表的一篇论文《两组 变式之间的关系》。他所提出的方法经过多年的应用 及发展,逐渐达到完善,在70年代臻于成熟。 由于典型相关分析涉及较大量的矩阵计算,其方 法的应用在早期曾受到相当的限制。但随着当代计算 机技术及其软件的迅速发展,弥补了应用典型相关分 析中的困难,因此它的应用开始走向普及化。 2018/10/6 DXL 2
αΣ a
12 11
左乘
左乘
1 2
11
1 2
1 2 Σ11 αa 12 Σ 22 β b
DXL
αα 1
ββ 1
13
βΣ b
12 22
2018/10/6
22
The canonical correlation analysis---CCA
根据数学分析中条件极值的求法,引入Lagrange 乘数,求极值问题,则可以转化为求
The canonical correlation analysis---CCA
在解决实际问题中,这种方法有广泛的应用。 如,在工厂里常常要研究产品的 q个质量指标
( x1 , x2 , , x p ) 和 p 个原材料指标 ( y1 , y2 , , yq )
的相关关系。 当然可以用最原始的方法,分别计算两组变量 之间的全部相关系数,一共有p*q个简单相关系数, 这样又烦琐又不能抓住问题的本质。
a Σ12b1 - λΣ11a1 0 1 (2) Σ 21a1 - νΣ 22b1 0 1 Σ12b1 - λΣ11a1 = 0 (3) Σ21a1 - νΣ22b1 = 0
将上面的3式分别左乘 a 1和 b 1
注意 到
ap2 xp bq 2 yq
既:u2和v2与u1和v1相互独立,但u2和v2有次大相
关性。如此继续下去,直至进行到r步,两组变量的
相关性被提取完为止。rmin(p,q),可以得到r组变
2018/10/6
量。
DXL
10
The canonical correlation analysis---CCA
Σ12 Σ-1 22 Σ21a1 - νΣ12b1 0
并将第一式代入,得
2 Σ12 Σ-1 Σ a λ Σ11a1 0 22 21 1 -1 2 Σ11 Σ12 Σ-1 Σ a λ a1 0 22 21 1
DXL
1 1 的特征根 11 12 22 21 是 2 ,相应的特征向
1和 1是相应于A 结论:2 既是A又是B的特征根,
和B的特征向量。
至此,典型相关分析转化为求A和B特征根和特征
向量的问题。 第一对典型变量提取了原始变量 X与Y之间相关的 主要部分,如果这部分还不能足以解释原始变量,可
以在剩余的相关中再求出第二对典型变量和他们的典 型相关系数。
2018/10/6 DXL 18
x2
(u2 , v2 ) ?
2018/10/6
DXL
8
The canonical correlation analysis---CCA
典型相关分析的思想: 首先分别在每组变量中找出第一对线性组合, 使其具有最大相关性,
u1 a11 x1 a21 x2 v1 b11 y1 b21 y2 a p1 x p bq1 yq
所以,典型相关分析就是求a1和b1,使uv达到最大。
DXL 12
The canonical correlation analysis---CCA
§10.3 总体的典型相关系数和典型变量
在约束条件:
Var (u ) aΣ11a 1
Var (v) bΣ22b 1
下,求a1和b1,使uv达到最大。令
Var (u1 ) a 1Var ( X)a1 a1 Σ11a1 1 Var ( v1 ) b 1Var (Y)b1 b1 Σ 22b1 1
u1 ,v1 Cov(u1 ,v1 ) a 1Cov(X, Y)b1 a1 Σ12b1
2018/10/6
量为 1
特征根定义
16
2018/10/6
The canonical correlation analysis---CCA
1 将1211 左乘(3)的第一式,并将第二式代入,得
-1 Σ21Σ11 Σ21b1 - λΣ12a1 0 -1 Σ21Σ11 Σ12b1 - λ 2 Σ22b1 0 -1 2 Σ-1 Σ Σ Σ b λ b1 0 22 21 11 12 1
2018/10/6 DXL 11
The canonical correlation analysis---CCA
如果我们记两组变量的第一对线性组合为:
u1 = a 1X
v1 = b 1Y
, a p1 ) , bq1 )
想一想 如何求?
其中:
a1 (a11 , a21 , b1 (b11 , b21,
DXL 4
2018/10/6
From James . 《Analyzing Multivariate Data》
In principal components analysis (PCA), we found that a small number of components could account for much of the variance (i.e., information )in the entire data set. With canonical correlation, we will find that a few pairs of canonical variates can account for much of the interdependence between two sets of variables.
2018/10/6
DXL
9
The canonical correlation analysis---CCA
然后再在每组变量中找出第二对线性组合,使 其分别与本组内的第一线性组合不相关,第二对线 性组合本身具有次大的相关性。
u2 a12 x1 a22 x2 v2 b12 y1 b22 y2
15
a1Σ12b1 (u1 , v1 )
-1 22
Σ12b1 - λΣ11a1 = 0 Σ21a1 - νΣ22b1 = 0
等于 单位阵
(3)
将 Σ12 Σ 左乘(3)的第二式,得
-1 Σ12 Σ-1 Σ a νΣ Σ 22 21 1 12 22 Σ22b1 0
2018/10/6
DXL
7
The canonical correlation analysis---CCA
u1 a11 x1 a21 x2 V1 b11 y1 b21 y2 b31 y3
(u1 , v1 ) ?
x1
y1
y2 y3
u2 a12 x1 a22 x2 v 2 b12 y1 b22 y2 b32 y3
分析两组变量之间的关系。
2018/10/6 DXL 6
The canonical correlation analysis---CCA
变量间的相关系数矩阵
X1 X1 X2 y1 y2 y3 1.00 0.80 0.26 0.67 0.34 X2 0.80 1.00 0.33 0.59 0.34 y1 0.26 0.33 1.00 0.37 0.21 y2 0.67 0.59 0.37 1.00 0.35 y3 0.34 0.34 0.21 0.35 1.00
如果能够采用类似于主成分的思想,分别找出 两组变量的各自的某个线性组合,讨论线性组合之 间的相关关系,则更简捷。
2018/10/6 DXL 3
With canonical correlation, we are working with two sets of variable (e.g.,we might have one set of variables measuring the personality characteristics of high school students and another set of variables measuring their vocational interests ). In canonical correlation, we are also trying to reexpress and simplify the data. Our goal is to find two linear combinations of the original variables---one combination from the first set variables and one combination from the second (called canonical variables )---- that exhibit the largest possible covariance. From James etc《Analyzing Multivariate Data》
1 1 22 12 11 21的特征根
是 2,相应的特征向 量为 1
令
A B
1 1 22 11 12 1 22 1 21 11
21
12
Al l
2
2018/10/6
Bm m
2
回顾特征根 定义
DXL 17
The canonical correlation analysis---CCA
Var (u ) aΣ11a 1
Var (v) bΣ22b 1
a1Σ12b1 λ 1 Σ 21a1 b
a1Σ12b1 - λa1Σ11a1 = 0 1 Σ 21a1 - νb1 Σ 22b1 = 0 b
2018/10/6 DXL
§10.2 典型相关的数学描述
考虑两组变量的向量 Z ( x1, x2 , , x p , y1, y2 , , yq )
其协方差阵为
Σ11 Σ Σ 21 p Σ12 p Σ 22 q q
矩阵的 分块
其中11是第一组变量的协方差矩阵;22是第二ห้องสมุดไป่ตู้组变量的协方差矩阵; 12 是X和Y的其协方差矩 21 阵。
不含
1
不含
(a1 , b1 ) a1 Σ12b1 (a1 Σ11a1 1) (b 1 Σ 22b1 1) 2 2
1
(1)
的极大值,其中和是 Lagrange乘数。
2018/10/6
DXL
14
The canonical correlation analysis---CCA
2018/10/6 DXL 5
The canonical correlation analysis---CCA
例:家庭特征与家庭消费之间的关系
为了了解家庭的特征与其消费模式之间的关系。
调查了70个家庭的下面两组变量:
y1:户主的年龄 x1:每年去餐馆就餐的频率 y2:家庭的年收入 x 2:每年外出看电影频率 y :户主受教育程度 3
The canonical correlation analysis---CCA
在剩余的相关中再求出第二对典型变量和他们 的典型相关系数。设第二对典型变量为: