典型相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
16
北大数学学院
第十章 §10.1总体典型相关
性质1
典型相关变量的性质 Vk ak ' X , Wk bk ' Y 是X , Y的第k 对典型相关
变量(k 1, , p); 令V (V1 , , V p ) ', W (W1 , , W p ) '.则 V I p D W 此性质说明: (1)Vi(i 1, , p)互不相关; (2)Wi(i 1, , p)互不相关; (3)Vi与Wi (i j )互不相关; (4) (Vi , Wi ) i (i 1, , p).
且
(Y , ( x)) R
,并称R为全相关系数.
7
第十章 引言
什么是典型相关分析
北大数学学院
当p,q>1时,利用主成分分析的思想,可以把多 个变量与多个变量之间的相关化为两个新变量 之间的相关. 也就是求=(1,…, p) 和 =(1,…, q ) , 使得 新变量: V= 1X1+…+pXp = X W= 1Y1+…+ qYq = Y 之间有最大可能的相关,基于这个思想就产生 了典型相关分析(Canonical correlatinal analysis).
6
第十章 引言
什么是典型相关分析
北大数学学院
当p≥ 1 ,q=1时(或 q ≥ 1 , p =1) 设 X ~ N ( , ), XX p 1 则称
Y YX
1 XX 1/ 2
XY 0 YY
YX XY 为Y与(X1,…,Xp)的 R 全相关系数. YY 其实Y对X的回归为 1 E(Y | X ) Y YX XX ( x X ) def = ( x)
18
北大数学学院
第十章 §10.1总体典型相关
典型相关变量的性质
19
北大数学学院
20
北大数学学院
第十章 §10.2样本典型相关
样本典型相关变量和典型相关系数
设总体Z=(X1,...,Xp,Y1,…,Yq )’.在实际问 题中,总体的均值E(Z)=和协差阵D(Z)= 通 常是未知的,因而无法求得总体的典型相关变量 和典型相关系数. 首先需要根据观测到的样本资料阵对其进行 估计. 已知总体Z的n个样品:
北大数学学院
第十章 §10.1总体典型相关
我们用X和Y的线性组合V=aX和W=bY之间的 相关来研究X和Y之间的相关.我们希望找到a和b, 使ρ(V,W) 最大.由相关系数的定义:
典型相关的定义
又已知
10
北大数学学院
第十章 §10.1总体典型相关
典型相关的定义
故有 对任给常数c1,c2,d1,d2,显然有 ρ(c1V+d1, c2W+d2)=ρ(V,W) 即使得相关系数最大的V=aX和W=bX并不唯 一. 故加附加约束条件 Var(V)=aΣ11 a=1, Var(W)=bΣ22 b=1. 问题化为在约束条件Var(V)= 1,Var(W)=1下,
求a和b,使得ρ(V,W)= aΣ12 b达最大 .
11
北大数学学院
第十章 §10.1总体典型相关
典型相关的定义
定义10.1.1 设X=(X1,...,Xp ) 及Yຫໍສະໝຸດ Baidu(Y1,...,Yq) 为随 机向量(不妨设p≤q),记随机向量
11 12 X Z , E ( Z ) 0, D(Z) 0. Y 21 22 如果存在a1 (a11 , , a p1 ) ' 和b1 (b11 , , bq1 ) ', 使得
23
北大数学学院
15
北大数学学院
第十章 §10.1总体典型相关
典型相关变量的求法
定理10.1.2 设X=(X1,...,Xp ) 及Y=(Y1,...,Yq) 为随 机向量(不妨设p≤q),记随机向量
11 12 X Z ,已知E ( Z ) 0, D(Z) 0. Y 21 22 2 12 T (1 ) ( 11 12 22 ) , m rank (TT ') min( p, q ).并设p阶方阵 相应的单位特征向量为l1 , l2 , , lm .令
13
北大数学学院
第十章 §10.1总体典型相关
典型相关变量的求法
定理10.1.1 设X=(X1,...,Xp ) 及Y=(Y1,...,Yq) 为随 机向量(不妨设p≤q),记随机向量
11 12 X Z ,已知E ( Z ) 0, D(Z) 0. Y 21 22 1 2 1 2 T 11 12 22 , 并设p阶方阵TT '的特征值依次为
2 1 12 ak (1 ) l , b ( 11 k k k 22 ) 21ak ( k 1, 2, , m).
2 TT '的非零特征值依次为12 22 m 0(i 0, i 1, , m);
则Vk ak ' X ,Wk bk ' Y 是X , Y的第k 对典型相关变量,k 为 第k 个典型相关系数.
……… …… ………..
Z’(1) Z’(2)
= ...
Z’(n)
xn1 xn2 … xnp yn1 yn2 … ynq
若假定Z~N(,),则协差阵的最大似然估 计为
1 ' def * ( Z (t ) Z )( Z (t ) Z ) = S n t 1
22
n
北大数学学院
第十章 §10.2样本典型相关
样本典型相关变量和典型相关系数
我们从协差阵的最大似然估计S*(或样 本协差阵S)出发,按上节的方法可以导出样 本典型相关变量和样本典型相关系数.还可 以证明样本典型相关变量和样本典型相关 系数是总体典型相关变量和样本典型相关 系数的极大似然估计. 也可以从样本相关阵R出发来导出样本 典型相关变量和样本典型相关系数.
3
第十章 引言
什么是典型相关分析
北大数学学院
在实际问题中,经常遇到要研究一部分变量和另 一部分变量之间的相关关系,例如: 在工业中,考察原料的主要质量指标(X1,...,Xp ) 与 产品的主要质量指标(Y1,...,Yq)间的相关性; 在经济学中,研究主要肉类的价格与销售量之间 的相关性; 在地质学中,为研究岩石形成的成因关系,考察 岩石的化学成份与其周围围岩化学成份的相关性; 在气象学中为分析预报24小时后天气的可靠程 度,研究当天和前一天气象因子间的相关关系;
Z (t )
X (t ) (t 1, 2,..., n) Y ( t ) ( p q )1
21
北大数学学院
第十章 §10.2样本典型相关
样本典型相关变量和典型相关系数
样本资料阵为 x11 x12 … x1p y11 y12 … y1q x21 x22 … x2p y21 y22 … y2q
5
第十章 引言
什么是典型相关分析
北大数学学院
一般地,假设有一组变量X1,...,Xp 与另一组变 量Y1,...,Yq (也可以记为Xp+1,...,Xp+q),我们要研究这 两组变量的相关关系,如何给两组变量之间的相 关性以数量的描述,这就是本章研究的典型相关 分析. 当p=q=1时,就是研究两个变量X与Y之间的相关 关系.简单相关系数是最常见的度量.其定义为
14
北大数学学院
第十章 §10.1总体典型相关
典型相关变量的求法
1 1 , 若定理10.1.1中Z是半正定的,则 11 22
不一定存在.我们可以用广义逆矩阵求解。 定义10.1.2 给定一个矩阵A,如果有矩阵D满足 ADA=A,DAD=D,(AD)’=AD,(DA)’=DA, 则称D是A的加号逆,记作A+. 可以证明A+是存在唯一的.
2 12 22 p 0(i 0, i 1, , p); 相应的单位特征向量 1 2 1 2 为l1 , l2 , , l p .令ak 11 lk , bk k1 22 21ak (k 1, 2,, p).
则Vk ak ' X ,Wk bk ' Y 是X , Y的第k 对典型相关变量,k 为 第k 个典型相关系数.
(a1 ' X , b1 ' Y )
var( ' X ) 1,var( 'Y ) 1
max
( ' X , ' Y ),
则称a1 ' X , b1 ' Y 是X , Y的第一对典型相关变量,它们之间的 相关系数称为第一个典型相关系数;
12
北大数学学院
第十章 §10.1总体典型相关
17
, 其中 = diag(1 , 2 , , p ). Ip
北大数学学院
第十章 §10.1总体典型相关
典型相关变量的性质
性质2 原始变量与典型变量之间的相关性 (也称为典型结构)
记A ( a1 , a2 , , a p ), B (b1 , b2 , , b p ), V (V1 , , V p ) ' =( a1 ' X , , a p ' X ) ' A ' X , W (W1 , , W p ) ' =(b1 ' Y , , b p ' Y ) ' B ' Y , 则有 cov( X , V ) cov( X , A ' X ) 11 A, cov( X , W ) cov( X , B ' Y ) 12 B, cov(Y , V ) cov(Y , A ' X ) 21 A, cov(Y , W ) cov(Y , B ' Y ) 22 B.
8
北大数学学院
第十章 §10.1总体典型相关
典型相关的定义
设X=(X1,...,Xp ) 及Y=(Y1,...,Yq) 为随机向量(不 妨设p≤q),记随机向量 X Z= Y Z的协差阵为
11 12 21 22
9
其中 Σ11是X的协差阵,Σ22是Y的协差阵, Σ12 =Σ’21是X,Y的协差阵.
典型相关的定义
如果存在ak (a1k ,, a pk ) ' 和bk (b1k ,, bqk ) ', 使得 (1)ak ' X , bk ' Y 和前面k 1对典型相关变量都不相关; (2) var(ak ' X ) 1, var(bk ' Y ) 1; (3)ak ' X 与bk 'Y的相关系数最大, 则称ak ' X , bk ' Y 是X , Y的第k 对典型相关变量,它们 之间的相关系数称为第k个典型相关系数(k 2,, p).
北大数学学院
应用多元统计分析
第十章 典型相关分析
canonical correlation analysis
1
第十章 典型相关分析
目 录
北大数学学院
§10.1 总体典型相关 §10.2 样本典型相关 §10.3 典型冗余分析
2
第十章 引言
什么是典型相关分析
北大数学学院
相关分析是研究多个变量与多个变量之间的 相关关系.如研究两个随机变量之间的相关关系 可用简单相关系数表示;研究一个随机变量与多 个随机变量之间的相关关系可用全相关系数表 示. 1936年Hotelling首先将相关分析推广到研究 多个随机变量与多个随机变量之间的相关关系, 故而产生了典型相关分析,广义相关系数等一些 有用的方法.
4
第十章 引言
什么是典型相关分析
北大数学学院
在教育学中,研究学生在高考的各科成绩与高 二年级各主科成绩间的相关关系; 在婚姻的研究中,考察小伙子对追求姑娘的主 要指标与姑娘想往的小伙子的主要尺度之间的 相关关系; 在医学中,研究患某种疾病病人的各种症状程 度与用科学方法检查的一些结果之间的相关关 系; 在体育学中,研究运动员的体力测试指标与运 动能力指标之间的相关关系等.
北大数学学院
第十章 §10.1总体典型相关
性质1
典型相关变量的性质 Vk ak ' X , Wk bk ' Y 是X , Y的第k 对典型相关
变量(k 1, , p); 令V (V1 , , V p ) ', W (W1 , , W p ) '.则 V I p D W 此性质说明: (1)Vi(i 1, , p)互不相关; (2)Wi(i 1, , p)互不相关; (3)Vi与Wi (i j )互不相关; (4) (Vi , Wi ) i (i 1, , p).
且
(Y , ( x)) R
,并称R为全相关系数.
7
第十章 引言
什么是典型相关分析
北大数学学院
当p,q>1时,利用主成分分析的思想,可以把多 个变量与多个变量之间的相关化为两个新变量 之间的相关. 也就是求=(1,…, p) 和 =(1,…, q ) , 使得 新变量: V= 1X1+…+pXp = X W= 1Y1+…+ qYq = Y 之间有最大可能的相关,基于这个思想就产生 了典型相关分析(Canonical correlatinal analysis).
6
第十章 引言
什么是典型相关分析
北大数学学院
当p≥ 1 ,q=1时(或 q ≥ 1 , p =1) 设 X ~ N ( , ), XX p 1 则称
Y YX
1 XX 1/ 2
XY 0 YY
YX XY 为Y与(X1,…,Xp)的 R 全相关系数. YY 其实Y对X的回归为 1 E(Y | X ) Y YX XX ( x X ) def = ( x)
18
北大数学学院
第十章 §10.1总体典型相关
典型相关变量的性质
19
北大数学学院
20
北大数学学院
第十章 §10.2样本典型相关
样本典型相关变量和典型相关系数
设总体Z=(X1,...,Xp,Y1,…,Yq )’.在实际问 题中,总体的均值E(Z)=和协差阵D(Z)= 通 常是未知的,因而无法求得总体的典型相关变量 和典型相关系数. 首先需要根据观测到的样本资料阵对其进行 估计. 已知总体Z的n个样品:
北大数学学院
第十章 §10.1总体典型相关
我们用X和Y的线性组合V=aX和W=bY之间的 相关来研究X和Y之间的相关.我们希望找到a和b, 使ρ(V,W) 最大.由相关系数的定义:
典型相关的定义
又已知
10
北大数学学院
第十章 §10.1总体典型相关
典型相关的定义
故有 对任给常数c1,c2,d1,d2,显然有 ρ(c1V+d1, c2W+d2)=ρ(V,W) 即使得相关系数最大的V=aX和W=bX并不唯 一. 故加附加约束条件 Var(V)=aΣ11 a=1, Var(W)=bΣ22 b=1. 问题化为在约束条件Var(V)= 1,Var(W)=1下,
求a和b,使得ρ(V,W)= aΣ12 b达最大 .
11
北大数学学院
第十章 §10.1总体典型相关
典型相关的定义
定义10.1.1 设X=(X1,...,Xp ) 及Yຫໍສະໝຸດ Baidu(Y1,...,Yq) 为随 机向量(不妨设p≤q),记随机向量
11 12 X Z , E ( Z ) 0, D(Z) 0. Y 21 22 如果存在a1 (a11 , , a p1 ) ' 和b1 (b11 , , bq1 ) ', 使得
23
北大数学学院
15
北大数学学院
第十章 §10.1总体典型相关
典型相关变量的求法
定理10.1.2 设X=(X1,...,Xp ) 及Y=(Y1,...,Yq) 为随 机向量(不妨设p≤q),记随机向量
11 12 X Z ,已知E ( Z ) 0, D(Z) 0. Y 21 22 2 12 T (1 ) ( 11 12 22 ) , m rank (TT ') min( p, q ).并设p阶方阵 相应的单位特征向量为l1 , l2 , , lm .令
13
北大数学学院
第十章 §10.1总体典型相关
典型相关变量的求法
定理10.1.1 设X=(X1,...,Xp ) 及Y=(Y1,...,Yq) 为随 机向量(不妨设p≤q),记随机向量
11 12 X Z ,已知E ( Z ) 0, D(Z) 0. Y 21 22 1 2 1 2 T 11 12 22 , 并设p阶方阵TT '的特征值依次为
2 1 12 ak (1 ) l , b ( 11 k k k 22 ) 21ak ( k 1, 2, , m).
2 TT '的非零特征值依次为12 22 m 0(i 0, i 1, , m);
则Vk ak ' X ,Wk bk ' Y 是X , Y的第k 对典型相关变量,k 为 第k 个典型相关系数.
……… …… ………..
Z’(1) Z’(2)
= ...
Z’(n)
xn1 xn2 … xnp yn1 yn2 … ynq
若假定Z~N(,),则协差阵的最大似然估 计为
1 ' def * ( Z (t ) Z )( Z (t ) Z ) = S n t 1
22
n
北大数学学院
第十章 §10.2样本典型相关
样本典型相关变量和典型相关系数
我们从协差阵的最大似然估计S*(或样 本协差阵S)出发,按上节的方法可以导出样 本典型相关变量和样本典型相关系数.还可 以证明样本典型相关变量和样本典型相关 系数是总体典型相关变量和样本典型相关 系数的极大似然估计. 也可以从样本相关阵R出发来导出样本 典型相关变量和样本典型相关系数.
3
第十章 引言
什么是典型相关分析
北大数学学院
在实际问题中,经常遇到要研究一部分变量和另 一部分变量之间的相关关系,例如: 在工业中,考察原料的主要质量指标(X1,...,Xp ) 与 产品的主要质量指标(Y1,...,Yq)间的相关性; 在经济学中,研究主要肉类的价格与销售量之间 的相关性; 在地质学中,为研究岩石形成的成因关系,考察 岩石的化学成份与其周围围岩化学成份的相关性; 在气象学中为分析预报24小时后天气的可靠程 度,研究当天和前一天气象因子间的相关关系;
Z (t )
X (t ) (t 1, 2,..., n) Y ( t ) ( p q )1
21
北大数学学院
第十章 §10.2样本典型相关
样本典型相关变量和典型相关系数
样本资料阵为 x11 x12 … x1p y11 y12 … y1q x21 x22 … x2p y21 y22 … y2q
5
第十章 引言
什么是典型相关分析
北大数学学院
一般地,假设有一组变量X1,...,Xp 与另一组变 量Y1,...,Yq (也可以记为Xp+1,...,Xp+q),我们要研究这 两组变量的相关关系,如何给两组变量之间的相 关性以数量的描述,这就是本章研究的典型相关 分析. 当p=q=1时,就是研究两个变量X与Y之间的相关 关系.简单相关系数是最常见的度量.其定义为
14
北大数学学院
第十章 §10.1总体典型相关
典型相关变量的求法
1 1 , 若定理10.1.1中Z是半正定的,则 11 22
不一定存在.我们可以用广义逆矩阵求解。 定义10.1.2 给定一个矩阵A,如果有矩阵D满足 ADA=A,DAD=D,(AD)’=AD,(DA)’=DA, 则称D是A的加号逆,记作A+. 可以证明A+是存在唯一的.
2 12 22 p 0(i 0, i 1, , p); 相应的单位特征向量 1 2 1 2 为l1 , l2 , , l p .令ak 11 lk , bk k1 22 21ak (k 1, 2,, p).
则Vk ak ' X ,Wk bk ' Y 是X , Y的第k 对典型相关变量,k 为 第k 个典型相关系数.
(a1 ' X , b1 ' Y )
var( ' X ) 1,var( 'Y ) 1
max
( ' X , ' Y ),
则称a1 ' X , b1 ' Y 是X , Y的第一对典型相关变量,它们之间的 相关系数称为第一个典型相关系数;
12
北大数学学院
第十章 §10.1总体典型相关
17
, 其中 = diag(1 , 2 , , p ). Ip
北大数学学院
第十章 §10.1总体典型相关
典型相关变量的性质
性质2 原始变量与典型变量之间的相关性 (也称为典型结构)
记A ( a1 , a2 , , a p ), B (b1 , b2 , , b p ), V (V1 , , V p ) ' =( a1 ' X , , a p ' X ) ' A ' X , W (W1 , , W p ) ' =(b1 ' Y , , b p ' Y ) ' B ' Y , 则有 cov( X , V ) cov( X , A ' X ) 11 A, cov( X , W ) cov( X , B ' Y ) 12 B, cov(Y , V ) cov(Y , A ' X ) 21 A, cov(Y , W ) cov(Y , B ' Y ) 22 B.
8
北大数学学院
第十章 §10.1总体典型相关
典型相关的定义
设X=(X1,...,Xp ) 及Y=(Y1,...,Yq) 为随机向量(不 妨设p≤q),记随机向量 X Z= Y Z的协差阵为
11 12 21 22
9
其中 Σ11是X的协差阵,Σ22是Y的协差阵, Σ12 =Σ’21是X,Y的协差阵.
典型相关的定义
如果存在ak (a1k ,, a pk ) ' 和bk (b1k ,, bqk ) ', 使得 (1)ak ' X , bk ' Y 和前面k 1对典型相关变量都不相关; (2) var(ak ' X ) 1, var(bk ' Y ) 1; (3)ak ' X 与bk 'Y的相关系数最大, 则称ak ' X , bk ' Y 是X , Y的第k 对典型相关变量,它们 之间的相关系数称为第k个典型相关系数(k 2,, p).
北大数学学院
应用多元统计分析
第十章 典型相关分析
canonical correlation analysis
1
第十章 典型相关分析
目 录
北大数学学院
§10.1 总体典型相关 §10.2 样本典型相关 §10.3 典型冗余分析
2
第十章 引言
什么是典型相关分析
北大数学学院
相关分析是研究多个变量与多个变量之间的 相关关系.如研究两个随机变量之间的相关关系 可用简单相关系数表示;研究一个随机变量与多 个随机变量之间的相关关系可用全相关系数表 示. 1936年Hotelling首先将相关分析推广到研究 多个随机变量与多个随机变量之间的相关关系, 故而产生了典型相关分析,广义相关系数等一些 有用的方法.
4
第十章 引言
什么是典型相关分析
北大数学学院
在教育学中,研究学生在高考的各科成绩与高 二年级各主科成绩间的相关关系; 在婚姻的研究中,考察小伙子对追求姑娘的主 要指标与姑娘想往的小伙子的主要尺度之间的 相关关系; 在医学中,研究患某种疾病病人的各种症状程 度与用科学方法检查的一些结果之间的相关关 系; 在体育学中,研究运动员的体力测试指标与运 动能力指标之间的相关关系等.