第10章 典型相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
, (1)
aT 11 a bT 22 b
典型相关分析确定a和b使得U ,V 达到最大,由相关
系数的性质可知,对任何非零常数C,有
CU ,CV
Cov(CU ,CV ) Var(CU ) Var(CV )
C 2Cov(U ,V ) C 2Var(U ) C 2Var(V )
U ,V
即给a, b同时乘以非零常数C ,U和V的相关系数 不变,故可对a和b加以适当的约束,以保证其唯一性。
X
(2) nq
样本均值向量X
X
(1)
,
其中X
(1)
X (2)
1 n
n a 1
X
(1) a
,
X
(2)
1 n
n a 1
X
(2) a
,
样本协差阵
11
21
12
,
22
其中kl
1 n 1
n
(X
j 1
(k) j
X
(k)
)(X
(l) j
X
T (l)
) ,k,l
1,2
由此可得矩阵A和B的样本估计 A
11
1
1
(2)A2 A2 P2 PT P2 PT PPT A;
1
(3)(A2 )1
P
1 2
PT
,
其中-
1 2
1
(2)-1
diag(
1
,
1
,
1 2
,
1
),
通常记(A
12)1为A-
1
2;
p
(4)A
1 2
A
1 2
A1
总体的典型相关系数和典型变量的求法
在约束条件下:Var(U ) aT 11 a 1,Var(V ) bT 22 b 1
变量的具体表达式和相应的典型相关系数。
为便于理解后述定理的内容,我们首先介正 定矩阵的平方根矩阵的概念及其简单性质。
设A为p阶对称正定矩阵,令P (e1, e2, , ep ), 其中ei (i 1,2, , p)为A的p个正交单位化特征向量,
i (i 1,2, , p)为相应的特征值,则i 0(i 1,2, , n)
R 1 11
R12
R 1 22
R21,
B
R 1 22
R21
R 1 11
R12 ,
求解
A和
B的特征根及其相应的特征向量,
即可得到所要求的典型相关变量及其典型相关系数。
第四节 典型相关系数的显著性检验
在作两组变量X(1),X (2)的典型相关分析之前,
首先应检验两组变量是否相关,如果不相关,
即Cov( X(1),X (2) ) 0,则讨论两组变量的典型
第10章 典型相关分析
• 典型相关分析着眼于识别和量化两组随机变量之 间的相关关系,它是两个随机变量之间的相关关 系在两组变量下的推广。
• 两个随机变量X,Y之间的相关关系可用它们的 相关系数来度量,其定义为
X ,Y
Cov( X ,Y ) Var( X )Var(Y )
但在许多实际问题中,需要研究多
V
bTY
b1Y1
b2Y2
bqYq
下面计算U和V的相关系数。由于
V V
ar(U ) ar(V )
Var(aT X Var(bTY )
) aT 11 a bT 22 b
Cov(U ,V ) Cov(aT X ,bTY ) aT 12 b
则U和V的相关系数为
U ,V
aT 12 b
1 11
12
1 22
21 ,
B
1 22
21
1 11
12,如前所述,求解A和 B的特征根及其
相应的特征向量,即可得到所要求的典型相关变量
及其典型相关系数。
若样本数据矩阵已经标准化处理,此时样本的协差阵
就等于样本的相关系数矩阵
R
R11
R21
R12
R22
,由此
可得矩阵
A和B的样本估计 A
乘(4)
中第二式并将
第一式代入,得(12
-1 22
21
-2
11 )a
0,
(5)
以21 1-11 左乘(4)式第一式,并将第二式代入,得
(21 1-11 12 -2 22 )b 0(6)
以 1-11
左乘(5)式,得1-11
12
-1 22
21
a
2a
0(7)
以 -212
左乘(6)式,得
-1 22
21 1-11
由线性代数知识知P为正交矩阵且A PPT ,其中
diag(1, 2 , , p ).令
1
2 diag(
1 ,
2 , ,
1
p
)
0
0
0 0
2 0
0 p
1
1
1
则A的平方根矩阵定义为A2 P2 PT ,易证A2有下列性质:
1
1
1
(1)(A2)T A2 ,即A2是对称矩阵;
第一对典型变量是U1 a1T X和V1 b1TY , 其中U1和V1具有 单位方差且使U1和V1的相关系数达到最大。 第二对典型变量是U2 a2T X和V2 b2TY , 其中U2和V2具有 单位方差且使U 2,V2和U1,V1均不相关,即 Cov(U1,U2 ) Cov(U2 ,V1) Cov(V2 ,U1) Cov(V2 ,V1) 0 在上述约束条件下并使U 2和V2的相关系数达到最大。
的相关关系。为最大可能地提取X1,X2….,XP 与 Y1,Y2…YP 之间的相关关系,我们选择a和b,使Z 与W之间有最大相关系数,这时称Z和W为第一对 典型变量。
• 进一步,我们还可确定第二对、第三对典 型变量等等,并使各对典型变量之间互不 相关(即相关性不会被各对典型变量重复 提取)。这样,我们就将两组变量间的相 关性凝结为少数几个典型变量对之间的相 关性,通过对相关性较大的几对典型变量 的研究来了解原来两组变量之间的相关关 系从而容易抓住问题的本质。
由主成分分析思想启发,把两组随机变量之间的相 关关系转化为两个随机变量之间的相关关系来考虑。
• 采用主成分分析的方法,每组变量分别提取主成 分,再通过主成分之间的关系反映两组变量之间 的关系。 即考察一组变量的线性组合
Z a1X1 a2 X2 ap XP aT X
与另一组变量的线性组合
W b1Y1 b2Y2 bqYq bTY
之下,寻求a和b使UV aT 12 b达到最大值,根据数学分析
中条件极值的求法,引入Lagrange乘数,可将问题转化为求:
(a, b)
aT
12
b
2
(aT
11
a
1)
v 2
(bT
22
b
1)
的极大值,其中,v是Lagrange乘数。
由极值的必要条件为:
a
Hale Waihona Puke Baidu
b
12 b 11
21 a v 22
例:鸡蛋、猪肉的价格用X1和X2表示;鸡蛋、猪肉的销 量用Y1和Y2表示。
构造第一组和第二组变量的线性组合:
F1=a11X1+ a12X2
Z1=a11Y1+ a12Y2 满足F1和Z1
的相关性最大化。
典型相关分析
一、总体的典型变量与典型相关
• 设两组随机变量分别
为
X (X1, X2, , X p )T ,Y (Y1,Y2, ,Yq )T ,
令
V V
ar( X ) E[ X E( X )][X ar(Y ) E[Y E(Y )][Y
E(X E(Y )]T
)]T 11 22
Cov( X ,Y )
E[ X
E( X )][Y
E(Y )]T
12
Cov(Y , X ) E[Y E(Y )][X E( X )]T 21
• 则有
第三节 样本典型相关系数
• 一、样本典型相关变量及典型相关系数的 计算 在实际应用中,总体的协差阵通常是未知 的,往往需要从研究的总体中随机的抽取 一个样本,根据样本估计出总体的协差阵, 并在此基础上进行典型相关分析。
设X
X X
(1) (2)
服从正态分布N
p
q
(
,
),从该总体中抽取样本
容量为n的样本,得到下列数据矩阵:
X
(1)
X X
(1) 11
(1) 21
X
(1) n1
X (1) 12
X (1) 22
X (1) n2
X (1) 1p
X (1) 2p
,
X
(2)
X X
(2) 11
(2) 21
X
(1) np
X
(2) n1
X (2) 12
X (2) 22
X (2) n2
X X
(2) 1q
(2) 2q
12 T21 .进一步假定11 和22 是满秩阵(从而是
正定矩阵),令
11 21
12 22
,
这 是(X1, X 2 , , X p ,Y1,Y2 , ,Yq)T的协方差矩阵,
且不失一般性,可设p q.
为研究X和Y的相关关系,考虑两组变量的线性组合
U aT X a1X1 a2 X 2 ap X p
相关就毫无意义。
设总体X的两组变量X(1)(X1, , X p1)T ,
X(2)(X p11, , X p1 p2)T , 且
X ( X(1),X (2) )T ~ N p1 p2 (, ), 0
H0 : Cov( X(1),X (2) ) 12 0
若接受H0,即认为两组变量X (1)和X (2)不相关,若拒绝
变量归结为求A、B的特征根和特征向量。
典型变量具有如下性质: (1)V (Uk ) 1,V (Vk ) 1, k 1,2, , r
Cov(Ui ,U j ) 0, Cov(Vi ,Vj ) 0, i j
i 0,i j,i 1,2, , r
(2)Cov(Ui ,Vj ) 0,i j 0, j r
一般地,第k对(k p q)典型变量是Uk akT X和 Vk bkTY ,其中Uk ,Vk具有单位方差,且与前k 1对典型 变量中的每个Ui ,Vi (i 1,2, , k 1)均不相关,在此条件 下并使U k 和Vk的相关系数达到最大。 我们称第k对典型变量间的相关系数为第k个典型相关 系数。利用推导主成分类似的方法,可以给出各典型
12
b
2b
0(8)
记A
1-11
12
-1 22
21 ,B
1 22
21
111
12
则得Aa 2a, Bb 2b
说明2既是A又是B的特征根,a, b就是其相应于A和B的
特征向量。这里不加证明的指出A和B的特征根有如下 性质: (1)A和B有相同的非零特征根,且相等的非零特征根数 目等于p1. (2) A和B的特征根非负。 (3)A和B的全部特征根均在0和1之间。
如何研究两组变量之间的相关关 系?
• 设两组变量用X1,X2….,XP以及Y1,Y2…YP表示。 分别研究Xi和Yj之间的相关关系,列出相关系数表。其
缺陷:虽然每个Xi和每个Yj之间的相关关系也反映了 两组变量间各对之间的联系,但不能反映这两组变量 整体之间的相关性。孤立地了解各对( Xi ,Yj )之间 的相关性无助于对于实际问题的全面分析和解决。另 外当两组变量较多时,处理较烦琐,不易抓住问题的 实质。
我们用通常符号12
22
2 p1
0表示(其余p
p1个
特征根为0),并称12
22
2 p1
0为典型相关系数,
相应的单位特征向量为a(1) , a(2) , , a( p1)和b(1) , b(2) , , b( p1) ,
从而可得p1对线性组合:U1 a(1)T X (1) ,V1 b(1)T X (2) ; U 2 a(2)T X (1) ,V2 b(2)T X (2) ; ;U p1 a( p1)T X (1) ,Vp1 b( p1 )T X (2) 称每一对变量为典型变量,由此可见求典型相关系数和典型
H
,则认为至少第一对典型变量是有用的。
0
检验统计量为:
p1
(1
i2
),其中i2
是
i 1
A
R 1 11
R12
R221R21的特征根,按
大小
次序排列为
12
个变量与多个变量间的相关关系。
• 现实中: 如鸡蛋、猪肉的价格(作为第一组 变量)和相应产品的销量(第二组变量)有相 关关系。如投资性变量(劳力投入、财力投入、 固定资产投资(用一种变量X1,X2….,XP 描述) 等)与国民收入(工农业收入、建筑业收入、 (用另一种变量Y1,Y2…YP描述)等)具有相 关关系。又如:在生物科学中,在研究某生物 种群状况(用一种变量X1,X2….,XP 描述)与 其生活环境(用另一种变量Y1,Y2…YP描述) 之间的相关关系。
由上式可以看出,使U ,V 有最简单表示的约束为
aT 11 a 1, bT 22 b 1, (2) 这等价于规定Var(U ) Var(V ) 1. 于是典型相关分析即在约束条件(2)下,确定a和b, 使 (1)达到最大。这时称U ,V为典型变量。
如果只有一对U ,V还不足以反映X和Y之间的相关性, 可进一步构造与U,V互不相关的另外一对典型变量, 如此等等。具体的,各对典型变量的定义如下:
a b
0 (3)
0
将上二式分别左乘aT与bT ,则得:
aT bT
12 21
b a
aT
v bT
11 22
a b
v
而(aT 12 b)T bT 12 a, 所以 v aT 12 b.
于是,解方程组(3)归结为解方程组:
-21a11a2212bb00(4)
为
了具体求解,以12
-1 22
左