SAS讲义 第三十七课典型相关分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三十七课 典型相关分析
典型相关分析(Canonical Correlation Analysis )是研究两组变量间相关关系的一种多元统计分析方法。它能够揭示两组变量之间的内在联系,真正反映两组变量间的线性相关情况。
一、 典型相关分析
我们研究过两个随机变量间的相关,它们可以用相关系数表示。然而,在实际问题中常常会遇到要研究两组随机变量间),,,(21p x x x 和),,,(21q y y y 的相关关系。
),,,(21p x x x 和),,,(21q y y y 可能是完全不同的,
但是它们的线性函数可能存在密切的关系,这种密切的关系能反映),,,(21p x x x 和),,,(21q y y y 之间的相关关系。因此就要找出),,,(21p x x x 的一个线性组合u 及),,,(21q y y y 的一个线性组合v ,希望找到的u 和v 之间有最大可能的相关系数,以充分反映两组变量间的关系。这样就把研究两组随机变量间相关关系的问题转化为研究两个随机变量间的相关关系。如果一对变量(u ,v )还不能完全刻划两组变量间的相关关系时,可以继续找第二对变量,希望这对变量在与第一对变量(u ,v )不相关的情况下也具有尽可能大的相关系数。直到进行到找不到相关变量对时为止。这便引导出典型相关变量的概念。
1. 典型相关系数与典型相关变量
设有两组随机变量),,,(21p x x x 和),,,(21q y y y ,假定它们都已经标准化了,即p i x D x E i i ,,2,1= ,1=)(,0=)( ,q i y D y E i i ,,2,1= ,1=)(,0=)( ,若记
⎪⎪⎪⎪⎪⎭
⎫ ⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=p p y y y y x x x x 2121, 此时它们的协方差矩阵(也是相关系数矩阵)为,
R R R R R y x D yy xy yx xx =⎪⎪⎭
⎫ ⎝⎛=⎪⎪⎭⎫ ⎝⎛ 其中()()yx xy yy xx R R y x Cov R y D R x D ====),(,,
实际上,我们要找
y m v x l u 111
1,'='= 使1u 和1v 的相关系数),(11v u ρ达到最大。由于对任意常数a ,b ,c ,d ,有
),(),(1111v u d cv b au ρρ=++ (其中0≠a ,0≠c ),因而不妨假定
()1111='=l R l u D xx (37.1)
()111
1='=m R m v D yy (37.2) 此时11
1111),(),(m R l v u Cov v u xy '==ρ。在111='l R l xx 与111='m R m yy 条件下,使11m R l xy '达到最大的1l '与1
m '分别与x 和y 组成的新变量 ⎩⎨⎧'='=y m v x l u 1111 (37.3)
称为第一对典型变量,其相关系数11
11),(m R l v u xy '=ρ称为第一典型相关系数。若用一对变量还不足以完全反映两组变量的相关时,可以定义第二对典型变量y m v x l u 222
2,'='=,这时除要求()12=u D , ()12=v D 外,还要求()
0=,21u u Cov ,()0,21=v u Cov ,()0,21=u v Cov 和()0,21=v v Cov ,
在这些条件下使222222),(),(m R l v u Cov v u xy '==ρ达到最大。一般地,第j 对典型变量定义如下:
称y m v x l u j j j j '='=,为第j 对典型变量,其系数向量j l '与j m '使j xy j m R l '达到最大,
并且满足如下条件:
⎪⎩⎪⎨⎧='='='='='='0
1 1i yy j i yx j i xy j i
xx j j yy j j xx j m R m l R m m R l l R l m R m l R l (37.4)
1,,2,1-=j i ,此时称j xy j m R l '为第j 对典型相关系数。
2. 求法 我们采用Lagrage 乘子法,从1=j 开始逐一求j l 、j m 。下面仅以1l 、1m 的求法作一简述,以下假定R 是正定矩阵。记
()()()1212,11111111-'--'-'=m R m l R l m R l m l yy xx xy μλ
ϕ (37.5)
其中λ、μ为Lagrage 乘子,用2λ
-、 2μ
-表示仅仅为了下面计算式的简单而已。将ϕ对
1l 、1m 分别求偏导,并令其为0,再与约束条件联立,则1l 、1m 应满足以下方程组:
⎪⎪⎩⎪⎪⎨⎧='='=-=-110011111111m R m l R l m R l R l R m R yy xx yy yx xx xy μλ (37.6)
在式(6.3.6)的前二式两边左乘1l '和1
m ',并利用式(37.6)的后二式有 λ='11
m R l xy ,μ='11l R m yx (37.7)
由于yx xy R R =,故有μλ=。再由(37.6)及yy R 的非奇异性知 1111l R R m yx yy -=
λ (37.8)
将其代入(37.6),则 1211l R l R R R xx yx yy xy λ=- (37.9)
再由xx R 的非奇异性知
12111l l R R R R yx yy xy xx λ=--
(37.10) 记yx yy xy xx R R R R M 111--=,(6.3.10)表明2λ 是yx yy xy xx R R R R 11--的特征根,1l 是其对应的特征向
量。又由式(37.7)知λ 是1u 与 1v 的相关系数,要求其达到最大,2λ 一定是yx yy xy xx R R R R 1
1--的最大特征根,1l 是最大特征根2λ对应的特征向量;进而1m 可由(37.8)求出。第一典型相关系数1λ是yx yy xy xx R R R R 11--的最大特征根的算术根。
其实也可证明1m 是xy xx yx yy R R R R M 112--=的最大特征根对应的特征向量。由于M 1 与M 2 有相同的非零特征根,因此此时求出的1m 和直接从(37.8)求出的1m 是一致的。
用同样方法可知2l 是M 1的第二大的特征根2
2λ对应的特征向量,2m 可通过下式求出: 21221
l R R m yx yy -=λ (37.11)
一般讲可求出M 1 的r 个非零特征根2222
1r λλλ≥≥≥ ,M 1对应于这些特征根的特征
向量分别记为1l 、2l 、…、r l ,进而