第十章典型相关分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十章 典型相关分析

(Canonical Correlation Analysis )

§10.1 引言

一、何时采用典型相关分析

1.两个随机变量Y 与 X −−

−→−相关关系

简单相关系数; 2.一个随机变量Y 与一组随机变量 p X X ,,1 −→−多重相关(复相关系数); 3.一组随机变量q Y Y ,,1 与另一组随机变量p X X ,,1 −→−典型(则)相关系数。 典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关

系数的特例。

典型相关是研究两组变量之间相关性的一种统计分析方法,也是一种降维技术。

二、实例

由Hotelling (1935, 1936)最早提出,Cooley and Lohnes (1971)、 Kshirsagar (1972)和 Mardia, Kent, and Bibby (1979) 推动了它的应用。

实例(X 与Y 地位相同)

1985年中国28 省市城市男生(19~22岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为621,,X X X ;机能指标脉搏(次/分)、收缩压(mmHg) 、舒张压(变音)、舒张压(消音)、肺活量(ml)分别为521,,Y Y Y 。现欲研究这两组变量之间的相关性。

简单相关系数矩阵

用简单相关系数描述两组变量的相关关系的缺点:

只是孤立考虑单个X 与单个Y 间的相关,没有考虑X 、Y 变量组内部各变量间的相关。 两组间有许多简单相关系数(实例为30个),使问题显得复杂,难以从整体描述。(复相关系数也如此)。

对于上例,要想研究两组变量间的相关关系,构造线性函数如下:

5

25222121616212111Y a Y a Y a V X a X a X a U +++=+++=

要求它们之间具有最大相关性,这就是典型相关分析问题。

§10.2 典型相关分析的统计思想

典型相关分析研究两组变量之间整体性的线性相关关系,它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内部的各个变量。

典型相关分析是借助于主成分分析的思想,对每一组变量分别寻找线性组合,使生成的新的变量能代表原始变量大部分的信息,同时,与由另一组变量生成的新的综合变量的相关程度最大,这样一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对、第三对…使得各对典型相关变量之间互不相关,典型相关变量之间的简单相关系数称为典型相关系数。典型相关分析就是用典型相关系数衡量两组变量之间的相关性。

一、典型相关分析的统计思想

采用主成分思想寻找第i 对典型(相关)变量:

m

q p i Y b Y b Y b Y b V X

a X a X a X a U q iq i i i p ip i i i =='=+++='=+++=),min(,,2,1 ,22112211

典型相关系数),(i i i V U Corr CanR =典型变量系数或典型权重b a '',,此处X 、Y 是已经过标准化的变量。

记第一对典型相关变量间的典型相关系数为:),(111V U Corr CanR = 使1U 与1V 间最大相关;第二对典型相关变量间的典型相关系数为:),(222V U Corr CanR =使2U 与2V 间最大相关,且分别与11,V U 无关;……。第i 对典型相关变量间的典型相关系数为:),(i i i V U Corr CanR =,使i U 与i V 间最大相关,且分别与 ,,,,2211V U V U 无关;且

0121≥≥≥≥≥i CanR CanR CanR 。

二、典型相关分析的基本理论和方法

设有两组随机变量:()()'

='=q p Y Y Y Y X X X X ,,,,,,,2121 ,X 、Y 的协方差矩阵为:⎪

⎪⎭

⎝⎛∑∑∑∑=∑22211211。设q p <,11∑是第一组变量的协方差阵,22∑是第二组变量的协方差

阵,2112∑'=∑是两组变量之间的协方差阵。且当∑是正定阵时,12∑与21∑也是正定的。

为了研究两组变量 X,Y 之间的相关关系,考虑它们的线性组合:

⎩⎨⎧'=+++='=+++=Y b Y b Y b Y b V X

a X a X a X a U q q p p 12121111

12121111 我们希望在X 、Y 及∑给定的条件下,选取b a ,使1U 与1V 之间的相关系数

()()()

max ,),(111→'

'''=

=Y

b Var X a Var Y b X a Cov V U Corr CanR ,

即问题成为 ()m ax ,121→∑'=''=b a Y b X a Cov CanR (1) ⎩⎨

⎧=∑'='=∑'='1

)(1

)(..2211b b Y b Var a a X a Var t s (2)

说明:由于随机变量乘以常数不改变它们之间的相关关系,所以可以取标准化的随机变量。

§10.3 总体的典型相关系数和典型变量

一、总体的典型相关系数和典型变量的求法

在约束条件(2)下,求q

p

R b R a ∈∈,使得(1)式达到最大。由拉格朗日乘数法,这一问题等价于:

()()max 12

12

221112→-∑'--∑'-

∑'=b b a a b a G μλ

由极值的必要条件得:

⎪⎩⎪⎨⎧=∑-∑=∂∂=∑-∑=∂∂00

22121112b a a

G a b a G

μλ (3)

用b a '', 分别左乘(3)式,有⎩⎨

⎧=∑'=∑'=∑'=∑'μ

μλ

λb b a b a a b a 22121112,

又()'

∑'=∑'b a a b 1212,所以有()λμ='

∑'=∑'=b a a b 1212,即λ恰好是线性组合1U 和1V 之间的相关系数。

于是解方程组(3)归结为解方程组:⎩⎨

⎧=∑-∑=∑-∑0

22121112b a a b μλ (4)

以1

2212-∑∑左乘(4)中第二式并将第一式代入得:

相关文档
最新文档