典型相关分析方法研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

典型相关分析方法研究

摘要:典型相关分析是研究两组变量(或两个随机向量)之间的相关关系的一种统计方法。与仅研究二个变量间线性关系的简单相关分析相比,典型相关分析能揭示出两组变量之间的内在联系,且两组变量的数目可以改变,这确定了它的重要性。随着计算机技术的发展,典型相关分析在各个行业试验研究中应用日渐广泛。本文主要介绍典型相关分析的基本原理与步骤并举例说明其应用。

关键词:典型相关分析;基本原理;步骤;应用

Abstract:Canonical correlation analysis is the study of two groups of variables (or two random vectors) a statistical method the relationship between the. Compared with only the simple correlation analysis of linear relationship between two variables and canonical correlation analysis can reveal the internal relations between two sets of variables, and the number of two groups of variables can change, this determines the importance of it. With the development of computer technology, the canonical correlation analysis system has been widely used in various industries in experimental study. This paper mainly introduces the basic principle and procedure of canonical correlation analysis and examples of its application.

Key words:Canonical correlation analysis; basic principle; step; application

一、引言

典型相关分析(Canonical Correlation Analysis 简称CCA)是处理两个随机矢量之间相关性的统计方法,在多元统计分析中占有非常重要的地位。典型相关分析可有效反映两组统计数据之间的关系,有着重要的应用背景[1]。

在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。

二、典型相关分析的国内外研究现状

典型相关分析及其改进算法已成功的应用到计算机视觉、模式识别、电子通信、生物医学、文本和图像检索和社会统计学等众多学科或领域。很多学者都在从事这方面的研究,并取得了良好的效果。孙权森[2]等将典型相关分析应用到特征融合中,利用典型相关分析达到了信息冗余的目的。陈拓[3]等利用典型相关分

析方法来抑制主动声呐直达波干扰并取得了很好的效果。王磊[4]将多集典型相关分析用于雷达辐射源指纹识别,与其他的方法相比具有更好的识别性能。张洁玉

[5]

结合广义典型相关分析,提出一种新的仿射不变特征提取方法,且在视点变换

图形识别中得到很高的识别率。

Kim [6]将张量典型相关分析应用于判别特征选择和动作检测,并取得很好的效果。Hwang [7]将多重集典型相关分析与主分量分析相结合,并将这种新方法应用到功能神经影像学中。Raul [8]提出一种新型正规化CCA 方法,并将其应用于NCL-60微小核糖核酸癌症数据,取得了更稳定和更正确的结果。Wang [9]利用典型相关分析进行多元回归的收缩和选择。

随着研究的深入,典型相关分析及其改进算法的理论知识越来越完善,应用的领域和学科越来越广。

三、典型相关分析的基本思想

典型相关分析是研究两组变量间整体线性相关关系的多元统计方法,它借助于主成分分析的思想,对于每一组变量分别寻找线性组合,使生成的新综合变量能代表原始变量大部分的信息,同时与另一组变量生成的新的综合变量的相关程度最大,这样的一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对、第三对…,使各对典型相关变量之间不相关,典型相关变量之间的简单相关系数称为典型相关系数[10]。

四、典型相关的数学描述 考虑两组变量的向量

1212(,,,,,,,)p q x x x y y y =Z

其协方差阵为

p q p q

⎡⎤=⎢

⎥⎣⎦11

1221

22ΣΣΣΣΣ

其中Σ11是第一组变量的协方差矩阵[11];

Σ22是第二组变量的协方差矩阵;1221'

∑=∑是X 和Y 的协方差矩阵。 如果我们记两组变量的第一对线性组合为:

'11u =a X '11v =b Y

其中:

11211(,,

,)p a a a '=1a

11211(,,,)q b b b '=1b

所以,典型相关分析就是求a1和b1,使ρuv 达到最大。

五、典型相关系数和典型变量 1.求法 在约束条件:

()

1Var u '==11a Σa

()1V a r v '==22b Σb

下,求a1和b1,使ρuv 达到最大。

根据数学分析中条件极值的求法,引入Lagrange 乘数,求极值问题,则可以转化为求

)

1()1(2

)1(2),(12211111112111-∑'--∑'

-

∑'=b b a a b a b a νλ

φ

的极大值,其中λ和v 是 Lagrange 乘数[12]。

)

2(001221211

1111121

⎪⎪⎩⎪⎪⎨⎧=∑-∑=∂∂=∑-∑=∂∂b v a b a b a φλφ

(3)

⎧⎨

⎩121111

21

122

1

Σb -λΣa =0Σa -νΣb

=0

将上面的3式分别左乘a 1’和b 1’

⎧''⎪⎨

''⎪

⎩1121111112111221a Σb -λa Σa =0b Σa -νb Σb =0

⎧'=⎪⎨

'=ν⎪

⎩11211211a Σb λ

b Σa 得

相关文档
最新文档