第十章典型相关分析

合集下载

《SPSS统计分析》第10章 相关分析

《SPSS统计分析》第10章 相关分析

12.990 16.290 17.990 19.290
12.500 15.800 17.500 18.800
11.500 14.800 16.500 17.800
2.200 5.500 7.200 8.500
3.300 5.000 6.300
3.300
1.700 3.000
5.000 1.700
1.300
3.分析两个变量间线性关系的程度。往往因为第三个变量的作用,使相关系数不能真正反映两个 变量间的线性程度。 这是应该控制一个变量的变化求另两个变量间的相关系数,也就是说, 在第三个变量不变的情况下,两个变量的线性程度。
CORRELATIONS /VARIABLES=VCP with HEIGHT WEIGHT /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE .
6.300 3.000 1.300
1.800 1.500 3.200 4.500
2.700 6.000 7.700 9.000
5.000 8.300 10.000 11.300
12.000 15.300 17.000 18.300
9: 9 14.790 14.300 13.300
4.000 1.800 1.500 3.200 4.500
返回
典型相关分析
返回
典型相关分析概念
典型相关分析是用来描述两组随机变量间关 系的统计分析方法。
通过线性组合,可以将一组变量组合成一个 新的综合变量。虽然每组变量间的线性组合有无 数多个,但通过对其施加一些条件约束,能使其 具有确定性。
典型相关分析就是要找到使得这两个由线性 组合生成的变量之间的相关系数最大的系数。
学习通过编程解决偏相关问题

第十章 直线回归和相关分析 《试验设计与统计分析》PPT课件

第十章  直线回归和相关分析  《试验设计与统计分析》PPT课件

x 最高叶面积指数
二、回归分析和相关分析
1.回归分析 对两个变量进行回归分析是定量地研究X和Y 的数值变化规律,根据这种规律可由一个变 量的变化来估计另一个变量的变化。 在回归模型中,两个变量有因果关系,原因 变量称自变量(independent variable) ,一般 用X表示;结果变量称依变量(dependent variable),以Y表示。X是已知的或是可控制 的,没有误差或误差很小,而Y则不仅随X的 变化而变化,还要受到随机误差的影响。

ˆ a bx y



上式读作“y依x的直线回归方程”。 x是自变量; 是和x的量相对应的依变量y的点估计值; ˆ y a是x=0时的值,即回归直线在y轴上的截距;

b是x每增加一个单位数时,y ˆ 平均地将要增 加(b>0时)或减少(b<0时)的单位数,叫 回归系数。
ˆ ) 2 ( y a bx )2 最小 Q ( y y
第一节 回归和相关意义


一、基本概念
一般变量之间的关系可以分为两类:一类是 函数关系,另一类是统计关系。 函数关系是一种确定性的关系,一个变量的 取值和变化完全取决于另一个或几个变量的 取值和变化。 统计关系是一种非确定性的关系,即一个变 量的取值受到另一变量的影响,两者之间既 有关系,但又不存在完全确定的函数关系。


2.相关分析

对两个变量进行相关分析,其目的是研究X
和Y间有无相关以及相关程度、相关性质(方 向)。

在相关模型中,两个变量是平行的,没有因 果关系的自变量和依变量之分,且皆有随机 误差。
第二节 直线回归

一、直线回归方程(linear regression equation)

SPSS第10章相关分析

SPSS第10章相关分析

第10章相关分析 (225)1 双变量相关分析 (225)1.1 双变量相关分析的数据特征 (225)1.2 皮尔逊相关系数 (225)1.3 肯德尔相关系数 (228)1.4 例题3 (230)2 偏相关关系 (232)2.1 偏相关关系 (232)2.2 例题 (232)3 距离相关分析 (234)3.1 特征 (234)3.2 主要参数 (235)3.3 例题 (235)3.4 实例介绍 (237)第10章相关分析相关分析是研究变量之间关系密切程度的一种统计方法,包括双变量相关分析、偏相关分析和距离相关分析。

1 双变量相关分析1.1 双变量相关分析的数据特征当某一个事物存在着多个变量时,而各个变量之间呈数量关系时,可以用双变量相关分析来研究,并做出统计学推断。

双变量相关分析可以输出两两变量之间的相关系数,相关系数的种类有皮尔逊相关系数、肯德尔相关系数、斯皮尔曼等级相关系数等。

1.2 皮尔逊相关系数X和Y有线性函数关系,两变量间的相关系数是+1~-1,相关系数没有单位。

1.2.1 例题133名产妇进行产前检查,测定X1-X6六项指标,试计算X1-X4的皮尔逊相关系数。

1.2.2 SPSS过程Data,analyze,correlate,打开bivariate对话框,选择x1-x4→variables,选择pearson 相关系数,two-tail,flag significant correlations,打开options对话框,means and standard deviations,exclude case pairwirs,continue,ok.two-tail,双尾检验;Flag significant correlations:用星号显示有显著性相关的相关系数;Exclude case pairwirs:剔除有缺失值的配对变量;Cross-product deviations and covarances:显示每一对变量的离均差交叉积与协方差。

第十章 两变量之间的关系的分析相关与回归

第十章  两变量之间的关系的分析相关与回归
在统计方法中常用简单线性相关与简单线性回 归的方法来研究两变量之间的相互依存和互
为消长的线性关系。
例子
一、基本概念与计算
为直观地判断两个变量之间的关系,可在 直角坐标系中把每对(Xi,Yi)值所代表的 点绘出来,形成散点图。例如21名肝癌患 者血清胆固醇与三酰甘油关系的散点图如 下图所示:
(二) 等级相关系数的计算
例10.6 为了研究肝癌病人分期与血清甲 胎蛋白水平(AFP)之间的相关关系,某研 究人员收集了10例肝癌病人的数据,结果 见表10.9(数据集:例10 06.save)。问:肝癌 病人分期与血清AFP是否有相关关系?
二、SPSS软件实现
三、注意事项
1. 在判断两变量之间是否有线性相关关系时, 按照理论要求,当资料满足双变量正态分布时, 用Pearson相关系数r 表示两变量相关的方向 和密切程度。但在实际应用的过程中,资料满 足的要求有所降低,只要X 和Y 分别满足正态 分布,也可求Pearson相关系数。否则就用 Spearman等级相关系数进行分析,但后者是非 参统计,对数据信息有一定的损失。
一、区别
二、联系
1. 对一组数据若同时计算r 和b,它们的正负号 是一致的,r 为正,说明两变量间的相互关系是 同向变化的。b 为正,说明X 增加一个单位,Y 平均增加b 个单位。
2.r 和b 的假设检验是等价的,即对同一样本,二 者的t值相等。由于r 的假设检验既可直接查 表,计算又比较方便,而b 的假设检验计算较繁, 故在实际应用中常以r 的假设检验代替对II 型 回归模型中b 的假设检验。
第三节 秩 相 关
一、基本概念与计算 (一) 基本概念 两变量间的线性相关分析一般要求两变
量满足双变量正态分布。但实际资料有 时不能满足这些条件,如两变量:①不服从 双变量正态分布;

第十章 直线回归与相关分析

第十章 直线回归与相关分析

115 125 128 143 132 121 129 112 120 130 125.5
135 137 128 127 155 132 148 117 134 132 134.5

图10-2 NaCl含量对单位叶面积干物重影响的散点图
Y . X X
含义是:对于变量X的每一个值,都有一个Y 的分布,这个分布的平均数就是该线性函数。
ˆ a bX Y
回归截距 与x值相对应的依变量y的点估计值
此方程称为Y对X的直线回归方程(linear regression equation),画出的直线称为回归线 ( regression line)。
ˆ Y a bx
ˆi ) 2 L ( yi y
i 1 n
Y
最小
编号 1 2 3 4 5 血球体积x /mm3 45 52 56 48 42 红血球数y /106 6.53 6.30 9.52 7.50 6.99 6 7 8 9 10 编号 血球体积x /mm3 35 58 40 39 50 红血球数y /106 5.90 9.49 6.20 6.55 8.72
n n
整理后得:
an b xi yi i1 i1 n n n a xi b xi2 xi yi i1 i1 i1
解正规方程得:
x y ( x )( y ) / n b x ( x ) / n ( x x)( y y) = S S ( x x)
第二节:一元线性回归 1 散点图的绘制
2 一元正态线性回归模型 3 直线回归方程的参数估计和回归方 程的建立 4 直线回归的假设检验
5 直线回归的方差分析
6 直线回归的意义( 自学)

第十章 典型相关分析.

第十章 典型相关分析.

在解决实际问题中,这种方法有广泛的应用。 如,在工厂里常常要研究产品的p个质量指标 (x1, x2,, xp ) 和q个原材料的指标( y1, y2,, yq ) 之 间的相关关系;也可以是采用典型相关分析来解 决的问题。如果能够采用类似于主成分的思想, 分别找出两组变量的线性组合既可以使变量个数 简化,又可以达到分析相关性的目的。
Y7
0.21 0.20 0.18 0.16 0.27 0.40 0.58 0.45 0.27 0.59 0.31 1.00
例 家庭特征与家庭消费之间的关系
为了了解家庭的特征与其消费模式之间 的关系。调查了70个家庭的下面两组变量:
xx12::每每年年去外餐出馆看就电餐影的频频率率
y1:户主的年龄
X3
0.53 0.57 1.00 0.48 0.57 0.31 0.23 0.14 0.07 0.24 0.37 0.18
X4
0.49 0.46 0.48 1.00 0.57 0.24 0.22 0.12 0.19 0.21 0.29 0.16
X5
0.51 0.53 0.57 0.57 1.00 0.38 0.32 0.17 0.23 0.32 0.36 0.27
U (u1, ,ur ) V (v1,, vr )
从而达到降维的目的。
二、典型相关的解法
考虑两组变量的向量
Z (x1, x2, , xp , y1, y2, , yq )
其协方差阵为
Σ
Σ11
Σ
21
p
Σ12 p
Σ22
q
q
其中11是第一组变量的协方差矩阵;22 是第二组变量的协方差矩阵;12和21是X和Y 的其协方差矩阵。
第十章 典型相关分析

10章2节4C营销策略及案例分析

10章2节4C营销策略及案例分析

第十章市场营销组合策略4C策略的基本概念14Ps向4Cs的转变24C策略的相关分析3案例分析4随着市场竞争日趋激烈,媒介传播速度越来越快,4Ps理论越来越受到挑战。

1990年,美国学者罗伯特·劳特朋(Robert Lauterborn)教授在其《4P退休4C登场》(New Marketing Litany: Four Ps Passé: C-Words Take Over)专文中提出了与传统营销的4P 相对应的4Cs营销理论。

4C(Customer、Cost、Convenience、Communication)营销理论以消费者需求为导向,重新设定了市场营销组合的四个基本要素:瞄准消费者的需求和期望(Customer)。

基本概述:1970年,美国著名未来学家AlvinToHler在其著名的Futureshock中曾预言:“未来的社会将要提供的并不是有限的、标准化的商品,而是有史以来最大多样化的、非标准化的商品和服务。

”大规模定制作为一种现代生产和管理的模式,将大规模生产和定制生产两种生产模式结合起来,以低成本向多元化细分市场生产和销售满足客户个性化要求的产品和服务,最终形成“销售—生产—服务”一体化模式。

为了实现向客户提供低成本、高质量的个性化定制产品和服务的目标,必须迅速发现和准确捕捉细分市场中个性化客户需求信息,与客户直接进行交流。

传统的以推销为中心的市场营销方式已经不再适应大规模定制生产模式的要求。

大规模定制作为一种崭新的生产和管理模式必然要求有一种新的市场营销方式与之对应。

大规模定制营销需要以市场为起点,发现和挖掘客户的个性化需求,以此制定综合的市场营销组合策略,以实现顾客价值和企业效益的双赢。

4Cs :指代Customer(顾客,主要指顾客的需求)、Cost(成本)、Convenience(便利)和Communication(沟通)。

Customer(顾客):主要指顾客的需求。

第十章 两变量相关性分析

第十章 两变量相关性分析
r ——样本相关系数;ρ ——总体相关系数。
二、相关系数的计算
r X X Y Y lXY X X 2 Y Y 2 lXXlYY
XY ( X )(Y) / n
[ X 2 ( X )2 / n][Y 2 (Y )2 / n]
式中 (X X )2 为X的离均差平方和, 用 lXX 代替;
按自由度v=n-2查相关系数界值表(附表12,P425)。 2. t 检验 (n>50)
公式 t r 0 = r
,υ=n-2
Sr
1 r2
n2
Sr---- 相关系数的标准误 求得 t 值后查t 界值表得P值。
本例n=21,故采用查表法:按v= n-2 = 21-2 = 19 查附表12可知, r0.05/ 2,19 0.433
0.81
16
4.60
0.85
17
3.58
0.83
18
3.57
0.84
19
3.49
0.73
20
3.63
1.27
21
3.89
0.78
计算相关系数的一般步骤为:
1. 绘制散点图。 (见图10-2)。
散点图显示两 变量有直线趋势
图10-2 肝癌病人血清胆固醇与甘油三酯关系散点图
2. 计算基础数据,并列出相关系数计算表,
病人序号
血清胆固醇
甘油三脂
1
3.89
1.71
2
3.41
1.01
35.700.Fra bibliotek746.84
1.78
5
2.93
1.25
6
3.98
0.70
7
4.23
1.33

典型相关分析

典型相关分析

典型相关分析典型相关分析是一种统计学方法,用于研究两组变量之间的关系。

典型相关分析可以帮助我们了解这两组变量之间的相互关系以及它们是否能够彼此预测。

在本文中,我们将探讨典型相关分析的基本概念、应用场景、计算方法以及结果的解释和解读。

典型相关分析,又称为典型相关系数分析,是一种多变量统计技术,它可以在两组变量之间寻找最具相关性的线性组合,这个线性组合被称为典型变量。

典型相关分析的核心思想是将两组变量转化为一组最具相关性的综合变量,以便探索和解释它们之间的关系。

典型相关分析通常用于探索两组变量之间的关系,并确定是否存在一个或多个典型相关系数。

在许多实际应用中,这些变量可能代表相互关联的特征或维度,比如市场规模和销售额、学习时间和考试成绩等。

典型相关分析可以用于许多领域的研究。

例如,在市场研究中,我们可以使用典型相关分析来研究不同市场因素之间的关系,并确定市场的发展趋势。

在教育研究中,我们可以使用典型相关分析来研究学生的学习习惯和学术成绩之间的关系,以帮助教育者改进教学方法和学习环境。

接下来,我们将介绍典型相关分析的计算方法。

假设我们有两组变量X和Y,其中X包含p个变量,Y包含q个变量。

首先,我们计算X和Y的样本协方差矩阵SXX和SYY,以及它们之间的协方差矩阵SXY。

然后,我们对SXX和SYY进行特征值分解,得到它们的特征向量和特征值。

接下来,我们选择最大的r个特征值和对应的特征向量。

最后,我们计算典型相关系数以及典型变量。

结果的解释和解读是典型相关分析的最后一步。

典型相关系数的取值范围为-1到1,其中取值为1表示两组变量之间存在完全正相关的关系,取值为-1表示存在完全负相关的关系,取值为0表示两组变量之间不存在相关性。

此外,我们还可以通过检验统计量来判断典型相关系数是否显著。

总结起来,典型相关分析是一种统计学方法,用于研究两组变量之间的关系。

它可以帮助我们了解这两组变量之间的相互关系以及它们是否能够彼此预测。

第10章相关分析及回归分析

第10章相关分析及回归分析

第八章相关与回归分析一、本章重点1.相关系数的概念及相关系数的种类。

事物之间的依存关系,能够分为函数关系和相关关系。

相关关系又有单向因果关系和互为因果关系;单相关和复相关;线性相关和非线性相关;不相关、不完全相关和完全相关;正相关和负相关等类型。

2.相关分析,着重掌握如何画相关表、相关图,如何测定相关系数、测定系数和进行相关系数的推断。

相关表和相关图是变量间相关关系的生动表示,对于未分组资料和分组资料计算相关系数的方式是不同的,一元线性回归中相关系数和测定系数有着紧密的关系,取得样本相关系数后还要对整体相关系数进行科学推断。

3.回归分析,着重掌握一元回归的大体原理方式,一元回归是线性回归的基础,多元线性回归和非线性回归都是以此为基础的。

用最小平方式估量回归参数,回归参数的性质和显著性査验,随机项方差的估量,回归方程的显菁性査验, 利用回归方程进行预测是回归分析的主要内容。

4.应用相关与回归分析应注意的问题。

相关与回归分析都有它们的应用范围,必需明白在什么情形下能用,什么情形下不能用。

相关分析和回归分析必需以定性分析为前提,不然可能会闹岀笑话,在进行预测时选取的样本要尽可能分散,以减少预测误差,在进行预测时只有在现有条件不变的情形下才能进行,若是条件发生了转变,原来的方程也就失去了效用。

二、难点释疑本章难点在于计算公式多,不容易记忆,所以更要注重计算的练习。

为了辜握大体计算的内容,最少应认真理解书上的例题,做完本指导书上的全数计算题。

初学者可能会感到本章公式多且复杂,难于记忆,其实只要抓住Lxx、Lxy. Lyy 这三个记号,记住它们的展开式,几个主要的公式就不难记忆了。

若是能自己把这些公式推证一下,弄清其关系,那就更易记住了。

三、练习题(一)填空题1事物之间的依存关系,按照其彼此依存和制约的程度不同,能够分为()和()两种。

2.相关关系按相关关系的情形可分为()和();按自变量的多少分()和();按相关的表现形式分()和();按相关关系的紧密程度分()、()和();按相关关系的方向分()。

第10章 直线回归与相关分析

第10章 直线回归与相关分析
是α+βxi的估计值
回归方程的基本条件(性质): 回归方程的基本条件(性质): 性质1 性质1 性质2 性质2 性质3 性质3
ˆ 最小; Q = ∑( y − y)2 = 最小;
ˆ ∑( y − y) = 0
; 。
回 归 直 线 通 过 点 (x, y)
2
ˆ Q = ∑( yi − yi ) = ∑[ yi − (a + bxi )]
二、直线回归的显著性检验
回归关系的假设测验: 回归关系的假设测验: 对于样本的回归方程,必须测定其来自无 对于样本的回归方程,必须测定其来自无 直线回归关系总体的概率大小。只有当这种概 直线回归关系总体的概率大小。 率小于0.05或0.01时,我们才能冒较小的危 或 率小于 时 险确认其所代表的总体存在着直线回归关系。 险确认其所代表的总体存在着直线回归关系。 这就是回归关系的假设测验 。 回归关系的假设测验有两种方法: 测验或F 回归关系的假设测验有两种方法:t测验或F测验
由于x变数的实测区间为[31.7,44.2], 由于x变数的实测区间为[31.7,44.2], [31.7 在应用=48.5-1.1x于预测时,需限定x 在应用=48.5-1.1x于预测时,需限定x的区间 =48.5 于预测时 为[31.7,44.2];如要在x<31.7或>44.2的 [31.7,44.2];如要在x 31.7或 44.2的 区间外延,则必须有新的依据。 区间外延,则必须有新的依据。
整理后可得: 整理后可得:
na + ( ∑ xi )b = ∑ yi ( ∑ xi ) a + ( ∑ x i ) b = ∑ x i y i
2
上式叫做a与b的正规方程组 正规方程组。 正规方程组
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十章 典型相关分析(Canonical Correlation Analysis )§10.1 引言一、何时采用典型相关分析1.两个随机变量Y 与 X −−−→−相关关系简单相关系数; 2.一个随机变量Y 与一组随机变量 p X X ,,1 −→−多重相关(复相关系数); 3.一组随机变量q Y Y ,,1 与另一组随机变量p X X ,,1 −→−典型(则)相关系数。

典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。

典型相关是研究两组变量之间相关性的一种统计分析方法,也是一种降维技术。

二、实例由Hotelling (1935, 1936)最早提出,Cooley and Lohnes (1971)、 Kshirsagar (1972)和 Mardia, Kent, and Bibby (1979) 推动了它的应用。

实例(X 与Y 地位相同)1985年中国28 省市城市男生(19~22岁)的调查数据。

记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为621,,X X X ;机能指标脉搏(次/分)、收缩压(mmHg) 、舒张压(变音)、舒张压(消音)、肺活量(ml)分别为521,,Y Y Y 。

现欲研究这两组变量之间的相关性。

简单相关系数矩阵用简单相关系数描述两组变量的相关关系的缺点:只是孤立考虑单个X 与单个Y 间的相关,没有考虑X 、Y 变量组内部各变量间的相关。

两组间有许多简单相关系数(实例为30个),使问题显得复杂,难以从整体描述。

(复相关系数也如此)。

对于上例,要想研究两组变量间的相关关系,构造线性函数如下:525222121616212111Y a Y a Y a V X a X a X a U +++=+++=要求它们之间具有最大相关性,这就是典型相关分析问题。

§10.2 典型相关分析的统计思想典型相关分析研究两组变量之间整体性的线性相关关系,它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内部的各个变量。

典型相关分析是借助于主成分分析的思想,对每一组变量分别寻找线性组合,使生成的新的变量能代表原始变量大部分的信息,同时,与由另一组变量生成的新的综合变量的相关程度最大,这样一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对、第三对…使得各对典型相关变量之间互不相关,典型相关变量之间的简单相关系数称为典型相关系数。

典型相关分析就是用典型相关系数衡量两组变量之间的相关性。

一、典型相关分析的统计思想采用主成分思想寻找第i 对典型(相关)变量:mq p i Y b Y b Y b Y b V Xa X a X a X a U q iq i i i p ip i i i =='=+++='=+++=),min(,,2,1 ,22112211典型相关系数),(i i i V U Corr CanR =典型变量系数或典型权重b a '',,此处X 、Y 是已经过标准化的变量。

记第一对典型相关变量间的典型相关系数为:),(111V U Corr CanR = 使1U 与1V 间最大相关;第二对典型相关变量间的典型相关系数为:),(222V U Corr CanR =使2U 与2V 间最大相关,且分别与11,V U 无关;……。

第i 对典型相关变量间的典型相关系数为:),(i i i V U Corr CanR =,使i U 与i V 间最大相关,且分别与 ,,,,2211V U V U 无关;且0121≥≥≥≥≥i CanR CanR CanR 。

二、典型相关分析的基本理论和方法设有两组随机变量:()()'='=q p Y Y Y Y X X X X ,,,,,,,2121 ,X 、Y 的协方差矩阵为:⎪⎪⎭⎫⎝⎛∑∑∑∑=∑22211211。

设q p <,11∑是第一组变量的协方差阵,22∑是第二组变量的协方差阵,2112∑'=∑是两组变量之间的协方差阵。

且当∑是正定阵时,12∑与21∑也是正定的。

为了研究两组变量 X,Y 之间的相关关系,考虑它们的线性组合:⎩⎨⎧'=+++='=+++=Y b Y b Y b Y b V Xa X a X a X a U q q p p 1212111112121111 我们希望在X 、Y 及∑给定的条件下,选取b a ,使1U 与1V 之间的相关系数()()()max ,),(111→''''==Yb Var X a Var Y b X a Cov V U Corr CanR ,即问题成为 ()m ax ,121→∑'=''=b a Y b X a Cov CanR (1) ⎩⎨⎧=∑'='=∑'='1)(1)(..2211b b Y b Var a a X a Var t s (2)说明:由于随机变量乘以常数不改变它们之间的相关关系,所以可以取标准化的随机变量。

§10.3 总体的典型相关系数和典型变量一、总体的典型相关系数和典型变量的求法在约束条件(2)下,求qpR b R a ∈∈,使得(1)式达到最大。

由拉格朗日乘数法,这一问题等价于:()()max 1212221112→-∑'--∑'-∑'=b b a a b a G μλ,由极值的必要条件得:⎪⎩⎪⎨⎧=∑-∑=∂∂=∑-∑=∂∂0022121112b a aG a b a Gμλ (3)用b a '', 分别左乘(3)式,有⎩⎨⎧=∑'=∑'=∑'=∑'μμλλb b a b a a b a 22121112,又()'∑'=∑'b a a b 1212,所以有()λμ='∑'=∑'=b a a b 1212,即λ恰好是线性组合1U 和1V 之间的相关系数。

于是解方程组(3)归结为解方程组:⎩⎨⎧=∑-∑=∑-∑022121112b a a b μλ (4)以12212-∑∑左乘(4)中第二式并将第一式代入得:()a Aa a a a 222112212111112211221200λλλ=⇒=-∑∑∑∑⇒=∑-∑∑∑---;以11121-∑∑左乘(4)中第一式并将第二式代入得:()b Bb b b b 221211121122222121112100λλλ=⇒=-∑∑∑∑⇒=∑-∑∑∑---说明2λ既是A 又是B 的特征根,b a ,就是其相应于A 和B 的特征向量。

A 和B 的特征根的性质:(1)A 和B 有相同的非零特征根,且相等的非零特征根数目等于p ; (2)A 和B 的特征根非负;(3)A 和B 的全部特征根均在0~1之间。

通常用022221>≥≥≥p λλλ 表示;并称021>≥≥≥p λλλ 为典型相关系数,相应的单位特征向量分别为p p b b a a ,,;,1,1 。

综上所述,有如下定义:定义 在一切使方差为1的线性组合X a '与Y b '中,其中两者相关系数最大的X a U 11'=与Y b V 11'=称为第一对典型相关变量,它们的相关系数1λ,称为第一典型相关系数。

一般地,在定义了1-i 对典型相关变量后,在一切使方差为1且与前1-i 对典型相关变量都不相关的线性组合X a U i i '=与Y b V i i '=中,两者相关系数最大者称为第i 对典型相关变量,其相关系数称为第i 对典型相关系数。

相关系数i λ越大,说明相应的典型变量之间的关系越密切,因此一般在实用中忽略典型相关系数很小的那些典型变量,按i λ的大小只取前几个典型变量及典型相关系数进行分析。

二、典型相关变量的性质1.由p X X X ,,,21 所组成的典型变量p U U U ,,,21 互不相关,由q Y Y Y ,,,21 所组成的典型变量q V V V ,,,21 也互不相关,且它们的方差均等于1,即()()⎩⎨⎧≠==⎩⎨⎧≠==ji ji V V Cov j i ji U U Cov j i j i ,0,1,,0,1,2.同一对典型变量i U 与i V 之间的相关系数为i λ,不同对的典型变量i U 与()j i V j ≠ 之间互不相关,即()⎩⎨⎧≠=≠=j i ji V U Cov ij i,0,0,λ 3.i U , i V 的均值为0,方差为1。

§10.4 样本的典型相关系数和典型变量在实际研究中总体协方差阵∑是未知的,通常用样本数据估计∑。

设)()2()1(,,,n X X X 是来自总体容量为n 的样本,则∑的极大似然估计为:()'--=∑∑=X X X X n i n i i )(1)()(1ˆ其中∑==ni i X n X 1)(1 ,用∑ˆ代替∑,并按照前面的办法求出i i i b a ˆ,ˆ,ˆλ,称iλˆ为样本典型相关系数,称),,2,1(ˆˆ,ˆˆ)2()1(p i X b V X a U ii i i ='='=为样本的典型变量。

并且可以证明i i i b a ˆ,ˆ,ˆλ 分别为总体典型相关系数和典型相关系数向量i i b a ,的极大似然估计量。

计算时也可从样本的相关阵出发求样本的典型相关系数和典型变量。

()ij r R R R RR =⎥⎦⎤⎢⎣⎡=22211211其中p j i s s s r jjii ij ij ,,1,, ==;令⎪⎪⎪⎪⎪⎭⎫⎝⎛=pps s s S00000022111,⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=++++qq p p p p s s s S000002,21,12则有212112222222111111ˆ,ˆ,ˆS R S S R S S R S =∑=∑=∑, 进一步可得:⎩⎨⎧=-=-----0)ˆ)(ˆ(0)ˆ)(ˆ(221211121122122112212111i i i i b S R R R R a S R R R R λλ 则i i b S a S ˆ,ˆ21分别为矩阵2112212111R R R R --与1211121122R R R R --的相应于特征根iλˆ的特征向量, 且有第i 对样本的典型变量:p i X b V X a U ii i i ,,1,ˆˆ,ˆˆ)2()1( ='='=和典型相关系数iλˆ。

典型相关分析示意图:§10.5 典型相关系数的显著性检验在作两组变量的典型相关分析之前,首先应检验两组变量是否相关。

相关文档
最新文档