第九章典型相关分析

合集下载

典型相关分析[五篇模版]

典型相关分析[五篇模版]

典型相关分析[五篇模版]第一篇:典型相关分析相关分析的类型典型相关分析:用于探究一组解释变量与一组反应变量时间的关系。

典型相关分析函数:cancor(x,y,xcenter=T,ycenter=T)x 为第一组变量数据矩阵 y为第二组变量数据矩阵xcenter表示第一组变量是否中心化 ycenter表示第二组变量是否中心化自编典型相关函数:cancor.test(x,y,plot=T)x为第一组变量数据矩阵 y为第二组变量数据矩阵 plot为是否绘制典型相关图例1:d11.1 生理指标与训练指标之间的典型相关性。

生理指标:体重(x1)、腰围(x2)、脉搏(x3);训练指标:引体向上次数(y1)、起坐次数(y2)、跳跃次数(y3)。

> X<-read.table(“clipboard”,header=T)> R<-cor(X)> R x1 x2 x3 y1 y2 y3 x1 1.0000 0.8702-0.36576-0.3897-0.4931-0.22630 x2 0.8702 1.0000-0.35289-0.5522-0.6456-0.19150 x3-0.3658-0.3529 1.00000 0.1506 0.2250 0.03493 y1-0.3897-0.5522 0.150651.0000 0.6957 0.49576 y2-0.4931-0.6456 0.22504 0.6957 1.0000 0.66921 y3-0.2263-0.1915 0.03493 0.4958 0.6692 1.00000 > R11<-R[1:3,1:3];R12<-R[1:3,4:6];R21<-R[4:6,1:3];R22<-R[4:6,4:6] > A<-solve(R11)%*%R12%*%solve(R22)%*%R21 #A=(R11)-1 R12(R22)-1 R21 > ev<-eigen(A)$values #特征值 > sqrt(ev)#典型相关系数[1] 0.79561 0.20056 0.07257以上过程是一步一步计算的,接下来我们使用R自带的典型相关函数:> xy<-scale(X)#数据标准化> ca<-cancor(xy[,1:3],xy[,4:6])#典型相关分析> ca$cor #典型相关系数[1] 0.79561 0.20056 0.07257 > ca$xcoef #x的典则载荷[,1] [,2] [,3] x1-0.17789-0.43230 0.04381 x2 0.36233 0.27086-0.11609 x3-0.01356-0.05302-0.24107 > ca$ycoef #y的典则载荷[,1] [,2] [,3] y1-0.08018-0.08616 0.29746 y2-0.24181 0.02833-0.28374 y3 0.16436 0.24368 0.09608典型变量的系数载荷并不唯一,只要是它的任意倍数即可,所以每个软件得出的结果并不一样,而是相差一个倍数。

统计学第9章 相关分析和回归分析

统计学第9章 相关分析和回归分析

回归模型的类型
回归模型
一元回归
线性回归
10 - 28
多元回归
线性回归 非线性回归
非线性回归
统计学
STATISTICS (第二版)
一元线性回归模型
10 - 29
统计学
STATISTICS (第二版)
一元线性回归
1. 涉及一个自变量的回归 2. 因变量y与自变量x之间为线性关系


被预测或被解释的变量称为因变量 (dependent variable),用y表示 用来预测或用来解释因变量的一个或多个变 量称为自变量 (independent variable) ,用 x 表示
统计学
STATISTICS (第二版)
3.相关分析主要是描述两个变量之间线性关 系的密切程度;回归分析不仅可以揭示 变量 x 对变量 y 的影响大小,还可以由 回归方程进行预测和控制 4.回归系数与相关系数的符号是一样的,但 是回归系数是有单位的,相关系数是没 有单位的。
10 - 27
统计学
STATISTICS (第二版)
10 - 19
统计学
STATISTICS (第二版)
相关系数的经验解释
1. 2. 3. 4.
|r|0.8时,可视为两个变量之间高度相关 0.5|r|<0.8时,可视为中度相关 0.3|r|<0.5时,视为低度相关 |r|<0.3时,说明两个变量之间的相关程度 极弱,可视为不相关
10 - 20
10 - 6
统计学
STATISTICS (第二版)
函数关系
(几个例子)

某种商品的销售额 y 与销售量 x 之间的关系 可表示为 y = px (p 为单价)

典型相关分析的实例ppt课件

典型相关分析的实例ppt课件

可编辑课件
6
可编辑课件
7
简单相关系数矩阵
可编辑课件
8
简单相关系数公式符号
Corr(X)=R11 Corr(X,Y)=R12
Corr(Y,X)=R21
R21 R12
可编辑课件
Corr(Y)=R22
9
简单相关系数 描述两组变量的相关关系的缺点
➢只是孤立考虑单个X与单个Y间的相关 ,没有考虑X、Y变量组内部各变量间的 相关。
1.
求X,Y变量组的相关阵
R= R11
R
21
R12
R
2
2

2. 求矩阵 A、B
3. A(R11)1R12(R22)1R21
B(R22)1R21(R11)1R12
4. 可以证明A、B有相同的非零特征根;
可编辑课件
16
3. 求A或B的λi(相关系数的平方)与 i ,
i=1,…,m,即 i i2 ;
2. 第一对典则相关系数较两组变量间任一个简 单相关系数的绝对值都大,即
3. ρ1≥max(|Corr(Xi,Yj)|) 或
4.
ρ1≥max(|Corr(X,Yj)|) ≥max(|Corr(Xi,Y)|)
可编辑课件
33
(四)校正典型相关系数
(Adjusted Canonical Correlation)
的应用。
可编辑课件
4
实例(X与Y地位相同)
可编辑课件
5
1985年中国28 省市城市男生 (19~22岁)的调查数据。记形态指标身
高(cm)、坐高、体重(kg)、胸围、肩 宽、盆骨宽分别为X1,X2,…,X6;
机能指标脉搏(次/分)、收缩压 (mmHg) 、舒张压(变音)、 舒张压(消 音)、肺活量(ml)分别为Y1,Y2,…, Y5。现欲研究这两组变量之间的相关 性。

第九章 相关分析

第九章 相关分析
25
第九章 相关分析
( y y)2
=
( y yc )2
+
( yc y)2
由此可以推导出:
( y yc ) ( y y) ( yc y)
2 2
2
2
Lyy (a bx a b x) Lyy b ( x x)
2 2
Lyy b Lxx
表明两变量完全不相关。 (4)当计算相关系数的原始数据较多(如50项以 上)时,认为相关系数在0.3以下为无相关, 0.3以上为有相关;0.3-0.5为低度相关;0.5-0.8 为显著相关;0.8以上为高度相关。
9
第九章 相关分析
相关系数计算分析例题
生产费用
序 月产量 号 1 1.2 2 2.0 3 3.1 4 3.8 5 5.0 6 6.1 7 7.2 8 8.0 ∑ 36.4
2 2
x n y y
2

2

0.97
说明产量和生产费用之间存在高度正相关。
第九章 相关分析
第三节
回 归 分 析
一、回 归 分 析 的 意 义 回归分析是对具有相关关系的两个或两个以 上变量之间的数量变化的一般关系进行测定,确 立一个相应的数学表达式,以便从一个已知量来 推测另一个未知量,为估算预测提供一个重要的 方法。 二、回 归 的 种 类 按自变量的个数分 按回归线的形态分 一元回归 多元回归 线性回归 非线性回归
Lxx x b b y Lyy
y br r x
Lyy L21 xx
第九章 相关分析
五 回归分析与相关分析的特点
1、回归分析必须区分自变量和因变量,而相关 分析不必区分。 2、回归分析的两个变量一个是自变量,一个是 因变量,通过给定自变量的值来推算因变量 的可能值;而相关分析的两个变量都是随机 变量。 3、回归分析中对于因果关系不甚明确的两个变量, 可以建立两个回归方程;而相关分析只能计算 出一个相关系数。 4、一种回归方程只能做一种推算,即只能给出自 变量的值来推算因变量的值,不能逆推。

第九章 相关与回归分析

第九章  相关与回归分析

第9章相关与回归分析【教学内容】相关分析与回归分析是两种既有区别又有联系的统计分析方法。

本章阐述了相关关系的概念与特点;相关关系与函数关系的区别与联系;相关关系的种类;相关关系的测定方法(直线相关系数的含义、计算方法与运用);回归分析的概念与特点;回归直线方程的求解及其精确度的评价;估计标准误差的计算。

【教学目标】1、了解相关与回归分析的概念、特点和相关分析与回归分析的区别与联系;2、掌握相关分析的定性和定量分析方法;3、掌握回归模型的拟合方法、对回归方程拟合精度的测定和评价的方法。

【教学重、难点】1、相关分析与回归分析的概念、特点、区别与联系;2、相关与回归分析的有关计算公式和应用条件。

第一节相关分析的一般问题一、相关关系的概念与特点(一)相关关系的概念在自然界与人类社会中,许多现象之间是相互联系、相互制约的,表现在数量上也存在着一定的联系。

这种数量上的联系和关系究其实质,可以概括为两种不同类型,即函数关系与相关关系。

相关关系:是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。

例如,商品销售额与流通费用率之间的关系就是一种相关关系。

(二)相关关系的特点1、相关关系表现为数量相互依存关系。

2、相关关系在数量上表现为非确定性的相互依存关系。

二、相关关系的种类1、相关关系按变量的多少,可分为单相关和复相关2、相关关系从表现形态上划分,可分为直线相关和曲线相关3、相关关系从变动方向上划分,可分为正相关和负相关4、按相关的密切程度分,可分为完全相关、不完全相关和不相关三、相关分析的内容相关分析是对客观社会经济现象间存在的相关关系进行分析研究的一种统计方法。

其目的在于对现象间所存在的依存关系及其所表现出的规律性进行数量上的推断和认识,以便为回归分析提供依据。

相关分析的内容和程序是:(1)判别现象间有无相关关系(2)判定相关关系的表现形态和密切程度第二节相关关系的判断与分析一、相关关系的一般判断(一)定性分析对现象进行定性分析,就是根据现象之间的本质联系和质的规定性,运用理论知识、专业知识、实际经验来进行判断和分析。

第9章-典型相关分析资料

第9章-典型相关分析资料

2020/11/11
主编:费宇
13
3.样本典型相关变量
• 前面我们是从变量x与变量y的协方差阵Σ出发考虑x 与y的典型相关变量,这称为总体典型相关变量,但
(9.3)
Cov(u, v) Cov(aT x, bT y) aTCov( x, y)b aT 12b.
2020/11/11
主编:费宇
6
1.总体典型相关变量
• 两个新变量u和v之间的相关系数(即典型相关 系数)为
Corr(u, v) Corr(aT x, bT y)
aT 12b
(aT 11a) (bT 22b)
另一组变量为y=(y1, y2,…, yq )T ,且p≤q ,变量x 与变量y的协方差阵为
Var(x)
Σ
Cov(
x,ቤተ መጻሕፍቲ ባይዱ
y)
Cov(
y,
x)
Cov( Var
x, y) ( y)
11 21
12
22
(9.1)
2020/11/11
主编:费宇
5
1.总体典型相关变量
• 为研究变量x与变量y之间的线性相关关系,我们 考虑它们之间的线性组合
2 2
x2 y2
aip xp aiT x, biq yq biT y.
(i 1,2,
, p)
(9.11)
每一对变量称为一对典型变量,其中u1和v1称为第一
对典型变量,它们之间的相关系数λ1称为第一典型相 关系数.
2020/11/11
主编:费宇
11
2.典型相关变量的性质
• 我们不加证明的给出典型变量以下三个性质: • (1)每一对典型变量ui及vi (i=1,2,…,p)的标准差

(9)第9章 相关分析

(9)第9章  相关分析



列边缘分布
列观察值的合计数的分布 例如,四个分公司接受调查的人数分别为 100 人, 120 人, 90人,110人
2. 条件分布与条件频数


变量 X 条件下变量 Y 的分布,或在变量 Y 条件下 变量 X 的分布 每个具体的观察值称为条件频数
9 - 17
社会 统计学
条件频数
观察值的分布
期望频数的分布
(例题分析)
一分公司 二分公司 三分公司 四分公司
赞成该 方案
实际频数 期望频数
实际频数 期望频数
68 66
32 34
75 80
75 40
57 60
33 30
79 73
31 37
反对该 方案
9 - 23
2
社会 统计学
列联表 (独立性)检验
判断两个分类变量之间是否存在联
系。对父母的孝敬程度是否与孩子的
9 - 32
社会 统计学
相关系数
(原理分析)
一个简化的 22 列联表
因素 Y y1 y2 合计
9 - 33
因素 X x1 x2
合计
a c a+c
b d b+d
a+b c+d n
社会 统计学
相关系数
(原理分析)
列联表中每个单元格的期望频数分别为 (a b)(a c) (a c)(c d ) e11 e21 n n (a b)(b d ) (b d )(c d ) e12 e22 n n 将各期望频数代入 的计算公式得
9 - 30
社会 统计学


利用2的相关测量

第九章 典型相关分析 《应用多元统计分析》 ppt课件

第九章 典型相关分析 《应用多元统计分析》 ppt课件

aΣ12b ,
(9.14)
式(9.14)说明, 的值就是线性组合U 和V 之间的相关系数。因此,式(9.11)可写成
Σ11a Σ12b 0 ,
(9.15)
Σ21a Σ22b 0 ,
(9.16)
为求解方程,先以
Σ12
Σ1 22
左乘以式(9.16),并将式(9.15)代入式(9.16),得
来度量。当 p 1, q 1 时,对两组变量两两求相关系数,就得到了 ( p q) ( p q)阶相
关阵。在变量数较多的时候,直接通过相关阵研究两组变量之间的相关关系不仅繁琐,同时 也不容易抓住问题的本质。回归分析中的复相关系数给了我们提示,复相关系数可以描述一 个变量与一组变量线性组合之间的相关性。那么是否能够更进一步从每一组变量中构造少数 综合变量,用少数综合变量的相关关系来反映两组变量之间的相关关系呢?
为典型变量,这些变量对之间的相关系数称为典型相关系数。
6
一、总体典型变量与典型相关系数
由典型相关分析原理,典型相关分析希望寻求 a 和 b 使得 UV 达到最大,但是由于随机
变量乘以常数时不改变它们的相关系数,为了防止不必要的结果重复出现,最好的限制是令
D(U ) 1和 D(V ) 1。于是,我们的问题就转化为,在
这里,我们不加证明地直接给出典型变量所具有的性质:
性质 9.1:由 X1, X2, , X p 所组成的典型相关变量U1,U2, ,U p 互不相关;同样地, 由 Y1,Y2, ,Yq 所组成的典型相关变量V1,V2, ,Vp 也互不相关,并且它们的方差均等于 1。
用数学表达式为:
D(Uk ) D(Vk ) 1,
一、典型相关分析的基本思想
假设一组随机变量为 X1, X2, , X p ,另一组随机变量为Y1,Y2, ,Yq ,我们要研究两组

第9章 相关分析与一元回归分析

第9章 相关分析与一元回归分析

郑州轻工业学院数学与信息科学系第九章:相关分析与一元回归分析概率统计教研组变量之间的关系可以分为函数关系和相关关系两类,函数关系表示变量间确定的对应关系,而相关关系则是变量间的某种非确定的依赖关系.相关分析主要是研究随机变量间相关关系的形式和程度,在相关关系的讨论中,两个变量的地位是同等的,所使用的测度工具是相关系数,而回归分析则侧重考察变量之间的数量伴随关系,并通过一定的数学表达式将这种数量关系描述出来,用于解决预测和控制等实际问题.本章主要学习相关分析和一元回归分析的有关概念、理论和方法.●【回归名称的来历】―回归”这一词最早出现在1885年,英国生物学家兼统计学家——弗朗西斯⋅高尔顿(Francis Galton )在研究遗传现象时引进了这一名词.他研究分析了孩子和父母身高关系后发现:虽然高个子的父母会有高个子的后代,但后代的增高并不与父母的增高等量.他称这一现象为“向平常高度的回归”.尔后,他的朋友麦尔逊等人搜集了上千个家庭成员的身高数据,分析出儿子的平均身高和父亲的身高x 大致为如下关系:(英寸) 93.33516.0ˆ+=y●【回归名称的来历】这表明:(1)父亲身高增加1英寸,儿子的身高平均增加0.516英寸.(2)高个子父辈有生高个子儿子的趋势,但儿子的平均身高要比于父辈低一些.如x =80,那么低于父辈的平均身高.(3)低个子父辈的儿子们虽为低个子,但其平均身高要比父辈高一些.如x =80,那么高于父辈的平均身高,01.75ˆ=y,01.75ˆ=y●【回归名称的来历】可见儿子的高度趋向于“回归”到平均值而不是更极端,这就是“回归”一词的最初含义.诚然,如今对回归这一概念的理解并不是高尔顿的原意,但这一名词却一直沿用下来,成为数理统计中最常用的概念之一.回归分析的思想早已渗透到数理统计学科的其他分支,随着计算机的发展和各种统计软件的出现,回归分析的应用越来越广泛.主要内容§9.1相关分析§9.2回归分析在大量的实际问题中,随机变量之间虽有某种关系,但这种关系很难找到一种精确的表示方法来描述.例如,人的身高与体重之间有一定的关系,知道一个人的身高可以大致估计出他的体重,但并不能算出体重的精确值.其原因在于人有较大的个体差异,因而身高和体重的关系,是既密切但又不能完全确定的关系.随机变量间类似的这种关系在大自然和社会中屡见不鲜.例如,农作物产量与施肥量的关系,商业活动中销售量与广告投入的关系,人的年龄与血压的关系,每种股票的收益与整个市场收益的关系,家庭收入与支出的关系等等这种大量存在于随机变量间既互相联系,但又不是完全确定的关系,称为相关关系.从数量的角度去研究这种关系,是数理统计的一个任务.这包括通过观察和试验数据去判断随机变量之间有无关系,对其关系大小作出数量上的估计,我们把这种统计分析方法称为相关分析.相关分析通常包括考察随机变量观测数据的散点图、计算样本相关系数以及对总体相关系数的显著性检验等内容.●9.1.1散点图散点图是描述变量之间关系的一种直观方法.我们用坐标的横轴代表自变量X ,纵轴代表因变量Y ,每组观测数据(x i ,y i )在坐标系中用一个点表示,由这些点形成的散点图描述了两个变量之间的大致关系,从中可以直观地看出变量之间的关系形态及关系强度.图9-1 不同形态的散点图(a)(b)(c)(d)●9.1.1散点图图9-1 不同形态的散点图从散点图可以看出,变量间相关关系的表现形态大体上可分为线性相关、非线性相关、不相关等几种.就两个变量而言,如果变量之间的关系近似地表现为一条直线,则称为线性相关,如图9-1(a)和(b);(a)(b)(c)(d)●9.1.1散点图图9-1 不同形态的散点图如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关;如图9-1(c);如果两个变量的观测点很分散,无任何规律,则表示变量之间没有相关关系,如图9-1(d).(a)(b)(c)(d)●9.1.1散点图图9-1 不同形态的散点图在线性相关中,若两个变量的变动方向相同,一个变量的数值增加,另一个变量的数值也随之增加,或一个变量的数值减少,另一个变量的数值也随之减少,则称为正相关,如图9-1(a);(a)(b)(c)(d)●9.1.1散点图图9-1 不同形态的散点图若两个变量的变动方向相反,一个变量的数值增加,另一个变量的数值随之减少,或一个变量的数值减少,另一个变量的数值随之增加,则称为负相关,如图9-1(b).(a)(b)(c)(d)●9.1.1散点图通过散点图可以判断两个变量之间有无相关关系,并对变量间的关系形态做出大致的描述,但散点图不能准确反映变量之间的关系密切程度.因此,为准确度量两个变量之间的关系密切程度,需要计算相关系数.●9.1.2相关系数相关系数是对两个随机变量之间线性关系密切程度的度量.若相关系数是根据两个变量全部数据计算的,称为总体相关系数.设X ,Y 为两个随机变量,由定义4.5知,当D (X )D (Y )≠0时,总体相关系数的计算公式为:其中Cov (X ,Y )为变量X 和Y 的协方差,D (X )和D (Y )分别为X 和Y 的方差.,),(Cov DY DX Y X XY =ρ●9.1.2相关系数设(x i ,y i ),i =1,2,…,n ,为(X ,Y )的样本,记,11∑==n i i x n x ,11∑==ni i y n y ,)(11122∑=--=n i i x x x n s ∑=--=ni i y y y n s 122)(11●9.1.2相关系数【定义9.1】若s x s y ≠0,称为{x i }和{y i }的相关系数(也可简称为样本相关系数).r xy 常简记为r .r xy 的性质:(1)|r xy |≤1(2)|r xy |=1时,(x i ,y i ),i =1,2,…,n 在一条直线上.∑∑==----==n i i in i i i y x xyxy y y x xy y x x s s s r 1221)()())((●9.1.2相关系数【定义9.2】当r>0时,称{x i}和{y i}正相关,当r xy<0时,xy}和{y i}负相关,当r xy=0时,称{x i}和{y i}不相关称{xi实际应用中,为了说明{x}和{y i}的相关程度,通常将相i关程度分为以下几种情况:当|r|≥0.8时,可视{x i}与{y i}为高度线性相关;xy0.5≤|r|<0.8时,可视{x i}与{y i}为中度线性相关;xy0.3≤|r|<0.5时,视{x i}与{y i}为低度线性相关;xy当|r|<0.3时,说明{x i}与{y i}的线性相关程度极弱.xy●9.1.2相关系数说明:(1)有时个别极端数据可能影响样本相关系数,应用中要多加注意.(2)r xy=0,只能说明{x i}与{y i}之间不存在线性关系,并不能说明{xi}与{y i}之间无其他关系.(3)一般情况下,总体相关系数ρXY是未知的,通常是将样本相关系数rxy 作为ρXY的估计值,于是常用样本相关系数推断两变量间的相关关系.这一点要和相关系数的显著性检验结合起来应用.9.1.2相关系数【例9-1】用来评价商业中心经营好坏的一个综合指标是单位面积的营业额,它是单位时间内(通常为一年)的营业额与经营面积的比值.对单位面积营业额的影响因素的指标有单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分.这几个指标中车流量和人流量是通过同时对几个商业中心进行实地观测而得到的.而居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分是通过随机采访顾客而得到的平均值数据.9.1.2相关系数【例9-1】某市随机抽取20个商业中心有关数据图9-2 商业中心经营状况指标与数据9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:设各指标(变量)的变量名分别为:单位面积营业额:y,每小时机动车流量:x1,日人流量:x2,居民年消费额:x3,对商场环境的满意度:x4,对商场设施的满意度:x5,为商场商品丰富程度满意度:x6.(1)利用Excel分别作出y与x1,x2,…,x6的散点图.●9.1.2相关系数【例9-1】解:图9-3 y与x1,x2,…,x6的散点图可以看到,各散点图的散点分布和一条直线相比均有一定差别.●9.1.2相关系数【例9-1】解:图9-3 y与x1,x2,…,x6的散点图其中单位面积营业额(y)与日人流量(x2)、居民年消费额(x3)的线性关系相对较明显一些.●9.1.2相关系数【例9-1】解:图9-3 y与x1,x2,…,x6的散点图y与商场商品丰富程度满意度(x6)有一定的线性关系,而y与其余几个变量的线性关系较弱.●9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(1)利用Excel分别作出y与x1,x2,…,x6的散点图.实验操作:编号y x1x2x3x4x5x61 2.50.51 3.9 1.947962 3.20.26 4.24 2.867463 2.50.72 4.54 1.618874 3.4 1.23 6.98 1.92610105 1.80.69 4.210.7184760.90.36 2.910.625657 1.70.13 1.43 1.884928 2.60.58 4.14 1.9971069 2.10.81 4.660.9685710 1.90.37 2.15 1.8749311 3.4 1.26 6.47 2.110101012 3.90.12 5.33 3.475671310.23 2.530.5652414 1.70.56 3.780.7774615 2.6 1.04 5.53 1.3107916 2.7 1.18 5.98 1.2887917 1.40.61 1.27 1.4867118 3.2 1.05 5.77 2.1671099.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.,x2,…,x6的相关系数解:(2)利用Excel分别计算y与x1A B C D E F G22y与x1y与x2y与x3y与x4y与x5y与x6230.41270.790480.794330.341240.450200.69749=CORREL($B2:$B21,C2:C21)计算准备9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(2)利用Excel分别计算y与x,x2,…,x6的相关系数1编号y x1x2x3x4x5x61 2.50.51 3.9 1.947962 3.20.26 4.24 2.867463 2.50.72 4.54 1.618874 3.4 1.23 6.98 1.92610105 1.80.69 4.210.7184760.90.36 2.910.625657 1.70.13 1.43 1.884928 2.60.58 4.14 1.9971069 2.10.81 4.660.9685710 1.90.37 2.15 1.8749311 3.4 1.26 6.47 2.110101012 3.90.12 5.33 3.475671310.23 2.530.5652414 1.70.56 3.780.7774615 2.6 1.04 5.53 1.3107916 2.7 1.18 5.98 1.2887917 1.40.61 1.27 1.4867118 3.2 1.05 5.77 2.16710919 2.9 1.06 5.71 1.7469920 2.50.58 4.11 1.85796y与x1y与x2y与x3y与x4y与x5y与x60.410.790.790.340.450.7计算结果●9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(2)利用Excel分别计算y与x1,x2,…,x6的相关系数从相关系数的取值来看,单位面积营业额(y)与日人流量(x2)、居民年消费额(x3)接近高度相关;A B C D E F G 22y与x1y与x2y与x3y与x4y与x5y与x6 230.41280.79050.79430.34120.45020.69749●9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(2)利用Excel分别计算y与x1,x2,…,x6的相关系数y与商场商品丰富程度满意度(x6)则属于中度相关;A B C D E F G 22y与x1y与x2y与x3y与x4y与x5y与x6 230.41280.79050.79430.34120.45020.69749●9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(2)利用Excel分别计算y与x1,x2,…,x6的相关系数y与每小时机动车流量(x1)、对商场环境的满意度(x4)、对商场设施的满意度(x5)为低度相关;A B C D E F G22y与x1y与x2y与x3y与x4y与x5y与x6 230.41280.79050.79430.34120.45020.69749●9.1.3相关性检验设(xi ,yi),i=1,2,…,n,为(X,Y)的样本,相关性检验也就是检验总体X,Y的相关系数是否为0,通常采用费歇尔(Fisher)提出的t分布检验,该检验可以用于小样本,也可以用于大样本.检验的具体步骤如下:1)提出假设:假设样本是从不相关的两个总体中抽出的,即H0:ρXY= 0,H1:ρXY≠ 0如果否定了H就认为X,Y是相关的.●9.1.3相关性检验2)可以证明,当H 0成立时,统计量 因为H 0立时,|r xy |应该很小,从而T 的观测值应该取值较小,于是,在显著水平α下H 0的拒绝域是若T 的观测值记为t 0,衡量观测结果极端性的P 值:P = P {| T | ≥ | t 0|} = 2P {T ≥ | t 0 |})2(~122---=n t r n r T xyxy212xyxyr n r t --=)},2(|{|2/-≥n t t α●9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平 =0.05下,检验单位面积营业额与各变量之间的相关性.解:在例9.1的Excel工作表中继续如下操作:A B C D E F G22y与x1y与x2y与x3y与x4y与x5y与x623r=0.41270.790480.794330.341240.450200.69749 =B23*SQRT(20-2)/SQRT(1-B23^2)24t= 1.9224 5.4756 5.5519 1.5402 2.1391 4.129625P=0.0705 3.36E-05 2.86E-050.14090.46390.0006 =TDIST(B24,20-2,2)计算准备●9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平 =0.05下,检验单位面积营业额与各变量之间的相关性.解:在例9.1的Excel工作表中继续如下操作:编号y与x1x1x2x3x4x5x61 2.50.51 3.9 1.947962 3.20.26 4.24 2.867463 2.50.72 4.54 1.618874 3.4 1.23 6.98 1.92610105 1.80.69 4.210.7184760.90.36 2.910.625657 1.70.13 1.43 1.884928 2.60.58 4.14 1.9971069 2.10.81 4.660.9685710 1.90.37 2.15 1.8749311 3.4 1.26 6.47 2.110101012 3.90.12 5.33 3.475671310.23 2.530.5652414 1.70.56 3.780.7774615 2.6 1.04 5.53 1.3107916 2.7 1.18 5.98 1.2887917 1.40.61 1.27 1.4867118 3.2 1.05 5.77 2.16710919 2.9 1.06 5.71 1.7469920 2.50.58 4.11 1.85796y与x1y与x2y与x3y与x4y与x5y与x6r=0.412710.790480.794330.341240.45020.69749t= 1.92235 5.47556 5.54751 1.54023 2.13905 4.12956P=0.07053 3.4E-05 2.9E-050.14090.046390.00063计算结果●9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平 =0.05下,检验单位面积营业额与各变量之间的相关性.解:在例9.1的Excel工作表中继续如下操作:检验结果来看,单位面积营业额(y)与日人流量(x2)、居民年消费额(x3)、商场商品的丰富程度满意度(x6)、A B C D E F G 22y与x1y与x2y与x3y与x4y与x5y与x6 23r=0.41270.790480.794330.341240.450200.69749 24t= 1.9224 5.4756 5.5519 1.5402 2.1391 4.1296 25P=0.0705 3.36E-05 2.86E-050.14090.46390.0006●9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平α=0.05下,检验单位面积营业额与各变量之间的相关性. 解:在例9.1的Excel 工作表中继续如下操作:对商场设施的满意度(x 5)的相关系数显著不为0(P <α=0.05),即其相关性显著;A B C D E F G 22y 与x1y 与x2y 与x3y 与x4y 与x5y 与x623r =0.41270.790480.794330.341240.450200.6974924t = 1.9224 5.4756 5.5519 1.5402 2.1391 4.129625P =0.07053.36E-052.86E-050.14090.46390.0006●9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平 =0.05下,检验单位面积营业额与各变量之间的相关性. 解:在例9.1的Excel 工作表中继续如下操作:而不能拒绝y 与每小时机动车流量(x 1)、对商场环境的满意度(x 4)相关系数为0的假设(P >0.05),即其相关性不显著.A B C D E F G 22y 与x1y 与x2y 与x3y 与x4y 与x5y 与x623r =0.41270.790480.794330.341240.450200.6974924t = 1.9224 5.4756 5.5519 1.5402 2.1391 4.129625P =0.07053.36E-052.86E-050.14090.46390.0006回归分析是针对两个或两个以上具有相关关系的变量,研究它们的数量伴随关系,并通过一定的数学表达式将这种关系描述出来,建立回归模型.回归分析中总假设因变量是随机变量,自变量可以是随机变量也可以是一般变量(可以控制或精确测量的变量),我们只讨论自变量为一般变量的情况.为简单起见,以后的所有随机变量及其观测值均用小写字母表示.如果设随机变量y是因变量,x1,x2,…,xn是影响y的自变量,回归模型的一般形式为:y= f (x1,x2,…,x n) + ε其中ε为均值为0的正态随机变量,它表示除x1,x2,…,x n之外的随机因素对y的影响.在回归分析中,当只有一个自变量时,称为一元回归分析;当自变量有两个或两个以上时,称为多元回归分析;f是线性函数时,称线性回归分析,所建回归模型称为线性回归模型;f是非线性函数时,称非线性回归分析,所建回归模型称为非线性回归模型.线性回归模型的一般形式为:其中,β0和βi (i =1,2,…,k )是未知常数,称为回归系数,实际中常假定ε~N (0,σ2).一元线性回归模型的一般形式为:由ε~N (0,σ2)的假定,容易推出y ~N (β0+β1x ,σ2). 本章主要讨论一元线性回归分析和可化为线性回归的一元非线性回归分析.它们是反映两个变量之间关系的简单模型,但从中可了解到回归分析的基本思想、方法和应用,22110εββββ+++++=k k x x x y ,110εββ++=x y ),0(~2σεN●9.2.1一元线性回归分析让我们用一个例子来说明如何进行一元线性回归分析. 为了研究合金钢的强度和合金中含碳量的关系,专业人员收集了12组数据如表9-1所示.表9-1 合金钢的强度与合金中含碳量的关系序号123456789101112含碳量x(%)0.100.110.120.130.140.150.160.170.180.200.210.23合金钢的强度y(107Pa)42.043.045.045.045.047.549.053.050.055.055.060.0 试根据这些数据进行合金钢的强度y(单位:107Pa)与合金中含碳量x(%)之间的回归分析.●9.2.1一元线性回归分析为了研究这些数据中所蕴含的规律性,首先在Excel中由12对数据作出散点图,如图9-7所示.图9-7 画散点图从图看到,数据点大致落在一条直线附近,这告诉我们变量x和y之间大致可看作线性关系.●9.2.1一元线性回归分析为了研究这些数据中所蕴含的规律性,首先在Excel中由12对数据作出散点图,如图9-7所示.图9-7 画散点图从图中还看到,这些点又不完全在一条直线上,这表明x和y的关系并没有确切到给定x就可以唯一确定y的程度.●9.2.1一元线性回归分析为了研究这些数据中所蕴含的规律性,首先在Excel中由12对数据作出散点图,如图9-7所示.图9-7 画散点图事实上,还有许多其它随机因素对y产生影响.●9.2.1一元线性回归分析如果只研究x 和y 的关系,可考虑建立一元线性回归模型:(9.1)其中ε是除含碳量x 外其它诸多随机因素对合金钢强度y 的综合影响,假定它是零均值的正态随机变量. 由(9.1)式,不难算得y 的数学期望:(9.2)该式表示当x 已知时,可以精确地算出E (y ).称方程(9.2)为y 关于x 的回归方程.,110εββ++=x y ),0(~2σεN x y E 10)(ββ+=●9.2.1一元线性回归分析现对变量x ,y 进行了n 次独立观察,得样本(x i ,y i )(i =1,2,…,n ).据(9.1)式,此样本可由方程(9.3)来描述.这里εi 是第i 次观测时ε的值,是不能观测到的 由于各次观测独立,εi 看作是相互独立与ε同分布的随机变量.即有y i = β0+ β1x i + εi , (9.4)εi 相互独立,且εi ~N (0,σ2),i =1,2,…,ni i i x y εββ++=10●9.2.1一元线性回归分析y i = β0+ β1x i + εi , (9.4)εi 相互独立,且εi ~N (0,σ2),i =1,2,…,n(9.4)给出了样本(x 1,y 1),(x 2,y 2),…,(x n ,y n )的概率性质.它是对理论模型进行统计推断的依据,也常称(9.4)式为一元线性回归模型.要建立一元线性回归模型,首先利用n 组独立观测数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )来估计β0和β1,以估计值和分别代替(9.2)式中的β0和β1,得到(9.5)x y 10ˆˆˆββ+=●9.2.1一元线性回归分析(9.5) 由于此方程的建立有赖于通过观察或试验积累的数据,所以称其为经验回归方程(或经验公式),经验回归方程也简称为回归方程,其图形称为回归直线.当给定x= x0时,称为拟合值(预测值或回归值).那么,如何利用n组独立观察数据来估计β0和β1呢?一般常用最小二乘估计法和最大似然估计法,下面只介绍β和β1的最小二乘估计法.xy1ˆˆˆββ+=●9.2.1一元线性回归分析1.参数β0和β1的最小二乘估计设对模型(9.1)中的变量x ,y 进行了n 次独立观察,得样本(x i ,y i )(i =1,2,…,n ).由(9.3)式知随机误差εi =y i –(β0+β1x i ).最小二乘法的思想是:由x i ,y i 估计β0,β1时,使误差平方和达到最小的,分别作为β0,β1的估计,并称和为β0和β1的最小二乘估计.∑=+-=n i i i x y Q 121010)]([),(ββββ。

统计学第九章 相关与回归分析

统计学第九章  相关与回归分析

第九章相关与回归分析Ⅰ. 学习目的和要求本章所要学习的相关与回归分析是经济统计分析中最常重要的统计方法之一。

具体要求:1.掌握有关相关与回归分析的基本概念;2.掌握单相关系数的计算与检验的方法,理解标准的一元线性回归模型,能够对模型进行估计和检验并利用模型进行预测;3.理解标准的多元线性回归模型,掌握估计、检验的基本方法和预测的基本公式,理解复相关系数和偏相关系数及其与单相关系数的区别;4.了解常用的非线性函数的特点,掌握常用的非线性函数线性变换与估计方法,理解相关指数的意义;5.能够应用Excel软件进行相关与回归分析。

Ⅱ. 课程内容要点第一节相关与回归分析的基本概念一、函数关系与相关关系当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,这种关系称为确定性的函数关系。

当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但仍按某种规律在一定的范围内变化。

这种关系,称为具有不确定性的相关关系。

变量之间的函数关系和相关关系,在一定条件下是可以互相转化的。

116117二、相关关系的种类按相关的程度可分为完全相关、不完全相关和不相关。

按相关的方向可分为正相关和负相关。

按相关的形式可分为线性相关和非线性相关。

按所研究的变量多少可分为单相关、复相关和偏相关。

三、相关分析与回归分析相关分析是用一个指标来表明现象间相互依存关系的密切程度。

回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。

通过相关与回归分析虽然可以从数量上反映现象之间的联系形式及其密切程度,但是无法准确地判断现象内在联系的有无,也无法单独以此来确定何种现象为因,何种现象为果。

只有以实质性科学理论为指导,并结合实际经验进行分析研究,才能正确判断事物的内在联系和因果关系。

四、相关图相关图又称散点图。

它是以直角坐标系的横轴代表变量X ,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。

第九章 对应分析

第九章 对应分析

应用多元统计分析第九章对应分析对应分析又称相应分析,于1970年由法国统计学家J.P.Beozecri提出的.它是在R型和Q型因子分析基础上发展起来的多元统计分析方法,故也称为R-Q型因子分析.因子分析方法是用少数几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,又把握住了研究对象的相互关系.在因子分析中根据研究对象的不同,分为R型和Q型,如果研究变量间的相互关系时采用R型因子分析;如果研究样品间相互关系时采用Q型因子分析.无论是R型或Q型都未能很好地揭示变量和样品间的双重关系.另方面在处理实际问题中,样本的大小经常是比变量个数多得多.当样品个数n很大(如n>100),进行Q型因子分析时,计算n阶方阵的特征值和特征向量对于微型计算机的容量和速度都是难以胜任的.还有进行数据处理时,为了将数量级相差很大的变量进行比较,常常先对变量作标准化处理,然而这种标准化处理对于变量和样品是非对等的,这给寻找R型和Q型之间的联系带来一定的困难.第九章什么是对应分析对应分析方法是在因子分析的基础上发展起来的,它对原始数据采用适当的标度方法.把R型和Q型分析结合起来,同时得到两方面的结果---在同一因子平面上对变量和样品一块进行分类,从而揭示所研究的样品和变量间的内在联系.对应分析由R 型因子分析的结果,可以很容易地得到Q 型因子分析的结果,这不仅克服样品量大时作Q 型因子分析所带来计算上的困难,且把R 型和Q 型因子分析统一起来,把样品点和变量点同时反映到相同的因子轴上,这就便于我们对研究的对象进行解释和推断. 第九章 对应分析的基本思想由于R 型因子分析和Q 型分析都是反映一个整体的不同侧面,因而它们之间一定存在内在的联系. 对应分析就是通过一个变换后的过渡矩阵Z 将二者有机地结合起来.具体地说,首先给出变量间的协差阵R S =Z'Z 和样品间的协差阵Q S =ZZ' ,由于Z'Z 和ZZ'有相同的非零特征根,记为12...m λλλ≥≥≥,如果R S 的特征根i λ对应的特征向量为i v ,则Q S 的特征根i λ对应的特征向量i u Zv =由此可以很方便地由R 型因子分析而得到Q 型因子分析的结果.对应分析的基本思想由A 的特征根和特征向量即可写出R 型因子分析的因子载荷阵(记为R A )和Q 型因子分析的因子载荷阵(记为Q A ).§9.1 什么是对应分析基本思想由于A和B具有相同的非零特征根,而这些特征根又正是各个公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类.第十章典型相关分析相关分析是研究多个变量与多个变量之间的相关关系.如研究两个随机变量之间的相关关系可用简单相关系数表示;研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表示.1936年Hotelling首先将相关分析推广到研究多个随机变量与多个随机变量之间的相关关系,故而产生了典型相关分析,广义相关系数等一些有用的方法.第十章什么是典型相关分析在实际问题中,经常遇到要研究一部分变量和另一部分变量之间的相关关系,例如:在工业中,考察原料的主要质量指标(1,.....,p X X ) 与产品的主要质量指标(1,.....,p Y Y )间的相关性;在经济学中,研究主要肉类的价格与销售量之间的相关性; 在地质学中,为研究岩石形成的成因关系,考察岩石的化学成份与其周围围岩化学成份的相关性;在气象学中为分析预报24小时后天气的可靠程度,研究当天和前一天气象因子间的相关关系;第十章 什么是典型相关分析在教育学中,研究学生在高考的各科成绩与高二年级各主科成绩间的相关关系;在婚姻的研究中,考察小伙子对追求姑娘的主要指标与姑娘想往的小伙子的主要尺度之间的相关关系;在医学中,研究患某种疾病病人的各种症状程度与用科学方法检查的一些结果之间的相关关系;在体育学中,研究运动员的体力测试指标与运动能力指标之间的相关关系等.第十章 什么是典型相关分析一般地,假设有一组变量1,.....,p X X 与另一组变量1,.....,p Y Y (也可以记为1,....,p p q X X ++),我们要研究这两组变量的相关关系,如何给两组变量之间的相关性以数量的描述,这就是本章研究的典型相关分析.当p=q=1时,就是研究两个变量X 与Y 之间的相关关系.简单相关系数是最常见的度量.其定义为第十章 什么是典型相关分析当p ≥ 1 ,q=1时(或 q ≥ 1 , p =1) 设 则称为Y 与(X1,…,Xp) 的全相关系数.其实Y 对X 的回归为1(|)()()Y YX XX X E Y X x def x μμϕ-=+∑∑-且 并称R 为全相关系数 .第十章 什么是典型相关分析当p,q>1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新变量之间的相关.也就是求α=(α1,…, αp ) '和β =(β1,…, βq ) ' , 使得新变量:V = α1X 1+…+αp X p = α 'X1~(,),0XX XY p YX YY X N Y μσ+∑∑⎛⎫⎛⎫∑∑=> ⎪ ⎪∑⎝⎭⎝⎭1/21YX XX XY YY R σ-⎛⎫∑∑∑= ⎪⎝⎭(,())Y x Rρϕ=W = β1Y 1+…+ βq Y q = β 'Y 之间有最大可能的相关,基于这个思想就产生了典型相关分析(Canonical correlatinal analysis).第十章 总体典型相关设X=(X1,...,Xp )及Y=(Y1,...,Yq)为随机向量(不妨设p ≤q),记随机向量Z 的协差阵为 其中Σ11是X 的协差阵,Σ22是Y 的协差阵,Σ12=Σ’21是X,Y 的协差阵. 第十章 总体典型相关我们用X 和Y 的线性组合V=a X 和W=b Y 之间的相关来研究X 和Y 之间的相关.我们希望找到a 和b,使ρ(V,W) 最大.由相关系数的定义:又已知⎪⎭⎫ ⎝⎛∑∑∑∑=∑22211211第十章总体典型相关故有对任给常数c1,c2,d1,d2,显然有ρ(c1V+d1, c2W+d2)=ρ(V,W)即使得相关系数最大的V=a'X和W=b'X并不唯一.故加附加约束条件 Var(V)=a'Σ11a=1,Var(W)=b'Σ22b=1.问题化为在约束条件Var(V)= 1,Var(W)=1下,求a和b,使得ρ(V,W)= a'Σ12b达最大 .第十章样本典型相关设总体Z=(X1,...,X p,Y1,…,Y q )’.在实际问题中,总体的均值E(Z)= 和协差阵D(Z)= 通常是未知的,因而无法求得总体的典型相关变量和典型相关系数.首先需要根据观测到的样本资料阵对其进行估计.已知总体Z的n个样品:第十章 样本典型相关样本资料阵为若假定Z ~N(μ,∑),则协差阵 的最大似然估 计为第十章 样本典型相关我们从协差阵 的最大似然估计S*(或样本协差阵S)出发,按上节的方法可以导出样本典型相关变量和样本典型相关系数.还可以证明样本典型相关变量和样本典型相关系数是总体典型相关变量和样本典型相关系数的极大似然估计.也可以从样本相关阵R 出发来导出样本典型相关变量和样本典型相关系数.第十章 样本典型相关典型相关系数的显著性检验:总体Z 的两组变量X=(X 1,...,X p )’和Y =(Y 1, …,Y q )’如果不相()()()()1(1,2,...,)t t t p q X Z t n Y +⨯⎛⎫== ⎪⎝⎭'()()11()()nt t t Z Z Z Z def Sn ∧=∑=--∑关,即COV(X,Y )=∑12=0,以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间相关关系之前,应首先对以下假设H 0作统计检验.(1) 检验H 0 : ∑12=0 (即λ1=0)设总体Z ~N p+q (μ,∑).用似然比方法可导出检验H 0的似然比统计量为(A ,A 11,A 22为离差阵)第十章 样本典型相关典型相关系数的显著性检验 (2)检验H 0(i): λi =0 (i =2,...,p )当否定H 0时,表明X,Y 相关,进而可得出至少第一个典型相关系数λ1≠ 0.相应的第一对典型相关变量V 1,W 1可能已经提取了两组变量相关关系的绝大部分信息.在实际问题中,经常迂到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方11221122||||||A S A A S S Λ==⨯⨯法外,还有近年发展起来的偏最小二乘(PLS)回归方法.第十一章什么是偏最小二乘回归偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。

典型相关分析及其应用实例

典型相关分析及其应用实例

摘要典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性.【关键词】典型相关分析,样本典型相关,性质,实际应用ABSTRACTThe Canonical Correlation Analysis is an important studying topic of the Multivariate Statistical Analysis. It is the statistical analysis method which studies the correlation between two sets of variables. It can work to reveal the mutual line dependence relation availably between two sets of variables. With the help of the thought about the Principal Components, we can use a few comprehensive variables to reflect the linear relationship between two sets of variables. Nowadays It has already been used widely in the correlation analysis and forecasted analysis.This text describes the statistical thought of the Canonical Correlation Analysis firstly, and then defines the total canonical correlation variables and canonical correlation coefficient, and sum up their solution method briefly. After it I go deep into discuss some algorithm of the sample canonical correlation analysis thoroughly. According to the reasoning of the Canonical Correlation Analysis, sum up some of its important properties and give the identification, following it, I infer the significance testing about the canonical correlation coefficient. According to the analysis from the theories and the application, we can achieve the possibility and the superiority from canonical correlation analysis in the real life.【Key words】Canonical Correlation Analysis,Sample canonical correlation,Character,Practical applications目录前言 (1)第1章典型相关分析的数学描述 (2)第2章典型变量与典型相关系数 (3)2.1 总体典型相关 (3)2.2 样本典型相关 (4)2.2.1 第一对典型相关变量的解法 (4)2.2.2 典型相关变量的一般解法 (8)2.2.3 从相关矩阵出发计算典型相关 (9)第3章典型相关变量的性质 (11)第4章典型相关系数的显著性检验 (15)第5章典型相关分析的计算步骤及应用实例 (18)5.1 典型相关分析的计算步骤 (18)5.2 实例分析 (19)结语 (26)致谢 (27)参考文献 (28)附录 (29)前言典型相关分析(Canonical Correlation Analysis ,CCA)作为多元统计学的一个重要部分,是相关分析研究的一个主要内容.典型相关分析不仅其方法本身具有重要的理论意义,而且它还可以作为其他分析方法,如多重回归、判别分析和相应分析的工具,因此在多元分析方法中占有特殊的地位.典型相关的概念是在两个变量相关的基础上发展起来的.我们知道,两个随机变量的相关关系可以用它们的简单相关系数来衡量;一个随机变量与一组随机变量之间的相关关系可以用复相关系数来衡量.但考虑一组随机变量与另一组随机变量的关系时,如果运用两个变量的相关关系,分别考虑第一组每个变量和第二组中每个变量的相关,或者运用复相关关系,考虑一组变量中的每个变量和另一组变量的相关,这样做比较繁琐,抓不住要领.因此,为了用比较少的变量来反映两组变量之间的相关关系,一种考虑的思路就是类似主成分分析,考虑两组变量的线性组合,从这两个线性组合中找出最相关的综合变量,通过少数几个综合变量来反映两组变量的相关性质,这样便引出了典型相关分析.典型相关分析的基本思想是首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完毕为止.有了这样线性组合的最大相关,则讨论两组变量之间的相关,就转化为只研究这些线性组合的最大相关,从而减少研究变量的个数.典型相关分析是由Hotelling于1936年提出的.就目前而言,它的理论己经比较完善,计算机的发展解决了典型相关分析在应用中计算方面的困难,成为普遍应用的进行两组变量之间相关性分析技术.如在生态环境方面,用典型相关理论对预报场与因子场进行分析,实现了短期气象预测;借助典型相关,分析了植被与环境的关系;在社会生活领域,应用典型相关分析了物价指标和影响物价因素的相关关系等等.第1章 典型相关分析的数学描述一般地,假设有一组变量p X X X ,,,21 与另一组变量q Y Y Y ,,,21 ,我们要研究这两组变量之间的相关关系,如何给两组变量之间的相关性以数量的描述.当q p ==1时,就是我们常见的研究两个变量X 与Y 之间的简单相关关系,其相关系数是最常见的度量,定义为:)()(),(Y Var X Var Y X Cov xy =ρ当1≥p ,1=q (或1,1=≥p q )时,p 维随机向量'21),(p X X X X =,设),(~1∑⎥⎦⎤⎢⎣⎡+μp N Y X ,⎥⎦⎤⎢⎣⎡∑∑∑∑=∑22211211,其中,11∑是第一组变量的协方差阵,12∑是第一组与第二组变量的协方差阵,22∑是第二组变量的协方差阵.则称221211121∑∑∑∑=-R 为Y 与p X X X ,,,21 的全相关系数,全相关系数用于度量一个随机变量Y 与另一组随机变量p X X X ,,,21 的相关系数.当1,>q p 时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关.也就是做两组变量的线性组合即X X X X U p p '2211αααα=++= Y Y Y Y V q q '2211ββββ=++=其中,'21),,,(p αααα =和'21),,,(q ββββ =为任意非零向量,于是我们把研究两组变量之间的问题化为研究两个变量V U 与之间的相关问题,希望寻求α,β使U ,V 之间最大可能的相关,我们称这种相关为典型相关,基于这种原则的分析方法就是典型相关分析.第2章 典型变量与典型相关系数2.1 总体典型相关设有两组随机变量'21),,,(p X X X X =,'21),,,(q Y Y Y Y =,分别为维维和q p 随机向量,根据典型相关分析的思想,我们用X 和Y 的线性组合X 'α和Y 'β之间的相关性来研究两组随机变量X 和Y 之间的相关性.我们希望找到βα和,使得)(‘Y X ',βαρ最大.由相关系数的定义)()(),(),(''''''Y Var X Var Y X Cov Y X βαβαβαρ=易得出对任意常数d c f e ,,,,均有),(])(,)([''''Y X d Y c f X e βαρβαρ=++这说明使得相关系数最大的Y X '',βα并不唯一.因此,为避免不必要的结果重复,我们在求综合变量时常常限定1)('=X Var α , 1)('=Y Var β于是,我们就有了下面的定义:设有两组随机变量'21),,(p X X X X =,'21),,(q Y Y Y Y =,q p +维随机向量⎥⎦⎤⎢⎣⎡Y X 的均值向量为零,协方差阵0>∑(不妨设q p ≤).如果存在'1111),,(p ααα =和'1111),,(q βββ =,使得在约束条件1)('=X Var α ,1)('=Y Var β下,),(m ax ),('''1'1Y X Y X βαρβαρ=则称Y X '1'1,βα是Y X ,的典型相关变量,它们之间的相关系数称为典型相关系数;其他典型相关变量定义如下:定义了前1-k 对典型相关变量之后,第k 对典型相关变量定义为:如果存在'1),,(pk k k ααα =和'1),,(qk k k βββ =,使得 ⑴ Y X k k '',βα和前面的1-k 对典型相关变量都不相关;⑵ 1)('=X Var k α ,1)('=Y Var k β; ⑶ Y X k k ''βα和的相关系数最大,则称Y X k k ''βα和是Y X ,的第k 对(组)典型相关变量,它们之间的相关系数称为第k 个典型相关系数(p k ,,2 =).2.2 样本典型相关以上是根据总体情况已知的情形进行,而实际研究中,总体均值向量μ和协方差阵∑通常是未知的,因而无法求得总体的典型相关变量和典型相关系数,首先需要根据观测到的样本数据阵对∑进行估计. 2.2.1 第一对典型相关变量的解法设总体'11),,,,,(q p Y Y X X Z =,已知总体的n 次观测数据为:1)()()()(⨯+⎥⎥⎦⎤⎢⎢⎣⎡=q p t t t Y X Z (n t ,,2,1 =), 于是样本数据阵为)(212122221222211121111211q p n nq n n np n n q p q py y y x x x y y y x x x y y y x x x +⨯⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡若假定),,(~∑+μq p N Z 则由参考文献【2】中定理2.5.1知协方差阵∑的最大似然估计为'1)()()()(1∑=--∧--=∑nt t t Z Z Z Z n其中-Z =∑=nt t Z n 1)(1,样本协方差矩阵S ∧∑=为:⎥⎦⎤⎢⎣⎡=22211211S S S SS 式中∑=----=nj j j X X X X n S 1'11)()(1'112)()(1-=---=∑Y Y X X n S j nj j =21S ∑=----nj j j X X Y Y n 1')()(1 '122)()(1-=---=∑Y Y Y Y n S j nj j ∑=-=n j j X n X 11, ∑=-=nj j Y n Y 11令j j X U 'α=,j j Y V 'β=,则样本的相关系数为∑∑∑=-=--=-----=nj jnj jj nj j j j V VU UV V U U V U r 1212'1)()()()(),(又因为:-===-====∑∑∑X X n X n U n U n j j n j j n j j '1'1'1111ααα-===-====∑∑∑Y Y n Y n V n V n j j n j j n j j '1'1'1111ββββαββαα12''''1'''1)()(1)()(1S Y Y X X n V V U U n S j n j j j n j j V U jj =--=--=-=--=-∑∑ αααααα11''''1'''1)()(1)()(1S X X X X n U U U U n S j n j j j n j j U U jj =--=--=-=--=-∑∑ββββββ22''''1'''1)()(1)()(1S Y Y Y Y n V V V V n S j n j j j n j j V V jj =--=--=-=--=-∑∑ 所以ββααβα22'11'12'),(S S S V U r j j =由于j U ,j V 乘以任意常数并不改变他们之间的相关系数,即不妨限定取标准化的j U 与j V ,即限定j U 及j V 的样本方差为1,故有:1==j j j j V V U U S S (2.2.1) 则 βα12'),(S V U r j j = (2.2.2) 于是我们要求的问题就是在(2.2.1)的约束条件下,求p R ∈α,q R ∈β,使得式(2.2.2)达到最大.这是条件极值的问题,由拉格朗日乘子法,此问题等价于求α,β,使)1(2)1(2),(22'11'12'----=∧∧ββμααλβαβαϕS S S(2.2.3) 达到最大.式中,∧λ,∧μ为拉格朗日乘数因子.对上式分别关于α,β求偏导并令其为0,得方程组:⎪⎪⎩⎪⎪⎨⎧=-=∂∂=-=∂∂∧∧0022211112βμαβϕαλβαϕS S S S (2.2.4)分别用'α,'β左乘方程(2.2.4)得⎪⎩⎪⎨⎧====∧∧∧∧μββμαβλααλβα22'21'11'12'S S S S 又 ='12')(βαS αβ21'S 所以 ∧∧===λβααβμ'12'21')(S S也就是说,∧λ正好等于线性组合U 与V 之间的相关系数,于是(2.2.4)式可写为:⎪⎩⎪⎨⎧=-=-∧∧0022211112βλααλβS S S S 或 022211211=⎥⎦⎤⎢⎣⎡⎥⎥⎦⎤⎢⎢⎣⎡--∧∧βαλλS S S S(2.2.5) 而式(2.2.5)有非零解的充要条件是:022211211=--∧∧S S S S λλ (2.2.6)该方程左端是∧λ的q p +次多项式,因此有q p +个根.求解∧λ的高次方程(2.2.6),把求得的最大的∧λ代回方程组(2.2.5),再求得α和β,从而得出第一对典型相关变量.具体计算时,因∧λ的高次方程(2.2.6)不易解,将其代入方程组(2.2.5)后还需求解q p +阶方程组.为了计算上的方便,我们做如下变换:用12212-S S 左乘方程组(2.2.5)的第二式,则有12212-SS α21S -02212212=-∧βλS S S 即 12212-S S α21S =βλ12S ∧又由(2.2.5)的第一式,得 αλβ1112S S ∧= 代入上式: 12212-SS α21S 0112=-∧αλS(0)1122112212=-∧-αλS S S S (2.2.7)再用111-S 左乘式(2.2.7),得(111-S12212-SS 0)221=-∧αλp I S (2.2.8)因此,对∧2λ有p 个解,设为22221p r r r ≥≥≥ ,对α也有p 个解.类似地,用11121-S S 左乘式(2.2.5)中的第一式,则有011111211211121=--∧-αλβS S S S S S (2.2.9)又由(2.2.5)中的第二式,得βλα2221S S ∧= 代入到(2.2.8)式,有 11121(-SS 12S 0)222=-∧βλS再以122-S 左乘上式,得0)(21211121122=-∧--βλq I S S S S (2.2.10)因此对2∧λ有q 个解,对β也有q 个解,因此2∧λ为111-S 12212-S S 21S 的特征根,α是对应于2∧λ的特征向量.同时2∧λ也是1211121122S S S S --的特征根,β为相应特征向量.而式(2.2.8)和(2.2.10)有非零解的充分必要条件为:⎪⎪⎩⎪⎪⎨⎧=-=-∧--∧--002121112112222112212111q p I S S S S I S S S S λλ (2.2.11)对于(2.2.11)式的第一式,由于011>S ,022>S ,所以0111>-S ,0122>-S ,故有:2112212111S S S S --2121221221221112111S S S S S S ----= 而2121221221221112111S S S S S S ----与2111211222122122111----S S S S S S 有相同的特征根.如果记=∧T 12212111--S S S则 2111211222122122111----S S S SS S='∧∧T T类似的对式(2.2.11)的第二式,可得 ∧∧----=T T SS SSS S'21221221112111212122而'∧∧T T 与∧∧T T '有相同的非零特征根,从而推出(2.2.8)和(2.2.10)的非零特征根是相同的.设已求得'∧∧T T 的p 个特征根依次为: 022221>≥≥≥∧∧∧p λλλ则T T '的q 个特征根中,除了上面的p 个外,其余的p q -个都为零.故p 个特征根排列是021>≥≥≥p λλλ ,, 1210λλλλ-≥-≥≥-≥->- p p ,因此,只要取最大的1λ,代入方程组(2.2.5)即可求得相应的1αα=,1ββ=.令U =X '1α与Y V '1β=为第一对典型相关变量,而1'112'1),(λβα==S V U r 为第一典型相关系数.可见求典型相关系数及典型相关变量的问题,就等价于求解'∧∧T T 的最大特征值及相应的特征向量. 2.2.2 典型相关变量的一般解法从样本典型相关变量的解法中,我们知道求典型相关变量和典型相关系数的问题,就是求解'∧∧T T 的最大特征值及相应的特征向量.不仅如此,求解第k 对典型相关变量和典型相关系数,类似的也是求'∧∧T T 的第k 大的特征值和相应的特征向量.下面引用参考文献【2】中定理10.1.1 来得出样本典型相关的一般求法.设总体的n 次观测数据为:1)()()()(⨯+⎥⎥⎦⎤⎢⎢⎣⎡=q p t t t Y X Z (n t ,,2,1 =) 不妨设q p ≤,样本均值为0,协方差矩阵S 为:⎥⎦⎤⎢⎣⎡=22211211S S S SS 0> 记2122122111--∧=SS ST ,并设p 阶方阵'∧∧T T 的特征值依次为022221>≥≥≥∧∧∧p λλλ (p i i ,,1,0 =>λ);而p l l l ,,,21 为相应的单位正交特征向量.令 kk l S2111-∧=α,∧--∧=k k k S S αλβ211221则X U k k '∧=α,Y V kk '∧=β为Y X ,第k 对典型相关变量,'k ∧λ为第k 典型相关系数. 由上述分析不难看出,典型相关系数∧i λ越大说明相应的典型变量之间的关系越密切,因此一般在实际中忽略典型相关系数很小的那些典型变量,按∧i λ的大小只取前n 个典型变量及典型相关系数进行分析. 2.2.3 从相关矩阵出发计算典型相关以上我们从样本协方差阵S 出发,导出了样本典型相关变量和样本典型相关系数.下面我们从样本相关阵R 出发来求解样本典型相关变量和样本典型相关系数.设样本相关阵为)(ij r R =,其中jj ii ij ij s s s r /=,ij s 为样本协方差阵S 的i 行j 列元素.把R 相应剖分为⎥⎦⎤⎢⎣⎡=22211211R R R R R 有时,Y X 和的各分量的单位不全相同,我们希望在对各分量作标准化变换之后再做典型相关.记)(1X E =μ,)(2Y E =μ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=pp s s D 00111⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=++++q p q p p p s s D ,1,1200则 111111D R D S =,222222D R D S = 212112D R D S =,121221D R D S =, 对Y X 和的各分量作标准化变换,即令)(111*μ-=-X D X ,)(212*μ-=-Y D Y现在来求*X 和*Y 的典型相关变量*'*X i α,*'*Y i β,m i ,,2,1 =. **11111111X X S D S D R --==**11222222Y Y S D S D R --== **11112212X Y S D S D R --== **11221121Y X S D S D R --==于是1121122121111112112112221212121111111112112212111)()(---------------==DS S S S D D S D D S D D S D D S D R R R R因为 2112212111S S S S --i i i r αα2= 1121122121111---D S S S S D )()(121i i i D r D αα= 所以 2112212111R R R R --*2*i i i r αα= 式中*i αi D α1=,有111'1111'*11'*===i i i i i i S D R D R αααααα同理: 1211121122R R R R --*2*i i i r ββ= 式中*i βi D β1=,有122'2222'*22'*===i i i i i i S D R D R ββββββ,由此可见*i α,*i β为**,Y X 的第i 对典型系数,其第i 个典型相关系数为i r ,在标准化变换下具有不变性.第3章 典型相关变量的性质根据典型相关分析的统计思想及推导,我们归纳总结了典型相关变量的一些重要性质并对总体与样本分别给出证明.性质1 同一组的典型变量互不相关 ⅰ总体典型相关设Y X 与的第i 对典型变量为X U i i 'α= ,Y V i i 'β=,m i ,,2,1 =则有 0),(=j i U U ρ 0),(=j i V V ρ m j i ≤≠≤1 证明详见参考文献【5】. ⅱ样本典型相关设Y X 与的第i 对典型变量为X U i i 'α= ,Y V i i 'β=,m i ,,2,1 =因为 '111i i U U i i S S αα==,'221i iVV i i S S ββ==,m i ,,2,1 = '11(,)0i j i j U U i j r U U S S αα===,m j i ≤≠≤1'22(,)0i ji j VV i j r V V S S ββ===,m j i ≤≠≤1 表明由X 组成的第一组典型变量m U U U ,,,21 互不相关,且均有相同的方差1;同样,由Y 组成的第二组典型变量m V V V ,,,21 也互不相关,且也有相同的方差1.性质2 不同组的典型变量之间的相关性ⅰ总体典型相关i i i V U ρρ=),( m i ,,2,1 =0),(=j i V U ρ m j i ≤≠≤1 证明详见参考文献【5】. ⅱ样本典型相关i i i i i r V U r S ),(12'==βα, m i ,,2,1 ='1211''22111222(,)0,1i j i j U V i ji j j i j r U V S S S S S r i j mαβαβαα--=====≤≠≤表明不同组的任意两个典型变量,当j i =时,相关系数为i r ;当j i ≠时是彼此不相关的.记'21),,,(m U U U U =,'21),,,(m V V V V =,则上述性质可用矩阵表示为 ,UU m VV m S I S I ==UV S =Λ或 mm IU S I V Λ⎛⎫⎛⎫= ⎪ ⎪Λ⎝⎭⎝⎭其中12(,,...,)m diag r r r Λ=性质3 原始变量与典型变量之间的关系 求出典型变量后,进一步计算原始变量与典型变量之间的相关系数矩阵,也称为典型结构.下面我们分别对总体与样本进行讨论.ⅰ总体典型相关的原始变量与典型变量的相关性详见参考文献【2】. ⅱ样本典型相关 记m p ij m A ⨯==)(),,,(21αααα m q ij m B ⨯==)(),,,(21ββββ=S ⎥⎦⎤⎢⎣⎡22211211S S S S =⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛++++++++++++++++q p q p p q p p q p q p q p p p p pp p q p p p p pp p q p p p s s s s s s s s s s s s s s s s ,1,,1,,11,1,11,1,1,1,11,1111则A S X A X A X X n S n i i XU11'''1)()(1=--=-=-∑ B S X B X B X X n S n i i XV12'''1)()(1=--=-=-∑ A S X A X A Y Y n S n i i YU21'''1)()(1=--=-=-∑ B S Y B Y B Y Y n S n i i YV22'''1)()(1=--=-=-∑所以利用协方差进一步可以计算原始变量与典型变量之间的相关关系.若假定原始变量均为标准化变量,则通过以上计算所得到的原始变量与典型变量的协方差阵就是相关系数矩阵.1(,)pi j ik k r X U s α==∑,1(,)qi j i p k k r X V s β+==∑p i ,,2,1 = , m j ,,2,1 =,1(,)pi j i p k kjk r Y U s α+==∑,1(,)qi j i p p k kjk r Y V s β++==∑q i ,,2,1 = , m j ,,2,1 =性质4 设Y X 和分别为维维和q p 随机向量,令d X C X +='*,h Y G Y +='*,其中C 为p p ⨯阶非退化矩阵,d 为p 维常数向量,G 为q q ⨯阶非退化矩阵,q h 为维常数向量.则:ⅰ对于总体典型相关有:⑴ **Y X 和的典型相关变量为*'*)(X a i 和*'*)(Y b i ,其中i i a C a 1*-=,i i b G b 1*-=(p i ,,2,1 =);而i i b a 和是Y X 和的第i 对典型相关变量的系数.⑵ ],[])(,)[(''*'**'*Y b X a Y b X a i i i i ρρ=,即线性变换不改变相关性. 证明详见参考文献【2】.ⅱ对于样本典型相关有:⑴ **Y X 和的典型相关变量为*'*)(X a i 和*'*)(Y b i ,其中i i a C a 1*-=,i i b G b 1*-=(p i ,,2,1 =);而i i b a 和是Y X 和的第i 对典型相关变量的系数.⑵ ],[])(,)[(''*'**'*Y b X a r Y b X a r i i i i =,即线性变换不改变相关性. 证明:⑴ 设**Y X 和的典型相关变量分别为*'*)(X a U i =,*'*)(Y b V i =由于 i i a C a 1*-=,i i b G b 1*-=d X C X +='*,h Y G Y +='*所以 d C a X a d X C C a d X C a C U i i i i '1''''1'''1)()()()()(---+=+=+=h G b Y b h Y G G b h Y G b G V i i i i '1''''1'''1)()()()()(---+=+=+=即有i i b a 和是Y X 和的第i 对典型相关变量的系数. ⑵ 由⑴的证明可知*'*)(X a U i =d C a X a i i '1'')(-+= *'1'''*)()(h G b Y b Y b V i i i -+==由于d C a i '1')(-与h G b i '1')(-都是常数,所以],[])(,)([])(,)[('''1'''1''*'**'*Y b X a r h G b Y b d C a X a r Y b X a r i i i i i i i i =++=-- 即有线性变换不改变相关性.性质5 简单相关、复相关和典型相关之间的关系当1==q p , Y X 与之间的(惟一)典型相关就是它们之间的简单相关;当Y X q p 与时或,11==之间的(惟一)典型相关就是它们的复相关.复相关是典型相关的一个特例,而简单相关又是复相关的一个特例.从第一个典型相关的定义可以看出,第一个典型相关系数至少同)(Y X 或的任一分量与)(X Y 或的复相关系数一样大,即使所有这些复相关系数都很小,第一个典型相关系数仍可能很大;同样,从复相关的定义也可以看出,当1=p (或1=q )时,)()(X Y Y X 或与或之间的复相关系数也不会小于)()(X Y Y X 或与或的任一分量之间的相关系数,即使所有这些相关系数都很小,复相关系数仍可能很大.第4章 典型相关系数的显著性检验设总体Z 的两组变量'21),,,(p X X X X =,'21),,,(q Y Y Y Y =,且'),(Y X Z =),(~∑+μq p N ,在做两组变量X ,Y 的典型相关分析之前,首先应该检验两组变量是否相关,如果不相关,则讨论两组变量的典型相关就毫无意义. 1.考虑假设检验问题:0H :021====m ρρρ1H :m ρρρ,,,21 至少有一个不为零其中{}q p m ,m in =.若检验接受0H ,则认为讨论两组变量之间的相关性没有意义;若检验拒绝0H ,则认为第一对典型变量是显著的.上式实际上等价于假设检验问题0H :0),(12=∑=Y X Cov , 1H :012≠∑用似然比方法可导出检验0H 的似然比统计量||||||2211S S S =Λ其中q p +阶样本离差阵S 是∑的最大似然估计,且S =⎥⎦⎤⎢⎣⎡22211211S S S S ,11S ,22S 分别是11∑,22∑的最大似然估计.该似然比统计量Λ的精确分布已由霍特林(1936),Girshik (1939)和Anderson (1958)给出,但表达方式很复杂,又不易找到该分布的临界值表,下面我们采用Λ的近似分布.利用矩阵行列式及其分块行列式的关系,可得出:||·||||21122121122S S S S S S --==|S S S S |·|S |·||21-12212-1111122-I p S所以)1(001001||212212112212111∧=--∏-=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎪⎭⎫ ⎝⎛=-I =Λipi p p S S S S λλλ其中∧2iλ是∧∧'TT 的特征值(2122122111--∧=S S S T ),按大小次序排列为∧21λ≥∧22λ≥≥ 02>∧pλ,当1>>n 时,在0H 成立下Λ-=ln 0m Q 近似服从2f χ分布,这里pq f =,)1(211++--=q p n m ,因此在给定检验水平α之下,若由样本算出的20αχ>Q 临界值,则否定0H ,也就是说第一对典型变量1∧U ,1∧V 具有相关性,其相关系数为1∧λ,即至少可以认为第一个典型相关系数1∧λ为显著的.将它除去之后,再检验其余1-p 个典型相关系数的显著性,这时用Bartlett 提出的大样本2χ检验计算统计量:∏=∧∧∧∧-=---=Λpi ip22223221)1()1()1)(1(λλλλ则统计量11ln )]1(212[Λ++---=q p n Q近似地服从(1-p )(1-q )个自由度的2χ分布,如果21αχ>Q ,则认为2∧λ显著,即第二对典型变量2U ,2V 相关,以下逐个进行检验,直到某一个相关系数k ∧λ检验为不显著时截止.这时我们就找出了反映两组变量相互关系的1-k 对典型变量.2.检验)(0k H : ),,2(0p k k ==λ当否定0H 时,表明Y X ,相关,进而可以得出至少第一个典型相关系数01≠λ,相应的第一对典型相关变量11,V U 可能已经提取了两组变量相关关系的绝大部分信息.两组变量余下的部分可认为不相关,这时0≈k λ),,2(p k =,故在否定0H 后,有必要再检验)(0k H ),,2(p k =,即第k 个及以后的所有典型相关系数均为0),,3,2(p k =.为了减少计算量,下面我们采用二分法来减少检验次数,取检验统计量为∑=∧-++---=p ki i k q p k n Q )1ln()]1(21[2λ它近似服从)1)(1(+-+-k q k p 个自由度的2χ分布.在检验水平α下,若)]1)(1[(2+-+->k q k p Q k αχ,则拒绝0H ,即认为第k 对典型相关系数在显著性水平α下是显著的,否则不显著.从第2个典型相关系数到第p 个典型相关系数,共1-p 个数,所以根据二分法的原理,将它们分为一个区间[]p ,2,然后先检验第⎥⎦⎤⎢⎣⎡-21p 个典型相关系数即中位数,当021=⎥⎦⎤⎢⎣⎡-p λ时,即认为第⎥⎦⎤⎢⎣⎡-21p 个典型相关系数不相关,否定原假设,接着检验⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-21,2p ;若当021≠⎥⎦⎤⎢⎣⎡-p λ时,则检验⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-p p ,21.如此划分区间依次检验下去,由数学分析上的区间套定理,一定存在第k 个数),,3,2(p k =,使得01≠-k λ,而0=k λ.以上的一系列检验实际上是一个序贯检验,检验直到对某个k 值0H 未被拒绝为止.事实上,检验的总显著性水平已不是α了,且难以确定.还有,检验的结果易受样本容量大小的影响.因此,检验的结果只宜作为确定典型变量个数的重要参考依据,而不宜作为惟一的依据.第5章 典型相关分析的计算步骤及应用实例5.1 典型相关分析的计算步骤设)()1(,,n X X 为取自正态总体的样本(实际上,相当广泛的情况下也对),每个样品测量两组指标,分别记为'1),,(p X X X =,'1),,(q Y Y Y =,原始资料矩阵为:)(212122221222211121111211q p n nq n n np n n q p q py y y x x x y y y x x x y y y x x x +⨯⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡第一步 计算相关矩阵R ,并将R 剖分为⎥⎦⎤⎢⎣⎡=22211211R R R R R 其中11R ,22R 分别为第一组变量和第二组变量之间的相关系数矩阵,'2112R R =为第一组与第二组变量之间的相关系数.第二步 求典型相关系数及典型变量首先求2112212111R R R R A --∧=的特征根∧2iλ,特征向量)(1i D ∧α;1211121122R R R R B --∧=的特征根∧2iλ,特征向量)(2i D ∧β.)()(111)(i i D D ∧-∧=⇒αα,)()(212)(i i D D ∧-∧=ββ写出样本的典型变量为 X U ’)1(1∧∧=α,Y V ’)1(1∧∧=βX U ’)2(2∧∧=α,Y V ’)2(2∧∧=βX U p p ’)(∧∧=α,Y V p p ’)(∧∧=β第三步 典型相关系数的显著性检验 首先,检验第一对典型变量的相关系数,即0H :0^1=λ,1H :0^1≠λ它的似然比统计量为∏=-=---=Λpi i p1^2^2^22^211)1()1()1)(1(λλλλ则统计量11ln )]1(212[Λ++---=q p n Q给定显著性水平α,查表得2αχ,若21αχ>Q ,则否定0H ,认为第一对典型变量相关,否则不相关.如果相关则依次逐个检验其余典型相关系数,直到某一个相关系数^k λ),,2(p k =检验为不显著时截止.5.2 实例分析例1:某康复俱乐部对20名中年人测量了三个生理指标:体重)(1x 、腰围(2x )、脉搏(3x )和三个训练指标:引体向上(1y )、起坐次数(2y )、跳跃次数(3y ).数据如附录1:解:记'321),,(x x x X =,'321),,(y y y Y =,其中样本容量20=n .附录1中的数据用SPSS 统计软件计算得六个变量之间的相关矩阵如下:n Sig.(2-tailed) .113 .127. .526 .340 .884 N 20 20 20 202020 Y1Pearson Correlatio n -.390 -.552(*) .1511 .696(**).496(*)Sig.(2-tailed) .089 .012.526 . .001 .026 N 20 20 20202020Y2PearsonCorrelatio n -.493(*)-.646(**).225 .696(**) 1 .669(**)Sig.(2-tailed) .027 .002.340 .001 . .001 N 20 20 20 202020 Y3Pearson Correlatio n -.226 -.191 .035.496(*) .669(**)1Sig.(2-tailed) .337 .419.884 .026 .001 . N 20 2020202020** Correlation is significant at the 0.01 level (2-tailed).* Correlation is significant at the 0.05 level (2-tailed).即样本相关矩阵为:11R =⎪⎪⎪⎭⎫ ⎝⎛--1353.0366.01870.0122R =⎪⎪⎪⎭⎫ ⎝⎛1669.0496.01696.01'2112R R ==⎪⎪⎪⎭⎫⎝⎛------035.0225.0151.0192.0646.0552.0226.0493.0390.0于是特征方程 022112212111=---λR R R R用Matlab 求得矩阵2112212111R R R R --的特征值分别为0.6630、0.0402和0.0053,于是 797.01=λ,201.02=λ,073.03=λ下面我们进行典型相关系数的显著性检验,先检验第一对典型变量的相关系数,欲检验:0H :01=λ , 1H :01≠λ 它的似然比统计量为)1)(1)(1(2322211λλλ---=Λ=3504.0)0053.01)(0402.01)(6330.01(=--- 255.163504.0ln 5.15ln )]333(2120[11=⨯-=Λ++--=Q查2χ分布表得,919.16)9(205.0=χ,因此在05.0=α的显著性水平下,)9(205.01χ≥Q ,所以拒绝原假设0H ,也即认为第一对典型相关变量是显著相关的.然后检验第二对典型变量的相关系数,即进一步检验:0H :02=λ , 1H :02≠λ它的似然比统计量为9547.0)0053.01)(0402.01()1)(1(23222=--=--=Λλλ)4(488.9745.09547.0ln 08.16ln ])333(21120[205.02212χλ=<=⨯-=Λ+++---=-Q 所以无法否定原假设0H ,故接受0H :02=λ,即认为第二对典型相关变量不是显著相关的.由以上检验可知只需求第一对典型变量即可. 于是求797.01=λ的特征向量∧*1α,而∧*1β∧-=*12112211αλR R ,解得 ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=∧059.0579.1775.0*1α, ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=∧716.0054.1350.0*1β, 因此,第一对样本典型变量为*3*2*1*1059.0579.1775.0x x x u -+-= *3*2*1*1716.0054.1350.0y y y v +--=Y X 与第一对典型变量的相关系数为797.01=λ,可见两者的相关性较为密切,即可认为生理指标与训练指标之间存在显著相关性.例2:为了研究某企业不同部门人员工作时间的关系,随机选取25个企业进行入户调查,达到25个被访企业业务部门和技术部门经理每月工作时间和员工每月工作时间(单位为小时),具体数据如附表2分析:设业务部门经理和员工每月工作时间为(21,X X ),技术部门经理和员工每月工作时间为(21,Y Y ),利用典型相关分析研究企业业务部门和技术部门人员工作时间的关系.解:样本容量为25=n ,2=p ,2=q 分别为随机变量Y X 与的维数.⑴ 标准化随机变量'21),(X X X =与'21),(Y Y Y =.根据样本均值i x -与标准差ii S ,依照公式iiiki ki S x x x --=*,对数据标准化.⑵ 求解⎪⎪⎭⎫⎝⎛Y X 的相关矩阵R ,并将其分块⎪⎪⎭⎫⎝⎛=yy yxxy xx R RR R R . 将数据输入SPSS 软件求得相关系数矩阵如下:Correlations** Correlation is significant at the 0.01 level (2-tailed).所以样本相关矩阵⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=1834.0705.0705.01693.0711.01735.01R 分块后2222⎪⎪⎭⎫ ⎝⎛=yy yx xy xx R RR R R ⑶ 求解⎪⎪⎭⎫ ⎝⎛==----534949.0538840.0538840.0544309.011111yx yy xy xx R R R R M 的两个非零特征根,解得两个非零特征根为6218.021=λ,0029.022=λ.⑷ 进行相关系数的显著性检验,取r m ≤个显著性检验不为0的特征根.Y X 与第一对典型变量的相关系数为7885.01=λ,Y X 与第二对典型变量的相关系数为0537.02=λ.先检验第一对典型变量的相关系数,假设01H :01=λ(即第一对典型变量不相关),由典型相关系数的值可得3771.0)1)(1(22211=--=Λλλ计算统计量97.203771.0ln )5.224(ln )]1(21)1[(11=-=Λ++---=q p n Q 对于给定的显著性水平05.0=α488.9)4()1)(1(97.20205.021==+-+-≥=χχαm q m p Q所以否定零假设.01H :01=λ,即第一对典型变量是显著相关的.然后检验第二对典型变量的相关系数,假设02H :02=λ(即第二对典型变量不相关),由典型相关系数的值可得9971.0)1(222=-=Λλ 计算统计量05945.09971.0ln )5.224(ln )]1(21)2[(22=-=Λ++---=q p n Q 对于给定的显著性水平05.0=α841.3)1()1)(1(05945.0205.022==+-+-≤=χχαm q m p Q所以无法否定假设.02H :02=λ,即第二对典型变量不是显著相关的.由以上检验可知,只需求第一对典型变量即可.⑸ 求1=m 个显著性检验不为0的特征根21λ的特征向量1l ,而11111l R R m yx yy -=λ,解得'1)521548.0,55216.0(=l ,'1)538134.0,504018.0(=m .⑹ 求出r 对典型相关变量X l u j j '=,Y m v j j '=,.,,2,1m j = 根据上面求得的特征向量11m l 和,得第一对典型相关变量为⎩⎨⎧+==+==21'1121'11538134.0504018.0521548.055216.0Y Y Y m v X X X l u Y X 与第一对典型变量的相关系数为7885.01=λ,可见其相关性较为密切.⑺ 由于21'11521548.055216.0X X X l u +==,与业务部门经理和员工每月工作时间都成正比,而且系数差不多,所以u可以解释为业务部门人员工作时间.同1理v可以解释为技术部门人员的工作时间.可见一个企业技术部门和业务部门人1员月工作时间存在显著的相关性.典型相关分析是一种采用类似主成分分析的做法,在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通过研究两组的综合指标之间的关系来反映两组变量之间的相关关系.在实际中,只须着重研究相关关系较大的那几对典型相关变量.本文首先根据典型相关分析的统计理论,初步探讨了总体典型相关变量和典型相关系数,然后重点讨论了样本典型相关分析,以及它们的一系列性质与显著性检验,并做了相应的实例分析.通过实例分析,我们进一步明确了典型相关分析是研究两组变量之间相关性的一种降维技术的统计分析方法.而复相关是典型相关的一个特例,简单相关是复相关的一个特例.第一对典型相关包含有最多的有关两组变量间相关的信息,第二对其次,其他对依次递减.各对典型相关变量所含的信息互不重复.并且经标准化的两组变量之间的典型相关系数与原始的两组变量间的相应典型相关系数是相同的.本文是在我的指导老师吴可法教授的精心指导和悉心关怀下完成的,在我的学习生涯和论文工作中无不倾注着老师的辛勤汗水和殷切关怀.吴老师宽厚的人格、敏捷的思维、严谨的治学态度、渊博的知识、积极向上的人生态度、平易近人的师长风范和两年来的谆谆教导,使我深受启迪,并永远铭记在心.从吴老师身上,我不仅学到了扎实的专业知识和技能,更学到了做人的道理,这些教诲必将成为惠及一生的宝贵财富.在此谨向吴老师致以最衷心的感谢和美好的祝愿!论文期间,我得到了许多老师和同学的帮助,本人在这里对他们致以衷心的感谢.我还要感谢我的家人,是他们的理解、支持和鼓励,使我的学习能够顺利进行.最后衷心感谢在百忙之中评审论文和参加答辩的各位专家、教授!。

第九章 相关与回归分析 《统计学原理》PPT课件

第九章  相关与回归分析  《统计学原理》PPT课件

[公式9—4]
r xy n • xy
x y
[公式9—5]
返回到内容提要
第三节 回归分析的一般问题
一、回归分析的概念与特点
(一)回归分析的概念
现象之间的相关关系,虽然不是严格 的函数关系,但现象之间的一般关系值, 可以通过函数关系的近似表达式来反映, 这种表达式根据相关现象的实际对应资料, 运用数学的方法来建立,这类数学方法称 回归分析。
单相关是指两个变量间的相关关系,如 自变量x和因变量y的关系。
复相关是指多个自变量与因变量间的相关 关系。
(二)相关关系从表现形态上划分,可分为 直线相关和曲线相关
直线相关是指两个变量的对应取值在坐标 图中大致呈一条直线。
曲线相关是指两个变量的对应取值在坐 标图中大致呈一条曲线,如抛物线、指数曲线、 双曲线等。
0.578
a y b x 80 0.578 185 3.844
n
n7
7
yˆ 3.844 0.578x
二、估计标准误差 (一)估计标准误差的概念与计算 估计标准误差是用来说明回归直线方程 代表性大小的统计分析指标。其计算公式为:
Syx
y yˆ 2
n
[公式9—8]
实践中,在已知直线回归方程的情况下, 通常用下面的简便公式计算估计标准误差:
[例9—2] 根据相关系数的简捷公式计算有:
r
n xy x y
n x2 x2 n y2 y2
7 218018580
0.978
7 5003 1852 7 954 802
再求回归直线方程:
yˆ a bx
b
n xy x y
n x2 x2
7 2180 18580 7 50031852

第9章 典型相关分析

第9章 典型相关分析
2 1
(9.7) (9.8)
同理,由方程组(9.4)式可得
Σ 21 Σ 11 Σ 12 b Σ 22 b 0
2 1
1 用 Σ 111 和 Σ 2 分别左乘(9.7)和(9.8)式,得 2
1 Σ 1 11 Σ 1 2 Σ 2 2 Σ 2 1 a 2 a 0 1 1 2 Σ 22 Σ 21 Σ 11 Σ 12 b b 0
2 2
的极大值,其中 λ, ν 是 Lagrange 乘数。
Σ 12 b Σ 11a 0 a (9.4) Σ a Σ b 0 21 22 b
根据求极值的必要条件得
将(9.4)方程组的二式分别左乘 a 与 b 则得
a2 X 2 aP X P
(1) (1) (1)
(1)
V1 b
(1)
X
(2)
b1 X 1
(1)
(2)
b2 X 2
(1)
(2)
bq X q
(1)
(2)
我们称其为第一对典型变量, 最大特征根的平方根 1 即为两 典型变量的相关系数,我们称其为第一典型相关系数。
a Σ 1 2 b a Σ 1 1 a 0 b Σ 2 1 a b Σ 2 2 b 0
即有
a Σ 1 2 b a Σ 1 1 a b Σ 2 1 a b Σ 2 2 b
因为 ( b Σ 21a ) a Σ 12 b ,所以 a Σ 1 2 b ,知 为线 性组合 U , V 的相关系数。用 代替方程组中的 ,则 (9.4)方程组写为: Σ 1 2 b Σ 1 1a 0 (9.5) Σ 2 1a Σ 2 2 b 0

应用多元统计分析习题解答_典型相关分析

应用多元统计分析习题解答_典型相关分析

第九章 典型相关分析9.1 什么是典型相关分析?简述其基本思想。

答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。

用于揭示两组变量之间的内在联系。

典型相关分析的目的是识别并量化两组变量之间的联系。

将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。

基本思想:(1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。

即: 若设(1)(1)(1)(1)12(,,,)p X X X =X、(2)(2)(2)(2)12(,,,)q X X X =X 是两组相互关联的随机变量,分别在两组变量中选取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。

在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。

(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。

(3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。

9.2 什么是典型变量?它具有哪些性质?答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。

具体来说,()(1)()(1)()(1)()(1)1122i i i i i P PU a X a X a X '=+++a X()(2)()(2)()(2)()(2)1122i i i i i q qV b X b X b X '=+++b X在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称(1)(1)'a X 、(1)(2)'b X 是(1)X 、(2)X 的第一对典型相关变量。

第九章 直线回归与相关分析

第九章 直线回归与相关分析

ˆ L1 = y − t0.05 s y = 19.0645 − 2.447 × 2.1603 = 13.7782 ˆ L2 = y + t0.05 s y = 19.0645 + 2.447 × 0.8559 = 24.3508
第三节 直线相关
一、相关系数和决定系数 如果两个变量间呈线性关系,又不需要由x来估计 如果两个变量间呈线性关系,又不需要由 来估计 y,只需了 和y相关以及相关的性质,可通过计算 相关以及相关的性质, ,只需了x和 相关以及相关的性质 x和y相关程度和性质的统计数-相关系数来进行 相关程度和性质的统计数- 和 相关程度和性质的统计数 研究。 研究。 相关系数r为 相关系数 为: SP
ˆ L1 = y − t0.05 s y = 19.0645 − 2.447 × 0.8559 = 16.9701 ˆ ˆ L2 = y + t0.05 s y = 19.0645 + 2.447 × 0.8559 = 21.1589 ˆ
(四)单个y值的置信区间
单个y观测值的标准误为: 单个 观测值的标准误为: 观测值的标准误为
2
ˆ L1 = y − t a s y ˆ ˆ L2 = y + t a s y ˆ
根据例1,估计出黏虫孵化历期平均温度为 ℃ 根据例 ,估计出黏虫孵化历期平均温度为15℃时, 历期天数为多少( 置信区间)。 历期天数为多少(取95%置信区间)。 置信区间
x = 15 df = n − 2 = 8 − 2 = 6 ˆ y = a + bx = 57.04 + (−2.5317) × 15 = 19.0645 sy = sy / x ˆ 1 ( x − x )2 1 (15 − 16.8375) 2 + = 1.9835 × + = 0.8559 n SS x 8 55.1788

第9章 典型相关分析

第9章  典型相关分析

AV (Y | Fi )
q j 1
LYij2
q
▪ LYij2 為Y組變數中第j個變數在第i個典型變量(Fi)上的負荷 ▪ 由於典型相關係數的平方,,代表的是Y組變數第i個典型變量(Fi)
變異數被X組變數第i個典型變量(Ei)所解釋的部分,因此,RC(Fi|Ei)
即可表示為RC(Fi|Ei) = AV(Y|Fi) ×Ci2
▪ 如果有兩組變數,每組各有兩個變數, 我們可以先針對這兩組變數分別計算其 各自的線性組合,然後再計算這兩個線 性組合變數的相關性(即典型相關)
Ch.9典型相關分析
多變量分析—管理上的應用
2
典型相關分析架構
▪ 假設有兩組屬量變數,分別為X1, X2, X3,…, Xp及Y1, Y2, Y3,…, Yq。將兩組變數分別作線性組合,以各自形 成新的變數E1及F1
X1
X
X
2
X
P
Y1
Y
Y2
Yq
XX
XY
YX
YY
▪ 令E=a’X為所有X變數的線性組合,F=b’Y為所有Y變數的
線性組合,則E與F間的相關性為 E(EF' ) a' E(XY' )b a' XY b
▪ 與 是同樣的矩陣,此一矩陣 1
1
XX XY YY YX
E1 0.9818X1 0.0573X 2 F1 0.9853Y1 0.1569Y2
▪ 二典型變量之間的典 型相關為0.8558
▪ 第二組(Root 2)的 典型變量為
E2 0.1897X1 0.9984X 2 F2 0.1706Y1 0.9876Y2
▪ 兩個典型變量間的典 型相關為0.7755

多元统计分析 第9章(典型相关分析)

多元统计分析 第9章(典型相关分析)

x2 y2 a2 b2
x p y q a p b q
我 们 来ax考 与b虑 y之 间 的 相 . 关 性
.
31

定D
xy
xx yx
xy yy










cov(ax,by) acov(x, y)b axyb
var(ax) axxa, var(by) byyb
co(a rx r,by)
2 1 r
Z
1 2
ln 1 1
0 0
0
2(n 1)
对 显 著 水 平 , 拒 绝 域 为 U U 1 2
.
13
检验H0 : 0, H1 : 0
统计量 t
n2 1r2
r
近似服从t(n2)
对显著水平,拒绝域为 t t1 (n2) 2
注:SAS中使用这个统计量.
.
14
例题9.1.1 数据见教科书323页例10.3.2, 检验这些变量两两之间是否相关?
xx
xy b
2
yy b
同理可推出
xy
1
.
33
(2)若cor(rax,by)为负数, co则 r(rax,by) 为正数,而且仍面满的足限上 v制 ar, (ax) vara(x)1,所以可以只co考r(ra虑 x,by) 为正数的.情况
.
34
定 义 9.1 设 x ( x1 x 2 L x p ),
y ( y1 y2 L
yq
),
.
37
目标函数为
Q (a , b )
a
xy b
1
2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

V XY V Y Y
则随机变量 a1X,b1Y 的方差及相关系数为
我们来看9.1.2 的数据,数据文件名为dx.txt。读入并计算它的协 方差矩阵,然后对矩阵分块。
clc,clear XpV===3vlop;aqad=((c2'oe;v:\(dXa),t4a)\dx%.tx计t')算; 原始数据的协方V差xV矩xyVyxV阵yyx
例9.1.2:设有我校某班31名学生, 我们想研究他们在大学的学习、生活 行为和他们的专业课成绩、体育课成 绩有什么关系。两组数据的含义如下。 (数据为学习本课程某学生采集)
X1: 平均学习时间 X2: 平均锻炼时间 X1: 平均起床过6:30时间 Y1: 平均专业课成绩 Y1: 平均体育课成绩
X1 X2
则称 1, 1 是第一对典型相关变量,找出了第一组之后,我们
再找第二组,第三组……第q组。
我们来推导如何获得a1,b1使 1 a1'X和 1 b1'Y的相
关系数最大。设 X P 随机向量的协方差阵为V,把V分块写出,
记为
Y
q
V Y X V C (X )(O Y ,X )V C(O V X (,Y Y )) V V V Y XX X
X3
10
10 0 -15 -15 -10 0 30 5 0 0 20 5 -5 0 10 -10 10 20 -40 0 -50 -40 -40 0 -10 0 5 -5
Y1
238
227 198 263 263 267 242 194 150 237 253 221 242 263 245 226 269 234 225 290 245 247 251 250 273 217 211 234 287
第九章典型相关分析
第九章 典型相关分析
一、引言 二、直观解释与基本算法 三、案例9
9.1 引言
前面所讨论的方法都是对一组变量内部各变量之间相互关系
进行分析,讨论。但实际问题中常常涉及到两组随机变量之
间的关系,即
X X1,X2,,Xp YY1,Y2,,Yq
这里
X i(x1i,x2i, ,xN)i ' Yj(y1j,y2j, ,yN)j '
我们要从这两族中选取相关系数最大的一对,则称这一对为第一典 型相关变量,注意这里,分别是X1,X2,……,Xp和Y1,Y2,……,Yq 的线性函数,从而找到了这两组变量的相关关系。设
(1 ,1 )(a 1 X ',b 1 Y ') V (1 M ) 1 ,V ( 1 ) 1 A (,) X

11
则随机变量 a1X,b1Y 的方差及相关系数为
Y2
85
88 85 94 90 70 84 91 75 87 78 65 70 75 70 75 75 80 85 70 72 78 90 65 78 83 82 85 77
9.2 直观解释与基本算法
(1)直观解释
还是象主分量分析那样,将X1,X2,…Xp与Y1,Y2,……,Yq的方 差集中,其基本思想是:
X1,X2,……,Xp为向量空间中的一组向量,由代数知识可知它们可张 出一个空间Ω1,在这个空间中我们可以找到标准正交基基。这里假 定X1,X2,……,Xp相互之间没有线性关系。同理Y1,Y2,……,Yq,可 张出空间Ω2,也存在正交基簇。则存在
1 , 2
aX 'a1X1a2X2 apXp bX 'b1Y1b2Y2 bpYp
i1,2...p ..., j1,2,..q ....,
我们要探讨X,Y之间的关系。
例9.1.1:香烟的制作过程,为得到高质量的卷烟,要对以下烟 草指标进行配料实验。
X1:烟草等级 X2:发酵时间 …… Xp:香精量 进入加工系统并生产出成品烟卷,则对烟卷的质量有以下指标 衡量。
Y1:烟丝颜色 Y2:香度
a1 X b1Y
' '
是第一典型变量
再在各自空间中找一对相关系数次大的 2, 2 并且满足
12 1 2
这一过程一直继续下去,我们就可以找到k对典型变量了。这里
k=min(p,q)
(2)基本算法
设:X是向量矩阵X=(X1,X2,……,Xp);Y是向 量矩阵 Y= (Y1,Y2,……,Yq)。不失一般性,设p>q,考虑随机向量的 一切线性组合
…… Yq:焦油含量
我们可以将生产过程看作一个黑箱,通过研究
投入 X1,X2,,Xp
产出 Y1,Y2,,Yq 之间的相关关系,来找出生产过程的内部机制,从而达到优化产 生工艺的目的。见下图
显 然 X1,X2,……,Xp 与 Y1,Y2,……,Yq 之 间 的 关 系 是 令 人 感 兴 趣 的 。 如果能够找到某些Y确与X有一定的关系,我们就可以通过控制某 些X来达到提高产品质量和降低成本的目的。 我们很容易举出类似的例子,如名酒的勾兑,两组天气指标的相关 关系,生产系统的投入指标和产出指标关系等等。
(X)aX':aRp (Y)bY':bRq
显然当X、Y不同时,空间 ( X ) (Y ) 却可能有相同的部
分。 1,2, ,p 和 1, 2, , q 分别是两空间的基,
即其协方差矩阵为对角线,且方差为1。我们要寻找 , ,
即确 1定系 数1 a1,b1使
(1 ,1 )(a 1 X ',b 1 Y ') V (1 M ) 1 ,V ( 1 ) 1 A (,) X
协方差矩阵分块如下:
2732. -25.75 -732.4 1196. -67.29
-25.75 130.6 28.58 -23.11 62.01
ቤተ መጻሕፍቲ ባይዱ
V=
-732.4 28.58 336.2 -241.2 13.13
1196. -23.11 -67.29 62.01
-241.2 800.6 -42.16 13.13 -42.16 64.56
25 0
30 30 20 30 140 40 130 30 120 15 70 30 10 40 10 10 70 30 130 20 15 10 80 10 100 10 70 25 20 20 150 20 30 10 20 50 200 20 70 20 130 10 140 30 140 10 140 25 100 30 60 25 70 35 150 25
相关文档
最新文档