第九章典型相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例9.1.2:设有我校某班31名学生, 我们想研究他们在大学的学习、生活 行为和他们的专业课成绩、体育课成 绩有什么关系。两组数据的含义如下。 (数据为学习本课程某学生采集)
X1: 平均学习时间 X2: 平均锻炼时间 X1: 平均起床过6:30时间 Y1: 平均专业课成绩 Y1: 平均体育课成绩
X1 X2
则随机变量 a1X,b1Y 的方差及相关系数为
25 0
30 30 20 30 140 40 130 30 120 15 70 30 10 40 10 10 70 30 130 20 15 10 80 10 100 10 70 25 20 20 150 20 30 10 20 50 200 20 70 20 130 10 140 30 140 10 140 25 100 30 60 25 70 35 150 25
(X)aX':aRp (Y)bY':bRq
显然当X、Y不同时,空间 ( X来自百度文库) (Y ) 却可能有相同的部
分。 1,2, ,p 和 1, 2, , q 分别是两空间的基,
即其协方差矩阵为对角线,且方差为1。我们要寻找 , ,
即确 1定系 数1 a1,b1使
(1 ,1 )(a 1 X ',b 1 Y ') V (1 M ) 1 ,V ( 1 ) 1 A (,) X
i1,2...p ..., j1,2,..q ....,
我们要探讨X,Y之间的关系。
例9.1.1:香烟的制作过程,为得到高质量的卷烟,要对以下烟 草指标进行配料实验。
X1:烟草等级 X2:发酵时间 …… Xp:香精量 进入加工系统并生产出成品烟卷,则对烟卷的质量有以下指标 衡量。
Y1:烟丝颜色 Y2:香度
V XY V Y Y
则随机变量 a1X,b1Y 的方差及相关系数为
我们来看9.1.2 的数据,数据文件名为dx.txt。读入并计算它的协 方差矩阵,然后对矩阵分块。
clc,clear XpV===3vlop;aqad=((c2'oe;v:\(dXa),t4a)\dx%.tx计t')算; 原始数据的协方V差xV矩xyVyxV阵yyx
X1,X2,……,Xp为向量空间中的一组向量,由代数知识可知它们可张 出一个空间Ω1,在这个空间中我们可以找到标准正交基基。这里假 定X1,X2,……,Xp相互之间没有线性关系。同理Y1,Y2,……,Yq,可 张出空间Ω2,也存在正交基簇。则存在
1 , 2
aX 'a1X1a2X2 apXp bX 'b1Y1b2Y2 bpYp
协方差矩阵分块如下:
2732. -25.75 -732.4 1196. -67.29
-25.75 130.6 28.58 -23.11 62.01
V=
-732.4 28.58 336.2 -241.2 13.13
1196. -23.11 -67.29 62.01
-241.2 800.6 -42.16 13.13 -42.16 64.56
我们要从这两族中选取相关系数最大的一对,则称这一对为第一典 型相关变量,注意这里,分别是X1,X2,……,Xp和Y1,Y2,……,Yq 的线性函数,从而找到了这两组变量的相关关系。设
(1 ,1 )(a 1 X ',b 1 Y ') V (1 M ) 1 ,V ( 1 ) 1 A (,) X
则
11
则称 1, 1 是第一对典型相关变量,找出了第一组之后,我们
再找第二组,第三组……第q组。
我们来推导如何获得a1,b1使 1 a1'X和 1 b1'Y的相
关系数最大。设 X P 随机向量的协方差阵为V,把V分块写出,
记为
Y
q
V Y X V C (X )(O Y ,X )V C(O V X (,Y Y )) V V V Y XX X
Y2
85
88 85 94 90 70 84 91 75 87 78 65 70 75 70 75 75 80 85 70 72 78 90 65 78 83 82 85 77
9.2 直观解释与基本算法
(1)直观解释
还是象主分量分析那样,将X1,X2,…Xp与Y1,Y2,……,Yq的方 差集中,其基本思想是:
a1 X b1Y
' '
是第一典型变量
再在各自空间中找一对相关系数次大的 2, 2 并且满足
12 1 2
这一过程一直继续下去,我们就可以找到k对典型变量了。这里
k=min(p,q)
(2)基本算法
设:X是向量矩阵X=(X1,X2,……,Xp);Y是向 量矩阵 Y= (Y1,Y2,……,Yq)。不失一般性,设p>q,考虑随机向量的 一切线性组合
…… Yq:焦油含量
我们可以将生产过程看作一个黑箱,通过研究
投入 X1,X2,,Xp
产出 Y1,Y2,,Yq 之间的相关关系,来找出生产过程的内部机制,从而达到优化产 生工艺的目的。见下图
显 然 X1,X2,……,Xp 与 Y1,Y2,……,Yq 之 间 的 关 系 是 令 人 感 兴 趣 的 。 如果能够找到某些Y确与X有一定的关系,我们就可以通过控制某 些X来达到提高产品质量和降低成本的目的。 我们很容易举出类似的例子,如名酒的勾兑,两组天气指标的相关 关系,生产系统的投入指标和产出指标关系等等。
第九章典型相关分析
第九章 典型相关分析
一、引言 二、直观解释与基本算法 三、案例9
9.1 引言
前面所讨论的方法都是对一组变量内部各变量之间相互关系
进行分析,讨论。但实际问题中常常涉及到两组随机变量之
间的关系,即
X X1,X2,,Xp YY1,Y2,,Yq
这里
X i(x1i,x2i, ,xN)i ' Yj(y1j,y2j, ,yN)j '
X3
10
10 0 -15 -15 -10 0 30 5 0 0 20 5 -5 0 10 -10 10 20 -40 0 -50 -40 -40 0 -10 0 5 -5
Y1
238
227 198 263 263 267 242 194 150 237 253 221 242 263 245 226 269 234 225 290 245 247 251 250 273 217 211 234 287