典型相关分析模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
即
XX
YY
66.552 49.719 57.038 2.205 35.257 42.971 34.086
49.719 62.695 77.848 2.576 42.971 66.638 40.610
XY
36.729 53.562 40.300 50.610 63.329 75.019 1.079 2.524
算得样本协差阵: X1 X1 66.552 X2 49.719 X3 57.038 X4 2.205 Y1 36.729 Y2 53.562 Y3 29.362
X2 49.719 62.695 77.848 -2.576 40.300 50.610 37.838
X3 57.038 77.848 144.781 -5.595 63.329 75.019 69.633
典型相关分析
典型相关分析是研究两组随机变量
X X 1 , X 2 , , X p 与 Y Y1 , Y2 , , Yq 之间的相关关系,
探讨它们之间相关关系的表达方式与强弱的度量。 在实际问题中,经常遇到要研究一部分变量与另一部分变量之间的相关关系, 例如:
在工厂里,考察原料的若干项质量指标 X 1 , X 2 , , X p 与产品的若干项主要 质量指标
2.205 77.848 2.576 144.781 5.595 5.595 7.000 34.086 40.610 44.410 29.362 37.838 69.633 0.260 57.038
0.415 0.233 0.149 0.037 0.132 0.157 0.177 0.002 1 1 A XX XY YY YX = 0.199 0.334 0.705 0.007 0.393 0.455 0.759 0.009 2 2 2 2 0 . 915 0 . 339 0 . 032 1 2 A 求得矩阵 的特征根: , , 3 , 4 0.000 0.182 相应得典型相关系数: 1 0.957 , 2 0.582 , 3 , 4 0 由于 3 相对于 1 , 2 已经很小,只计算前两对典型相关变量即可。 a i XX a i 1 2 22 0.339 1 0 .915
a X bY
与
的
问题就转化为在约束条件 a D X a 1 , bDY b 1 之下求
a, b
,使 a Cov X , Y b 达到最大。
XX X 如果 p q 维随机向量 Y 的协方差矩阵 YX
则
XY 已知 YY
由
a X , b Y
Cov a X , b Y D a X D b Y
a Cov X , Y b a D X a b D Y b
a , b 加以适当限制,使相关系数a X , bY 达 可知,若不对向量
到最大的 a , b 将不唯一。 这是因为,随机变量乘以常数后不改变相互间的相关系数。 较为合理的限制是 a D X a 1 且 bDY b 1 。 于是构造具有最大相关系数的两个综合性指标
( 10.14 ) ( 10.15 ) ( 10.16 )
a Cov X , Y b a XY b
a D X a a XX a
bDY b b YY b
两综合性指标
a X
与
bY
的构造就转化为求解约束优化问题
min a XY b a ,b s .t . a XX a 1 b YY b 1
X4 2.205 -2.576 -5.595 7.000 1.079 2.524 0.260
Y1 36.729 40.300 63.329 1.079 35.257 42.971 34.086
Y2 53.562 50.610 75.019 2.524 42.971 66.638 40.610
Y3 29.362 37.838 69.633 0.260 34.086 40.610 44.410
进一步算得对应于 i 1, 2 的特征向量 , 的分别满足条件
,
a1 0.031 ,0.019,0.058,0.072 a 2 0.139,0.014,0.089,0.019
类似地可算得
1 1 B YY YX XX XY
b1 0.121 ,0.021 ,0.021 b2 0.032,0.155,0.227
2 2 2 A 2 r 0 , 的非零特征根 1 再求矩阵 和
例: 考查吸烟者的年龄体形(指标为: X1
——年龄; X2
X 3 ——日吸烟量; ——体重;
X 4 ——胸围)与基本健康状况(指标为: Y1
Y3 ——舒张压) Y2 ——收缩压; ——脉搏;
之间的相关关系。 由于总体的协差阵未知,为了进行样本典型相关分析,随机抽取了容量为 15 的样本, 测得观测值如表 10.1 所示。 表 10.1 年龄 体重 日吸烟量 胸围 脉搏 收缩压 舒张压 (岁) (斤) (支) (厘米) (次/分) (mm Hg) (mm Hg) 25 125 30 83.5 70 130 85 26 131 25 82.9 72 135 80 28 128 35 88.1 75 140 90 29 126 40 88.4 78 140 92 27 126 45 80.6 73 138 85 32 118 20 88.4 70 130 80 31 120 18 87.8 68 135 75 34 124 25 84.6 70 135 75 36 128 25 88.0 75 140 80 38 124 23 85.6 72 145 86 41 135 40 86.3 76 148 88 46 143 45 84.8 80 145 90 47 141 48 87.9 82 148 92 48 139 50 81.6 85 150 95 45 140 55 88.0 88 160 95
Y , Y , , Y 之间的相关性;
1 2 q
在经济学中研究几种主要肉食品的价格与销售量之间的相关性; 在气象学中研究相继两天气象因子间的相关性; 在卫生防疫中研究某些疾病与生活习惯之间的相关性,等等。
典型相关分析方法采用主成分分析的做法,在每一组变量中都 适当构造若干个有代表性的综合性指标(变量的线性组合) ,通过考 察这些综合性指标间的相关性来揭示两组原始变量间的相关关系。 设 a a1 , a 2 , , a p , b b1 , b2 , , bq 确定的常值向量, 则 a X a1 X 1 a 2 X 2 a p X p 可看作是第一组随机变量
则主要由脉搏次数所决定。 又由于第一典型相关系数 1 0.957 为正且很接近于 1、
X4, X3
Y1与 的系数
皆为正,说明每分钟的脉搏次数与胸围和吸烟量有非常密切的正相关关系,即胸围 越大、吸烟量越多,心跳就越快。
( 10.17 )
经过一系列的理论推导,
r 对综合性指标ai X 和 biY ,i 1, 2, , r ,根据它们间 可以匹配出
X , X Y, b1Y 是 相关系数的大小,依次称a1
的第一对典型相关变量,
1 称第一典型相关系数;称 它们间具有最强的线性相关性,其相关系数
X ,b2 Y 是X , Y 的第二对典型相关变量,它们间的线性相关性仅次 a2
2 于第一对典型相关变量,其相关系数
从数学手段上看,就是先求矩阵
1 1 B YY YX XX XY
称第二典型相关系数;等等。 或
1 1 A XX XY YY YX
a a 1 bi YY bi 1 B 与各特征根相配对的分别满足条件 i XX i , 的特征 ai , bi i 1,2,, r 。 向量
是两个按某种规则
X
1
1
, X 2 , , X p 的某项综合性指标, b Y b1Y1 b2 Y2 bq Yq
2 q
Y , Y , , Y 的某项综合性指标,规则是希望通过适当选择向量
a, b
,使综合性指标
可看作是第二组随机变量
a X
与
bY
Leabharlann Baidu
有最大相关系数。
X 0 .139 X 1 0 .014 X 2 0 .089 X 3 0 .019 X 4 a2 第二对典型相关变量 Y 0.032Y1 0.155Y2 0.227 Y3 b2
其典型相关系数 2 0.582
其典型相关系数 1 0.957
对于典型相关分析的以上结果,可以归纳出一些概括性的结论: 做为年龄体形的第一项综合性指标
故得 第一对典型相关变量
0.61 0.667 0.827 = 0.111 0.288 0.019 0.108 0.032 0.332
X 0.031 X 1 0 .019 X 2 0.058 X 3 0 .072 X 4 a1 b1Y 0 .121Y1 0 .021Y2 0 .021Y3
X 0 .031 X 1 0.019 X 2 0 .058 X 3 0.072 X 4 , a1
由于 X 4 , X 3 的系数相对较大,表明该项指标主要由胸围和每日的吸烟量所决定。 而做为与该项指标有最大线性相关关系的健康状况综合性指标
b1Y 0.121Y1 0.021Y2 0.021Y3