典型相关分析模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
典型相关分析
典型相关分析是研究两组随机变量
X X 1 , X 2 , , X
p
与 Y Y , Y
1
, , Y 之间的相关关系, 2 q
探讨它们之间相关关系的表达方式与强弱的度量。 在实际问题中,经常遇到要研究一部分变量与另一部 分变量之间的相关关系, 例如:
在 工 厂 里 , 考 察 原 料 的 若 干 项 质 量 指 标 X 1 , X 2 , , X 质量指标
可 知 , 若 不 对 向 量 a , b 加 以 适 当 限 制 , 使 相 关 系 数 a X , b Y 到最大的
达
a,b
将不唯一。
这是 因为,随 机变量乘 以常数后 不改变相 互间的相 关系数。 较 为 合 理 的 限 制 是 a D X a 1 且 b D Y b 1 。 于是 构造具有最 大相关系数 的两个综合 性指标 问 题 就 转 化 为 在 约 束 条 件 a D X a 1 a,b , 使 a Cov X , Y b 达 到 最 大 。
2
, b b
1 , b 2 , , b q
是 两 个 按 某 种 规 则
apX
p
可看作是第一组随机变量
X Y
1
1
, X 2 , , X
p
的 某 项 综 合 性 指 标 ,
b Y b 1 Y 1 b 2 Y 2 b q Y q 可 看 作 是 第 二 组 随 机 变 量 , Y 2 , ,Y q 的 某 项 综 合 性 指 标 , 规 则 是 希 望 通 过 适 当 选 择 向 量
a , b , 使 综 合 性 指 标 a X 与 b Y 有 最 大 相 关 系 数 。
由
a X , b Y
Cov a X , b Y D a X D b Y
a Cov X , Y b a D X a b D Y b
a X
与
b Y
的
, b D Y b 1 之 下 求
X 如果 p q 维随机向量 Y
则
的协方差矩阵
XX YX
XY 已知 YY
( 10.14) ( 10.15) ( 10.16)
a Cov X , Y b a XY b a D X a a XX a
b D Y b b YY b
两 综 合 性 指 标 a X 与 b Y 的 构 造 就 转 化 为 求 解 约 束 优 化 问 题
min a XY b a ,b s .t . a XX a 1 b YY b 1
( 10.17)
经过一系列的理论推导,
p
Y , Y
1
2
, , Y q
与 产品的若干项主要
之间的相关性;
பைடு நூலகம்
在经济学中研究几种主要肉食品的价格与销售量之间的相关性; 在气象学中研究相继两天气象因子间的相关性; 在卫生防疫中研究某些疾病与生活习惯之间的相关性,等等。
典型相关分析方法采用主成分分析的做法,在每一组变量中都 适 当 构 造 若 干 个 有 代 表 性 的 综 合 性 指 标 ( 变 量 的 线 性 组 合 ), 通 过 考 察这些综合性指标间的相关性来揭示两组原始变量间的相关关系。 设 a a 1 , a 2 , , a p 确定的常值向量, 则 a X a 1 X 1 a 2 X
— — 年 龄X ;2 — — 脉 搏Y; 2
— — 体 重 ;X
3
——日吸烟量; ——舒张压)
Y 3; ——收缩压
之间的相关关系。 由 于 总 体 的 协 差 阵 未 知 , 为 了 进 行 样 本 典 型 相 关 分 析 , 随 机 抽 取 了 容 量 为 15 的 样 本 , 测 得 观 测 值 如 表 10.1 所 示 。 表 10.1 年龄 体重 日吸烟量 胸围 脉搏 收缩压 舒张压 (岁) (斤) (支) ( 厘 米 ) ( 次 /分 ) ( m m H g ) ( m m H g ) 25 125 30 83.5 70 130 85 26 131 25 82.9 72 135 80 28 128 35 88.1 75 140 90 29 126 40 88.4 78 140 92 27 126 45 80.6 73 138 85 32 118 20 88.4 70 130 80 31 120 18 87.8 68 135 75 34 124 25 84.6 70 135 75 36 128 25 88.0 75 140 80 38 124 23 85.6 72 145 86 41 135 40 86.3 76 148 88 46 143 45 84.8 80 145 90 47 141 48 87.9 82 148 92 48 139 50 81.6 85 150 95 45 140 55 88.0 88 160 95
于第一对典型相关变量,其相关系数
X b 2 Y a2 , 是 X ,Y 的 第 二 对 典 型 相 关 变 量 ,它 们 间 的 线 性 相 关 性 仅 次 2
称第二典型相关系数;等等。
1 1 A 从数学手段上看,就是先求矩阵 或 XX XY YY YX 2 12 2 1 1 2 r 0 A B YY YX XX XY 的 非 零 特 征 根 ,再 求 矩 阵
和
B
与 各 特 征 根 相 配 对 的 分 别 满 足 条 件 a i XX a i 1 , b i YY b i 1 的 特 征
向 量 a i , bi
i 1, 2 , , r
。
X1 例 :考 查 吸 烟 者 的 年 龄 体 形 ( 指 标 为 :
X 4 — — 胸 围 ) 与 基 本 健 康 状 况 ( 指 标 为Y: 1
r 可以匹配出
对 综 合 性 指 标a i X
和b iY
, i 1, 2 , , r , 根 据 它 们 间
相 关 系 数 的 大 小 , 依 次 称a 1 X
,b 1Y 是 X , Y 的 第 一 对 典 型 相 关 变 量 , 称第一典型相关系数;称
1 它们间具有最强的线性相关性,其相关系数
典型相关分析是研究两组随机变量
X X 1 , X 2 , , X
p
与 Y Y , Y
1
, , Y 之间的相关关系, 2 q
探讨它们之间相关关系的表达方式与强弱的度量。 在实际问题中,经常遇到要研究一部分变量与另一部 分变量之间的相关关系, 例如:
在 工 厂 里 , 考 察 原 料 的 若 干 项 质 量 指 标 X 1 , X 2 , , X 质量指标
可 知 , 若 不 对 向 量 a , b 加 以 适 当 限 制 , 使 相 关 系 数 a X , b Y 到最大的
达
a,b
将不唯一。
这是 因为,随 机变量乘 以常数后 不改变相 互间的相 关系数。 较 为 合 理 的 限 制 是 a D X a 1 且 b D Y b 1 。 于是 构造具有最 大相关系数 的两个综合 性指标 问 题 就 转 化 为 在 约 束 条 件 a D X a 1 a,b , 使 a Cov X , Y b 达 到 最 大 。
2
, b b
1 , b 2 , , b q
是 两 个 按 某 种 规 则
apX
p
可看作是第一组随机变量
X Y
1
1
, X 2 , , X
p
的 某 项 综 合 性 指 标 ,
b Y b 1 Y 1 b 2 Y 2 b q Y q 可 看 作 是 第 二 组 随 机 变 量 , Y 2 , ,Y q 的 某 项 综 合 性 指 标 , 规 则 是 希 望 通 过 适 当 选 择 向 量
a , b , 使 综 合 性 指 标 a X 与 b Y 有 最 大 相 关 系 数 。
由
a X , b Y
Cov a X , b Y D a X D b Y
a Cov X , Y b a D X a b D Y b
a X
与
b Y
的
, b D Y b 1 之 下 求
X 如果 p q 维随机向量 Y
则
的协方差矩阵
XX YX
XY 已知 YY
( 10.14) ( 10.15) ( 10.16)
a Cov X , Y b a XY b a D X a a XX a
b D Y b b YY b
两 综 合 性 指 标 a X 与 b Y 的 构 造 就 转 化 为 求 解 约 束 优 化 问 题
min a XY b a ,b s .t . a XX a 1 b YY b 1
( 10.17)
经过一系列的理论推导,
p
Y , Y
1
2
, , Y q
与 产品的若干项主要
之间的相关性;
பைடு நூலகம்
在经济学中研究几种主要肉食品的价格与销售量之间的相关性; 在气象学中研究相继两天气象因子间的相关性; 在卫生防疫中研究某些疾病与生活习惯之间的相关性,等等。
典型相关分析方法采用主成分分析的做法,在每一组变量中都 适 当 构 造 若 干 个 有 代 表 性 的 综 合 性 指 标 ( 变 量 的 线 性 组 合 ), 通 过 考 察这些综合性指标间的相关性来揭示两组原始变量间的相关关系。 设 a a 1 , a 2 , , a p 确定的常值向量, 则 a X a 1 X 1 a 2 X
— — 年 龄X ;2 — — 脉 搏Y; 2
— — 体 重 ;X
3
——日吸烟量; ——舒张压)
Y 3; ——收缩压
之间的相关关系。 由 于 总 体 的 协 差 阵 未 知 , 为 了 进 行 样 本 典 型 相 关 分 析 , 随 机 抽 取 了 容 量 为 15 的 样 本 , 测 得 观 测 值 如 表 10.1 所 示 。 表 10.1 年龄 体重 日吸烟量 胸围 脉搏 收缩压 舒张压 (岁) (斤) (支) ( 厘 米 ) ( 次 /分 ) ( m m H g ) ( m m H g ) 25 125 30 83.5 70 130 85 26 131 25 82.9 72 135 80 28 128 35 88.1 75 140 90 29 126 40 88.4 78 140 92 27 126 45 80.6 73 138 85 32 118 20 88.4 70 130 80 31 120 18 87.8 68 135 75 34 124 25 84.6 70 135 75 36 128 25 88.0 75 140 80 38 124 23 85.6 72 145 86 41 135 40 86.3 76 148 88 46 143 45 84.8 80 145 90 47 141 48 87.9 82 148 92 48 139 50 81.6 85 150 95 45 140 55 88.0 88 160 95
于第一对典型相关变量,其相关系数
X b 2 Y a2 , 是 X ,Y 的 第 二 对 典 型 相 关 变 量 ,它 们 间 的 线 性 相 关 性 仅 次 2
称第二典型相关系数;等等。
1 1 A 从数学手段上看,就是先求矩阵 或 XX XY YY YX 2 12 2 1 1 2 r 0 A B YY YX XX XY 的 非 零 特 征 根 ,再 求 矩 阵
和
B
与 各 特 征 根 相 配 对 的 分 别 满 足 条 件 a i XX a i 1 , b i YY b i 1 的 特 征
向 量 a i , bi
i 1, 2 , , r
。
X1 例 :考 查 吸 烟 者 的 年 龄 体 形 ( 指 标 为 :
X 4 — — 胸 围 ) 与 基 本 健 康 状 况 ( 指 标 为Y: 1
r 可以匹配出
对 综 合 性 指 标a i X
和b iY
, i 1, 2 , , r , 根 据 它 们 间
相 关 系 数 的 大 小 , 依 次 称a 1 X
,b 1Y 是 X , Y 的 第 一 对 典 型 相 关 变 量 , 称第一典型相关系数;称
1 它们间具有最强的线性相关性,其相关系数