第20章__典型相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1x1 2 x2 p x p 1 y1 2 y2 q yq
典型相关
▪ 对于任意一组系数(1, 2 ,, p ) 和(1, 2 ,, q )都 可以通过上式求出一对典型变量,典型相 关分析中称之为典型变量。进而可以求出 典型变量的简单相关系数,称之为典型相 关系数。
▪ x 组的p个变量组合成一个,y组的q个变量 也组合成一个,然后计算简单相关来衡量 两组之间的相关性。问题是如何组合?
CANCORR过程
▪ SAS系统中利用CANCORR过程步进行典型相关 分析。
▪ CANCORR过程的语法格式如下: PROC CANCORR DATA= OUTSTAT=
OUT= ALL ; VAR 一组变量; WITH 另一组变量; PARTIAL 变量; RUN;
CANCORR过程
▪ DATA语句指定要分析的数据集名及一些选 项,它可以是原SAS数据集,也可以是corr、 cov、ucorr、ucov等矩阵。
▪ 共变异数为
Cov(x1*, y1*) Cov(1x,b1y) 1 xyb1
典型相关分析的理论架构
▪ 典型变量的系数称为典型权重,权重愈大 表示此变量对此典型变量的贡献愈大。在 以上的计算中,此权重为标准化后的资料 所得的,故k个资料的第i 典型变量得点为
aij
(x jk sj
xj)
冗余分析
典型相关
▪ 设两组变量分别为x组有p个变量(x1, x2,, xp)T, 而y组有q个变量(y1, y2,, yq )T,我们先分别把 x组和y组的变量组合起来(当然是用线性 组合),也就是
x1* 11x1 12 x2 1p xp y1* b11 y1 b12 y2 b1q yq
▪ 其中这些系数都是一些常数,就是组合的 比例,由于是线性组合,所以11 12 1p 1 且b11 b12 b1q 1 。
典型相关
▪ 典型关系分析是分析两组变量之间相关性的一种 统计分析方法,它包含了简单的Pearson相关分 析(两个组均含一个变量)和复相关分析(一个 组含有一个变量,而另一组含有多个变量)这两 种特殊情况。典型相关分析的基本思想和主成分 分析的基本思想相似,它将一组变量与另一组变 量之间单变量的多重线性相关性研究转化为对少 数几对综合变量之间的简单线性相关性的研究, 并且这少数几对变量所包含的线性相关性的信息 几乎覆盖了原变量组所包含的全部相应信息。
典型相关
▪ 有两个问题需要解决: ▪ 给定不同组合比例 11,12 ,,1p以及 b11, b12 ,, b1q ,
都可以算出不一样的简单相关系数,这使得这个 方法非常的不科学,每个人都可以依照自己的喜 好来决定组合比例,并且在衡量两组变量之间相 关性的问题上,也没有一个统一的标准。 ▪ 各组内变量之间的尺度不太相同,例如身高的尺 度跟脚掌长度的尺度就不相同,显然前者的变异 数会大于后者,这种情况是不合理的。
则所有不出现在其它语句中的数值变量均将列在 第一组内。 ▪ WITH语句列出两组变量中的第二组变量。该语 句不能省略。 ▪ PARTIAL语句用来指定协变量。系统以此协变量 来计算偏相关系数矩阵,然后进行典型相关分析。 ▪ 另外,freq语句、weight语句、by语句等也实用。
本章小节
▪ 典型相关分析的基本思想和主成分分析的基本思 想相似,它将一组变量与另一组变量之间单变量 的多重线性相关性研究转化为对少数几对综合变 量之间的简单线性相关性的研究,并且这少数几 对变量所包含的线性相关性的信息几乎覆盖了原 变量组所包含的全部相应信息。典型相关分析方 法的基本原理是:所有研究的两组变量为x组和y 组,x 组有p个变量(x1, x2 ,, xp ) , y 组有q个变 量 ( y1, y2 ,, yq ) ,则分别对这两组变量各做线性 组合后,再计算此两加权和的简单相关系数,然 后以这个简单相关系数当做这两组变数之间相关 性的衡量指标。
本章小节
▪ 冗余分析是通过原始变量与典型变量间的相关性, 分析引起原始变量变异的原因。以原始变量为因 变量,以典型变量为自变量,建立线性回归模型, 则相应的确定系数等于因变量与典型变量间的相 关系数的平方,它描述了由于因变量与典型变量 的线性关系引起的因变量变异在因变量的总变异 中的比例。
▪ 通过实例详细介绍了CANCORR过程步的语法及 基本格式,并阐述了如何利用此SAS过程步进行 典型相关分析以及进行结果解释。
第20章 典型相关分析
学习目标
▪ 了解典型相关分析的数学表达方式,假定 条件;
▪ 熟悉典型相关系数的数学含义; ▪ 掌握典型变量系数的数学含义; ▪ 掌握简单相关,复相关和典型相关的意义; ▪ 掌握典型相关分析的SAS过程步:
CANCORR过程步。
概述
▪ 对于两个变量,是用它们的相关系数来衡量它们 之间的线性相关关系的。当考虑一个变量与一组 变量的线性相关关系时,是用它们的多重相关系 数来衡量。但是,许多医学实际问题中,常常会 碰到两组变量之间的线性相关性研究问题。例如, 教育研究者想了解3个学术能力指标与5个在校成 绩表现之间的相关性;对于这类问题的研究引进 了典型相关系数的概念,从而找到了揭示两组变 量之间线性相关关系的一种统计分析方法——典 型相关分析。
本章小节
▪ 有典型相关分析得到的一系列典型变量的 典型相关系数所包含的有关原变量组之间 相关程度的信息一个比一个少。如果少数 几对典型变量就能够解释原数据的主要信 息,特别是如果一对典型变量就能够反映 出原数据的主要信息,那么,对两个变量 组之间相关程度的分析就可以转化为对少 数几对或者是一对典型变量的简单相关分 析。这就是典型相关分析的主要目的。
典型相关
▪ 典型相关分析的第二步是再次估计组合系数,使 得对应的典型变量相关系数达到第二大,且第二 对典型变量中的第一次变量与第一对典型变量中 的每一个变量不相关。这个最二大的相关系数是 第二典型相关系数,且称具有最二大相关系数的 这对典型变量和为第二典型变量。
▪ 如果两个组中变量的个数为p,q,p<q,那么寻 求典型变量的过程可以一直连续进行下去,直到 得到p对典型变量为止。
典型相关
▪ 从上述分析的过程可以看出,第一对典型 变量的第一典型相关系数描述了两个组中 变量之间的相关程度,且它提取的有关这 两组变量相关性的信息量最多。第二对典 型变量的第二典型相关系数也描述了两个 组中变量之间的相关程度,但它提取的有 关这两组变量相关性的信息量次多。以此 类推,
典型相关
▪ 可以得知,由上述方法得到的一系列典型 变量的典型相关系数所包含的有关原变量 组之间相关程度的信息一个比一个少。如 果少数几对典型变量就能够解释原数据的 主要信息,特别是如果一对典型变量就能 够反映出原数据的主要信息,那么,对两 个变量组之间相关程度的分析就可以转化 为对少数几对或者是一对典型变量的简单 相关分析。这就是典型相关分析的主要目 的。
典型相关分析的理论架构
▪ 设两组变量分别为x组有p个变量(x1, x2,, xp ),T 而y组有q个变量(y1, y2,, yq )T,典型相关分析
是找x组的线性组合 x1* 11x1 12x2 1p xp 与y 组的线性组合 y1* b11y1 b12 y2 b1q yq ,使得简 单相关系数为最大,其中
11
1
12
1 p
b11
b1
b12
b1q
典型相关分析的理论架构
▪ 设x组的共变异数Biblioteka Baidu阵为 , xx y组的共变异
数矩阵为 yy ,x与y的共变异数矩阵为 , xy
则 x1* 的变异数为
▪
Var(x1* ) Var(1x) 1 xx 1
▪ y1*的变异数为
Var(y1*) Var(b1y) b1 yyb1
▪ ALL选择项指令输出所有结果。 ▪ CORR选择项指令输出原始变量间的相关
系数矩阵。 ▪ VP选择项用来为VAR语句中变量的典型变
量命名前缀,名字不超过40个字符串长。
CANCORR过程
▪ WP选择项用来为WITH语句中变量的典型变量命 名前缀,名字不超过40个字符串长。
▪ EDF选择项用来指定该回归分析的残差自由度。 ▪ VAR语句列出两组变量中的第一组变量。若缺省,
典型相关
▪ 典型相关分析方法的基本原理是:所有研 究的两组变量为x组和y组,x 组有p个变 量 (x1, x2 ,, x p ), y 组有q个变量( y1, y2 ,, yq ) , 则分别对这两组变量各做线性组合后,再 计算此两加权和的简单相关系数,然后以 这个简单相关系数当做这两组变数之间相 关性的衡量指标。即
▪ 冗余分析是通过原始变量与典型变量间的相关性, 分析引起原始变量变异的原因。以原始变量为因 变量,以典型变量为自变量,建立线性回归模型, 则相应的确定系数等于因变量与典型变量间的相 关系数的平方,它描述了由于因变量与典型变量 的线性关系引起的因变量变异在因变量的总变异 中的比例。
▪ 典型负荷为变量与典型变量的相关系数,可由相 关系数的平方了解此典型变量解释了此变量多少 比例的变异数。
典型相关
▪ 针对第一个问题,“在所有的组合中,寻 找一个组合使得简单相关系数为最大”, 可能是个好想法;另外,寻找一个组合使 得简单相关系数为最小,此简单相关系数 就是典型相关系数,而典型相关系数的平 方称为典型根。
典型相关
▪ 对于第二个问题,解决的方法就是对资料 进行标准化。
▪ 典型相关分析的第一步是估计组合系数, 使得对应的典型变量和的相关系数达到最 大。这个最大的相关系数是第一典型相关 系数,且称具有最大相关系数的这对典型 变量为第一典型变量。
典型相关
▪ 对于任意一组系数(1, 2 ,, p ) 和(1, 2 ,, q )都 可以通过上式求出一对典型变量,典型相 关分析中称之为典型变量。进而可以求出 典型变量的简单相关系数,称之为典型相 关系数。
▪ x 组的p个变量组合成一个,y组的q个变量 也组合成一个,然后计算简单相关来衡量 两组之间的相关性。问题是如何组合?
CANCORR过程
▪ SAS系统中利用CANCORR过程步进行典型相关 分析。
▪ CANCORR过程的语法格式如下: PROC CANCORR DATA= OUTSTAT=
OUT= ALL ; VAR 一组变量; WITH 另一组变量; PARTIAL 变量; RUN;
CANCORR过程
▪ DATA语句指定要分析的数据集名及一些选 项,它可以是原SAS数据集,也可以是corr、 cov、ucorr、ucov等矩阵。
▪ 共变异数为
Cov(x1*, y1*) Cov(1x,b1y) 1 xyb1
典型相关分析的理论架构
▪ 典型变量的系数称为典型权重,权重愈大 表示此变量对此典型变量的贡献愈大。在 以上的计算中,此权重为标准化后的资料 所得的,故k个资料的第i 典型变量得点为
aij
(x jk sj
xj)
冗余分析
典型相关
▪ 设两组变量分别为x组有p个变量(x1, x2,, xp)T, 而y组有q个变量(y1, y2,, yq )T,我们先分别把 x组和y组的变量组合起来(当然是用线性 组合),也就是
x1* 11x1 12 x2 1p xp y1* b11 y1 b12 y2 b1q yq
▪ 其中这些系数都是一些常数,就是组合的 比例,由于是线性组合,所以11 12 1p 1 且b11 b12 b1q 1 。
典型相关
▪ 典型关系分析是分析两组变量之间相关性的一种 统计分析方法,它包含了简单的Pearson相关分 析(两个组均含一个变量)和复相关分析(一个 组含有一个变量,而另一组含有多个变量)这两 种特殊情况。典型相关分析的基本思想和主成分 分析的基本思想相似,它将一组变量与另一组变 量之间单变量的多重线性相关性研究转化为对少 数几对综合变量之间的简单线性相关性的研究, 并且这少数几对变量所包含的线性相关性的信息 几乎覆盖了原变量组所包含的全部相应信息。
典型相关
▪ 有两个问题需要解决: ▪ 给定不同组合比例 11,12 ,,1p以及 b11, b12 ,, b1q ,
都可以算出不一样的简单相关系数,这使得这个 方法非常的不科学,每个人都可以依照自己的喜 好来决定组合比例,并且在衡量两组变量之间相 关性的问题上,也没有一个统一的标准。 ▪ 各组内变量之间的尺度不太相同,例如身高的尺 度跟脚掌长度的尺度就不相同,显然前者的变异 数会大于后者,这种情况是不合理的。
则所有不出现在其它语句中的数值变量均将列在 第一组内。 ▪ WITH语句列出两组变量中的第二组变量。该语 句不能省略。 ▪ PARTIAL语句用来指定协变量。系统以此协变量 来计算偏相关系数矩阵,然后进行典型相关分析。 ▪ 另外,freq语句、weight语句、by语句等也实用。
本章小节
▪ 典型相关分析的基本思想和主成分分析的基本思 想相似,它将一组变量与另一组变量之间单变量 的多重线性相关性研究转化为对少数几对综合变 量之间的简单线性相关性的研究,并且这少数几 对变量所包含的线性相关性的信息几乎覆盖了原 变量组所包含的全部相应信息。典型相关分析方 法的基本原理是:所有研究的两组变量为x组和y 组,x 组有p个变量(x1, x2 ,, xp ) , y 组有q个变 量 ( y1, y2 ,, yq ) ,则分别对这两组变量各做线性 组合后,再计算此两加权和的简单相关系数,然 后以这个简单相关系数当做这两组变数之间相关 性的衡量指标。
本章小节
▪ 冗余分析是通过原始变量与典型变量间的相关性, 分析引起原始变量变异的原因。以原始变量为因 变量,以典型变量为自变量,建立线性回归模型, 则相应的确定系数等于因变量与典型变量间的相 关系数的平方,它描述了由于因变量与典型变量 的线性关系引起的因变量变异在因变量的总变异 中的比例。
▪ 通过实例详细介绍了CANCORR过程步的语法及 基本格式,并阐述了如何利用此SAS过程步进行 典型相关分析以及进行结果解释。
第20章 典型相关分析
学习目标
▪ 了解典型相关分析的数学表达方式,假定 条件;
▪ 熟悉典型相关系数的数学含义; ▪ 掌握典型变量系数的数学含义; ▪ 掌握简单相关,复相关和典型相关的意义; ▪ 掌握典型相关分析的SAS过程步:
CANCORR过程步。
概述
▪ 对于两个变量,是用它们的相关系数来衡量它们 之间的线性相关关系的。当考虑一个变量与一组 变量的线性相关关系时,是用它们的多重相关系 数来衡量。但是,许多医学实际问题中,常常会 碰到两组变量之间的线性相关性研究问题。例如, 教育研究者想了解3个学术能力指标与5个在校成 绩表现之间的相关性;对于这类问题的研究引进 了典型相关系数的概念,从而找到了揭示两组变 量之间线性相关关系的一种统计分析方法——典 型相关分析。
本章小节
▪ 有典型相关分析得到的一系列典型变量的 典型相关系数所包含的有关原变量组之间 相关程度的信息一个比一个少。如果少数 几对典型变量就能够解释原数据的主要信 息,特别是如果一对典型变量就能够反映 出原数据的主要信息,那么,对两个变量 组之间相关程度的分析就可以转化为对少 数几对或者是一对典型变量的简单相关分 析。这就是典型相关分析的主要目的。
典型相关
▪ 典型相关分析的第二步是再次估计组合系数,使 得对应的典型变量相关系数达到第二大,且第二 对典型变量中的第一次变量与第一对典型变量中 的每一个变量不相关。这个最二大的相关系数是 第二典型相关系数,且称具有最二大相关系数的 这对典型变量和为第二典型变量。
▪ 如果两个组中变量的个数为p,q,p<q,那么寻 求典型变量的过程可以一直连续进行下去,直到 得到p对典型变量为止。
典型相关
▪ 从上述分析的过程可以看出,第一对典型 变量的第一典型相关系数描述了两个组中 变量之间的相关程度,且它提取的有关这 两组变量相关性的信息量最多。第二对典 型变量的第二典型相关系数也描述了两个 组中变量之间的相关程度,但它提取的有 关这两组变量相关性的信息量次多。以此 类推,
典型相关
▪ 可以得知,由上述方法得到的一系列典型 变量的典型相关系数所包含的有关原变量 组之间相关程度的信息一个比一个少。如 果少数几对典型变量就能够解释原数据的 主要信息,特别是如果一对典型变量就能 够反映出原数据的主要信息,那么,对两 个变量组之间相关程度的分析就可以转化 为对少数几对或者是一对典型变量的简单 相关分析。这就是典型相关分析的主要目 的。
典型相关分析的理论架构
▪ 设两组变量分别为x组有p个变量(x1, x2,, xp ),T 而y组有q个变量(y1, y2,, yq )T,典型相关分析
是找x组的线性组合 x1* 11x1 12x2 1p xp 与y 组的线性组合 y1* b11y1 b12 y2 b1q yq ,使得简 单相关系数为最大,其中
11
1
12
1 p
b11
b1
b12
b1q
典型相关分析的理论架构
▪ 设x组的共变异数Biblioteka Baidu阵为 , xx y组的共变异
数矩阵为 yy ,x与y的共变异数矩阵为 , xy
则 x1* 的变异数为
▪
Var(x1* ) Var(1x) 1 xx 1
▪ y1*的变异数为
Var(y1*) Var(b1y) b1 yyb1
▪ ALL选择项指令输出所有结果。 ▪ CORR选择项指令输出原始变量间的相关
系数矩阵。 ▪ VP选择项用来为VAR语句中变量的典型变
量命名前缀,名字不超过40个字符串长。
CANCORR过程
▪ WP选择项用来为WITH语句中变量的典型变量命 名前缀,名字不超过40个字符串长。
▪ EDF选择项用来指定该回归分析的残差自由度。 ▪ VAR语句列出两组变量中的第一组变量。若缺省,
典型相关
▪ 典型相关分析方法的基本原理是:所有研 究的两组变量为x组和y组,x 组有p个变 量 (x1, x2 ,, x p ), y 组有q个变量( y1, y2 ,, yq ) , 则分别对这两组变量各做线性组合后,再 计算此两加权和的简单相关系数,然后以 这个简单相关系数当做这两组变数之间相 关性的衡量指标。即
▪ 冗余分析是通过原始变量与典型变量间的相关性, 分析引起原始变量变异的原因。以原始变量为因 变量,以典型变量为自变量,建立线性回归模型, 则相应的确定系数等于因变量与典型变量间的相 关系数的平方,它描述了由于因变量与典型变量 的线性关系引起的因变量变异在因变量的总变异 中的比例。
▪ 典型负荷为变量与典型变量的相关系数,可由相 关系数的平方了解此典型变量解释了此变量多少 比例的变异数。
典型相关
▪ 针对第一个问题,“在所有的组合中,寻 找一个组合使得简单相关系数为最大”, 可能是个好想法;另外,寻找一个组合使 得简单相关系数为最小,此简单相关系数 就是典型相关系数,而典型相关系数的平 方称为典型根。
典型相关
▪ 对于第二个问题,解决的方法就是对资料 进行标准化。
▪ 典型相关分析的第一步是估计组合系数, 使得对应的典型变量和的相关系数达到最 大。这个最大的相关系数是第一典型相关 系数,且称具有最大相关系数的这对典型 变量为第一典型变量。