典型相关分析 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

CANCORR过程
▪ SAS系统中利用CANCORR过程步进行典型相关分析。
▪ CANCORR过程的语法格式如下： PROC CANCORR DATA= OUTSTAT=
OUT= ALL ; VAR 一组变量; WITH 另一组变量; PARTIAL 变量; RUN;
CANCORR过程
▪ DATA语句指定要分析的数据集名及一些选项，它可以是原SAS数据集，也可以是corr、 cov、ucorr、ucov等矩阵。
▪ 共变异数为
Cov(x1*, y1*) Cov(1x,b1y) 1 xyb1
典型相关分析的理论架构
▪ 典型变量的系数称为典型权重，权重愈大表示此变量对此典型变量的贡献愈大。在以上的计算中，此权重为标准化后的资料所得的，故k个资料的第i 典型变量得点为
aij
(x jk sj
xj)
冗余分析
典型相关
▪ 典型关系分析是分析两组变量之间相关性的一种统计分析方法，它包含了简单的Pearson相关分析（两个组均含一个变量）和复相关分析（一个组含有一个变量，而另一组含有多个变量）这两种特殊情况。典型相关分析的基本思想和主成分分析的基本思想相似，它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究，并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。
都可以算出不一样的简单相关系数，这使得这个方法非常的不科学，每个人都可以依照自己的喜好来决定组合比例，并且在衡量两组变量之间相关性的问题上，也没有一个统一的标准。 ▪ 各组内变量之间的尺度不太相同，例如身高的尺度跟脚掌长度的尺度就不相同，显然前者的变异数会大于后者，这种情况是不合理的。
典型相关
x1* 11x1 12 x2 1p xp y1* b11 y1 b12 y2 b1q yq
▪ 其中这些系数都是一些常数，就是组合的比例，由于是线性组合，所以11 12 1p 1 且b11 b12 b1q 1 。
典型相关
▪ 有两个问题需要解决： ▪ 给定不同组合比例 11,12 , ,1p以及 b11, b12 , , b1q ，
▪ 冗余分析是通过原始变量与典型变量间的相关性，分析引起原始变量变异的原因。以原始变量为因变量，以典型变量为自变量，建立线性回归模型，则相应的确定系数等于因变量与典型变量间的相关系数的平方，它描述了由于因变量与典型变量的线性关系引起的因变量变异在因变量的总变异中的比例。
▪ 典型负荷为变量与典型变量的相关系数，可由相关系数的平方了解此典型变量解释了此变量多少比例的变异数。
典型相关
▪ 典型相关分析方法的基本原理是：所有研究的两组变量为x组和y组，x 组有p个变量 (x1, x2 , , x p )， y 组有q个变量( y1, y2 , , yq ) ，则分别对这两组变量各做线性组合后，再计算此两加权和的简单相关系数，然后以这个简单相关系数当做这两组变数之间相关性的衡量指标。即
11
1
12
1 p
b11
b1
b12
b1q
百度文库
典型相关分析的理论架构
▪ 设x组的共变异数矩阵为， xx y组的共变异
数矩阵为 yy ，x与y的共变异数矩阵为， xy
则 x1* 的变异数为
▪
Var(x1* ) Var(1x) 1 xx 1
▪ y1*的变异数为
Var(y1*) Var(b1y) b1 yyb1
典型相关
▪ 典型相关分析的第二步是再次估计组合系数，使得对应的典型变量相关系数达到第二大，且第二对典型变量中的第一次变量与第一对典型变量中的每一个变量不相关。这个最二大的相关系数是第二典型相关系数，且称具有最二大相关系数的这对典型变量和为第二典型变量。
▪ 如果两个组中变量的个数为p，q，p<q，那么寻求典型变量的过程可以一直连续进行下去，直到得到p对典型变量为止。
▪ x 组的p个变量组合成一个，y组的q个变量也组合成一个，然后计算简单相关来衡量两组之间的相关性。问题是如何组合？
典型相关
▪ 设两组变量分别为x组有p个变量(x1, x2, , xp)T，而y组有q个变量(y1, y2, , yq )T，我们先分别把 x组和y组的变量组合起来（当然是用线性组合），也就是
1x1 2 x2 p x p
1 y1 2 y2 q yq
典型相关
▪ 对于任意一组系数(1, 2 , 和都 , p ) (1, 2 , , q ) 可以通过上式求出一对典型变量，典型相关分析中称之为典型变量。进而可以求出典型变量的简单相关系数，称之为典型相关系数。
典型相关分析的理论架构
▪ 设两组变量分别为x组有p个变量(x1, x2, , xp )，T 而y组有q个变量(y1, y2, , yq )T，典型相关分析
是找x组的线性组合 x1* 11x1 12x2 1p xp 与y 组的线性组合 y1* b11y1 b12 y2 b1q yq ，使得简单相关系数为最大，其中
本章小节
▪ 冗余分析是通过原始变量与典型变量间的相关性，分析引起原始变量变异的原因。以原始变量为因变量，以典型变量为自变量，建立线性回归模型，则相应的确定系数等于因变量与典型变量间的相关系数的平方，它描述了由于因变量与典型变量的线性关系引起的因变量变异在因变量的总变异中的比例。
▪ 通过实例详细介绍了CANCORR过程步的语法及基本格式，并阐述了如何利用此SAS过程步进行典型相关分析以及进行结果解释。
典型相关
▪ 从上述分析的过程可以看出，第一对典型变量的第一典型相关系数描述了两个组中变量之间的相关程度，且它提取的有关这两组变量相关性的信息量最多。第二对典型变量的第二典型相关系数也描述了两个组中变量之间的相关程度，但它提取的有关这两组变量相关性的信息量次多。以此类推，
典型相关
▪ 可以得知，由上述方法得到的一系列典型变量的典型相关系数所包含的有关原变量组之间相关程度的信息一个比一个少。如果少数几对典型变量就能够解释原数据的主要信息，特别是如果一对典型变量就能够反映出原数据的主要信息，那么，对两个变量组之间相关程度的分析就可以转化为对少数几对或者是一对典型变量的简单相关分析。这就是典型相关分析的主要目的。
第20章典型相关分析
学习目标
▪ 了解典型相关分析的数学表达方式，假定条件；
▪ 熟悉典型相关系数的数学含义； ▪ 掌握典型变量系数的数学含义； ▪ 掌握简单相关，复相关和典型相关的意义； ▪ 掌握典型相关分析的SAS过程步：
CANCORR过程步。
概述
▪ 对于两个变量，是用它们的相关系数来衡量它们之间的线性相关关系的。当考虑一个变量与一组变量的线性相关关系时，是用它们的多重相关系数来衡量。但是，许多医学实际问题中，常常会碰到两组变量之间的线性相关性研究问题。例如，教育研究者想了解3个学术能力指标与5个在校成绩表现之间的相关性；对于这类问题的研究引进了典型相关系数的概念，从而找到了揭示两组变量之间线性相关关系的一种统计分析方法——典型相关分析。
▪ 针对第一个问题，“在所有的组合中，寻找一个组合使得简单相关系数为最大”，可能是个好想法；另外，寻找一个组合使得简单相关系数为最小，此简单相关系数就是典型相关系数，而典型相关系数的平方称为典型根。
典型相关
▪ 对于第二个问题，解决的方法就是对资料进行标准化。
▪ 典型相关分析的第一步是估计组合系数，使得对应的典型变量和的相关系数达到最大。这个最大的相关系数是第一典型相关系数，且称具有最大相关系数的这对典型变量为第一典型变量。
本章小节
▪ 有典型相关分析得到的一系列典型变量的典型相关系数所包含的有关原变量组之间相关程度的信息一个比一个少。如果少数几对典型变量就能够解释原数据的主要信息，特别是如果一对典型变量就能够反映出原数据的主要信息，那么，对两个变量组之间相关程度的分析就可以转化为对少数几对或者是一对典型变量的简单相关分析。这就是典型相关分析的主要目的。
则所有不出现在其它语句中的数值变量均将列在第一组内。 ▪ WITH语句列出两组变量中的第二组变量。该语句不能省略。 ▪ PARTIAL语句用来指定协变量。系统以此协变量来计算偏相关系数矩阵，然后进行典型相关分析。 ▪ 另外，freq语句、weight语句、by语句等也实用。
本章小节
▪ 典型相关分析的基本思想和主成分分析的基本思想相似，它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究，并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。典型相关分析方法的基本原理是：所有研究的两组变量为x组和y 组，x 组有p个变量(x1, x2 , , xp ) ， y 组有q个变量 ( y1, y2 , , yq ) ，则分别对这两组变量各做线性组合后，再计算此两加权和的简单相关系数，然后以这个简单相关系数当做这两组变数之间相关性的衡量指标。
▪ ALL选择项指令输出所有结果。 ▪ CORR选择项指令输出原始变量间的相关
系数矩阵。 ▪ VP选择项用来为VAR语句中变量的典型变
量命名前缀，名字不超过40个字符串长。
CANCORR过程
▪ WP选择项用来为WITH语句中变量的典型变量命名前缀，名字不超过40个字符串长。
▪ EDF选择项用来指定该回归分析的残差自由度。 ▪ VAR语句列出两组变量中的第一组变量。若缺省，