MBA统计学13典型相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
际上,只要选择特征值累积总贡献占 主要部分的那些即可。
l 软件还会输出一些检验结果;于是只
要选择显著的那些(V, W)。
l 对实际问题,还要看选取的(V, W)是否
有意义,是否能够说明问题才行。至
于得到(V, W)的计算,则很简单,下面
就tv.txt数据进行分析。数学原理?
PPT文档演模板
MBA统计学13典型相关分析
MBA统计学13典型相关 分析
PPT文档演模板
2020/11/2
MBA统计学13典型相关分析
第十三章 典型相关分析
PPT文档演模板
MBA统计学13典型相关分析
13.1两组变量的相关问题
l 我们知道如何衡量两个变量之间是 否相关的问题;这是一个简单的公 式就可以解决的问题(Pearson相关 系数、 Kendall’s t、 Spearman 秩相关系数)。公式
l 而业内人士分评分来自包括演员和导演在 内的艺术家(arti)、发行(com)与业内各部 门主管(man)三种,形成第二组变量。人们 对这样两组变量之间的关系感到兴趣。
PPT文档演模板
MBA统计学13典型相关分析
PPT文档演模板
MBA统计学13典型相关分析
寻找代表
l 如直接对这六个变量的相关进行两两 分析,很难得到关于这两组变量之间 关系的一个清楚的印象。
PPT文档演模板
MBA统计学13典型相关分析
计算结果
l 对于众多的计算机输出挑出一些来介绍。下面表
格给出的是第一组变量相应于上面三个特征根的
三个典型变 (canonical
量coVe1f、ficVie2n和t)V。3 的注系意数,,SP即S典S 把型第系
数 一
组变量称为因变量(dependent variables),而
计算结果
l 第一个表为判断这两组变量相关性的若干检 验 , 包 括 Pillai 迹 检 验 , Hotelling-Lawley 迹 检验,Wilks l检验和Roy的最大根检验;它 们都是有两个自由度的F检验。该表给出了每 个检验的F值,两个自由度和p值(均为 0.000)。
PPT文档演模板
MBA统计学13典型相关分析
l 由于特征值问题的特点,实际上找 到 W和2W的),…2是次,多之其组等中典等V型,1和变W量1(最V1相, W关1,), 而(VV22,
PPT文档演模板
MBA统计学13典型相关分析
典型相关系数
l 而W择3多且,…少V之1组, 间V典2互,型不V变3相,量…关(之V。,间W这及)样的而又问且出题W现了1,了。W选实2,
的典型系数直观上对典型变量的构成给人以更加
清楚的印象。
PPT文档演模板
MBA统计学13典型相关分析
•可以看出,头一个典型变量V1相应于前 面第一个(也是最重要的)特征值,主 要代表高学历变量hed;而相应于前面 第二个(次要的)特征值的第二个典型 变量V2主要代表低学历变量led和部分的 网民变量net,但高学历变量在这里起负 面作用。
l 希望能够把多个变量与多个变量之间 的相关化为两个变量之间的相关。
l 现在的问题是为每一组变量选取一个 综合变量作为代表;
l 而一组变量最简单的综合形式就是该 组变量的线性组合。
PPT文档演模板
MBA统计学13典型相关分析
13.2 典型相关分析
l 由于一组变量可以有无数种线性组合 (线性组合由相应的系数确定),因
l 如果我们有两组变量,如何能够表 明它们之间的关系呢?
PPT文档演模板
MBA统计学13典型相关分析
例子(数据tv.txt)
l 业内人士和观众对于一些电视节目的观点 有什么样的关系呢?该数据是不同的人群 对30个电视节目所作的平均评分。
l 观众评分来自低学历(led)、高学历(hed)和 网络(net)调查三种,它们形成第一组变量;
此必须找到既有意义又可以确定的线 性组合。
l 典型相关分析(canonical correlation analysis)就是要找到这两组变量线性 组合的系数使得这两个由线性组合生
成的变量(和其他线性组合相比)之 间的相关系数最大。
PPT文档演模板
MBA统计学13典型相关分析
典型变量
l 假定两组变量为X1,X2…,Xp和Y1,Y2,…,Yq,那 么 , 问 题 就 在 于 要 寻 找 系 数 a1,a2…,ap 和 b型1,变b2量,…(c,baqn,on和ic使al得va新ri的ab综le合))变量(亦称为典
计算结果
l 下面一个表给出了特征根(Eigenvalue),特征根所 占的百分比(Pct)和累积百分比(Cum. Pct)和典型相 关系数(Canon Cor)及其平方(Sq. Cor)。看来,头 两对典型变量(V, W)的累积特征根已经占了总量的 99.427%。它们的典型相关系数也都在0.95之上。
• 之间的相关关系最大。这种相关关系是用典 型相关系数(canonical correlation coefficient) 来衡量的。
PPT文档演模板
MBA统计学13典型相关分析
典型相关系数
l 这里所涉及的主要的数学工具还是 矩阵的特征值和特征向量问题。而 所得的特征值与V和W的典型相关 系数有直接联系。
PPT文档演模板
MBA统计学13典型相关分析
计算结果
l 类似地,也可以得到被称为协变量(covariate) 的标准化的第二组变量的相应于头三个特征 值得三个典型变量W1、W2和W2的系数: 。
PPT文档演模板
MBA统计学13典型相关分析
PPT文档演模板
MBA统计学13典型相关分析
例子结论
l 从关量这和这,ar它t两而i及们个Vm2的表主a典中n要相型可和关系以le,数看d及是出而n一,Wet致2V相主1的主关要。要;和和Wc变o1主m量相要he关和d变相; l 由历门关人重经观为于,经济众主V这理1效和的和说(m益W网W明an1的1民V所最)2观发(所主n相点行e代要关t)相人观表代,关(众c的表这o;和低的m说而W)学艺明观由2历术V所点于1家(所主相leV(d代要关a2)和r及表代,tiW)以的表及但2也年高的各远轻看学远相部
把第二组称为协变量(covariates);显然,这两
组变量是完全对称的。这种命名仅仅是为了叙述
方便。
l 这些系数以两种方式给出;一种是没有标准化的 原始变量的线性组合的典型系数(raw canonical
Hale Waihona Puke Baidu
coefficient) , 一 种 是 标 准 化 之 后 的 典 型 系 数
(standardized canonical coefficient)。标准化
l 软件还会输出一些检验结果;于是只
要选择显著的那些(V, W)。
l 对实际问题,还要看选取的(V, W)是否
有意义,是否能够说明问题才行。至
于得到(V, W)的计算,则很简单,下面
就tv.txt数据进行分析。数学原理?
PPT文档演模板
MBA统计学13典型相关分析
MBA统计学13典型相关 分析
PPT文档演模板
2020/11/2
MBA统计学13典型相关分析
第十三章 典型相关分析
PPT文档演模板
MBA统计学13典型相关分析
13.1两组变量的相关问题
l 我们知道如何衡量两个变量之间是 否相关的问题;这是一个简单的公 式就可以解决的问题(Pearson相关 系数、 Kendall’s t、 Spearman 秩相关系数)。公式
l 而业内人士分评分来自包括演员和导演在 内的艺术家(arti)、发行(com)与业内各部 门主管(man)三种,形成第二组变量。人们 对这样两组变量之间的关系感到兴趣。
PPT文档演模板
MBA统计学13典型相关分析
PPT文档演模板
MBA统计学13典型相关分析
寻找代表
l 如直接对这六个变量的相关进行两两 分析,很难得到关于这两组变量之间 关系的一个清楚的印象。
PPT文档演模板
MBA统计学13典型相关分析
计算结果
l 对于众多的计算机输出挑出一些来介绍。下面表
格给出的是第一组变量相应于上面三个特征根的
三个典型变 (canonical
量coVe1f、ficVie2n和t)V。3 的注系意数,,SP即S典S 把型第系
数 一
组变量称为因变量(dependent variables),而
计算结果
l 第一个表为判断这两组变量相关性的若干检 验 , 包 括 Pillai 迹 检 验 , Hotelling-Lawley 迹 检验,Wilks l检验和Roy的最大根检验;它 们都是有两个自由度的F检验。该表给出了每 个检验的F值,两个自由度和p值(均为 0.000)。
PPT文档演模板
MBA统计学13典型相关分析
l 由于特征值问题的特点,实际上找 到 W和2W的),…2是次,多之其组等中典等V型,1和变W量1(最V1相, W关1,), 而(VV22,
PPT文档演模板
MBA统计学13典型相关分析
典型相关系数
l 而W择3多且,…少V之1组, 间V典2互,型不V变3相,量…关(之V。,间W这及)样的而又问且出题W现了1,了。W选实2,
的典型系数直观上对典型变量的构成给人以更加
清楚的印象。
PPT文档演模板
MBA统计学13典型相关分析
•可以看出,头一个典型变量V1相应于前 面第一个(也是最重要的)特征值,主 要代表高学历变量hed;而相应于前面 第二个(次要的)特征值的第二个典型 变量V2主要代表低学历变量led和部分的 网民变量net,但高学历变量在这里起负 面作用。
l 希望能够把多个变量与多个变量之间 的相关化为两个变量之间的相关。
l 现在的问题是为每一组变量选取一个 综合变量作为代表;
l 而一组变量最简单的综合形式就是该 组变量的线性组合。
PPT文档演模板
MBA统计学13典型相关分析
13.2 典型相关分析
l 由于一组变量可以有无数种线性组合 (线性组合由相应的系数确定),因
l 如果我们有两组变量,如何能够表 明它们之间的关系呢?
PPT文档演模板
MBA统计学13典型相关分析
例子(数据tv.txt)
l 业内人士和观众对于一些电视节目的观点 有什么样的关系呢?该数据是不同的人群 对30个电视节目所作的平均评分。
l 观众评分来自低学历(led)、高学历(hed)和 网络(net)调查三种,它们形成第一组变量;
此必须找到既有意义又可以确定的线 性组合。
l 典型相关分析(canonical correlation analysis)就是要找到这两组变量线性 组合的系数使得这两个由线性组合生
成的变量(和其他线性组合相比)之 间的相关系数最大。
PPT文档演模板
MBA统计学13典型相关分析
典型变量
l 假定两组变量为X1,X2…,Xp和Y1,Y2,…,Yq,那 么 , 问 题 就 在 于 要 寻 找 系 数 a1,a2…,ap 和 b型1,变b2量,…(c,baqn,on和ic使al得va新ri的ab综le合))变量(亦称为典
计算结果
l 下面一个表给出了特征根(Eigenvalue),特征根所 占的百分比(Pct)和累积百分比(Cum. Pct)和典型相 关系数(Canon Cor)及其平方(Sq. Cor)。看来,头 两对典型变量(V, W)的累积特征根已经占了总量的 99.427%。它们的典型相关系数也都在0.95之上。
• 之间的相关关系最大。这种相关关系是用典 型相关系数(canonical correlation coefficient) 来衡量的。
PPT文档演模板
MBA统计学13典型相关分析
典型相关系数
l 这里所涉及的主要的数学工具还是 矩阵的特征值和特征向量问题。而 所得的特征值与V和W的典型相关 系数有直接联系。
PPT文档演模板
MBA统计学13典型相关分析
计算结果
l 类似地,也可以得到被称为协变量(covariate) 的标准化的第二组变量的相应于头三个特征 值得三个典型变量W1、W2和W2的系数: 。
PPT文档演模板
MBA统计学13典型相关分析
PPT文档演模板
MBA统计学13典型相关分析
例子结论
l 从关量这和这,ar它t两而i及们个Vm2的表主a典中n要相型可和关系以le,数看d及是出而n一,Wet致2V相主1的主关要。要;和和Wc变o1主m量相要he关和d变相; l 由历门关人重经观为于,经济众主V这理1效和的和说(m益W网W明an1的1民V所最)2观发(所主n相点行e代要关t)相人观表代,关(众c的表这o;和低的m说而W)学艺明观由2历术V所点于1家(所主相leV(d代要关a2)和r及表代,tiW)以的表及但2也年高的各远轻看学远相部
把第二组称为协变量(covariates);显然,这两
组变量是完全对称的。这种命名仅仅是为了叙述
方便。
l 这些系数以两种方式给出;一种是没有标准化的 原始变量的线性组合的典型系数(raw canonical
Hale Waihona Puke Baidu
coefficient) , 一 种 是 标 准 化 之 后 的 典 型 系 数
(standardized canonical coefficient)。标准化