6典型相关与对应分析

合集下载

6典型相关与对应分析

6典型相关与对应分析

7.1.1 典型相关分析的概念与步骤1. 典型相关分析的基本思想典型相关分析采用主成分的思想浓缩信息,根据变量间的相关关系,寻找少数几对综合变量(实际观测变量的线性组合),用它们替代原始观测变量,从而将二组变量的关系集中到少数几对综合变量的关系上,通过对这些综合变量之间相关性的分析,回答两组原始变量间相关性的问题。

除了要求所提取的综合变量所含的信息量尽可能大以外,提取时还要求第一对综合变量间的相关性最大,第二对次之,依次类推。

这些综合变量被称为典型变量,或典则变量,第1对典型变量间的相关系数则被称为第1典型相关系数。

典型相关系数能简单、完整地描述两组变量间关系的指标。

当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当其中的一组只有一个变量时,典型相关系数即为复相关系数。

7.1.4 用CANCORR过程实现典型相关分析1. CANCORR过程CANCORR过程的常用语法格式如下:PROC CANCORR <选项列表>;WITH <变量列表>;VAR <变量列表>;RUN;其中PROC CANCORR语句、WITH语句是每个过程中必不可少的,其余语句可视情况使用。

下面分别介绍各语句的用法和功能。

(1) PROC CANCORR语句:标示典型相关分析开始,可以规定输入输出数据集,指定分析方法和控制输出结果的显示等。

语句中可设置的常用选项及其功能见表7-3。

(2) VAR语句:列出要进行典型相关分析的第一组变量,变量必须是数值型的。

如果VAR语句被忽略,所有未被其他语句提到的数值型变量都将被视为第一组变量。

(3) WITH语句:列出要进行典型相关分析的第二组变量,变量必须是数值型的。

该语句是每一个PROC CANCORR中必不可少的。

表7-3 常用选项及其功能2. 使用CANCORR过程【例7-3】家庭特征与家庭消费之间的关系。

为了了解家庭的特征与其消费模式之间的关系。

典型相关分析.ppt

典型相关分析.ppt

2. 令
ai
1
V222 i
i 1,2,,k
bi

1
i
V111V12ai

1 1
1 2
V V V 11 12 22 i
i
3. 第 i 对典型相关变量为
i aiT X ai1 x1 ai 2 x2 aim xm
i biTY bi1 y1 bi 2 y2 bin yn


X Y
T


1 n
n i 1
(
X
i
1 n
n i 1
(Yi
X )( X Y )( Xi
i X )T X )T
1
n
n i 1
(
Xi

X
)(Yi

Y
)T

1
n
n i 1
(Yi

Y
)(Yi

Y
)T


S S S S S 1 2
典型变量的结构(相关系数)
U1
U2
X1
0.9866
-0.1632
X2
0.8872
0.4614
V1V2Y10.源自2110.8464Y2
0.9822
-0.1101
Y3
0.5145
0.3013
典型变量的结构(相关系数)
V1
V2
X1
0.6787
-0.0305
X2
0.6104
0.0862
U1
U2
Y1
0.2897
的非零解,其中2 ( 0) 是矩阵V2212V21V111V12V2212

多元统计分析教案0

多元统计分析教案0

第一章 绪论1 多元统计分析的概念多元统计分析就是利用统计学和数学方法,将隐没在大规模原始数据群体中的重要信息集中提炼出来,简明扼要的把握系统的本质特征,分析数据系统中的内在规律性。

利用多元分析中不同的方法还可以对研究对象进行分类和简化。

多元分析是实现做定量分析的有效工具。

2 多元分析的起源和发展1)1928年,Wishart 发表《 多元正态总体样本协差阵的精确分布》,是多元统计分析的开端; 2)20世纪30年代多元分析在理论上得到迅速发展;3)20世纪40年代应用于心理、 教育 、生物等方面;但由于计算量太大,其发展受到影响; 4)50年代中期,由于电子计算机的出现和发展,使多元分析方法得到广泛应用; 5)60年代由于新理论、新方法不断涌现使多元分析方法的应用范围更加扩大;6) 多元统计在我国发展较晚,70年代初在我国才受到各个领域的极大关注,应用日益广泛。

3 多元分析能解决的实际问题多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用,足见其应用的深度和广度。

4 多元分析课程讲授的主要内容本课程重点介绍多元分析中常用的六种方法: 聚类分析;判别分析;主成分分析;因子分析;对应分析;典型相关分析我们这门课重点在于应用,参考课本中的公式推导为次要内容,大致了解即可,对每一种分析方法我们要清楚掌握它解决哪类问题、前提条件和局限性,以及它们相互之间的区别与联系;会用SAS 、SPSS 等数学软件实现上述过程,对所研究的问题能做出合理推断和科学评价。

5 原始资料阵及其标准化1)原始资料阵:设有n 个样品,p 项指标(变量),组成矩阵11121212221212(,,,)p p p n n np x x x x x x X x x x xx x ⎛⎫⎪⎪'= ⎪⎪⎪⎝⎭LL @L M M O M L ,2)第j 项指标均值11nj ij i x x n==∑,3)指标的协方差阵()ij p p S s ⨯=,其中11()()1nij ii j j s x x x x n ααα==---∑4)原始指标(变量)的标准化ijx x x *-=第二章 聚类分析1 什么是聚类分析 聚类分析的概念聚类分析又称群分析、点群分析,是定量研究样品或指标分类问题的一种多元统计方法。

对应分析与典型相关分析

对应分析与典型相关分析

17
对应分析基本思想
v λ ... v λ 1m m 11 1 O M = ( λ1 v1 ,..., λm vm ), AR = M v λ L v p1 1 pm λm
u11 λ1 ... u1m λm AQ = M O M = ( λ1 u1,..., λm um ), un1 λ1 L unm λm
由于SR和 具有相同的非零特征值 具有相同的非零特征值, 由于 和SQ具有相同的非零特征值,而这些特征值又正好是各个 公共因子的方差,因此可以用相同的因子轴 相同的因子轴同时表示变量点和样品 公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品 即把变量点和样品点同时反映在具有相同坐标轴的因子平面上, 点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上, 以便对变量点和样品点一起考虑进行分类。 以便对变量点和样品点一起考虑进行分类。
如果SR的特征值 如果 的特征值 λ i 对应的标准化特征向量为 vi , 则SQ的特征值 λi 对应的标准化特征向量: 的特征值 对应的标准化特征向量: 1 ui = Zv i
λi
由此可以方便地由R型因子分析而得到 型因子分析的结果 由此可以方便地由 型因子分析而得到Q型因子分析的结果。由SR的特征值和 型因子分析而得到 型因子分析的结果。 的特征值和 特征向量即可以写出R型因子分析的因子载荷矩阵 记为AR) 型因子分析的因子载荷矩阵( 特征向量即可以写出 型因子分析的因子载荷矩阵(记为 )和Q型因子分析的 型因子分析的 因子载荷矩阵(记为AQ): 因子载荷矩阵(记为 ):
3
引例1. 引例1.
下表为2006年年底我国 个省市按照行业(这里仅列出12 年年底我国31个省市按照行业 这里仅列出12 下表为 年年底我国 个省市按照行业( 个行业)城镇单位就业人数, 个行业)城镇单位就业人数,在一定程度上可以反映该地 区的经济结构。 区的经济结构。 我国地域辽阔,东西南北发展不平衡,是否按照地域划分 我国地域辽阔,东西南北发展不平衡,是否按照地域划分 就合理了呢? 就合理了呢? 自然地理位置对经济结构的影响固然重要,但是数据分析 自然地理位置对经济结构的影响固然重要,但是数据分析 显然更有说服力。 显然更有说服力。

典型相关分析

典型相关分析

§15.2 典型相关分析的步骤及逻辑框图
2020/7/6
图15.1 典型相关分 析的逻辑框图
中国人民大学六西格玛质量管理研究中心
25
目录 上页 下页 返回 结束
§15.2 典型相关分析的步骤及逻辑框图
2020/7/6
图15.1 典型相关分析 的逻辑框图 (续)
中国人民大学六西格玛质量管理研究中心
13
目录 上页 下页 返回 结束
§15.1 典型相关分析的基本理论
2020/7/6
中国人民大学六西格玛质量管理研究中心
14
目录 上页 下页 返回 结束
§15.1 典型相关分析的基本理论
2020/7/6
中国人民大学六西格玛质量管理研究中心
15
目录 上页 下页 返回 结束
§15.1 典型相关分析的基本理论
2020/7/6
中国人民大学六西格玛质量管理研究中心
30
目录 上页 下页 返回 结束
§15.2 典型相关分析的步骤及逻辑框图
(一)推导典型函数 典型函数的推导类似于没有旋转的因子分析的过程[参见 前面推导]。典型相关分析集中于说明两组变量间的最 大相关关系,而不是一组变量。结果是第一对典型变量 在两组变量中有最大的相关关系。第二对典型变量得到 第一对典型变量没有解释的两组变量间的最大相关关系。 简言之,随着典型变量的提取,接下来的典型变量是基 于剩余残差,并且典型相关系数会越来越小。每对典型 变量是正交的,并且与其他的典型变量是独立的。 典型相关程度是通过相关系数的大小来衡量的。典型相
2020/7/6
中国人民大学六西格玛质量管理研究中心
3
目录 上页理论
2020/7/6
中国人民大学六西格玛质量管理研究中心

气象中的统计方法总结

气象中的统计方法总结

51气象中的统计方法总结2、判别分析;广东省徐闻气象局[20]用二级判别做台风登陆地段;3、相关分析;近20年来在气象统计中用得较多的主要有典型相关(;奇异值分解(SVD)也是提取两个场的最大线性相关;4、气象场的分解及其应用;50年代中期由Loreng引入到大气科学研究中的;4.1经验正交函数(EOF)分解;章基嘉等[30]应用经验正交函数对亚洲500hP;4.2主成份(主分量)2、判别分析广东省徐闻气象局[20]用二级判别做台风登陆地段的预报。

Fisher、Bayes以及逐步判别等虽然在气象实际中广泛应用,但严格地说,这些方法仅当变量为正态分布时才可应用, Logistic判别对变量的基本假设条件较宽,对未经正态检验的变量应用本方法是可行的,且可用于既有连续变量又有多值离散变量的情形。

吕纯濂等[21] 将Logistic判别引入中国气象界,并研究了二次Logistic判别[22]分析及逐步判别[23]在气象中的应用。

3、相关分析近20年来在气象统计中用得较多的主要有典型相关(CCA)分析和奇异值分解(SVD)方法。

CCA是提取两个气象场的最大线性相关摸态的方法。

朱盛明、祝浩敏[24]在数值预报的解释应用中用典型相关分析提取有物理意义的预报因子作预报方程。

陈嘉玲、谢炯光[25]用典型相关分析作中期冷空气预报。

黄嘉佑[26]用典型相关分析作副高的统计动力预报。

近年来发展了一种新的CCA改进方法,称为典型相关分析的BP(Barnert 和Preisendorfer)方法,在气象统计中也得到了应用[27]。

奇异值分解(SVD)也是提取两个场的最大线性相关摸态的方法,SVD 方法可以变成是两个要素场关系的扩大EOF分析。

谢炯光等[28]用奇异值分解方法,求出了广东省前汛期(4-6月)西太平洋场海温与广东省降水场的6对奇异向量,来作汛期降水趋势预报。

江志红等[29]用SVD方法讨论了中国夏半年降水与北太平洋海温异常的关系。

多元统计复习题及答案

多元统计复习题及答案

填空题:1、费希尔(Fisher)判别法是1936年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上。

2、因子分析的内容非常丰富,常用的因子分析类型是R型因子分析和Q型因子分析。

3、K均值聚类分析的基本思想是将每一个样品分配给最接近业壶些直的类中。

4、对应分析是将R型因子分析Q型因子分析结合起来进行的统计分析方法。

5、总体方差未知的情况下,采用样本方差代替总体方差的方法进行计算。

6、主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转7、设X、N2 ( U , N),其中X=(》1,》2),号),则CovQq +》2,*1 - *2)= _0__8、判别分析是判别样品所属类型的一种统计方法,常用的判别方法有距离判别法、Fisher 判另U法、Bayes判另U法、逐步判另U法9 多元正态分布的任何边缘分布为正态分布10、应用多元统计分析方法用于解决多指标问题,聚类分析就是分析如何对样品(或变量)进行量化分类的问题。

通常聚类分析分为Q型聚类和R型聚类。

11、总离差平方和可以分解为回归离差平方和和剩余离差平方和两个部分,各自的自由度为(P )和(n-p-1),其中回归离差平方和在总离差平方和中所占比重越大,则线性回归效果越显著。

12、系统聚类分析方法有最短距离法、最长距离法、中间距离法、重心法、类平均统和可变类平均法。

13、典型相关分析是研究两组变量之间相关关系的一种多元统计方法14、因子分析中因子载荷系数叫,•的统计意义是:(第i个变量与第j个公因子的相关系数)15、相应分析的特点是研究的变量是定性的16、公共因子方差与特殊因子方差之和为o17、设Z 是总体X=(X”…,乂皿)的协方差阵,X 的特征根人。

=1,2,..・田)与对应的单位正交化特征向量% =(%,%2,,则第一主成分的表达式=% ]X| + %2、2 + ・•• + /mX"],方差为2]18、相应分析的主要目的是寻求列联表行因素A和列因素B的基本分析特征和它们的最优联立表示19聚类分析一是分析如何对样品或变量进行量化分类的问题。

典型相关分析

典型相关分析

计算结果
对于众多的计算机输出挑出一些来介绍。 对于众多的计算机输出挑出一些来介绍。下面表 格给出的是第一组变量相应于上面三个特征根的 的系数, 三个典型变量V 三个典型变量 V1 、 V2 和 V3 的系数 , 即典型系数 coefficient)。 注意, SPSS把第一 (canonical coefficient) 。 注意 , SPSS 把第一 组变量称为因变量(dependent variables), 组变量称为因变量 (dependent variables) , 而 把第二组称为协变量(covariates) 显然, (covariates); 把第二组称为协变量(covariates);显然,这两 组变量是完全对称的。 组变量是完全对称的。这种命名仅仅是为了叙述 方便。 方便。
计算结果
下面一个表给出了特征根(Eigenvalue), 下面一个表给出了特征根 (Eigenvalue),特征根所 (Eigenvalue) 占的百分比(Pct) 和累积百分比(Cum Pct)和典型 (Pct)和累积百分比 (Cum. 占的百分比 (Pct) 和累积百分比 (Cum. Pct) 和典型 相关系数(Canon Cor)及其平方(Sq. Cor)。看来, 及其平方(Sq 相关系数 (Canon Cor) 及其平方 (Sq. Cor) 。 看来 , 头两对典型变量( 头两对典型变量(V, W)的累积特征根已经占了总量 99.427% 它们的典型相关系数也都在0 95之上 之上。 的99.427%。它们的典型相关系数也都在0.95之上。
典型变量
假定两组变量为X 假定两组变量为 X1,X2…,Xp 和 Y1,Y2,…,Yq , 那么 , ,X ,Y 那么, 问题就在于要寻找系数a 问题就在于要寻找系数 a1,a2…,ap 和 b1,b2,…,bq , ,a ,b 使得新的综合变量( 使得新的综合变量(亦称为典型变量或典则变量 variable)) (canonical variable))
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

7.1.1 典型相关分析的概念与步骤1. 典型相关分析的基本思想典型相关分析采用主成分的思想浓缩信息,根据变量间的相关关系,寻找少数几对综合变量(实际观测变量的线性组合),用它们替代原始观测变量,从而将二组变量的关系集中到少数几对综合变量的关系上,通过对这些综合变量之间相关性的分析,回答两组原始变量间相关性的问题。

除了要求所提取的综合变量所含的信息量尽可能大以外,提取时还要求第一对综合变量间的相关性最大,第二对次之,依次类推。

这些综合变量被称为典型变量,或典则变量,第1对典型变量间的相关系数则被称为第1典型相关系数。

典型相关系数能简单、完整地描述两组变量间关系的指标。

当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当其中的一组只有一个变量时,典型相关系数即为复相关系数。

7.1.4 用CANCORR过程实现典型相关分析1. CANCORR过程CANCORR过程的常用语法格式如下:PROC CANCORR <选项列表>;WITH <变量列表>;VAR <变量列表>;RUN;其中PROC CANCORR语句、WITH语句是每个过程中必不可少的,其余语句可视情况使用。

下面分别介绍各语句的用法和功能。

(1) PROC CANCORR语句:标示典型相关分析开始,可以规定输入输出数据集,指定分析方法和控制输出结果的显示等。

语句中可设置的常用选项及其功能见表7-3。

(2) VAR语句:列出要进行典型相关分析的第一组变量,变量必须是数值型的。

如果VAR语句被忽略,所有未被其他语句提到的数值型变量都将被视为第一组变量。

(3) WITH语句:列出要进行典型相关分析的第二组变量,变量必须是数值型的。

该语句是每一个PROC CANCORR中必不可少的。

表7-3 常用选项及其功能2. 使用CANCORR过程【例7-3】家庭特征与家庭消费之间的关系。

为了了解家庭的特征与其消费模式之间的关系。

调查了70个家庭的下面两组变量:x 1:每年去餐馆就餐的频率,x2:每年外出看电影的频率;y 1:户主的年龄,y2:家庭的年收入,y3:户主受教育程度。

试分析两组变量之间的关系。

假定变量的相关系数阵如表所示如下代码,利用变量的相关系数矩阵作典型相关分析:DATA jt(TYPE=CORR);INPUT NAME $ 1-2 (X1 X2 Y1-Y3) (6.);CARDS;X1 1.00 0.80 0.26 0.67 0.34 X2 0.80 1.00 0.33 0.59 0.34 Y1 0.26 0.33 1.00 0.37 0.21 Y2 0.67 0.59 0.37 1.00 0.35 Y3 0.34 0.34 0.21 0.35 1.00 ;PROC CANCORR EDF=70 REDUNDANCY; VAR X1 X2; WITH Y1-Y3; RUN;说明:1) 在数据集名jt 后用TYPE = CORR 表明数据的类型为相关矩阵,而不是原始数据。

2) INPUT 语句中用“NAME $”读取左侧的变量名,“1-2”表示变量名的字符落在第1、2列上,“(X1 X2 Y1-Y4)”表示各列数据所对应的变量名,“(6.)”表示读取数据的宽度均为6列,其中相关系数占4位,其后的空格占2位;3) 选择项EDF = n – 1,为典型相关分析提供一个计算误差自由度的参考值,因为该过程中没有合适的选择项可以将原始数据的样本含量n 准确地送入。

如果忽略这一选择项,将以缺省值n = 10000作为样本含量参与有关计算和统计检验,显然不妥;4) 选项REDUNDANCY 表示输出典型冗余分析的结果3. 结果分析(1) 典型相关系数及显著性检验第一部分的4列依次是:典型相关系数、校正的典型相关系数、近似的标准误以及典型决定系数(典型相关系数的平方)。

从中可以看出,本例提取了2个典型相关系数,第一个典型相关系数CanR 1= 0.687948,其校正值为0.673671,标准误为0.062956,CanR 12= 0.473272;第二个典型相关系数为0.186865第二部分是特征根以及相应的统计量,从中可以看出,第一对典型变量所能解释的变异已占总变异的96.13%,另一对典型相关变量的作用很小,只解释了总变异的3.87%,可以不予考虑。

右边4列给出对典型相关系数的检验,具体采用似然比法,所求的似然比统计量近似服从F分布。

第一行检验的是第一相关系数以及比它小的两个相关系数是否为0,第一行的F值8.86,p值<0.0001。

后一行检验的p值远大于置信水平0.05,故可以认为只有第一个典型相关系数有统计学意义。

第三部分(图7-21)输出的是按照多元分析的原理进行的所有典型相关系数是否为0的检验,四种方法中一般参照Wilks' Lambda检验的结果。

本例中4种方法的检验结果与前述完全一致。

(2) 典型变量系数与典型结构第四部分(图左)给出的是用原始变量表达的典型变量系数。

考虑标准化后的系数,即第五部分(图右)给出的典型变量和标准化变量(对原始变量标准化)间的换算公式。

由于使用原始变量的相关系数阵作为输入数据,所以这两部分相同。

来自消费模式指标的第一典型变量V1为(原始变量的右上角带“*”表示为标准化变量):V1 = 0.7689 x 1*+0.2721 x 2*它是x 1*(每年去餐馆就餐的频率)和x 2*(每年外出看电影的频率)的加权和,在x 1*上的权重更大些。

来自家庭特征指标的第一典型变量W1为:W1 = 0.0491 y 1*+ 0.8975 y 2*+ 0.1900 y 3*它在y 2*(家庭的年收入)上的系数最大。

这一对典型变量主要是反映x 1*(每年去餐馆就餐的频率)和y 2*(家庭的年收入)的相关关系。

第六部分(图7-24)为典型相关结构,分别是各组原始变量与典型变量两两之间的相关系数矩阵。

可以看出:x 1和x 2与第1典型变量V1的相关系数皆为正值,分别为0.9866和0.8872,可见V1可以作为消费特性的指标。

家庭特征指标的所有变量与第1典型变量W1的相关系数分别为:0.4211,0.9822和0.5145,可见典型变量W1主要代表了了家庭收入。

V1和W1的典型相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的。

第二对典型变量中V2与x 2的相关系数为0.4614,可以看出V2可以作为文化消费特性的指标,第二对典型变量中W2与y 1和y 3之间的分别相关系数为0.8464和0.3013,可见典型变量W2主要代表了家庭成员的年龄特征和教育程度,V2和W2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间有一定关系。

(3) 典型冗余分析第七部分给出典型冗余分析的结果(图7-25、7-26),由于本例是对相关系数矩阵作分析故两个结果相同。

两对典型变量解释配对变量组方差的累计比例分别为42.08%和23.157%。

消费指标通过它的第一个典型变量解释的共享方差的比例是88.03%,而被对方第一个典型变量W1解释的方差比例为41.66%,其比值41.66% / 88.03%= 0.4733恰为Can R 2(Canonical R-Square ),通过它的第二个典型变量解释的共享方差的比例是11.97%,被对方第二个典型变量W2解释的方差比例为0.42%,其比值为0.0349。

家庭特征指标通过它的第一个典型变量解释的共享方差的比例是46.89%,而被对方第一个典型变量V1解释的方差比例为22.19%,通过它的第二个典型变量解释的共享方差的比例是27.31%,而被对方第二个典型变量V2解释的方差比例为0.95%。

第八部分给出各原始变量和配对组的典型变量间的复相关系数(Multiple Correlations )的平方,即原始变量与典型变量的判定系数,如x 1与第1典型变量W1的相关系数为0.6787,则其判定系数为0.67872= 0.4607。

由复相关系数的平方可看出,消费指标的典型变量V1对y 2(0.4566)有一些预测能力,但对y 1(0.0839)和y 3(0.1253)有微弱的预测能力。

而来自家庭特征指标的典型变量W1对x 1(0.4607)和x 2(0.3725)有较好的预测能力。

7.2.2 使用CORRESP 过程实现对应分析1. CORRESP 过程PROC CORRESP <选项列表>: VAR <变量列表>;TABLES <行变量列表>,<列变量列表>; ID <变量>; RUN ;其中的PROC CORRESP 语句、TABLES 语句或者VAR 语句是必须使用的,除了这两个语句,其他语句都是可以选择的,下面分别介绍各语句的用法和功能 (1) PROC CORRESP 语句标示对应分析开始,可以规定输入输出数据集,指定分析方法和控制输出结果的显示等。

语句中可设置的常用选项及其功能见表7-5。

(2) VAR 语句输入数据为表格格式时使用,不能与TABLES同时使用。

变量必须是数值型的。

(3) ID语句ID语句只能与VAR语句一起使用,如果使用了TABLES或者MCA选项,就不能使用该语句。

该语句只能规定一个字符变量。

自动用ID语句的变量值作为输出表格列的标签,并且保存在输出数据集中。

4) TABLES语句TABLES语句用行变量和列变量构造一个列联表,行变量和列变量之间用逗号分隔。

不可与ID 和VAR语句同时使用。

对二维列联表数据的对应分析【例7-4】调查了三个民族的血型分布资料如表7-6所示,试作对应分析。

表7-6 三个民族不同血型出现的频数假定上述数据已经存放在数据集Mylib.xx中。

(1) SAS代码对应分析的代码如下:proccorresp data = Mylib.xx out = result;var DZ WZ TJZ;id Type;run;optionsps = 40;proc plot data=result;plot dim2*dim1="*"$Type/ box haxis=-0.2 to 0.3 by 0.1vaxis=-0.1 to 0.3 by 0.1 HREF=0 VREF=0;run;(2) 主要输出结果及其解释1) 惯量与卡方分解= Z'Z的特征值。

原始数图7-28的第一列为Z的奇异值,最有用的是第2列(主惯量),即矩阵SR据有4行3列,这里提取2个特征值,即可完全解释数据的信息量。

第一个特征值解释了信息量的78.07%,第二个特征值解释了21.93%,前两个特征值的累积贡献率已达100%,以第一维度为主。

相关文档
最新文档