应用多元统计分析-第八章 列联与对应分析
应用多元统计分析-第八章 列联与对应分析

82
123
% within sex
66.67 100.00%
观察值的分布
事实上,表8.2就是一个最简单的观察值 的分布。 观察值分布虽然反映了数据的分布,但 因为基数不同,不适合于进行对比。 为了能在此相统的基数上比较,使列联 表中的数据提供更多的分布
如果我们想进一步了解不同性别的人对 这项政策的观点是否存在着显著的差异, 就要进行检验。 从逻辑上讲,如果男女性别的人对这项 政策的看法相同,那么男性不赞同方案 的人应为:58×33.3%=19人,女性不赞同 方案的人应为:65×33.3%=22人。 这19人和22人就是本例中的期望值,由 此可以计算出期望值的分布。
对应分析
由于所有的检验都很显著,看来两个变 量的确不独立。 但是如何用象因子分析的载荷图那样的 直观方法来展示这两个变量各个水平之 间的关系呢?这就是本章要介绍的对应 分析(correspondence analysis)方法。 对应分析是将指标型的因子分析与样品 型的因子分析结合起来进行的统计分析。
例7.1—数据文件:ChMath.sav
这项研究是为了考察汉字具有的抽 象图形符号的特性能否会促进儿童 空间和抽象思维能力。 该数据以列联表形式展示在表中:
人们可以对这个列联表进行前面所说的X2检验来考 察行变量和列变量是否独立。结果在下面表 (通过Analyze-Descriptive Statistics-Crosstabs)
sex * opinion Crosstabulation
opinion
不赞成
sex 女 % within sex 男 Count % within sex Total Count
赞成
18
27.69 23 39.66
第8章 列联表的对应分析

第八章 对应分析
对应分析的思想
根据独立性检验的原理,当卡方值较大时 认为两个属性变量之间不相互独立; 皮尔逊据此提出了度量属性变量相关程度 的φ系数, 2 / n ;该系数实质上是对 pearson相关系数的估计,即 ( p p p )2
I
ij i j
对应分析中,把I称为总惯量(Inertia)。 根列联表的对应分析
主要步骤:
行属性分析
首先根据R型因子分析法,把总惯量I分解:
I , 1 2 m 其中, 0是T的m个非零特征根 1 2 m
然后,一般取前两个主成分,使它们的贡献率>80%以上; 并计算各类别在I的两个组成部分中的得分,形成横坐标 和纵坐标; 根据Q型因子分析法,按照与行分析类似的步骤计算出横 坐标和纵坐标;
pi p j
对应分析的思想
在知道相关程度大小基础上,我们还想进一步 了解属性A的哪几个类别与属性B的哪几个类 别相关性强,它们相互对应。这就是对应分析。 基本思想:对应分析是把总惯量I分解为几个 部分,这几部分中有的对属性A与B相关程度 的度量值大,有的小,将它们按主次顺序排列, 然后取其前两个部分,并计算属性A的r个类别 和属性B的c个类别在其中的得分,把它们表现 在平面图上。它们的距离越近,表示有差不多 的得分,从而认为它们相互对应。
高维列联表的对应分析
三维以上的列联表对应分析称为多重对应分析。 就三维列联表而言,对应分析与二维表有所不 同。二维表讨论的是两个属性的类别间的对应 关系,三维表则是讨论某个属性与另外两个属 性的对应关系。 三维列联表对应分析的解决办法是:通过构造 一个二维列联表,对二维表进行对应分析。 对三维以上的列联表的对应分析,可以与三维 表类似,通过构造二维表的方式来进行对应分 析。
对应分析

p12 / p1. p22 / p2. p n 2 / pn .
p1 p / p1. p 2 p / p 2. pnp / pn.
pij n pij E ( ) = ∑ . pi. = p. j , j = 1,2,, p pi. i =1 pi.
因为原始变量的数量等级可能不同,所以为了尽 量减少各变量尺度差异,将行轮廓中的(各列元素) 均除以其期望的平方根.得矩阵D(R)
32 6
15 1
62 8
11 1
40 8
58 6
35 10
58 67
21 23
70 95
17 25
70 71
62 89
83 91
American European Japanese Large Medium Small Family Sporty Work 1 Income 2 Incomes Own Rent Married Married with Kids Single
变量的叉积矩阵
∑ R = (X* )′X* ( p × p)
样品的叉积矩阵
∑ Q = X* ( X* )′ ( n × n)
显而易见,变量和样品的叉积矩阵的阶数不同,一般来说, 显而易见,变量和样品的叉积矩阵的阶数不同,一般来说, 他们的非零特征根也不一样,那么能否将观测值做变换. 他们的非零特征根也不一样,那么能否将观测值做变换.
含义 雪糕 纯水 碳酸饮料 果汁饮料 保健食品 空调 洗衣机 毛毯
代码 Feel1 Feel2 Feel3 Feel4 Feel5 Feel6 Feel7 Feel8
含义 清爽 甘甜 欢快 纯净 安闲 个性 兴奋 高档
name1
product1 product2 product3 product4 product5 product6 product7 product8 feel1 feel2 feel3 feel4 feel5 feel6 feel7 feel8 50 508 55 109 34 11 30 2 368 217 19 142 16 2 4 3
R语言版应用多元统计分析对应分析

应用多元统计分析第8章 对应分析- 1-对应分析(Correspondence Analysis)是在因子分析的基础上发展起来的一种视觉化的数据分析方法,目的是通过定位点图直观地揭示样品和变量之间的内在联系。
R型因子分析是对变量(指标)进行因子分析,研究的是变量之间的相互关系;Q型因子分析是对样品作因子分析,研究的是样品之间的相互关系。
但无论是R型或Q型分析都不能很好地揭示变量和样品之间的双重关系。
而在许多领域错综复杂的多维数据分析中,经常需要同时考虑三种关系,即变量之间的关系、样品之间的关系以及变量与样品之间的交互关系。
法国学者苯参次(J.P.Benzecri)于1970年提出了对应分析方法,这个方法对原始数据采用适当的标度化处理,把R型和Q型分析结合起来,通过R型因子分析直接得到Q型因子分析的结果,同时把变量和样品反映到同一因子平面上,从而揭示所研究的样品和变量之间的内在联系。
在因子分析中,R型因子分析和Q型因子分析都是从分析观测数据矩阵出发的,它们是反映一个整体的不同侧面,因而它们之间一定存在内在联系。
对应分析就是通过某种特定的标准化变换后得到的对应变换矩阵Z将两者有机地结合起来。
具体地,就是首先给出变量的R型因子分析的协方差阵 和样品的Q型因子分析的协方差阵 。
由于矩阵 和 有相同的非零特征值,记为 ,如果 的对应于特征值 的标准化特征向量为 ,则容易证明, 的对应于同一特征值的标准化特征向量为当样本容量n很大时,直接计算矩阵 的特征向量会占用相当大的容量,也会大大降低计算速度。
利用上面关系式,很容易从 的特征向量得到 的特征向量。
并且由 的特征值和特征向量即可得到R 型因子分析的因子载荷阵A和Q型因子分析的因子载荷阵B,即有由于 和 具有相同的非零特征值,而这些特征值又是各个公因子的方差,因此设有p个变量的n个样品观测矩阵 ,这里要求所有元素 ,否则对所有数据同时加上一个适当的正数,以使它们满足以上要求。
第八章 列联分析PPT

r1 c1 n n
由于观察频数的总数为n ,所以f11 的期望频数 e11 应为
r1 c1 r1c1 158 130 e11 n 38.97 39 527 n n n
前例根据上述公式计算的前例的期望频数为:
相关系数原理分析
3. 将入 相关系数的计算公式得:
2 ad bc n (a b)(c d )(a c)(b d )
ad 等于 bc , = 0,表明变量X 与 Y 之间独立。 若 b=0 ,c=0,或a=0 ,d=0,意味着各观察 频数全部落在对角线上,此时|| =1,表明变量X 与 Y 之间完全相关。 4. 列联表中变量的位置可以互换,的符号没有实际意 义,故取绝对值即可。
-14 5 5 4 7 -5 7 -10 7 0 -12 6 196 25 25 16 49 25 49 100 49 0 144 36 5.0256 0.7143 0.5952 0.3810 0.7903 0.4464 0.7313 1.4925 1.6897 0 4.6452 1.1613
( f ij eij ) 2 eij
4. 对品质数据的描述和分析通常使用列联表 5. 可使用检验
8.1 列联表
8.1.1 列联表的构造 8.1.2 列联表的分布
8.1.1 列联表的构造
1、由两个或两个以上变量进行交叉分类的频数分布表; 2、行变量的类别数用 r 表示, 列变量的类别数用 c 表 示; 3、由行变量和列变量的所有可能的组合构成的表格,称为 列联表; 4、一个 r 行 c 列的列联表称为 r×c 列联表
吸烟 不吸烟 合计
解题步骤:
提出假设 H0:吸烟习惯与慢性气管炎的患病率之间独立 H1:吸烟习惯与慢性气管炎的患病率之间不独立 2. 计算检验的统计量 1.
(约翰逊版)实用多元统计分析第八章课后答案

第八章作业8.10解:首先对数据进行标准化处理,消除不同的度量带来的差异标准化的数据如下表:表1对处理的数据做主成分分析样本相关系数矩阵即为相应的样本协方差矩阵S即相应的协方差矩阵为:表2从表3可以得出,五个主因子解释的总体方差比重表3五个主因子间的协方差矩阵如下表4:表4从表4可以看出,这两个因子之间的相关程度比较低表5从表5可以得出五个主成分的表达式:F1=0.302X1+0.403X2+0.342X3+0.277X4+0.242X5F2=(-0.245)X1+(-0.14)X2+(-0.339)X3+0.46X4+0.492X5F3=1.016X1+(-0.517)X2+(-0.365)X3+0.005X4+0.102X5F4=(-0.163)X1+(-1.058)X2+1.096X3+0.216X4+0.169X5F5=(-0.044)X1+0.056X2+0.1X3+(-1.157)X4+1.144X5(b)五个特征值分别为:λ1,λ2,λ3,λ4,λ5,从表三可以得出: 第一主成分的总方差贡献为:λ1λ1+λ2+λ3+λ4+λ5=39.502% 第二主成分的总方差贡献为:λ2λ1+λ2+λ3+λ4+λ5=30.879% 第三主成分的总方差贡献为:λ3λ1+λ2+λ3+λ4+λ5=13.856%(c )第一主成分的特征值λ1对应的庞弗罗尼联合置信区间为【0.00106,0.00195】第二主成分的特征值λ2对应的庞弗罗尼联合置信区间为【0.00054,0.001】第三主成分的特征值λ3对应的庞弗罗尼联合置信区间为【0.00019,0.00036】 (d )从(a )~(c )的结果,前三个主成分的方差贡献超过80%,我们可以得出,综合股票回报率数据能在小于五维的空间中得到解释。
8.13(a )变量的相关系数矩阵如下表:(b)有相应的相关系数表可以求出相应的特征值及特征向量表1从表1可以得出相应的特征值表2从上表可以得出相应的特征向量e1=(0.872,0.903,0.659,0.79,0.977,0.134)ˋe2=(0.361,-0.151,-0.23,-0.128,-0.037,0.955)ˋe3=(-0.382, -0.372,0.576, 0.246,0.044, 0.259)ˋe4=(0.189,0.071,0.423,-0.541,-0.068,-0.033)ˋe5=(-0.016,0.128,0.042,0.065 ,-0.191,0.038)ˋe6=(-0.061,0.049,-0.01,-0.028,0.032,0.026)ˋ第一主成分的总方差贡献为:λ1=58.846%λ1+λ2+λ3+λ4+λ5+λ6=18.925%第二主成分的总方差贡献为:λ2λ1+λ2+λ3+λ4+λ5+λ6=12.433%第三主成分的总方差贡献为:λ3λ1+λ2+λ3+λ4+λ5+λ6第四主成分的总方差贡献为:λ4=8.641%λ1+λ2+λ3+λ4+λ5+λ6=1.010%第五主成分的总方差贡献为:λ5λ1+λ2+λ3+λ4+λ5+λ6=0.145%第六主成分的总方差贡献为:λ6λ1+λ2+λ3+λ4+λ5+λ6(c)从(b)的结果可以看出,第一个主成解释了总方差的58.846%,低于80%,所以用一个指标来反映综合放射法数据是不合理的(d)从(b的结果可以得出,提取前三个主成分比较合适,前三个主成分的的累积方差贡献超过80%,前三个主成分与x1,x2,x3,x4.x5及x6的相关系数表如下:表3第九章作业9.20(a)空气污染变量X1,X2,X5,X6的样本协方差矩阵如表1:表1(a)先求出m=1时的因子矩阵,然后计算响应的主成分得分,再利用公式Xi=∝F1 其中∝为第一主成分的方差贡献,由此可以得到m=1的因子模型的主成分解如表2:表2m=2表3。
应用多元统计分析课后答案 第八章知识讲稿

•18
则
•15
第八章 因子分析
因
所以
•16
第八章 因子分析
8-5 试比较主成分分析和因子分析的相同之处
与不同点. 因子分析与主成分分析的不同点有:
(1) 主成分分析不能作为一个模型来描述,它只 是通常的变量变换,而因子分析需要构造因子模
(2) 主成分分析中主成分的个数和变量个数p相
同,它是将一组具有相关关系的变量变换为一组不 相关的变量(注意应用主成分分析解决实际问时,
•10
第八章 因子分析
8-3 验证下列矩阵关系式(A为p×m阵)
解:利用分块矩阵求逆公式求以下分块矩阵的逆:
利用附录中分块求逆的二个公式(4 . 1 ) 和 ( 4 . 2ห้องสมุดไป่ตู้)有:
•11
第八章 因子分析
由逆矩阵的对应块相等,即得:
•12
第八章 因子分析
把B22·1和B11·2式代入以上各式,可得: 由第三式和第二式即得
应用多元统计分析
第八章习题解答
•1
第八章 因子分析
•2
第八章 因子分析
•3
第八章 因子分析
特殊因子ε=(ε1, ε 2 , … , ε p ) " 的协差阵D为:
•4
第八章 因子分析
•5
第八章 因子分析
•6
第八章 因子分析
•7
第八章 因子分析
或者利用习题8-4的结果:
(3) 试求误差平方和Q(m)<0.1的主成分解. 因Q(2)=0.07331<0.1,故m=2的主成分解满足要求.
•13
第八章 因子分析
多元统计分析方法(兰州商学院,傅德印)第八章 典型相关分析(f)

第八章 典型相关分析在对经济问题的研究和管理研究中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关性。
典型相关分析就是测度两组变量之间相关程度的一种多元统计方法。
第一节 典型相关的基本原理(一)典型相关分析的基本思想 典型相关分析方法(canonical correlation analysis)最早源于荷泰林(H ,Hotelling)于1936年在《生物统计》期刊上发表的一篇论文《两组变式之间的关系》。
他所提出的方法经过多年的应用及发展,逐渐达到完善,在70年代臻于成熟。
由于典型相关分析涉及较大量的矩阵计算,其方法的应用在早期曾受到相当的限制。
但随着当代计算机技术及其软件的迅速发展,弥补了应用典型相关分析中的困难,因此它的应用开始走向普及化。
典型相关分析是研究两组变量之间相关关系的一种统计分析方法。
为了研究两组变量1X ,2X ,…,p X 和1Y , 2Y ,…,q Y 之间的相关关系,采用类似于主成分分析的方法,在两组变量中,分别选取若干有代表性的变量组成有代表性的综合指标,通过研究这两组综合指标之间的相关关系,来代替这两组变量间的相关关系,这些综合指标称为典型变量。
(二)典型相关分析的数学描述设有两随机变量组=X (1X ,2X ,…,)'pX 和=Y (1Y , 2Y ,…,qY )',不妨设p ≤q 。
对于X ,Y ,不妨设第一组变量的均值和协方差为矩阵为 ()X E =1μ Cov ()X =∑11第二组变量的均值和协方差为矩阵为()Y E =2μ Cov ()Y =∑22第一组与第二组变量的协方差为矩阵为Cov ()Y X ,=∑12= ∑21'于是,对于矩阵 Z = ⎥⎦⎤⎢⎣⎡Y X 有 (9—1—1) 均值向量 μ=E ()Z =E ()()⎥⎦⎤⎢⎣⎡Y E X E =⎥⎦⎤⎢⎣⎡21μμ (9—1—2)协方差矩阵()()∑+⨯+q p q p =E ()μ-Z ()'-μZ=()()()()()()()()⎥⎥⎦⎤⎢⎢⎣⎡'--'--'--'--22122111μμμμμμμμY Y E X Y E Y X E X X E =()()()()⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡∑∑∑∑⨯⨯⨯⨯q q p q qp p p 22211211要研究两组变量1X ,2X ,…,p X 和1Y , 2Y ,…,q Y 之间的相关关系,首先分别作两组变量的线性组合,即p p X a X a X a U +++= 2211=X a 'V =q q Y b Y b Y b +++ 2211=Y b '()'=p a a a a ,,,21 ,()'=q b b b b ,,,21 分别为任意非零常系数向量,则可得,Var ()U =a 'Cov ()a X = a '∑11a Var ()V =b 'Cov ()b Y = b '∑22bCov ()V U ,=a 'Cov ()Y X ,b = a '∑12b则称U 与V 为典型变量,它们之间的相关系数ρ称为典型相关系,即ρ=Corr ()V U ,=bb a a b a ∑∑∑'''221112典型相关分析研究的问题是,如何选取典型变量的最优线性组合。
多元统计分析聚类分析,判别分析,对应分析 ppt课件

总计 .135 .934 .999 .045
第三部分是对列联表行与列个状态有关信息 的概括(概述行点只截取了部分数据)。其 中,质量部分分别指列联表中行与列的边缘 概率。维中的得分是各维度的分值,指行列 各状态在二维图中的坐标值。如语文坐标为 (-0.00,-0.143)。惯量是每一行(列)与 其重心的加权距离的平方,可以看出 I=J=0.01,即行剖面的总惯量等与列剖面的 总惯量。贡献部分是指行(列)的每一状态 对每一维度(公共因子)特征值的贡献及每 一维度对行(列)各个状态的特征值等贡献。 如第一维度中,外语对应的数值最大,为 0.975,说明外语这一状态对第一维度的贡 献最大。
多元统计分析聚类分析,判别分析,对应分析
操作步骤
(1)打开SPSS文件,在表格下方有两个选项,分别是数据试图和变量视 图,点击变量视图选项,在前三行分别输入“学号”、“科目”、“成 绩”,其中学号与科目的值项需要做如下设置:在弹出的值标签对话框 里,在值这一项里输入“1”,标签输入“1”,再点击“添加”按钮, 依次添加到40为止,在科目的值标签对话框内,在值这一项中输入“1”, 标签输入“语文”,点击“添加”按钮,再依次添加“2”对应标签为 “数学”,“3”对应标签为“外语”,“4”对应标签为“体育”,综 上分别完成对1号至40号学号以及4项科目进行数字的赋值。 然后点击数据视图进行数据输入,数据输入按照成绩单输入,如:第一 行第一列输入“1”,第二列输入“1”,第三列输入“82”,第二行第 一列输入“2”,第二列输入“1”,第三列输入“81”,以此类推,共
2 -.143 -.427 .065 -.013
概述列点a
惯量 .002 .003 .005 .000 .010
点对维惯量
1
多元统计分析——对应分析实验报告

多元统计分析实验报告表2-2 对应分析数据(老龄化数据)三、实验过程在spss16.0软件中,对表2-2数据做对应分析。
首先应对个案进行加权操作。
选择【Date】—【Weight Cases】,出现表3对话框。
选择frequency作为加权,如图3-1所示。
图3-1 加权个案对个案加权后,开始做对应分析。
选择【Analyze】—【Date Reduction】—【Corespondence Analysis】,会出现图3-2对话画框。
图3-2 对应分析对话框接下来对行变量和列变量进行设置。
将selfassess(自评健康状况)选入Row,作为行变量,并选择【Define Range】,填写范围后点击【Update】—【Continue】,如图3-3所示;按同样的步骤,将independence(生活自理能力)选入Column(列变量),并设置列变量,如图3-4所示;最终设置结果如图3-5所示。
图3-3 行变量设置图3-4 列变量设置图3-5 对应分析设置结果点击【OK】,便可得到对应分析结果。
四、实验过程表4-1为对应分析的版本信息。
图中显示为1.1版本。
表4-1 对应分析版本信息表4-2是列联表,列示了在各个水平下的人数。
表4-2 列联表表4-3为对应分析总述表。
表中显示了奇异值(Singular Value),第一个维度的奇异值为0.253,第二个维度的奇异值为0.125;惯量(Inertia)为特征根,就是奇异值的平方;Chi Square 值为212.593,是总样本数除以总的Inertia 觉原假设,认为两个随机变量不是相互独立的,本例中就是自评健康状况和生活自理能力不是相互独立的;贡献率(Accounted for)显示,第一个维度解释了总变异的80.4%,第二个维度解释了19.6%,两个维度解释了所有的变异;接下来依次为累计贡献率(Cumulative)、奇异值的方差(Standard Deviation)、奇异值的相关系数(Correlation)。
应用多元统计分析课后习题答案详解北大高惠璇第八章习题解答

所以
Q(m)
i 1 j 1 2 ij
p
p
j m1
(
2 j i 1
p
2 2 i
)
j m 1
,
2 j
16
p
第八章 因子分析
8-5 试比较主成分分析和因子分析的 (1) 主成分分析不能作为一个模型来描述,它只 是通常的变量变换,而因子分析需要构造因子模型; (2) 主成分分析中主成分的个数和变量个数p相 同,它是将一组具有相关关系的变量变换为一组互 不相关的变量(注意应用主成分分析解决实际问题 时,一般只选取前m(m<p)个主成分),而因子分析的 目的是要用尽可能少的公共因子,以便构造一个结 构简单的因子模型;
(2) ( AA D) 1 D 1 D 1 A( I AD 1 A) 1 A1 D 1 ; (3) A( AA D) 1 ( I m AD 1 A) 1 AD 1. 解:利用分块矩阵求逆公式求以下分块矩阵的逆:
记B221 I m AD A,
17
第八章 因子分析
(3) 主成分分析是将主成分表示为原变量的线 性组合,而因子分析是将原始变量表示为公因子 和特殊因子的线性组合,用假设的公因子来“解 释”相关阵的内部依赖关系. 这两种分析方法又有一定的联系.当估计方法 采用主成分法,因子载荷阵A与主成分的系数相 差一个倍数;因子得分与主成分得分也仅相差一 个常数.这种情况下可把因子分析看成主成分分 析的推广和发展. 这两种方法都是降维的统计方法,它们都可用 来对样品或变量进行分类.
18
2 11 2 21 2 3 2 31
a 1
2 31 2 3
a11a21 0.63 a11a31 0.45 a31a21 0.35
第八章 对应分析 《应用多元统计分析》 ppt课件

4
二、对应分析的基本思想
可以证明,如果 A 的特征根 i 对应的特征向量为 ui ,则 B 的特征根 i 对应的特征向量就 是 Zui vi 。根据这个结论就可以很方便地借助 R 型因子分析得到 Q 型因子分析的结果。
因为求出 A 的特征根和特征向量后很容易地写出变量点协差阵对应的因子载荷矩阵(记为 F ):
假定矩阵 X 的元素 xij 0 ,否则对所有的数据同加上一个适当的数,便可满足这个要
求 , 然 后 写 出 X 的 行 和 、 列 和 , 以 及 行 列 总 和 , 分 别 记 为 xi ( i 1, 2, , n ) ,
x j ( j 1, 2, , p )和 x ,如表 8.1 所示。
的非零特征根。
推论:如果 u 是 A ZZ 的特征向量,则 Zu 是 B ZZ 的特征向量。如果 v 是
(2)在处理实际问题中,样品容量往往较大, 使型因子分析的计算量非常巨大,比如有1000 个样品,就要计算1000×1000阶矩阵的特征根 和特征向量,计算代价相当之高。
2
一、什么是对应分析
(3)在进行数据处理时,为了将数量级相差很大的变量 进行比较,需要对变量进行标准化处理,然而这种只 按照变量列进行的标准化处理对于变量和样品是非对 等的,这给寻找型因子分析和型因子分析的联系带 来—定的困难。
1
一、什么是对应分析
(1)型因子分析和型因子分析是分开进行的。 当研究的对象是变量时,通常作型因子分析, 当研究的对象是样品时,则采用型因子分析, 而且把型和型看成两种分离的概念,无法使型 和型因子分析同时进行,这样将型和型割裂开 后就会损失很多有用的信息,而且还不能揭示 变量与样品之间的相关信息。
多元统计分析第八章 典型相关分析

第8章 典型相关分析典型相关分析是用来描述两组随机变量(两个随机向量)间关系的统计分析方法。
两组随机向量,各含有许多随机变量,能否用少量随机变量来描述其相关性?例如为了研究饲料与荤菜价格的关系,统计若干年玉米、大豆、稻子、麦子、鱼粉以及猪肉、牛肉、羊肉、鸡肉、鸡蛋、鸭肉、鸭蛋的价格,分析饲料与荤菜价格的关系时,发现单独一种饲料和单独一种肉蛋禽价格关系并不密切(由显著性检验可见),但饲料的某种综合价格则与肉蛋禽综合价格的关系很密切。
把饲料价格看成一组随机变量,肉蛋禽价格看成另一组随机变量,找这两组随机变量的线性组合,使之相关系数平方最大,从而分析两组随机变量间的关系,判定这两组随机变量是否有关联,这就是典型相关分析。
8.1 典型相关分析数学模型设随机向量)',...(1p x x X =与)',...(1p y y Y =的方差yy xx ∑∑,存在,协方差为xy Y X ∑=),cov(。
b a ,为常数向量。
则1/2(',')'/('')xy xx yy corr a X b Y a b a ab b =∑∑∑,为了计算确定性,限制,1')'(=∑=a a X a D xx 1')'(=∑=b b Y b D yy 。
定义8.1 设11,b b a a ==在条件:,1')'(=∑=a a X a D xx 1')'(=∑=b b Y b D yy下使co v(',')a X b Y 大,则称Y b w X a v ','1111==为第一对典型相关变量,c o v(',')a Xb Y 称为第一典型相关系数。
由定义可见,11,w v 尽可能多地反映原来p 对随机变量相关的信息。
第一对典型相关变量往往不能完全反映随机向量间的关系,必须建立其它典型相关变量,它应当最能反映随机向量间的关系,但是它应当与第一对典型相关变量不相关(不包含第一对典型相关变量的信息)。
应用多元统计分析习题解答第八章

第八章 相应分析8.1 什么是相应分析?它与因子分析有何关系?答:相应分析也叫对应分析,通常意义下,是指两个定性变量的多种水平进行相应性研究。
其特点是它所研究的变量可以是定性的。
相应分析与因子分析的关系是: 在进行相应分析过程中,计算出过渡矩阵后,要分别对变量和样本进行因子分析。
因此,因子分析是相应分析的基础。
具体而言,Σr (Zu j )=λj (Zu j )式表明Zu j 为相对于特征值λj 的关于因素A 各水平构成的协差阵Σr 的特征向量。
从而建立了相应分析中R 型因子分析和Q 型因子分析的关系。
8.2试述相应分析的基本思想。
答:相应分析,是指对两个定性变量的多种水平进行分析。
设有两组因素A 和B ,其中因素A 包含r 个水平,因素B 包含c 个水平。
对这两组因素作随机抽样调查,得到一个r c ⨯的二维列联表,记为()ij r c k ⨯=K 。
要寻求列联表列因素A 和行因素B 的基本分析特征和最优列联表示。
相应分析即是通过列联表的转换,使得因素A 和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。
把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。
8.3 试述相应分析的基本步骤。
答:(1)建立列联表设受制于某个载体总体的两个因素为A 和B ,其中因素A 包含r 个水平,因素B 包含c 个水平。
对这两组因素作随机抽样调查,得到一个r c ⨯的二维列联表,记为()ij r c k ⨯=K 。
(2)将原始的列联资料K =(kij) r ⨯c 变换成矩阵Z =(zij) r ⨯c ,使得zij 对因素A 和列因素B 具有对等性。
通过变换Z ij =k −k i.k .jr k k 。
得c '=ΣZ Z ,r '=ΣZZ 。
(3)对因素B 进行因子分析。
计算出c '=ΣZ Z 的特征向量λ1,λ2⋯,λm 及其相应的特征向量 t 1,t 2,⋯t m 计算出因素B 的因子 U 1,U 2⋯U =( λ1t 1, λ2t 2,⋯ λm t m )(4)对因素A 进行因子分析。
多元统计分析对应分析

多元统计分析对应分析(总6页)-CAL-FENGHAI.-(YICAI)-Company One1-CAL-本页仅作为文档封面,使用请直接删除学生实验报告学院:统计学院课程名称:多元统计分析专业班级:统计123班姓名:叶常青学号: 0124253目的熟悉和掌握对应分析的原理和上机操作方法内容及要求本次操作就父母与孩子的受教育程度的关系进行对应分析,分别对父亲与孩子和母亲与孩子的受教育程度做对应分析,最后再对输出结果进行详细的分析。
打开GSS93 subset .sav数据,对变量Degree与变量padeg和madeg进行对应分析,依次选择分析→降维…进入对应分析对话框,进行进行如下设置,便可输出想要的数据的:四、实验结果与数据处理:按照上述方法和步骤得出以下输出结果.对父亲受教育程度与孩子受教育程度的关系进行分析如下:Highest DegreeLess than HSHighschoolJuniorcollegeBachelorGraduate有效边际LT High School156308294525563 High School27248347937425 Junior College11128325 Bachelor64374718121 Graduate3223271671有效边际19363275206991205第二部分摘要给出了惯量,卡方值以及每一维度所解释的总惯量的百分比信息。
总惯量为0.189,卡方值为228.193,有关系式228.193=0.189*1205,由此可以清楚的看到总惯量和卡方的关系。
Sig.是假设卡方值为0成立的概率,它的值几乎为0说明列联表之间有较强的相关性。
表注表明的自由度为(5-1)*(5-1)=16。
惯量部分是四个公共因子分别解释总惯量的百分比。
表4行简要表 Father's Highest Degree R's Highest Degree Less than HS High school Junior college Bach elor Grad uate 有效边际LT High School.277 .547 .052 .080 .044 1.00High School.064 .584 .080 .186 .087 1.00Junior College.040 .440 .080 .320 .120 1.00Bachelor.050 .355 .058 .388 .149 1.00Graduate.042 .310 .042 .380 .225 1.00质量 .160 .524 .062 .171 .082 表5列简要表 Father's Highest Degree R's Highest Degree Less than HS High school Junior college Bach elor Grad uate质量LT High School .808 .487 .387 .218 .253 .467 High School .140 .392 .453 .383 .374 .353 Junior College .005 .017 .027 .039 .030 .021 Bachelor .031 .068 .093 .228 .182 .100 Graduate .016 .035 .040.131 .162 .059有效边际1.000 1.000 1.000 1.000 1.000第三部分的结果是在对应分析中点击Statistics 按钮,进入Statistics 对话框,选中Row profiles 和Column profiles 交友程序运行所得到的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
列联表中的相关测量
SPSS中提供了多种相关检验的方法: 定距变量与定距变量相关的检验 名义变量与名义变量相关的检验 序次变量与序次变量相关的检验
Symmetric M easures Va lue No minal by Ph i .408 No minal Cramer's V .408 Co ntingency Co efficient .378 Ordinal b y Gamma -.641 Ordinal Sp earman Correlati on -.407 Interval b y In terval Pe arson's R -.408 N of Valid Cases 123 a. No t assuming th e null hypothe sis. b. Using the asymptoti c standard error assuming the null h ypo thesis. c. Ba sed on normal ap proximation. Asymp. a b Std. Error Ap prox. T Ap prox. Sig. .000 .000 .000 .101 -4.935 .000 .079 -4.898 .000 c .080 -4.913 .000 c
2
2 ( 0 fe) f fe
2 值的大小与观察值与期望值的配 由于 2 对数,即R×C有关,所以, 统计量的 分布与自由度有关。自由度=(R-1)(C-1)
0.4 0.5
(2)
2
2
分布
0.2
0.3
(3)
2
0.1
(5)
2
0.0
0
2
4
6
8
10
2
检验
2 检验可在交叉汇总分析中进行:
X2分布的期望值准则
例如表8.5中的数据可以计算,因为6个单 元中只有1个单元的期望频数小于5。
类别
A B C D E F
f0
28 49 18 6 92 20 213
fe
26 47 23 4 88 25 213
合计
X2分布的期望值准则
但是表8.6中的数据不能应用检验。
类别
A B C D E F G
对列 应联 分分 析析 与
第八章 ——列联分析于某项政策调查所得结果:table7.sav
表8.1
男 女 合计
观点: 不赞成 23 18 41
观点: 赞成 35 47 82
合计 58 65 123
列联表
前面就是一个所谓的二维列联表 (contingency table). 列联表是由两个或两个以上的变量 进行交叉分类的频数分布表。 这些变量中每个都有两个或更多的 可能取值。这些取值也称为水平; 比如观点有两个水平,性别有两个 水平等。
对应分析
它是从指标型因子分析出发,而直接获 得样品因子分析的结果。 概括起来,因子分析可以提供三方面的 信息: 指标之间的关系; 样品之间的关系; 指标与样品之间的关系。
对应分析的基本思想
由于指标型的因子分析和样品型的因子 分析都是反映一个整体的不同侧面,以 它们之间一定存在内在的联系。 对应分析就是通过一个过渡矩阵Z将两者 有机的结合起来: 即:首先给出指标变量点的协差阵A=Z’Z 和样品点的协差阵B=ZZ’,由于两者有相 同的非零特征根,记为:
行和列变量的相关问题
然而,在很多情况下,所关心的不 仅仅是行或列本身变量之间的关系, 而是行变量和列变量的相互关系; 这就是因子分析等方法所没有说明 的了。先看一个例子。
例7.1—数据文件:ChMath.sav
在研究读写汉字能力与数学的关系的研 究时,人们取得了232个美国亚裔学生的 数学成绩和汉字读写能力的数据。 关于汉字读写能力的变量有三个水平: “纯汉字”——可以完全自由使用纯汉 字读写, “半汉字”——读写中只有部分汉字 (比如日文), “纯英文”——只能够读写英文而不会 汉字。 而数学成绩有4个水平(A、B、C、D)。
我们以上介绍的是列联表中一致性的检验, 但是列联表分析中用的更多的是检验变量 之间是否存在相关关系,即独立性检验。 我们仍用table7.sav的例子:
观 点 * 收 入 Crosstabulation Co unt 1 观点 To tal 不赞成 赞成 7 45 52 收入 2 15 25 40 3 19 12 31 To tal 41 82 123
X2分布的期望值准则
利用X2分布进行检验时,要求样本容量必须 足够大,特别是每个单元中的期望频数不 能过小,否则应用X2检验可能会得出错误的 结论。 一项准则是:如果只有两个单元,每个单 元的期望频数必须是5或以上。 另一准则是:如果有两个以上的单元,如 果20%的单元期望频数小于5,则不能应用 X2检验。
sex * opinion Crosstabulation
opinion
不赞成
sex 女 % within sex 男 Count % within sex Total Count
赞成
18
27.69 23 39.66
47
35
65
58
72.31 100.00% 60.34 100.00%
41
33.33
期望值的分布
表8.3 期望值分布表
观点: 不赞成 男 女 合计
58¬33.3%=19 65¬33.3%=22 41
观点: 赞成
58 ¬66.7%=39 65 ¬66.7%=43 82
合计
58 65
对比分布表
表8.4 观察值与期望值频数对比分布表
观点: 不赞成
男:观察值 期望值 23 19
观点: 赞成
对应分析
由于所有的检验都很显著,看来两个变 量的确不独立。 但是如何用象因子分析的载荷图那样的 直观方法来展示这两个变量各个水平之 间的关系呢?这就是本章要介绍的对应 分析(correspondence analysis)方法。 对应分析是将指标型的因子分析与样品 型的因子分析结合起来进行的统计分析。
35 39
女:观察值 期望值
18 22
47 43
期望值的分布
如果男女性别对该性政策的观点相同, 就应有:
H 0 :P男 P女
那么表8.4中,观察值和期望值就应当非 常接近。 2 对于这个假设的检验,可以采用 分布 进行 2 检验。
2
分布与 检验
2
2
统计量
用f0表示观察值频数,fe表示期望值 的频数,则 2 统计量为:
1 2
m
如何得到过渡矩阵Z?
设有n个样品,每个样品有p个指标,原始资料阵为:
x11 x 21 X xn1
x12 x22 xn 2
x1 p x2 p xnp
假定矩阵X的元素都>0
如何得到过渡矩阵Z?
x11 x21 xn1 x.1 x12 x1 p x22 x2 p x.2 x. p xn 2 xnp x1. x2. xn . x..
例7.1—数据文件:ChMath.sav
这项研究是为了考察汉字具有的抽 象图形符号的特性能否会促进儿童 空间和抽象思维能力。 该数据以列联表形式展示在表中:
人们可以对这个列联表进行前面所说的X2检验来考 察行变量和列变量是否独立。结果在下面表 (通过Analyze-Descriptive Statistics-Crosstabs)
列联表
一般将横向变量的划分类别视为R,纵
向变量的划分类别视为C,则可以将列 联表称为R×C列联表。上表即为2×2 列联表。 在SPSS数据中,收入的“低”、 “中”、“高”用代码1、2、3代表; 性别的“女”、“男”用代码0、1代 表;观点“赞成”和“不赞成”用1、 0代表。
列联表的分布
列联表有两个分布: 一个是观察值的分布; 一个是期望值的分布;
a. 0 cells (.0%) have e xpe cte d co unt less than 5. The minim um expected count is 10.33 .
H0:观点和收入这两个变量不相关;H1:这两个变量相关。
列联表中的相关测量
利用检验对列联表中变量之间的相互关 系进行检验之后,如果认为拒绝原假设, 变量之间存在联系, 那么,接下来的问题就是它们之间的相 关程度有多大?
82
123
% within sex
66.67 100.00%
观察值的分布
事实上,表8.2就是一个最简单的观察值 的分布。 观察值分布虽然反映了数据的分布,但 因为基数不同,不适合于进行对比。 为了能在此相统的基数上比较,使列联 表中的数据提供更多的信息,可以计算 相应的百分比。
期望值的分布
如果我们想进一步了解不同性别的人对 这项政策的观点是否存在着显著的差异, 就要进行检验。 从逻辑上讲,如果男女性别的人对这项 政策的看法相同,那么男性不赞同方案 的人应为:58×33.3%=19人,女性不赞同 方案的人应为:65×33.3%=22人。 这19人和22人就是本例中的期望值,由 此可以计算出期望值的分布。
.183 1 .162
.113
2
检验
实际上有不止一个X2检验统计量。包括 Pearson X2统计量和似然比 (likelihood ratio)X2统计量;它们 都有渐近的X2分布。
根据计算可以得到(对于这两个统计量 均有)p-值大于0.05。
此外还有精确的统计量——Fisher精确检 验;它不是X2分布,而是超几何分布。 对本问题,计算Fisher统计量得到的p-值也 大于0.05。 聪明的同学必然会问,既然有精确检验为 什么还要用近似的X2检验呢? 这是因为当数目很大时,超几何分布计算 相当缓慢(比近似计算会差很多倍的时 间);而且在计算机速度不快时,根本无 法计算。因此人们多用大样本近似的X2统计 量。