第九章-对应分析
对应分析 课件讲解
对应分析
但是如何用象因子分析的载荷图那样 的直观方法来展示这两个变量各个水 平之间的关系呢?这就是对应分析 (correspondence analysis)方 法。
对应分析方法被普遍认为是探索性数 据分析的内容,因此,读者只要能够 会用数据画出描述性的点图,并能够 理解图中包含的信息即可。
两表中的概念不必记;其中Mass为行与 列的边缘概率;Score in Dimension是 各维度的分值 (二维图中的坐标); Inertia:就是前面所提到的惯量,为每一 行/列到其重心的加权距离的平方。
SPSS的实现
打开ChMath.sav数据,其形式和本章开始的 列联表有些不同。其中ch列代表汉字使用的三 个水平;而math列代表数学成绩的四个水平; 第一列count实际上是ch和math两个变量各 个水平组合的出现数目,也就是列联表中间的数 目。
在SPSS的输出中还有另外两个表分 别给出了画图中两套散点图所需要 的两套坐标。
解释
该表给出了图中三个汉字使用点的坐标: 纯汉字(-.897,-.240),半汉字 (.102,.491),纯英文(.970,-.338),以及 四个数学成绩点的坐标:数学A(-.693,.345),数学B(-.340,.438),数学 C(.928,.203),数学D(1.140,-.479)。
行记分(row score) xi和列记分yj的加权均值成 比例, 而列记分yj和行记分xi的加权均值成比 例. 数值r为行列记分的相关(在典型相关的意 义上).
记R=diag(ai.), C=diag(a.i), R1/2= diag(a.i1/2), 则上面式子为
rx=R-1Ay; ry=C-1A’x 或
第九章对应分析
§9.1何谓对应分析及其基本思想 它是将R型与Q型因子分析结合 起来的一种统计分析方法,也 是利用降维的思想以达到简化 数据结构的目的
经济管理学院 程兰芳 1
何谓对应分析?
它的产生来自于Q型因子分析中的计 算困难,由于样品数n较大(如 n>1000),导致在进行Q型因子分析 时,计算n阶方阵的特征值和特征向 量对于微型计算机而言,其容量和 速度都难以胜任。
经济管理学院 程兰芳 4
而对应分析,则是同时对数据表中的 行(代表不同的样品)与列(代表不 同的变量)进行处理,寻求以低维图 形表示数据表中行与列之间的关系。
经济管理学院 程兰芳
5
对应分析结合了R型因子分析与Q型因 子分析,它是从R型因子分析出发, 而直接获得 Q 型因子分析的结果, 从而克服了样品容量大时所带来的计 算上的困难。 可将指标和样品同时反映到相同坐标 轴的一张图形上,便于分析问题。
5. 计算总惯量(Inertia) Q与 X2 (Chi Square) 统计量的数值。 总惯量Q定义为所有n 个样品点到重心c的加权 距离的平方总和,化简后的计算公式为
Q
z
i 1 j 1
n
p
2 ij
经济管理学院 程兰芳
26
统计量是用于检验行与列两个属性变量 是否相关的检验统计量,其表达式为(体现 了卡方统计量与总惯量的关系)
由此可以很方便地根据 R型因子分析的结果 而得到Q型因子分析的结果。
经济管理学院 程兰芳 10
由矩阵A的特征根与特征向量, 即可写出R 型因子分析的因子载荷矩阵(记为FR):
对应分析
第九章 对应分析§9.1 什么是对应分析及基本思想对应分析又称为相应分析,于1970年由法国统计学家J.P.Beozecri 提出来的。
它是在R 型和Q 型因子分析基础上发展起来的一种多元统计方法。
由前一章我们知道应用因子分析的方法,可以用较少的几个公共因子去提取研究对象的绝大部分信息,即可减少因子的数目,又把握住了研究对象之间的相互关系。
但是因子分析根据研究对象的不同又分为R 型因子分析和Q 型因子分析,即对指标(变量)作因子分析和对样品作因子分析是分开进行的,这样做往往会漏掉一些指标与样品之间有关的一些信息,另外在处理实际问题中,样品的个数远远地大于变量个数。
比如有100个样品,每个样品测10项指标,要作Q 型因子分析,就要计算(100×100)阶相似系数阵的特征根和特征向量,这对于一般小型计算机的容量和速度都是难以胜任的。
对应分析是将R 型因子分析与Q 型分子分析结合起来进行统计分析,它是从R 型因子分析出发,而直接获得Q 型因子分析的结果。
克服了由样品容量大,作Q 型分析所带来的计算上的困难。
另外根据R 型和Q 型分析的内在联系,可将指标(变量)和样品同时反映到相同坐标轴(因子轴)的一张图形上,便于对问题的分析。
比如在图形上邻近的一些样品则表示它们的关系密切归为一类,同样邻近的一些变量点则表示它们的关系密切归为一类,而且属地同一类型的样品点,可用邻近的变量点来表征。
因此,对应分析,概括起来可提供如下三方面的信息即指标之间的关系,样品之间的关系,以及指标与样品之间的关系。
基本思想:由于R 型因子分析和Q 型因子分析都是反映一个整体的不同侧面,因此它们之间一定存在内在的联系。
对应分析就是通过一个过渡矩阵Z 将二者有机地结合起来,具体地说,首先给出变量点的协差阵Z Z A '=和样品点的协差阵Z Z B '=,由于Z Z '和Z Z '有相同的非零特征根记为),m i n(0,21n p m m ≤<≥≥≥λλλ ,如果A 的特征根i λ对应的特征向量为i U ,则B 的特征根i λ对应的特征向量就是i i V ZU ∆,根据这个结论(后面有证明)就可以很方便的借助R 型因子分析而得到Q 型因子分析的结果。
应用统计学:对应分析1
两变量间相关关系的检验
如果变量A和B是独立的,则应有
pij pi p j
检验假设:
ˆ (n ) n p p E ij i j
n p
H 0 : 属性变量A与B相互独立 H1 : 属性变量A与B相互不独立
H 0 : pij pi p j , i 1,2, n; j 1,2, p H1 : 上述等式至少有一个不 成立
手机: 7个特征属性
“待机时间长”、“大显示屏”、“操作简单”、 “外观时尚”、“功能强”、“价格合理”和“信号 接收好”。
研究人员希望通过对应分析发现不同特征属性的 手机潜在顾客对手机属性特征的偏好。
Ma Xin, North China Electric Power University
表一 潜在用户调研基础数据:行元素、 列元素均为七维空间中的点
Ma Xin, North China Electric Power University
计算惯量,确定维度:行、列均简化到 二维空间
各维度的惯量、奇异值
摘要 惯量比例 维 1 2 3 4 5 6 奇异值 .234 .129 .086 .065 .046 .014 惯量 .055 .017 .007 .004 .002 .000 .086 53.540 .030a 卡方 显著性 考虑情况 .641 .195 .087 .049 .025 .002 1.000 累积 .641 .837 .923 .973 .998 1.000 1.000 置信奇异值 相关性 标准差 2 .044 .154 .041
Pearson 卡方 似然比 线性和线性组合 有效案例中的 N
通常受教育 水平越高, 工资越高
High school degree
对应分析
STATA中对应分析应用
Syntax for predict:
predict [type] newvar [if] [in] [, statistic ] statistic description fit fitted values; the default rowscore(#) row score for dimension # colscore(#) column score for dimension #
STATA中对应分析应用
二元对应分析之后的统计量和作图
command description cabiplot biplot of row and column points caprojection CA dimension projection plot estat coordinates display row and column coordinates estat distances display chi-squared distances between row and column profiles estat inertia display inertia contributions of the individual cells estat loadings display correlations of profiles and axes("loadings") estat profiles display row and column profiles + estat summarize estimation sample summary(not available after camat.) estat table display fitted correspondence table screeplot plot singular values + predict fitted values, row coordinates, or column
对应分析
, u
2
,L
, u
k
• 根据累计方差贡献率确定最终提取特征根的个数,并 计算出相应的因子载荷矩阵R,即: #
λ1 1 R = Uθ 2 = (u1 , u2 ,..., ul )
λ2
O
λl
其中, 其中,因子载荷是列变量的某分类在某个因子上的 载荷,反映了他们之间的相关关系。 载荷,反映了他们之间的相关关系。与因子分析类 可通过变量(列变量某分类) 似,可通过变量(列变量某分类)的共同度测度其 方差的解释程度和信息的丢失程度; 方差的解释程度和信息的丢失程度;可通过因子的 方差贡献测度因子的重要程度。 方差贡献测度因子的重要程度。
1.2 对应分析法的基本原理
第一步:编制交叉列联表并计算概率矩阵P 第一步:编制交叉列联表并计算概率矩阵P 设原始数据矩阵为: 设原始数据矩阵为:
x11 x 21 X= M x n1 x12 x 22 M xn 2 L L L x1 p x2 p M x np n× p
第一节 对应分析法
1.1 对应分析法的内涵 1.2 对应分析法的基本原理 1.3 实例分析
#
1.1对应分析法的内涵
1.1.1 对应分析的概念
• 对应分析(Correspondence Analysis)又称相应 分析,是一种多元相依变量统计分析技术,通过 分析由定性变量构成的交互汇总数据来解释变量 之间的内在联系。它可以揭示同一变量的各个类 别之间的差异以及不同变量各个类别之间的对应 关系。 • 也被称为R-Q型因子分析 R型因子分析适用的研究对象是变量; Q型因子分析适用的研究对象是样品。 #
#
Thank you
#
第九章对应分析SPSS
p p
i.
p ij
j1 n
p
. p
p
n
j1
. j
1 1
. j
p
i1
. j
p
i1
i.
p p p ip i1 i2 , ,..., p p p i. i. i.
p
p
ij
j1
p i.
1
p p i1 i2 , ,..., i=1,2,…,n p pi. i. pi.
Correspondence Analysis
主要内容
对应分析的统计思想
对应分析的方法原理
对应分析的计算程序
对应分析的案例讲解
对应分析(Correspondence Analysis):通过 分析由定性变量构成的交互汇总表来揭示变 量间的联系。
对应分析可以揭示同一变量的各个类别之间 的差异,不同变量各个类别之间的对应关系。 可以两个变量的联系做在一个图里表示出来。 对应分析由法国统计学家Beozecri于1970年提出
1 -.468 -.231 -.173 .622 2.538 2.179
2 .264 .092 .006 -.526 1.405 .361
Contribution Of Point to Inertia of Dim ens ion Of Dim ens ion to Inertia of Poin Inertia 1 2 1 2 Total .004 .041 .046 .917 .083 1.000 .007 .078 .043 .957 .043 1.000 .003 .032 .000 1.000 .000 1.000 .022 .211 .527 .830 .170 1.000 .031 .330 .354 .919 .081 1.000 .027 .308 .030 .992 .008 1.000 .095 1.000 1.000
对应分析
对应分析
问题的提出
分析分类变量间关系时,卡方检验只能给出总
体有无关系的结论,但不能精心分析,在变量 类别极多时于事无补
解决方案
直观展示:对应分析
问题在于:当属性变量A和B的状态较多时,很难透过
列联表作出直观地揭示出变量之间的联系以及变量各
分类之间的联系。主要表现在:
多重对应分析---多个定类变量
Optimal Scaling Optimal Scaling过程
所谓最优尺度分析的本质,就是根据数据本身 的关联,寻找出最佳的原始变量评分方法,将原始 变量一律转化为相应的分值,并在转化时将变量间 的关联一律变换为线性,这样就解决了以上问题。 可以同时分析多个分类变量间的关系,并同样 用图形方式表示出来。 在变量种类上更加丰富,已可以处理各种类型 的变量,如对无序多分类分析、有序多分类变量和 连续性变量同时进行分析的问题
同质性分析Homogeneity (HOMALS) 同质性分析,即多重对应分析 以图形化方式展示多个分类变量间的关系
观察原始的频数表也可以得到相关信息,但是,
当存在多个变量,并且变量类别较多时,就变成 了高维空间的观察,非常的不方便 通过数据变换,将各变量在高维空间中的主要 联系信息浓缩到低维度空间中,以便于观察
广告研究
(Advertisement Research)
2013-8-8
对应分析可以回答以下问题
谁是我的用户? 还有谁是我的用户? 谁是我竞争对手的用户? 相对于我的竞争对手的产品,我的产品的定位如何? 与竞争对手有何差异? 我还应该开发哪些新产品? 对于我的新产品,我应该将目标指向哪些消费者?
由于此处需要使用欧式距离来表示关联程度,首先需 要考虑应当采用何种距离标准化方法。 显然, 6 项指标的均数大不相同,而这并不是我们所 要关心的,同时它们的量纲也相差较大,最大、最小值 的倍数在数十到上千不等; 另一方面,各省市发展水平 的差异是我们希望考察的内容,即上海的平均发展水平 是否高于北京,诸如此类。 因此,本例中使用 Column Totals are Equalized and Column Means Removed 这一标化方法更为妥当, 它可以消除各指标均数和量纲不同的影响,同时又保留 了地区发展水平的差异。
对应分析-PPT课件
d i a g, p ,, p 其中 D 。 r 1 p 2 p
列轮廓矩阵
, cq p11 p1 p21 p1 p p1 p1 p12 p2 p22 p2 pp2 p2 p1q pq p2 q pq p pq pq
列轮廓矩阵为
0 . 2 3 9 0 3 7 1 1 . C P D c 0 . 2 2 1 0 . 1 7 0 0 . 1 9 9 0 . 3 6 6 0 . 2 2 6 0 . 2 0 9 0 . 1 8 8 0 . 3 6 7 0 . 2 0 1 0 . 2 4 5 0 . 1 3 6 0 . 3 6 6 0 . 2 0 4 0 . 2 9 4 0 . 0 9 7 0 . 3 2 7 0 . 2 4 9 0 . 3 2 7
二、对应矩阵
q q p p n n n i j i j i j p , p p , p p 这里, i 。 j i i j j i j n n n j 1 j 1 i 1 i 1
显然有
p p
i1 i j 1
p
q
j
1 。
q
j 1
n ij 为第 i 行的频数之
1 , 2 , ,p 和, i ; n j
p
n
i 1
q
p
ij
为第 j 列的频数之和,
p q
n n n j 1 , 2 , ,q ;n i j i j为所有类别组
i 1 j 1 i 1j 1
合的频数总和。
对应分析
对应分析(correspondence analysis)是用于寻求列 联表的行和列之间联系的一种低维图形表示法,它 可以从直觉上揭示出同一分类变量的各个类别之间 的差异,以及不同分类变量各个类别之间的对应关 系。 对应分析是由法国人Benzecri于1970年提出的,起 初在法国和日本最为流行,然后引入美国。 在对应分析中,列联表的每一行对应(通常是二维) 图中的一点,每一列也对应同一图中的一点。本质 上,这些点都是列联表的各行各列向一个二维欧式 空间的投影,这种投影最大限度地保持了各行(或 各列)之间的关系。
(四川大学)研究生的博弈论课程:第九章 对应分析
第九章对应分析§9.1 什么是对应分析及基本思想一、什么是对应分析1.对应分析的概念与基本形式对某一行业所属的企业进行经济效益评价时,不仅要研究经济效益指标间的关系,还要将企业按经济效益的好坏进行分类,研究哪些企业与哪些经济效益指标的关系更密切一些,为各级领导部门正确指导企业的生产经营活动提供更多的信息。
这就需要有一种统计方法,将指标和企业放在一块进行分类、作图,便于做经济意义上的解释。
在社会科学研究中,一个经常会遇到的问题就是要对定性变量数据进行量化分析,因为研究中往往使用一些定性(Nonmetric)变量,例如名义变量或序次变量来反映研究对象的行为、态度等,研究不同性别的顾客对不同品牌商品的喜好,不同职业的人在吸烟行为上的差异等。
在上述情况下,就可以使用对应分析方法。
对应分析(Correspondence Analysis)方法是近年来新发展起来的一种多元相依变量(Interdependece)统计分析技术,它通过分析由定性变量构成的交互汇总表来揭示变量间的联系。
当以变量的一系列类别以及这些类别的分布图来描述变量之间的联系时,使用这一分析技术可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。
对应分析的基本形式是对由两个定性或类型(Category)变量构成的交互表进行分析,将定性变量数据转变成可度量的分值、减少维度并作出分值分布图。
在减少维度方面,对应分析与因子分析(Factor Analysis)相似;在作分布图方面,对应分析与多维标度(Multidimensional Scaling)方法相似。
对应分析的优点就在于可以同时做到这几方面,这是以往的统计方法所不能做的,因此,在定性变量数据分析方面,对应分析提供了一种新的多元相依变量(Interdependece)的分析技术。
2.有关多元对应分析虽然对应分析的基本形式是对两个定性变量进行分析,实际上对于由三个或三个以上变量形成的交互表也可以进行对应分析,这样的对应分析称为多元对应分析(Multiple Correspondence Analysis)。
第九章 对应分析
应用多元统计分析第九章对应分析对应分析又称相应分析,于1970年由法国统计学家J.P.Beozecri提出的.它是在R型和Q型因子分析基础上发展起来的多元统计分析方法,故也称为R-Q型因子分析.因子分析方法是用少数几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,又把握住了研究对象的相互关系.在因子分析中根据研究对象的不同,分为R型和Q型,如果研究变量间的相互关系时采用R型因子分析;如果研究样品间相互关系时采用Q型因子分析.无论是R型或Q型都未能很好地揭示变量和样品间的双重关系.另方面在处理实际问题中,样本的大小经常是比变量个数多得多.当样品个数n很大(如n>100),进行Q型因子分析时,计算n阶方阵的特征值和特征向量对于微型计算机的容量和速度都是难以胜任的.还有进行数据处理时,为了将数量级相差很大的变量进行比较,常常先对变量作标准化处理,然而这种标准化处理对于变量和样品是非对等的,这给寻找R型和Q型之间的联系带来一定的困难.第九章什么是对应分析对应分析方法是在因子分析的基础上发展起来的,它对原始数据采用适当的标度方法.把R型和Q型分析结合起来,同时得到两方面的结果---在同一因子平面上对变量和样品一块进行分类,从而揭示所研究的样品和变量间的内在联系.对应分析由R 型因子分析的结果,可以很容易地得到Q 型因子分析的结果,这不仅克服样品量大时作Q 型因子分析所带来计算上的困难,且把R 型和Q 型因子分析统一起来,把样品点和变量点同时反映到相同的因子轴上,这就便于我们对研究的对象进行解释和推断. 第九章 对应分析的基本思想由于R 型因子分析和Q 型分析都是反映一个整体的不同侧面,因而它们之间一定存在内在的联系. 对应分析就是通过一个变换后的过渡矩阵Z 将二者有机地结合起来.具体地说,首先给出变量间的协差阵R S =Z'Z 和样品间的协差阵Q S =ZZ' ,由于Z'Z 和ZZ'有相同的非零特征根,记为12...m λλλ≥≥≥,如果R S 的特征根i λ对应的特征向量为i v ,则Q S 的特征根i λ对应的特征向量i u Zv =由此可以很方便地由R 型因子分析而得到Q 型因子分析的结果.对应分析的基本思想由A 的特征根和特征向量即可写出R 型因子分析的因子载荷阵(记为R A )和Q 型因子分析的因子载荷阵(记为Q A ).§9.1 什么是对应分析基本思想由于A和B具有相同的非零特征根,而这些特征根又正是各个公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类.第十章典型相关分析相关分析是研究多个变量与多个变量之间的相关关系.如研究两个随机变量之间的相关关系可用简单相关系数表示;研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表示.1936年Hotelling首先将相关分析推广到研究多个随机变量与多个随机变量之间的相关关系,故而产生了典型相关分析,广义相关系数等一些有用的方法.第十章什么是典型相关分析在实际问题中,经常遇到要研究一部分变量和另一部分变量之间的相关关系,例如:在工业中,考察原料的主要质量指标(1,.....,p X X ) 与产品的主要质量指标(1,.....,p Y Y )间的相关性;在经济学中,研究主要肉类的价格与销售量之间的相关性; 在地质学中,为研究岩石形成的成因关系,考察岩石的化学成份与其周围围岩化学成份的相关性;在气象学中为分析预报24小时后天气的可靠程度,研究当天和前一天气象因子间的相关关系;第十章 什么是典型相关分析在教育学中,研究学生在高考的各科成绩与高二年级各主科成绩间的相关关系;在婚姻的研究中,考察小伙子对追求姑娘的主要指标与姑娘想往的小伙子的主要尺度之间的相关关系;在医学中,研究患某种疾病病人的各种症状程度与用科学方法检查的一些结果之间的相关关系;在体育学中,研究运动员的体力测试指标与运动能力指标之间的相关关系等.第十章 什么是典型相关分析一般地,假设有一组变量1,.....,p X X 与另一组变量1,.....,p Y Y (也可以记为1,....,p p q X X ++),我们要研究这两组变量的相关关系,如何给两组变量之间的相关性以数量的描述,这就是本章研究的典型相关分析.当p=q=1时,就是研究两个变量X 与Y 之间的相关关系.简单相关系数是最常见的度量.其定义为第十章 什么是典型相关分析当p ≥ 1 ,q=1时(或 q ≥ 1 , p =1) 设 则称为Y 与(X1,…,Xp) 的全相关系数.其实Y 对X 的回归为1(|)()()Y YX XX X E Y X x def x μμϕ-=+∑∑-且 并称R 为全相关系数 .第十章 什么是典型相关分析当p,q>1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新变量之间的相关.也就是求α=(α1,…, αp ) '和β =(β1,…, βq ) ' , 使得新变量:V = α1X 1+…+αp X p = α 'X1~(,),0XX XY p YX YY X N Y μσ+∑∑⎛⎫⎛⎫∑∑=> ⎪ ⎪∑⎝⎭⎝⎭1/21YX XX XY YY R σ-⎛⎫∑∑∑= ⎪⎝⎭(,())Y x Rρϕ=W = β1Y 1+…+ βq Y q = β 'Y 之间有最大可能的相关,基于这个思想就产生了典型相关分析(Canonical correlatinal analysis).第十章 总体典型相关设X=(X1,...,Xp )及Y=(Y1,...,Yq)为随机向量(不妨设p ≤q),记随机向量Z 的协差阵为 其中Σ11是X 的协差阵,Σ22是Y 的协差阵,Σ12=Σ’21是X,Y 的协差阵. 第十章 总体典型相关我们用X 和Y 的线性组合V=a X 和W=b Y 之间的相关来研究X 和Y 之间的相关.我们希望找到a 和b,使ρ(V,W) 最大.由相关系数的定义:又已知⎪⎭⎫ ⎝⎛∑∑∑∑=∑22211211第十章总体典型相关故有对任给常数c1,c2,d1,d2,显然有ρ(c1V+d1, c2W+d2)=ρ(V,W)即使得相关系数最大的V=a'X和W=b'X并不唯一.故加附加约束条件 Var(V)=a'Σ11a=1,Var(W)=b'Σ22b=1.问题化为在约束条件Var(V)= 1,Var(W)=1下,求a和b,使得ρ(V,W)= a'Σ12b达最大 .第十章样本典型相关设总体Z=(X1,...,X p,Y1,…,Y q )’.在实际问题中,总体的均值E(Z)= 和协差阵D(Z)= 通常是未知的,因而无法求得总体的典型相关变量和典型相关系数.首先需要根据观测到的样本资料阵对其进行估计.已知总体Z的n个样品:第十章 样本典型相关样本资料阵为若假定Z ~N(μ,∑),则协差阵 的最大似然估 计为第十章 样本典型相关我们从协差阵 的最大似然估计S*(或样本协差阵S)出发,按上节的方法可以导出样本典型相关变量和样本典型相关系数.还可以证明样本典型相关变量和样本典型相关系数是总体典型相关变量和样本典型相关系数的极大似然估计.也可以从样本相关阵R 出发来导出样本典型相关变量和样本典型相关系数.第十章 样本典型相关典型相关系数的显著性检验:总体Z 的两组变量X=(X 1,...,X p )’和Y =(Y 1, …,Y q )’如果不相()()()()1(1,2,...,)t t t p q X Z t n Y +⨯⎛⎫== ⎪⎝⎭'()()11()()nt t t Z Z Z Z def Sn ∧=∑=--∑关,即COV(X,Y )=∑12=0,以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间相关关系之前,应首先对以下假设H 0作统计检验.(1) 检验H 0 : ∑12=0 (即λ1=0)设总体Z ~N p+q (μ,∑).用似然比方法可导出检验H 0的似然比统计量为(A ,A 11,A 22为离差阵)第十章 样本典型相关典型相关系数的显著性检验 (2)检验H 0(i): λi =0 (i =2,...,p )当否定H 0时,表明X,Y 相关,进而可得出至少第一个典型相关系数λ1≠ 0.相应的第一对典型相关变量V 1,W 1可能已经提取了两组变量相关关系的绝大部分信息.在实际问题中,经常迂到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方11221122||||||A S A A S S Λ==⨯⨯法外,还有近年发展起来的偏最小二乘(PLS)回归方法.第十一章什么是偏最小二乘回归偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。
对应分析[1]
第9章 对应分析 9.1列联表和独立性检验一、列联表研究对象(总体)具有两种特征A ,B ,A 特征具有r 种结果,B 特征具有c 种结果。
现从总体中抽取容量为n 的样本,根据出现的不同特征、不同结果形成的二维表格,就称为列联表。
一般形成如下:这里:ij i j n A B 指属于又属于的观测次数.,i i j in n A =∑cj=1属于的观测次数 .,j i j jn n B =∑ri=1属于的观测次数 .. ij i j n n n n ===∑∑∑∑r c r ci=1j=1i=1j=1总有二、特征A 与B 的独立性检验视总体为二维随机变量,总体X 的概率分布为: 这里:()ij ij i j n P P A B n==.1()ci i ij j P P A P ===∑.1()rj j ij i P P B P ===∑总有..11111r c r cij i j i j i j P P P =======∑∑∑∑基本思路:原假设0..:ij i j H P P P =由抽样生成列联表,对A 与B 独立性进行检验 ..ˆi i n P n =,..ˆjjn P n= 承认..0..2垐 i j ij i jn nH P P P n ⨯=⨯=为真,则 对于观测结果(,i j A B ):实际观测次数ij n ,理论观测次数为..ˆi j ijn n n P n⨯⨯= 构建检验统计量:()()..22211..()~11r ci jij i j i jn n n nr c n n nχχ==⨯-=--⎡⎤⎣⎦⨯∑∑给定α,查χ分布表,得()()211r c αχ--⎡⎤⎣⎦ 拒绝域:()()()211r c αχ--∞⎡⎤⎣⎦,由列联表计算2χ的值:22011..=1r c iji j i j n n n n χ==⎡⎤-⎢⎥⨯⎢⎥⎣⎦∑∑若:()()220011,r c H αχχ--⎡⎤⎣⎦ 则拒绝,即特征A 与B 不独立;()()220011,r c H αχχ--⎡⎤⎣⎦ 则接受,即特征A 与B 独立。
统计学之 对应分析分析
邋p .
i= 1 i
n
pi j p. j
pi . =
1 p. j
n
pij =
i= 1
p. j
第i个变量与第j个变量的协方差为:
p kj p ki rij = å ( - p.i )( - p.j )p k . p k . p .i p k . p .j k =1
n
p ki - p .i p k . p kj - p . j p k . =邋 ( )( )= p .i p k . p .j p k . k =1
9.4 用SPSS进行对应分析
9.4.1 对应分析数据的预处理 (1) 选择菜单Data→Weight Cases,弹出Wight Cases对话框。 (2) 左侧列表框存放的是对应分析的全部变量,右侧有2个 单选项。单选项DO not weight cases表示对数据不加权, 不用定义加权变量,为默认项;单选项Weight cases by 表示表示对数据进行加权,需要定义加权变量。 (3) 选择Weight cases by单选项,将表明分类中的频数的变 量作为加权变量从左侧列表框中移入Frequency Variable 框中。权重即为该变量的数值。如果定义的加权变量有 0值,定义加权变量时会发出警告,但不影响对应分析 的正常分析工作。 (4) 单击“OK”按钮,即可完成对应分析数据的预处理。
其中qrk = = =
å å å
p
( (
prj p..j pr .
-
pr .)( )(
pkj p. j pk . p. j pk .
)
pk .) p. j
j= 1 p
prj - p. j pr . p. j pr .
第九讲 对应分析 PPT课件
name3
27 272 93 149 45 112 54 17 167 142 185 128 106 9 10 19
name4
21 51 36 41 302 146 64 36 53 41 105 47 166 72 78 107
name5
14 83 71 36 37 113 365 29 57 34 123 38 81 94 248 63
2 = 'Rent';
车主的性别 1 = 'Male'
2 = 'Female';
收入
1 = '1 Income' 2 = '2 Incomes';
婚姻状况 1 = 'Single with Kids' 2 = 'Married with Kids'
3 = 'Single'
4 = 'Married';
pi1 pi
,
pi 2 pi
,
,
piq pi
ni1 ni
,
ni 2 ni
,
,
niq ni
其各元素之和等于1 ,即ri1 1, i 1, 2,
第 j 列轮廓:
cj
p1 j p j
,
p2 j p j
,
,
p pj p j
n1 j n j
,
n2 j n j
,
,
npj n j
,p 。
其各元素之和等于1 ,即 1c j 1, j 1, 2, , q。
若 2 2 p 1, q 1,则拒绝独立性的原假设, 其中 2 p 1, q是1 2 p 1, q的1上 分位点。
第9章 对应分析
眼睛颜色 深色 棕色 蓝色 浅色 合计
金色 98 343 326 688 1455
头发颜色 合计 红色 棕色 深色 黑色 48 403 681 85 1315 84 909 412 26 1774 38 241 110 3 718 116 584 188 4 1580 286 2137 1391 118 5387
第9章对应分析
同一直角坐标系内同时表达出变量与样 品两者之间的相互关系
社会科学的数量研究中经常会对品质型(属性) 变量进行分析,研究两个或多个品质型变量之 间的相关关系。
例如:利用储户储蓄数据研究储户收入水平与所选择的 储蓄种类间是否存在联系;(该问题中收入水平和储蓄 种类均是品质型变量,其中收入水平为定序变量,储蓄 种类为定类变量) 例如:分析顾客职业与购买汽车的品牌之间的关系,研 究不同客户群对汽车的喜爱偏好。(该问题中顾客职业 和汽车品牌均是定类的品质型变量)
作业
利用《多元统计分析》课程中学到的方法, 分析现实中的经济学问题,形成一篇小论 文 格式:标题,作者(学号,姓名),摘要, 关键词,绪论,理论或模型简介,实证分 析,结论,参考文献
去除量纲,同时乘以一个系数
p
j
同理p个变量也可表示正类似形式
4、计算协方差矩阵
5、进行数据的对应变换
对协方差矩阵R与Q进行因子分析
R型因子分析
Q型因子分析
绘制变量和样品的对应分布图
R、Q因子分析,分别提取两个最重要的公 因子R1,R2和Q1,Q2 绘制在同一个坐标平面中,各点坐标为相 应的因子载荷
运行以后,数据编辑器中的原始数据并没 有变化,只是在右下角的状态栏中显示 “Weight on”字样。但利用加权后的数据 进行统计分析后所得到的结果与没加权数 据进行统计分析后得到的结果完全不同。
09 第九章 对应分析
(2)对应分析的分类
根据分析资料的类型不同,对应分析分为定性 资料(分类资料)的对应分析和连续性资料的对应 分析(基于均数的对应分析)。 根据分析变量个数的多少,定性资料的对应分 析又分为简单对应分析和多重对应分析。对两个分 类变量进行的对应分析称为简单对应分析,对两个 以上的分类变量进行的对应分析称为多重对应分析。
(3)对应分析的特点 对应分析克服了因子分析的不足将R 对应分析克服了因子分析的不足将R型因子分析 和Q型因子分析结合起来进行统计分析,它是从R型 型因子分析结合起来进行统计分析,它是从R 因子分析出发,而直接获得型Q 因子分析出发,而直接获得型Q因子分析的结果。克 服了由于样品容量大,进行Q 服了由于样品容量大,进行Q型因子分析带来的计算 上的困难。另外根据对原始数据进行规格化处理, 找出R型因子分析和Q 找出R型因子分析和Q型因子分析的内在联系,可将 变量和样品同时反映到相同坐标轴的一张图形上, 便于对问题的分析和解释。
对原始数据规格变换,使R型和Q型因子分析有机结合 对原始数据规格变换, 型和Q
具体数据矩阵Z 具体数据矩阵Z是按照如下的方法变换得到的, 即:
x. j xi. xij − x.. zij = x. j xi.
p
其中: xi. =
∑x
j =1
ij
x. j = ∑ xij
i =1
n
T = x.. = ∑∑ xij
多元统计分析方法及其应用
统计学院
第九章 对应分析
第一节 对应分析的基本思想 第二节 对应分析的方法和原理
第一节 对应分析的基本思想
一、什么是对应分析 二、对应分析的基本思想
什么是对应分析 (1)对应分析的概念 (1)对应分析的概念 对应分析(correspondence analysis) 对应分析(correspondence analysis) 又称为相应分析,是一种目的在于揭示变量 和样品之间或者定性变量资料中变量与其类 别之间的相互关系的多元统计分析方法。
对应分析课件.ppt
优秀课件,精彩无限!
13
表中的术语
Inertia-惯量, 为每一维到其重心的加权距离的平方。它 度量行列关系的强度。
Singular Value-奇异值(是惯量的平方根),反映了 是行与列各水平在二维图中分量的相关程度,是对行与列 进行因子分析产生的新的综合变量的典型相关系数。
Chi Square-就是关于列联表行列独立性c2检验的c2统 计量的值,和前面表中的相同。其后面的Sig为在行列独立 的零假设下的p-值,注释表明自由度为(4-1)×(3-1)=6, Sig.值很小说明列联表的行与列之间有较强的相关性。
优秀课件,精彩无限!
4
例子(数据ChMath.txt )
该数据关于汉字读写能力的变量有三个水 平:
“纯汉字”意味着可以完全自由使用纯汉 字读写,
“半汉字”意味着读写中只有部分汉字 (比如日文),
而“纯英文”意味着只能够读写英文而不 会汉字。而数学成绩有4个水平(A、B、C、 D)。
虽然对不同数据类型所产生结果的解释有 所不同,数学的原理是一样的。下面通过 对ChMath.txt数据的计算和结果分析来 介绍对应分析。
优秀课件,精彩无限!
10
首先看对应分析结果的一个主要SPSS展示,然后 再解释该图的来源和解释。
运用纯汉字的点和最好的数学成绩A最接近,而不会汉字 只会英文的点与最差的数学成绩F(或者D,虽然在纵坐 标稍有差距)最接近,而优用秀课件部,精彩分无限!汉字的和数学成绩B接11近。
优秀课件,精彩无限!
17
SPSS的实现
打开ChMath.sav数据,其形式和本章开始的 列联表有些不同。其中ch列代表汉字使用的三 个水平;而math列代表数学成绩的四个水平; 第一列count实际上是ch和math两个变量各 个水平组合的出现数目,也就是列联表中间的数 目。
《应用多元分析》第三版(第九章 对应分析)
p
i 1
pij
p j pi pi
是第j列轮廓cj到列轮廓中心r的卡方距离。故总惯量
可看成是行轮廓到其中心的卡方距离的加权平均,
也可看成是列轮廓到其中心的卡方距离的加权平均。
它既度量了行轮廓之间的总变差,也度量了列轮廓
之间的总变差。
总惯量为零的等价情形
❖ 总惯量为零与以下三种情形的任一种等价: (1) pij pi p j , i 1, 2, , p, j 1, 2, , q ,或表示 为 P rc; (2)所有的行轮廓相等,即 r1 r2 rp c; (3)所有的列轮廓相等,即c1 c2 cq r。
最后一列用r表示,即
r P1 p1, p2, , pp
其中1 1,1, ,1 是元素均为1的q维向量,最后一行
用 c表示,即
c 1P p1, p2, , pq
其中1 1,1, ,1是元素均为1的p维向量,向量r和c
的元素有时称为行和列密度(masses)。
三、行、列轮廓
❖ 第i行轮廓(profile) :
pp
列轮廓矩阵
p11 p1
p12 p2
C PDc1 c1,c2,
p21
, cq p1
p22 p2
pp1 pp2
p1
p2
其中 Dc diag p1, p2, , pq 。
p1q
pq
p2q
pq
ppq
pq
p1
r P1 PDc1 Dc1 c1,c2,
第九章 对应分析
❖ 对应分析(correspondence analysis)是用于寻求列联表的行 和列之间联系的一种低维图形表示法,它可以从直觉上揭示 出同一分类变量的各个类别之间的差异,以及不同分类变量 各个类别之间的对应关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
pp i r i cD c 1r i c
i 1
2
总 惯 量 jq 1 p ji p 1p ij p p ji p i jq 1 p jc j r D r 1c j r
其中
2
ricD c 1ricq j1
pij
pipj pj
称为第i 行轮廓 r i 到行轮廓中心c 的卡方( 2 )距离, 它可看作是一个加权的平方欧氏距离。同样,
❖ 将表9.1.3中的数据除以,得到对应矩阵,列于表
9.1.4中。表9.1.4给出的行密度和列密度向量为
0.185
r0.363, c0.305,0.173,0.231,0.160,0.131
0.218 0.186 0.235 0.117 0.068
RDr1P00..331029
pp2
p p p p
❖ 其中 D r d ia gp 1 ,p 2 , ,p p 。
p1q
p1
p2q p2
p pq
p p
列轮廓矩阵
p11 p1
p12 p2
C PDc1 c1,c2 ,
p21
,cq p1
p22 p2
p p1 p p2
p1
p2
❖ 其中 D c d ia gp 1 ,p 2 , ,p q。
和c 的元素有时称为行和列密度(masses)。
三、行、列轮廓
❖ 第 i 行轮廓:
ri p p ii1 ,p p ii2 , ,p p iiq n n ii1 ,n n ii2 , ,n n iiq
其各元素之和等于1 ,即 r i1 1 , i 1 ,2 , ,p 。 ❖ 第 j 列轮廓:
cj p p1 jj,p p2 jj, ,p ppjj n n1 jj,n n2 jj, ,n npjj
其各元素之和等于1 ,即1 cj 1 , j 1 ,2 , ,q 。
行轮廓矩阵
R
D
r
1
P
r1
r2
r
p
p11 p1 p21 p2
p p1
p12 p1 p22 p2
p1q
pq
p2q
pq
ppq
pq
rP1 PDc1 Dc1c1,c2,
p1
,cq
p2 q j1
pjcj
pq
可见,r 可以表示成各列轮廓的加权平均。类似地,
p
即 可以表示c 成1各P 行1 轮D 廓r的D 加r 1P 权 平i 均1p 。iri
c
例9.1.1
❖ 将由个人组成的样本按心理健康状况与社会经济状 况进行交叉分类,分类结果见表9.1.3。
0.327 0.249
0.170 0.209 0.245 0.294 0.327
两个马赛克图
对心理健康的每一种状况,A、B、C、D、E五个小 方块的宽度显示了行轮廓,0、1、2、3四种心理健 康状况的小方块高度显示了行密度。
对社会经济的每一种状况,0、1、2、3四个小方块 的高度显示了列轮廓,A、B、C、D、E五种社会经 济状况的小方块宽度显示了列密度。
§9.1 行轮廓和列轮廓
❖ 一、列联表 ❖ 二、对应矩阵 ❖ 三、行、列轮廓
一、列联表
❖ 其中, n i j 是第 i 行、第 j 列类别组合的频数,
q
i 1 ,2 , ,p ,j 1 ,2 , ,q ;n i n ij为第i 行的频数之 j1
p
和,i1,2, ,p; n j nij 为第 j 列的频数之和, i1
第9章 对应分析
❖ 对应分析(correspondence analysis)是用于寻求列 联表的行和列之间联系的一种低维图形表示法,它 可以从直觉上揭示出同一分类变量的各个类别之间 的差异,以及不同分类变量各个类别之间的对应关 系。
❖ 对应分析是由法国人Benzecri于1970年提出的,起 初在法国和日本最为流行,然后引入美国。
j1
❖ 称 Ppij nij n为对应矩阵。将对应矩阵表中的
最后一列用 r 表示,即
rP1p1,p2, ,pp
其中 1 1,1, ,1是元素均为1的 q 维向量,最后一行
用 c 表示,即
c 1 P p 1 ,p 2 , ,p q
❖ 其中1 1,1, ,1是元素均为1的 p 维向量,向量 r
❖ 在对应分析中,列联表的每一行对应(通常是二维) 图中的一点,每一列也对应同一图中的一点。本质 上,这些点都是列联表的各行各列向一个二维欧式 空间的投影,这种投影最大限度地保持了各行(或 各列)之间的关系。
第九章 对应分析
❖ §9.1 行轮廓和列轮廓 ❖ §9.2 独立性的检验和总惯性 ❖ §9.3 行、列轮廓的坐标 ❖ §9.4 对应分析图
0.174 0.180
0.234 0.213
0.161 0.149
0.118 0.149
0.221 0.154 0.242 0.201 0.183
列轮廓矩阵为
0.239 0.199 0.188 0.136 0.097
CPDc100..327211
0.366 0.226
0.367 0.201
0.366 0.204
似服从自由度为 p1q1的卡方分布。拒绝规则
为
若2 2p 1 ,q 1 ,则拒绝独立性的原假设
其中 2p1,q1是 2p1,q1的上分位点。
二、总惯量
2
2 pq
总 惯 量
pij pipj
n i1 j1
pipj
总惯量还可以行轮廓和列轮廓的形式表达如下:
2
总 惯 量 i p 1p ijq 1p ij p p i j p j
p
q
pq
j1,2, ,q; n ni nj nij为所有类别组
i1
j1
i1 j1
合的频数总和。
二、对应矩阵
❖ 这里, p ij n n ij,p ijq 1p ijjq 1n n ij,p ji p 1p iji p 1n n ij。
p
q
❖ 显然有 pi p j 1 。
i1
§9.2 独立性的检验和总惯量
❖ 一、行、列独立的检验 ❖ 二、总惯量
一、行、列独立的检验
❖ 在列联表中,检验行变量和列变量相互独立假设的 统计量为
2
pq
2n
pij pipj
i1 j1
pipj
当独立性的原假设为真,且样本容量 n 充分大,期
望频数 n p i p j 5 ,i 1 , 2 ,,p ,j 1 , 2 ,, q 时, 2 近