第九章对应分析资料
第九章对应分析
§9.1何谓对应分析及其基本思想 它是将R型与Q型因子分析结合 起来的一种统计分析方法,也 是利用降维的思想以达到简化 数据结构的目的
经济管理学院 程兰芳 1
何谓对应分析?
它的产生来自于Q型因子分析中的计 算困难,由于样品数n较大(如 n>1000),导致在进行Q型因子分析 时,计算n阶方阵的特征值和特征向 量对于微型计算机而言,其容量和 速度都难以胜任。
经济管理学院 程兰芳 4
而对应分析,则是同时对数据表中的 行(代表不同的样品)与列(代表不 同的变量)进行处理,寻求以低维图 形表示数据表中行与列之间的关系。
经济管理学院 程兰芳
5
对应分析结合了R型因子分析与Q型因 子分析,它是从R型因子分析出发, 而直接获得 Q 型因子分析的结果, 从而克服了样品容量大时所带来的计 算上的困难。 可将指标和样品同时反映到相同坐标 轴的一张图形上,便于分析问题。
5. 计算总惯量(Inertia) Q与 X2 (Chi Square) 统计量的数值。 总惯量Q定义为所有n 个样品点到重心c的加权 距离的平方总和,化简后的计算公式为
Q
z
i 1 j 1
n
p
2 ij
经济管理学院 程兰芳
26
统计量是用于检验行与列两个属性变量 是否相关的检验统计量,其表达式为(体现 了卡方统计量与总惯量的关系)
由此可以很方便地根据 R型因子分析的结果 而得到Q型因子分析的结果。
经济管理学院 程兰芳 10
由矩阵A的特征根与特征向量, 即可写出R 型因子分析的因子载荷矩阵(记为FR):
对应分析
第九章 对应分析§9.1 什么是对应分析及基本思想对应分析又称为相应分析,于1970年由法国统计学家J.P.Beozecri 提出来的。
它是在R 型和Q 型因子分析基础上发展起来的一种多元统计方法。
由前一章我们知道应用因子分析的方法,可以用较少的几个公共因子去提取研究对象的绝大部分信息,即可减少因子的数目,又把握住了研究对象之间的相互关系。
但是因子分析根据研究对象的不同又分为R 型因子分析和Q 型因子分析,即对指标(变量)作因子分析和对样品作因子分析是分开进行的,这样做往往会漏掉一些指标与样品之间有关的一些信息,另外在处理实际问题中,样品的个数远远地大于变量个数。
比如有100个样品,每个样品测10项指标,要作Q 型因子分析,就要计算(100×100)阶相似系数阵的特征根和特征向量,这对于一般小型计算机的容量和速度都是难以胜任的。
对应分析是将R 型因子分析与Q 型分子分析结合起来进行统计分析,它是从R 型因子分析出发,而直接获得Q 型因子分析的结果。
克服了由样品容量大,作Q 型分析所带来的计算上的困难。
另外根据R 型和Q 型分析的内在联系,可将指标(变量)和样品同时反映到相同坐标轴(因子轴)的一张图形上,便于对问题的分析。
比如在图形上邻近的一些样品则表示它们的关系密切归为一类,同样邻近的一些变量点则表示它们的关系密切归为一类,而且属地同一类型的样品点,可用邻近的变量点来表征。
因此,对应分析,概括起来可提供如下三方面的信息即指标之间的关系,样品之间的关系,以及指标与样品之间的关系。
基本思想:由于R 型因子分析和Q 型因子分析都是反映一个整体的不同侧面,因此它们之间一定存在内在的联系。
对应分析就是通过一个过渡矩阵Z 将二者有机地结合起来,具体地说,首先给出变量点的协差阵Z Z A '=和样品点的协差阵Z Z B '=,由于Z Z '和Z Z '有相同的非零特征根记为),m i n(0,21n p m m ≤<≥≥≥λλλ ,如果A 的特征根i λ对应的特征向量为i U ,则B 的特征根i λ对应的特征向量就是i i V ZU ∆,根据这个结论(后面有证明)就可以很方便的借助R 型因子分析而得到Q 型因子分析的结果。
统计学之 对应分析分析
n
z ki z k j
k =1
x. j xk . x . x . i k xkj 其中 xki p p . p . kj j k pk i - p.i pk . x.. x .. z = = zk i = = kj p. j pk . x. j xk . p. i pk . x.i xk .
2) 计算样品点的协方差矩阵 计算出样品的协方差矩阵为Q=(qij)n×n=ZZT。
pij - p. j pi . p. j pi . = xij x. j xi . x.. x. j xi .
由此变换产生出矩阵Z=(zij)n×p,并且将变量点的协方差 矩阵表示为R=ZTZ的形式,将样品点的协方差矩阵表示为 Q=ZZT的形式。R与Q两个矩阵存在明显的对应关系,而且将
原始数据xij变换成zij后,zij对于变量和样品具有对等性。其中qrk = = =å å åp( (
prj p..j pr .
-
pr .)( )(
pkj p. j pk . p. j pk .
)
pk .) p. j
j= 1 p
prj - p. j pr . p. j pr .
pkj - p. j pk .
j= 1 p
zrj zk j
j= 1
5.进行数据的对应变换 数据变换的公式为 zij =
邋p .
i= 1 i
n
pi j p. j
pi . =
1 p. j
n
pij =
i= 1
p. j
第i个变量与第j个变量的协方差为:
p kj p ki rij = å ( - p.i )( - p.j )p k . p k . p .i p k . p .j k =1
(9)第9章 相关分析
列边缘分布
列观察值的合计数的分布 例如,四个分公司接受调查的人数分别为 100 人, 120 人, 90人,110人
2. 条件分布与条件频数
变量 X 条件下变量 Y 的分布,或在变量 Y 条件下 变量 X 的分布 每个具体的观察值称为条件频数
9 - 17
社会 统计学
条件频数
观察值的分布
期望频数的分布
(例题分析)
一分公司 二分公司 三分公司 四分公司
赞成该 方案
实际频数 期望频数
实际频数 期望频数
68 66
32 34
75 80
75 40
57 60
33 30
79 73
31 37
反对该 方案
9 - 23
2
社会 统计学
列联表 (独立性)检验
判断两个分类变量之间是否存在联
系。对父母的孝敬程度是否与孩子的
9 - 32
社会 统计学
相关系数
(原理分析)
一个简化的 22 列联表
因素 Y y1 y2 合计
9 - 33
因素 X x1 x2
合计
a c a+c
b d b+d
a+b c+d n
社会 统计学
相关系数
(原理分析)
列联表中每个单元格的期望频数分别为 (a b)(a c) (a c)(c d ) e11 e21 n n (a b)(b d ) (b d )(c d ) e12 e22 n n 将各期望频数代入 的计算公式得
9 - 30
社会 统计学
一
二
利用2的相关测量
应用统计学:对应分析1
两变量间相关关系的检验
如果变量A和B是独立的,则应有
pij pi p j
检验假设:
ˆ (n ) n p p E ij i j
n p
H 0 : 属性变量A与B相互独立 H1 : 属性变量A与B相互不独立
H 0 : pij pi p j , i 1,2, n; j 1,2, p H1 : 上述等式至少有一个不 成立
手机: 7个特征属性
“待机时间长”、“大显示屏”、“操作简单”、 “外观时尚”、“功能强”、“价格合理”和“信号 接收好”。
研究人员希望通过对应分析发现不同特征属性的 手机潜在顾客对手机属性特征的偏好。
Ma Xin, North China Electric Power University
表一 潜在用户调研基础数据:行元素、 列元素均为七维空间中的点
Ma Xin, North China Electric Power University
计算惯量,确定维度:行、列均简化到 二维空间
各维度的惯量、奇异值
摘要 惯量比例 维 1 2 3 4 5 6 奇异值 .234 .129 .086 .065 .046 .014 惯量 .055 .017 .007 .004 .002 .000 .086 53.540 .030a 卡方 显著性 考虑情况 .641 .195 .087 .049 .025 .002 1.000 累积 .641 .837 .923 .973 .998 1.000 1.000 置信奇异值 相关性 标准差 2 .044 .154 .041
Pearson 卡方 似然比 线性和线性组合 有效案例中的 N
通常受教育 水平越高, 工资越高
High school degree
第九章对应分析SPSS
p p
i.
p ij
j1 n
p
. p
p
n
j1
. j
1 1
. j
p
i1
. j
p
i1
i.
p p p ip i1 i2 , ,..., p p p i. i. i.
p
p
ij
j1
p i.
1
p p i1 i2 , ,..., i=1,2,…,n p pi. i. pi.
Correspondence Analysis
主要内容
对应分析的统计思想
对应分析的方法原理
对应分析的计算程序
对应分析的案例讲解
对应分析(Correspondence Analysis):通过 分析由定性变量构成的交互汇总表来揭示变 量间的联系。
对应分析可以揭示同一变量的各个类别之间 的差异,不同变量各个类别之间的对应关系。 可以两个变量的联系做在一个图里表示出来。 对应分析由法国统计学家Beozecri于1970年提出
1 -.468 -.231 -.173 .622 2.538 2.179
2 .264 .092 .006 -.526 1.405 .361
Contribution Of Point to Inertia of Dim ens ion Of Dim ens ion to Inertia of Poin Inertia 1 2 1 2 Total .004 .041 .046 .917 .083 1.000 .007 .078 .043 .957 .043 1.000 .003 .032 .000 1.000 .000 1.000 .022 .211 .527 .830 .170 1.000 .031 .330 .354 .919 .081 1.000 .027 .308 .030 .992 .008 1.000 .095 1.000 1.000
对应分析-PPT课件
d i a g, p ,, p 其中 D 。 r 1 p 2 p
列轮廓矩阵
, cq p11 p1 p21 p1 p p1 p1 p12 p2 p22 p2 pp2 p2 p1q pq p2 q pq p pq pq
列轮廓矩阵为
0 . 2 3 9 0 3 7 1 1 . C P D c 0 . 2 2 1 0 . 1 7 0 0 . 1 9 9 0 . 3 6 6 0 . 2 2 6 0 . 2 0 9 0 . 1 8 8 0 . 3 6 7 0 . 2 0 1 0 . 2 4 5 0 . 1 3 6 0 . 3 6 6 0 . 2 0 4 0 . 2 9 4 0 . 0 9 7 0 . 3 2 7 0 . 2 4 9 0 . 3 2 7
二、对应矩阵
q q p p n n n i j i j i j p , p p , p p 这里, i 。 j i i j j i j n n n j 1 j 1 i 1 i 1
显然有
p p
i1 i j 1
p
q
j
1 。
q
j 1
n ij 为第 i 行的频数之
1 , 2 , ,p 和, i ; n j
p
n
i 1
q
p
ij
为第 j 列的频数之和,
p q
n n n j 1 , 2 , ,q ;n i j i j为所有类别组
i 1 j 1 i 1j 1
合的频数总和。
对应分析
对应分析(correspondence analysis)是用于寻求列 联表的行和列之间联系的一种低维图形表示法,它 可以从直觉上揭示出同一分类变量的各个类别之间 的差异,以及不同分类变量各个类别之间的对应关 系。 对应分析是由法国人Benzecri于1970年提出的,起 初在法国和日本最为流行,然后引入美国。 在对应分析中,列联表的每一行对应(通常是二维) 图中的一点,每一列也对应同一图中的一点。本质 上,这些点都是列联表的各行各列向一个二维欧式 空间的投影,这种投影最大限度地保持了各行(或 各列)之间的关系。
(四川大学)研究生的博弈论课程:第九章 对应分析
第九章对应分析§9.1 什么是对应分析及基本思想一、什么是对应分析1.对应分析的概念与基本形式对某一行业所属的企业进行经济效益评价时,不仅要研究经济效益指标间的关系,还要将企业按经济效益的好坏进行分类,研究哪些企业与哪些经济效益指标的关系更密切一些,为各级领导部门正确指导企业的生产经营活动提供更多的信息。
这就需要有一种统计方法,将指标和企业放在一块进行分类、作图,便于做经济意义上的解释。
在社会科学研究中,一个经常会遇到的问题就是要对定性变量数据进行量化分析,因为研究中往往使用一些定性(Nonmetric)变量,例如名义变量或序次变量来反映研究对象的行为、态度等,研究不同性别的顾客对不同品牌商品的喜好,不同职业的人在吸烟行为上的差异等。
在上述情况下,就可以使用对应分析方法。
对应分析(Correspondence Analysis)方法是近年来新发展起来的一种多元相依变量(Interdependece)统计分析技术,它通过分析由定性变量构成的交互汇总表来揭示变量间的联系。
当以变量的一系列类别以及这些类别的分布图来描述变量之间的联系时,使用这一分析技术可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。
对应分析的基本形式是对由两个定性或类型(Category)变量构成的交互表进行分析,将定性变量数据转变成可度量的分值、减少维度并作出分值分布图。
在减少维度方面,对应分析与因子分析(Factor Analysis)相似;在作分布图方面,对应分析与多维标度(Multidimensional Scaling)方法相似。
对应分析的优点就在于可以同时做到这几方面,这是以往的统计方法所不能做的,因此,在定性变量数据分析方面,对应分析提供了一种新的多元相依变量(Interdependece)的分析技术。
2.有关多元对应分析虽然对应分析的基本形式是对两个定性变量进行分析,实际上对于由三个或三个以上变量形成的交互表也可以进行对应分析,这样的对应分析称为多元对应分析(Multiple Correspondence Analysis)。
第九章 对应分析
应用多元统计分析第九章对应分析对应分析又称相应分析,于1970年由法国统计学家J.P.Beozecri提出的.它是在R型和Q型因子分析基础上发展起来的多元统计分析方法,故也称为R-Q型因子分析.因子分析方法是用少数几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,又把握住了研究对象的相互关系.在因子分析中根据研究对象的不同,分为R型和Q型,如果研究变量间的相互关系时采用R型因子分析;如果研究样品间相互关系时采用Q型因子分析.无论是R型或Q型都未能很好地揭示变量和样品间的双重关系.另方面在处理实际问题中,样本的大小经常是比变量个数多得多.当样品个数n很大(如n>100),进行Q型因子分析时,计算n阶方阵的特征值和特征向量对于微型计算机的容量和速度都是难以胜任的.还有进行数据处理时,为了将数量级相差很大的变量进行比较,常常先对变量作标准化处理,然而这种标准化处理对于变量和样品是非对等的,这给寻找R型和Q型之间的联系带来一定的困难.第九章什么是对应分析对应分析方法是在因子分析的基础上发展起来的,它对原始数据采用适当的标度方法.把R型和Q型分析结合起来,同时得到两方面的结果---在同一因子平面上对变量和样品一块进行分类,从而揭示所研究的样品和变量间的内在联系.对应分析由R 型因子分析的结果,可以很容易地得到Q 型因子分析的结果,这不仅克服样品量大时作Q 型因子分析所带来计算上的困难,且把R 型和Q 型因子分析统一起来,把样品点和变量点同时反映到相同的因子轴上,这就便于我们对研究的对象进行解释和推断. 第九章 对应分析的基本思想由于R 型因子分析和Q 型分析都是反映一个整体的不同侧面,因而它们之间一定存在内在的联系. 对应分析就是通过一个变换后的过渡矩阵Z 将二者有机地结合起来.具体地说,首先给出变量间的协差阵R S =Z'Z 和样品间的协差阵Q S =ZZ' ,由于Z'Z 和ZZ'有相同的非零特征根,记为12...m λλλ≥≥≥,如果R S 的特征根i λ对应的特征向量为i v ,则Q S 的特征根i λ对应的特征向量i u Zv =由此可以很方便地由R 型因子分析而得到Q 型因子分析的结果.对应分析的基本思想由A 的特征根和特征向量即可写出R 型因子分析的因子载荷阵(记为R A )和Q 型因子分析的因子载荷阵(记为Q A ).§9.1 什么是对应分析基本思想由于A和B具有相同的非零特征根,而这些特征根又正是各个公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类.第十章典型相关分析相关分析是研究多个变量与多个变量之间的相关关系.如研究两个随机变量之间的相关关系可用简单相关系数表示;研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表示.1936年Hotelling首先将相关分析推广到研究多个随机变量与多个随机变量之间的相关关系,故而产生了典型相关分析,广义相关系数等一些有用的方法.第十章什么是典型相关分析在实际问题中,经常遇到要研究一部分变量和另一部分变量之间的相关关系,例如:在工业中,考察原料的主要质量指标(1,.....,p X X ) 与产品的主要质量指标(1,.....,p Y Y )间的相关性;在经济学中,研究主要肉类的价格与销售量之间的相关性; 在地质学中,为研究岩石形成的成因关系,考察岩石的化学成份与其周围围岩化学成份的相关性;在气象学中为分析预报24小时后天气的可靠程度,研究当天和前一天气象因子间的相关关系;第十章 什么是典型相关分析在教育学中,研究学生在高考的各科成绩与高二年级各主科成绩间的相关关系;在婚姻的研究中,考察小伙子对追求姑娘的主要指标与姑娘想往的小伙子的主要尺度之间的相关关系;在医学中,研究患某种疾病病人的各种症状程度与用科学方法检查的一些结果之间的相关关系;在体育学中,研究运动员的体力测试指标与运动能力指标之间的相关关系等.第十章 什么是典型相关分析一般地,假设有一组变量1,.....,p X X 与另一组变量1,.....,p Y Y (也可以记为1,....,p p q X X ++),我们要研究这两组变量的相关关系,如何给两组变量之间的相关性以数量的描述,这就是本章研究的典型相关分析.当p=q=1时,就是研究两个变量X 与Y 之间的相关关系.简单相关系数是最常见的度量.其定义为第十章 什么是典型相关分析当p ≥ 1 ,q=1时(或 q ≥ 1 , p =1) 设 则称为Y 与(X1,…,Xp) 的全相关系数.其实Y 对X 的回归为1(|)()()Y YX XX X E Y X x def x μμϕ-=+∑∑-且 并称R 为全相关系数 .第十章 什么是典型相关分析当p,q>1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新变量之间的相关.也就是求α=(α1,…, αp ) '和β =(β1,…, βq ) ' , 使得新变量:V = α1X 1+…+αp X p = α 'X1~(,),0XX XY p YX YY X N Y μσ+∑∑⎛⎫⎛⎫∑∑=> ⎪ ⎪∑⎝⎭⎝⎭1/21YX XX XY YY R σ-⎛⎫∑∑∑= ⎪⎝⎭(,())Y x Rρϕ=W = β1Y 1+…+ βq Y q = β 'Y 之间有最大可能的相关,基于这个思想就产生了典型相关分析(Canonical correlatinal analysis).第十章 总体典型相关设X=(X1,...,Xp )及Y=(Y1,...,Yq)为随机向量(不妨设p ≤q),记随机向量Z 的协差阵为 其中Σ11是X 的协差阵,Σ22是Y 的协差阵,Σ12=Σ’21是X,Y 的协差阵. 第十章 总体典型相关我们用X 和Y 的线性组合V=a X 和W=b Y 之间的相关来研究X 和Y 之间的相关.我们希望找到a 和b,使ρ(V,W) 最大.由相关系数的定义:又已知⎪⎭⎫ ⎝⎛∑∑∑∑=∑22211211第十章总体典型相关故有对任给常数c1,c2,d1,d2,显然有ρ(c1V+d1, c2W+d2)=ρ(V,W)即使得相关系数最大的V=a'X和W=b'X并不唯一.故加附加约束条件 Var(V)=a'Σ11a=1,Var(W)=b'Σ22b=1.问题化为在约束条件Var(V)= 1,Var(W)=1下,求a和b,使得ρ(V,W)= a'Σ12b达最大 .第十章样本典型相关设总体Z=(X1,...,X p,Y1,…,Y q )’.在实际问题中,总体的均值E(Z)= 和协差阵D(Z)= 通常是未知的,因而无法求得总体的典型相关变量和典型相关系数.首先需要根据观测到的样本资料阵对其进行估计.已知总体Z的n个样品:第十章 样本典型相关样本资料阵为若假定Z ~N(μ,∑),则协差阵 的最大似然估 计为第十章 样本典型相关我们从协差阵 的最大似然估计S*(或样本协差阵S)出发,按上节的方法可以导出样本典型相关变量和样本典型相关系数.还可以证明样本典型相关变量和样本典型相关系数是总体典型相关变量和样本典型相关系数的极大似然估计.也可以从样本相关阵R 出发来导出样本典型相关变量和样本典型相关系数.第十章 样本典型相关典型相关系数的显著性检验:总体Z 的两组变量X=(X 1,...,X p )’和Y =(Y 1, …,Y q )’如果不相()()()()1(1,2,...,)t t t p q X Z t n Y +⨯⎛⎫== ⎪⎝⎭'()()11()()nt t t Z Z Z Z def Sn ∧=∑=--∑关,即COV(X,Y )=∑12=0,以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间相关关系之前,应首先对以下假设H 0作统计检验.(1) 检验H 0 : ∑12=0 (即λ1=0)设总体Z ~N p+q (μ,∑).用似然比方法可导出检验H 0的似然比统计量为(A ,A 11,A 22为离差阵)第十章 样本典型相关典型相关系数的显著性检验 (2)检验H 0(i): λi =0 (i =2,...,p )当否定H 0时,表明X,Y 相关,进而可得出至少第一个典型相关系数λ1≠ 0.相应的第一对典型相关变量V 1,W 1可能已经提取了两组变量相关关系的绝大部分信息.在实际问题中,经常迂到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方11221122||||||A S A A S S Λ==⨯⨯法外,还有近年发展起来的偏最小二乘(PLS)回归方法.第十一章什么是偏最小二乘回归偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。
第九讲 对应分析 PPT课件
name3
27 272 93 149 45 112 54 17 167 142 185 128 106 9 10 19
name4
21 51 36 41 302 146 64 36 53 41 105 47 166 72 78 107
name5
14 83 71 36 37 113 365 29 57 34 123 38 81 94 248 63
2 = 'Rent';
车主的性别 1 = 'Male'
2 = 'Female';
收入
1 = '1 Income' 2 = '2 Incomes';
婚姻状况 1 = 'Single with Kids' 2 = 'Married with Kids'
3 = 'Single'
4 = 'Married';
pi1 pi
,
pi 2 pi
,
,
piq pi
ni1 ni
,
ni 2 ni
,
,
niq ni
其各元素之和等于1 ,即ri1 1, i 1, 2,
第 j 列轮廓:
cj
p1 j p j
,
p2 j p j
,
,
p pj p j
n1 j n j
,
n2 j n j
,
,
npj n j
,p 。
其各元素之和等于1 ,即 1c j 1, j 1, 2, , q。
若 2 2 p 1, q 1,则拒绝独立性的原假设, 其中 2 p 1, q是1 2 p 1, q的1上 分位点。
第9章 对应分析
眼睛颜色 深色 棕色 蓝色 浅色 合计
金色 98 343 326 688 1455
头发颜色 合计 红色 棕色 深色 黑色 48 403 681 85 1315 84 909 412 26 1774 38 241 110 3 718 116 584 188 4 1580 286 2137 1391 118 5387
第9章对应分析
同一直角坐标系内同时表达出变量与样 品两者之间的相互关系
社会科学的数量研究中经常会对品质型(属性) 变量进行分析,研究两个或多个品质型变量之 间的相关关系。
例如:利用储户储蓄数据研究储户收入水平与所选择的 储蓄种类间是否存在联系;(该问题中收入水平和储蓄 种类均是品质型变量,其中收入水平为定序变量,储蓄 种类为定类变量) 例如:分析顾客职业与购买汽车的品牌之间的关系,研 究不同客户群对汽车的喜爱偏好。(该问题中顾客职业 和汽车品牌均是定类的品质型变量)
作业
利用《多元统计分析》课程中学到的方法, 分析现实中的经济学问题,形成一篇小论 文 格式:标题,作者(学号,姓名),摘要, 关键词,绪论,理论或模型简介,实证分 析,结论,参考文献
去除量纲,同时乘以一个系数
p
j
同理p个变量也可表示正类似形式
4、计算协方差矩阵
5、进行数据的对应变换
对协方差矩阵R与Q进行因子分析
R型因子分析
Q型因子分析
绘制变量和样品的对应分布图
R、Q因子分析,分别提取两个最重要的公 因子R1,R2和Q1,Q2 绘制在同一个坐标平面中,各点坐标为相 应的因子载荷
运行以后,数据编辑器中的原始数据并没 有变化,只是在右下角的状态栏中显示 “Weight on”字样。但利用加权后的数据 进行统计分析后所得到的结果与没加权数 据进行统计分析后得到的结果完全不同。
09 第九章 对应分析
(2)对应分析的分类
根据分析资料的类型不同,对应分析分为定性 资料(分类资料)的对应分析和连续性资料的对应 分析(基于均数的对应分析)。 根据分析变量个数的多少,定性资料的对应分 析又分为简单对应分析和多重对应分析。对两个分 类变量进行的对应分析称为简单对应分析,对两个 以上的分类变量进行的对应分析称为多重对应分析。
(3)对应分析的特点 对应分析克服了因子分析的不足将R 对应分析克服了因子分析的不足将R型因子分析 和Q型因子分析结合起来进行统计分析,它是从R型 型因子分析结合起来进行统计分析,它是从R 因子分析出发,而直接获得型Q 因子分析出发,而直接获得型Q因子分析的结果。克 服了由于样品容量大,进行Q 服了由于样品容量大,进行Q型因子分析带来的计算 上的困难。另外根据对原始数据进行规格化处理, 找出R型因子分析和Q 找出R型因子分析和Q型因子分析的内在联系,可将 变量和样品同时反映到相同坐标轴的一张图形上, 便于对问题的分析和解释。
对原始数据规格变换,使R型和Q型因子分析有机结合 对原始数据规格变换, 型和Q
具体数据矩阵Z 具体数据矩阵Z是按照如下的方法变换得到的, 即:
x. j xi. xij − x.. zij = x. j xi.
p
其中: xi. =
∑x
j =1
ij
x. j = ∑ xij
i =1
n
T = x.. = ∑∑ xij
多元统计分析方法及其应用
统计学院
第九章 对应分析
第一节 对应分析的基本思想 第二节 对应分析的方法和原理
第一节 对应分析的基本思想
一、什么是对应分析 二、对应分析的基本思想
什么是对应分析 (1)对应分析的概念 (1)对应分析的概念 对应分析(correspondence analysis) 对应分析(correspondence analysis) 又称为相应分析,是一种目的在于揭示变量 和样品之间或者定性变量资料中变量与其类 别之间的相互关系的多元统计分析方法。
9第九章调查资料的分析-28页PPT资料
21.09.2019
中国人民大学统计学院
8
《统计调查方法与实三务》、调查资料定性分析的主要方法
三、矛盾分析法
矛盾分析法就是运用马克思主义关于矛盾学说的原理、 法则去具体分析事物内部矛盾运动的状况和外部事物的关系, 达到认识客观事物的方法,即我们通常所说的具体问题具体 分析的方法。
矛盾分析法是定性分析法的一种方法,它是建立在对客观 事物最一般的、最根本的符合辩证规律的哲学认识的基础上, 通过客观地、历史地了解事物发展的进程,具体地分析、认识 事物。
中国人民大学统计学院
6
《统计调查方法与实三务》、调查资料定性分析的主要方法
2.横比分析
横比分析是对处于不同空间位置的两个事物进行对照, 确认对象与参照物之间的异同关系,从而把握对象本质的思 维方法。
横比分析主要有两种情形:
1)平均分析
2)差异分析 3.类比分析
类比分析(亦称类比法或类比推理),是以两个事物具 有某些相同属性的判断为前提,由此推出两者的其他某个属 性也相同的结论。
也就是说,分析事物历史和现状的关系,包括历史和现状 和一致方面以及由于环境、社会条件的变化而造成的不一致方 面。
历史分析的目的,是为了弄清楚事物发生和发展过程中的 “来龙去脉”,从中发现问题,启发思考,以便认识现状和推 断未来。
21.09.2019
中国人民大学统计学院
10
《统计调查方法与实三务》、调查资料定性分析的主要方法
21.09.2019
中国人民大学统计学院
19
《统计调查方法与实务》 二、调查资料定量分析方法
(四)相关分析 相关分析就是依据现象之间的相互依存关系而进行的一种
分析方法。 现象之间的相互依存关系表现为函数关系和相关关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用多元统计分析第九章对应分析对应分析又称相应分析,于1970年由法国统计学家J.P.Beozecri提出的.它是在R型和Q型因子分析基础上发展起来的多元统计分析方法,故也称为R-Q型因子分析.因子分析方法是用少数几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,又把握住了研究对象的相互关系.在因子分析中根据研究对象的不同,分为R型和Q型,如果研究变量间的相互关系时采用R型因子分析;如果研究样品间相互关系时采用Q型因子分析.无论是R型或Q型都未能很好地揭示变量和样品间的双重关系.另方面在处理实际问题中,样本的大小经常是比变量个数多得多.当样品个数n很大(如n>100),进行Q型因子分析时,计算n阶方阵的特征值和特征向量对于微型计算机的容量和速度都是难以胜任的.还有进行数据处理时,为了将数量级相差很大的变量进行比较,常常先对变量作标准化处理,然而这种标准化处理对于变量和样品是非对等的,这给寻找R型和Q型之间的联系带来一定的困难.第九章什么是对应分析对应分析方法是在因子分析的基础上发展起来的,它对原始数据采用适当的标度方法.把R型和Q型分析结合起来,同时得到两方面的结果---在同一因子平面上对变量和样品一块进行分类,从而揭示所研究的样品和变量间的内在联系.对应分析由R 型因子分析的结果,可以很容易地得到Q 型因子分析的结果,这不仅克服样品量大时作Q 型因子分析所带来计算上的困难,且把R 型和Q 型因子分析统一起来,把样品点和变量点同时反映到相同的因子轴上,这就便于我们对研究的对象进行解释和推断.第九章 对应分析的基本思想由于R 型因子分析和Q 型分析都是反映一个整体的不同侧面,因而它们之间一定存在内在的联系. 对应分析就是通过一个变换后的过渡矩阵Z 将二者有机地结合起来.具体地说,首先给出变量间的协差阵R S =Z'Z 和样品间的协差阵Q S =ZZ' ,由于Z'Z 和ZZ'有相同的非零特征根,记为12...m λλλ≥≥≥,如果R S 的特征根i λ对应的特征向量为i v ,则Q S 的特征根i λ对应的特征向量i i i u Zv λ=.由此可以很方便地由R 型因子分析而得到Q 型因子分析的结果.对应分析的基本思想由A 的特征根和特征向量即可写出R 型因子分析的因子载荷阵(记为R A )和Q 型因子分析的因子载荷阵(记为Q A ).§9.1 什么是对应分析基本思想由于A和B具有相同的非零特征根,而这些特征根又正是各个公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类.第十章典型相关分析相关分析是研究多个变量与多个变量之间的相关关系.如研究两个随机变量之间的相关关系可用简单相关系数表示;研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表示.1936年Hotelling首先将相关分析推广到研究多个随机变量与多个随机变量之间的相关关系,故而产生了典型相关分析,广义相关系数等一些有用的方法.第十章什么是典型相关分析在实际问题中,经常遇到要研究一部分变量和另一部分变量之间的相关关系,例如:在工业中,考察原料的主要质量指标(1,.....,p X X ) 与产品的主要质量指标(1,.....,p Y Y )间的相关性;在经济学中,研究主要肉类的价格与销售量之间的相关性;在地质学中,为研究岩石形成的成因关系,考察岩石的化学成份与其周围围岩化学成份的相关性;在气象学中为分析预报24小时后天气的可靠程度,研究当天和前一天气象因子间的相关关系;第十章 什么是典型相关分析在教育学中,研究学生在高考的各科成绩与高二年级各主科成绩间的相关关系;在婚姻的研究中,考察小伙子对追求姑娘的主要指标与姑娘想往的小伙子的主要尺度之间的相关关系;在医学中,研究患某种疾病病人的各种症状程度与用科学方法检查的一些结果之间的相关关系;在体育学中,研究运动员的体力测试指标与运动能力指标之间的相关关系等.第十章 什么是典型相关分析一般地,假设有一组变量1,.....,p X X 与另一组变量1,.....,p Y Y (也可以记为1,....,p p q X X ++),我们要研究这两组变量的相关关系,如何给两组变量之间的相关性以数量的描述,这就是本章研究的典型相关分析.当p=q=1时,就是研究两个变量X 与Y 之间的相关关系.简单相关系数是最常见的度量.其定义为第十章 什么是典型相关分析当p ≥ 1 ,q=1时(或 q ≥ 1 , p =1)设则称为Y 与(X1,…,Xp) 的全相关系数.其实Y 对X 的回归为1(|)()()Y YX XX X E Y X x def x μμϕ-=+∑∑-且 并称R 为全相关系数 .第十章 什么是典型相关分析 当p,q>1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新变量之间的相关.也就是求α=(α1,…, αp )'和β =(β1,…, βq ) ' , 使得新变量:V = α1X 1+…+αp X p = α 'X1~(,),0XX XY p YX YY X N Y μσ+∑∑⎛⎫⎛⎫∑∑=> ⎪ ⎪∑⎝⎭⎝⎭1/21YX XX XY YY R σ-⎛⎫∑∑∑= ⎪⎝⎭(,())Y x Rρϕ=W = β1Y 1+…+ βq Y q = β 'Y 之间有最大可能的相关,基于这个思想就产生了典型相关分析(Canonical correlatinal analysis).第十章 总体典型相关设X=(X1,...,Xp )及Y=(Y1,...,Yq)为随机向量(不妨设p ≤q),记随机向量Z 的协差阵为其中Σ11是X 的协差阵,Σ22是Y 的协差阵, Σ12 =Σ’21是X,Y 的协差阵. 第十章 总体典型相关我们用X 和Y 的线性组合V=a X 和W=b Y 之间的相关来研究X 和Y 之间的相关.我们希望找到a 和b,使ρ(V,W) 最大.由相关系数的定义:又已知⎪⎭⎫ ⎝⎛∑∑∑∑=∑22211211第十章总体典型相关故有对任给常数c1,c2,d1,d2,显然有ρ(c1V+d1, c2W+d2)=ρ(V,W)即使得相关系数最大的V=a'X和W=b'X并不唯一.故加附加约束条件 Var(V)=a'Σ11a=1,Var(W)=b'Σ22b=1.问题化为在约束条件Var(V)= 1,Var(W)=1下,求a和b,使得ρ(V,W)= a'Σ12b达最大 .第十章样本典型相关设总体Z=(X1,...,X p,Y1,…,Y q )’.在实际问题中,总体的均值E(Z)=和协差阵D(Z)=通常是未知的,因而无法求得总体的典型相关变量和典型相关系数.首先需要根据观测到的样本资料阵对其进行估计.已知总体Z的n个样品:第十章 样本典型相关样本资料阵为若假定Z ~N(μ,∑),则协差阵的最大似然估计为第十章 样本典型相关我们从协差阵的最大似然估计S*(或样本协差阵S)出发,按上节的方法可以导出样本典型相关变量和样本典型相关系数.还可以证明样本典型相关变量和样本典型相关系数是总体典型相关变量和样本典型相关系数的极大似然估计.也可以从样本相关阵R 出发来导出样本典型相关变量和样本典型相关系数.第十章 样本典型相关典型相关系数的显著性检验:总体Z 的两组变量X=(X 1,...,X p )’和Y =(Y 1, …,Y q )’如果不相()()()()1(1,2,...,)t t t p q X Z t n Y +⨯⎛⎫== ⎪⎝⎭'()()11()()nt t t Z Z Z Z def S n ∧=∑=--∑关,即COV(X,Y )=∑12=0,以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间相关关系之前,应首先对以下假设H 0作统计检验.(1) 检验H 0 : ∑12=0 (即λ1=0)设总体Z ~N p+q (μ,∑).用似然比方法可导出检验H 0的似然比统计量为(A ,A 11,A 22为离差阵)第十章 样本典型相关典型相关系数的显著性检验(2)检验H 0(i): λi =0 (i =2,...,p )当否定H 0时,表明X,Y 相关,进而可得出至少第一个典型相关系数λ1≠ 0.相应的第一对典型相关变量V 1,W 1可能已经提取了两组变量相关关系的绝大部分信息.在实际问题中,经常迂到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方11221122||||||A S A A S S Λ==⨯⨯法外,还有近年发展起来的偏最小二乘(PLS)回归方法.第十一章什么是偏最小二乘回归偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。
偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线性回归分析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息。
第十一章什么是偏最小二乘回归本章结合SAS/STAT软件中用于完成偏最小二乘回归的PLS过程,介绍偏最小二乘回归分析的建模方法;并通过例子从预测角度对所建立的回归模型进行比较。
第十一章偏最小二乘回归分析考虑p个因变量Y1,…,Y p与m个自变量X1,…,X m的建模问题。
偏最小二乘回归的基本作法是首先在自变量集中提取第一成分T1(T1是X1,…,X m的线性组合,且尽可能多地提取原自变量集中的变异信息);同时在因变量集中也提取第一成分U1,并要求T1与U1相关程度达最大。
然后建立因变量Y 1,…,Y p 与T 1的回归,如果回归方程已达到满意的精度,则算法终止。
第十一章 什么是偏最小二乘回归否则继续第二对成分的提取,直到能达到满意的精度为止。
若最终对自变量集提取r 个成分T 1,T 2,…,T r ,偏最小二乘回归将通过建立Y 1,…,Y p 与T 1,T 2,…,T r 的回归式,然后再表示为Y 1,…,Y p 与原自变量的回归方程式,即偏最小二乘回归方程式.第十一章 偏最小二乘回归分析假定p 个因变量Y 1,…,Y p 与m 个自变量X 1,…,X m 均为标准化变量。