相应分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

D cI c I F r 1 , (8.6) Ic c I 从(8.5)式和(8.6)式我们清楚地看到, Dr 和 Dc 中的元素
起到了权重的作用,称其为权重矩阵。
Dc Ic F I r ,
14
第三节 相应分析的基本理论
一 原始资料的变换
二 基于矩阵的分析过程
15
我们知道相应分析的主要目的是寻求列联表行因素A和列因
7
一般地,设受制于某个载体总体的两个因素为 A 和 B ,其中
因素 A 包含 r 个水平,即 A 1, A 2, 平,即 B1 , B2 ,
Ar这两组因素作随机抽样调查,得到 一个 r c 的二维列联表,记为 K (kij )rc ,见表 8.2。
16
一、原始资料的变换
设K
(kij )rc 为一个 r c 的列联资料,其转化后的频率矩
i 1, 2,
阵为 F ( fij )rc 。我们针对因素 A 而言,由(8.3)式知, 第 i 个 水 平 分 布 轮 廓 fci Rc
,r 为 超 平 面 x1 x2 xc 1 的一点集。如果我考虑因素 A 中各水平之 间的远近,引入欧氏距离,那么第 i 个水平和第 i 个水平之
4
第二节 列联表
一 列联表的概念
二 有关记号
5
一、列联表的概念
在实际中经常要了解两组或多组因素(或变量)之间的关系。
设有两组因素A和B,其中因素A包含r个水平,即A1, A2,…,Ar;因素B包含c个水平,即B1 , B2 , …,Bc 。又 设有受制于这两个因素的载体(或客体)的集合总体N。我们 希望通过对总体N关于这两组因素的有关资料(或抽样资料), 来分析这两组因素的关系。 例如,要考查在某个人群中关于吸烟或不吸烟(因素A)与得 肺癌或不得肺癌(因素B)两组因素之间的关系。通常的作法 是,随机地从该人群中抽样,对这两种因素进行调查,设调 查了k个人,得到一个二维列联表,见表8.1。
fij kij / k 是样本中属于因素 A 的第 i 个水平和
因素 B 的第 j 个水平的百分比;fi.
f
j 1
c
ij
,f. j
f
i 1
r
ij

i 1, 2, , r , j 1, 2, , c 。这里我们记 fr ( f1. , f2. , , fr. ) , fc ( f.1, f.2 ,
2
相应分析的思想首先由理查森(Richardson)和库德
(Kuder)于1933年提出,后来法国统计学家让-保罗·贝内 泽(Jean-Paul Benzé cri)等人对该方法进行了详细的论述 而使其得到了发展。为了把握相应分析方法的实质,本章将 从列联资料入手,介绍一些基本概念和相应分析的基本理论, 并让大家理解相应分析与独立性检验的关系,进一步明确对 实际问题进行相应分析研究的必要性所在。 处理列联表的问题仅仅是相应分析的一个特例。一般地,相 应分析常规地处理连续变量的数据矩阵;这些数据具有如在 主成分分析、因子分析、聚类分析等时所处理的数据形式。 在因子分析中,根据各行变量的因子载荷和各列变量的因子 载荷之间的关系,行因子载荷和列因子载荷之间可以两两配 对。
f. j f .
z i z j
1
20
这里
f i f . f.i ki / k.. (k . / k.. )(k.i / k.. ) z i f . f.i (k . / k.. )(k.i / k.. ) k i (k .k.i / k.. ) k .k.i
6
因素 B 因素 A 得肺癌( B1 ) 吸烟( A 1) 不吸烟( A2 ) 不得肺癌( B2 )
k11
k12 k22 k.2
k1. k2.
k21 k.1
k k.. kij
表8.1
二维列联表
其中,kij为调查的k人中出现因素A的第i个水平和因素B的第j 个水平的人数。这样,我们就得到一个两因素,即吸烟与是 否得肺癌的2 2列联表。
在表 8.2 子中, ki.
kij 表示因素 A 的第 i 个水平的样本个
j 1
c
数 ; k. j
k
i 1
r
ij
表示 因素 B 的 第 j 个水 平的样 本个数;
k k.. kij 表 示 总 的 样 本 个 数 。 这 样 我 们 便 称 K (kij )rc 为一个 r c 的二维列联表。
3
如果对每组变量选择前两列因子载荷,那么两组变量就可以
画出两个因子载荷的散点图。 由于这两个图所表示的载荷可以配对,于是就可以把这两个 因子载荷的两个散点图画到同一张图中,并以此来直观地显 示各行变量和各列变量之间的关系。 由于列联表数据形式和一般的连续变量的数据形式类似,所 以也可以用相应分析的数学方法来研究行变量各个水平和列 变量各个水平之间的关系。 虽然对不同数据类型所产生结果的解释有所不同,数学的原 理是一样的。
xc 1 的一点集。 同理,因素 B 的第 j 个水平的分布轮廓为
x1 x2
f1 j f 2 j j fr , , f . j f. j
f rj , Rr f. j
(8.4)
13
1 并称 Dc F 为因素 B 的轮廓矩阵,同样
f r j , j 1, 2,
( 8.9) 从而,计算出关于因素 B 各水平构成的协差阵为 Σc (aij )cc ( 8.10)
19
其中,
f i aij f.i 1 f .
r
1
r
r
f j f.i f . f. j f i f . f.i f j f . f. j f . f.i f . f. j
,c是
超平面 y1 y2
yr 1 的一点集。这里有 P{ i, j} fij , i 1, 2 , r, P{ i | j} P{ j} f. j
(8.5)
最后,由(8.1)式和(8.2)式我们应该明确 Dr I r = I rFIc = 1 , Dr Ir FIc , Ir
8
因素 B
B1 A1
因 素
B2
Bc
k1c
k11
k12 k22
k1. k2.
A2
k21
k2 c
A
Ar
kr1
kr 2 k.2
krc
kr .
k.1
k.c
k k.. kij
表8.2
一般的二维列联表
9
二、有关记号
为了叙述方便,先引进一些基本概念和记号。 设K=(kij)r c为一个r c的列联表(表8.2),称元素kij为原始频
第八章 相应分析
第一节 第二节 第三节 第四节 第五节 引 言 列联表 相应分析的基本理论 相应分析中应注意的问题 实例分析与计算机实现
第一节 引 言
相应分析(correspondence analysis)也叫对应分析,其特点是
它所研究的变量可以是定性的。通常意义下的相应分析,是 指对两个定性变量(因素)的多种水平进行相应性研究,因 而它的应用越来越广泛,现在这种方法已经成为常用的多元 分析方法之一。 在社会、经济以及其他领域中,进行数据分析时经常要处理 因素与因素之间的关系,及因素内部各个水平之间的相互关 系。例如,评价某一个行业所属企业的经济效益,我们不仅 要研究因素A,即企业按照经济效益好坏的分类情况,以及 要研究因素B,即经济效益指标之间的关系,还要研究哪些 企业与哪些经济效益指标更密切一些。这就需要相应分析的 方法,将经济效益指标和企业状况放在一起进行分类、作图, 以便更好的描述两者之间的关系,在经济意义上做出切合实 际的解释。
间的欧氏距离为
2
f ij fij D (i, i) f f j 1 i . i .
2 c
(8.7)
17
这样定义的距离没有考虑到因素 B 的各水平边际概率的 影响,为了消除因素 B 各个水平数量级的影响,应该对每 一项加一个权数 1/ f. j ,即有:
f ij f ij 1 D (i, i) f i. f. j j 1 f i .
2 w c
2
fij fij ( 8.8) f f f j 1 f i . . j i . . j 2 我们称 Dw (i, i) 为因素 A 中第 i 个水平和第 i 个水平之间
c
2
2 距离。
18
2 这里应该注意到, ( 8.8)式所定义的距离 Dw (i, i) ,也可以
( f1. , f 2. , , f r. ) 和 ( f.1 , f.2 , , f.c ) 分别为二维随机变量( , 的抽样边际分布。 在此, 我们称 Dr 和 Dc 分别为 和 的 )
边际阵。那么,有条件概率为
P{ i, j} fij P{ j | i} , j 1, 2, P{ i} fi.
1, 2, , r
i 1, 2,
,c
令 Z ( zij )rc ,则(8.10)式可表示为
Σc Z Z
(8.11)
21
类似地,由(8.4)式知,针对因素 B 的第 j 个水平的分布轮廓
素B的基本分析特征和它们的最优联立表示。为了实现行因 素A与列因素B最优联立表示,进一步剖析行因素A内部之间, 列因素B内部之间,以及行因素A和列因素B之间的关系,这 里将介绍原始的列联资料K=(kij) r c变换成矩阵Z=(zij) r c的 具体过程,这样使得zij对因素A和列因素B具有对等性,在此 基础上进行相应分析。
, f.c ) ,
Dr diag ( f1. , f2. , Dc diag ( f.1, f.2 ,
那么有,
, fr. ) diag ( fr ) , , f.c ) diag ( fc )
f r FI c , fc F Ir ( 8.1) fr I Ir ( 8.2) c fc I r FI c 1 ,1) 其中 I r (1,1, ,1) r1 , I c (1,1, c1 。
,c
12
在此称
f f f (8.3) f ci i1 , i 2 , , ic Rc fi. fi. fi. 为因素 A 的第 i 个水平分布轮廓。称 Dr1F 为因素 A 的轮廓矩
阵 。 这 里 应 该 注 意 到 , fci , i 1, 2,
,r 是 超 平 面
因素 B
数。将列联表K转化为频率矩阵,记为F=(fij) r c ,见表8.3。
B1 A1
因 素
B2
Bc f1c f 2c f1.
f 2.
f11 f 21
f12 f 22
A2
A
Ar
f r1 f.1
fr 2
f.2
f rc
f.c
fr.
1 f.. fij
10
表8.3 一般的二维频率表
表 8.3 中
f i1 fi 2 f ic , , , 看作是点集 中两点 i 和 i 之 f f f f f f i. .c i. .1 i. .2 间的欧氏距离( i 1, 2, , r ) 。那么,我们从加权的角度考 察这 r 个点的平均水平,其第 j 个分量的平均水平为 r fij 1 r fi. fij f. j , j 1, 2, , c f. j f. j i 1 i 1 f i .
11
从数理统计的角度, K 可视为对两个随机变量 (记为 和 )
调查得到的二维列联表, 频率矩阵 F 则表示它们相应的经验 联合抽样分布为 P{ i, j} fij , i 1, 2, , r , j 1, 2, , c 其 中 与 分 别表 示因 素 A 和 因素 B 的 随 机变 量 。
相关文档
最新文档