多元统计分析——对应分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a 1
p .p aiap i. p .a
p i.
p .p aja pj. p .a
pj.
n
piapi.p.apjapa.p.j
a1 p.a pi. p.j p.a
n
zia z ja
a 1
令Z为zij所组成的矩阵,则
BZZ
令Z为zij所组成的矩阵,则 BZ Z 因此将矩阵变换成矩阵Z,则很容易求出A和B存
变量的叉积矩阵
样品的叉积矩阵
R (* X ) X * (p p ) QX *(X *) (n n )
显而易见,变量和样品的叉积矩阵的阶数不同, 一般来说,他们的非零特征根也不一样,那么能否将 观测值做变换。
X Z
ZZ和ZZ具有相同的特征根。
(一)规格化矩阵
x11 x12
X
x21
x22
个样品的协方a 差ij:ap 1 pa.pap i.i
p.i pa.papj.j
p.jpa.
ap 1 pa.pap i.i p.i
pa. pa.papj.j p.j
pa.
p
paipa.p.i pajpa.p.j
a1 pa. p.i pa. p.j
例 某地环境检测部门对该地所属8个 地区的大气污染状况进行了系统的的检测,每 天4次同时在各个地区抽取大气样品,则定其 中的氯、硫化氢、二氧化硫、碳4、环氧氯丙 烷、环已烷6种气体的浓度。有资料如下:
0.056 0.084 0.031 0.038 0.0081 0.022 0.049 0.055 0.1 0.11 0.022 0.0073 0.038 0.13 0.079 0.17 0.058 0.043 0.034 0.095 0.058 0.16 0.2 0.029 0.084 0.066 0.029 0.32 0.012 0.041 0.064 0.072 0.1 0.21 0.028 1.38 0.048 0.089 0.062 0.26 0.038 0.036 0.069 0.087 0.027 0.05 0.089 0.021
第7章 对 应 分 析
Correspondence Analysis
7.1列联表及列联表分析 7.2对应分析
7.1列联表及列联表分析
一、列联表及其作用 1.列联表是观测数据按两个或更多属性变量
(定类尺度或定序尺度)分类时所列出的频 数表。 2.列联表用于考察两个(或多个)分类变量 的统计学关联。如行变量与列变量之间的关 联性。
列联表检验的零假设是两变量 X和Y 相互独立,计 算一个卡方统计量,与列联表中频数取值和零假设 下期望取值之差有关,当卡方 很大时否定零假设。
B
6
例 吸烟与慢性支气管炎调查表
为了探讨吸烟与慢性支气管 炎有无关系,调查了339人, 情况如表所示:
B A
患慢性 支气管 炎
未患慢 性支气 管炎
设想有两个随机变量A,B: 吸 43
总惯量
由矩阵D(R)定义的n 个点与其重心的欧氏 距离之和称为行轮廓矩阵N(R) 的总惯量。
记为I I .
同时,可证明:
II
IJ
1 2
n
B
19
同理:
称
p 1 j p .j
p p 2 .jj p p . n j j x x 1 .j j
x 2 j x .j
x x . n j j j 1 ,2 ,3 , ,p
为列轮廓。
列轮廓矩阵为:
p11/ p.1 N(Q)p21/ p.1
pn1/ p.1
p12/ p.2 p22/ p.2
pn2/ p.2
p1p/ p.p p2p/ p.p
pnp/ p.p
E(pp.ijj)i n1pp.ijj.p.j pi.
因为原始变量的数量等级可能不同,所以为了
尽量减少各变量尺度差异,将列轮廓中的各行元 素均除以其期望的平方根。得矩阵D(Q)
p2
p
pnp
n
p
我们可以把pij解释成概率,因为所有的元素之和为1。
行和pi.: j p1pij
列和 p.j : i n1pij
Q
pij
pi.
xpij /x.. pij
xij /x..
p
xij /x..
xij xi.
j1
j1
p p i i 1 . p p i i2 . p p i i. p x x i i 1 . x x i i2 . x x i i. p i 1 ,2 ,3 , ,n 称为行轮廓。即把第i行表示成在p维欧氏空间中的一个点
p
zai zaj a 1
zaipai pap .p a..ip.i xai xax .x a..ix.i
令Z为zij所组成的矩阵,则 AZZ
利用列轮廓矩阵,可得第i个变量与第j 个变量的协方差:
bijan 1 p.apia pi.
pi. p.apjp aj.
pj.p.a
n
p11/p.1 p1. D(Q)p21/p.1 p2.
pn1/p.1 pn.
p12/p.2 p1. p22/p.2 p2.
pn2/p.2 pn.
p1p/p.p p1. p2p/p.p p2.
pnp/p.p pn.
E(p.jpijpi.)i n1p.jpijpi..p.j pi.
利用行轮郭矩阵,可得第i个样品与第j
B
3
列联表
B1 B2
Bj
A1 n11 n12 … n1j
…
A2 n21 n22
n2j
Bp n1p n1. n2p n2.
Ai ni1 ni2
nij
nip ni.
An nn1 nn2
n.1
n.2
nnj n.j
B
nnp nn. n.p n
4
B1 A1 p11 A2 p21
频率意义上的列联表
B2
Bj
Bp
矩阵D(R)是消除了变量B的各个状态概率影响的P 维空间n个点的相对坐标。 则这n个点的重心,也有p维坐标,设其第j个分量为:
E (p i.p ip j.j) i n 1 p i.p ip j.j.p i.1 p .jp .jp .j,j 1 ,2 , ,p
N个点的重心为: ( P.1, P.2 P.p)
Phi Coefficient -0.148
Contingency Coefficient 0.147
Cramer's V -0.148
Sample Size = 339
B
8
列联表中列出了表格单元频数和在零假设下 的期望频数,可以看出,吸烟人中患病的数
目比期望数目大。检验的结果只要看后面的 统计量部分的Chi-Square一行,其值为 7.469,p值为0.006,所以应否定零假设,吸 烟与患慢性支气管炎是不独立的。
7.925 0.005 Chi-Square
Continuity Adj. Chi-Square
1
6.674
0.010
Mantel-Haenszel Chi-Square
1
7.447 0.006
Fisher's Exact Test (Left) 4.09E-03
(Right) 0.998
(2-Tail) 6.86E-03
第j个变量的期望为:
E (p pii.j)i n1p pii.j.pi.p.j,j1 ,2,,p
p11/p1. p.1 D(R)p21/p2. p.1
pn1/pn. p.1
p12/p1. p.2 p1p/p1. p.p p22/p2. p.2 p2p/p2. p.p
pn2/pn. p.2 pnp/pn. p.p
B
2
一般,若总体中的个体可按两个属性A与 B分类,A有n类A1,A2,…,An,B有p类 B1,B2,…,Bp, 属于Ai和Bj的个体数目为 nij(i=1,2, …,n;j= 1,2, …,p),nij称为 频数,则可形成n×p的二维列联表,简 称n×p表。
若所考虑的属性多于两个,也可按类似 的方式作出列联表,称为多维列联表。
xn1
xn2
x1p
x2
p
xi.为行和x., j为列和
x 为总和
xnp
n
p
..
x11 x12 x21 x22
xn1 xn2
x1p x1.
x2
p
x2.
xnp
xn.
x.1
x.2 x.p x..
pijxij/x..
p11
X
p21
pn1
p12 p22 pn2
p1p
设原始数据矩阵为:
x11 x12
X x21 x22
xn1
xn2
x1p
x2
p
xnp
n
p
由于因子分析都是基于协方差矩阵或相关系 数矩阵完成的,所以必须从变量和样品的协 方差矩阵入手来进行分析。
x11x1 x12x2 x1p xp
X* x21x1 x22x2 x2p xp
xn1x1 xn2 x2 xnpxpnp
行轮廓矩阵为:
p11/ p1. N(R)p21/ p2.
p12/ p1. p1p/ p1.
p22/ p2. p2p/ p2.
pn1/ pn.
pn2/ pn.
pnp/
pn.
由此,我们可以将属性变量A的n个取值可 以用P维空间的n个点来表示。n个点的坐 标即为该行轮廓矩阵。
但是,因为原始变量的数量等级可能不同,所以 为了尽量减少各变量尺度差异,将行轮廓中的各列 元素均除以其期望的平方根。得矩阵D(R)
162
A:1表示吸烟,
烟
2表示不吸烟;
B:1表示患慢性支气管炎,
不 吸
13
121
2表示未患。
烟
零假设为:
H0: A与B相互独立
B
7
STATISTICS FOR TABLE OF SMOKE BY BRON Statistic
DF
Value
Prob
Chi-Square
1
7.469
0.006
Likelihood Ratio 1
u 1u 11u 21u p 1 u 2u 12u 22u p 2
v 1 v 11v 21 v n 1 v 2 v 12v 22 v n 2
我们知道因子载荷矩阵的含义是原始 变量与公共因子之间的相关系数,所以 如果我们构造一个平面直角坐标系,将 第一公共因子的载荷与第二个公共因子 的载荷看成平面上的点,在坐标系中绘 制散点图,则构成对应图。
p12 … p1j
…
p1p p1.
p22
p2j
p2p p2.
Ai pi1 pi2
pij
pip pi.
An pn1 pn2
p.1
p.2
pnj p.j
B
pnp pn. p.p 1
5
列联表独立性检验
对于数值型变量相关关系,通常是计算相关系数和进 行回归分析。
描述两个定性变量之间的相关性是指广义的相关性, 称为关联性。两个定性变量的关联程度在某种意义 上就是指的“不独立”,它与独立的情形差距越大, 就表明彼此的关系越密切,这种关系不一定是线性 关系。在实际问题中,重要的是判断变量之间是否 独立,因为不独立就意味着关联。最常用的检验办 法是列联表独立性检验。
特征根
贡献率(%)
累积贡献率(%)
1
0.50668
70.00
70.00
2
0.12213
16.87
86.87
3
0.05658
7.82
94.69
在着的简单对应关系。由特征根和特征向量的性质, A和B有相同的非零特征根。
设 k 是A=Z’Z的非零特征根,则 Z Zku ku k
在上式的两边都左乘Z,则
Z Z ( Z k ) u k ( Z u k )
可见 k 也是ZZ’的特征根,相应的特征向量是Zu k
三、对应图
设12… l(0<i<min(n,p))为矩阵A和B的 非零特征根,其相应的特征向量为
B
9
7.2 对应分析
对应分析又称为相应分析,也称R—Q分析。是因子分子基础发展起来的 一种多元统计分析方法。它主要通过分析属性(定性)变量构成的列联表来 揭示变量之间的关系,可以用对应分析图(二维图)显示列联表中每一个单 元格的相对位置,以简单、直观地表明列联表的行与列的关系。
对应分析也是利用降维的思想以达到简化数据结构的目的。不过,在因 子分析中,R型因子分析和Q型因子分析是分开进行的。对应分析的基本思 想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间 中表示出来。在对应分析中,会同时对行与列进行处理,寻求以低维图形表 示数据表中的行与列的关系。(对同一观测数据施加R和Q型因子分析,并 分别保留两个公共因子,则是对应分析的初步)。
对应分析基本步骤: 1、获取对应分析数据 确定研究目的,选择对应分析所需数据, 应该包括的背景资料。 2、建立列联表 3、对应分析 4、利用对应图解释结果。
B
11
二、对应分析的原理
由于R型因子分析和Q型因子分析是反映一个整体 的不同侧面,R型因子分析是从列来讨论(对变量), Q型因子分析是从行来讨论(对样品),因此他们之 间存在内在的联系。
p .p aiap i. p .a
p i.
p .p aja pj. p .a
pj.
n
piapi.p.apjapa.p.j
a1 p.a pi. p.j p.a
n
zia z ja
a 1
令Z为zij所组成的矩阵,则
BZZ
令Z为zij所组成的矩阵,则 BZ Z 因此将矩阵变换成矩阵Z,则很容易求出A和B存
变量的叉积矩阵
样品的叉积矩阵
R (* X ) X * (p p ) QX *(X *) (n n )
显而易见,变量和样品的叉积矩阵的阶数不同, 一般来说,他们的非零特征根也不一样,那么能否将 观测值做变换。
X Z
ZZ和ZZ具有相同的特征根。
(一)规格化矩阵
x11 x12
X
x21
x22
个样品的协方a 差ij:ap 1 pa.pap i.i
p.i pa.papj.j
p.jpa.
ap 1 pa.pap i.i p.i
pa. pa.papj.j p.j
pa.
p
paipa.p.i pajpa.p.j
a1 pa. p.i pa. p.j
例 某地环境检测部门对该地所属8个 地区的大气污染状况进行了系统的的检测,每 天4次同时在各个地区抽取大气样品,则定其 中的氯、硫化氢、二氧化硫、碳4、环氧氯丙 烷、环已烷6种气体的浓度。有资料如下:
0.056 0.084 0.031 0.038 0.0081 0.022 0.049 0.055 0.1 0.11 0.022 0.0073 0.038 0.13 0.079 0.17 0.058 0.043 0.034 0.095 0.058 0.16 0.2 0.029 0.084 0.066 0.029 0.32 0.012 0.041 0.064 0.072 0.1 0.21 0.028 1.38 0.048 0.089 0.062 0.26 0.038 0.036 0.069 0.087 0.027 0.05 0.089 0.021
第7章 对 应 分 析
Correspondence Analysis
7.1列联表及列联表分析 7.2对应分析
7.1列联表及列联表分析
一、列联表及其作用 1.列联表是观测数据按两个或更多属性变量
(定类尺度或定序尺度)分类时所列出的频 数表。 2.列联表用于考察两个(或多个)分类变量 的统计学关联。如行变量与列变量之间的关 联性。
列联表检验的零假设是两变量 X和Y 相互独立,计 算一个卡方统计量,与列联表中频数取值和零假设 下期望取值之差有关,当卡方 很大时否定零假设。
B
6
例 吸烟与慢性支气管炎调查表
为了探讨吸烟与慢性支气管 炎有无关系,调查了339人, 情况如表所示:
B A
患慢性 支气管 炎
未患慢 性支气 管炎
设想有两个随机变量A,B: 吸 43
总惯量
由矩阵D(R)定义的n 个点与其重心的欧氏 距离之和称为行轮廓矩阵N(R) 的总惯量。
记为I I .
同时,可证明:
II
IJ
1 2
n
B
19
同理:
称
p 1 j p .j
p p 2 .jj p p . n j j x x 1 .j j
x 2 j x .j
x x . n j j j 1 ,2 ,3 , ,p
为列轮廓。
列轮廓矩阵为:
p11/ p.1 N(Q)p21/ p.1
pn1/ p.1
p12/ p.2 p22/ p.2
pn2/ p.2
p1p/ p.p p2p/ p.p
pnp/ p.p
E(pp.ijj)i n1pp.ijj.p.j pi.
因为原始变量的数量等级可能不同,所以为了
尽量减少各变量尺度差异,将列轮廓中的各行元 素均除以其期望的平方根。得矩阵D(Q)
p2
p
pnp
n
p
我们可以把pij解释成概率,因为所有的元素之和为1。
行和pi.: j p1pij
列和 p.j : i n1pij
Q
pij
pi.
xpij /x.. pij
xij /x..
p
xij /x..
xij xi.
j1
j1
p p i i 1 . p p i i2 . p p i i. p x x i i 1 . x x i i2 . x x i i. p i 1 ,2 ,3 , ,n 称为行轮廓。即把第i行表示成在p维欧氏空间中的一个点
p
zai zaj a 1
zaipai pap .p a..ip.i xai xax .x a..ix.i
令Z为zij所组成的矩阵,则 AZZ
利用列轮廓矩阵,可得第i个变量与第j 个变量的协方差:
bijan 1 p.apia pi.
pi. p.apjp aj.
pj.p.a
n
p11/p.1 p1. D(Q)p21/p.1 p2.
pn1/p.1 pn.
p12/p.2 p1. p22/p.2 p2.
pn2/p.2 pn.
p1p/p.p p1. p2p/p.p p2.
pnp/p.p pn.
E(p.jpijpi.)i n1p.jpijpi..p.j pi.
利用行轮郭矩阵,可得第i个样品与第j
B
3
列联表
B1 B2
Bj
A1 n11 n12 … n1j
…
A2 n21 n22
n2j
Bp n1p n1. n2p n2.
Ai ni1 ni2
nij
nip ni.
An nn1 nn2
n.1
n.2
nnj n.j
B
nnp nn. n.p n
4
B1 A1 p11 A2 p21
频率意义上的列联表
B2
Bj
Bp
矩阵D(R)是消除了变量B的各个状态概率影响的P 维空间n个点的相对坐标。 则这n个点的重心,也有p维坐标,设其第j个分量为:
E (p i.p ip j.j) i n 1 p i.p ip j.j.p i.1 p .jp .jp .j,j 1 ,2 , ,p
N个点的重心为: ( P.1, P.2 P.p)
Phi Coefficient -0.148
Contingency Coefficient 0.147
Cramer's V -0.148
Sample Size = 339
B
8
列联表中列出了表格单元频数和在零假设下 的期望频数,可以看出,吸烟人中患病的数
目比期望数目大。检验的结果只要看后面的 统计量部分的Chi-Square一行,其值为 7.469,p值为0.006,所以应否定零假设,吸 烟与患慢性支气管炎是不独立的。
7.925 0.005 Chi-Square
Continuity Adj. Chi-Square
1
6.674
0.010
Mantel-Haenszel Chi-Square
1
7.447 0.006
Fisher's Exact Test (Left) 4.09E-03
(Right) 0.998
(2-Tail) 6.86E-03
第j个变量的期望为:
E (p pii.j)i n1p pii.j.pi.p.j,j1 ,2,,p
p11/p1. p.1 D(R)p21/p2. p.1
pn1/pn. p.1
p12/p1. p.2 p1p/p1. p.p p22/p2. p.2 p2p/p2. p.p
pn2/pn. p.2 pnp/pn. p.p
B
2
一般,若总体中的个体可按两个属性A与 B分类,A有n类A1,A2,…,An,B有p类 B1,B2,…,Bp, 属于Ai和Bj的个体数目为 nij(i=1,2, …,n;j= 1,2, …,p),nij称为 频数,则可形成n×p的二维列联表,简 称n×p表。
若所考虑的属性多于两个,也可按类似 的方式作出列联表,称为多维列联表。
xn1
xn2
x1p
x2
p
xi.为行和x., j为列和
x 为总和
xnp
n
p
..
x11 x12 x21 x22
xn1 xn2
x1p x1.
x2
p
x2.
xnp
xn.
x.1
x.2 x.p x..
pijxij/x..
p11
X
p21
pn1
p12 p22 pn2
p1p
设原始数据矩阵为:
x11 x12
X x21 x22
xn1
xn2
x1p
x2
p
xnp
n
p
由于因子分析都是基于协方差矩阵或相关系 数矩阵完成的,所以必须从变量和样品的协 方差矩阵入手来进行分析。
x11x1 x12x2 x1p xp
X* x21x1 x22x2 x2p xp
xn1x1 xn2 x2 xnpxpnp
行轮廓矩阵为:
p11/ p1. N(R)p21/ p2.
p12/ p1. p1p/ p1.
p22/ p2. p2p/ p2.
pn1/ pn.
pn2/ pn.
pnp/
pn.
由此,我们可以将属性变量A的n个取值可 以用P维空间的n个点来表示。n个点的坐 标即为该行轮廓矩阵。
但是,因为原始变量的数量等级可能不同,所以 为了尽量减少各变量尺度差异,将行轮廓中的各列 元素均除以其期望的平方根。得矩阵D(R)
162
A:1表示吸烟,
烟
2表示不吸烟;
B:1表示患慢性支气管炎,
不 吸
13
121
2表示未患。
烟
零假设为:
H0: A与B相互独立
B
7
STATISTICS FOR TABLE OF SMOKE BY BRON Statistic
DF
Value
Prob
Chi-Square
1
7.469
0.006
Likelihood Ratio 1
u 1u 11u 21u p 1 u 2u 12u 22u p 2
v 1 v 11v 21 v n 1 v 2 v 12v 22 v n 2
我们知道因子载荷矩阵的含义是原始 变量与公共因子之间的相关系数,所以 如果我们构造一个平面直角坐标系,将 第一公共因子的载荷与第二个公共因子 的载荷看成平面上的点,在坐标系中绘 制散点图,则构成对应图。
p12 … p1j
…
p1p p1.
p22
p2j
p2p p2.
Ai pi1 pi2
pij
pip pi.
An pn1 pn2
p.1
p.2
pnj p.j
B
pnp pn. p.p 1
5
列联表独立性检验
对于数值型变量相关关系,通常是计算相关系数和进 行回归分析。
描述两个定性变量之间的相关性是指广义的相关性, 称为关联性。两个定性变量的关联程度在某种意义 上就是指的“不独立”,它与独立的情形差距越大, 就表明彼此的关系越密切,这种关系不一定是线性 关系。在实际问题中,重要的是判断变量之间是否 独立,因为不独立就意味着关联。最常用的检验办 法是列联表独立性检验。
特征根
贡献率(%)
累积贡献率(%)
1
0.50668
70.00
70.00
2
0.12213
16.87
86.87
3
0.05658
7.82
94.69
在着的简单对应关系。由特征根和特征向量的性质, A和B有相同的非零特征根。
设 k 是A=Z’Z的非零特征根,则 Z Zku ku k
在上式的两边都左乘Z,则
Z Z ( Z k ) u k ( Z u k )
可见 k 也是ZZ’的特征根,相应的特征向量是Zu k
三、对应图
设12… l(0<i<min(n,p))为矩阵A和B的 非零特征根,其相应的特征向量为
B
9
7.2 对应分析
对应分析又称为相应分析,也称R—Q分析。是因子分子基础发展起来的 一种多元统计分析方法。它主要通过分析属性(定性)变量构成的列联表来 揭示变量之间的关系,可以用对应分析图(二维图)显示列联表中每一个单 元格的相对位置,以简单、直观地表明列联表的行与列的关系。
对应分析也是利用降维的思想以达到简化数据结构的目的。不过,在因 子分析中,R型因子分析和Q型因子分析是分开进行的。对应分析的基本思 想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间 中表示出来。在对应分析中,会同时对行与列进行处理,寻求以低维图形表 示数据表中的行与列的关系。(对同一观测数据施加R和Q型因子分析,并 分别保留两个公共因子,则是对应分析的初步)。
对应分析基本步骤: 1、获取对应分析数据 确定研究目的,选择对应分析所需数据, 应该包括的背景资料。 2、建立列联表 3、对应分析 4、利用对应图解释结果。
B
11
二、对应分析的原理
由于R型因子分析和Q型因子分析是反映一个整体 的不同侧面,R型因子分析是从列来讨论(对变量), Q型因子分析是从行来讨论(对样品),因此他们之 间存在内在的联系。