多元统计分析——对应分析ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
设原始数据矩阵为:
x11 x12
X
x21
x22
xn1
xn 2
x1p
x2
p
xnp
n
p
12
由于因子分析都是基于协方差矩阵或相关系 数矩阵完成的,所以必须从变量和样品的协 方差矩阵入手来进行分析。
x11 x1 x12 x2
X*
x21
x1
x22 x2
xn1
x1
xn2 x2
x1p xp
pn1
p12 p22 pn2
p1p
p2
p
pnp
n
p
我们可以把pij解释成概率,因为所有的元素之和为1。
行和:pi.
p
p
j 1
ij
3
列联表
B1 B2
Bj
A1 n11 n12 … n1j
…
A2 n21 n22
n2j
Bp n1p n1. n2p n2.
Ai ni1 ni2
nij
nip ni.
An nn1 nn2
nnj
Hale Waihona Puke Baidun.1
n.2
n.j
nnp nn. n.p n
4
B1 A1 p11 A2 p21
频率意义上的列联表
B2
Bj
Bp
p12 … p1j
列联表检验的零假设是两变量 X和Y 相互独立,计 算一个卡方统计量,与列联表中频数取值和零假设 下期望取值之差有关,当卡方 很大时否定零假设。
6
例 吸烟与慢性支气管炎调查表
为了探讨吸烟与慢性支气管 炎有无关系,调查了339人, 情况如表所示:
B A
患慢性 支气管 炎
未患慢 性支气 管炎
设想有两个随机变量A,B: 吸 43
2
一般,若总体中的个体可按两个属性A与 B分类,A有n类A1,A2,…,An,B有p类 B1,B2,…,Bp, 属于Ai和Bj的个体数目为 nij(i=1,2, …,n;j= 1,2, …,p),nij称为 频数,则可形成n×p的二维列联表,简 称n×p表。
若所考虑的属性多于两个,也可按类似 的方式作出列联表,称为多维列联表。
第7章 对 应 分 析
Correspondence Analysis
7.1列联表及列联表分析 7.2对应分析
1
7.1列联表及列联表分析
一、列联表及其作用 1.列联表是观测数据按两个或更多属性变量
(定类尺度或定序尺度)分类时所列出的频 数表。 2.列联表用于考察两个(或多个)分类变量 的统计学关联。如行变量与列变量之间的关 联性。
162
A:1表示吸烟,
烟
2表示不吸烟;
B:1表示患慢性支气管炎,
不 吸
13
121
2表示未患。
烟
零假设为:
H0: A与B相互独立 7
STATISTICS FOR TABLE OF SMOKE BY BRON Statistic
DF
Value
Prob
Chi-Square
1
7.469
0.006
Likelihood Ratio 1
Phi Coefficient -0.148
Contingency Coefficient 0.147
Cramer's V -0.148
Sample Size = 339
8
列联表中列出了表格单元频数和在零假设下 的期望频数,可以看出,吸烟人中患病的数 目比期望数目大。检验的结果只要看后面的 统计量部分的Chi-Square一行,其值为 7.469,p值为0.006,所以应否定零假设,吸 烟与患慢性支气管炎是不独立的。
x2 p
x
p
xnp
xp
n p
13
变量的叉积矩阵
样品的叉积矩阵
R (X* )X* ( p p) Q X* (X* )
(n n)
显而易见,变量和样品的叉积矩阵的阶数不同, 一般来说,他们的非零特征根也不一样,那么能否将 观测值做变换。
X Z
ZZ和ZZ具有相同的特征根。
14
(一)规格化矩阵
…
p1p p1.
p22
p2j
p2p p2.
Ai pi1 pi2
pij
pip pi.
An pn1 pn2
pnj
p.1
p.2
p.j
pnp pn. p.p 1
5
列联表独立性检验
对于数值型变量相关关系,通常是计算相关系数和进 行回归分析。
描述两个定性变量之间的相关性是指广义的相关性, 称为关联性。两个定性变量的关联程度在某种意义 上就是指的“不独立”,它与独立的情形差距越大, 就表明彼此的关系越密切,这种关系不一定是线性 关系。在实际问题中,重要的是判断变量之间是否 独立,因为不独立就意味着关联。最常用的检验办 法是列联表独立性检验。
7.925 0.005 Chi-Square
Continuity Adj. Chi-Square
1
6.674
0.010
Mantel-Haenszel Chi-Square
1
7.447 0.006
Fisher's Exact Test (Left) 4.09E-03
(Right) 0.998
(2-Tail) 6.86E-03
x11 x12
X
x21
x22
xn1
xn 2
x1p
x2
p
xi.为行和,
x.
为列和
j
x 为总和
xnp
n
p
..
x11 x12
x21
x22
xn1
xn 2
x1p x1.
x2
p
x2.
xnp
xn.
x.1
x.2 x. p x..
15
pij xij / x..
p11
X
p21
10
对应分析基本步骤: 1、获取对应分析数据 确定研究目的,选择对应分析所需数据,应 该包括的背景资料。 2、建立列联表 3、对应分析 4、利用对应图解释结果。
11
二、对应分析的原理
由于R型因子分析和Q型因子分析是反映一个整体 的不同侧面,R型因子分析是从列来讨论(对变量), Q型因子分析是从行来讨论(对样品),因此他们之 间存在内在的联系。
9
7.2 对应分析
对应分析又称为相应分析,也称R—Q分析。是因子分子基础发展起来的 一种多元统计分析方法。它主要通过分析属性(定性)变量构成的列联表 来揭示变量之间的关系,可以用对应分析图(二维图)显示列联表中每一 个单元格的相对位置,以简单、直观地表明列联表的行与列的关系。
对应分析也是利用降维的思想以达到简化数据结构的目的。不过,在 因子分析中,R型因子分析和Q型因子分析是分开进行的。对应分析的基本 思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的 空间中表示出来。在对应分析中,会同时对行与列进行处理,寻求以低维 图形表示数据表中的行与列的关系。(对同一观测数据施加R和Q型因子分 析,并分别保留两个公共因子,则是对应分析的初步)。