06 第六章 R-Q型因子分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X = nW
于是有
(6.24)
F=
nWU
∧−1 2
=
nF R
∧−1 2
即
(6.24)
FR =
1
F
∧−1 2
n
(6.25)
其中各记号同前文一致。 现在用图 4-9 中汇水盆地的样本为例说明R-Q型因子分析的计算与应用。由样本中 25
个样品 6 个变量作R型因子分析后得因子负载矩阵A于表 5-2。它就是R-Q型因子分析中要求 的R型负载AR。表 5-2 对应的R型因子得分矩阵F列表 5-3,由(6.25)式可求得R-Q型因子分 析中要求的Q型的负载AQ=FR,所得结果列于表 6-1。
三、R-Q 型因子分析的图示
矩阵AR和AQ都是p列的,这意味着m维变量空间和n维样品空间样品都可用一p维因子空
3
间代替,因为p<<min(n,m),故原始空间维数约简了许多。 由于下面的关系成立
AR ARΤ = W ΤW
AQ AQΤ = WW Τ
可见,变量间关系完全保留在ARARΤ中,样品间关系完全保留在AQAQΤ中。
一、R-Q 型因子分析的相似性矩阵
我们考虑用相关系数作为变量间相似性的度量,用欧氏距离作为样品间的相似性度量,并
以此建立起变量间相似性矩阵与样品间相似性矩阵的联系。设原始数据矩阵为如下的形式:
Xn×m=(xij)n×m 其中xij为样品i变量j的观测值;并对数据作如下变换,即类似与标准化变换:
(6.1)
n
j =1
j =1
∑ (xij − x j )2
i =1
(6.8)
∑m
=
(xkj − xLj ) 2
n
= hkk + hLL − 2hkL
∑ j=1 (xij − x j )2
i =1
k ,L=1,2,…,n
(6.9)
由(6.9)可见,矩阵H=WWΤ中的元素确定了样品间的欧氏距离,即WWΤ可作为样品间
§2 对应分析
对应分析也称作对应因子分析,它也是一种 R-Q 型因子分析。对应分析的理论比较复 杂,在此仅简要介绍其基本原理与计算方法,并给出计算实例。
对应分析的基本思路与上述 R-Q 型因子分析类似,目的在于同时揭示样品与样品、变 量与变量、样品与变量间的相互关系,并用作图方法将这种关系表现出来,因此也将原始的 m 或 n 维空间压缩为同一 p 维(p<<min(m,n))的因子空间。
∧−1 2
=U
∧ U ΤU
∧−1 2
=U
1
∧2
=
AR
(6.22)
于是显然,接上述定义,R型分析的负载就是Q型分析的得分,R型分析的得分就是Q型 分析的负载。这就是R型分析与Q型分析的对偶性。于是在R-Q型因子分析中,只作R型分析, 就同时得到Q型的结果。其优点之一是只计算m阶矩阵WΤW,不计算n阶矩阵WWΤ。另一个 优点是在同一空间中将变量点与样品点同时表现出来。
-.156
19
-.180
-.104
7
-.142
-.180
20
-.116
.010
8
-.150
-.220
21
-.118
-.030
9
-.054
-.138
22
-.090
.640
10
-.120
-.012
23
.056
1.290
11
-.126
-.246
24
-.110
.134
12
-.012
-.160
25
.082
.124
+
x
2 j
n
∑ j =1
(xij − x j ) 2
i =1
k =1,2,…,n
(6.6)
∑ hLL
=
m
x
2 Lj
−
2x j xLj
+
x
2 j
n
∑ j =1
(xij − x j ) 2
i =1
且
L=1,2,…,n
(6.7)
∑ ∑ hkk + hLL − 2hkL =
m
xk2j
− 2xLj xkj
+
x
R-Q 型因子分析是一种广义概念,它可能包括不同的方法。例如周蒂(1985)提到用主分 析可作为一种 R-Q 式因子分析方法,但这一方法至今未被重视。另一种方法是对应分析,或称 对应因子分析,这是目前用得最多的方法。这两种方法都有一定理论基础,在效果上各有特点。 本章主要介绍这两种方法的基本思想、计算方法与应用,更详细的论述可参考专门性文献。
WWΤ的关系将R型分析与Q型分析联系起来,并找出两者分析间的对偶性。 设λ j为WΤW的一个非零特征值,它对应的单位特征向量为Um×p中第j列uj,则有
W ΤWu j = λ j u j
j=1,2,…,p
(6.16)
左乘 W 得:
WW Τ (Wu j ) = λ j (Wu j )
j=1,2,…,p
2
或用矩阵形式记为 UΤU=1
类似于因子分析,我们定义R型因子负载AR和R型因子得分FR分别为
AR
=U
1
∧2
(6.11) (6.12)
F R = WU
它们满足
ARΤ AR
=
∧
1 2
U
ΤU
1
∧2
=∧
(6.13) (6.14)
F RΤ F R = U ΤW ΤWU = U ΤU ∧ U ΤU = ∧
即接上面的定义各因子的负载与得分值具有相同的方差贡献。 以上相当于R型因子分析结果。现在我们通过变量间相似性矩阵WΤW与样品间相似矩阵
的相似性矩阵。
于是,从WWΤ出发可作R型因子分析,从WWΤ出发可作Q型因子分析。 一般文献上称形式WΤW为W的内积,称形成WWΤ为W的外积。前者为m阶的方阵,后者 为n阶的方阵。
二、R-Q 型因子分析的对偶性
首先从相关矩阵WΤW出发,作R型分析。设矩阵WΤW的前p个非零特征值构成的对角阵
为∧
∧ = diag (λ1, λ2 ,L, λ p )
四、计算与应用实例
Q-R型因子分析的计算在R型因子分析基础上是很方便的。显然,矩阵AR就是R型因子 分析中的因子负载矩阵A。由R型因子分析的因子得分矩阵F,也易求出Q型因子分析的因子 负载AQ。
由(5.45)式知
F
=
XA ∧ −1
=
XU
∧−1 2
其中 X 为标准化数据矩阵,它与本章定义的 W 有如下关系
(6.10)
且有λ1≥λ2≥…≥λp,其对应的p个单位特征向量构成矩阵
U=(u1,u2,…,up)=(uij)m×p
其中第 j 列
uj=(u1j,u2j,…,umj)Τ=(uij)m×p
j=1,2,…,p
为λj对应的单位特征向量,它们满足
u Τj uk
=
⎧1, ⎨ ⎩0,
j=k j≠k
j,k=1,2,…,p
(6.4)
1
∑ ∑ hkL =
m
(xkj − x j )(xLj − x j ) = n
m
xkj xLj
− x j xkj
n
−
x j xLj
+
x
2 j
k,L=1,2,…,n
∑ j=1
(xij − x j )2
j =1
∑ (xij − x j )2
i =1
i =1
(6.5)
∑ hkk
=
m
xk2j
− 2x j xkj
Wij =
xij − x j
n
∑ (xij − x j )2
i =1
i=1,2,…,n j=1,2,…,m
(6.2)
其中 x j 为变量 j 的均值。则变量间的相关矩阵可表示为
Rm×m=WΤW (6.3) 其中 W 为 n×m 矩阵,其中第 i 行 j 列元素由式给定。再令
Hn×n=WΤW 其中元素为
(6.23)
显然,
AR m× p
给出了p维因子空间中m个变量点的坐标;
AnQ×
p
给出了同一因子空间中n个
样品点的坐标。故样品点和变量点可通过AR和AQ,被投影到同一因子空间。用一对一对因 子为坐标轴,作成变量点和样品点的散点图,反映样品与样品、变量与变量、样品与变量间 的关系。
由(6.14)、(6.15)式可知,在因子空间的投影点图上,变量点的离散程度与样品点的 离散程度一致。变量点的相似性与样品点的相似性取决于它们在图中的距离远近,即越是靠 近就越相似。此外,从图中还可以看出样品与变量之间的关系,即一个样品点与相距最近的 变量点群的关系最为密切。
5
对于分析与前述 R-Q 型因子分析的主要差别在于对原始数据矩阵 X 的变换形式不同, 或对矩阵 W 的定义形式不同。
容易看出,作R型因子分析时,要对变量(列)作标准化,矩阵W中的元素为矩阵X的 列标准化数据,变量间的相似性矩阵有WΤW的形式;作Q型因子分析时,要对样品(行)作 标准化,矩阵W中的元素为矩阵X的行标准化数据,样品间的相似性矩阵有WWΤ的形式。
(6.18)
V
= WU
∧−1 2
(6.19)
并满足条件
V ΤV
=
∧−1 2
U
ΤW
ΤWU
∧−1 2
=
∧
−
1 2
U
ΤU
∧ U ΤU
∧−1 2
= Ip
类似Q型因子分析,这里Q型因子负载AQ和Q型因子得分FQ分别为
(6.20)
AQ
=V
1
∧2
= WU
∧−1 2
1
∧2
= WU
=
FR
(6.21)
FQ
= W ΤV
= W ΤWU
635它们所对应的p个单位特征向量用矩阵形式记为636并有637在一般因子分析中r型因子分析的负载为但在对应分析中考虑了各变量的权即列和于是对应分析中的r型负载被定义为638可见上式中若不考虑这一权系数则形式上与rq型因子分析中的r型负载相同
第六章 R-Q 型因子分析
R-Q 型因子分析是在 R 型和 Q 型因子分析基础上发展起来的一种多元分析方法,它把两种 类型的因子分析结合起来,对变量和样品间同时进行分类、作图及进行成因解释。自从该方法 被创导以来,很快就被地球化学工作者应用。
一般因子分析的缺点是,作R型分析时,只研究变量之间的关系,作Q型分析时,只研究样 品间的关系,把两种方法分割开来。然而,无论R型、Q型分析,都是从同一数据矩阵Xn×m出发, 在理论上,R型与Q型之间的关系是不可分割的,在实际问题上,变量之间关系与样品之间关系 是互相联系的。当要解决某一地质、地球化学问题时,既要研究样品间关系,又要研究变量间 的关系,这就需要作两种类型的因子分析,但由于两种方法的分割,就很难看出变量与样品间 的关系。实际上,变量与样品间的关系是十分重要的,它往往通过变量表明一组样品的地球化 学性质。而R-Q型因子分析能同时给出变量间关系、样品间关系以及变量与样品间关系,这就 是R-Q型因子分析的特点。
(6.17)
上两式说明λj既是WΤW的特征值,也是WWΤ的特征值,即WΤW与WWΤ有相同的非零特征值, 可知WΤW与WWΤ的秩相等。另外,由(6.17)易见,Wuj是WWΤ的第j个特征值λ j对应的特征 向量,它相应的单位特征向量记为
λ V = W − 1
2
j
j uj
j=1,2,…,p
若用Vn×p矩阵中各列表示WΤW的各单位特征向量,则有
从R型因子分析的结果可知,本例取公因子数p为 2 时,提取了原始信息的约 92%,故 在二维因子空间中样品点与变量点的关系基本反映了原始关系,损失信息约为 8%。以f1、 f2为纵横坐标,将表 5-2 中各变量点,表 6-1 中各样品点投于f1-f2因子空间可得图 6-1。
4
图 6-1 25 个沉积物样本 6 个变量的 R-Q 型分析图
在R-Q型因子分析中,我们定义了这样的矩阵W,使得WΤW反映变量间的相似性,WWΤ 反映样品间的相似性,并且只作R型分析便可由对偶性得到Q型分析的结果。
一般地也是这样,如果我们能找到这样一种W的定义方式,使得WΤW是合适的变量间的 相似性度量,同时WWΤ是合适的样品间的形似性度量,则总可以象上节那样找到R型分析与 Q型分析间的对偶性,并实现R-Q型因子分析。关键是定义矩阵是要同时保证WΤW和WWΤ具 有实际意义。
表 6-1 Q型因子负载AQ=FR
样品号
f1
f2
样品号
f1
f2
1
-.138
-.252
14
-.152
-.082
2
-.157
-.186
15
1.228
-.088
3
-.121
-.092
16
.724
-.124
4
-.138
-.064
17
-.146
-.124
5
-.142
-.040
18
-.196
.116
6
-.138
பைடு நூலகம்
2 Lj
n
=
m
(xkj − xLj ) 2
m
∑ j=1
(xij − x j )2
∑ j=1 (xij − x j )2
i =1
i =1
考虑样品 k 与 L 间的欧氏距离,即矩阵 W 中各行的欧氏距离有
∑ ∑ d
2 kL
=
m
(Wkj − WLj ) =
m
(xkj − x j − xKj + x j )2
为叙述方便,我们将前一种方法称为 R-Q 型因子分析,后一方法称为对应分析。
§1 R-Q 型因子分析
由因子分析可知,R 型分析从变量间的相似性矩阵出发,Q 型分析从样品间的相似性矩阵 出发,为研究变量与样品间的关系,从而得出相互独立的变量与样品间的因子,作出解释。
在 R-Q 型因子分析中,也有类似的步骤,但首先要将变量间的相似性矩阵与样品间的相似 性矩阵联系起来,然后才有可能将 R 型分析与 Q 型分析的结果联系起来。
13
.620
-.044
由图可见,样品点可分为三群,即 13、15、16 为一群,22、23 为另一群,其余 20 个 样品为一群。变量点可分两群,即 Cu、Zu、Cd 为一群,Fe、Mn、Pb 为另一群。从样品点 与变量点的关系来看,13、15 和 16 三个样品与 Cu、Zu、Cd 关系密切,我们已经知道,这 三个样品位于一个矿化点附近的小溪中,它们组成一个以 Cu、Zu、Cd 为标型元素的矿异常。 22 和 23 号样品与 Fe、Mn、Pb 关系密切,它主要由 Fe、Mn 的次生富集作用引起。其它 20 个样品则是我们知道的背景样品,其中各元素所占分量相当而且较低。