聚类和因子分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一种是输出树形图(Dendrogram)
树形图以树的形式展现聚类分析的每一次合并过程, SPSS首先将各类之间的距离换到 0~25之间,然后再近似 地表示在图上。树形图可以粗略地表现聚类的过程。选中 Dendrogram项,即可输出树形图。

一种是输出冰柱图(Icicle)
冰柱图通过表格中的“X”符号显示,其样子很像冬天房 屋下的冰柱。SPSS默认输出聚类全过程的冰柱图(ALL clusters)。 选择Specified range of clusters项,并输入从第 几类开始显示 (Start:),到第几类结束显示(Stop),中间 几个几类(By:),则可以指定显示聚类中某一阶段的冰柱 图。如果选择None则不输出冰柱图。
在Measure框中选择计算样本距离的方法,选项如下: interval适合于连续性变量,系统提供8种方法供用户 选择 1 Euclidean distance,欧氏距离。 2 Squared Euclidean distance(系统默认方式),欧氏距 离平方。 3 Cosine:变量矢量的余弦,这是模型相似性的度量。 4 Pearson correlation:相关系数距离,适用于R型聚类。 5 Chebychev,Chebychev距离。 6 Block:City-Block或Manhattan距离。 7 Minkowski,Minkowski距离。 8 Customized, 362.1 1,156.1 1,440.0
绢云绿泥片岩
褐铁矿化片岩 绢云绿泥片岩 绢云绿泥片岩 绢云绿泥片岩
17
18 19 20 21
0.31
0.45 0.56 0.95 0.27
18.7
92.7 102.4 100.4 67.0
46
183 122 45 90
0.12
0.16 0.07 0.25 0.16
在应用上述所有相似性统计指标计算 时,由于测定样品的各种特征所用的量纲 及各种标志值的变化幅度可能不同。为了 避免过分突出那些绝对值较大的变量在分 类中的作用,在进行聚类分析之前,需要 对原始数据进行处理,应对数据进行标准 化或正规化变化。 按方法的基本特点,目前常用的聚类 方法可分为两类:系统聚类和动态聚类。
矩阵X中任意两个样品或两个变量之间的相似性,表 现在以下三个基本方面: ①描述两个样品或变量的两列或两行对应元素接近 的程度 ②两列或两行对应元素成比例的程度 ③两列或两行对应元素消长关系的密切程度 因此,用于表示相似性的统计指标通常有距离 系数、相似系数及相关系数三种。
距离系数(dik)
常用于Q型聚类分析,每个样品视为p维空间中 的一点,dik相当于p维空间中两点之间的距离,既 两样品点接近的程度。 1 p ji jk 2 d ik P维空间距离系数表示为:
Counts适合于顺序或名义变量,系统提 供两种选择方式: 1 Chi-square measure,SPSS默认万武。 2 Phi-square measufe,这是α2统计量。 Binary适用于二值变量,系统提供多种 选择方式,默认的是二元欧氏距离平方。
SPSS层次聚类的图形结果有两种方式
1.9
45.9 38.1 17.7 21.8
24.3
134.5 91.0 112.2 108.5
5
76 9 5 23
751.5
4,836.4 3,902.0 1,651.9 2,450.1
褐铁矿化石英岩
绿帘绿泥石岩 绿帘绿泥片岩 绢云绿泥片岩 褐铁矿化绿泥片岩
在地质研究领域,由于地质对象的复杂 性,单靠定性标志或少量定量标志进行分 类,常常不能揭示客观事物内在的本质差 别和联系。很多分类常具有很大的主观性 和任意性,分类常常不能反映客观实际, 分类方案又经常因人而异,因此,多元统 计分析中对客观事物进行分类的聚类方法 已在地质研究中取得日益广泛的应用。
在具体进行聚类分析时,出于不同的 目的和要求,可能选择不同的统计量和聚 类方法,因此可出现不同的聚类结果。 聚类分析可以分为R型和Q型,对m 个变量进行分类的方法,称为R型聚类法, 常用的统计量称为“相关系数”;对n个样 品进行分类的方法称为Q型聚类法,常用的 统计量称为“距离”。
相似性统计指标
因子分析:是把一些有错综复杂关系的 因子(样品或变量)归结为数量较少 的几个综合因子(又称主因子)的一 种多元统计方法。
如果对变量进行因子分析,称为R型 因子分析,也称为主成份分析,R型因子 分析研究变量之间的关系,在地质上表 现为共生组合、成矿阶段划分等。如果 对样品进行因子分析,称为Q型因子分析, 也称为主因素分析,在地质上可表现为 从大量样品中挑选关键性的典型标本, 他们可以看着某种地质作用造成的典型 产物,其它样品则可以看着不同地质作 用下的混合影响的产物。
相似性系数
常用于Q型聚类分析,是把第i、k样品看成 p维空间中的两向量,两个样品之间的相似程度可 由其向量间夹角的余弦来表示,公式为:
cos
ik


j 1 p j 1
p
ji
jk
p
2 2 ji jk
j 1
式中:i、k=1,2,…,N(i≠k)为样品号,j=1, 2,…,p为变量号。
12
13 14 15 16
0.65
0.63 0.40 0.46 0.36
102.3
112.0 56.0 125.6 61.2
158
122 74 129 120
0.11
0.05 0.13 0.05 0.79
44.7
17.4 8.4 29.1 11.3
331.0
23.0 52.5 65.1 86.4
5
5 5 5 48
Pb 5 21 5 5 13 5 5 5 5 5 5
Mn 1,272.1 476.4 1,297.6 2,120.3 1,260.4 1,028.7 142.5 186.2 2,086.2 1,465.9 1,376.5
岩性 绿泥片岩 绿泥片岩 褐铁矿化绢云绿泥片岩 细碧岩 绢云绿泥片岩 绿帘绿泥片岩 褐铁矿 褐铁矿 褐铁矿化片岩 褐铁矿化片岩 褐铁矿化片岩
另外,还可以指定冰柱图显示的方向,在 Orientation框中选择Vertical项表示纵向输出, 选择Horizontal项表示横向输出。
因子分析 (Factor analysis)
李随民
在许多问题的研究中,必须进行多因子 综合分析。由于影响因子很多,并且因子 之间存在着相互关系,要搞清它们的规律, 必须在高维空间中研究,这是非常困难的。 解决这个困难一个自然想法就是采用降维 的方法。利用因子分析降维,就是设法找 出少数的几个综合因子(少于原来变量或 样品个数)来代表原来众多的因子。而这 少数几个综合因子不仅能主要地反映原来 众多的信息,而且彼此独立。因而,因子 分析为研究实际中复杂的问题提供了有力 工具。它广泛应用于经济、企业管理、地 质、生化、医药等各个领域。
聚类分析的实质是建立一种分类方法, 它能将一批样本数据按照他们在性质上的亲 密程度在没有先验知识的情况下自动进行分 类,这里的类就是一个具有相似性的个体的 集合,不同类之间具有明显的区别。 聚类分析是一种探索性的分析,在分 类过程中,人们不必事先给出一个分类的标 准,聚类分析能够从样本数据出发,自动进 行分类,因此聚类分析不需要建模。
聚类分析讨论
1、不同的相似性指标意义不同,聚类结果 有差异,应多方案对比,找一个地质意义 明确方案。 2、不同聚类方法结论有所不同。 3、聚类分析是数字聚类,不是成因聚类。
基于SPSS的聚类分析
在该对话框中指定距离计算方法。其中Cluster Method下拉框中指定的是小类之间的距离计算方 法。SPSS提供了7种方法供用户选择: 1 Between-groupslinkage:类间平均链锁法。 2 Within-groupslinkage:类内平均链锁法。 3 Nearestneighbor:最近距离法。 4 Funhestneighbor:最远距离法。 5 Centroidclusting:重心法。 6 Medianclustering:中间距离法。 7 Ward's method:离差平方和法。 SPSS默认的是类间平均链锁法。
序号 1 2 3 4 5 6 7 8 9 10 11
Mo 0.29 3.85 0.84 0.28 1.33 0.72 40.66 15.40 2.37 5.14 1.01
V 164.8 71.0 85.7 127.0 68.0 115.0 40.0 44.5 81.1 79.4 111.9
Zn 102 52 43 113 77 42 234 1,082 781 236 647
相关系数
多用于R型聚类分析以表示研究对象之 间的相关性,其公式为:
rij

n i 1 ti
ti
i ji j



n i 1
t

2 n i 1
ji
j

2
式中:t、j=1,2,…,p(t≠j)为变量 号;i=1,2,…,n为样品号。r的取值范围是+ 1与-1之间,|r|值越大表示两变量之间关系越 密;|r|值越小表示关系越不密切
基于SPSS的聚类分析 (Cluster analysis)
李随民
聚类分析(Cluster analysis)
聚类分析是研究“物以类聚”的一种科学 有效方法,人们在认识世界的过程中,需要把某 些方面相似的东西归成类,以便从中发现规律性, 达到认识世界和改造世界的目的。早先,人们分 类主要是凭借经验和本学科专业知识,做些定性 分类,很少利用数据进行定量分类的研究,随着 现代科学的发展,尤其是电子计算机的应用,利 用数学方法研究分类不仅非常必要,而且成为可 能。因此,聚类分析与回归分析、判别分析一起 称为多元分析的三大方法。
Ag 0.05 0.14 0.34 0.05 0.06 0.05 1.07 0.92 0.15 0.05 0.05
Co 30.5 5.7 17.1 48.8 11.1 31.5 14.9 12.4 55.3 13.9 36.7
Cu 93.5 43.9 23.3 68.9 92.5 116.3 1,545.7 2,602.0 822.9 501.0 844.6
怎样衡量样品或者变量之间的相似性大小? 假定有N个样品,每个样品有P变量来描述,可测 的一个数组,以矩阵X表示:
11 21 X p1
12 1N 22 2 N

p2
pN
比较N个样品间相似性的Q型聚类分析,实 际上是矩阵X的N列数据之间相似性对比;同理, p个变量之间的相似性的R型分析,是矩阵X的p行 之间的比较。
p
j 1
式中:i、k=1,2,…,N(i≠k)为彼此比 较的两样品,N为样品总数;p为变量数;xji、xjk 分别为第j变量在第i及第k样品的观测值。除以p 是为了消除变量个数不同的影响。dik越小,两样 品越相似,即 X矩阵中第i列与第k列对应的元素 越接近。
用距离系数时,如果变量之间相关性大 时,相关性越大,dik越不可靠。因此,若 变量不独立时,进行Q型聚类前可先进行R 型因子分析,把变量变为互不相关的新变 量(用因子得分去代替原始变量),再求 距离系数—主因子距离系数。
系统聚类:基本思想是:先将要归类的n个样品(或者变量) 各自看成一类,共有n类;然后按照事先规定好的方法计 算分类统计量,即某种距离或某种相似系数,将关系最密 切的两类并为一类,其余不变,即得n-1类;又按前面使 用的计算新类与其它类的距离或者相似系数,又将关系最 密切的两类并成一类,其余不变,即得n-2类;如此进行 下去,每次重复都减少一类,直到最后所有样品(或者变 量)归为一类为止。 动态聚类:当样品(或者变量)数量相当大时,该方法要求 计算机要有足够大的内存和运算速度,这就给应用上带来 不便,针对这种情况,又发展了动态聚类方法。动态聚类 并不是将每一个样品和另外所有样品逐一加以对比,而是 将其与各批样品的重心相比而进行分类。所以大大简化了 运算步骤,更适合于样品数量很大的分类问题。
相关文档
最新文档