聚类分析问题研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

=
⎜⎛ 0.6 ⎜ 0.4 ⎜⎝ 0.1
0.5⎟⎞ 1⎟ 0.9 ⎟⎠

R
o
S
=
⎜⎜⎝⎛
(0.2 (0.7 ∧
∧ 0.6) 0.6) ∨
∨ (0.5 ∧ 0.4) (0.1 ∧ 0.4) ∨
∨ (1 (0.8
∧ ∧
0.1) 0.1)
(0.2 (0.7 ∧
∧ 0.5) 0.5) ∨
∨ (0.5 ∧ (0.1 ∧1)
xi′j
=
xij − x j ,
σj
i = 1, 2, …, n,j = 1, 2, …, p
式中
∑ x j
=
1 n
n i =1
xij, σ
j
=
这里 j = 1, 2, …, p。
∑ 1
n −1
n i =1
( xij

xj
)2
(2) 极大极小标准化
设给定的样本集为 X = (xij)n×p,标准化之后 的样本集为 X = (x′ij)n×p,则
用于计算样本相似性的方法通常有如下几 种:
(1) 相关系数法
p
∑| xik − xi | ⋅ | x jk − x j |
rij =
k =1 p
p
∑ ∑ (xik − xi )2 ⋅
(xik − x j )2
k =1
k =1
其中
∑ ∑ xi
=
1 p
p k =1
xik,
xj
=
1 p
p k =1
x jk
矩阵步骤。
按照绝对值减数法建立模糊相似关系,取 c = 0.1,得模糊相似矩阵
⎜⎛ 1 0.1 0.8 0.5 0.3⎟⎞
⎜ 0.1 1 0.1 0.2 0.4⎟
R
=
⎜ ⎜
0.8
0.1
1 0.3 0.1⎟⎟
⎜ 0.5 0.2 0.3 1 0.6⎟
⎜⎝ 0.3 0.4 0.1 0.6 1⎟⎠
用平方法求传递闭包,以便将模糊相似矩
⎜⎛ 1 r12 L r1n ⎟⎞
R
=
⎜ ⎜ ⎜⎜⎝
r21 M rn1
1 M rn 2
L L L
r2n M 1
⎟⎟, ⎟⎟⎠
其中 rij = rji ∈[0, 1]
其中:
rij = 0 表示样本 xi 与 xj 之间毫不相似 rij = 1 表示样本 xi 与 xj 之间完全相似 rii ≡ 1 表示样本 xi 自身完全相似
1. 模糊等价矩阵聚类法
模糊等价矩阵聚类方法的主要思想,就是 从计算各个样本之间的相似性统计量出发,建 立样本集 X 上的模糊相似矩阵;通过改造模糊 相似矩阵为模糊等价矩阵,达到对样本集 X 进 行模糊聚类的目的。
(1) 模糊矩阵合成运算
设 R = (rij)m×t, S = (sij)t×n, T = (tij)m×n, 并且 rij, sij, tij∈[0, 1]。若
在 Matlab 软件的 Fuzzy 工具箱中,给出了 FCM 算法函数:fcm。其调用格式为
1) ∨
∨ (1 (0.8
∧ ∧
0.9) 0.9)
⎟⎟⎠⎞
=
⎜⎜⎝⎛
0.4 0.6
0.9 0.8
⎟⎟⎠⎞
(2) 基于模糊等价矩阵的聚类算法
设待分类的样本集为 X = {x1, x2, …, xn},其 相应的特性指标矩阵为
⎜⎛ x11 x12 L x1p ⎟⎞
X
= ( xij )n×p
=
⎜ ⎜
⎜⎜⎝
x21 M xn1
x22 M xn 2
L L L
x2 p ⎟
M xnp
⎟ ⎟⎟⎠
1° 选择适当的相似性统计量,构造样本集 上的模糊相似矩阵
⎜⎛ 1 r12 L r1n ⎟⎞
R
=
⎜ ⎜ ⎜⎜⎝
r21 M rn1
1 M rn 2
L L L
r2n M 1
⎟⎟, ⎟⎟⎠
其中 rij = rji ∈[0, 1]
聚类分析
一、聚类分析概述
聚类分析(Cluster Analysis)就是将一个没有 类别标记的样本集按照某种准则划分成若干个 子集(类),使相似的样本尽可能归为一类,而 不相似的样本尽可能划分到不同的类中。
由于在对样本集进行聚类的过程中,没有 任何关于类别的先验知识,所以聚类分析属于 无监督分类的范畴。
3. 样本之间的相似性度量
设待分类的样本集为 X = {x1, x2, …, xn} 或者 X = (xij)n×p,并已经标准化或者不需要标准化。
如果能够计算出衡量样本 xi 与 xj 之间相似 程度的相似性统计量 rij,使得
0 ≤ rij ≤ 1,i, j = 1, 2, …, n 那么,我们就可以在样本集 X 上建立描述样本 之间相似关系的相似矩阵:
阵改造成模糊等价矩阵,我们有:
⎜⎛ 1 0.1 0.8 0.5 0.3⎟⎞
⎜⎛ 1 0.3 0.8 0.5 0.5⎟⎞
⎜ 0.1 1 0.1 0.2 0.4⎟
⎜ 0.3 1 0.3 0.4 0.4⎟
R
=
⎜ ⎜
0.8
0.1
1
0.3
0.1⎟⎟
R2
=
⎜ ⎜
0.8
0.2
1 0.5 0.3⎟⎟
⎜ 0.5 0.2 0.3 1 0.6⎟
=
⎜ ⎜
0.8
0.4
1
0.5
0.5
⎟ ⎟
R8
=
⎜ ⎜
0.8
0.4
1 0.5 0.5⎟⎟
⎜ 0.5 0.4 0.5 1 0.6⎟
⎜ 0.5 0.4 0.5 1 0.6⎟
⎜ ⎝
0.5
0.4
0.5
0.6
1⎟⎠
⎜⎝ 0.5 0.4 0.5 0.6 1⎟⎠
= R4
于是,传递闭包 t(R) = R4 就是所求的模糊 等价矩阵。根据得到的模糊等价矩阵 t(R),利 用不同水平下的截矩阵得到各个水平下的聚类 结果。
设待分类的样本集为 X = {x1, x2, …, xn},其 相应的特性指标矩阵为
⎜⎛ x11 x12 L x1p ⎟⎞
X
= ( xij )n×p
=
⎜ ⎜
⎜⎜⎝
x21 M xn1
x22 M xn 2
L L L
x2 p ⎟
M xnp
⎟ ⎟⎟⎠
FCM 算法就是将样本集 X 划分成 c 个模糊 群组,并且在每个模糊群组中寻找一个聚类中 心,使得一个基于距离测度的目标函数最小化。 它兼顾了类之间的交迭,允许对象对所有的类 有部分归属。
∨t
tij = k=1(rik ∧ skj )
则称 T 为 R 与 S 的合成,记为 T = R°S。 若 R 是方阵,即 R = (rij)n×n, rij∈[0, 1],则规
定 R2 = R°R
例 设 R∈M2×3,S∈M3×2,其中
R
=
⎜⎜⎝⎛
0.2 0.7
0.5 0.1
01.8⎟⎟⎠⎞, S
聚类分析包括很多种方法,通常分为两大 类:传统聚类方法和模糊聚类方法。
传统聚类方法还包括多种具体算法,如系 统聚类法,有序样品聚类法,动态聚类法,图 论聚类法、聚类预报法,K 均值聚类法等。
模糊聚类方法主要有两种具体算法:模糊 等价矩阵聚类法,模糊 C 均值聚类法。
二、模糊聚类算法简介
模糊聚类算法主要有两种:模糊等价矩阵 聚类法,模糊 C 均值聚类法。
注:所谓 λ 截矩阵,就是将其大于等于λ 的 元素取为 1,将小于 λ 的元素取为 0。
例 对于某样本集的特性指标矩阵
⎜⎛ 5 5 3 2⎟⎞ ⎜2 3 4 5⎟
X
=
⎜ ⎜
5
5
2
3
⎟ ⎟
⎜1 5 3 1⎟
⎜⎝ 2 4 5 1⎟⎠
由于数据不存在量纲和数量级的差异,故
不需进行数据标准化,直接进入构造模糊相似
所以,为了消除特性指标单位的差别和数 量级不同的影响,当特性指标的量纲和数量级 相差较大时,通常事先对各种指标值实施数据 标准化(规格化),从而使得各个指标值都统一 于某种共同的数值特性范围。我们称之为数据 预处理。
常用的数据标准化方法有两种: • 均值方差标准化 • 极大极小标准化。
(1) 均值方差标准化 设给定的样本集为 X = (xij)n×p,标准化之后 的样本集为 X = (x′ij)n×p,则
k =1 p
∑ max(xik , x jk )
k =1
(6) 算术平均最小法
p
∑ min(xik , x jk )
∑ rij
=
k =1
1 2
p k =1
( xik
+ x jk )
(7) 几何平均最小法
p
∑ min(xik , x jk )
rij
=
k =1 p
∑ xik ⋅ x jk
k =1
4. 聚类分析方法
2° 按照模糊矩阵合成运算,将模糊相似矩 阵改造为模糊等价矩阵。
通过“平方法”依次计算 R, R2, R4, R8, … 当第一次出现 (Rk)2 = Rk 时,Rk 就是一个模糊等 价矩阵,称为 R 的传递闭包,记为 t(R)。
3° 对于指定的水平值 λ,求 t(R) 的 λ 截矩
阵,从而得到该水平下的聚类结果。
(2) 指数相似系数法
p − 4⋅( xik − x jk )2
13
S k2
r = ∑ e ij
p k =1
其中 Sk 是第 k 个特征的标准差:
∑ ∑ Sk2
=
1
p
(
n −1 k=1
xik

xk )2 ,xk Nhomakorabea=
1 n
n i=1
xik
(3) 夹角余弦法
p
∑ xik ⋅ x jk
rij =
k =1 p
⎜ ⎜
0.8
0.4
1
0.5
0.5⎟⎟

⎜ ⎜
1
0
1
0
0⎟⎟
⎜ 0.5 0.4 0.5 1 0.6⎟ ⎜0 0 0 1 1⎟
⎜⎝ 0.5 0.4 0.5 0.6 1⎟⎠ ⎜⎝0 0 0 1 1⎟⎠
因此,X 分为一类:{I, III}, {IV, V}, {II}。
2. 模糊 C 均值(FCM)聚类算法
其中 xij 表示第 i 个样本的第 j 个特性指标。
于是,n 个样本的特性指标矩阵为
⎜⎛ x11 x12 L x1p ⎟⎞
⎜ x21 x22 L x2 p ⎟
⎜ ⎜⎜⎝
M xn1
M xn2
L L
M xnp
⎟ ⎟⎟⎠
通常,我们也将样本集记为特性指标矩阵 的形式,即 X = (xij)n×p。
如果 p 个特性指标的量纲和数量级都不相 同,在运算过程中就可能会因为突出某些数量 级特别大的特性指标对分类的作用,而降低甚 至排除某些数量级很小的特性指标的作用,致 使对各特性指标的分类缺乏一个统一的尺度。
⎜ 0.5 0.4 0.5 1 0.6⎟
⎜⎝ 0.3 0.4 0.1 0.6 1⎟⎠
⎜⎝ 0.5 0.4 0.3 0.6 1⎟⎠
⎜⎛ 1 0.4 0.8 0.5 0.5⎟⎞
⎜⎛ 1 0.4 0.8 0.5 0.5⎟⎞
⎜ 0.4 1 0.4 0.4 0.4⎟
⎜ 0.4 1 0.4 0.4 0.4⎟
R4
∑ x2ik ⋅ x2 jk
k =1
(4) 数量积法
∑ rij
= ⎪⎨⎧1,1 ⎪⎩ M
p
xik ⋅ x jk ,
k =1
i= j i≠ j
∑ 其中
M
为一适当选取的正数:M

⎧p max⎨ ⎩ i, j k =1
xik
⋅ x jk
⎫ ⎬ ⎭
(5) 最大最小法
p
∑ min(xik , x jk )
rij =
xi′j
=
xij − x j min x j max − x j min
这里 i = 1, 2, …, n,j = 1, 2, …, p,并且
x j min = m1≤ii≤nn{xij },x jmax = m1≤ia≤xn {xij}, j = 1, 2, …, p
显然,实施数据标准化之后,每个指标值 均在区间 [0, 1] 中。
2. 数据的预处理
在聚类分析中,我们称待分类的对象为样 本。要对样本进行合理的分类,首先应考虑样 本的各种特性指标(观测数据)。设有 n 个被分 类对象,即样本集为
X = {x1, x2, …, xn}
每一个 xi 有 p 个特性指标,即 xi 可表示为 特性指标向量
xi = (xi1, xi2, …, xip)
⎜⎝ 0.5 0.4 0.5 0.6 1⎟⎠ ⎜⎝1 1 1 1 1⎟⎠
因此,X 分为一类:{I, II, III, IV, V}。
再如:当 λ = 0.6 时, t(R) 的 λ 截矩阵为
⎜⎛ 1 0.4 0.8 0.5 0.5⎟⎞ ⎜⎛ 1 0 1 0 0⎟⎞
⎜0.4 1 0.4 0.4 0.4⎟ ⎜0 1 0 0 0⎟
聚类分析是一种探索性的分析,它从样本 数据出发,自动进行分类。
因此,聚类分析所使用方法的不同,常常 会得到不同的结论。不同研究者对于同一组数 据进行聚类分析,所得到的聚类数未必一致。
1. 聚类分析的基本思想
聚类分析的基本依据就是“物以类聚”的 思想。
一般认为:待聚类的样本之间存在着程度 不同的相似性。我们可以根据一批样本的多个 观测指标,找出能够度量样本之间相似程度的 统计量。并以此为依据,将所有的样品或变量 分别聚合到不同的类中,使同一类中的个体有 较大的相似性,不同类中的个体差异较大。
例如:当 λ = 0.4 时, t(R) 的 λ 截矩阵为
⎜⎛ 1 0.4 0.8 0.5 0.5⎟⎞ ⎜⎛1 1 1 1 1⎟⎞
⎜0.4 1 0.4 0.4 0.4⎟ ⎜1 1 1 1 1⎟
⎜ ⎜
0.8
0.4
1 0.5 0.5⎟⎟ ⇒ ⎜⎜1 1 1 1 1⎟⎟
⎜ 0.5 0.4 0.5 1 0.6⎟ ⎜1 1 1 1 1⎟
相关文档
最新文档