模糊聚类分析方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二节 模糊聚类分析方法
在科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。
一、模糊聚类分析的一般步骤
1、第一步:数据标准化[9]
(1) 数据矩阵
设论域12{,,,}n U x x x =为被分类对象,每个对象又有m 个指标表示其性状,
即
12{,,
,}i i i im x x x x = (1,2,
,)i n =,
于是,得到原始数据矩阵为
11
121212221
2
m m n n nm x x x x x x x x x ⎛⎫ ⎪ ⎪
⎪ ⎪⎝⎭
。 其中nm x 表示第n 个分类对象的第m 个指标的原始数据。
(2) 数据标准化
在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间[0,1]上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。通常有以下几种变换: ① 平移·标准差变换
ik k
ik
k
x x x s -'= (1,2,,;1,2,,)i n k m ==
其中 11n k ik i x x n ==∑,
k s = 经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但
是,再用得到的ik
x '还不一定在区间[0,1]上。 ② 平移·极差变换
111min{}max{}min{}ik
ik i n
ik
ik
ik i n
i n
x x x x x ≤≤≤≤≤≤''-''=''-,(1,2,,)k m =
显然有01ik
x ''≤≤,而且也消除了量纲的影响。 ③ 对数变换
lg ik
ik x x '= (1,2,,;1,2,,)i n k m ==
取对数以缩小变量间的数量级。
2、第二步:标定(建立模糊相似矩阵)
设论域12{,,
,}n U x x x =,12{,,
,}i i i im x x x x =,依照传统聚类方法确定相似
系数,建立模糊相似矩阵,i x 与j x 的相似程度(,)ij i j r R x x =。确定(,)ij i j r R x x =的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。
(1) 相似系数法
① 夹角余弦法
21
m
ik
jk
ij m
ik
jk
k x
x r x
==
∑∑。
② 最大最小法
11()
()
m
ik
jk k ij m
ik
jk k x x r x
x ==∧=
∨∑∑。
③ 算术平均最小法
112()
()
m
ik jk k ij m
ik
jk k x x r x
x ==∧=
+∑∑。
④ 几何平均最小法
12()
m
ik jk k ij m
ik jk
k x x r x ==∧=
∑。
以上3种方法中要求0ij x >,否则也要做适当变换。 ⑤ 数量积法
1
1,
,
1
,,
m ij ik jk k i j r x x i j M ==⎧⎪
=⎨≠⎪⎩
∑,
其中 1
max()m
ik jk i j
k M x x ≠==∑。 ⑥ 相关系数法
2
1
(m
ik
i jk j
ij m
jk
k x
x x x r x
=--=
-∑∑
其中 11m i ik k x x m ==∑,1
1m
j jk k x x m ==∑。
⑦ 指数相似系数法
22
1()
13exp[]4m ik jk ij k k
x x r m s =-=-∑, 其中 211()n
k ik ik i s x x n ==-∑,
而 1
1n
k ik i x x n ==∑ (1,2,
,)k m =。
(2) 距离法
① 直接距离法
1(,)ij i j r cd x x =-,
其中c 为适当选取的参数,使得01ij r ≤≤,(,)i j d x x 表示他们之间的距离。经常用的距离有 ● 海明距离
1(,)m
i j ik jk k d x x x x ==-∑。
● 欧几里得距离
(,)i j d x x =
● 切比雪夫距离
1(,)m
i j ik jk k d x x x x ==∨-。
② 倒数距离法
1,,,,
(,)
ij i j i j M r i j d x x =⎧⎪
=⎨≠⎪⎩
。
其中M 为适当选取的参数,使得01ij r ≤≤。 ③ 指数距离法
exp[(,)]ij i j r d x x =-。
3、第三步:聚类(求动态聚类图)
(1)基于模糊等价矩阵聚类方法
① 传递闭包法
根据标定所得的模糊矩阵R 还要将其改造称模糊等价矩阵*R 。用二次方法求R 的传递闭包,即()t R =*R 。再让λ由大变小,就可形成动态聚类图。 ② 布尔矩阵法[10]
布尔矩阵法的理论依据是下面的定理: 定理2.2.1 设R 是12{,,
,}n U x x x =上的一个相似的布尔矩阵,则R 具有传
递性(当R 是等价布尔矩阵时)⇔矩阵R 在任一排列下的矩阵都没有形如