模糊聚类分析与模式识别v1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
r
(λ ) ij
⎧ ⎪1 , rij ≥ λ =⎨ ⎪ ⎩ 0 , rij < λ
22
⎛ 1 ⎜ ⎜ 0.63 R = ⎜ 0.62 ⎜ ⎜ 0.63 ⎜ 0.53 ⎝
0.63 0.62 0.63 0.53 ⎞ ⎟ 1 0.62 0.70 0.53 ⎟ 0.62 1 0.62 0.53 ⎟ ⎟ 0.70 0.62 1 0.53 ⎟ 0.53 0.53 0.53 1 ⎟ ⎠
11
矢量或点: Xj=(xj1 xj2 … xjm) Xi=(xi1 xi2 … xim) 1.相似系数法 (1)数量积法
⎧1 ⎪ rij = ⎨ 1 ⎪M ⎩
i=j
∑x
i =1
m
ik
m
⋅ x jk
i≠j
i , j=1,2,…,n
其中 M = max ( ∑ x ik ⋅ x jk )
i≠ j k =1
rij = 2∑ ( xik ∧ x jk ) / ∑ ( xik + x jk )
k =1 k =1 m m
(i, j = 1,2,
, n)
x1 = (0.1 0.2 0.3) x2 = (0.1 0.2 0.3)
2∑(xik ∧ x jk ) = 2(0.1+ 0.2 + 0.3) =1.2
m
∑(x
m
ik
− xi | | xjk − xj |
2
∑(x
k =1
m
ik
− xi )
m
∑(x
k =1
m
jk
− xj )
m
2
1 其中 x i = m
∑
k =1
1 x ik , x j = m
∑x
k =1
jk
.
14
(4)最大最小法
rij = ∑ ( xik ∧ x jk ) / ∑ ( xik ∨ x jk )
定理:设 R 是 n 阶模糊相似矩阵,则存在一
k 个最小的自然数 k ( k ≤ n) , 使得 R 为模糊等价矩
阵,且对一切大于 k 的自然数 l ,恒有 R l = R k .
R k 称为 R 的传递闭包矩阵,记为 t ( R ).
25
例:设有模糊相似矩阵
0.1 0.2 ⎞ ⎛1 ⎜ ⎟ R = ⎜ 0.1 1 0.3 ⎟ ⎜ 0.2 0.3 1 ⎟ ⎝ ⎠
3
世界就必须区别不同的事物并认识事物间的相似性。
聚类分析的基本概念
• 聚类分析是多元统计分析的一种, 它把一个没有类别 标记的样本集按某种准则划分成若干个子集(类), 使 相似的样本尽可能归为一类, 而不相似的样本尽量划 分到不同的类中。 • 传统的聚类分析是一种硬划分, 它把每个待辨识的对 象严格地划分到某类中, 具有非此即彼的性质, 因此 这种类别划分的界限是分明的。而实际上大多数对 象并没有严格的属性, 它们在性态和类属方面存在着 中介性, 具有亦此亦彼的性质,因此适合进行软划分。
n
20
式中“○”表示矩阵的合成运算,类似矩阵乘法运 算,但要将元素的相乘改为求最小值、相加改为求 最大值。例如:
⎡1 2⎤ ⎡1 2 3⎤ ⎢ ⎡14 28⎤ ⎥ ⎢2 3 4⎥ ⋅ ⎢2 4⎥ = ⎢28 56⎥ ⎣ ⎦ ⎢3 6⎥ ⎣ ⎦ ⎣ ⎦
⎡1 2⎤ ⎡1 2 3⎤ ⎢ ⎡3 3⎤ ⎥ ⎢2 3 4⎥ ⋅ ⎢2 4⎥ = ⎢3 4⎥ ⎣ ⎦ ⎢3 6⎥ ⎣ ⎦ ⎣ ⎦
k =1 k =1 m m
(i, j = 1,2,
, n)
符号 ∧和∨分别表示两个元素取小和取大。 例如:
15
x1 = (0.1 0.2 0.3) x2 = (0.4 0.5 0.6)
∑(x ∑(x
k =1 m k =1 m
m
ik
∧ xjk ) = 0.1+ 0.2 + 0.3 = 0.6 ∨ xjk ) = 0.4 + 0.5 + 0.6 =1.5 r12 = 0.6 / 1.5 = 0.4
1≤i ≤ n 1≤ i ≤ n
(3)极差标准化
xij − xi ′ = xij max{ xij } − min{ xij } xij ′ = xij Mj
(4)最大值规格化
其中: M j = max( x1 j , x2 j ,
, xnj )
10
由上可知,对原始数据正规化处理以后,变量最 大值为1,最小值为0,即新数据在区间[0,1]内。 二、模糊相似矩阵 模糊相似矩阵是进行模糊聚类的基础。下面介 绍建立模糊相似矩阵的常用方法。
6
步骤的模糊分类,有下述的主要方法:模糊传递闭包法、
§1 模糊聚类分析
模糊聚类分析是在模糊相似矩阵的基础上,对 分类对象进行定量分类的方法。 主要内容 数据标准化 建立模糊相似矩阵 动态聚类
7
一、数据标准化
1、建立数据矩阵
设论域U = { x1 , x2 ,
, xn }为被分类对象, , n)
每个对象又由 m 个指标表示其性状:
X = { x1 , x2 , x3 , x4 , x5 }按污染情况进行分类。设每个区
域包含空气、水分、土壤、作物 4 个要素,环境区域 的污染情况由污染物在 4 个要素中的含量超过的程度 来衡量。设这 5 个环境区域的污染数据为: x1 = (80,10,6,2), x2 = (50,1,6,4), x3 = (90,6,4,6),
m
α
①Hamming距离 ②Euclid距离 ③Chebyshev距离
d ( xi , x j ) = ∑ xik − x jk
k =1
d ( xi , x j ) =
2 ( x − x ) ∑ ik jk k =1
m
d ( xi , x j ) = max xik − x jk
1≤ k ≤ n
19
(1)模糊传递闭包法 步骤: ①求出模糊相似矩阵 R 的传递闭包 t ( R ) ;
②按 λ 由大到小进行聚类; ③画出动态聚类图。
24
定义:设 R = ( rij )n×n 是 n 阶模糊方阵, I 是 n 阶 单位方阵,若 R 满足 (1) 自反性: I ≤ R ; (2) 对称性: RT = R ; 则称 R 为模糊相似矩阵。
ik
x1 = (0.1 0.2 0.3) x2 = (0.1 0.2 0.3)
∑(x ∑(x
k =1 k =1 m
ik
∧ xjk ) = 0.1+ 0.2 + 0.3 = 0.6 ∨ xjk ) = 0.1+ 0.2 + 0.3 = 0.6 r12 = 0.6 / 0.6 = 1.0
16
ik
(5)算术平均最小法
矩阵乘法运算 矩阵乘法运算
矩阵 矩阵○ ○运算 运算
21
相似性度量的相关、相似系数矩阵满足自反性和 对称性,但不一定满足传递性。 对于传递性,可先计算R○R(记作R2),然后看其是否 满足传递性。若不满足,经过R○R=R2, R2○R2=R4 …运 算,可将R改造成满足传递性的模糊等价矩阵。 2.模糊等价矩阵的λ截矩阵 设R=[rij]n×n是模糊等价矩阵,对任意λ∈[0,1],称 Rλ=[rij(λ)]n×n为R=[rij]n×n的λ截矩阵,其中:
0.2 0.2 ⎞ ⎛1 ⎟ ⎜ R R = ⎜ 0.2 1 0.3 ⎟ = R 2 ⎜ 0.2 0.3 1 ⎟ ⎝ ⎠ R
2
0.2 0.2 ⎞ ⎛1 ⎜ ⎟ 2 2 0.3 ⎟ = R = t ( R ). R = ⎜ 0.2 1 ⎜ 0.2 0.3 1 ⎟ ⎝ ⎠
26
例:考虑某环保部门对该地区 5 个环境区域
别、图像处理、信道均衡、矢量量化编码、神经网络 的训练、参数估计、医学诊断、天气预报、食品分类、 水质分析等。
5
聚类分析的基本概念
• 常用的模糊聚类分析方法大致可分为两大类:其一是 基于模糊关系(矩阵)的聚类分析方法, 而作为其中核心 直接聚类法、最大树法和编网法; 其二是基于目标函 数的聚类分析方法 , 称为模糊 C 均值 (FCM) 聚类算法 ( 或 称 为 模 糊 ISODATA 聚 类 分 析 法 ) (Iterative SelfOrganizing Data Analysis Techniques Algorithm 迭代自 组织数据分析) 。
xi = { xi 1 , xi 2 ,…, xim } ( i = 1,2,
则得到原始数据矩阵为 X = ( xij )n×m .
Байду номын сангаас
在实际问题中,不同的数据一般有不同 的量纲, 为了使有不同量纲的量能进行比较, 需要将数据规格化,常用的方法有:
8
(1)标准差标准化
对于第 i 个变量进行标准化,就是将 xij 换成
4
聚类分析的基本概念
• 模糊集理论的提出为软划分提供了有力的分析工具, 用 模糊数学的方法来处理聚类问题, 被称之为模糊聚类分 析。由于模糊聚类得到了样本属于各个类别的不确定 性程度, 表达了样本类属的中介性, 更能客观地反映现 实世界, 从而成为聚类分析研究的主流。 • 模糊聚类已经在诸多领域获得了广泛的应用, 如模式识
x4 = (40,5,7,3), x5 = (10,1,2,4).
试对 X 进行分类。
27
解:由题设知特性指标矩阵为
将R中≥0.7的元素改为1,其它元素改为0
⎛1 ⎜ ⎜0 = ⎜0 ⎜ ⎜0 ⎜0 ⎝ 0 0 0 0⎞ ⎟ 1 0 1 0⎟ 0 1 0 0⎟ ⎟ 1 0 1 0⎟ 0 0 0 1⎟ ⎠
23
R0.7
为R矩阵的λ截矩阵(λ≥0.7)
3.分类 由模糊等价矩阵的λ截矩阵可知,当rij=1时,i与j应 为同类,否则为异类。 让λ由大到小变化,可形成动态聚类图。
模糊聚类分析与模式识别
1
前言
模糊数学是用数学方法研究和处理具有“模糊性” 现象的数学。所谓的模糊性主要是指客观事物差异 的中间过渡界线的“不分明性”。如储层的含油气性、 油田规模的大小,成油地质条件的优劣,圈闭的形 态,岩石的颜色等。这些模糊变量的描述或定义是 模糊的,各变量的内部分级没有明显的界线。 1965年美国控制论专家 L.A.Zadeh 提出这一概 念后,模糊数学得到迅速发展并应用到各个领域。
显然|rij|∈[0,1] ,若rij<0, 令rij’=(rij+1)/2,则rij’∈[0,1]。
12
相似系数法 ----(2)夹角余弦法
rij =
∑x
k =1 m k =1 2 ik
m
ik
x jk
m 2 jk
∑x ∑x
k =1
13
相似系数法 ----(3)相关系数法
rij =
∑| x
k =1
三、聚类 1.模糊等价矩阵 给定U上的一个模糊关系Rij=[rij]n×n, 若它满足: (1)自反性(rii=1 ); (2)对称性(rij=rji ); (3)传递性( R R ⊆ R ); 则称R是U上的一个模糊等价矩阵。
( rik ∧ rkj ) ≤ rij , i, j = 1, 2, , n. 传递性 k∨ =1
k =1
k =1 m
ik
+ x jk ) = 0.2 + 0.4 + 0.6 =1.2 r12 = 1.2 / 1.2 = 1.0
17
(6)几何平均最小法
rij = ∑ ( xik ∧ x jk ) / ∑ xik ⋅ x jk
k =1 k =1 m m
(i, j = 1,2,
, n)
x1 = (0.1 0.2 0.3) x2 = (0.1 0.2 0.3)
∑(x
k =1 m
m
ik
∧ xjk ) = 0.1+ 0.2 + 0.3 = 0.6
∑
k =1
xik ⋅ xjk = 0.1+ 0.2 + 0.3 = 0.6 r12 = 0.6 / 0.6 = 1.0
上述(4)、(5)、(6)三种方法要求xij≥0,否则,要进 行适当变换。
18
2 距离法
一般地,取 rij = 1 − c(d ( xi , x j )) ,其中 c ,α 为 适当选取的参数,它使得 0 ≤ rij ≤ 1.采用的距离有:
2
聚类分析的基本概念
• “ 聚类 ” 就是按照一定的要求和规律对事物进行区分 和分类的过程, 在这一过程中没有任何关于分类的先 验知识 , 仅靠事物间的相似性作为类属划分的准则, 属于无监督分类的范畴。 • “ 聚类分析 ” 是指用数学的方法研究和处理给定对象 的分类。 • “人以群分, 物以类聚”, 聚类是一个古老的问题,它伴 随着人类社会的产生和发展而不断深化, 人类要认识
′ ,即 xij
′ = xij xij − x j Sj (1 ≤ j ≤ m)
1 n 1 n 2 ( ) . x j = ∑ xij , S j = x − x ∑ ij j 式中: n i =1 n i =1
9
(2)极差正规化
x 'ij =
xij − min{xij }
1≤i ≤ n
max{xij } − min{xij }
(λ ) ij
⎧ ⎪1 , rij ≥ λ =⎨ ⎪ ⎩ 0 , rij < λ
22
⎛ 1 ⎜ ⎜ 0.63 R = ⎜ 0.62 ⎜ ⎜ 0.63 ⎜ 0.53 ⎝
0.63 0.62 0.63 0.53 ⎞ ⎟ 1 0.62 0.70 0.53 ⎟ 0.62 1 0.62 0.53 ⎟ ⎟ 0.70 0.62 1 0.53 ⎟ 0.53 0.53 0.53 1 ⎟ ⎠
11
矢量或点: Xj=(xj1 xj2 … xjm) Xi=(xi1 xi2 … xim) 1.相似系数法 (1)数量积法
⎧1 ⎪ rij = ⎨ 1 ⎪M ⎩
i=j
∑x
i =1
m
ik
m
⋅ x jk
i≠j
i , j=1,2,…,n
其中 M = max ( ∑ x ik ⋅ x jk )
i≠ j k =1
rij = 2∑ ( xik ∧ x jk ) / ∑ ( xik + x jk )
k =1 k =1 m m
(i, j = 1,2,
, n)
x1 = (0.1 0.2 0.3) x2 = (0.1 0.2 0.3)
2∑(xik ∧ x jk ) = 2(0.1+ 0.2 + 0.3) =1.2
m
∑(x
m
ik
− xi | | xjk − xj |
2
∑(x
k =1
m
ik
− xi )
m
∑(x
k =1
m
jk
− xj )
m
2
1 其中 x i = m
∑
k =1
1 x ik , x j = m
∑x
k =1
jk
.
14
(4)最大最小法
rij = ∑ ( xik ∧ x jk ) / ∑ ( xik ∨ x jk )
定理:设 R 是 n 阶模糊相似矩阵,则存在一
k 个最小的自然数 k ( k ≤ n) , 使得 R 为模糊等价矩
阵,且对一切大于 k 的自然数 l ,恒有 R l = R k .
R k 称为 R 的传递闭包矩阵,记为 t ( R ).
25
例:设有模糊相似矩阵
0.1 0.2 ⎞ ⎛1 ⎜ ⎟ R = ⎜ 0.1 1 0.3 ⎟ ⎜ 0.2 0.3 1 ⎟ ⎝ ⎠
3
世界就必须区别不同的事物并认识事物间的相似性。
聚类分析的基本概念
• 聚类分析是多元统计分析的一种, 它把一个没有类别 标记的样本集按某种准则划分成若干个子集(类), 使 相似的样本尽可能归为一类, 而不相似的样本尽量划 分到不同的类中。 • 传统的聚类分析是一种硬划分, 它把每个待辨识的对 象严格地划分到某类中, 具有非此即彼的性质, 因此 这种类别划分的界限是分明的。而实际上大多数对 象并没有严格的属性, 它们在性态和类属方面存在着 中介性, 具有亦此亦彼的性质,因此适合进行软划分。
n
20
式中“○”表示矩阵的合成运算,类似矩阵乘法运 算,但要将元素的相乘改为求最小值、相加改为求 最大值。例如:
⎡1 2⎤ ⎡1 2 3⎤ ⎢ ⎡14 28⎤ ⎥ ⎢2 3 4⎥ ⋅ ⎢2 4⎥ = ⎢28 56⎥ ⎣ ⎦ ⎢3 6⎥ ⎣ ⎦ ⎣ ⎦
⎡1 2⎤ ⎡1 2 3⎤ ⎢ ⎡3 3⎤ ⎥ ⎢2 3 4⎥ ⋅ ⎢2 4⎥ = ⎢3 4⎥ ⎣ ⎦ ⎢3 6⎥ ⎣ ⎦ ⎣ ⎦
k =1 k =1 m m
(i, j = 1,2,
, n)
符号 ∧和∨分别表示两个元素取小和取大。 例如:
15
x1 = (0.1 0.2 0.3) x2 = (0.4 0.5 0.6)
∑(x ∑(x
k =1 m k =1 m
m
ik
∧ xjk ) = 0.1+ 0.2 + 0.3 = 0.6 ∨ xjk ) = 0.4 + 0.5 + 0.6 =1.5 r12 = 0.6 / 1.5 = 0.4
1≤i ≤ n 1≤ i ≤ n
(3)极差标准化
xij − xi ′ = xij max{ xij } − min{ xij } xij ′ = xij Mj
(4)最大值规格化
其中: M j = max( x1 j , x2 j ,
, xnj )
10
由上可知,对原始数据正规化处理以后,变量最 大值为1,最小值为0,即新数据在区间[0,1]内。 二、模糊相似矩阵 模糊相似矩阵是进行模糊聚类的基础。下面介 绍建立模糊相似矩阵的常用方法。
6
步骤的模糊分类,有下述的主要方法:模糊传递闭包法、
§1 模糊聚类分析
模糊聚类分析是在模糊相似矩阵的基础上,对 分类对象进行定量分类的方法。 主要内容 数据标准化 建立模糊相似矩阵 动态聚类
7
一、数据标准化
1、建立数据矩阵
设论域U = { x1 , x2 ,
, xn }为被分类对象, , n)
每个对象又由 m 个指标表示其性状:
X = { x1 , x2 , x3 , x4 , x5 }按污染情况进行分类。设每个区
域包含空气、水分、土壤、作物 4 个要素,环境区域 的污染情况由污染物在 4 个要素中的含量超过的程度 来衡量。设这 5 个环境区域的污染数据为: x1 = (80,10,6,2), x2 = (50,1,6,4), x3 = (90,6,4,6),
m
α
①Hamming距离 ②Euclid距离 ③Chebyshev距离
d ( xi , x j ) = ∑ xik − x jk
k =1
d ( xi , x j ) =
2 ( x − x ) ∑ ik jk k =1
m
d ( xi , x j ) = max xik − x jk
1≤ k ≤ n
19
(1)模糊传递闭包法 步骤: ①求出模糊相似矩阵 R 的传递闭包 t ( R ) ;
②按 λ 由大到小进行聚类; ③画出动态聚类图。
24
定义:设 R = ( rij )n×n 是 n 阶模糊方阵, I 是 n 阶 单位方阵,若 R 满足 (1) 自反性: I ≤ R ; (2) 对称性: RT = R ; 则称 R 为模糊相似矩阵。
ik
x1 = (0.1 0.2 0.3) x2 = (0.1 0.2 0.3)
∑(x ∑(x
k =1 k =1 m
ik
∧ xjk ) = 0.1+ 0.2 + 0.3 = 0.6 ∨ xjk ) = 0.1+ 0.2 + 0.3 = 0.6 r12 = 0.6 / 0.6 = 1.0
16
ik
(5)算术平均最小法
矩阵乘法运算 矩阵乘法运算
矩阵 矩阵○ ○运算 运算
21
相似性度量的相关、相似系数矩阵满足自反性和 对称性,但不一定满足传递性。 对于传递性,可先计算R○R(记作R2),然后看其是否 满足传递性。若不满足,经过R○R=R2, R2○R2=R4 …运 算,可将R改造成满足传递性的模糊等价矩阵。 2.模糊等价矩阵的λ截矩阵 设R=[rij]n×n是模糊等价矩阵,对任意λ∈[0,1],称 Rλ=[rij(λ)]n×n为R=[rij]n×n的λ截矩阵,其中:
0.2 0.2 ⎞ ⎛1 ⎟ ⎜ R R = ⎜ 0.2 1 0.3 ⎟ = R 2 ⎜ 0.2 0.3 1 ⎟ ⎝ ⎠ R
2
0.2 0.2 ⎞ ⎛1 ⎜ ⎟ 2 2 0.3 ⎟ = R = t ( R ). R = ⎜ 0.2 1 ⎜ 0.2 0.3 1 ⎟ ⎝ ⎠
26
例:考虑某环保部门对该地区 5 个环境区域
别、图像处理、信道均衡、矢量量化编码、神经网络 的训练、参数估计、医学诊断、天气预报、食品分类、 水质分析等。
5
聚类分析的基本概念
• 常用的模糊聚类分析方法大致可分为两大类:其一是 基于模糊关系(矩阵)的聚类分析方法, 而作为其中核心 直接聚类法、最大树法和编网法; 其二是基于目标函 数的聚类分析方法 , 称为模糊 C 均值 (FCM) 聚类算法 ( 或 称 为 模 糊 ISODATA 聚 类 分 析 法 ) (Iterative SelfOrganizing Data Analysis Techniques Algorithm 迭代自 组织数据分析) 。
xi = { xi 1 , xi 2 ,…, xim } ( i = 1,2,
则得到原始数据矩阵为 X = ( xij )n×m .
Байду номын сангаас
在实际问题中,不同的数据一般有不同 的量纲, 为了使有不同量纲的量能进行比较, 需要将数据规格化,常用的方法有:
8
(1)标准差标准化
对于第 i 个变量进行标准化,就是将 xij 换成
4
聚类分析的基本概念
• 模糊集理论的提出为软划分提供了有力的分析工具, 用 模糊数学的方法来处理聚类问题, 被称之为模糊聚类分 析。由于模糊聚类得到了样本属于各个类别的不确定 性程度, 表达了样本类属的中介性, 更能客观地反映现 实世界, 从而成为聚类分析研究的主流。 • 模糊聚类已经在诸多领域获得了广泛的应用, 如模式识
x4 = (40,5,7,3), x5 = (10,1,2,4).
试对 X 进行分类。
27
解:由题设知特性指标矩阵为
将R中≥0.7的元素改为1,其它元素改为0
⎛1 ⎜ ⎜0 = ⎜0 ⎜ ⎜0 ⎜0 ⎝ 0 0 0 0⎞ ⎟ 1 0 1 0⎟ 0 1 0 0⎟ ⎟ 1 0 1 0⎟ 0 0 0 1⎟ ⎠
23
R0.7
为R矩阵的λ截矩阵(λ≥0.7)
3.分类 由模糊等价矩阵的λ截矩阵可知,当rij=1时,i与j应 为同类,否则为异类。 让λ由大到小变化,可形成动态聚类图。
模糊聚类分析与模式识别
1
前言
模糊数学是用数学方法研究和处理具有“模糊性” 现象的数学。所谓的模糊性主要是指客观事物差异 的中间过渡界线的“不分明性”。如储层的含油气性、 油田规模的大小,成油地质条件的优劣,圈闭的形 态,岩石的颜色等。这些模糊变量的描述或定义是 模糊的,各变量的内部分级没有明显的界线。 1965年美国控制论专家 L.A.Zadeh 提出这一概 念后,模糊数学得到迅速发展并应用到各个领域。
显然|rij|∈[0,1] ,若rij<0, 令rij’=(rij+1)/2,则rij’∈[0,1]。
12
相似系数法 ----(2)夹角余弦法
rij =
∑x
k =1 m k =1 2 ik
m
ik
x jk
m 2 jk
∑x ∑x
k =1
13
相似系数法 ----(3)相关系数法
rij =
∑| x
k =1
三、聚类 1.模糊等价矩阵 给定U上的一个模糊关系Rij=[rij]n×n, 若它满足: (1)自反性(rii=1 ); (2)对称性(rij=rji ); (3)传递性( R R ⊆ R ); 则称R是U上的一个模糊等价矩阵。
( rik ∧ rkj ) ≤ rij , i, j = 1, 2, , n. 传递性 k∨ =1
k =1
k =1 m
ik
+ x jk ) = 0.2 + 0.4 + 0.6 =1.2 r12 = 1.2 / 1.2 = 1.0
17
(6)几何平均最小法
rij = ∑ ( xik ∧ x jk ) / ∑ xik ⋅ x jk
k =1 k =1 m m
(i, j = 1,2,
, n)
x1 = (0.1 0.2 0.3) x2 = (0.1 0.2 0.3)
∑(x
k =1 m
m
ik
∧ xjk ) = 0.1+ 0.2 + 0.3 = 0.6
∑
k =1
xik ⋅ xjk = 0.1+ 0.2 + 0.3 = 0.6 r12 = 0.6 / 0.6 = 1.0
上述(4)、(5)、(6)三种方法要求xij≥0,否则,要进 行适当变换。
18
2 距离法
一般地,取 rij = 1 − c(d ( xi , x j )) ,其中 c ,α 为 适当选取的参数,它使得 0 ≤ rij ≤ 1.采用的距离有:
2
聚类分析的基本概念
• “ 聚类 ” 就是按照一定的要求和规律对事物进行区分 和分类的过程, 在这一过程中没有任何关于分类的先 验知识 , 仅靠事物间的相似性作为类属划分的准则, 属于无监督分类的范畴。 • “ 聚类分析 ” 是指用数学的方法研究和处理给定对象 的分类。 • “人以群分, 物以类聚”, 聚类是一个古老的问题,它伴 随着人类社会的产生和发展而不断深化, 人类要认识
′ ,即 xij
′ = xij xij − x j Sj (1 ≤ j ≤ m)
1 n 1 n 2 ( ) . x j = ∑ xij , S j = x − x ∑ ij j 式中: n i =1 n i =1
9
(2)极差正规化
x 'ij =
xij − min{xij }
1≤i ≤ n
max{xij } − min{xij }