遥感影像识别-第三章 聚类分析 Part Ⅰ
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中的样本个数 n j , X j 中的样本两两组 n ( n 1) 合共有 2 种。 || x x || 表示所有样本之间距离之和。 Pj 为 w j 类的先验概率 ,可以用样本数目 n j 和样本总数目n来估计。
j
j j
X
'
2
x X
j
x X
j
Pj
nj n
j 1,2,....,c
j 1 c
式中, m j 为
w j类型的样本均值向量:
1 mj nj
x
j 1
nj
j
j 1,2,...c
m为全部样本的均值向量:
1 n m xk n k 1
Pj 为
w j类型的先验概率,可以用
nj n
来估计
。
对于两类问题 w1 / w2,类间距离常用下试计算。
Jb (m1 m2 ) (m1 m2 )
1
2
n
1
2
c
c
J c || xk m j ||2
j 1 k 1
c
nj
式中
m j为类型
w j 中样本的均值: m j 1 nj
x
j 1
nj
j
j 1,2,....,c
m j是 c 个集合的中心,可以用来代表 c 个类型
。
是样本和集合中心的函数。在样本集X给定 J c 的取值取决于c个集合中心。 的情况下, J n 个试验样本聚合成 c 个类型时,所产生的 描述 J 总误差平方和。 越小越好。
(2)马氏(Mahalanobis)距离
定义:马氏距离的平方
2 ( x )T 1 ( x )
马氏距离排除了不同特征之间相关性的影响, 其关键在于协方差矩阵的计算。当∑为对角阵时 ,各特征之间才完全独立;当∑为单位矩阵时, 马氏距离等于欧氏距离。 马氏距离 比较适用于对样本已有初步分类的 情况,做进一步考核、修正。
从上图看出,(b)、(c)特征空间划分是不同的。 (b)中 x1 , x2 为一类,x3 , x4 为另一类,(c) 中 x1, x3 为一类,x2 , x4 为另一类。
欧氏距离具有旋转不变的特性,但对于一般的线性变换 不是不变的,此时要对数据进行标准化(欧氏距离使用 时,注意量纲,量纲不同聚类结果不同,克服这一缺点 ,要使特征数据标准化使之与量纲无关)。 另外,使用欧氏距离度量时,还要注意模式样本测量值 的选取,应该是有效反映类别属性特征(各类属性的代 表应均衡)。但马氏距离可解决不均衡(一个多,一个 少)的问题。 例如,取5个样本,其中有4个反映对分类有意义的特征 A,只有1个对分类有意义的特征B,欧氏距离的计算结 果,则主要体现特征A。
Jc
c
c
最小方差划分:寻找 J c 最小的聚类结果,也就 是在误差平方和准则下的最优结果。
误差平方和准则适用于各类样本比较密集且样 本数目悬殊不大的样本分布。例如:
上图的样本分布,共有3个类型,各个类型的样本数目 相差不多( 10 个左右)。类内较密集,误差平方和很 小,类别之间距离远。
注意:如果不同类型的样本数目相差很大,采 用误差平方和准则,有可能把样本数目多的类 型分开,以便达到总的 J c 最小。
如下图所示:
2. 加权平均平方距离和准则
定义:加权平均平方距离和准则
J l Pj S * j
j 1
* S 式中: j 是类内样本间平均平方距离。
c
2 ' 2 S || x x || n j (n j 1) xX j xX j
* j
即所有的样本之间距离的平均值。
§ 3-2 聚类准则函数
在样本相似性度量的基础上,聚类分析还需要 一定的准则函数,才能把真正属于同一类的样 本聚合成一个类型的子集,而把不同类的样本 分离开来。 如果聚类准则函数选得好,聚类质量就会高。 同时,聚类准则函数还可以用来评价一种聚类 结果的质量,如果聚类质量不满足要求,就要 重复执行聚类过程,以优化结果。 在重复优化中,可以改变相似性度量,也可以 选用新的聚类准则。
s
d 的选择问题。 s
若 d 选择过大,则全部样本被视作一个唯一类 型;若 选取过小,则可能造成每个样本都单 d 独构成一个类型。
s
必须正确选择门限值以保证正确分类。 另外,模式特征坐标单位的选取也会强烈地影 响聚类结果。
例如:一个二维模式,一个特征是长度,另一 个特征是压力。
当长度由厘米变为米,在 De ( x, y) 中长度特征的比重会下 降,同样,若把比重单位由毫米汞柱高度变成厘米汞柱 高度,De ( x, y) 值中压力特征的影响也会下降。 可以用图表示上述情况:
(1)欧氏距离
欧氏距离简称距离,模式样本向量 x 与 y 之间的 欧氏距离定义为:
De ( x, y) || x y || | xi yi |2 i 1 这里, d为特征空间的维数。
d
当 较小时,表示x和y在一个类型区域, 反之,则不在一个类型区域。 De ( x, y)
这里有一个门限
课后思考
线性判别函数的适用性? 聚类分析的优缺点?
ERDAS image Model 工具如何实现聚类?
谢
谢!
1 n n nn nn T T J b' 1 2 (m1T m2 )m1 1 2 (m1T m2 )m2 1 2 [(m1 m2 )T (m1 m2 )] P 1P 2 Jb n n n n
类间距离和准则描述不同类型之间的分离程度 ,所以 J b 的值越大,表示各类之间分离性好, 聚类质量高。
① 若模式样本的第i维特征取值为1,则该样本占有 第i维特征。 ② 若模式样本的第i维特征取值为0,则该样本无此 维特征。
此时, xT y 等于x与y两个向量中,共有的特征数目。
|| x || || y || ( xT x)( y T y )
为x占有的特征数目与y占有的特征数目的几何平均。
聚类分析的关键问题:如何在聚类过程中自动地确定类型 数目c。 实际工作中,也可以给定c值作为算法终止的条件。 聚类分析的结果与特征的选取有很大的关系。不同的特征 ,分类的结果不同。 因此,如何衡量样本相似性,对聚类有直接影响。
1. 距离相似性度量
一个模式样本,对应特征空间里的一个点。如 果模式的特征是适当选择的,也就是各维特征 对于分类来说都是有效的,那么同类样本就会 密集地分布在一个区域里,不同类的模式样本 就会远离。 因此,点间距离远近反映了相应模式样本所属 类型有无差异,可以作为样本相似性度量。距 离越近,相似性越大,属于一个类型。 聚类分析中,最常用的就是距离相似性。
2. 角度相似性度量
样本 x 与 y 之间的角度相似性度量定义为它们之 间夹角的余弦,即:
xT y S ( x, y) cos || x || || y || 也是单位向量之间的点积(内积)。 越大,x、y越相似。常用于情报检索、植 S ( x, y ) 物分类、疾病分类。
因此:
1 c Jl n j SΒιβλιοθήκη Baidu* j n j 1
♂
J l 越小,样本类内越密集。
3. 类间距离和准则
类间距离和可用于描述聚类结果的类间距离分 布状态。它定义为:
J b (m j m)T (m j m)
j 1 c
加权类间距离和:
J b Pj (m j m)T (m j m)
S ( x, 满足: y)
①
S ( x, y) S ( y, x)
② 当 x y 时, S ( x, y ) 达到最大。
对于坐标系的旋转及放大、缩小是不变的 量,但对位移和一般性的线性变换不是不变的 。
S ( x, y )
当模式的各特征仅为(0,1)二元取值时, S ( x, y ) 的意 义如下:
遥感影像识别
第三章: 聚类分析
Part Ⅰ
主要内容
§ 3-1 § 3-2 § 3-3 § 3-4 相似性准则 聚类准则函数 两种简单的聚类算法 动态聚类算法
上一章针对确定性的模式分类方法进行了讨论 ,所谓确定性的模式是指:如果试验对象和测 量条件相同,所有的测量具有重复性,即在多 次的测量中,它们的结果不变,这样获得的模 式,简称确定性的模式。 与之相对应的,测量结果是随机的,这样的模 式称为随机模式。随机模式可以采用基于 Bayes 理论的分类方法进行分类,其前提是各类别总 体的概率分布已知,要决策的分类的类别数一 定。 对于确定性的模式,如果类别已知(训练样本 属性也已知),则可以通过上一章介绍的方法 进行分类。
聚类分析符合“物以类聚,人以群分“的原则, 它把相似性大的样本聚集为一个类型,在特征空间 里占据着一个局部区域。每个局部区域都形成一个 聚合中心,聚合中心代表相应类型。如上图中,(a) 有一个聚合中心,(b)、(c)有两个。
聚类分析避免了估计类概率密度的困难,对每个 聚合中心来说都是局部密度极大值位置,其附近密 度高,距离越远密度越小。因此,聚类分析方法与 估计密度函数的方法还是一致的,只是采用了不同 的技术途径。
T
' b
两类问题的加权类间距离和:
1 2 1 T J n j (m j m)T (m j m) (n1 m1T m1 n1 mT m1 n2 m2 m2 n2 mT m2 n j 1 n
将 n m n1 m1 n2 m 代入上式,有: 2
因此,二元取值情况下, 反映x与y共有的特征数目的 S ( x, y ) 相似性度量。 显然, 越大,共有特征数目越多,相似性越高。
S ( x, y )
除上述相似性度量外,还有许多相似性度量,如 “样本与核的相似性度量”,“近邻函数值相等 ”相似性度量,这些都是为解决某一特殊问题的 相似性度量,都是从上述相似性度量派生出来的 。 样本相似性度量是聚类分析的基础,针对具体问 题,选择适当的相似性度量是保证聚类质量的重 要问题。但有了相似性度量还不够,还必须有适 当的聚类准则函数。聚类准则函数对聚类质量也 有重大影响。 ♂相似性度量 → 集合与集合的相似性。 ♂相似性准则 → 分类效果好坏的评价准则。
1. 误差平方和准则(最常用的)
x} 假定有混合样本 X {x , x ,......,,采用某种相似性度量 , X 被聚合成 c 个分离开的子集,每个子集是一 n 个类型,它们分别包含 n , n ,......, 个样本。 为了衡量聚类的质量,采用误差平方和 J 聚类 准则函数,定义为:
当预先不知道类型数目,或者用参数估计和非 参数估计难以确定不同类型的类概率密度函数 时,为了确定分类器的性能,可以利用聚类分 析的方法。 聚类分析无训练过程,训练与识别混合在一起 。
§ 3-1 相似性准则
xn} 设有样本集 X {x1, x2 ,...., ,要求按某种相似性把 X 分类,怎样实现?
利用参数估计或非参数估计的方法,在混合密 度的局部极大值区域对应着一个类型,但是这 个方法需要大量的样本。况且,有时混合训练 样本集X的数据结构具有相同的统计特征,它们 都包含着不同数目的类型。 如下图所示,表示具有相同的试验平均值和样 本协方差矩阵的三个数据集。
在上述图中, (a) 具有一个类型, (b) 、(c) 各有两个 类型。此时,无论是参数估计,还是非参数估计, 都无法取得合理的结果,必须采用聚类分析的方法 进行分类。
其中, 为均值向量, 为协方差矩阵。
(3)明氏(Minkowsky)距离
定义:明氏距离:
d D ( x, y ) | xi yi | i 1
1
0
它是若干距离函数的通式: 时,等于欧氏距离; 2 时,称为“街坊”(city block)距离。 1