模式识别-聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
xi p , x j p
2016/9/6
19
1 故 d ( yi , y j ) ( yi y j ) 'Vy ( yi y j ) 1 ( Axi Ax j ) 'Vy ( Axi Ax j ) 1 ( xi x j ) ' A 'Vy A( xi x j ) 1 ( xi x j ) ' A '( AVx A ') A( xi x j ) { ( AB) 1 1 1 ( xi x j ) ' A ' A ' Vx A A( xi x j ) 1 ( xi x j ) 'Vx ( xi x j ) 2 d x ( xi , x j )
称S对于阈值h组成一类
定义3:集合S中
Xi
1 d ij h , k (k 1) x j S x j S
Xj ,
的距离 d ij 有
d ij r
X i S ,存在某 X j S 使距离:
其中h,r为给定的阈值,称S对于阈值h和r组成一类 定义4:集合S中元素对于任一
k
和
l
Dkl max [d ij ] 之间的最近距离为: i, j
式中 d ij 表示
X i k 和 X j l
之间的距离
如果 l 是由 p 和 q 两类合并而成的,则有
Dkl max [ Dkp , Dkq ]
三、中间距离法:
l
2 Dkl
1 2 1 2 1 2 Dkp Dkq D pq 2 2 4
基本内容
聚类算法
特征量的类型
物理量:直接反映特征的实际物理意义 如:长度、重量、速度等。处理前需要离散化。 次序量:按某种规则确定的只反映特征的次序关系或等级 如:产品的等级、病症的级或期。已是离散量。
名义量:非数值的特征数值化标识, 如男性与女性、事物的状态、种类等。需要数值化。这些特 征的数值指标既无数量含义,也无次序关系,只是用数字代 表各种状态。
1 m Vy ( yi y )( yi y ) ' m 1 i 1 1 m ( Axi Ax )( Axi Ax ) ' m 1 i 1 1 m A( xi x )( xi x ) ' A ' m 1 i 1 1 m A[ ( xi x )( xi x ) '] A ' AVx A ' m 1 i 1
2016/9/6
22
匹配测度
设
x (x1,x 2 , x n )',y (y1,y 2 , y n )' 为二值特征
1. Tanimoto测度:
s(x ,y ) a x 'y a b c x 'x y 'y x 'y
a a b c e
2. Rao测度:
2016/9/6
16
距离测度
设
x (x1,x 2 , x n )',y (y1,y 2 , y n )'
n d ( x, y) || x y || [ ( xi yi ) 2 ]1/ 2 i 1
1. 欧氏(Euclidean)距离:
2. 绝对值距离(街区距离,Manhattan距离):
,则它与 l 的距离是:
' n p 2 nq 2 n p nq 2 D (X k Xl ) (X k Xl ) Dkp Dkq 2 D pq nl nl nl
五、平均距离
两类p和q间的距离平方定义为这两类元素两两之间的
平均平方距离,即
1 D pq n p nq
2016/9/6
y (0, 0,1,1, 0,1) '
则 x ' x 3, y ' y 3, x ' y 1
24
24
聚类分析
2.2 模式的相似性测度
没有哪个测度是最好的
选择时,可考虑以下几点
1,简单而易于理解
2,易于实现 3,满足速度要求
4,考虑数据的知识
类的定义与类间距离
(2)
(3) (4)
(5)
x'y 1 1 Tanimoto测度 s( x , y ) x ' x y ' y x ' y 3 3 1 5 x'y 1 s( x , y ) Rao测度 n 6 a e 11 1 简单匹配测度 m( x , y ) n 6 3 2x ' y 2 1 m( x , y ) Dice系数 x 'x y' y 33 3 x'y 1 m( x , y ) Kulzinsky系数 x ' x y ' y 2x ' y 4
2016/9/6
10
方法的有效性 本质上 模式特征点在特征空间中的分布情况,同 类的模式特征点密集,不同类的相距较远
技术上
取决于分类算法和特征点分布情况的 匹配
1,特征选取不当使分类无效
2,特征选取不足可能使不同类别的模式判为一类 3,特征选取过多可能有害无益,增加分析负担
4,量纲选取不当
x2 2 1 x1
1. 角度相似系数:
2. 相关系数:
( x x )'( y y ) r ( x, y) [(x x )'( x x )( y y )'( y y )]1/ 2
3. 指数相似系数:
1 n 3 ( xi yi ) 2 e( x, y) exp[ ] 2 n i 1 4 i
x2
来自百度文库1
2 3 (b) 特征选取不足 x1
(a) 特征选取不当
2016/9/6
12
量纲不同对聚类的影响
2016/9/6 13
聚类准则对聚类结果的影响
羊,狗,猫, 鲨鱼
蜥蜴,蛇, 麻雀,海鸥, 金鱼,青蛙 金鱼, 鲨鱼
羊,狗,猫,蜥 蜴,蛇,麻雀, 海鸥,青蛙
(a)繁衍后代的方式
羊 ,狗,猫, 蜥蜴,蛇,麻 雀,海鸥,
类的定义 模式的特征矢量作为集合中的元素 定义1:集合S中任两个元素
Xi
Xj ,
的距离 d ij 有 d ij h 的距离 d ij 有:
其中h为给定的阈值,称S对于阈值h组成一类 定义2:集合S中任一个元素
1 d ij h k 1 x j S
Xi
与
Xj
k为集合S中元素的个数, h为给定的阈值,
s(x ,y ) x 'y n
3. 简单匹配系数:
a e m(x ,y ) n
2a 2x 'y 2a b c x 'x y 'y
23
4. Dice系数:
m(x ,y )
2016/9/6
5. Kulzinsky系数
例
(1)
设 x (0,1, 0,1,1, 0) '
类间距离
一、最近距离法: 两个聚类
k
和
l
Dkl min[d i , j ] 之间的最近距离为: i, j
式中 d ij 表示
和 X j l X i k
之间的距离
如果 l 是由 p 和 q 两类合并而成的,则有
Dkl min[ Dkp , Dkq ]
二、最远距离法: 两个聚类
0 1 0.9 N , 0 0.9 1
从而马氏距离
dM
2
1 0.2 2 1 1 d M ( B, M ) 1 1 3.8 ( A, M ) 1 1 0.19 0.19 1 1
设n维矢量 xi , x j 是矢量集 {x1 , x2 ,, xm } 中的两
d ( xi , x j ) ( xi x j )'V 1 ( xi x j ) 1 m V ( xi x )(xi x )' m 1 i 1 1 m x xi m i 1
17
5. Camberra距离:
n | xi yi | d ( x, y) i 1 | xi yi |
该距离能克服量纲的影响, 但不能克服分量间的相关性。
( xi , yi 0, xi yi 0)
5. 马氏(Mahalanobis)距离: 个矢量
1
它们之比达
19 倍。若用欧氏距离,则算得的距离值相同:
2 dE ( B, M ) 2
21
2 dE ( A, M ) 2
2016/9/6
21
相似性测度
设
x (x1,x 2 , x n )',y (y1,y 2 , y n )'
x' y cos(x , y ) || x || || y ||
华中科技大学图像识别与人工智能研究所
2016/9/6
1
聚类分析
2.1 聚类分析的概念 一、聚类分析的基本思想 根据各个待分类的模式特征相似程度进行分类,相似的归为 一类,不相似的归为另一类。 模式相似性度量
基本内容
聚类算法
聚类分析的概念
聚类分析的基本思想
根据各个待分类的模式特征相似程度进行分类,相似的归为 一类,不相似的归为另一类。 模式相似性度量
性质:对一切非奇异线性变换都是不变的。 即,具有坐标系比例、旋转、平移不变性, 并且从统计意义上尽量去掉了分量间的相关性。
马氏距离具有线性变换不变性 y Ax 证明:设,有非奇异线性变换:
n 1 n 1 n 1 则 y yi Axi A xi Ax m i 1 m i 1 m i 1
2 y
2016/9/6
1
B1 A1}
20
例
已知一个二维正态母体G的分布为
1 求点 A : 和 B : 1
1 0 至均值点 M : 的距离。 1 0 0.9 1 0.9 1 1 1 解:由题设,可得 0.9 1 0.9 1 0.19
n d ( x , y ) | xi yi | i 1
3. 切氏(Chebyshev)距离:
d ( x, y) max | xi yi |
i
4. 明氏(Minkowski)距离:
2016/9/6
n d ( x , y ) [ ( xi yi ) m ]1/ m i 1
d ij h 称S对于阈值h组成一类
定义5:若将集合S任意分成两类S1,S2,这两类的距离D(S1,S2)
满足 D(S1 , S 2 ) h ,称S对于阈值h组成一类
2.3 类的定义与类间距离
2.3.1 类的定义
类的划分具有人为规定性,这反映在定义的选取及参 数的选择上。
一个分类结果的优劣最后只能根据实际来评价,因此 较多地利用研究对象的知识才能选择适当的类的定义, 从而使分类结果更符合实际。
(c) 生存环境
2016/9/6
金鱼, 鲨鱼 青蛙
(b) 肺的存在 蜥蜴,蛇, 金鱼 麻雀,海 鸥,青蛙 羊,狗, 鲨鱼 猫,
(d)繁衍后代的方式和是否存在肺
14
14
距离测度对聚类结果的影响
数据的粗聚类是2类,细聚类为4类
2016/9/6 15
模式相似性测度
距离测度 相似测度 匹配测度
p
p
D pq
q
q
Dkl
Dkp k Dkq
k
四、重心距离法: 设 p 和 q 的重心分别为
np
Xp
和
Xq
,它们分别有样本
l
和 nq 个,将 p 和 q 合并为 l ,则
l
有 nl
n p nq
X 个样本,则它的重心为:
设另一类
2 kl
k
的重心为
Xk
1 ( n p X p nq X q ) n p nq
xi p , x j p
2016/9/6
19
1 故 d ( yi , y j ) ( yi y j ) 'Vy ( yi y j ) 1 ( Axi Ax j ) 'Vy ( Axi Ax j ) 1 ( xi x j ) ' A 'Vy A( xi x j ) 1 ( xi x j ) ' A '( AVx A ') A( xi x j ) { ( AB) 1 1 1 ( xi x j ) ' A ' A ' Vx A A( xi x j ) 1 ( xi x j ) 'Vx ( xi x j ) 2 d x ( xi , x j )
称S对于阈值h组成一类
定义3:集合S中
Xi
1 d ij h , k (k 1) x j S x j S
Xj ,
的距离 d ij 有
d ij r
X i S ,存在某 X j S 使距离:
其中h,r为给定的阈值,称S对于阈值h和r组成一类 定义4:集合S中元素对于任一
k
和
l
Dkl max [d ij ] 之间的最近距离为: i, j
式中 d ij 表示
X i k 和 X j l
之间的距离
如果 l 是由 p 和 q 两类合并而成的,则有
Dkl max [ Dkp , Dkq ]
三、中间距离法:
l
2 Dkl
1 2 1 2 1 2 Dkp Dkq D pq 2 2 4
基本内容
聚类算法
特征量的类型
物理量:直接反映特征的实际物理意义 如:长度、重量、速度等。处理前需要离散化。 次序量:按某种规则确定的只反映特征的次序关系或等级 如:产品的等级、病症的级或期。已是离散量。
名义量:非数值的特征数值化标识, 如男性与女性、事物的状态、种类等。需要数值化。这些特 征的数值指标既无数量含义,也无次序关系,只是用数字代 表各种状态。
1 m Vy ( yi y )( yi y ) ' m 1 i 1 1 m ( Axi Ax )( Axi Ax ) ' m 1 i 1 1 m A( xi x )( xi x ) ' A ' m 1 i 1 1 m A[ ( xi x )( xi x ) '] A ' AVx A ' m 1 i 1
2016/9/6
22
匹配测度
设
x (x1,x 2 , x n )',y (y1,y 2 , y n )' 为二值特征
1. Tanimoto测度:
s(x ,y ) a x 'y a b c x 'x y 'y x 'y
a a b c e
2. Rao测度:
2016/9/6
16
距离测度
设
x (x1,x 2 , x n )',y (y1,y 2 , y n )'
n d ( x, y) || x y || [ ( xi yi ) 2 ]1/ 2 i 1
1. 欧氏(Euclidean)距离:
2. 绝对值距离(街区距离,Manhattan距离):
,则它与 l 的距离是:
' n p 2 nq 2 n p nq 2 D (X k Xl ) (X k Xl ) Dkp Dkq 2 D pq nl nl nl
五、平均距离
两类p和q间的距离平方定义为这两类元素两两之间的
平均平方距离,即
1 D pq n p nq
2016/9/6
y (0, 0,1,1, 0,1) '
则 x ' x 3, y ' y 3, x ' y 1
24
24
聚类分析
2.2 模式的相似性测度
没有哪个测度是最好的
选择时,可考虑以下几点
1,简单而易于理解
2,易于实现 3,满足速度要求
4,考虑数据的知识
类的定义与类间距离
(2)
(3) (4)
(5)
x'y 1 1 Tanimoto测度 s( x , y ) x ' x y ' y x ' y 3 3 1 5 x'y 1 s( x , y ) Rao测度 n 6 a e 11 1 简单匹配测度 m( x , y ) n 6 3 2x ' y 2 1 m( x , y ) Dice系数 x 'x y' y 33 3 x'y 1 m( x , y ) Kulzinsky系数 x ' x y ' y 2x ' y 4
2016/9/6
10
方法的有效性 本质上 模式特征点在特征空间中的分布情况,同 类的模式特征点密集,不同类的相距较远
技术上
取决于分类算法和特征点分布情况的 匹配
1,特征选取不当使分类无效
2,特征选取不足可能使不同类别的模式判为一类 3,特征选取过多可能有害无益,增加分析负担
4,量纲选取不当
x2 2 1 x1
1. 角度相似系数:
2. 相关系数:
( x x )'( y y ) r ( x, y) [(x x )'( x x )( y y )'( y y )]1/ 2
3. 指数相似系数:
1 n 3 ( xi yi ) 2 e( x, y) exp[ ] 2 n i 1 4 i
x2
来自百度文库1
2 3 (b) 特征选取不足 x1
(a) 特征选取不当
2016/9/6
12
量纲不同对聚类的影响
2016/9/6 13
聚类准则对聚类结果的影响
羊,狗,猫, 鲨鱼
蜥蜴,蛇, 麻雀,海鸥, 金鱼,青蛙 金鱼, 鲨鱼
羊,狗,猫,蜥 蜴,蛇,麻雀, 海鸥,青蛙
(a)繁衍后代的方式
羊 ,狗,猫, 蜥蜴,蛇,麻 雀,海鸥,
类的定义 模式的特征矢量作为集合中的元素 定义1:集合S中任两个元素
Xi
Xj ,
的距离 d ij 有 d ij h 的距离 d ij 有:
其中h为给定的阈值,称S对于阈值h组成一类 定义2:集合S中任一个元素
1 d ij h k 1 x j S
Xi
与
Xj
k为集合S中元素的个数, h为给定的阈值,
s(x ,y ) x 'y n
3. 简单匹配系数:
a e m(x ,y ) n
2a 2x 'y 2a b c x 'x y 'y
23
4. Dice系数:
m(x ,y )
2016/9/6
5. Kulzinsky系数
例
(1)
设 x (0,1, 0,1,1, 0) '
类间距离
一、最近距离法: 两个聚类
k
和
l
Dkl min[d i , j ] 之间的最近距离为: i, j
式中 d ij 表示
和 X j l X i k
之间的距离
如果 l 是由 p 和 q 两类合并而成的,则有
Dkl min[ Dkp , Dkq ]
二、最远距离法: 两个聚类
0 1 0.9 N , 0 0.9 1
从而马氏距离
dM
2
1 0.2 2 1 1 d M ( B, M ) 1 1 3.8 ( A, M ) 1 1 0.19 0.19 1 1
设n维矢量 xi , x j 是矢量集 {x1 , x2 ,, xm } 中的两
d ( xi , x j ) ( xi x j )'V 1 ( xi x j ) 1 m V ( xi x )(xi x )' m 1 i 1 1 m x xi m i 1
17
5. Camberra距离:
n | xi yi | d ( x, y) i 1 | xi yi |
该距离能克服量纲的影响, 但不能克服分量间的相关性。
( xi , yi 0, xi yi 0)
5. 马氏(Mahalanobis)距离: 个矢量
1
它们之比达
19 倍。若用欧氏距离,则算得的距离值相同:
2 dE ( B, M ) 2
21
2 dE ( A, M ) 2
2016/9/6
21
相似性测度
设
x (x1,x 2 , x n )',y (y1,y 2 , y n )'
x' y cos(x , y ) || x || || y ||
华中科技大学图像识别与人工智能研究所
2016/9/6
1
聚类分析
2.1 聚类分析的概念 一、聚类分析的基本思想 根据各个待分类的模式特征相似程度进行分类,相似的归为 一类,不相似的归为另一类。 模式相似性度量
基本内容
聚类算法
聚类分析的概念
聚类分析的基本思想
根据各个待分类的模式特征相似程度进行分类,相似的归为 一类,不相似的归为另一类。 模式相似性度量
性质:对一切非奇异线性变换都是不变的。 即,具有坐标系比例、旋转、平移不变性, 并且从统计意义上尽量去掉了分量间的相关性。
马氏距离具有线性变换不变性 y Ax 证明:设,有非奇异线性变换:
n 1 n 1 n 1 则 y yi Axi A xi Ax m i 1 m i 1 m i 1
2 y
2016/9/6
1
B1 A1}
20
例
已知一个二维正态母体G的分布为
1 求点 A : 和 B : 1
1 0 至均值点 M : 的距离。 1 0 0.9 1 0.9 1 1 1 解:由题设,可得 0.9 1 0.9 1 0.19
n d ( x , y ) | xi yi | i 1
3. 切氏(Chebyshev)距离:
d ( x, y) max | xi yi |
i
4. 明氏(Minkowski)距离:
2016/9/6
n d ( x , y ) [ ( xi yi ) m ]1/ m i 1
d ij h 称S对于阈值h组成一类
定义5:若将集合S任意分成两类S1,S2,这两类的距离D(S1,S2)
满足 D(S1 , S 2 ) h ,称S对于阈值h组成一类
2.3 类的定义与类间距离
2.3.1 类的定义
类的划分具有人为规定性,这反映在定义的选取及参 数的选择上。
一个分类结果的优劣最后只能根据实际来评价,因此 较多地利用研究对象的知识才能选择适当的类的定义, 从而使分类结果更符合实际。
(c) 生存环境
2016/9/6
金鱼, 鲨鱼 青蛙
(b) 肺的存在 蜥蜴,蛇, 金鱼 麻雀,海 鸥,青蛙 羊,狗, 鲨鱼 猫,
(d)繁衍后代的方式和是否存在肺
14
14
距离测度对聚类结果的影响
数据的粗聚类是2类,细聚类为4类
2016/9/6 15
模式相似性测度
距离测度 相似测度 匹配测度
p
p
D pq
q
q
Dkl
Dkp k Dkq
k
四、重心距离法: 设 p 和 q 的重心分别为
np
Xp
和
Xq
,它们分别有样本
l
和 nq 个,将 p 和 q 合并为 l ,则
l
有 nl
n p nq
X 个样本,则它的重心为:
设另一类
2 kl
k
的重心为
Xk
1 ( n p X p nq X q ) n p nq