模式识别-聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
12
马氏距离具有线性变换不变性 y 证明:设,有非奇异线性变换: Ax
1 n 1 n 1 n 则 y yi Axi A xi Ax m i 1 m i 1 m i 1
1 m Vy ( yi y )( yi y ) ' m 1 i 1 1 m ( Axi Ax )( Axi Ax ) ' m 1 i 1 1 m A( xi x )( xi x ) ' A ' m 1 i 1 1 m A[ ( xi x )( xi x ) '] A ' AVx A ' m 1 i 1
《模式识别》 第二章 聚类分析
余莉
2.1 聚类的基本概念
2.1.1聚类分析的基本思想
Clustering Analysis
据相似程度分类
无监督分类(Unsupervised)
x 2 似圆度
x1
2
2.1 聚类的基本概念 2.1.2 特征量的类型 物理量:直接反映特征的实际物理意义
如:长度、重量、速度等。处理前需要离散化。
a x'y m( x , y ) b c x ' x y ' y 2x ' y
2 d E ( A, M ) 2
由分布函数知,A、B两点的概率密度分别为
p(1, 1) 0.2157
p(1, 1) 0.00001658
16
2.2.2 相 似 测 度
• 重点考虑两矢量的方向是否相近,而忽略矢量长度。
(1) 角度相似系数(夹角余弦) 矢量之间的相似性可用它们的夹角余弦来度量 x'y x'y cos( x , y ) 1/ 2 x y [( x ' x )( y ' y )] (2) 相关系数 数据中心化后的矢量夹角余弦 ( x x ) '( y y ) r ( x , y ) 1/ 2 [( x x ) '( x x )( y y ) '( y y )] 性质:相关系数具有坐标系平移、旋转、比例不变性。
20
(三) 匹 配 测 度
令 a xi yi
b yi (1 xi ) c xi (1 yi ) e (1 xi )(1 yi )
i i i i
(1-1)匹配的特征数目 (0-1)匹配的特征数目 (1-0)匹配的特征数目
(0-0)匹配的特征数目
(1) Tanimoto测度
x 和 y 的距离为 d ( x , y ) 设特征矢量 则 d ( x , y ) 一般应满足如下公理
(1) d ( x, y) 0, 当且仅当x y 时等号成立,即d ( x, y)=0 x y
(2) d ( x , y )=d ( y, x ) (3) d ( x , y ) d ( x , z ) d ( z , y )
(triangular inequality)
9
(一)距离测度(差值测度) 设 x ( x1 , x2 ,, xn ) ' ,y ( y1 , y2 , , yn ) ' ⑴ 欧氏(Euclidean)距离 n d ( x , y ) x y [ ( xi yi )2 ]1/ 2
从而马氏距离
dM
2
1 0.2 2 1 1 d M ( B, M ) 1 1 3.8 ( A, M ) 1 1 0.19 0.19 1 1
1
它们之比达
19 倍。若用欧氏距离,则算得的距离值相同:
2 d E ( B, M ) 2
6
2.1 聚类的基本概念
2.1.5 距离测度对聚类结果的影响
数据的粗聚类是两类,细聚类为4类
7
2.2 模式相似性测度பைடு நூலகம்
2.2.1 距 离 测 度
2.2.2 相 似 测 度 2.2.3 匹 配 测 度
8
2.2.1 距离测度(差值测度)
Distance (or Dissimilarity) Measure
i 1
⑵ 绝对值距离(街坊距离或Manhattan距离) n d ( x , y ) | xi yi |
i 1
(3) 切氏(Chebyshev)距离 d ( x , y ) max | xi yi |
i
10
(一)距离测度(差值测度) (4) 明氏(Minkowski)距离 n d ( x , y ) [ ( xi yi ) m ]1/ m
其中
1 m V ( xi x )( xi x ) ' (协方差矩阵的 m 1 i 1 无偏估计) 1 m x xi (均值向量的估计) m i 1
性质:对一切非奇异线性变换都是不变的。 即,具有坐标系比例、旋转、平移不变性, 并且从统计意义上尽量去掉了分量间的相关性。
a x'y s( x , y ) abc x'x y' y x' y
注意,这里只考虑(1-1)匹配,而不考虑(0-0)匹配。
21
(三) 匹 配 测 度
(2) Rao测度
a x'y s( x , y ) abce n ae m( x , y ) n
2a 2x ' y m( x , y ) 2a b c x ' x y ' y
只对(1-1)匹配加权 (1-1)匹配特征数目与特征总数之比
(3) 简单匹配系数 (1-1)匹配+(0-0)匹配/特征总数 (4) Dice系数
(5) Kulzinsky系数 (1-1)匹配/ (1-0)匹配+(0-1)匹配
17
相关系数具有坐标系平移、旋转、比例变换不变性
证明: (作业)
设,有旋转、平移变换: y Rx t
t 其中,R是旋转变换矩阵(即正交矩阵), 则有 R ' R, R ' R I
是平移矢量。
( y1 y1 ) '( y2 y2 ) [( Rx1 t ) ( Rx1 t )]'[( Rx2 t ) ( Rx2 t )] ( x1 x1 ) ' R ' R( x2 x2 ) ( x1 x1 ) '( x2 x2 )
i 1
(5) Cambera距离(Lance距离、Willims距离)
n | xi yi | d ( x, y) i 1 | xi yi |
( xi , yi 0, xi yi 0)
该距离能克服量纲的影响, 但不能克服分量间的相关性。
11
(一)距离测度(差值测度) (6)马氏(Mahalanobis)距离 2 1 d ( xi , x j ) ( xi x j )'V ( xi x j )
( y1 y1 ) '( y2 y2 ) r ( y1 , y2 ) 1/ 2 [( y1 y1 ) '( y1 y1 )( y2 y2 ) '( y2 y2 )] ( x1 x1 ) '( x2 x2 ) 1/ 2 r ( x1 , x2 ) [( x1 x1 ) '( x1 x1 )( x2 x2 ) '( x2 x2 )]
13
1 故 d ( y , y ) ( y y ) 'V ( y y ) i j i j y i j 1 ( Axi Ax j ) 'Vy ( Axi Ax j ) 1 ( xi x j ) ' A 'Vy A( xi x j ) 1 ( xi x j ) ' A '( AVx A ') A( xi x j ) { ( AB) 1 1 1 ( xi x j ) ' A ' A ' Vx A A( xi x j ) 1 ( xi x j ) 'Vx ( xi x j ) 2 d x ( xi , x j )
2 y
1
B1 A1}
14
马氏距离的一般定义 设 x 、 y 是从期望矢量为 、协方差矩阵为的母体G
中抽取的两个样本,则它们间的马氏距离定义为
2
1 d ( x, y) ( x y) ' ( x y) 当 x 和 y 是分别来自两个数据集中的样本时,设C
2
是它们的互协方差阵,则它们间的马氏距离定义为
1 d ( x, y) ( x y) ' C ( x y)
当、V、C为单位矩阵时,马氏距离欧氏距离。 对于正态分布,等概率密度点轨迹是到均值矢量的 马氏距离为常数的点所构成的超椭球面。
15
例2.1
已知一个二维正态母体G的分布为
(1) 特征选取不当或不足使分类无效; (2) 特征选取过多可能有害无益,且增加分析负担。
x2 2 x2
1 2
1 x1
3 (b) x1
4
(a)
2.1 聚类的基本概念
(3) 特征量纲对聚类结果的影响
年龄
60
年龄
60
30
30
5
10
财富(万)
5
10
财富(十万)
5
2.1 聚类的基本概念
2.1.4聚类准则对聚类结果的影响
1 求点 A : 和 B : 1
1 0 至均值点 M : 的距离。 1 0 0.9 1 0.9 1 1 1 解:由题设,可得 0.9 1 1 0.19 0.9
0 1 0.9 N , 0 0.9 1
羊,狗,猫, 鲨鱼
蜥蜴,蛇, 麻雀,海鸥, 金鱼,青蛙
金鱼, 鲨鱼
羊,狗,猫,蜥 蜴,蛇,麻雀, 海鸥,青蛙
(a)繁衍后代的方式
羊,狗,猫, 蜥蜴,蛇,麻 雀,海鸥, (c) 生存环境 金鱼, 鲨鱼
青蛙
(b) 肺的存在 蜥蜴,蛇, 金鱼 麻雀,海 鸥,青蛙 羊,狗, 鲨鱼 猫,
(d)繁衍后代的方式和是否存在肺
18
(3) 指数相关系数
( xi yi )2 3 1 e( x , y ) exp[ ] 2 n i 1 4 i 和 y 的维数n相同、概率分布相同。 这里假设 x i2是第i个分量的方差。
n
性质:不受量纲变化的影响。
19
(三) 匹 配 测 度
若特征只有两个状态: 0 => 有此特征;1 => 无此特征。称之为二值特征。 对于给定的二值特征矢量x和y中的某两个相对应的分 量 x i与 y j 若xi=1,yj=1 ,则称 xi与yj (1-1)匹配; 若xi=1,yj=0 ,则称 (1-0)匹配; 若xi=0,yj=1 ,则称 (0-1)匹配; 若xi=0,yj=0 ,则称 (0-0)匹配。 对于二值n维特征矢量可定义如下相似性测度:
次序量:按某种规则确定的只反映特征的次序
关系或等级 如:产品的等级、病症的级或期。已是离散量。
名义量:反映样本的状态特征非数值的,
如男性与女性、事物的状态、种类等。需要数值化。 这些特征的数值指标既无数量含义,也无次序关系, 只是用数字代表各种状态。
3
2.1 聚类的基本概念
2.1.3 方法的有效性
马氏距离具有线性变换不变性 y 证明:设,有非奇异线性变换: Ax
1 n 1 n 1 n 则 y yi Axi A xi Ax m i 1 m i 1 m i 1
1 m Vy ( yi y )( yi y ) ' m 1 i 1 1 m ( Axi Ax )( Axi Ax ) ' m 1 i 1 1 m A( xi x )( xi x ) ' A ' m 1 i 1 1 m A[ ( xi x )( xi x ) '] A ' AVx A ' m 1 i 1
《模式识别》 第二章 聚类分析
余莉
2.1 聚类的基本概念
2.1.1聚类分析的基本思想
Clustering Analysis
据相似程度分类
无监督分类(Unsupervised)
x 2 似圆度
x1
2
2.1 聚类的基本概念 2.1.2 特征量的类型 物理量:直接反映特征的实际物理意义
如:长度、重量、速度等。处理前需要离散化。
a x'y m( x , y ) b c x ' x y ' y 2x ' y
2 d E ( A, M ) 2
由分布函数知,A、B两点的概率密度分别为
p(1, 1) 0.2157
p(1, 1) 0.00001658
16
2.2.2 相 似 测 度
• 重点考虑两矢量的方向是否相近,而忽略矢量长度。
(1) 角度相似系数(夹角余弦) 矢量之间的相似性可用它们的夹角余弦来度量 x'y x'y cos( x , y ) 1/ 2 x y [( x ' x )( y ' y )] (2) 相关系数 数据中心化后的矢量夹角余弦 ( x x ) '( y y ) r ( x , y ) 1/ 2 [( x x ) '( x x )( y y ) '( y y )] 性质:相关系数具有坐标系平移、旋转、比例不变性。
20
(三) 匹 配 测 度
令 a xi yi
b yi (1 xi ) c xi (1 yi ) e (1 xi )(1 yi )
i i i i
(1-1)匹配的特征数目 (0-1)匹配的特征数目 (1-0)匹配的特征数目
(0-0)匹配的特征数目
(1) Tanimoto测度
x 和 y 的距离为 d ( x , y ) 设特征矢量 则 d ( x , y ) 一般应满足如下公理
(1) d ( x, y) 0, 当且仅当x y 时等号成立,即d ( x, y)=0 x y
(2) d ( x , y )=d ( y, x ) (3) d ( x , y ) d ( x , z ) d ( z , y )
(triangular inequality)
9
(一)距离测度(差值测度) 设 x ( x1 , x2 ,, xn ) ' ,y ( y1 , y2 , , yn ) ' ⑴ 欧氏(Euclidean)距离 n d ( x , y ) x y [ ( xi yi )2 ]1/ 2
从而马氏距离
dM
2
1 0.2 2 1 1 d M ( B, M ) 1 1 3.8 ( A, M ) 1 1 0.19 0.19 1 1
1
它们之比达
19 倍。若用欧氏距离,则算得的距离值相同:
2 d E ( B, M ) 2
6
2.1 聚类的基本概念
2.1.5 距离测度对聚类结果的影响
数据的粗聚类是两类,细聚类为4类
7
2.2 模式相似性测度பைடு நூலகம்
2.2.1 距 离 测 度
2.2.2 相 似 测 度 2.2.3 匹 配 测 度
8
2.2.1 距离测度(差值测度)
Distance (or Dissimilarity) Measure
i 1
⑵ 绝对值距离(街坊距离或Manhattan距离) n d ( x , y ) | xi yi |
i 1
(3) 切氏(Chebyshev)距离 d ( x , y ) max | xi yi |
i
10
(一)距离测度(差值测度) (4) 明氏(Minkowski)距离 n d ( x , y ) [ ( xi yi ) m ]1/ m
其中
1 m V ( xi x )( xi x ) ' (协方差矩阵的 m 1 i 1 无偏估计) 1 m x xi (均值向量的估计) m i 1
性质:对一切非奇异线性变换都是不变的。 即,具有坐标系比例、旋转、平移不变性, 并且从统计意义上尽量去掉了分量间的相关性。
a x'y s( x , y ) abc x'x y' y x' y
注意,这里只考虑(1-1)匹配,而不考虑(0-0)匹配。
21
(三) 匹 配 测 度
(2) Rao测度
a x'y s( x , y ) abce n ae m( x , y ) n
2a 2x ' y m( x , y ) 2a b c x ' x y ' y
只对(1-1)匹配加权 (1-1)匹配特征数目与特征总数之比
(3) 简单匹配系数 (1-1)匹配+(0-0)匹配/特征总数 (4) Dice系数
(5) Kulzinsky系数 (1-1)匹配/ (1-0)匹配+(0-1)匹配
17
相关系数具有坐标系平移、旋转、比例变换不变性
证明: (作业)
设,有旋转、平移变换: y Rx t
t 其中,R是旋转变换矩阵(即正交矩阵), 则有 R ' R, R ' R I
是平移矢量。
( y1 y1 ) '( y2 y2 ) [( Rx1 t ) ( Rx1 t )]'[( Rx2 t ) ( Rx2 t )] ( x1 x1 ) ' R ' R( x2 x2 ) ( x1 x1 ) '( x2 x2 )
i 1
(5) Cambera距离(Lance距离、Willims距离)
n | xi yi | d ( x, y) i 1 | xi yi |
( xi , yi 0, xi yi 0)
该距离能克服量纲的影响, 但不能克服分量间的相关性。
11
(一)距离测度(差值测度) (6)马氏(Mahalanobis)距离 2 1 d ( xi , x j ) ( xi x j )'V ( xi x j )
( y1 y1 ) '( y2 y2 ) r ( y1 , y2 ) 1/ 2 [( y1 y1 ) '( y1 y1 )( y2 y2 ) '( y2 y2 )] ( x1 x1 ) '( x2 x2 ) 1/ 2 r ( x1 , x2 ) [( x1 x1 ) '( x1 x1 )( x2 x2 ) '( x2 x2 )]
13
1 故 d ( y , y ) ( y y ) 'V ( y y ) i j i j y i j 1 ( Axi Ax j ) 'Vy ( Axi Ax j ) 1 ( xi x j ) ' A 'Vy A( xi x j ) 1 ( xi x j ) ' A '( AVx A ') A( xi x j ) { ( AB) 1 1 1 ( xi x j ) ' A ' A ' Vx A A( xi x j ) 1 ( xi x j ) 'Vx ( xi x j ) 2 d x ( xi , x j )
2 y
1
B1 A1}
14
马氏距离的一般定义 设 x 、 y 是从期望矢量为 、协方差矩阵为的母体G
中抽取的两个样本,则它们间的马氏距离定义为
2
1 d ( x, y) ( x y) ' ( x y) 当 x 和 y 是分别来自两个数据集中的样本时,设C
2
是它们的互协方差阵,则它们间的马氏距离定义为
1 d ( x, y) ( x y) ' C ( x y)
当、V、C为单位矩阵时,马氏距离欧氏距离。 对于正态分布,等概率密度点轨迹是到均值矢量的 马氏距离为常数的点所构成的超椭球面。
15
例2.1
已知一个二维正态母体G的分布为
(1) 特征选取不当或不足使分类无效; (2) 特征选取过多可能有害无益,且增加分析负担。
x2 2 x2
1 2
1 x1
3 (b) x1
4
(a)
2.1 聚类的基本概念
(3) 特征量纲对聚类结果的影响
年龄
60
年龄
60
30
30
5
10
财富(万)
5
10
财富(十万)
5
2.1 聚类的基本概念
2.1.4聚类准则对聚类结果的影响
1 求点 A : 和 B : 1
1 0 至均值点 M : 的距离。 1 0 0.9 1 0.9 1 1 1 解:由题设,可得 0.9 1 1 0.19 0.9
0 1 0.9 N , 0 0.9 1
羊,狗,猫, 鲨鱼
蜥蜴,蛇, 麻雀,海鸥, 金鱼,青蛙
金鱼, 鲨鱼
羊,狗,猫,蜥 蜴,蛇,麻雀, 海鸥,青蛙
(a)繁衍后代的方式
羊,狗,猫, 蜥蜴,蛇,麻 雀,海鸥, (c) 生存环境 金鱼, 鲨鱼
青蛙
(b) 肺的存在 蜥蜴,蛇, 金鱼 麻雀,海 鸥,青蛙 羊,狗, 鲨鱼 猫,
(d)繁衍后代的方式和是否存在肺
18
(3) 指数相关系数
( xi yi )2 3 1 e( x , y ) exp[ ] 2 n i 1 4 i 和 y 的维数n相同、概率分布相同。 这里假设 x i2是第i个分量的方差。
n
性质:不受量纲变化的影响。
19
(三) 匹 配 测 度
若特征只有两个状态: 0 => 有此特征;1 => 无此特征。称之为二值特征。 对于给定的二值特征矢量x和y中的某两个相对应的分 量 x i与 y j 若xi=1,yj=1 ,则称 xi与yj (1-1)匹配; 若xi=1,yj=0 ,则称 (1-0)匹配; 若xi=0,yj=1 ,则称 (0-1)匹配; 若xi=0,yj=0 ,则称 (0-0)匹配。 对于二值n维特征矢量可定义如下相似性测度:
次序量:按某种规则确定的只反映特征的次序
关系或等级 如:产品的等级、病症的级或期。已是离散量。
名义量:反映样本的状态特征非数值的,
如男性与女性、事物的状态、种类等。需要数值化。 这些特征的数值指标既无数量含义,也无次序关系, 只是用数字代表各种状态。
3
2.1 聚类的基本概念
2.1.3 方法的有效性