模式识别-聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 y
2018/10/26
1
B1 A1}
19
例
已知一个二维正态母体G的分布为
1 求点 A : 和 B : 1
1 0 至均值点 M : 的距离。 1 0 0.9 1 0.9 1 1 1 解:由题设,可得 0.9 1 0.9 1 0.19
基本内容
聚类算法
特征量的类型
物理量:直接反映特征的实际物理意义 如:长度、重量、速度等。处理前需要离散化。 次序量:按某种规则确定的只反映特征的次序关系或等级 如:产品的等级、病症的级或期。已是离散量。
名义量:非数值的特征数值化标识, 如男性与女性、事物的状态、种类等。需要数值化。这些特 征的数值指标既无数量含义,也无次序关系,只是用数字代 表各种状态。
0 1 0.9 N , 0 0.9 1
16
5. Camberra距离:
n | xi yi | d ( x, y) i 1 | xi yi |
该距离能克服量纲的影响, 但不能克服分量间的相关性。
( xi , yi 0, xi yi 0)
5. 马氏(Mahalanobis)距离: 个矢量
性质:对一切非奇异线性变换都是不变的。 即,具有坐标系比例、旋转、平移不变性, 并且从统计意义上尽量去掉了分量间的相关性。
马氏距离具有线性变换不变性 y Ax 证明:设,有非奇异线性变换:
n 1 n 1 n 1 则 y yi Axi A xi Ax m i 1 m i 1 m i 1
1 m Vy ( yi y )( yi y ) ' m 1 i 1 1 m ( Axi Ax )( Axi Ax ) ' m 1 i 1 1 m A( xi x )( xi x ) ' A ' m 1 i 1 1 m A[ ( xi x )( xi x ) '] A ' AVx A ' m 1 i 1
2018/10/26
18
1 故 d ( yi , y j ) ( yi y j ) 'Vy ( yi y j ) 1 ( Axi Ax j ) 'Vy ( Axi Ax j ) 1 ( xi x j ) ' A 'Vy A( xi x j ) 1 ( xi x j ) ' A '( AVx A ') A( xi x j ) { ( AB) 1 1 1 ( xi x j ) ' A ' A ' Vx A A( xi x j ) 1 ( xi x j ) 'Vx ( xi x j ) 2 d x ( xi , x j )
2018/10/26
15
距离测度
设
x (x1,x 2 , x n )',y (y1,y 2 , y n )'
n d ( x, y ) || x y || [ ( xi yi ) 2 ]1/ 2 i 1
1. 欧氏(Euclidean)距离:
2. 绝对值距离(街区距离,Manhattan距离):
2018/10/26
9
方法的有效性 本质上 模式特征点在特征空间中的分布情况,同 类的模式特征点密集,不同类的相距较远
技术上
取决于分类算法和特征点分布情况的 匹配
1,特征选取不当使分类无效
2,特征选取不足可能使不同类别的模式判为一类 3,特征选取过多可能有害无益,增加分析负担
4,量纲选取不当
x2 2 1 x1
x2
1
2 3 (b) 特征选取不足 x1
(a) 特征选取不当
wenku.baidu.com
2018/10/26
11
量纲不同对聚类的影响
2018/10/26 12
聚类准则对聚类结果的影响
蜥蜴,蛇, 羊,狗,猫, 麻雀,海鸥 鲨鱼 , 金鱼,青蛙 (a)繁衍后代的方式 金鱼 , 鲨鱼 (b) 肺的存在 蜥蜴,蛇, 金鱼 麻雀,海 鸥,青蛙 羊,狗 鲨鱼 ,猫 ,
n d ( x , y ) | xi yi | i 1
3. 切氏(Chebyshev)距离:
d ( x, y) max | xi yi |
i
4. 明氏(Minkowski)距离:
2018/10/26
n d ( x , y ) [ ( xi yi ) m ]1/ m i 1
聚类分析
2.1 聚类分析的概念 一、聚类分析的基本思想 根据各个待分类的模式特征相似程度进行分类,相似的归为 一类,不相似的归为另一类。 模式相似性度量
基本内容
聚类算法
聚类分析的概念
聚类分析的基本思想
根据各个待分类的模式特征相似程度进行分类,相似的归为 一类,不相似的归为另一类。 模式相似性度量
设n维矢量 xi , x j 是矢量集 {x1 , x2 ,, xm } 中的两
d ( xi , x j ) ( xi x j )'V 1 ( xi x j ) 1 m V ( xi x )(xi x )' m 1 i 1 1 m x xi m i 1
羊,狗,猫,蜥 蜴,蛇,麻雀, 海鸥,青蛙
羊 ,狗,猫, 蜥蜴,蛇,麻 雀,海鸥,
金鱼 , 鲨鱼 青蛙
(c) 生存环境
2018/10/26
(d)繁衍后代的方式和是否存在肺
13
13
距离测度对聚类结果的影响
数据的粗聚类是2类,细聚类为4类
2018/10/26 14
模式相似性测度
距离测度 相似测度 匹配测度
2018/10/26
1
B1 A1}
19
例
已知一个二维正态母体G的分布为
1 求点 A : 和 B : 1
1 0 至均值点 M : 的距离。 1 0 0.9 1 0.9 1 1 1 解:由题设,可得 0.9 1 0.9 1 0.19
基本内容
聚类算法
特征量的类型
物理量:直接反映特征的实际物理意义 如:长度、重量、速度等。处理前需要离散化。 次序量:按某种规则确定的只反映特征的次序关系或等级 如:产品的等级、病症的级或期。已是离散量。
名义量:非数值的特征数值化标识, 如男性与女性、事物的状态、种类等。需要数值化。这些特 征的数值指标既无数量含义,也无次序关系,只是用数字代 表各种状态。
0 1 0.9 N , 0 0.9 1
16
5. Camberra距离:
n | xi yi | d ( x, y) i 1 | xi yi |
该距离能克服量纲的影响, 但不能克服分量间的相关性。
( xi , yi 0, xi yi 0)
5. 马氏(Mahalanobis)距离: 个矢量
性质:对一切非奇异线性变换都是不变的。 即,具有坐标系比例、旋转、平移不变性, 并且从统计意义上尽量去掉了分量间的相关性。
马氏距离具有线性变换不变性 y Ax 证明:设,有非奇异线性变换:
n 1 n 1 n 1 则 y yi Axi A xi Ax m i 1 m i 1 m i 1
1 m Vy ( yi y )( yi y ) ' m 1 i 1 1 m ( Axi Ax )( Axi Ax ) ' m 1 i 1 1 m A( xi x )( xi x ) ' A ' m 1 i 1 1 m A[ ( xi x )( xi x ) '] A ' AVx A ' m 1 i 1
2018/10/26
18
1 故 d ( yi , y j ) ( yi y j ) 'Vy ( yi y j ) 1 ( Axi Ax j ) 'Vy ( Axi Ax j ) 1 ( xi x j ) ' A 'Vy A( xi x j ) 1 ( xi x j ) ' A '( AVx A ') A( xi x j ) { ( AB) 1 1 1 ( xi x j ) ' A ' A ' Vx A A( xi x j ) 1 ( xi x j ) 'Vx ( xi x j ) 2 d x ( xi , x j )
2018/10/26
15
距离测度
设
x (x1,x 2 , x n )',y (y1,y 2 , y n )'
n d ( x, y ) || x y || [ ( xi yi ) 2 ]1/ 2 i 1
1. 欧氏(Euclidean)距离:
2. 绝对值距离(街区距离,Manhattan距离):
2018/10/26
9
方法的有效性 本质上 模式特征点在特征空间中的分布情况,同 类的模式特征点密集,不同类的相距较远
技术上
取决于分类算法和特征点分布情况的 匹配
1,特征选取不当使分类无效
2,特征选取不足可能使不同类别的模式判为一类 3,特征选取过多可能有害无益,增加分析负担
4,量纲选取不当
x2 2 1 x1
x2
1
2 3 (b) 特征选取不足 x1
(a) 特征选取不当
wenku.baidu.com
2018/10/26
11
量纲不同对聚类的影响
2018/10/26 12
聚类准则对聚类结果的影响
蜥蜴,蛇, 羊,狗,猫, 麻雀,海鸥 鲨鱼 , 金鱼,青蛙 (a)繁衍后代的方式 金鱼 , 鲨鱼 (b) 肺的存在 蜥蜴,蛇, 金鱼 麻雀,海 鸥,青蛙 羊,狗 鲨鱼 ,猫 ,
n d ( x , y ) | xi yi | i 1
3. 切氏(Chebyshev)距离:
d ( x, y) max | xi yi |
i
4. 明氏(Minkowski)距离:
2018/10/26
n d ( x , y ) [ ( xi yi ) m ]1/ m i 1
聚类分析
2.1 聚类分析的概念 一、聚类分析的基本思想 根据各个待分类的模式特征相似程度进行分类,相似的归为 一类,不相似的归为另一类。 模式相似性度量
基本内容
聚类算法
聚类分析的概念
聚类分析的基本思想
根据各个待分类的模式特征相似程度进行分类,相似的归为 一类,不相似的归为另一类。 模式相似性度量
设n维矢量 xi , x j 是矢量集 {x1 , x2 ,, xm } 中的两
d ( xi , x j ) ( xi x j )'V 1 ( xi x j ) 1 m V ( xi x )(xi x )' m 1 i 1 1 m x xi m i 1
羊,狗,猫,蜥 蜴,蛇,麻雀, 海鸥,青蛙
羊 ,狗,猫, 蜥蜴,蛇,麻 雀,海鸥,
金鱼 , 鲨鱼 青蛙
(c) 生存环境
2018/10/26
(d)繁衍后代的方式和是否存在肺
13
13
距离测度对聚类结果的影响
数据的粗聚类是2类,细聚类为4类
2018/10/26 14
模式相似性测度
距离测度 相似测度 匹配测度