模式识别03聚类分析精品PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
描述两个矢量x和y之间的距离d(x, y)应该满足如下公理:
d(x, y) 0, d(x, y)=0 iff x = y; d(x, y) = d(y, x); d(x, y) d(x, z) + d(z, y);
需要说明,某些距离测度不满足公理3,只是在广义上称 为距离。
2020/10/12
不受量纲变化影响。其中i2为相应分量的方差。
e(x,y)1 ni n1exp4 3([xi i2yi)2]
2020/10/12
Hale Waihona Puke Baidu
济南大学 模式识别与智能系统研究所(R)
13
模式相似性测度
匹配测度
有时特征只有两个状态,即二值特征。 令a=ixiyi, b=I (1-xi) yi, c=I xi(1-yi), e=I (1-xi)(1-yi)
d(x, y) = maxi |xi-yi| 闵科夫斯基距离(Minkowski)
d(x, y) = [i=1 n(xi-yi)m]1/m m=2,1,时分别是欧式距离、绝对值距离和切氏距离。
2020/10/12
济南大学 模式识别与智能系统研究所(R)
10
模式相似性测度
距离测度
马氏距离(Mahalanohis) 设n维矢量xi和xj是矢量集{x1, x2, …, xn}中的两个矢量,其 马氏距离d是:
Tanimoto测度
s(x,y)aa bcxTxx yT Ty yxTy
Rao测度
m(x,y)a a n abce
2020/10/12
济南大学 模式识别与智能系统研究所(R)
14
模式相似性测度
如何获得这些特征不
是模式识别所研究的
拓展思维
其他的匹配测度?
内容,是其他相关学 科的研究范畴
相同特征的比例?即(1-1)和(0-0)在所有特征中占有的比例
d2(xi, xj) = (xi-xj)T V-1 (xi-xj)
Vm11i n1(xi x)(xi x)T
x
1 m
n i 1
xi
2020/10/12
济南大学 模式识别与智能系统研究所(R)
11
模式相似性测度
距离测度
Camberra距离(Lance距离、Willims距离) 能克服量纲引起的问题,但无法克服分量间的相关性。
相同特征与不同特征的比例?
ae ae
ae
abce n
bc
一个问题:特征空间中,两个特征矢量分别如下,计算其 间不同距离:
x=(1, 1, 0, 1, 0, 0)T, y=(1, 0, 0, 1, 0, 1)T
x=(180, 75, 50)T, y=(170, 70, 55)T
2020/10/12
济南大学 模式识别与智能系统研究所(R)
d(x,y)n|xiyi|
i 1|xiyi|
(xi,yi0 ,xiyi0 )
2020/10/12
济南大学 模式识别与智能系统研究所(R)
12
模式相似性测度
相似测度
设x=(x1, x2, …, xn)T, y=(y1, y2, …, yn)T 角度相似系数(夹角余弦)
对于坐标系的旋转和尺度缩放是不变的,但对于一般的线 性变换和坐标系的平移不具有不变性。 cox,sy)(||xx |T |y |y||[x (Tx)xT y (y Ty)1]/2 指数相似系数
济南大学 模式识别与智能系统研究所(R)
9
模式相似性测度
距离测度
设x=(x1, x2, …, xn)T, y=(y1, y2, …, yn)T 欧式距离(Euclidean)
d(x, y) = ||x-y|| = [i=1 n(xi-yi)2]1/2 绝对值距离(Manhattan距离)
d(x, y) = i=1 n|xi-yi| 切氏距离(Chebyahev)
增加和负担增加
量纲要合适
2020/10/12
济南大学 模式识别与智能系统研究所(R)
7
目录
复习 说明 模式相似性测度 类的定义、类间距离和聚类准则 聚类算法 总结和作业
2020/10/12
济南大学 模式识别与智能系统研究所(R)
8
模式相似性测度
为了能够划分模式的类别,必须首先定义相似性测 度,描述各个模式之间特征的相似程度。 距离测度
济南大学 模式识别与智能系统研究所(R)
6
说明
特征的选取
特征选取要合适 特征选取不足有可能将不同类别判为一类 特征过多可能有害无益
假设根据已有特征已经能够正确分类 新增加的特征与原有特征的关系:
独立、不相关或者相关 若独立或者不相关,则分类结果不变,但是增加负担; 若相关,增加冗余;则重要特征占“比重”减少;导致误判
具体表达式和每个符号的具体含义。
2020/10/12
济南大学 模式识别与智能系统研究所(R)
4
复习
根据模式识别的基本过程,讨论如何区分正常的楼 房维修和爬楼盗窃?
Key:
维修:一般白天;安全工具;工作服;长时停留;有灯光等 盗窃:一般夜间;主要徒手;夜行衣;不逗留;无灯光等 当然前提是能够检测到移动目标和判定大小
15
目录
复习 说明 模式相似性测度 类的定义、类间距离和聚类准则 聚类算法 总结和作业
模式识别导论
——聚类分析
济南大学
山东省网络环境智能计算技术重点实验室 2011年9月
目录
复习 说明 模式相似性测度 类的定义、类间距离和聚类准则 聚类算法 总结和作业
2020/10/12
济南大学 模式识别与智能系统研究所(R)
2
目录
复习 说明 模式相似性测度 类的定义、类间距离和聚类准则 聚类算法 总结和作业
如何区分这两种水果(自动分拣机):梨和桃子?
Key:
梨:青或黄;无沟;粗糙多斑点;尾桔蒂等 桃:红或青;有沟;光滑少斑点;尾多尖等
2020/10/12
济南大学 模式识别与智能系统研究所(R)
5
目录
复习 说明 模式相似性测度 类的定义、类间距离和聚类准则 聚类算法 总结和作业
2020/10/12
2020/10/12
济南大学 模式识别与智能系统研究所(R)
3
复习
模式识别的基本过程
为什么要进行特征提取? 什么是特征? 如何抽取和表示特征? 识别和训练(两种训练方式) 识别系统的性能评价
特征矢量的特点:随机性(为什么?)
随机矢量的数字特征:有哪些? 什么是正态分布(高斯分布)?写出一维和二维情况下的
d(x, y) 0, d(x, y)=0 iff x = y; d(x, y) = d(y, x); d(x, y) d(x, z) + d(z, y);
需要说明,某些距离测度不满足公理3,只是在广义上称 为距离。
2020/10/12
不受量纲变化影响。其中i2为相应分量的方差。
e(x,y)1 ni n1exp4 3([xi i2yi)2]
2020/10/12
Hale Waihona Puke Baidu
济南大学 模式识别与智能系统研究所(R)
13
模式相似性测度
匹配测度
有时特征只有两个状态,即二值特征。 令a=ixiyi, b=I (1-xi) yi, c=I xi(1-yi), e=I (1-xi)(1-yi)
d(x, y) = maxi |xi-yi| 闵科夫斯基距离(Minkowski)
d(x, y) = [i=1 n(xi-yi)m]1/m m=2,1,时分别是欧式距离、绝对值距离和切氏距离。
2020/10/12
济南大学 模式识别与智能系统研究所(R)
10
模式相似性测度
距离测度
马氏距离(Mahalanohis) 设n维矢量xi和xj是矢量集{x1, x2, …, xn}中的两个矢量,其 马氏距离d是:
Tanimoto测度
s(x,y)aa bcxTxx yT Ty yxTy
Rao测度
m(x,y)a a n abce
2020/10/12
济南大学 模式识别与智能系统研究所(R)
14
模式相似性测度
如何获得这些特征不
是模式识别所研究的
拓展思维
其他的匹配测度?
内容,是其他相关学 科的研究范畴
相同特征的比例?即(1-1)和(0-0)在所有特征中占有的比例
d2(xi, xj) = (xi-xj)T V-1 (xi-xj)
Vm11i n1(xi x)(xi x)T
x
1 m
n i 1
xi
2020/10/12
济南大学 模式识别与智能系统研究所(R)
11
模式相似性测度
距离测度
Camberra距离(Lance距离、Willims距离) 能克服量纲引起的问题,但无法克服分量间的相关性。
相同特征与不同特征的比例?
ae ae
ae
abce n
bc
一个问题:特征空间中,两个特征矢量分别如下,计算其 间不同距离:
x=(1, 1, 0, 1, 0, 0)T, y=(1, 0, 0, 1, 0, 1)T
x=(180, 75, 50)T, y=(170, 70, 55)T
2020/10/12
济南大学 模式识别与智能系统研究所(R)
d(x,y)n|xiyi|
i 1|xiyi|
(xi,yi0 ,xiyi0 )
2020/10/12
济南大学 模式识别与智能系统研究所(R)
12
模式相似性测度
相似测度
设x=(x1, x2, …, xn)T, y=(y1, y2, …, yn)T 角度相似系数(夹角余弦)
对于坐标系的旋转和尺度缩放是不变的,但对于一般的线 性变换和坐标系的平移不具有不变性。 cox,sy)(||xx |T |y |y||[x (Tx)xT y (y Ty)1]/2 指数相似系数
济南大学 模式识别与智能系统研究所(R)
9
模式相似性测度
距离测度
设x=(x1, x2, …, xn)T, y=(y1, y2, …, yn)T 欧式距离(Euclidean)
d(x, y) = ||x-y|| = [i=1 n(xi-yi)2]1/2 绝对值距离(Manhattan距离)
d(x, y) = i=1 n|xi-yi| 切氏距离(Chebyahev)
增加和负担增加
量纲要合适
2020/10/12
济南大学 模式识别与智能系统研究所(R)
7
目录
复习 说明 模式相似性测度 类的定义、类间距离和聚类准则 聚类算法 总结和作业
2020/10/12
济南大学 模式识别与智能系统研究所(R)
8
模式相似性测度
为了能够划分模式的类别,必须首先定义相似性测 度,描述各个模式之间特征的相似程度。 距离测度
济南大学 模式识别与智能系统研究所(R)
6
说明
特征的选取
特征选取要合适 特征选取不足有可能将不同类别判为一类 特征过多可能有害无益
假设根据已有特征已经能够正确分类 新增加的特征与原有特征的关系:
独立、不相关或者相关 若独立或者不相关,则分类结果不变,但是增加负担; 若相关,增加冗余;则重要特征占“比重”减少;导致误判
具体表达式和每个符号的具体含义。
2020/10/12
济南大学 模式识别与智能系统研究所(R)
4
复习
根据模式识别的基本过程,讨论如何区分正常的楼 房维修和爬楼盗窃?
Key:
维修:一般白天;安全工具;工作服;长时停留;有灯光等 盗窃:一般夜间;主要徒手;夜行衣;不逗留;无灯光等 当然前提是能够检测到移动目标和判定大小
15
目录
复习 说明 模式相似性测度 类的定义、类间距离和聚类准则 聚类算法 总结和作业
模式识别导论
——聚类分析
济南大学
山东省网络环境智能计算技术重点实验室 2011年9月
目录
复习 说明 模式相似性测度 类的定义、类间距离和聚类准则 聚类算法 总结和作业
2020/10/12
济南大学 模式识别与智能系统研究所(R)
2
目录
复习 说明 模式相似性测度 类的定义、类间距离和聚类准则 聚类算法 总结和作业
如何区分这两种水果(自动分拣机):梨和桃子?
Key:
梨:青或黄;无沟;粗糙多斑点;尾桔蒂等 桃:红或青;有沟;光滑少斑点;尾多尖等
2020/10/12
济南大学 模式识别与智能系统研究所(R)
5
目录
复习 说明 模式相似性测度 类的定义、类间距离和聚类准则 聚类算法 总结和作业
2020/10/12
2020/10/12
济南大学 模式识别与智能系统研究所(R)
3
复习
模式识别的基本过程
为什么要进行特征提取? 什么是特征? 如何抽取和表示特征? 识别和训练(两种训练方式) 识别系统的性能评价
特征矢量的特点:随机性(为什么?)
随机矢量的数字特征:有哪些? 什么是正态分布(高斯分布)?写出一维和二维情况下的