第二章_距离分类器PPT教学课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算量小
效果不一定很好
2020/12/11
13
平均距离法
已知Ωi类有训练样本集:
T 1 i,T 2 i, ,T K ii
定义待识模式X与类别Ωi的距离:
dX , i K 1i jK i1dX ,T ji
2020/12/11
14
最近邻法
待识模式X与类别Ωi的距离:
dX , i 1 m j in K idX ,T j i
2020/12/11
24
最大最小距离算法
3. 计算未被作为聚类中心的各样本Xi与Z1, Z2之间的距离,以其中的最小值作为该 样本的距离di;
4. 若di >T,将Xi作为第3个聚类中心, Z3= Xi,转3;否则,转5
5. 按照最小距离原则,将所有样本分到各 类别中。
2020/12/11
25
系统聚类法
X 1 m ,X 2 m , ,X K m m
对待识样本X进行分类。
2020/12/11
11
多标准样本的距离分类器
平均样本法
对每一类求一个标准样本T(m),使T(m)到 所有训练样本的平均距离最小:
Tm
1
Km
Km i1
Xim
2020/12/11
12
平均样本法的特点
算法简单
存储量小
平均距离:
D ij
1 NiNj
d2 X li,X kj
2020/12/11
27
系统聚类算法
第一步 建立N个初始类别,每个样本一 个类别,计算距离矩阵D=(Dij);
第二步 寻找D中的最小元素,合并相应 的两个类别,建立新的分类,重新计算 距离矩阵D;
重复第二步,直到类别数为M为止。
2020/12/11
19
最近邻规则的简单试探法
已知:N个待分类模式{X1,X2,…,XN}, 阈值T(每个样本到其聚类中心的最大距离), 分类到Ω1,Ω2,…,类别中心为Z1,Z2,…
2020/12/11
20
最近邻规则的简单试探法
第一步:取任意的样本作为第一个聚类中 心, Z1=X1; 计算D21=||X2-Z1||; 如果D21 >T,则增加新类别: Z1=X1; 否则,X2归入Ω1类,重新计算: Z1=(X1+ X2)/2
2020/12/11
15
最近邻法的改进
平均样本法:用一点代表一个类别,过 于集中;
最近邻法:以类内的每一点代表类别, 过于分散;
改进最近邻法:将每个类别的训练样本 划分为几个子集,以子集的平均样本作 为代表样本。
2020/12/11
16
K-近邻法
1. 计算X与所有训练样本的距离; 2. 对所计算出的距离从小到大排序;
2020/12/11
21
最近邻规则的简单试探法
第二步:设已有M个类别,加入样本Xk 计算Dk1=||Xk-Z1||,Dk2=||Xk-Z2||…; 如果Dki >T,则增加新类别ΩM+1 ZM+1=Xk; 否则,Xk归入最近的一类,重新计算该 类的聚类中心:
2020/12/11
22
最大最小距离算法
常用的距离函数
角度相似函数:(Angle Distance)
dX,Y XT Y
XY
n
XT Y xi yi 是X与Y之间的内积 i1 X 为矢量X的长度,也称为范数
2020/12/11
7
二、单个标准样本距离分类器
M个类别:
1, 2, , M
每个类别有一个标准样本:
T1,T2, ,TM
对待识样本X进行分类。
第二章 距离分类器和 聚类分析
2020/12/11
1
2.1 距离分类器
一、模式的距离度量
2020/12/11
2
距离函数应满足的条件 对称性: dX ,Y dY ,X
非负性: dX,Y0
三角不等式:d X ,Y d X ,Z d Y ,Z
2020/12/11
3
常用的距离函数
欧几里德距离:(Eucidean Distance)
别中去; 第三步:计算各类的聚类中心; 第四步:检验新的聚类中心与旧的聚类
中心是否相等,相等则算法结束;否则 转第二步。
基本思路:以最大距离原则选取新的聚 类中心,以最小距离原则进行模式归类;
已知:N个待识模式{X1,X2,…,XN}, 阈值比例系数θ。
2020/12/11
23
最大最小距离算法
1. 任选样本作为第一个聚类中心Z1; 2. 从样本集中选择距离Z1最远的样本Xi作
为第二个聚类中心, Z2= Xi,设定阈值: T= θ||Z1- Z2||;
28
动态聚类法
基本思想:首先选择若干个样本点作为 聚类中心,然后各样本点向各个中心聚 集,得到初始分类;判断初始分类是否 合理,如果不合理,则修改聚类中心。
包括:K-均值算法,ISODATA算法。
2020/12/11
29
K-均值算法(C-均值)
第一步:任选K个初始聚类中心; 第二步:将每一个待分类样本分到K个类
基本思路:首先每一个样本自成一类,然 后按照距离准则逐步合并,类别数由多到 少,达到合适的类别数为止。
已知:N个待识模式{X1,X2,…,XN},类 别数M。
2020/12/11
26
类与类之间的距离
最短距离: D ij m indX l i,X k j
最长距离: D ij m a xdX l i,X k j
1
dX,Yi n1xi yi22
2020/12/11
4
常用的距离函数
街市距离:(Manhattan Distance)
n
dX,Yxi yi i1
2020/12/11
5
常用的距离函数
明氏距离:(Minkowski Distance)
1
dX,Yi n1 xi yi mm
2020/12/11
6
2020/12/11
8
建立分类准则
如果有:
i0argm indX ,T i
i
则判别:
Xi0
2020Biblioteka Baidu12/11
9
距离分类器
待识模式
2020/12/11
类别1距离 类别2距离
... 类别M距离
最 小 值 识别结果 选 择 器
10
三、多标准样本的距离分类器
M个类别:
1, 2, , M
第m个类别有训练样本集合:
3. 统计前K个中各类样本的个数Ni;
4. 如果: i0arg1 m iaM xNi
5.
则判别:Xi0
2020/12/11
17
2.2 聚类分析
简单聚类法 系统聚类法 动态聚类法
2020/12/11
18
简单聚类法(试探法)
1. 最近邻规则的简单试探法 2. 最大最小距离算法
2020/12/11