模式识别10第十章 聚类 2014 tt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本页课件内容源自清华张学工教授《模式识别》
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
• ------这就是监督模式识别的问题; • ------对学习机器来说就是监督学习
(supervised learning)。
10.1 引言
• 事先不知道任何样本的类别符号,希望通 过某种算法来把一组未知类别的样本划分 成若干类别
• ------这就是非监督模式识别的问题或非监 督学习(unsupervised learing)问题, 也叫聚类问题;
p x 1, s1,t1 U s1,t1
p x 2, s2,t2 U s2,t2
• 如果训练样本是0-1之间的均匀分布:
px U 0,1
• 则对任意的0<t<1,只要:
P 1 t, p x 1, s1,t1
U
0, t
1 t ,
0,
0 xt otherwise
P 2 1 t, p x 2, s2,t2
1
mi ni xDi x
• 误差平方和准则:
c
Je
x mi 2
i1 xDi
散布矩阵
• 类内散布矩阵:
c
Sw x mi x mi t i1 xDi
• 类间散布矩阵:
c
SB ni mi m mi mt i 1
• 总体散布矩阵:
ST x mx mt Sw SB xD
• ------所用的方法叫聚类分 析方法,所得的类叫聚类 (cluster)。
本页课件部分内容源自清华张学工教授《模式识别》
10.1 引言
10.1 监督学习与非监督学习
• 监督学习与非监督学习的最大区别在于 训练样本是否有类别标号,无类别标号 的称为非监督学习;
• 监督学习与无监督学习也被称为有教师 学习与无教师学习。
• 2. 不同的聚类准则反映了对数据的不同认识, 也反映了对要寻找的规律的不同认识,相应的 可以设计出不同的算法。
• 3. 非监督模式识别方法分为两大类:基于样本 的概率分布模型进行聚类划分、直接根据样本 间的距离或相似性度量进行聚类。
10.2 基于模型的方法
• 已经知道或者是可以估计样本在特征空 间的概率分布,可以用基于模型的方法 进行聚类分析。
10.4.1 k-均值(C均值)聚类
本页课件内容源自清华张学工教授《模式识别》
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件部分内容源自清华张学工教授《模式识别》
10.3 混合模型的估计
• 1. 如果已知或可以假定每个聚类中的样本 所服从的概率密度函数形式,
• 那么总体的样本分布就是多个概率分布的 和,称为混合模型(mixture model)。
请联系监督参数估计内容学习!
10.3 混合模型的估计
• 2. 非监督参数估计问题中 • 所面临的数据是一系列类别标号未知的
非监督模式识别的广泛应用
• 1). 遥感图像的分割 • 2). 流行病学研究 • 3). 人群的心理学或行为规律(如驾驶员
行为模式的因子分析和模糊聚类)
• ……
非监督模式识别的 基本思想和代表性方法-聚类
• 非监督模式识别问题中,我们没有或事先 不知道类别的定义,甚至不知道可能有几 类或是否存在分类,因此,实际上事先没 有一个可以参照的分类目标;
散布准则
• 基于行列式的散布准则:
Jd Sw
• 基于不变量的散布准则:
J f tr ST1SW
准则函数的优化
• 穷举法优化:聚类准则函数的优化是组合 最优问题,是一个NP难题,将n个样本分到 c个类别有cn/c!种分法,穷举计算是不现实 的,只能寻找次优方法解决;
• 迭代最优化:随机设置初始聚类,计算将 样本x从Di聚类移到Dj聚类是否能够使准则 函数减小,减小则做此修改,否则不修改。
表示 ,其中
u j : X [0,1], j 1,..., m

m
u j (xi ) 1,i 1, 2,..., N
j 1
N
0 u j (xi ) N, j 1, 2,...m i0
这些函数被称为隶属函数
非监督模式识别的 基本思想和代表性方法-聚类
• 1. 需要对聚类有一定的数学上的要求或假定, 这就是聚类的准则;
• 在这种意义下,对样本的任何划分都可以 看作是一种聚类。
非监督模式识别的 基本思想和代表性方法-聚类
• 1. 需要对聚类有一定的数学上的要求或假 定,这就是聚类的准则;
• 2. 不同的聚类准则反映了对数据的不同认 识,也反映了对要寻找的规律的不同认识, 相应的可以设计出不同的算法。
使用的特定的准则的不同,产生的聚类结果是不同的
• 把相似的(或距离近的)样本聚为同一类, 而把不相似(或距离远的)样本归在其他 类。
• 基于相似度度量的聚类方法是实际中更常 用的方法。
本页课件内容源自清华张学工教授《模式识别》
本页课件内容源自清华张学工教授《模式识别》
聚类准则函数
类别数 c = 2
误差平方和准则
• 将样本分成c个子集D1, …, Dc,ni为第 i个子集的样本数,mi为样本均值:
为了完成一个聚类,必须遵循以下步骤:
特征选择(feature selection)必须适合的选择特征,尽可能多的包含 任务关心的信息。在特征中,使信息冗余减少和最小化是主要目标。
近邻测度(proximity measure)用于定量的测量两个特征向量如何相 似或不相似。
聚类准则(clustering criterion)这依赖于专家对“可判断”的解释, 聚类准则一蕴涵在数据集中类的类型为基础。
2. do 按照最近邻mi分类n个样本;
参数分别为 1,2 则混合概率为:
P

1 2
1x
11 1x
1 2
2x
1 2
1 x
1 2
1
2
,
1
1 2
1
2
,
x 1 x0
• 即使可以统计出 Px 1 θ 0.6 ,Px 0 θ 0.4
也无法求解出参数 1,2 。
部分不可辨识
• 假设样本x的概率密度是两个均匀分布的 混合:
p x θ p x 1, s1,t1 P 1 p x 2, s2,t2 P 2
本页课件内容源自清华张学工教授《模式识别》
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
10.4 动态聚类算法
• 不估计样本的概率分布,根据样本间的某 种距离或相似性度量来定义聚类;
• 模型就是样本在其所在空间里的概率密 度函数。
10.2 基于模型的方法
• 单峰子集分离(或称单峰子类分离)的 方法。
• 基本思想:假设每个聚类的样本在特征空间 里是集中在一起的,在分布密度上形成一个 局部的峰值,聚类分析就是寻找样本分布密 度的单峰,把每个单峰作为一个聚类的中心。
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
聚类算法(clustering algorithm)已经采用近邻测度和聚类准则,这 一步涉及到选择特定的算法,用于揭示数据集的聚类结构。
结果验证(validation of the result)一旦聚类算法得到结果,就必须 验证其正确性。
结果判定(interpretation of the result)在许多情况下,应用领域的 专家必须用其他实验证据和分析判定聚类结果,最后得出正确的结论。
Chapter 10 非监督模式识别与聚类
1
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
计算机分类 识别
计算机分析
10.1 引言
10.1 引言
• 根据一些给定的已知类别标号的样本,训 练某些学习机器,使其能够对未知类别的 样本进行分类
可辨识性
• 不可辨识:如果无论样本的数目有多 少,都不存在唯一的解 θ ,则称密度
px θ 是不可辨识的;
• 完全不可辨识:如果参数 θ 的任何部 分都无法求出,则称为完全不可辨识;
• 大多数的混合密度是可以辨识的,但 也存在某些混合密度是无法辨识的。
完全不可辨识
• 假设样本x的概率是由两个0-1分布混 合而成,两个分布的先验概率相等,
聚类定义
设X是数据集,即
X={x1,x2,…, } xN
定义X的m聚类R,讲X分割成m个集合(聚类)
C,1 …, C,m 使其满足下面三个条件:
1. Ci ,i 1,..., m
2.
C m
i1 i
X
3. Ci C j ,i j,i, j 1,...m
聚类定义
模糊集中的另一种定义
X的模糊聚类是将X分成m个类,由m个函数u j
具体的样本x。
• 因此x样本的产生概率为:
c
px θ px j,θ j Pj j 1
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
10.4.1 k-均值(C均值)聚类
1. begin initialize 样本数n,聚类数c,初始
聚类中心m1, …, mc;
U
t,1
1
1
0,
t
,
t x 1 otherwise
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
本页课件内容源自清华张学工教授《模式识别》
混合密度及可辨识性
• 从理论上讲,非监督学习可以看作是 一个混合密度的估计问题:
(1)所有样本都来自于来自百度文库种类别,c已知; (2)但不知道每个样本究竟来自哪一类!即可
本类别未被标记。
(3) 每种类别的先验概率 Pj 已知;
(4) 类条件概率的数学形式已知 p x j,θj ,
但参数 θ j 未知;
混合密度
• 样本可以看作是按如下方式产生的:
先以概率 Pj 决定其所属类别 j , 然后根据概率密度 p x j,θj 生成一个
样本; • 但知道它们是从若干个服从不同分布的
聚类中独立抽取出来的; • 要根据这些样本同时估计出各个聚类的
概率密度函数。
10.3 混合模型的估计
• 3. 非监督参数估计问题中 • 非监督最大似然估计法的基本思想与
3.2节(P45)中的最大似然估计方法相 同。
补充参考内容
10.1 引言 10.2 基于模型的方法 10.3 混合模型的估计 10.4 动态聚类算法 10.5 模糊聚类方法 10.6 分级聚类方法 10.7 自组织映射神经网络
相关文档
最新文档