模式分类(通俗导论)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


ຫໍສະໝຸດ Baidu


以N个样本作为N个类别,计算每类间的相似度,形
一、 成相似度矩阵
在相似度矩阵中寻找最相似的两个类别,将这两 二、 类别合并
三、 从新计算各类别间的相似度,获得新的相似度矩

判断是否达到聚类终止的条件,如达到,聚类终止; 四、 否则转第二步。
C-均值聚类是动态聚类方法的一种 动态聚类方法的特点 在于聚类过程中通过不断地迭代来 完成,且在迭代中通常容许样本从一个聚合类中转移到 另一个聚合类中,动态聚类过程:
就是在X的K个邻域中,按出现最多的样本类别作为X 的类别。换言之,就是先对X的K个近邻一一找出他们 的类别做出一次表决。

上节介绍的模式分类器在学习状态时所利用的样本必须 都是已知类别的,因此,这种学习称为有监督学习。 但在一些实际的应用中,往往没有已知类别的样本可供 利用,甚至将提供的样本应分成几类都不知道。
X K Idx C sumD D
N*P的数据矩阵 表示将X划分为几类,为整数 N*1的向量,存储的是每个点的聚类标号 K*P的矩阵,存储的是K个聚类质心位置 1*K的和向量,存储的是类间所有点与该类质心点距离之和 N*K的矩阵,存储的是每个点与所有质心的距离
[…]=Kmeans(…,'Param1',Val1,'Param2',Val2,…)
假设一个学校里有60%男生和40%女生。女生穿裤子的人数和穿裙子的人数相

等,所有男生穿裤子。一个人在远处随机看到了一个穿裤子的学生。那么这 个学生是女生的概率是多少? 使用贝叶斯定理,事件A是看到女生,事件B是看到一个穿裤子的学生。我们 所要计算的是P(A|B)。 P(A)是忽略其它因素,看到女生的概率,在这里是40% P(A')是忽略其它因素,看到不是女生(即看到男生)的概率,在这里是60% P(B|A)是女生穿裤子的概率,在这里是50% P(B|A')是男生穿裤子的概率,在这里是100% P(B)是忽略其它因素,学生穿裤子的概率,P(B) = P(B|A)P(A) + P(B|A')P(A'), 在这里是0.5×0.4 + 1×0.6 = 0.8. 根据贝叶斯定理,我们计算出后验概率P(A|B) P(A|B)=P(B|A)*P(A)/P(B)=0.25 是男生的 P(A‘|B)= P(B|A')P(A')/P(B)=0.75. 可见,后验概率实际上就是条件概率。[1]
贝叶斯分类器(又称最优分类器)
贝叶斯分类器的分类原理是通过某对象的先验概率, 利用贝叶斯公式计算出其后验概率,即该对象属于某一 类的概率,选择具有最大后验概率的类作为该对象所属 的类。 采用贝叶斯分类器必须满足两个先决条件: 要决策的类别数是一定的。 2. 各类别总体的概率分布是已知的。
1.

近邻法将全部样本作为标注样本,根据所使用在待 识样本周围的近邻样本个数,又分为最近邻法和k-近邻 法

最近邻法在应用中也被称为模板匹配法,在模板匹 配法中,已知的样本被称为模板,将待识模式与模板逐 一比对,最相近的模板所属的类别就是待识模式的类别。
2.对最近法的一个明显的改进是k-近邻法,这个法则
下面要讨论的内容就是将未知类别的样本集划分成若
干子集(类),划分的直接成果,完成了样本的分类, 可能间接成果是确定了分类器的参数。
由于所用样本是没有类别标志的,因此通常称为无监
督学习。
无监督学习是以“物以类聚”为指导思想的,对未知类别的 样本集根据样本之间的相似度分类,相似的归为一类,不相 似的归为另一类。故这种模式聚类叫做聚类分析。
采用模式聚类,首先要解决两个问题: 一是如何衡量两个样本的相似程度(即模式相似性的测度)。 二是相似到什么程度归为一类(聚类准则)。



坐标系变换
旋转
平移
放大和缩小
距离相似函数特性
角度相似函数特性
不变性
不变性
不变性
不具有不变性
不具有不变性
不变性
为了评价聚类结果的好坏,必须定义准则函数。



模式相似 性测度 和 准则函数

聚类就变 成是准则 函数取极 值的优化 问题了。

模式聚类的三要素:
相似性测度、聚类准则、聚类算法。
选定相似性测度和聚类准则后,下面的问题是用什么算 法找出使准则函数取极值的最好聚类结果。
现有两种聚 类算法
非迭代的层 次聚类算法 迭代的动态 聚类算法
本讲只讲层次聚类算法。 层次聚类算法也称系统聚类法、分类聚类法。该方法的 流程图:


综上: 应用贝叶斯规则对模式x进行分类的分类器称为贝叶 斯分类器。 对于c类分类问题,按照决策规则可以吧特征向量空间 (或称模式空间)分成c个决策域,各个决策域的边界 称为决策边界。
本次不讲
用途: 对于线性不可分的样本集应该采用非线性分类 器。 近邻域法是一种典型的非线性分类器,也是一种非 参数模式识别的方法,与感知器算法一样,也不需要事 先给出先验概率和先验概率密度函数等知识,而是直接 对样本进行操作。
先把所有样本各自视为一类
计算类与类的相似性 选择相似性最大的一对类别合 并成一个新类 在新的类别划分下重复合并操 作直到满足停止条件。
显而易见层次聚类的性质:在某一级划分时归入同一 类的样本,在此后的划分中,他们永远属于同一类。 由上面的讨论可发现层次聚类徐要解决两个方面的问 题: 一、如何衡量类别的相似性, 二、聚类操作应该停留在哪一级上。


K-means聚类算法采用的是将N*P的矩阵X划分为K个类,使得类内对
象之间的距离最大,而类之间的距离最小。 使用方法: Idx = Kmeans(X,K) [Idx,C] = Kmeans(X,K) [Idx,C,sumD] = Kmeans(X,K) [Idx,C,sumD,D] = Kmeans(X,K) […] = Kmeans(…,’Param1’,Val1,’Param2’,Val2,…) 各输入输出参数介绍:
之模式分类
模式分类是模式识别的核心。
贝叶斯决策 分类器(是 其他的基础)
模式分 类器
非线性分类 器
线性分类器
事情还没有发生,要求这件事情发生的可能性的大小,是
先验概率.

事情已经发生,要求这件事情发生的原因是由某个因素 引起的可能性的大小,是后验概率. 后验概率是指在得到“结果”的信息后重新修正的概率, 如贝叶斯公式中的。是“知果寻因”问题中的"果"。先验 概率与后验概率有不可分割的联系,后验概率的计算要 以先验概率为基础。
这其中的参数Param1、Param2等,主要可以设置为如下: 1. ‘Distance’(距离测度) ‘sqEuclidean’ 欧式距离(默认时,采用此距离方式) ‘cityblock’ 绝度误差和,又称:L1 ‘cosine’ 针对向量 ‘correlation’ 针对有时序关系的值 ‘Hamming’ 只针对二进制数据 2. ‘Start’(初始质心位置选择方法) ‘sample’ 从X中随机选取K个质心点 ‘uniform’ 根据X的分布范围均匀的随机生成K个质心 ‘cluster’ 初始聚类阶段随机选择10%的X的子样本(此方法初始使用’sample’方 法) matrix 提供一K*P的矩阵,作为初始质心位置集合 3. ‘Replicates’(聚类重复次数) 整数
待聚类的样本
初始化 文本框
聚类
聚类 合理 不合理 修改聚 类
合理
聚类结 果
C-均值算法的指导思想是假定样本集中的全体样本 可分为c类,并选定c个聚类中心,然后根据最小距离原 则将每个样本分配到某一类中,之后不断迭代计算各类 的聚类中心,并依新的聚类中心调整聚类情况,直到迭 代收敛。


初始聚类中心的选择(初始聚类中心的选择与聚类结果 直接相关): 1)根据问题的性质,凭经验选择。 2)用前c个样本作为初始聚类中心。 3)将全部样本随机分为c类,以每类均值作为初始聚类 中心。 4)当样本数N较大时,先随机从中选择一部分样本采用 层次聚类法将其聚成c类,以每类的均值作为初始聚类 中心。
相关文档
最新文档