中科大模式识别第5章介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总的类内离散度矩阵
Sw
P S
j j 1
c j 1
j
类间离散度矩阵
Sb
Pj (m j m )( m j m )T
三者之间有何关系?
总的离散度矩阵
1 St n
k 1
n
( X k m )( X k m )T
§5.2 聚类准则
常用聚类准则函数 离散度准则函数 三个离散度矩阵之间的关系
St S w Sb
1 n St ( X k m )( X k m )T n k 1 n 1 c j ( X kj m )( X kj m )T n j 1 k 1 nj c n j 1 j j T ( X m )( X m ) k k n n j 1 j k 1
特征 映射
模式
特征空间
相似性 计算 聚类 优化
聚类结果
§5.1 问题概述
聚类分析 两个要素 特征 相似性测度 一个准则 聚类准则 特征选择是基础
相似度计算是依据
聚类优化是关键
相辅相成的三位一体
§5.1 问题概述
特征选择
所选特征 形状
尺寸 线种
颜色
§5.1 问题概述
相似性测度 不变特性 平移 旋转 尺度
问题概述
聚类准则 基于分裂的聚类算法 基于合并的聚类算法 动态聚类算法
近邻函数值准则聚类算法 最小张树聚类算法
§5.1 问题概述
有监督分类 无监督分类 如何分类?
无教师分类
利用样本在几何上所表现出的相似性
聚类分析
§5.1 问题概述
聚类分析 聚类方法:对于给定特征的两个样本,依照相似性测度 计算其相似性,若相似性的度量值大于给定的阈值,则 判它们属于同一个类别,否则判它们属于不同的类别。
距离测度 :欧氏距离
Y Y
Y
X
X
X
§5.1 问题概述
量纲
量纲(physical dimension)是指物理量的基本属性。物理学的研究 可以定量地描述各种物理现象,描述中所采用的各类物理量之间有 着密切的关系,即它们之间具有确定的函数关系。为了准确地描述 这些关系,物理量可分为基本量和导出量,一切导出量均可从基本 量中导出,由此建立了整个物理量之间函数关系,这种关系通常称 为量制。以给定量制中基本量量纲的幂的乘积表示某量量纲的表达 式,称为量纲式或量纲积。它定性地表达了导出量与基本量的关系, 对于基本量而言,其量纲为其自身。在物理学发展的历史上,先后 曾建立过各种不同的量制: CGS 量制、静电量制、高斯量制等。 1971 年后,国际上普遍采用了国际单位制(简称SI),选定了由 7 个基本量构成的量制,导出量均可用这7个基本量导出。7个基本量 的量纲分别用长度L、质量M、时间T、电流I、温度Θ、物质的量N 和光强度J表示。 量纲是表征物理量的性质,单位是表征物理量大小或数量的标准。
c
Jl
j 1
Pj D * j
聚类总误差
类别wj的类内平均平方距离和
D* j
1 2 Cn j
k .l 1 l k
nj
l Xk X j j
2
最小化
1 Jl n
j 1
c
n j D* j
§5.2 聚类准则
常用聚类准则函数 类间平方距离和准则函数J b
J b1
全体样本的均值向量
模式识别
中国科学技术大学 汪增福
第一章 绪论 第二章 统计模式识别中的几何方法 第三章 统计模式识别中的概率方法 第四章 分类器的错误率 第五章 统计模式识别中的聚类方法 第六章 结构模式识别中的句法方法 第七章 总结
第五章 统计模式识别中的聚类方法
本章主要内容
主要讨论类别属性未知情况下Βιβλιοθήκη Baidu练样本的分类问题。
j
Pj S j Pj (m j m )(m j m )T
j 1 j 1
1 Pj [ nj j 1
c
j j T ( X m )( X m ) ] k k k 1
nj
§5.2 聚类准则
常用聚类准则函数 离散度准则函数 三个离散度矩阵之间的关系 St S w Sb nj c 1 St Pj [ ( X kj m )( X kj m )T ] n j k 1 j 1 n c 1 j Pj [ ( X kj m j (m m j ))( X kj m j (m m j ))T ] n j k 1 j 1 n c 1 Pj [ ( X kj m j )( X kj m j )T (m j m )(m j m )T ] n j k 1 j 1
j 1
c
(m j m )T (m j m )
总的类间距离
Pj ( m j m ) T ( m j m )
J b2
j 1
c
1 c n j ( m j m )T ( m j m ) n j 1
最大化
§5.2 聚类准则
常用聚类准则函数 平均类间平方距离准则函数J b
聚类总误差
聚类中心 类别wj的样本均值
类别wj的样本子集中的第k个样本
最小化
§5.2 聚类准则
常用聚类准则函数 误差平方和准则函数Je 适用范围: 1. 同类样本分布相对密集; 2. 各类别所包含样本数相差不大、类间距离较大。
样本数较多的类别发生分裂
§5.2 聚类准则
常用聚类准则函数 加权平均平方距离和准则函数J l 类别wj发生的先验概率
1 J b3 2 Cc
k .l 1 l k
T ( m m ) k l ( m k ml )
c
平均类间平方距离
最大化
§5.2 聚类准则
常用聚类准则函数 离散度准则函数 类内离散度矩阵
1 Sj nj
c
k 1
nj
( X kj m j )( X kj m j )T
j 1,2,...c
§5.1 问题概述
量纲和单位对分类的影响
§5.2 聚类准则
好的聚类准则的标准 把属于同一个类别的样本聚在一起 把不属于同一个类别的样本分离开 常用聚类准则函数 误差平方和准则函数Je 类别数
c nj
类别wj的样本子集所包含 的样本个数
j k 2
J e X m j
j 1 k 1