哈工大模式识别课程10非监督学习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
? 有监督学习方法的目的就是识别事物 ,识别的结果表现 在给待识别数据加上了标号。因此训练样本集必须由带 标号的样本组成。而 非监督学习方法只有要分析的数据 集本身,预先没有什么标号。如果发现数据集呈现某种 聚集性,则可按自然的聚集性分类,但不以与某种预先 的分类标号对上号为目的。
6
有监督学习与无监督学习的区别
23
【引言】
相似性度量:以某种距离定义 直观理解:同一类的样本的特征向量应是相互靠近的。 ——前提:特征选取合理,能反映所求的聚类关系。
与基于密度函数的方法的关系: 概念上相互关联,因密度估计也是在样本间距离的基础上
的。 具体关系取决于具体数据情况。
24
【动态聚类方法】
? 动态聚类方法的任务: 将数据集划分成一定数量的子集, 例如将一个数据集 划分成三个子集,四个子集等。因此要划分成多少个 子集往往要预先确定,或大致确定,这个子集数目在 理想情况下能够体现数据集比较合理的划分。
7
无监督学习方 法的分类
? 基于概率密度函数估计的方法 :指设法找到各 类别在特征空间的 分布参数再进行分类。??
? 基于样本间相似性度量的方法 :直接按样本间 的相似性,或彼此间在特征空间中的距离长短 进行分类。其原理是设法定出不同类别的核心, 然后依据样本与这些核心之间的相似性度量, 将样本聚集成不同类别。 如何聚类则取决于聚 类的准则函数 ,以使某种聚类准则达到极值为 最佳。
? 两种聚类方法:
迭代的动态聚类方法 和非迭代的分级聚类方法
8
2. 单峰子集(类)的分离方法
9
【基本思想】
? 思想:把特征空间分为若干个区域, 在每个区域上混合概率密度函数是单 峰的,每个单峰区域对应一个类别。
10
直接 方法
【一维空间中的单峰子集分离】
?一维空间中的单峰分离: 对样本集KN={xi}应用直方图/Parzen窗 方法估计概率密度函数,找到概率密度函数的峰以及峰之间的谷底, 以谷底为阈值对数据进行分割。
?1. 引言 ?2. 单峰子集(类)的分离方法 ?3. 类别分离的间接方法 ?4. 分级聚类方法
1
1. 引言
2
引言
? 有监督学习(supervised learning) : 分类器设计方法是在样本集中的类别标签 已知的条件下进行的,这些样本称为训练 样本。在样本标签已知的情况下,可以统 计出各类训练样本不同的描述量,如其概 率分布,或在特征空间分布的区域等,利 用这些参数进行分类器设计。??
【引言】
回顾: 直接方法: 1. 估计概率密度函数 —— 困难 2. 寻找密度函数中的单峰 间接方法:考查样本这间的相似性,根据相似性把样本集划分 为若干子集,使某种表示聚类质量的准则函数最优。
不同的聚类方法实际上反映了对聚类的不同理解: 混合模型:数据服从混合分布,聚类对应于各分布 单峰子集:聚类即概率分布中的单峰,即样本分布相对集中的 区域 间接方法:相似的样本聚类,不同聚类的样本不相似
t?
L
argmin
k ?1
p(k )
11
【多维空间投影方法】
基本思路:
多维空间中直接划分成单峰区域比较困难,而一维空间中则比较简单。 ?? 寻找一个坐标系统,在该系统下,数据的混合概率密度函数可以用边缘概率 密度表示。 ?? 如果某边缘概率密度函数呈现多峰形式,则在此坐标轴上(一维)作分割。
做法:把样本投影到某一一维坐标轴(按某种准则),在这一 维上求样本的概率密度(边缘概率密度),根据这一概率密度 函数的单峰划分子集。
4
广泛的应用领域
? 商务:帮助市场分析人员从客户信息库中发现不同的 客户群,用购买模式来刻画不同的客户群的特征
? 土地使用:在地球观测数据库中识别土地使用情况相 似的地区
? 保险业:汽车保险单持有者的分组,标识那些有较高 平均赔偿成本的客户。
? 城市规划:根据房子的类型,价值和地理分布对房子 分组
? 生物学:推导植物和动物的分类,对基因进行分类 ? 地震研究: 根据地质断层的特点把已观察到的地震中
心分成不同的Байду номын сангаас。
5
有监督学习与无监督学习的区别
? 有监督学习方法必须要有训练集与测试样本。在训练集 中找规律,而对测试样本使用这种规律;而 非监督学习 没有训练集这一说, 只有一组数据,在该组数据集内寻 找规律。
? 用已知类别的样本训练分类器,以求对训 练集的数据达到某种最优,并能推广到对 新数据的分类。
3
引言
? 无监督学习(unsupervised learning) : 样本数据类别未知,需要根据样本间的相 似性对样本集进行分类(聚类,clustering), 试图使类内差距最小化,类间差距最大化。
? 利用聚类结果,可以提取数据集中隐藏的 信息,对未来数据进行预测和分类。应用 于数据挖掘、模式识别、图像处理、经济 学……
? 无监督学习方法在寻找数据集中的规律性 ,这种规律 性并不一定要达到划分数据集的目的,也就是说 不一 定要“分类”。这一点是比有监督学习方法的用途要 广泛。譬如分析一堆数据的主分量,或分析数据集有 什么特点都可以归于无监督学习方法的范畴。
? 用无监督学习方法分析数据集的主分量与用 K-L变换 计算数据集的主分量又有区别。应该说后者从方法上 讲不是一种学习方法。因此 用K-L变换找主分量不属 于无监督学习方法,即方法上不是 。而通过学习逐渐 找到规律性这体现了学习方法这一点。在人工神经元 网络中寻找主分量的方法属于无监督学习方法。
15
【基于对称集性质的单峰子集分离法】
对称集的定义:
16
【基于对称集性质的单峰子集分离法】
基本步骤:
17
【基于对称集性质的单峰子集分离法】
基本步骤:
18
【单峰子集分离的迭代算法】
概念:
19
【单峰子集分离的迭代算法】
20
【单峰子集分离的迭代算法】
目标:
步骤:
21
3. 类别分离的间接方法
22
(如果这一维上只有一个峰,则寻找下一个投影方向。)
投影方向:使方差最大的方向, 即协方差阵本征值最大的本征 向量方向。
12
【投影方法】
基本步骤
13
【投影方法】
直方图法求概率密度函数:
14
【存在问题】
问题:这样投影有时并不能产生多峰的边缘密度函数
-方差最大的准则有时并不一定最有利于聚类。
失败的例子
6
有监督学习与无监督学习的区别
23
【引言】
相似性度量:以某种距离定义 直观理解:同一类的样本的特征向量应是相互靠近的。 ——前提:特征选取合理,能反映所求的聚类关系。
与基于密度函数的方法的关系: 概念上相互关联,因密度估计也是在样本间距离的基础上
的。 具体关系取决于具体数据情况。
24
【动态聚类方法】
? 动态聚类方法的任务: 将数据集划分成一定数量的子集, 例如将一个数据集 划分成三个子集,四个子集等。因此要划分成多少个 子集往往要预先确定,或大致确定,这个子集数目在 理想情况下能够体现数据集比较合理的划分。
7
无监督学习方 法的分类
? 基于概率密度函数估计的方法 :指设法找到各 类别在特征空间的 分布参数再进行分类。??
? 基于样本间相似性度量的方法 :直接按样本间 的相似性,或彼此间在特征空间中的距离长短 进行分类。其原理是设法定出不同类别的核心, 然后依据样本与这些核心之间的相似性度量, 将样本聚集成不同类别。 如何聚类则取决于聚 类的准则函数 ,以使某种聚类准则达到极值为 最佳。
? 两种聚类方法:
迭代的动态聚类方法 和非迭代的分级聚类方法
8
2. 单峰子集(类)的分离方法
9
【基本思想】
? 思想:把特征空间分为若干个区域, 在每个区域上混合概率密度函数是单 峰的,每个单峰区域对应一个类别。
10
直接 方法
【一维空间中的单峰子集分离】
?一维空间中的单峰分离: 对样本集KN={xi}应用直方图/Parzen窗 方法估计概率密度函数,找到概率密度函数的峰以及峰之间的谷底, 以谷底为阈值对数据进行分割。
?1. 引言 ?2. 单峰子集(类)的分离方法 ?3. 类别分离的间接方法 ?4. 分级聚类方法
1
1. 引言
2
引言
? 有监督学习(supervised learning) : 分类器设计方法是在样本集中的类别标签 已知的条件下进行的,这些样本称为训练 样本。在样本标签已知的情况下,可以统 计出各类训练样本不同的描述量,如其概 率分布,或在特征空间分布的区域等,利 用这些参数进行分类器设计。??
【引言】
回顾: 直接方法: 1. 估计概率密度函数 —— 困难 2. 寻找密度函数中的单峰 间接方法:考查样本这间的相似性,根据相似性把样本集划分 为若干子集,使某种表示聚类质量的准则函数最优。
不同的聚类方法实际上反映了对聚类的不同理解: 混合模型:数据服从混合分布,聚类对应于各分布 单峰子集:聚类即概率分布中的单峰,即样本分布相对集中的 区域 间接方法:相似的样本聚类,不同聚类的样本不相似
t?
L
argmin
k ?1
p(k )
11
【多维空间投影方法】
基本思路:
多维空间中直接划分成单峰区域比较困难,而一维空间中则比较简单。 ?? 寻找一个坐标系统,在该系统下,数据的混合概率密度函数可以用边缘概率 密度表示。 ?? 如果某边缘概率密度函数呈现多峰形式,则在此坐标轴上(一维)作分割。
做法:把样本投影到某一一维坐标轴(按某种准则),在这一 维上求样本的概率密度(边缘概率密度),根据这一概率密度 函数的单峰划分子集。
4
广泛的应用领域
? 商务:帮助市场分析人员从客户信息库中发现不同的 客户群,用购买模式来刻画不同的客户群的特征
? 土地使用:在地球观测数据库中识别土地使用情况相 似的地区
? 保险业:汽车保险单持有者的分组,标识那些有较高 平均赔偿成本的客户。
? 城市规划:根据房子的类型,价值和地理分布对房子 分组
? 生物学:推导植物和动物的分类,对基因进行分类 ? 地震研究: 根据地质断层的特点把已观察到的地震中
心分成不同的Байду номын сангаас。
5
有监督学习与无监督学习的区别
? 有监督学习方法必须要有训练集与测试样本。在训练集 中找规律,而对测试样本使用这种规律;而 非监督学习 没有训练集这一说, 只有一组数据,在该组数据集内寻 找规律。
? 用已知类别的样本训练分类器,以求对训 练集的数据达到某种最优,并能推广到对 新数据的分类。
3
引言
? 无监督学习(unsupervised learning) : 样本数据类别未知,需要根据样本间的相 似性对样本集进行分类(聚类,clustering), 试图使类内差距最小化,类间差距最大化。
? 利用聚类结果,可以提取数据集中隐藏的 信息,对未来数据进行预测和分类。应用 于数据挖掘、模式识别、图像处理、经济 学……
? 无监督学习方法在寻找数据集中的规律性 ,这种规律 性并不一定要达到划分数据集的目的,也就是说 不一 定要“分类”。这一点是比有监督学习方法的用途要 广泛。譬如分析一堆数据的主分量,或分析数据集有 什么特点都可以归于无监督学习方法的范畴。
? 用无监督学习方法分析数据集的主分量与用 K-L变换 计算数据集的主分量又有区别。应该说后者从方法上 讲不是一种学习方法。因此 用K-L变换找主分量不属 于无监督学习方法,即方法上不是 。而通过学习逐渐 找到规律性这体现了学习方法这一点。在人工神经元 网络中寻找主分量的方法属于无监督学习方法。
15
【基于对称集性质的单峰子集分离法】
对称集的定义:
16
【基于对称集性质的单峰子集分离法】
基本步骤:
17
【基于对称集性质的单峰子集分离法】
基本步骤:
18
【单峰子集分离的迭代算法】
概念:
19
【单峰子集分离的迭代算法】
20
【单峰子集分离的迭代算法】
目标:
步骤:
21
3. 类别分离的间接方法
22
(如果这一维上只有一个峰,则寻找下一个投影方向。)
投影方向:使方差最大的方向, 即协方差阵本征值最大的本征 向量方向。
12
【投影方法】
基本步骤
13
【投影方法】
直方图法求概率密度函数:
14
【存在问题】
问题:这样投影有时并不能产生多峰的边缘密度函数
-方差最大的准则有时并不一定最有利于聚类。
失败的例子