4 第四章 聚类分析 -数据挖掘算法与应用(Python实现)-孙家泽-清华大学出版社
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
西安邮电大学
18
K-means算法概述
K-means算法对初始聚类中心较敏感,相似度 计算方式会影响聚类的划分。 常见的相似度计算方法有:
欧式距离 曼哈顿距离 闵可夫斯基距离
19
多选题 1分 对象i和对象j距离 d(i,j)满足性质( )
基于密度的聚类
➢常见的基于密度的方法:
➢ DBSCAN(具有噪声的基于密度的聚类方法) ➢ OPTICS(通过点排序识别聚类结构)
➢基于网格的方法把对象空间量化为有限个单元,形 成一个网络结构。所有的聚类操作都在这个网络结 构(即量化空间)上进行。这种方法主要优点是处 理速度很快,其处理时间通常独立于数据对象的个 数,而依赖于量化空间中每一维的单元数。
模式
聚类分析的目标
聚类分析的目标就是形成多个数据簇,并且数据 簇需要满足下面两个条件:
同一个簇内的数据尽量相似(high intra-class similarity);
不同簇的数据尽量不相似(low inter-class similarity)。
聚类分析常用算法介绍
常见的聚类分析算法有:
层次聚类算法
无论使用凝聚方法还是分裂方法,一个核心的问题是度量两 个簇间的距离,其中每个簇一般是一个对象集.
西安邮电大学
11
➢ 基于距离的聚类方法的缺点:只能发现球状的簇,难以发现任意形状的 簇。
➢ 基于密度的聚类:只要临近区域的密度(对象或数据点的数目)超过某 个临界值,就继续聚类。
优点:可以过滤掉“噪声”和“离群点”,发现任意形状的簇
第四章聚类分析
西安邮电大学
1
聚类分析
1. 聚类分析 2.基于划分的聚类方法 3.基于层次的聚类方法 4.基于密度的聚类方法 5.基于概率的聚类方法 6.聚类图数据
7.聚类评估 西安邮电大学
2
“物以类聚,人以群分”
➢ 聚类(簇):数据对象的集合
是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不 同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样 的簇进行描述的过程。 它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同 簇的样本应该足够不相似
聚类分析
将物理或抽象对象的集合分组成为由类似的对象组成的多个 类的过程
➢ 聚类是一种无指导的学习:没有预定义的类编号
➢ 机器学习根据学习的方式可以分为有监督学习和无监督学习 ➢ 1)有监督学习(supervised learning) 从给定的训练数据集中
学习出一个函数(模型参数),当新的数据到来时,可以根 据这个函数预测结果。监督学习的训练集要求包括输入输出 ,也可以说是特征和目标,训练集中的目标是由人标注的。 有监督学习就是最常见的分类问题。 ➢ 2)无监督学习(unsupervised learning) 输入的数据没有被标 记,也没有确定的结果。样本数据类别未知,需要根据样本 间的相似性对样本集进行聚类,试图使类内差距最小化,类 间差距最大化。无监督学习就是最常见的聚类问题。
基于划分的聚类算法 基于层次的聚类算法 基于密度的聚类算法 基于概率的聚类算法 ●基于图和网络的聚类方法
西安邮电大学
7
划分聚类算法
Байду номын сангаас
基于划分的方法(Partition-based methods): 划分方法是将数据对象划分成不重叠的子集(簇),
使得每个数据对象恰在一个子集中。给定一个n个对象集 合,划分方法构建数据的k个分区,其中每个分区表示一 个簇,并且k≤n。也就是说,把数据划分为k个组,使得每 个组至少包含一个对象。也就是说划分方法在数据集上进 行一层划分。 典型的划分方法有:
k-means(K-均值)算法 k-medoids(K-中心点)算法
西安邮电大学
8
层次聚类算法
层次法:层次方法创建给定数据对象集的层次分解。 根据层次分解如何形成,层次方法可以分为凝聚的或 分裂的方法。 常见的层次法有: BIRCH(利用层次方法的平衡迭代规约和聚类) AGNES(凝聚式层次聚类) DLANA(分裂式层次聚类)
➢对于许多空间数据挖掘问题(包括聚类),使用网 格通常是一种有效的方法。因此,基于网格的方法 可以与其他聚类方法(如基于密度的方法和层次方 法)集成。
单选题 1分
聚类分析属于( )
A 有监督学习 B 无监督学习 C 半监督学习 D 强化学习
提交
15
聚类分析
1. 聚类分析 2.基于划分的聚类方法 3.基于层次的聚类方法 4.基于密度的聚类方法 5.基于概率的聚类方法 6.聚类图数据
典型的划分方法有:
k-means(K-均值)算法 k-medoids(K-中心点)算法
西安邮电大学
17
K-means算法概述
k-means算法,也被称为k-平均或k-均值算法,
是一种使用最广泛的聚类算法。 k-means算法接受输入量k,然后将n个数据
对象划分为 k个聚类,从而使生成的每个聚 类(簇)内紧凑、类间独立。 聚类结果的相似度是利用各聚类中对象的均 值所获得一个“聚类中心”来进行计算的。
➢ 模式识别 ➢ 空间数据分析
在GIS系统中,对相似区域进行聚类,产生主题地图 检测空间聚类,并给出它们在空间数据挖掘中的解释 图像处理
➢ 商务应用中,帮助市场分析人员发现不同的顾客 群,对目标用户群体进行划分。
➢ 万维网
对WEB上的文档进行分类 对WEB日志的数据进行聚类,以发现相同的用户访问
7.聚类评估 西安邮电大学
16
4.2基于划分的聚类算法
基于划分的方法(Partition-based methods):
划分方法是将数据对象划分成不重叠的子集(簇),使得每个数据对 象恰在一个子集中。给定一个n个对象集合,划分方法构建数据的k个分 区,其中每个分区表示一个簇,并且k≤n。也就是说,把数据划分为k个 组,使得每个组至少包含一个对象。也就是说划分方法在数据集上进行 一层划分。
西安邮电大学
9
层次聚类算法
➢对给定数据对象集合进行层次分解
自底向上(凝聚) 自顶向下(分裂) 第 4 步 缺点:
第3步
a, b, c, d, e c, d, e
合并或分裂的步骤
不能被撤销
第2步
d, e
第1步
a, b
分裂的(DIANA) 第0步 第1步 第2步 第3步
abcde
第0步
第4步
凝聚的(AGENS)