《数据聚类》PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 聚类方法大致可以分为以下几类:
– 划分聚类方法 – 层次聚类方法 – 密度聚类方法 – 网格聚类方法 – 基于模型的方法 – 其它聚类方法
*
h
14
主要聚类方法的分类
• 划分聚类方法
– 划分方法将给定的数据集划分成k份,每份为 一个簇。划分方法通常采用迭代重定位技术, 尝试通过对象在簇之间的移动在改进划分。
• 网格聚类方法:把对象空间化为有限的数目单元,形成 一个网格结构,所有的聚类操作都在网格结构内进行。 它的优点是处理速度快。
– 最大化类中的相似性 – 最小化类间的相似性
*
h
2
什么是聚类分析?
聚类分析是根据“物以类聚”的道理, 对样本或指标进行分类的一种多元统计分 析方法,它们讨论的对象是大量的样本, 要求能合理地按各自的特性进行合理的分 类,没有任何模式可供参考或依循,即在 没有先验知识的情况下进行的。
2020/10/19
数据仓库与h 数据挖掘
3
聚类分析的基本思想
• 基本思想是认为研究的样本或变量之间存 在着程度不同的相似性(亲疏关系)。
• 根据一批样本的多个观测指标,找出一些 能够度量样本或变量之间相似程度的统计 量,以这些统计量作为分类的依据,把一 些相似程度较大的样本(或指标)聚合为 一类,把另外一些相似程度较大的样本 (或指标)聚合为一类,直到把所有的样 本(或指标)都聚合完毕,形成一个由小 到大的分类系统。
d ( i,j) ( x i1 y i1 ) p ( x i2 y i2 ) p .. ( .x .i n .y .i) n p
*
h
12
聚类分析中的数据类型
• 向量对象的距离算法
– 余弦度量实际上计算的是向量x与y之间夹角 的余弦值。
– 余弦度量对于平移与放大是不变的。
*
h
13
主要聚类方法的分类
*
h
16
主要聚类方法的分类
• 密度聚类方法
– 大部分划分方法基于对象 间的距离进行聚类,这样 的方法只能发现球形簇, 不能发现任意形状的簇。
– 基于密度的聚类方法的思 想是:只要邻域中的密度 超过某个阈值,就继续聚 类。
– 基于密度的聚类方法既可 以发现任意形状的簇,也 可以过滤噪声。
*
h
17
主要聚类方法的分类
• 曼哈顿距离
– 曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求 和后的结果
d ( i ,j ) x i 1 y i 1 x i2 y i2 . .x i . 2 y i2
• 明考斯基距离
– 是对多个距离度量公式的概括性的表述,这里的p值是一个变量, 当p=2的时候就得到了上面的欧氏距离。
2020/10/19
数据仓库与h 数据挖掘
4
聚类分析无处不在
• 谁经常光顾商店,谁买什么东西,买多少? • 按会员卡记录的光临次数、光临时间、性
别、年龄、职业、购物种类、金额等变量 聚类
这样商店可以…… • 识别顾客购买模式(如喜欢一大早来买酸
奶和鲜肉,习惯周末时一次性大采购) • 刻画不同的客户群的特征
*
h
15
主要聚类方法的分类
• 层次聚类方法
–
层次聚类方法创建给定数 据对象集的层次分解。一
般可以分为凝聚法与分裂
法。
– 凝聚法:也称为自底向上 的方法,开始将每个对象 形成单独的簇,然后逐次 合并相近的对象或簇,直 到满足终止条件。
– 分裂法:也称为自顶向下 的方法,开始将所有对象 放入一个簇中,每次迭代, 簇分裂为更小的簇,直到 满足终止条件。
.......... .......... ..........
dwenku.baidu.com
(1,
n)
d (2,n) ..........
..
0
*
h
11
标准度量的聚类描述
• 欧氏距离
– 衡量的是多维空间中各个点之间的绝对距离
d ( i,j) ( x i1 y i1 ) 2 ( x i2 y i2 ) 2 .. ( .x .i . n y .i) n 2
x11, x12, x13,......, x1p
........................
.x..i1.,.x..i.2,..x..i3.,.............,..x.i.p
x
n1,
xn
2,
xn3,......,
xnp
0
d
(1,2)
0
d
(1,3)
d (2,3)
0
*
h
9
对聚类方法的一些要求
• 可伸缩性 • 处理不同类型属性的能力 • 发现任意形状的聚类 • 用于决定输入参数的领域知识最小化 • 处理噪声数据和孤立点的能力 • 对于输入纪录的顺序不敏感 • 高维性 • 基于约束的聚类 • 可解释性和可用性
*
h
10
聚类分析中的数据类型
• 数据矩阵 • 相异度矩阵
生物学领域:
• 推导植物和动物的分类; • 对基因分类,获得对种群的认识 • 数据挖掘领域 • 作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的
类做进一步的研究
2020/10/19
数据仓库与h 数据挖掘
8
聚类与分类的差别
• 聚类与分类最主要的差别是聚类的样本不具 有类别标号,而分类的样本具有类别标号。
• 聚类是无监督学习(unsupervised learning), 而分类是有监督学习(supervised learning)。 因此,分类里有训练和测试,而聚类没有训 练。
• 尽管分类是识别对象组类别的有效手段,但 需要高昂的代价收集和标记训练样本集。因 此,聚类提供了一种新的处理模式:先把数 据集划分为组,然后给有限的组指定类别标 号。
聚类方法
• 聚类方法概述 • 划分聚类方法 • 层次聚类方法 • 密度聚类方法 • 其它聚类方法
*
h
1
什么是聚类
• 聚类(clustering),指将样本分到不同的组中 使得同一组中的样本差异尽可能的小,而 不同组中的样本差异尽可能的大。
• 聚类得到的不同的组称为簇(cluster)。 • 一个好的聚类方法将产生以下的聚类
2020/10/19
数据仓库与h 数据挖掘
5
h
6
h
7
聚类的应用领域
经济领域:
• 帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模 式来刻画不同的客户群的特征。
• 谁喜欢打国际长途,在什么时间,打到那里? • 对住宅区进行聚类,确定自动提款机ATM的安放位置 • 股票市场板块分析,找出最具活力的板块龙头股 • 企业信用等级分类 • ……
– 划分聚类方法 – 层次聚类方法 – 密度聚类方法 – 网格聚类方法 – 基于模型的方法 – 其它聚类方法
*
h
14
主要聚类方法的分类
• 划分聚类方法
– 划分方法将给定的数据集划分成k份,每份为 一个簇。划分方法通常采用迭代重定位技术, 尝试通过对象在簇之间的移动在改进划分。
• 网格聚类方法:把对象空间化为有限的数目单元,形成 一个网格结构,所有的聚类操作都在网格结构内进行。 它的优点是处理速度快。
– 最大化类中的相似性 – 最小化类间的相似性
*
h
2
什么是聚类分析?
聚类分析是根据“物以类聚”的道理, 对样本或指标进行分类的一种多元统计分 析方法,它们讨论的对象是大量的样本, 要求能合理地按各自的特性进行合理的分 类,没有任何模式可供参考或依循,即在 没有先验知识的情况下进行的。
2020/10/19
数据仓库与h 数据挖掘
3
聚类分析的基本思想
• 基本思想是认为研究的样本或变量之间存 在着程度不同的相似性(亲疏关系)。
• 根据一批样本的多个观测指标,找出一些 能够度量样本或变量之间相似程度的统计 量,以这些统计量作为分类的依据,把一 些相似程度较大的样本(或指标)聚合为 一类,把另外一些相似程度较大的样本 (或指标)聚合为一类,直到把所有的样 本(或指标)都聚合完毕,形成一个由小 到大的分类系统。
d ( i,j) ( x i1 y i1 ) p ( x i2 y i2 ) p .. ( .x .i n .y .i) n p
*
h
12
聚类分析中的数据类型
• 向量对象的距离算法
– 余弦度量实际上计算的是向量x与y之间夹角 的余弦值。
– 余弦度量对于平移与放大是不变的。
*
h
13
主要聚类方法的分类
*
h
16
主要聚类方法的分类
• 密度聚类方法
– 大部分划分方法基于对象 间的距离进行聚类,这样 的方法只能发现球形簇, 不能发现任意形状的簇。
– 基于密度的聚类方法的思 想是:只要邻域中的密度 超过某个阈值,就继续聚 类。
– 基于密度的聚类方法既可 以发现任意形状的簇,也 可以过滤噪声。
*
h
17
主要聚类方法的分类
• 曼哈顿距离
– 曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求 和后的结果
d ( i ,j ) x i 1 y i 1 x i2 y i2 . .x i . 2 y i2
• 明考斯基距离
– 是对多个距离度量公式的概括性的表述,这里的p值是一个变量, 当p=2的时候就得到了上面的欧氏距离。
2020/10/19
数据仓库与h 数据挖掘
4
聚类分析无处不在
• 谁经常光顾商店,谁买什么东西,买多少? • 按会员卡记录的光临次数、光临时间、性
别、年龄、职业、购物种类、金额等变量 聚类
这样商店可以…… • 识别顾客购买模式(如喜欢一大早来买酸
奶和鲜肉,习惯周末时一次性大采购) • 刻画不同的客户群的特征
*
h
15
主要聚类方法的分类
• 层次聚类方法
–
层次聚类方法创建给定数 据对象集的层次分解。一
般可以分为凝聚法与分裂
法。
– 凝聚法:也称为自底向上 的方法,开始将每个对象 形成单独的簇,然后逐次 合并相近的对象或簇,直 到满足终止条件。
– 分裂法:也称为自顶向下 的方法,开始将所有对象 放入一个簇中,每次迭代, 簇分裂为更小的簇,直到 满足终止条件。
.......... .......... ..........
dwenku.baidu.com
(1,
n)
d (2,n) ..........
..
0
*
h
11
标准度量的聚类描述
• 欧氏距离
– 衡量的是多维空间中各个点之间的绝对距离
d ( i,j) ( x i1 y i1 ) 2 ( x i2 y i2 ) 2 .. ( .x .i . n y .i) n 2
x11, x12, x13,......, x1p
........................
.x..i1.,.x..i.2,..x..i3.,.............,..x.i.p
x
n1,
xn
2,
xn3,......,
xnp
0
d
(1,2)
0
d
(1,3)
d (2,3)
0
*
h
9
对聚类方法的一些要求
• 可伸缩性 • 处理不同类型属性的能力 • 发现任意形状的聚类 • 用于决定输入参数的领域知识最小化 • 处理噪声数据和孤立点的能力 • 对于输入纪录的顺序不敏感 • 高维性 • 基于约束的聚类 • 可解释性和可用性
*
h
10
聚类分析中的数据类型
• 数据矩阵 • 相异度矩阵
生物学领域:
• 推导植物和动物的分类; • 对基因分类,获得对种群的认识 • 数据挖掘领域 • 作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的
类做进一步的研究
2020/10/19
数据仓库与h 数据挖掘
8
聚类与分类的差别
• 聚类与分类最主要的差别是聚类的样本不具 有类别标号,而分类的样本具有类别标号。
• 聚类是无监督学习(unsupervised learning), 而分类是有监督学习(supervised learning)。 因此,分类里有训练和测试,而聚类没有训 练。
• 尽管分类是识别对象组类别的有效手段,但 需要高昂的代价收集和标记训练样本集。因 此,聚类提供了一种新的处理模式:先把数 据集划分为组,然后给有限的组指定类别标 号。
聚类方法
• 聚类方法概述 • 划分聚类方法 • 层次聚类方法 • 密度聚类方法 • 其它聚类方法
*
h
1
什么是聚类
• 聚类(clustering),指将样本分到不同的组中 使得同一组中的样本差异尽可能的小,而 不同组中的样本差异尽可能的大。
• 聚类得到的不同的组称为簇(cluster)。 • 一个好的聚类方法将产生以下的聚类
2020/10/19
数据仓库与h 数据挖掘
5
h
6
h
7
聚类的应用领域
经济领域:
• 帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模 式来刻画不同的客户群的特征。
• 谁喜欢打国际长途,在什么时间,打到那里? • 对住宅区进行聚类,确定自动提款机ATM的安放位置 • 股票市场板块分析,找出最具活力的板块龙头股 • 企业信用等级分类 • ……