机器学习之聚类分析ppt课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
意一个。那么国王从格子(x1,y1)走到格子(x2,y2)最少需要多少 步?你会发现最少步数总是max( | x2-x1 | , | y2-y1 | ) 步 。有 一种类似的一种距离度量方法叫切比雪夫距离。 两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的切比雪夫距 离
13
距离选择的原则
• 要考虑所选择的距离公式在实际应用中有明确的意义。 如欧氏距离就有非常明确的空间距离概念。马氏距离有 消除量纲影响的作用。
14源自文库
层次聚类
• 凝聚方法(自底向上):一开始将每个对象作为单独的一组,然后 根据同类相近,异类相异的原则,合并对象,直到所有的组合并成 一个,或达到一个终止条件为止。
3
监督学习(supervised learning)
• 从给定的训练数据集中学习出一个函数(模型参数), 当新的数据到来时,可以根据这个函数预测结果
• 监督学习就是最常见的分类问题 • 监督学习的目标往往是让计算机去学习我们已经创建好
的分类模型 • 最典型的算法是KNN和SVM
4
非监督学习(unsupervised learning)
18
层次聚类——最短距离法
最短距离法进行聚类分析的步骤如下: (1)定义样品之间距离,计算样品的两两距离,得一距离阵记为 D(0) ,开始每个样品自成一类,显然这时Dij =dij。 (2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个新 类,记为Gr,即Gr = {Gp,Gq}。 (3)计算新类与其它类的距离。 (4)重复(2)、(3)两步,直到所有元素。并成一类为止。如 果某一步距离最小的元素不止一个,则对应这些最小元素的类可以 同时合并。
• 输入数据没有标记,也没有确定的结果 • 样本数据类别未知,需要根据样本间的相似性对样本集
进行聚类 • 非监督学习目标不是告诉计算机怎么做,而是让计算机
自己去学习怎样做
5
非监督学习(unsupervised learning)
无监督学习的方法分为两大类: • 基于概率密度函数估计的直接方法 • 基于样本间相似性度量的简介聚类方法:设法定出不同
路口,驾驶距离是两点间的直线距离吗?显然不是,除非 你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”, 也称为城市街区距离(City Block distance)。 两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的曼 哈顿距离
11
聚类的相似性度量
3. 切比雪夫距离 ( Chebyshev Distance ) 国际象棋中国王走一步能够移动到相邻的8个方格中的任
Dij min d XiGi , X jG j ij
17
层次聚类——最短距离法
将类Gp与Gq合并为Gr,则Gr与任意一类Gk间的距离为:
Dkr min d XiGk , X j Gr ij
min{ min Xi Gk , X j Gp
dij
,
min
xi Gk ,x j Gq
dij }
min{Dkp , Dkq}
9
聚类的相似性度量
1. 欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空
间中两点间的距离公式。 两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的
欧氏距离:
10
聚类的相似性度量
2. 曼哈顿距离(Manhattan Distance) 想象你在曼哈顿要从一个十字路口开车到另外一个十字
类别的核心或初始内核,然后依据样本与核心之间的相 似性度量将样本聚集成不同的类别
6
什么是聚类?
• “物以聚类,人以群分” • 所谓聚类,就是将相似的事物聚集在一 起,而将不相似
的事物划分到不同的类别的过程,是数据分析之中十分 重要的一种手段。
7
什么是聚类?
• 在图像分析中,人们希望将图像分割成具有类似性质的 区域
12
聚类的相似性度量
4. 马氏距离(Mahalanobis Distance) 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ, 则其中样本向量X到u的马氏距离表示为:
5. 汉明距离(Hamming Distance) 两个等长字符串s1与s2之间的汉明距离定义为将其中一
个变为另外一个所需要作的最小替换次数。例如字符串 “1111”与“1001”之间的汉明距离为2。
• 在文本处理中,人们希望发现具有相同主题的文本子集 • 在顾客行为分析中,人们希望发现消费方式类似的顾客
群,以便制订有针对性的客户管理方式和提高营销效率
这些情况都可以在适当的条件下归为聚类分析
8
聚类分析(Clustering Analysis)
• 聚类就是将数据集中的样本划分为若干个通常不相交的 子集,每个子集成为一个“簇”(Cluster)。
R
聚类分析
Clustering Analysis
主讲人:吕朝晖 西北大学智能信息处理实验室
1
目录
• 什么是聚类 • 距离度量方法 • 几种常见的聚类方法 • 练习
2
概述
• 监督学习(supervised learning) • 无监督学习(unsupervised learning) • 半监督学习(Semi-Supervised Learning)
19
层次聚类——最大距离法
最大距离法(complete linkage method)
Dpq
max
Xi Gp , X j Gq
dij
20
层次聚类——最大距离法
将类Gp与Gq合并为Gr,则Gr与任意一类Gk间的距离为:
Dkr
max
XiGk , X j Gr
dij
max{ max Xi Gk , X j Gpj
• 分裂方法(自顶向下):一开始将所有的对象置于一类,在迭代的 每一步中,一个类不断地分为更小的类,直到每个对象在单独的一 个类中,或达到一个终止条件。
15
层次聚类
特点:
• 类的个数不需事先定好 • 需确定距离矩阵 • 运算量要大,适用于处理小样本数据
16
层次聚类——最短距离法
• 两个类中距离最近的两个样本的距离作为这两个集合的距离
dij
,
max
xi Gk ,x j Gq
dij }
max{Dkp , Dkq}
21
层次聚类——中间距离法
相关文档
最新文档