聚类PPT -第一次
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
处理不同类型属性的能力
使输入参数的领域知识最小化 增量聚类
高维性
基于约束的聚类
对输入数据记录的顺序不敏感
可解释性和可用性
2.传统聚类算法分类
2.1 划分法:K-means
2.2 层次法:BIRCH
K-medoids
2.3 基于密度方法: DBSCAN
2.4 基于网格方法: 2.5 基于模型方法: STING EM
2.1.1 K-means算法
• 输入: k: 簇的数目 D:包含n个对象的数据集 • 输出: k个簇的集合 • 方法: (1)从D中任意选择k个对象作为初始质心; (2)repeat (3)根据簇中对象的均值,将每个对象指派到最近的簇; (4)更新簇均值,即计算每个簇中对象的均值; (5)until 不在发生变化
任意选择 k对象作 为初始中 心
7 6 5 4 3 2
将剩下的 对象分配 给最近的wenku.baidu.com中心簇
7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
2
1
1
0
0 0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
K=2
10 9
随机选择一个非中心对象Or
10
如果S<0,则 交换两个中 心
K-means算法流程
K-means算法
• 算法复杂度:O(tkdn) • 优点:实现简单、广泛应用于实际问题 • 缺点:(1)k值即输入参数选择对结果影响大且 需要人工给定 (2)对噪声和离群值敏感 (3)很难处理非球状簇
2.1.2 K-medoids算法流程
10 10
10
9 8
9
9
8
8 7 6 5 4 3
K-medoids算法
• 时间复杂度:O(k(n-k)2) • 优点: (1)对输入顺序不敏感 (2)能处理不同类型的数据 (3)对噪声和孤立点数据不敏感 • 缺点: (1)产生大量非必要重复计算 (2)计算开销大
3.流数据聚类算法
3.1 Stream算法 输入: n 输入数据 输出:m 质心 方法:(1)对最初的m 个输入数据进行聚类得到2k 称为1级带权质心; (2)repeat m次,得到m个一级带权质心; (3)对这m 个1 级带权质心再进行聚类得到 的2k是一个2级带权质心; (4)repeat (5)until 得到最终的2k质心。
8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
计算替换的 成本S
9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
PAM算法
• 输入: k:结果簇的个数 D:包含n个对象的数据集合 • 输出:k个簇的集合 • 方法: (1)从D中任意选择k个对象作为初始的代表对象或种子; (2)repeat (3)将每个剩余对象指派到最近的代表对象所代表的簇; (4)随机的选择一个非代表对象Or; (5)计算用Or代替Oj 的总代价S; (6)if S<0,then 用Or替换Oj,形成新的k个代表对象的集 合; (7)until 不发生变化
Stream算法
Stream算法
• 优点:有更好的性能产生高质量的聚类结果
• 缺点:无法算出任意时刻当前的聚类结果,相当 于批处理 聚类
谢谢,请老师指正
聚类
西北民族大学
主要内容
1.无监督学习 2.传统的聚类算法 3.流数据聚类算法
1.无监督学习
1.1 监督学习
1.2 无监督学习 1.3 半监督学习
1.2 无监督学习
1.2.1 数据挖掘 指从大量数据中提取或“挖掘”知识 数据挖掘中的无监督学习 被称作聚类或者聚类 分析
聚类
1.2.2 定义 将物理或抽象的对象分成相似对象类的过程称为聚类 1.2.3 要求 可伸缩性 发现任意形状的簇 处理噪声数据的能力