聚类PPT -第一次 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

处理不同类型属性的能力
使输入参数的领域知识最小化增量聚类
高维性
基于约束的聚类
对输入数据记录的顺序不敏感
可解释性和可用性
2.传统聚类算法分类
2.1 划分法：K-means
2.2 层次法：BIRCH
K-medoids
2.3 基于密度方法： DBSCAN
2.4 基于网格方法: 2.5 基于模型方法: STING EM
2.1.1 K-means算法
• 输入： k: 簇的数目 D：包含n个对象的数据集 • 输出： k个簇的集合 • 方法：（1）从D中任意选择k个对象作为初始质心；（2）repeat （3）根据簇中对象的均值，将每个对象指派到最近的簇；（4）更新簇均值，即计算每个簇中对象的均值；（5）until 不在发生变化
任意选择 k对象作为初始中心
7 6 5 4 3 2
将剩下的对象分配给最近的wenku.baidu.com中心簇
7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
2
1
1
0
0 0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
K=2
10 9
随机选择一个非中心对象Or
10
如果S<0,则交换两个中心
K-means算法流程
K-means算法
• 算法复杂度：O(tkdn) • 优点：实现简单、广泛应用于实际问题 • 缺点：（1）k值即输入参数选择对结果影响大且需要人工给定（2）对噪声和离群值敏感（3）很难处理非球状簇
2.1.2 K-medoids算法流程
10 10
10
9 8
9
9
8
8 7 6 5 4 3
K-medoids算法
• 时间复杂度：O（k(n-k)2） • 优点：（1）对输入顺序不敏感（2）能处理不同类型的数据（3）对噪声和孤立点数据不敏感 • 缺点：（1）产生大量非必要重复计算（2）计算开销大
3.流数据聚类算法
3.1 Stream算法输入： n 输入数据输出：m 质心方法：（1）对最初的m 个输入数据进行聚类得到2k 称为1级带权质心；（2）repeat m次,得到m个一级带权质心；（3）对这m 个1 级带权质心再进行聚类得到的2k是一个2级带权质心；（4）repeat （5）until 得到最终的2k质心。
8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
计算替换的成本S
9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
PAM算法
• 输入： k:结果簇的个数 D：包含n个对象的数据集合 • 输出：k个簇的集合 • 方法：（1）从D中任意选择k个对象作为初始的代表对象或种子；（2）repeat （3）将每个剩余对象指派到最近的代表对象所代表的簇；（4）随机的选择一个非代表对象Or; （5）计算用Or代替Oj 的总代价S；（6）if S<0，then 用Or替换Oj，形成新的k个代表对象的集合；（7）until 不发生变化
Stream算法
Stream算法
• 优点：有更好的性能产生高质量的聚类结果
• 缺点：无法算出任意时刻当前的聚类结果，相当于批处理聚类
谢谢，请老师指正
聚类
西北民族大学
主要内容
1.无监督学习 2.传统的聚类算法 3.流数据聚类算法
1.无监督学习
1.1 监督学习
1.2 无监督学习 1.3 半监督学习
1.2 无监督学习
1.2.1 数据挖掘指从大量数据中提取或“挖掘”知识数据挖掘中的无监督学习被称作聚类或者聚类分析
聚类
1.2.2 定义将物理或抽象的对象分成相似对象类的过程称为聚类 1.2.3 要求可伸缩性发现任意形状的簇处理噪声数据的能力