大数据之聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

总结
。。。
。。。
内容来源于网络,个人整理。
LOGO
将样本分配给距离其最近的中心向量 由这些样本构造不相交的聚类
确定中心
用各个聚类的中心向量作为新的中心
重复分组和确定中心的步骤,直至算法收敛。
K-Means算法步骤

步骤一:将所有对象随机分配到k个非空的簇中。 步骤二:计算每个簇的平均值,并用该平均值代表相应的值。 步骤三:根据每个对象与各个簇中心的距离,分配给最近的簇。 步骤四:转到步骤二,重新计算每个簇的平均值。这个过程不 断重复直到满足某个准则函数或者终止条件。终止(收敛)条 件可以是以下任意一个:没有(或者最小数目)数据点被重新 分配给不同的聚类;没有(或者最小数目)聚类中心再发生变 化;误差平方和(SSE)局部最小。
聚类算法
目前存在大量的聚类算法,算法的选择取决于数据的类型、聚类 的目的和具体的应用。大体上,主要的聚类算法分为这几大类。
聚类算法的衡量标准
可伸缩性
不同属性
解释性 -可用性
任意形状
基于约束
衡量聚 类算法 的优劣
领域最小化
高维度
记录顺序
K-Means聚类原理 为中心向量C1,C2,… ,Cn初始化K个种子 (即选择K个类的初始中心) 分组
大数据
聚类分析
yif
LOGO
主要内容
1
聚类分析 孤立点挖掘
聚类算法---K-MEANS
2
3
4
总结
什么是聚类分析?
聚类(簇):数据对象的集合
在同一个聚类(簇)中的对象彼此 相似 不同簇中的对象则相异
聚类分析
将物理或抽象对象的集合分组成为由类似的对象组成的 多个类的过程
聚类是一种无指导的学习:没有预定义的类 编号 聚类分析的数据挖掘功能
根据房子 的类型/ 价值和地 理位置对 其进行分 组。
孤立点挖掘
1
什么是孤立 点
一个数据集与其 他数据有着显著 区别的数据对象 的集合。
例如:运动员: Michael Jordon ,舒马赫, 布勃卡
2ห้องสมุดไป่ตู้
4 3
孤立点产生 原因
• 度量或执行 错误 • 数据变异的 结果
应用
• 信用卡欺骗 检测 • 移动电话欺 骗检测 • 客户划分 •
作为一个独立的工具来获得数据分布的情况 作为其他算法(如:特征和分类)的预处理步骤
聚类分析的典型应用
模式 识别 空间 数据 分析 万维 网
人脸识别
在GIS系统中,对相似区域进行聚类,产生主 题地图 检测空间聚类,并给出他们在空间数据挖掘 中的解释 图像处理 对WEB上的文档进行分类 对WEB日志的数据进行聚类,以发现相同的 用户访问模式
缺点: 绝大多数检验 是针对个体属 性的,而数据 挖掘要求在多 维空间中发现 孤立点。 大部分情况下 ,数据分布可 能是未知的。
基于距离的孤立点检测
为了解决统计学方法带来的一些限制,引入了基 于距离的孤立点检测 在不知道数据分布的情况下对数据进行多维分析
基于距离的孤立点:即DB(p,d),如果数据集合 S中的对象至少有p部分与对象o的距离大于d, 则对象o就是DB(p,d)。
K-Means算法
K-Means 算法的优缺点
1. 算法快速,简单 。 2. 对大数据集有较 高的效率并且是 可伸缩的。 3. 时间复杂度近于 线性,而且适合 挖掘大规模数据 集。
1. 在K-means算法中 K是事先给定的, 这个K的选定是难 以估计的。 2. 初始聚类中心的选 择对聚类结果有较 大的影响。 3. 当数据量非常大时 ,算法的时间开销 是非常大的。
聚类分析应用实例
市场 营销
帮市场分析 人员从客户 基本库中发 现不同的客 户群,从而 可以对不同 的客户群采 用不同的营 销策略。
土地 使用
保险业
城市 规划
地震 研究
将观测到 的震中点 沿板块断 裂进行聚 类,得出 地震高危 区。
在地球监 测数据库 中,发现 相同的土 地使用区 域。
发现汽车 保险中, 索赔率较 高的客户 群。
孤立点挖掘
给定一个N个数 据对象,以及预 期的孤立点数目 K与剩余的数据 有着显著差异的 头K个数据对象。
医疗分析 (异常)
基于统计的孤立点检测
统计的方法对于 给定的数据集合 假定了一个分布 或概率模型(例 如正态分布)。
使用依赖于以下 参数的不一致性 检( discordancy test) 数据分布 分布参数(e.g. 均值或方差 预期的孤立点 数
SSE=
dist(x,mj)
其中,k表示需要聚集的类的数目,Cj表示第j个聚类,mj表示 聚类Cj的聚类中心,dist(x,mj)表示数据点x和聚类中心mj之间 的距离。利用该准则可以使所生成的簇尽可能的紧凑和独立。
K-Means算法
特点:K-means算法的每个簇都是使用对象的 平均值来表示。 原始K-Means算法的缺陷:
挖掘基于距离的孤立点的高效算法: 基于索引的算法 嵌套—循环算法 基于单元的算法
基于偏离的孤立点检测
通过检查一组对象的的主要特征来确定孤立点 跟主要特征的描述相“偏离”的对象被认为是 孤立点 两种基于偏离的孤立点探测技术
序列异常技术 模仿人类从一系列推测类似的对象识别异常对 象的方式 OLAP 数据立方体技术 在大规模的多维数据中采用数据立方体来确定 异常区域。如果一个立方体的单元值显著的不同 于根据统计模型得到的期望值,则改单元值被认 为是一个异常,并用可视化技术表示。
结果好坏依赖于对初始聚类中心的选择 容易陷入局部最优解 对K值的选择没有准则可依循 对异常数据较为敏感 只能处理数值属性的数据 ……
K-Means算法
K-Means的变体
Bradley和Fayyad等:降低对中心的依赖,能适用 于大规模数据集 Dhillon等:调整迭代过程中重新计算中心方法, 提高性能 Zhang等:权值软分配调整迭代优化过程 Sarafis:将遗传算法应用于目标函数构建中 Berkh in等:应用扩展到了分布式聚类 还有:采用图论的划分思想,平衡聚类结果,将原 始算法中的目标函数对应于一个各向同性的高斯混 合模型
相关文档
最新文档