数据挖掘中聚类算法的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( ) 于约束的聚类 : 8基 在实际应用 中既要找到
满足 特定 的约束 ,又 要具 有 良好 聚类 特性 的数 据 分
组是 非 常具有 挑 战性 的 。
() 9 挖掘 出 的信息 是 可理解 的 和可用 的 。
2 数 据挖 掘 中聚 类分 析方 法 的分类 及常 用 的算 法
( 对 于输 入记 录顺 序不 敏感 : 聚类算 法对 3) 一些 于输入数据 的顺序 是敏感 的 , 同一 算法不 同顺 序 的 对
经 常使 用 欧几 里得 距 离 来 作 为相 似 性 度量 方法 , 但 基 于这样 的距 离 度量 的算 法 趋 向于发 现具 有 相 近密
( ) 人 参 数对 领 域 知识 的弱 依 赖 性 : 聚类 2输 在
度和尺寸的球状簇 。 但对于一个簇 , 可能是任意形状
的情 况 , 出能发 现任 意形 状簇 的算 法是 很重 要 的。 提
用 , 据挖 掘对 聚类 分 析方法 提 出 了不 同要求… 。 数 1 ( ) 伸 缩 性 : 指 聚类 算 法 不 论 对 于 小数 据 1可 是 集还 是大 数据集 , 应是 有效 的 。 都 研究 大容 量数 据集
的高 效聚类 方 法是数 据 挖掘必 须 面对 的挑 战 。
常具有挑战性 的,因为考虑到这样的数据可能高度 偏斜 并且 非 常稀 疏 。 ( 能够 发 现 任 意形 状 的 聚类 : 多 聚类 算 法 7) 许
作 者简介 : 锐利 (17 一), , 原理 工 大学 计 算机 李 92 女 太 科 学 与 技 术 学 院在 职 工 程 硕 士 研 究 生 ,工 程 师 。T l e:
1 7 3 6 3 . — i z h 7 8 6 .o 3 5 2 61 E ma l h 4 9 @1 3 c m 1 :
要: 介绍 了数 据挖掘对聚 类分析 方法提 出的要 求和聚类分析方法的分类及其代表性 的主要 算法 , 并对算 法
聚类算法 分 类
进 行 了性 能 比较 。
关键词 : 数据 挖 掘
中图分类号 : P 1 T 31
文献标识码 : A
Biblioteka Baidu
收稿 日期 :00 0 — 0 2 1— 4 3
数 据挖 掘 的 目的是对 海 量 的数 据进行 智 能 化 的 处理 , 提取 出我们 感兴 趣 的知识 。 谓 聚类是 将数 据 所 对 象 分组 成 为 多 个 类 或簇 ( ls r , 分 的原 则 是 Cut )划 e
方 法 、 于网格 的方 法[ 基 。 21 划分 法 .
给定一 个有 n个 对 象 的数 据集 ,划 分 聚类 技术
将构造数据 后 个划分 , 每个划分就代表 1 个簇 ,≤n k 即将 数 据划 分 为 k个 簇 ,而 且这 k个划 分满 足 两个 条件 : 每一个簇至少包含 1 个对象 ; 每一个对象属于
一
据, , 如 序数型 、 布尔型、 枚举型及混合数据类型。 () 6 挖掘算法应具有处理高维数据 的能力 : 既
可处理 属性 较少 的数 据 , 能处 理属 性 较多 的数 据 。 又 很 多 聚类算 法擅 长处 理低 维 数 据 ,一般 只涉 及 两到 三 维 ,人类 对两 三维 数 据 的聚类 结 果很 容易 直 观地 判 断聚 类 的质量 。 是 , 但 高维 数据 聚类 结果 的判 断就 不 是那 样直 观 了 。数 据对 象 在 高维 空 间的 聚类是 非
山 西 冶 金
S HANXI ME AL U T L RGY
T tl 2 oa 1 5
No3, . 201 0
文章 编 号 :62 15 ( 0 0 0 — 0 10 17 — 12 2 1 )3 0 3 — 2
数据挖掘 中聚类算法的研究
李锐 利
( 太原理工大学 , 山西 摘 太原 002 30 4)
数据 , , 如 聚类算法对 于这样的数据敏感 , 会导致质 量低 的 聚类结果 。
( 具 有 处理 不 同类 型 属 性 的 能力 : 处理 数 5) 可 值型数据 、 非数值型数据 、 离散数据 、 连续域内的数
在同一个簇中的对象之间具有较高的相似度 ,而不 同簇 中的对象差别较大。聚类分析在数据挖掘中是 项非常重要 的技术聚类方法 , 适合处理巨大的、 复 杂的数据集 , 发掘数据的内在关联。
分析当中, 多聚类算法要求用户输入一定 的参数 , 许 如, 希望得到的簇的数 目。 聚类结果对于输入的参数
很 敏 感 , 常 , 数 较 难 确定 , 别是 对 于 含有 高 维 通 参 特 对 象 的数据 集更 是如 此 。一个 好 的聚类 算 法应对 这
个 问题 给 出一个 好 的解决 方法 。
1 数 据挖掘 对聚 类分 析 方法 的典型 要 求
要挖 掘 巨大 的 、 杂 的数据 集 间 的关 系 , 聚类 复 对 分 析技术 提 出 了特 殊 的挑 战 ,要求 算 法具 有 可伸 缩 性、 处理 不 同类型属 性 的能 力 、 现任 意形 状 的类 的 发
能力 、处理高维数据的能力等 。根据潜在的各项应
山 西 冶 金
E ma : j s@1 6tm - iy i x 2 . len o
第 3 卷 3
且仅属于 1 个簇 。 对于给定的 k算法首先给出一个 , 初 始 的划 分方法 , 以后 通过 迭代 的方法 改 变划分 , 使 得每一次改进之后的划分方案都较前一次更好 。所 谓 好 的标 准是 , 同一簇 中的对 象越 近越好 , 而不 同簇
输入 可能产生差别 较很大 的聚类结果 。 研究和 开发对
通常按照聚类分析算法的主要思路 ,它可以分
为以: 划分 法 、 次 法 、 于模 型 的方法 、 于密 度 的 层 基 基
数据输入顺序不敏感的算法具有重要的意义。 ( 处 理 噪声数 据 的能 力 : 4) 在现 实 应 用 中大 多 数数据都包含 了孤立点、 空缺、 未知数据或者错误的