基于聚类和距离的大数据集离群点检测算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基金项目: 国家 自然科学基金资 助项 目 (0 70 2 6892 ) 作者简介:王欣 (9 3 17 一),男,四)n 阳人 ,副教授,博士 ,研究方向为数据挖掘。 lg i 第3 卷 3 第4 期 2 1 — ( ) [0 1 0 1 4 下 1 1
邻 ,复杂度为 O (2 )( 中 N为数 据集 中对 J Xd 其 7 v 象 个数 ,d为数 据 的 维数 ) 】 于 索 引的 算 法通 。基
过 建 立 多 维 索 引 结 构 为 各 样 本 寻 找 近 邻 ,最 坏 情
离之和 。显然 w P 比 D P 更精确地度量了 () k()
据 进 行 基 于 距 离 的 离 群 点 检 测 。实 验 结 果 验 证 了 算法 的可 行性 和有 效性 。
1 相关概 念与定 义
对 于 d维 空 间 中 的 数 据 点 P= (。 … , P,P ,
P ) q= ( 2 和 q,q,…, ) ,通常采用欧式距离
度量 它们之 间的相似 性 。
1土
况 下 的 复 杂 度 为 0 ( ×d 。但 在 大 数 据 集 上 建 )
立 索 引 的 开 销 很 大 ,而且 随 着 维 数 的 增 大 , 索 引 的 性 能 急 剧 下 降 ,性 能 不 如 简 单 的 顺 序 扫 描 。 基 于 单 元 的算 法 的 复杂 度 与 J 线 性 关 系,但 与 v呈 d呈指 数关 系 ,因此 很难 处理 高维 数据 。 利 用 嵌 套 循 环 算 法 对 维 数 不 敏 感 , 针 对 其
D i 1 . 9 9 j is . 0 9 1 4 2 1 . ( ) 2 o : 3 6 / . n 1 0 -0 3 . 0 1 4 下 . 9 0 s
0 引言
离 群 点检 测 是数 据 挖 掘 技 术 的 重 要研 究 领 域 之 ~ ,用 来 发 现 数 据 集 中 明显 偏 离 于 其 他 数 据 、 不 满 足 数 据 的 一般 行 为 或 模 式 的 数 据 ¨。这 些 数 】 据 对 象 叫做 离 群 点 ,也 叫 做 孤 立 点 。 离群 点 检 测 算 法 分 为 基 于 统 计 、深 度 、聚 类 、距 离和 密 度 的 方 法 。 其 中 ,基 于 距 离 的 方 法 由于 算 法 思 想 直 观 ,易于 实现 而得 到 了广 泛 的研 究和应 用 。
摘
( 中国民航 飞行学 院 计算机学院 ,广汉 6 8 0 ) 13 7 要 : 针 对 已有的 基于距 离 的离群 点检测 算法 在大 数据 集上 扩展性 差的 问题 ,提 出了基于 聚类 和 距 离混 合 的大 数 据集 离群 检测 算 法 。算法 第 一阶 段采 用 层次 聚类 和 k m a s 合 的层 次 — e n混
f 互——~
dt ,=f —i; ip)、 s g ( q ( )
Yi1 =
f1 1
、
基于 距离 的方法 大致分 为嵌套 循环 的算法、 基 于 索 引 的 算 法 和 基 于 单 元 的 算 法 。但 这 些 方 法
在 处 理 大 规 模 数 据 集 时 都 存 在 性 能 上 的 不 足 。嵌
k m as - e n 算法对数据进行聚类,并按照一个启发式规则对其进行排序。第二阶段在聚类的结 果 上采用嵌套循 环算法进行 离群检测 ,并通过两个 剪枝 规则进行 高效剪枝 , 少了离群检测 减 时数据点之 间距 离计算的次数 。理论分析和 实验结果证明 了算法的可行性和效率 。
关键 词 : 离群点 ;聚类 ;嵌套循环 ;k 近邻搜索 中图分类号 :T 3 1 P 1 文献标识码 :A 文章编号 :10 —0 3 ( 0 14 下) 0 1 4 9 1 4 2 1 ) ( 一 1 一O 0 0
R maw my用 点 P和 它 的 第 k个 最 近 邻 的距 a sa 离来 度量 P的离 群程 度 ,记 为 Dk()1oA gul P 5 n il 1 i
套 循 环 算 法 通 过 循 环 扫 描数 据 集 为 各样 本 寻 找近
用权 重 w P) 示 对 象 P与 其 k 最 近 邻 居 的距 k( 表 个
元素的集合。D P 越大,表示 P越远离 邻域 o() 内的近 邻 ,成为 离群 点 的可能 性越 大 。 离 群 点 检 测 算 法 可 以描 述 为 :计 算 数 据 集 D 中每 个 数 据 点 的 离群 因 子 DⅡ ,将 其 按 从 大到 小 降
序 排 列 ,离 群 因 子 最 高 的 前 /个 点 就 是 所 求 的离 , /
Di a c—ae te t t n DO 。算 法首 s neb sdOul r e i ,C D) t i De c o 先 对数 据 集 进 行 聚 类 ,将 得 到 的簇 按 照 包 含 离群 点 的 可 能 性 大 小 排 序 ,然百度文库后 对 排 序 后 的簇 中 的数
收稿 日期 :2 1-1-1 00 2 8
、 訇 化 l 造
基于聚类和距 离的大数据集 离群点检测算法
Cl st i d st u erng an di ance bas - ed out i lerdet ct on i ar e i n l ge dat aset s
王
欣
、『 『ANG n 、 Xi
D。p ()
i =1
( ds( ,, i pq ) t
() 2
其 中,k N ()表 示 P在 D 中 的 k个 最 近 邻 N P
在 大 数 据 集 上 效 率 低 下 的 问 题 ,本 文 提 出基 于 聚 类 和 距 离 的 混 合 离 群 检 测 算 法 ( ls r gad Cut i n en
P的邻 域 的 稀疏 程 度 。 本 文 在 W P k()的基 础 之 上 定义 了度 量数 据点离 群程 度 的离 群因子 。 定义 1 ( P的 离群 因子 ) 于 数 据 集 D,给 点 对
定参数 k和 P∈ D,则点 P的 离群 因子 定义为 P与 其 k个最 近 邻对象 的 平均距 离 :