几种常用的异常数据挖掘方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
了 使 用 统 计 、 离 、 离技 术 、 度 和 高 维 持 数 据 进 行 异 常数 据 挖掘 的方 法并 分析 了其 各 自的特 点 . 距 偏 密 关 键 词 : 常 数 据 挖 掘 ; 常点 数 据 ; 法 异 异 方
中图分类号 :P 1.3 T 3 1 1 文 献标 识码 : A
的该 统计 量 的值 为 , 构建 分布 T, 则 估算 显著 性
概率 S )= P o ( P( rb 丁> ) 如果 某个 S ) . P(
足够 的小 , 么 检 验 结 果 不是 统 计 显 著 的 , Q 那 则
是 不一 致 的 , 拒绝 工作 假设 , 反之 , 能拒绝 假设 . 不
利 用统 计学 方法处 理异 常数据挖 掘 的问题 已
经 有很 长 的历史 了 , 并有 一套 完整 的理 论和方 法.
统 计学 的方 法对 给定 的数据集 合假设 了一个 分布
里 , 些很少 发 生 的事 件 往 往 比经 常发 生 的事 件 那 更 有趣 、 也更 有研究 价 值 , 外 的检测 能为我们 提 例 供 比较重要 的信 息 , 我 们 发 现一 些 真 实 而又 出 使
分 布参数 ( 如均 值 、 准差 等 ) 预期 的异 常 点 数 标 和
目.
1 异 常数 据 挖 掘 的简 介
异 常数据 挖掘 有着 广泛 的应用 , 如欺诈 检测 , 用 异常点 检测来 探 测不 寻常 的信用 卡使用 或者 电
“ 不一 致性 检验是 如何 进 行 的? ”一个 统 计 学
21 基于 统计 的方法 .
种. 异常 数据 挖 掘 又 称孤 立 点分 析 、 常检 测 、 异
例外 挖掘 、 小事 件检 测 、 掘极 小类 、 差检 测等 . 挖 偏
孤立 点可能 是“ 脏数 据 ” 也 可 能是 与 实 际对 应 的 ,
有 意义的事 件. 知 识发现 的 角度看 , 从 在某些 应用
作 者 简 介 : 晓 燕 (9 0)女 , 苏 泗 洪 人 , 迁 市 广播 电视 大学 讲 师 , 士 , 要 从 事 数 据 库 研 究 . 王 18 一 , 江 宿 硕 主
相 异 的、 异常 的或者 不一 致 的头 k个 对象 . 异常点 数 据挖掘 的任 务可 以分 成两 个子 问题 : ( )给 出 已知 数据 集 的异常 点数据 的定义 ; 1
收 稿 日期 :0 00- 1 2 1 —51 .
某个统 计 量 T被选择 用 于不一致 性检 验 , 对象 0 i
O 引 言
在数 据挖 掘 的过 程 中 , 据 库 中 可能 包 含 一 数 些数 据对 象 , 们 与数 据 的一 般 行 为 或模 型 不 一 它 致, 这些数 据对 象被 称为 异常 点 , 异常点 的查 找 对 过程 称为异 常数 据 挖 掘 , 它是 数 据 挖掘 技 术 中 的
第2 4卷 第 4期
21 0 0年 7月
甘 肃 联 合 大 学 学报 ( 自然 科 学版 )
J u n l fGa s a h ie st ( t rl ce c s o r a n u Lin eUnv r i Nau a in e) o y S
Vo . 4 No 4 12 .
一
( )使用 有 效 的 方 法挖 掘 异 常点 数 据 . 数 2 对
据模 式 的不 同定 义 , 以及 数据集 的构成 不同 , 导 会
致 不 同类 型 的异 常 点 数据 挖 掘 , 际应 用 中根 据 实 具 体 情况选 择异 常数 据的挖 掘Βιβλιοθήκη Baidu法.
2 常用 的异常数据挖掘方法及其特点
乎 预料 的知识 . 因此 , 常数 据 的检 测 和分析是 一 异 项 重要 且有 意义 的研究 工作 [ ] 1. 。
或者 概率 模 型( 如 正态 分 布 ) 然后 根 据模 型 采 例 , 用不 一致 性检 验来 确 定 异 常点 数据 . 不一 致 性 检
验要 求事 先知 道数 据 集 模 型参 数 ( 正 态分 布 ) 如 ,
者小 ) 如 果 没有统计 上 的显著证 据支持 拒绝这 个 .
信 服务 ; 测市 场动 向 ; 市场 分析 中分析客 户 的 预 在
极 低或极 高消 费异 常 行 为 ; 者 在 医疗 分 析 中发 或 现对 多种 治疗方 式 的 不 寻 常 的反 应 等 等. 过 对 通
这些数 据进 行研究 , 现不 正常 的行 为和模式 , 发 有 着非 常重要 的意 义.
的不 一 致 性 检 验 检 查 两 个 假 设 : 个 工 作 假 设 一 ( r igh p t ei)即零假 设 以及 一个 替 代假 wokn y oh ss 设 (l raieh p te i 即对立假 设. at n t y oh s ) e v s 工作 假设 是 描述 总体 性质 的一 种 想 法 , 认 为数 据 由 同一 它 分 布模 型 即 H : l F, = 12 … ; ( ∈ i ,, ] 不一致 性检 验 验证 0 与 分布 F的数 据相 比是否显 著地 大( i 或
假设 , 它就 被保 留. 据 可 用 的关 于数 据 的知 识 , 根
不 同的统 计量 被提 出来用 作 不 一致 性 检验 . 假设
对 异 常点 数据 的挖 掘 可 以描 述如 下 : 给定 一
个 个数据点或对 象的集合 , 以及预期的异常点
的数 目 k 目标是 : 现 与剩余 的数据 相 比是 显 著 , 发
J 12 1 u. 0 0
文 章 编 号 :1 7—9 X(0 0 0—0 80 6 26 1 2 1 )40 6 -4
几 种 常 用 的异 常数 据 挖 掘 方 法
王 晓 燕
( 苏 省 宿 迁 广 播 电 视 大 学 , 苏 宿迁 2 3 0 ) f 江 2 80 摘 要 : 要 讨 论 了常 用 的异 常 数 据 挖 掘 方 法 , 主 简要 地 介 绍 了 异 常 数 据 挖 掘 的 定 义 、 能 、 法 等 , 细 的 介 绍 功 方 详