高维数据离群点挖掘方式改进研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘
2 3 0 0 0 0 )
要 :对 高维数据 离群 点 降维 方法进行研 究 ,从 而提 高挖 掘 算 法的准确 度 以及挖 掘 的速度 。针对 传统 的 离群 点挖
掘 算法对 于 高维数据 的不适 用性 ,提 出 了基 于属性 的局部 离群 点挖 掘算 法 ,该 算 法 以局 部 线性嵌 入 降维算 法为基础 ,利
计 算机 光盘 软件 与应 用
信息技术应用研究
一 -
2 0 1 3 年第 O 4 期
C o m p u t e r C D S o f t w a r e a n d A p p l i c a t i o n s
高维数据离群点挖掘 方式改进研 究
董 飞 ( 安 徽 南瑞 继 远 软 件 有 限公 司 ,合肥
文献标识码 : A 文章编号:1 0 0 7 — 9 5 9 9( 2 0 1 3 )0 4 — 0 1 0 8 — 0 2
别 ,而离 群 点就被 定 义 为不属 于其 中任 何 一个类 别 的数据 对象 。但 利用 该方 法挖 掘 离群 点 的效率 较 低 ,而且 不 同的 聚 类算 法有 可 能产 生不 同的离群 点 ,其稳 定 性不佳 。 2 . 4 基于 距离 挖掘 离群 点 基 于距 离 的离 群点 挖掘 算法 可 以对 五维 以上 的数 据进 行 处理 ,这 一 算法 在对 高维 数据 进 行处 理 时,其 时 间复杂 度 与数 据 的维度 及 处理 对象 个数 的平方 成正 比 且 具有参 数 敏感 性 。基 于距 离 的方法 只 能检测 出全局 的离群 点,无
数据的不 同类别、 描述数据类别 、 离群或异常的数据挖掘。 离群 点检 测 的主 要 目的是 在海 量 的数据 中研 究 少部 分异 常 数 据 对象 ,从而 找 出它们 的数 据模 式和 隐含 的信 息 。若 离 群 数 据 点不 是 由于误差 造 成 的,则 其往 往含 有较 大 的信 息 量 ,有 可 能每 一个 离群 点都 可 以包 含一 个不 同 的数据 规 则 模 式 , 因此 ,对 离群 点 的研 究 意义 较大 , 已经在 网络 入 侵 检 测 、 电子商 务犯 罪 、灾 害气候 预 报等 各个 领域 有 了成 功 的应用 和案例 。
法对局部离群 点进行检测。 2 . 5 基 于密 度挖 掘离 群点 基于 密 度 的方法 实 际上 是基于 数据 集 上数 据对 象 之 间 的距 离 的 ,它将 空 间区 域划 分为 几个 范 围 ,在 各个 范 围 中 根据 相 互 间距离 的远 近来 挖 掘离 散 点 。这 一方 法可 以实现 挖掘 局 部离 散 点 。但 该 算法 的时 间 复杂度 与基 于距 离 的离 散点挖掘算法一致,而且在算法的参数选择方面同样具有
用研 究对 象的特征属 性和 环 境属性 来 实现 降维 的 目的 。 实验证 明 , 该 方法可 以通 过 约简对 象属 性 的 方式达 到降 维的 目的 ,
相 比于传 统 算法 更为有 效。 ,
关键 词 :高维数据 ; 离群 点 ;数据挖 掘 ;降 维
中图分类号:T P 3 1 I . 1 3 1 引言
信 息技 术 的发展 ,从本 质上 说是 产 生和发 展 了各种 对 数据 进 行分 析与 处 理 的理论 及实 践方 法 。随着 数据 量 的不 断增 加 ,对 海量 数据 进 行处 理 已经成 为 了热 点研 究领域 。 对数 据库 中大量 数据 进行 分 析 ,主要 采用 的是 数据 挖掘 的 方法 。数 据 挖掘 主要 是对 大量 具有 噪 声 的不完 整数 据进 行 处理 , 从而 发现 数据 之 间存 在着 的 隐含关 系 。数据 挖掘 被 分为四种类型【 l 】 ,分别是发现数据之间的依赖关系、判定
一
定的 困难 。
2 研 究现 状及存 在 的 问题
3 基于 属性Leabharlann 降维 算法研 究 离群 点 挖掘 算法 在 发展 的过 程 中,逐 步 形成 了五类 处 以上 介绍 讨论 的各 类算 法 ,有 的无 法处 理 高维 数据 , 理方 式 ,分 别基 于 不 同的理 论方 法 ,包 括统 计学 、距 离 、 有 的在处 理 高维 数据 时效 果 不佳 。 目前对 于高 维数 据 离群 深度 、聚 类和 密度 J 。 点 的挖掘 , 一般采 用 的是 先 降维 的方式 。局部 线性 嵌入 维 算法是一种常用的降维算法【 5 】 ,它可对非线性数据进行处 2 . 1 统 计方法 挖 掘离 群点 基于 统 计 的方法 挖掘 离群 点 出现得 较 早 ,其过 程是 先 研究数据集对象的分布特征,并构建出分布的概率模型 , 再对每一个数据对象进行计算,得到不符合该模型 的离群 点 。这一 方 法较 为简 单 ,在 建立 了概 率模 型后 ,可 实现 对 新增 数据 的 检验 ,而 不需 要再 存储 其他 数 据信 息 。但该 方 法无 法应 用 于高 维甚 至是 多 维 的离群 点挖 掘 ,且必 须建 立 起适当的数据概率模型,适用范围有 限。 2 . 2 基 于深度 挖掘 离群 点 该 方 法主 要是 对每 一个 研 究 的数据 对象 都按 照 不 同的 际准设定一个深度值,处于浅层和深层 的数据对象点最有 可能成为离群点。由于不需要预先知道数据 的概率分布模 型,其适用范围优于基于统计方法的离群点挖掘,在低维 拘离群 数 据 点挖掘 过 程 中较 为 有效 ,但 对大 于 四维 的数据 集 进 行 处理 时 ,效率 下降 较快 。
理,其本质是通过在低维空间中重建线性的局部来映射高
维空 间 中的非 线 性结构 ,从 而保 证 了数 据 的拓扑 结 构不 被
改变。 嵌入维的定义是数据集 中所有数据对象 的全部属性, 因此 ,而在 运 算 的过程 中,该 算法 需要 确定 邻居 结 点 的个 数 值 ,而该 值 的确 定一 方面 要依 赖 实 际处理 对象 的分 布情 况 , 另一 方面 需要 对每 一个 对 象都 计算 其对 所有 数据 点 的
2 3 0 0 0 0 )
要 :对 高维数据 离群 点 降维 方法进行研 究 ,从 而提 高挖 掘 算 法的准确 度 以及挖 掘 的速度 。针对 传统 的 离群 点挖
掘 算法对 于 高维数据 的不适 用性 ,提 出 了基 于属性 的局部 离群 点挖 掘算 法 ,该 算 法 以局 部 线性嵌 入 降维算 法为基础 ,利
计 算机 光盘 软件 与应 用
信息技术应用研究
一 -
2 0 1 3 年第 O 4 期
C o m p u t e r C D S o f t w a r e a n d A p p l i c a t i o n s
高维数据离群点挖掘 方式改进研 究
董 飞 ( 安 徽 南瑞 继 远 软 件 有 限公 司 ,合肥
文献标识码 : A 文章编号:1 0 0 7 — 9 5 9 9( 2 0 1 3 )0 4 — 0 1 0 8 — 0 2
别 ,而离 群 点就被 定 义 为不属 于其 中任 何 一个类 别 的数据 对象 。但 利用 该方 法挖 掘 离群 点 的效率 较 低 ,而且 不 同的 聚 类算 法有 可 能产 生不 同的离群 点 ,其稳 定 性不佳 。 2 . 4 基于 距离 挖掘 离群 点 基 于距 离 的离 群点 挖掘 算法 可 以对 五维 以上 的数 据进 行 处理 ,这 一 算法 在对 高维 数据 进 行处 理 时,其 时 间复杂 度 与数 据 的维度 及 处理 对象 个数 的平方 成正 比 且 具有参 数 敏感 性 。基 于距 离 的方法 只 能检测 出全局 的离群 点,无
数据的不 同类别、 描述数据类别 、 离群或异常的数据挖掘。 离群 点检 测 的主 要 目的是 在海 量 的数据 中研 究 少部 分异 常 数 据 对象 ,从而 找 出它们 的数 据模 式和 隐含 的信 息 。若 离 群 数 据 点不 是 由于误差 造 成 的,则 其往 往含 有较 大 的信 息 量 ,有 可 能每 一个 离群 点都 可 以包 含一 个不 同 的数据 规 则 模 式 , 因此 ,对 离群 点 的研 究 意义 较大 , 已经在 网络 入 侵 检 测 、 电子商 务犯 罪 、灾 害气候 预 报等 各个 领域 有 了成 功 的应用 和案例 。
法对局部离群 点进行检测。 2 . 5 基 于密 度挖 掘离 群点 基于 密 度 的方法 实 际上 是基于 数据 集 上数 据对 象 之 间 的距 离 的 ,它将 空 间区 域划 分为 几个 范 围 ,在 各个 范 围 中 根据 相 互 间距离 的远 近来 挖 掘离 散 点 。这 一方 法可 以实现 挖掘 局 部离 散 点 。但 该 算法 的时 间 复杂度 与基 于距 离 的离 散点挖掘算法一致,而且在算法的参数选择方面同样具有
用研 究对 象的特征属 性和 环 境属性 来 实现 降维 的 目的 。 实验证 明 , 该 方法可 以通 过 约简对 象属 性 的 方式达 到降 维的 目的 ,
相 比于传 统 算法 更为有 效。 ,
关键 词 :高维数据 ; 离群 点 ;数据挖 掘 ;降 维
中图分类号:T P 3 1 I . 1 3 1 引言
信 息技 术 的发展 ,从本 质上 说是 产 生和发 展 了各种 对 数据 进 行分 析与 处 理 的理论 及实 践方 法 。随着 数据 量 的不 断增 加 ,对 海量 数据 进 行处 理 已经成 为 了热 点研 究领域 。 对数 据库 中大量 数据 进行 分 析 ,主要 采用 的是 数据 挖掘 的 方法 。数 据 挖掘 主要 是对 大量 具有 噪 声 的不完 整数 据进 行 处理 , 从而 发现 数据 之 间存 在着 的 隐含关 系 。数据 挖掘 被 分为四种类型【 l 】 ,分别是发现数据之间的依赖关系、判定
一
定的 困难 。
2 研 究现 状及存 在 的 问题
3 基于 属性Leabharlann 降维 算法研 究 离群 点 挖掘 算法 在 发展 的过 程 中,逐 步 形成 了五类 处 以上 介绍 讨论 的各 类算 法 ,有 的无 法处 理 高维 数据 , 理方 式 ,分 别基 于 不 同的理 论方 法 ,包 括统 计学 、距 离 、 有 的在处 理 高维 数据 时效 果 不佳 。 目前对 于高 维数 据 离群 深度 、聚 类和 密度 J 。 点 的挖掘 , 一般采 用 的是 先 降维 的方式 。局部 线性 嵌入 维 算法是一种常用的降维算法【 5 】 ,它可对非线性数据进行处 2 . 1 统 计方法 挖 掘离 群点 基于 统 计 的方法 挖掘 离群 点 出现得 较 早 ,其过 程是 先 研究数据集对象的分布特征,并构建出分布的概率模型 , 再对每一个数据对象进行计算,得到不符合该模型 的离群 点 。这一 方 法较 为简 单 ,在 建立 了概 率模 型后 ,可 实现 对 新增 数据 的 检验 ,而 不需 要再 存储 其他 数 据信 息 。但该 方 法无 法应 用 于高 维甚 至是 多 维 的离群 点挖 掘 ,且必 须建 立 起适当的数据概率模型,适用范围有 限。 2 . 2 基 于深度 挖掘 离群 点 该 方 法主 要是 对每 一个 研 究 的数据 对象 都按 照 不 同的 际准设定一个深度值,处于浅层和深层 的数据对象点最有 可能成为离群点。由于不需要预先知道数据 的概率分布模 型,其适用范围优于基于统计方法的离群点挖掘,在低维 拘离群 数 据 点挖掘 过 程 中较 为 有效 ,但 对大 于 四维 的数据 集 进 行 处理 时 ,效率 下降 较快 。
理,其本质是通过在低维空间中重建线性的局部来映射高
维空 间 中的非 线 性结构 ,从 而保 证 了数 据 的拓扑 结 构不 被
改变。 嵌入维的定义是数据集 中所有数据对象 的全部属性, 因此 ,而在 运 算 的过程 中,该 算法 需要 确定 邻居 结 点 的个 数 值 ,而该 值 的确 定一 方面 要依 赖 实 际处理 对象 的分 布情 况 , 另一 方面 需要 对每 一个 对 象都 计算 其对 所有 数据 点 的