数据挖掘取样方法的思考
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
术统 称 . 实 现 唯 一值 数 目的 正确 评 估 是 这 一 技 术 的 特 点 所 在
2 影响取样 方法选择 的因素
简单 了解 数 据 挖 掘 取 样 方 法后 . 我 们 还 有 必要 进 行 影 响
取 样 方 法 选 择 的 因素 分 析 , 而 结 合 相 关 文 献 资 料 与 自身认 知 。 本 文 总结 出 了影 响 取 样 方 法 选 择 的 因 素 . 即: 基 于 均 匀取 样 还 1 数据挖 掘取样 方法概述 取 样速度 、 是否为确 定性算 法、 基 数 据 存 取 是 否 为 了较 高 质 量 完 成 本 文 研 究 .我 们 首 先 需要 深 入 了解 数 是 偏 倚取 样 、 样 本 空 间有 效 性 、 取样尺 寸、 单遍 扫 描 的 能 据挖 掘 的取 样 方 法 ,而 结 合 被 选 中概 率进 行 数 据 挖 掘 取 样 方 存 在 于取 样 过 程 、 抗噪 能力、 正 向 取 样 与 逆 向取 样 选 择 、 滑 动 窗 口在 流 数 据 法 的 分 类 , 我们 就 能 够将 数 据 挖 掘 取 样 方 法 分 为 均 匀取 样 与 力 、 挖 掘 中的 应 用 。 考 虑 到 这 些 因素 的 重要 性 . 笔 者 将 对 是 否 为 确 定 性 算 法 、 滑 动 窗 口在 流 数 据 挖 掘 中的 应 用进 行 深入 分 析 。 数 据 挖 掘 取 样 方 法 , 而 偏 倚 取 样 则 是 指 被 选 中概 率 不 同的 取
刖
主 要 是 由 于 取 样 方 法 能 够 实现 将 要 处 理 的 数 据 集 规 模 缩 减 , 数 据 库 数 据 量 增 大 带 来 的 负 面影 响 由 此 就 将 实现 较 好 抵 消 。
而 为 了最 大 化 取 样 方 法效 用发 挥 . 正是 本 文 就 数 据 挖 掘 取 样 方 法展 开 具 体研 究 的 原 因所在
偏 倚 取 样 两 类 ,这 里 的 均 匀取 样 ቤተ መጻሕፍቲ ባይዱ 表 的是 被 选 中概 率 相 同的
样 方法。
2 . 1 是否为确定性算法
在 数 据挖 掘取 样 方 法 的 应 用 中 .确 定 性 算 法与 随机 性 算 法 属 于 能 够在 理论 上保 证 无 法 范 围的 算 法 .而 考 虑 确 定 性 算 法是否应用 . 我 们 就 能 够 确 定 数 据 挖 掘 取 样 方 法应 用 的 目标 . 这 自然会 在 很 大程 度 上 影 响 数 据 挖 掘 取 样 方 法 的 选择
1 . 1均 匀取样与偏倚取样分析
最 早 出现 的数 据 挖 掘 取 样 方 法 均 为 均 匀取 样 。但 随 着 均
匀取 样 方 法局 限性 的 不 断暴 露 .偏 倚 取 样 获 得 了 自身 出现 的 契机 。 对 于 均 匀取 样 这 一数 据 挖 掘 取 样 方 法来 说 . 该 方 法较 为 适 用 于数 据 均 匀分 布 的情 况 ,反 映 数 据 分 布 情 况是 均 匀取 样 方法的优势所在 ; 而 对 于 偏 倚 取 样 方 法 来说 。 该 取 样 方 法较 为
【 文章编 号】 1 0 0 6 — 4 2 2 2 ( 2 0 1 7 ) 1 7 — 0 2 7 5 — 0 2
的重要取样 点分配就能够在较 大程度上提 升取样 的有效性 . 高 相 关评 估 的 准确 性 也 能 够 由此 得 到 有 力 保 障 。 取 样 本 身属 于最 为通 用 的 近 似技 术 .而 随 着近 年 来数 据 ( 6 ) 对于D i s t i n c t S a mp l i n g 取 样来说 , 其 本 身属 于取 样 技 库数据量的不断增大 , 这 一技 术 的 受 关注 度 也 在 不 断提 升 . 这
域 的 广 泛应 用 都 属 于 这 一进 步 的 最 直观 体 现 , 为 此本 文 就 数据 挖 掘 取样 方法 展 开 7具 体 研 究 , 希 望 这 一研 究 能够 为相 关 业 内人 士 带来 一定 启 发 。
【 关键 词 】 数据挖掘 ; 取样 方法 ; 均 匀取样 【 中图分类号 】 T P 3 1 1 1 3 【 文献标识码 】 A
适 用 于 比例 较 小数 据 的取 样 , 这 主要 是 由于 这 类 数 据 本 身存 在 着 对 用 户 作 用 偏 倚 特 点 ,这 种 情 况 下 偏倚 取 样 方 法 能够 在
一
2 . 2 滑动窗 口在流数据挖掘中的应用
对 于滑 动 窗 口在 流 数 据 挖 掘 中的 应 用 来说 .这 主 要 是 由 于 流数 据 挖 掘 中 窗 口数 据 会 随数 据 达 到 而 平 移 .而 为 了避 免 旧数 据 过 期 、 保证 查询结果可靠 , 数 据 挖 掘 取 样 方 法 的 选 择 就 在 其 中发 挥 着 较 为 重 要 作 用 .相 关 方 法 的 选择 自然 会 因此 受 到影响。
一
3 数据挖掘取样 方法的发展 与挑战
3 . 1数据挖掘取样方法的发展
对 于 数 据 挖 掘 取 样 方 法 的 发 展 来 说 .数 据 挖 掘 领 域 的拓
定 程 度 上 实现 数 据 挖 掘 算 法 精 度 提 升l l l 。 简 单 了 解 均 匀 取 样 与 偏 倚 取 样 两种 数 据 挖 掘 取 样 方 法
1 . 2 常见的数据挖掘取样方法
后, 我 们 还 需要 就 常 见 的数 据 挖 掘 取 样 方 法 进 行 简单 介 绍 。 这
2 01 7年 9 月 上
论述 2 7 5
数 据 挖 掘取 样 方法 的思考
王鸿博 , 沈 鸽( 空军航空大学图 书馆, 吉 林 长春 1 3 0 0 0 0 )
【 摘 要 】 随着 经济与科技 的快 速发展 , 近年来我 国数据库 相关领域 实现 了较 为长足的进步 , 数据库 中数据璧 的不断增大、 取样 在数据挖掘领