数据挖掘技术概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

要 是为 商业决 策提 供真 正 有价 值 的信 息 , 而 获得 进 利 润 。但 所有 企业 面临 的一 个 共 同 问题是 : 企业 数 据 量非 常大 , 其 中真 正 有 价 值 的信 息 却 很 少 , 而 因 此从 大量 的数据 中经 过 深层 分 析 , 获得 有 利 于商 业 运作 、 提高 竞争 力 的信息 , 就像 从 矿石 中淘金 一 样 ,
数据挖 掘也 因此 而得 名 。
因 此 , 据 挖 掘 可 以 描 述 为 : 企 业 既 定 业 务 数 按
信息—— 知识—— 价 值” 的转 变 过 程 。数 据 挖 掘是
门交 叉学科 , 它把人 们 对 数据 的应 用 从 低层 次 的
简单查 询 , 升 到从 数 据 中挖 掘 知识 , 供 决 策 支 提 提 持 。在 这 种 需 求 牵 引 下 , 聚 了不 同 领 域 的 研 究 汇
基 于 Itr e 的 全 球 信 息 系统 的 发 展 使 我 们 n en t 拥 有 了前 所 未 有 的 丰 富数 据 。大 量 信 息 在 给 人 们 带来 方 便 的同时也 带来 了一大 堆 问题 : 一是 信 息 第
过 量 , 以消化 ; 二是 信 息真 假 难 以辨 识 ; 三 是 难 第 第
信 息安 全难 以保 证 ; 四是 信 息 形 式 不 一 致 , 以 第 难
统一 处理 。数据 丰 富 、 识 贫 乏 已经 成 为一 个 典 型 知 问题 。D t nn ( 据挖 掘 ) 目的就 是 有 效 地 aaMiig 数 的 从海量 数 据 中提 取 出 需要 的 答 案 , 现 “ 据 一 实 数
聚类 是把 数据 按照 相 似性 归 纳 成若 干类 别 , 同 类 中的数据 彼此 相 似 , 同类 中的数 据相 异 。聚 不
者 , 其是数 据 库 技 术 、 工 智 能 技 术 、 尤 人 数理 统 计 、
可视化 技术 、 并行 计算 等 方 面的 学 者 和工 程技 术 人 员 , 身到数 据 挖 掘 这 一 新 兴 的 研 究 领 域 , 成 新 投 形 的技术 热点 。数 据 挖 掘 就 是 为顺 应 这 种需 要 应 运
而生 发展起 来 的数据 处理 技术 。 2 数 据 挖 掘 的 定 义
目标 , 对大 量 的企 业 数 据 进行 探 索 和分 析 , 示 隐 揭 藏 的、 未知 的 或验 证 已知 的规 律 性 , 进 一 步将 其 并 模 型化 的先 进有效 的 方法 。

3 数 据 挖 掘 的 任 务
数 据挖 掘 的 任 务 主要 是 关联 分 析 、 类 分 析 、 聚 分类 、 测 、 预 时序模 式和偏 差分 析等 。
( )关 联 分 析 (so i ina ay i 1 as c t n lss ao )
数据挖 掘 ( aaMiig 就 是从 大 量 的、 完全 Dt nn ) 不 的 、 噪声 的 、 糊 的 、 机 的 实 际 应 用 数 据 中 , 有 模 随 提 取隐 含在其 中 的 、 人们 事先 不 知 道 的 、 又 是 潜 在 但
联、 时序关 联和 因果 关联 。关联 分 析 的 目的是找 出
数据库 中隐 藏 的 关联 网 。一 般 用 支 持 度 和 可 信 度 两个 阈值来 度 量 关 联 规 则 的相 关 性 , 入兴 趣度 、 引 相 关性 等参 数 , 得所挖 掘 的规则 更符 合需求 。 使
( )聚 类 分 析 (lseig 2 cu tr ) n
关键 性数 据 。 数据 挖掘 其实 是一 类 深层 次 的 数 据分 析 方 法 。 数据 分析 本身 已经有 很 多 年 的历 史 , 不过 在 过 去 只 数据 收集 和分 析 的 目的是 用 于科 学 研 究 , 外 , 另 由

类 重 要 的 、 被 发 现 的 知 识 。关 联 分 为 简 单 关 可
关键 词 : 数据 挖掘
数 据 集合
数据仓 库
数 据 挖 掘 工 具
1 引 言
杂 数据 分析 方法 受到 很 大 限制 。现 在 , 由于各 行业 业 务 自动化 的实 现 , 业领 域 产 生 了大 量 的业 务数 商 据, 这些 数据 不 再 是 为 了分 析 的 目的 而收 集 的 , 而 是 由于纯 机 会 的 ( p ru i i 商业 运 作 而产 生 。 op o tns c t) 分 析这些 数据 也不 再是 单纯 为 了研究 的需要 , 更主
维普资讯 http://www.cqvip.com
研 究 与 探 讨
中国标准导报
CH I NA TA NDAR DS REVI S EW
数 据 挖 掘 技 术 概 述
伊 宏
Βιβλιοθήκη Baidu

要 : 数 据 挖 掘 是 目前 一 种 新 的 重 要 的 研 究 领 域 。 本 文 介 绍 了数 据 挖 掘 的
关联 规则挖 掘 是 由 R k s w l a ehAp a 等人 首先 提 出 的 。两 个 或两 个 以上 变 量 的取 值 之 间存 在 某 种 规律 性 , 称为关 联 。数 据关 联 是 数 据库 中存 在的 就

有用 的信息 和知 识 的过 程 。从 商业 角 度来 讲 , 数据 挖 掘是 一种 新 的商业 信息 处 理技 术 , 主要 特 点是 其 对 商业 数据 库 中 的大 量 业 务 数 据 进 行 抽 取 、 换 、 转 分 析和 其他模 型化 处理 , 中提 取 辅助 商 业决 策 的 从
概念、 目的 、 用方法 、 常 数据 挖掘 过 程 ,简要 介 绍 了数 据 挖 掘 工具 及 选
择 原 则 和 应 用 实例 , 对 数 据 仓 库 及 关 键 技 术 进 行 了 概 要 的 说 明 , 并 最
后 对 数 据 挖 掘 的研 究发 展 方 向 进 行 了展 望 。 .
相关文档
最新文档