浅谈数据挖掘技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二 、 据挖 掘 数
如 贝 们 事 先 不 知道 的 、 又 是潜 在 有 用 的 信 息 和知 识 的 过 程 。 数 据 挖 掘 是 性 , 给定 样 本 属 于 一 个 特定 类 的概 率 。 叶斯 分 类 基 于 贝 叶斯 定 理 , 但 得 在 主要 有 两 从 数 据库 中发 现 知识 的全 部 过 程 中 的一 个特 定 步 骤 . 可 以 说 是 一 核 将 先 验 信息 与 样 本 信 息 综合 , 到 后 验 信 息 。 数 据 挖 掘 中 , 也 ae 方 即 ae bys ae 网 朴 心 步 骤 。 据 挖 掘 主要 是 利 用 各种 知 识 发 现 算 法从 数 据 库 数 据 中 发 现 种 b ys 法 . N v— ae 方 法 和 b ys 络 。 素 贝 叶斯 分 类 直 接 数 ae 公 把 有 关 的知 识 。 目前 常用 的数 据 挖 掘 技术 有 : 联 规 则 法 、 关 粗糙 集 方法 、 利 用 b ys 式 进 行 预 测 . 从 训 练 样 本 中 计算 出 的 各 个 属 性 值 和 类
数 据 挖掘 使 数 据 库 技 术进 入 了一 个 更 高级 的阶 段 , 不仅 能 对历 史数 据 进 行 查询 和 遍 历 , 且 可 以找 出历 史数 据之 间 的游 在 联 系, 而促 进 信 它 并 从
息的 传 递
【 关键词 】 DD; K 数据挖掘 ; 数据挖掘技术


KDD 简述
四 、 束 语 结
数 据挖 掘 是 当前 数 据库 和信 息 决 策 领 域 的 前沿 研 究 方 向之 一 , 数 数 Po aao , 向传 播 ) 型 , rpgt n 后 i 模 回归神 经 网络 ( N , e R N)Ho l 经 网 络 , 据 挖 掘 的研 究 和 应 用 受 到 了学 术 界 和 实 业 界越 来 越 多 的 重 视 。 据 挖 d神 掘技术也正以前所未有的速度在不断的发展 , 我们 相 信 , 未 来 的 市 在 R F神 经 网络 等 B 场 竞争 中 ,拥 有 了数 据 挖 掘 技 术 必 将 比 别人 获 得 更 快 的市 场 信 息 , 必 2粗 糙 集 . 粗 糙 集 ( o g e) 够 在缺 少 关 于 数据 先 验 知 识 的 情 况下 , 以 将 赢 得 更 多 的 商 机 。 R uhSt能 只 考 察 数 据 的 分 类能 力 为 基 础 , 解决 模 糊 或 不 确 定 数据 的 分析 和 处理 问 题 。 糙 集 理论 由波 兰 科 学 家 ZPwa 粗 .a lk在 18 9 2年 首 先 提 出 . 义它 为 定
3遗 传算 法 .
[ God nsLn f 2] ro .io Mih e J B r ( nn h b rnfr n utme c al . er MiigteWe:Ta s mig C so r A. y o
D t it utme au ) aa noC so rV le. [ 张 云涛 , 玲 《 据 挖 掘 原 理 与 技 术 》 3] 龚 数 .
分类 方法 、 类 方法 、 工 神 经 网 络 Fra Baidu bibliotek 策 树 法 、 传算 法 等 聚 人 决 遗
三 、 据 挖 掘 技 术方 法 数
别 频 率 比作 为 先 验 概 率 ,并 假 定 各 个 属 性 之 间 是 独 立 的 ,就 可 以 用 b ys ae 公式 和 相应 的概率 公 式计 算 出要 预 测 实 例 的 对 各 类 别 的 条 件 概
个 决 策 而进 行 的一 系 列 判 断 过程 的树 形 图 。 些 决 策 集 合通 过 对 数 据 这
典 知 识 发 现 ( n weg i oe aaae 简 称 K D) 从 数 据 集 的 分 类 产生 规 则 , 型 的 应 用是 分 类 规 则 的挖 掘 。 K o l eds vr i dtb s, d c yn D 是 决 策 树 的 基本 组 成 部 分 包括 决 策 节 点 、 支 和 叶子 。决 策 树 的 结 分 中发 现 有 用 知识 的 整 个 过 程 :数 据 挖 掘 是 KD D过 程 中的 一 个 特 定 步 二 骤 , 用 专 门算 法 从 数 据 中抽 取 模 式 。 随 着 K D研 究 的不 断 深 人 , 它 D 人 构 是 一 棵 二 叉 树或 多 叉 树 , 叉树 的 内部 非 叶 子 节点 一 般表 示 为一 个 树 多 们 对 K D 的 理 解 越 来 越 全 面 ,对 K D 的 定 义 也 不 断 修 改 . 目前 对 逻 辑 判 断 。 的边 是 逻 辑 判 断 的分 支 结 果 。 叉树 的 内部 节 点是 属 性 , D D
遗 传算 法 是 一 种 基 于生 物 自然 选 择 与遗 传 机 理 的随 机 搜 索 算 法 ,
是 一 种 仿 生全 局 优 化 方 法 。遗 传 算 法 具 有 的 隐含 并 行 性 、 于 和其 它 易 [ 薛鸿 民 ( b数 据 挖 掘 技 术 研 究 》 代 电 子技 术 20 . 4] We 现 06 模 型 结 合等 性 质 使 得 它在 数 据 挖 掘 中 被加 以应 用 。 传 算法 的应 用 还 [ 宋 中 山 曾 广 平 《 于 XML的 We 据 挖 掘 技 术 》 南 民 族 大 学 学 报 : 遗 5] 基 b数 中 自然 体 现 在 与神 经 网络 、 集 等技 术 的 结 合 上 。如 利 用 遗 传 算 法 优 化 神 经 科 学 版 2 0 第 2 第 1期 . 粗 0 5年 4卷 网络 结 构 , 不 增 加 错误 率 的前 提 下 , 除 多余 的连 接 和 隐 层 单 元 : 在 删 用 遗传算法和 b p算 法 结 合 训练 神 经 网 络 , 然后 从 网络 提 取 规 则 等 。 遗 但
科技信息
oI 术论 ̄ T技 20
S IN E&T C NO OG N O MA I CE C E H L YIF R TON
20 0 8年
第3 5期
浅谈数据挖掘技术
李 娜 ( 西安 外事学 院信息 工程 学院实 验 中心 陕 西
【 摘
西安
70 7 ) 1 0 7
要 】 着海 量数 据 搜 集 技 术 提 高 、 据 挖 掘 算 法 的 不 断 完善 、 处理 器计 算 机 技 术 的 不 断 发展 , 为 支持 数 据挖 掘 技 术发 展 的 基 础 , 随 数 多 成
这 有 构 K D 比较 通 用 的 一 个 定 义是 : D 是从 大 量 数 据 中提 取 出可 信 的 、 D K D 新 边 是 该 属性 的 所有 取 值 , 样 , 几个 属 性 值 就有 几 条 边 。 造一 个 决 策 树 分 类 器通 常分 为 两 步 : 的生 成 和 剪 枝 。 树 的生 成 采用 自上 而 下 树 颖 的 、 效 的并 能 被 人 理解 的模 式 的 处 理 过 程 。 有

【 考文 献 】 参 e s Mehd fr uies n 种 研 究不 精 确 、 确 定 性 知识 的数 学 工 具 。 糙 集 用 于 离 散值 属 性 . [ ]al Gidc ( p l d aa nn:tt t l to s o B sns a d 不 粗 1P oo u ii A pi D t MiigSaj a Id sy . nut ) r 因此 , 对 连续 值 属 性 进 行处 理 前 必 须 要 先进 性 数 据 的离 散 化 。 在
常用 的 数 据挖 掘 技 术 可 以 分成 统 计 分 析 类 、 识 发 现类 和其 他类 率值 。选 取概 率 值 最 大 的 类 别 作 为预 测 值 。此 方 法 简 单 易行 并 且 具 有 知 朴 型 的数 据 挖 掘技 术 三大 类 。 下 面介 绍 数 据 挖 掘 技 术 的几 种 常 用 方 法 。 较好 的精 度 。 比较研 究 发 现 , 素 贝 叶斯 分 类 算 法 可 以与 判 定 树 和 神 经 网络 算 法 相 媲 美 。 于 大 型 数 据 库 , 已表 现 出 高 准确 率 与 高 速 度 。 用 也 1 工 神经 网络 . 人 6规 则 归 纳 . 人 工 神 经 网络 ( N 是 以 计 算 机 网络 系统 模拟 生 物 神 经 网 络 的 A N) 规 则 归 纳 相 对来 讲 是 数 据 挖 掘 特 有 的技 术 。 它指 的是 通 过 统 计 方 法归纳 、 取有价值的 I Te 提 f h n规 则 。 规 则 归 纳 的 技 术 在 数 据 挖 掘 中 - 括 : 一 个多 输 入 、 输 出 的 元件 ; 有 非线 性 的元 件 ; 有 可 塑 性 , 是 单 具 具 传 例 递 强 度 可 变 的特 征 : 输 出是 每 个输 入 综 合 的 结果 。 网络 上 的每 个 结 被 广 泛 使 用 . 如 关联 规 则 的 挖 掘 其 7模 糊 集 . 点 相 当于 一个 神 经 元 , 可 以记 忆 ( 储 ) 处理 一 定 的信 息 。 与 其 它 经 存 、 并 模 糊 集 即利 用 模 糊 集 合 理论 对 实 际 问 题 进 行 模 糊 评 判 、模 糊 决 结 点 并 行 : 。 是 一 种 通 过 训练 来 学 习 的 非线 性 预测 模 型 。可 以完 1作 它 模 模 成分类 、 聚类 、 征 采 掘 等 多 种数 据 采 掘 任 务 。具 有 以下 优 点 : 以充 策 、 糊模 式识 别 和模 糊 聚 类 分 析 。 系统 的 复 杂性 越 高 . 糊 性 越 强 , 特 可 将 模 糊 逻 辑 引 入 , 许 定 义 “ 糊 ” 界 , 供 了在 高 抽 象 层 处 理 的便 允 模 边 提 分 逼 近 任 意 复杂 的 非 线性 关 系 ; 有 定 量或 定 性 的 信 息 都 等 势 分 布 贮 所 提 存 于 网 络 内 的各 神经 元 , 有 很 强 的 鲁 棒 性 和 容 错 性 : 用 并 行 分 布 利 。 李 德 毅 等人 在 传 统 模 糊 理 论 和概 率 统 计 的 基 础 上 . 出 了定 性 定 故 采 智 能 计 算 系 统 。神 经 网 络 的 主要 部 分 是 神 经元 . 具 有 的生 物 特 征 包 它 并 处 理 方 法 , 得快 速 进 行大 量 运算 成 为 可 能 ; 学 习 和 自适 应 不 知 道 量 不 确 定性 转 换 模 型 ~ 云模 型 , 形 成 了 云理 论 。 使 可 或 不 确定 的系 统 ; 够 同 时处 理 定 量 、 能 定性 知识 在 过 去 十 几年 里 神 经 网 络取 得 了 飞速 的 发展 , 展 出 了很 多 的 模 型 及 其 改 进 . 如 B B c 发 例 P( a k
的递 归 分 治法 。剪 枝 就 是 剪 去那 些 不 会 增 大 树 的错 误 预 测 率 的 分 枝 。 可 也 数 据 挖 掘 ( aaMiig M) 也 称 为 数 据 库 中 的 知 识 发 现 数 据 挖 掘 中 决 策树 是 一 种 经 常 用 到 的技 术 , 以用 于 分 析 数 据 , 可 D t nn, D 常 H D、AR Q et 50 ( nweg i oey aaae D) K o ldeDs vri D t s, c n b KD ,是 近 几 年来 随着 数 据 库 和 人 以用 来 作 预测 . 用 的 算 法 有 C AI C T、 us 和 C .。 5 贝 叶斯 . 工 智 能 发 展 起来 的一 门新 兴 的 技 术 , 据 挖 掘 就 是 从 大 量 的 、 完 全 数 不 贝 叶斯 分 类 是 统 计 学 分 类 方 法 。它 可 以 预 测类 成 员 关 系 的 可 能 的 、 噪声 的 、 糊 的 、 有 模 随机 的 实 际 应 用 数据 中 , 取 隐 含 在 其 中 的 、 提 人
相关文档
最新文档