知识发现与数据挖掘分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
问题。
和 应用 上 。需 要说 明 的是 。 的学 者认 为 , 有 数据 开采 和 知识 发现 含义 相 同 , 表示 成 K DDM。 D/ 它是一 个 反
复 的过 程 , 常 包 含 多个 相 互 联 系 的 步 骤 : 通 预处 理 、
提 出假 设 、 选取 算 法 、 取规 则 、 提 评价 和解 释 结果 、 将 模 式构 成知 识 , 后 是应 用 。现 实 中 , 们 往往 不严 最 人 格 区 分数 据挖 掘 和数 据 库 中的知 识 发现 ,把两 者混 淆 使 用 。一 般 在科 研 领 域 中称 为 K D. 在 工 程领 D 而 域 则称 为数 据挖 掘 。 3 数据 挖 掘常 用技 术 目前数 据 挖掘 应 用方 面有 着 种类 繁 多 的商 品工 具 和软 件 , 大致 可 以归纳 为下 列 主要类 型 : ( ) 统主 观导 向 系统 。 1传 这是 针对 专业 领域 应用 的 系统 。 如基 于技 术分 析方 法 对金融 市 场进 行分 析 , 采用 的方法 有 简单 的走 向分析 也 有基 于高 深 数学 基 础 的分 形理 论 和谱 分 析 。这种 技 术需要 有 经 验模 型 为前 提 。 () 2 传统 统计 分 析 。这类 技 术 包括相 关 分 析 、 同 归分 析及 因子 分析 等 。 一般 先 由用 户提供 假 设 , 由 再 系统 利用 数 据 进行 验证 。缺点 是需 经 培训 后 才能 使 用, 同时 在数 据 探 索过 程 中 , 户 需要 重复 进 行一 系 用 列操 作 。属 于这 类商 品有 美 国 的 S 、P S和 Sa. AS S S tr ga hs等 。由于 近年 来更 先 进 的 D rp i M方 法 的出现 和 使 用 , 这些 厂 商在 原 有 系统 中综 合一 些 D 部件 . 使 M 以获 得更 完 善 的功 能 。 以上 2种技 术 主要 基 于传 统 的数 理统 计 等数 学 基 础上 .一 般早 已开始 用 于数 据 分 析 方面 。 ( ) 经 元 网络 ( N) 术 。神 经元 网络 技 术 是 3神 N 技 属 于 软计 算 领域 内一 种 重要 方 法 ,它是 多 年来 科研 人 员进 行 人 脑神 经学 习机 能模 拟 的成 果 。已成功 地 应用 于各 工业 部 门。在 D K D) M( D 的应用 方 面 , 利用 神 经 网络 技 术特 别 有 效 。经 过训 练后 的 N N可 以想 像 具有 某 种 专 门知识 的 “ 家 ” 因此 可 以像 人 一 样 专 ,
从 经验 中学 习 。N 有 多种结 构 , 最常 用 的是 多层 N 但
2 知 ቤተ መጻሕፍቲ ባይዱ发 现 的核 心— — 数 据挖 掘
所 谓数 据 挖掘 , 是从 数 据库 中抽 取隐 含的 、 就 以 前 未 知 的、 有潜在 应 用价 值 的信 息 的过 程 。 据挖 具 数 掘 是 K D最 核心 的部 分 。 D 与传统 分 析工 具 不 同 的是
数据挖掘 数 字 图 书馆 关键词 : 知识 发 现
中 图分 类 号 :P 1.3 T 3 11
文献标识码 : A
d i1 . 6 /.s. 0 — 0 52 1.1 3 o :03 9 jsn1 5 8 9 . 1 . 4 9 i 0 0 00
l 知 识发 现 的过程
知 识 发现 ( D 是 从 数据 中发 现有 用知 识 的整 K D) 个 过 程 ; 据挖 掘 ( 数 DM) K D过 程 中 的 一 个 特 定 是 D 步骤 , 它用 专 门算 法从 数 据 中抽取 模式 。19 9 6年 , 国 外 一些 专 家学 者将 K D过程 定义 为 : 数 据 中鉴别 D 从 出有效 模 式 的非平 凡过 程 , 模式 是 新 的 、 能有 用 该 可 的和最 终可 理解 的。 K D过 程是 多 个 步 骤相 互 连 接 、 D 反复 进 行 人 机 交 互 的过程 。具 体包 括 : ( ) 习某 个应 用 领域 , 括 应 用 中 的预先 知识 1学 包 和 目标 。 ( ) 立 目标数 据集 。 2建 选择 一个 数 据集 或 在 多数 据集 的子 集 上聚焦 。 ( ) 据预 处理 。去 除噪声 或 无关 数 据 , 除空 3数 去 白数 据域 , 虑 时间顺 序 和数据 变 化等 。 考 ( ) 据转换 。 4数 找到数 据的特征 表示 , 用维 变换或 转 换 方法减 少有效变 量 的数 目或找 到数 据 的不变式 。 ( ) 定 数据 挖掘 功 能 , 定数 据挖 掘 的 目的 。 5选 决 ( ) 定 数据 挖掘 算法 。 K D过 程 中的 准则 , 6选 用 D 选择 某个 特 定数 据挖 掘 算法 ( 汇 总 、 如 分类 、 回归 、 聚 类 等 ) 为搜 索数 据 的模式 。 作 ( ) 据 挖掘 。 7数 搜索 或产 生一 个特 定 的感 兴 趣 的 模 式 或一个 特 定 的数据 集 。 () 8 解释 。 释某个 发现 的模式 . 解 去掉 多余 的不切 题 意 的模 式 , 转换 某个有 用 的模式 , 以使用 户 明 白[。 1 ] ( ) 现 知识 。把 知识 结 合 到运 行 系统 中 , 预 9发 用 先 、可 信 的知 识检 查 和解 决 所获 知 识 中可 能存 在 的
21 年 1 01 月
情 报 探 索
第 1 ( 19期 ) 期 总 5
知识发 现 与数据挖 掘分析
邱 晓辉
( 宁 市 图 书馆 山 东 2 2 3 ) 济 7 0 7
摘 要 : 绍 了知 识 发 现 过 程 和 数 据 挖 掘 的 常 用技 术 . 对 数 据 挖 掘 技 术 应 用 进 行 了探 讨 。 介 并
相关文档
最新文档