基于属性分类的数据挖掘方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
元 组 对 象 %1 1 => ? 2 => ? 9 => ? : => ? ; => ? < => ? A => ? @ => ? < 1 < 9 9 9 < 9 %2 < ; < < ; < < < *类 属 性 %9 1 2 1 2 : 2 9 2 %: 1 2 2 2 : : ; ; %; @ A B : @ : @ : , 类 属 性 %< 2 1 2 9 : 9 : 9
KS AQ KS @Q Q > ? > ? 对 , 分 类 上 表 分 为 6
0 4 )K KS 1 !S 9Q KS 2Q KS : !S < !S @Q K I 3 J , > ? > ? > ? > ? > ? > ? ; !S AQ Q S > ? > ? 0 9 4 因 为 * 中 的 每 个 元 素 都 包 含 在 I 中 T , 即 I 0 4 0 4 3 J * 3 J , 故 可 用 * 也 就 是 有 *的 条 件 ! 就 有 , 的 每 个 元 素 中 ! ))D, ! 的 结 果 " 虽 然 这 样 的 产 生 式 规 则 是 正 确 的 ! 但 是 没 有 任 何 的 实 际 规 则 过 分 复 杂 ! 而 且 考 虑 了 所 有 的 因 素 ! 是 不 合 理 应 用 意 义 ! 的 ! 这 就 有 必 要 进 行 化 简 " 由 于 规 则 和 决 策 表 是 相 对 应 的 ! 故 两 者 不 做 明 显 区 分 " 化 简 就 是 要 除 去 规 则 中 的 不 重 要 的 属 性 ! 减 少 规 则 中 的 约 束 条 件 " 但 化 简 后 的 决 策 表 具 有 此 前 的 决 策 表 的 功 能 ! 而 化 简 后 的 决 策 表 具 有 更 少 的 条 件 属 性 " 决 策 表 化 简 的 步 骤 方 法 如 下 6 从 决 策 表 中 消 去 某 些 列 " 1 "进 行 条 件 属 性 的 简 化 ! 化 简 属 性 之 后 就 会 有 相 同 的 元 组 出 2 "消 去 重 复 的 行 U 现 ! 删 除 重 复 的 行 " 直 到 没 有 多 余 的 属 性 存 在 " 9 "重 复 进 行 上 述 步 骤 ! 表 化 简 的 具 体 算 法 为 6 输 入 6 按 上 述 要 求 经 过 整 理 后 的 一 个 表 ! 名 为 J ! V W I X I S 3 条 件 属 性 为 %1 用 *表 示 所 有 条 件 ! ! " " " " " " 0 %2 %3 属 性 4 ! 决 策 属 性 为 H 用 , 表 示 所 有 决 策 1 ! 2 ! " " " " " " H H R0 属 性 4 " 输 出 6 一 个 化 简 后 的 表 算 法 6 依 据 信 息 量 函 数 计 算 各 个 属 性 的 信 息 量 ! 并 按 顺 序 排 1 6
是 条 件 属 性 & 另 一 类 是 决 策 属 性 & ’ , B D ; 6 : 8 : D ;7 8 8 @ : H I 8 ? 6 ? B : $ F ( > 条 件 属 性 的 值 对 决 策 属 性 的 值 有 影 响 甚 ’ , J : D ;7 8 8 @ : H I 8 ? 至 某 一 属 性 值 的 改 变 使 得 决 策 属 性 的 值 发 生 改 变 例 如 , 在 供 电 决 策 中 , 可 以 考 虑 几 个 比 较 常 见 的 影 响 供 电 量 的 因 素 ! 星 期 几 , 最 高 温 度 , 节 日 , 时 间 点 等 , 这 几 个 因 素 称 为 条 件 属 性 , 而 供 电 量 则 是 受 这 几 个 因 素 影 响 的 , 任 何 一 个 项 值 的 改 变 都 会 改 变 供 电 量 在 数 据 整 理 之 后 , 形 成 了 一 个 知 识 系 统 , 其 中 的 知 识 是 以 表 格 的 形 式 存 放 的 , 并 且 知 识 尚 未 进 行 处 理 , 只 是 相 对 精 细 的
G 数 据 的 收 集 和 整 理
数 据 的 收 集 整 理 对 于 任 何 数 据 挖 掘 来 说 都 是 必 不 可 少
的 , 虽 然 对 于 不 同 的 算 法 来 说 , 收 集 数 据 的 途 径 是 差 不 多 的 , 但 是 整 理 方 式 是 大 不 一 样 整 个 数 据 的 收 集 和 整 理 可 以 大 体 分 为 数 据 的 选 择 , 数 据 的 预 处 理 , 数 据 的 缩 减 三 个 步 骤 数 据 整 理 结 果 形 式 上 可 以 是 一 个 挖 掘 的 算 法 决 定 了 整 理 的 方 式 , 表 也 可 以 是 多 个 表 , 但 最 终 要 便 于 进 行 数 据 挖 掘 , 内 容 上 要 与 数 据 挖 掘 的 目 标 一 致 , 这 是 很 明 显 的 数 据 库 技 术 的 广 泛 使 用 , 使 得 现 在 大 量 的 数 据 是 使 用 表 的 形 式 存 放 的 , 因 此 数 据 的 整 理 体 现 在 对 表 中 的 数 据 进 行 处 理 在 基 于 属 性 分 类 的 挖 掘 方 法 中 , 整 理 缩 减 过 程 主 要 是 离 散 化 和 剔 除 重 复 项 离 散 化 就 是 将 一 些 连 续 的 值 按 区 间 变 成 离 散 的 值 例 如 ! 对 销 售 数 量 来 说 就 可 以 将 其 离 散 化 , 用 "表
2 i i i年 0 2 4
信 息 ! 不 能 提 供 决 策 上 的 支 持 ! 或 者 不 能 发 现 各 个 条 件 属 性 和 该 知 识 系 统 可 以 用 # $! 决 策 属 性 间 的 关 系 " ( 表 示 ! %! &! ’ 其 中 $ 表 示 整 个 论 域 的 对 象 ! 可 以 认 为 是 整 个 的 表 中 的 元 素 的 集 合 ! + , 且 * - ,) . ! % 表 示 属 性 ! %) * & 为 属 性 域 的 值 ! 为 元 组 的 属 性 值 即 有 0 1 ! 2 ! " " " " " 4 ! 5 个 属 性 " / &/ / / / 3 ’ 为 一 个 映 射 函 数 ! 6 ’ $7%8(& 为 了 方 便 起 见 ! 表 1是 一 个 经 过 预 处 理 的 ! 并 省 略 某 些 属 性 的 表 " 表 1
第 % "卷 第 (期 % # # #年 (月 文 章 编 号 ! " # # # $ " % % # & % # # # ’ # ( $ # ( # ) $ # *
小 型 微 型 计 算 机 系 统 L=/ =/ K/ M N OP QP 2 R =
U % " KD U ( SD T % # # # =7 @
收 稿 日 期 ! 俞 文 彬 , 硕 士 谢 康 林 , 教 授 张 忠 能 , 工 程 师 主 要 从 事 数 据 仓 库 . 决 策 支 持 系 统 的 应 用 研 究 " + + + $ # ) $ % ) 作 者 简 介 ! 万方数据
9 i <
小 型 微 型 计 算 机 系 统
( > 到 发 现 属 性 间 的 联 系 形 成 决 策 规 则 或 产 生 式 规 则 F -
5 引 言
随 着 数 据 库 技 术 和 数 据 库 管 理 系 统 的 广 泛 应 用 , 数 据 库 中 存 储 的 数 据 量 急 剧 增 大 , 数 据 库 系 统 提 供 了 对 这 些 数 据 的 人 们 可 以 在 这 些 数 据 上 进 行 分 析 处 管 理 和 简 单 的 处 理 功 能 , 理 , 但 如 此 庞 大 的 数 据 对 人 工 分 析 来 说 是 非 常 困 难 的 , 人 们 需 要 能 够 对 数 据 进 行 更 高 层 次 的 处 理 , 从 中 找 出 规 律 和 模 式 , 以 帮 助 人 们 更 好 的 利 用 数 据 进 行 决 策 和 研 究 , 这 也 就 是 如 何 进 行 数 据 挖 掘 , 即 从 大 型 数 据 库 中 发 现 并 提 取 出 隐 藏 在 其 中 的 信 息 的 一 种 新 技 术 , 目 的 是 帮 助 决 策 者 发 现 数 据 间 重 要 的 但 被 忽 略 的 因 素 , 这 种 技 术 称 为 数 据 挖 掘 & 6 7 8 79: ; : ; < 简 称 " > 为 了 便 于 进 行 数 据 挖 掘 数 据 的 存 放 不 再 局 限 于 数 据 , 0 =’ 库 的 规 范 化 形 式 存 储 , 而 是 采 用 了 数 据 仓 库 的 技 术 , 对 数 据 进 行 一 部 分 预 处 理 , 进 行 分 类 或 分 片 , 以 加 快 数 据 挖 掘 的 速 度 数 据 挖 掘 涉 及 的 方 面 很 多 , 有 人 工 智 能 , 神 经 网 络 , 数 据 库 , 预 测 理 论 , 机 器 学 习 , 统 计 学 , 但 数 据 挖 掘 的 主 要 方 法 和 任 务 是 数 据 总 结 , 分 类 发 现 , 聚 类 和 关 联 规 则 的 发 现 数 据 总 结 的 目 的 是 对 数 据 进 行 浓 缩 , 传 统 的 方 法 也 是 目 前 最 简 单 的 方 法 , 就 是 计 算 出 数 据 库 的 各 个 字 段 的 和 值 , 平 均 值 , 方 差 , 最 大 最 小 值 并 以 方 图 , 饼 图 的 形 式 显 示 分 类 是 数 据 中 非 常 重 要 的 任 务 和 方 法 现 在 从 统 计 学 和 机 器 学 习 的 角 度 提 出 了 较 多 的 分 类 技
基 于 属 性 分 类 的 数 据 挖 掘 方 法
俞 文 彬 谢 ቤተ መጻሕፍቲ ባይዱ 林 张 忠 能
上 海 交 通 大 学 计 算 机 系 上 海 % & # # # ( # ’
摘 要 !随 着 数 据 仓 库 的 广 泛 应 用 , 从 数 据 中 获 取 相 关 的 知 识 或 规 则 越 发 显 得 重 要 , 各 种 各 样 的 数 据 挖 掘 技 术 提 了 出 来 本 文 介 绍 了 一 种 基 于 数 据 属 性 值 的 数 据 挖 掘 方 法 首 先 简 单 介 绍 了 / 然 后 详 细 论 述 了 基 于 属 性 值 分 类 (分 类 技 术 , 0 该 方 法 有 两 个 主 要 的 步 骤 ! 数 据 采 集 , 整 理 及 形 成 规 则 并 化 简 规 则 的 数 据 挖 掘 的 方 法 关 键 词 !数 据 仓 库 1数 据 挖 掘 1规 则 1条 件 属 性 1决 策 属 性 1相 容 分 类 号 !2 ( " " " ( 3 文 献 标 识 码 ! 4
F % > 术 , 其 中 以 / 算 法 为 代 表 , 就 是 ( & ’ 0 / 8 ? @ 7 8 : A ?0 : B C D 8 D 9: E ? @( 树 的 内 部 节 点 是 一 个 决 策 , 将 分 类 结 果 以 决 策 树 的 形 式 给 出 ,
本 文 介 绍 的 数 据 挖 掘 方 法 分 为 两 个 大 步 骤 , 第 一 步 进 行 形 成 基 础 表 进 行 准 备 工 作 1 第 二 步 是 对 基 数 据 的 收 集 和 整 理 , 础 表 进 行 属 性 分 类 , 并 发 现 其 中 的 关 系 , 形 成 决 策 规 则 -
而 叶 节 点 代 表 一 个 类 以 / (为 代 表 的 一 类 算 法 的 效 率 对 于 0 较 少 的 数 据 而 言 是 适 当 的 , 但 是 随 着 数 据 量 的 增 加 和 决 策 属 性 的 增 加 , 则 效 率 会 大 幅 下 降 , 而 且 不 能 直 接 形 成 规 则 基 于 属 性 分 类 的 数 据 挖 掘 方 法 是 以 数 据 库 中 关 系 表 为 基 础 的 而 且 在 原 始 数 据 增 加 的 情 况 下 , 可 以 通 过 化 简 来 压 缩 数 据 规 模 , 使 之 只 与 属 性 值 有 关 系 , 而 与 原 始 的 数 据 量 无 关 , 而 现 在 的 数 据 存 放 中 , 几 乎 所 有 的 数 据 都 是 用 关 系 表 的 形 式 存 放 的 , 这 为 基 于 属 性 分 类 的 数 据 挖 掘 方 法 提 供 了 极 大 的 方 便 , 并 可 方 便 得
" , " # > 的 销 售 量 这 样 之 后 整 个 表 就 就 是 用 离 散 的 数 据 表 示 , 示 F 剔 除 重 复 项 , 减 小 了 数 据 量 , 便 于 分 析 使 用 -
关 系 表 中 的 每 一 列 都 是 某 一 属 性 的 值 集 , 列 名 即 属 性 在 关 系 表 中 , 依 据 决 策 规 则 的 需 要 可 以 将 属 性 分 为 两 大 类 , 一 类
相关文档
最新文档