面向数据特征的分布式数据挖掘研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数 据 浓 缩 。当 然 不 一 致 的浓 缩 要 牺 牲 一 定 的 分 类 精 度 。并 行
的或 分 布 式 的数 据 挖 掘 方 法 0 一 般 的 数 据 浓 缩 过 程 有 本 质 与 的 区 别 , 主 要 是 利 用 多 处 理 器 并 行 处 理 的 思 想 来 挖 掘 数wenku.baidu.com据 它 中 的信 息 , 用 的处 理 器 或 处 理 机 数 量 的 增 加 , 据 挖 掘 的效 使 数
理 的过 程 得 以 简 化 成 为 可 能 ,而 且 随 着 网 络 技 术 的进 一 步 发 展 , 布 式 数 据 挖 掘 、 于 网络 存 储 的 数 据 挖 掘 都 将 成 提 高 数 分 基
据 挖掘效 率的有 效途径 。
理数据集 基础上对 属性 的简约过程 , 一般 是一个保 持决策 一
计算 机 工程 与设 计 C m u r ni e n d e g o pt Eg e i a D s n e n rgn i
・人 工 智 能 ・
2 1, 6 00 1( 3 )
11 33
面 向数据特征 的分布 式数据挖掘研 究
华 铨 平
( 江纺 织服 装 职业 技 术 学院 机 电与信 息分 院 ,浙 江 宁波 3 5 1) 浙 12 1
提 出 的 。 在 一 般 数 据 挖 掘 过 程 中 , 能 会 对 数 据 集 进 行 多 次 可 的 扫 描 , 如 , 预 处 理 过 程 中 , 数 据 的修 剪 , 排 除 不 好 的 例 在 对 以 数 据 , 常 要 对 数 据 集 进 行 几 次 扫 描 才 能 完 成 。 当数 据 集 的 通 大 小 增 大 时 , 次 扫 描 数 据 集 所 消 耗 的 时 间就 会 迅 速 的 增 加 。 多 为 了 提 高 数 据 挖 掘 的 效 率 , 究 者 们 已经 提 出 了 许 多 相 关 的 研 方 法 n 典 型 的 如 属 性 简 约 方 法 , 据 浓 缩 方 法 , 行 数 据 挖 。 , 数 并
规 模 数 据 集 进 行 处 理 时 , 高 数 据 挖 掘 的速 度 。大 量 的 研 究 提 工 作 都 相 应 地 给 出 实 验 的结 果 ,对 所 提 出 的 方 法 的性 能 进 行 了评 估 。 这 些 研 究 的 重 点 大 都 集 中 在 以下 几 个 方 面 : 据 负 数 荷 的平 衡 , 问 通 讯 的协 调 , 间 的 同 步 等 。 将 重 点放 在 计 机 机 并 算 量 最 为 繁 重 的 关 于 规 则 生 成 部 分 的 算 法 并 行 化 上 。 在 SMD、 MD或 S MD 方 式 下也 即 是 数 据 并 行 方 式 下 完 成 数 I MI P 据 挖 掘 过 程 。应 该 说对 这 些 方 法 与 技 术 的研 究 ,是 数 据 挖 掘 并 行 化 所 必 须 解 决 的 问 题 ,并且 更 进 一 步 地 可 以说 是 并 行 处 理 本 身所 要 解 决 的 问题 。在 并 行 数 据 挖 掘 过 程 开 始 之 前 ,首 先 要 做 的 一 个 工 作 是对 大 规 模 的 数 据 集 进 行 划 分 ,然 后 从 如 何 合 理 地 分 配 与 调 度 划 分 后 得 到 的 数 据 子 集 ,满 足 并 行 处 理 要 求 而 开 始 并 行 数 据 挖 掘 处 理 的 。一 般 来 说 对 于 数 据 集 进 行
_
1 1 34
2 1,1() 00 3 6
计算机 工程 与设计 C m ue n ier gadD s n o p t E gn ei ei r n n g
此 在 进 行 数据 挖 掘 时 , 数 据 挖掘 过程 的各 个 环 节 都 必 须尽 可 在 能地在保证这一前提下 , 一步改善数据挖掘的各个环节, 进 从
率将 会得 到显著 的提 高。随着 并行数 据挖掘 的进一 步研 究, 数 据 工 程 技 术 的 发 展 ,使 原 来 需 要 对 异 种 数 据 库 进 行 统 一 处
掘 方 法 等 。 性 简 约 方 法 就 是将 与 决 策 属 性 无 关 的 条 件 属 性 属
排 除 在 规 则 之 外 。其 作 用 除 了简 化 了 规 则 的 表 示 形 式 以 外 , 其 实 还 含 有 一 个 重 要 的作 用 就 是 对 数 据 集 的 约 简 。 为 在 处 因
Ke r s d t n n ; p a ll r c s i g d t e t r ; weg t d t a t in y wo d : aami ig r ep a l o e sn ; a af au e i h ; aap ri o t
0 引 言
在 数 据 挖 掘 提 出 的 时 候 , 存 在 着 如 何 提 高 数 据 挖 掘 效 就 率 的 问题 。 是 因 为 数 据 挖 掘 是 针 对 处 理 超 大 规 模 数 据 集 而 这
息 、 识 是 相 同 的 , 此 可 以只 保 留 重 复 数 据 中 的 一 条 数 据 , 知 因
收稿 日期 :2 0 — —5 0 9 61 ;修订 日期:2 0 —81 。 0 0 90 —7 作者简介 :华铨平 (9 8 ) 16 - ,男,浙江 慈溪人 ,硕士,副教授,研究方向为人工智能 。Emal u q apn @ 1 3tm — i :h a un ig 6 . o
而 其 它 重 复 的 就 可 以 去 掉 。显 然 去 掉 重 复 的数 据 ,数 据 挖 掘 中 需 要 处 理 的 数 据 总 量 就 会 减 少 ,当 然 也 就 会 提 高 数 据 挖 掘
的效率 。数据 浓缩 的基本 思想与基 于属性 简约 的方法相 似 ,
这 种 方 法 不 仅 允 许 数 据 的 一 致 性 浓 缩 ,而 且 还 允 许 不 一 致 的
致 的简 约 过 程 。 由 于 某 种 或 某 几 种 属 性 可 以 去 掉 , 个 过 程 这
1 分 布 式数 据 挖 掘 的应 用 背 景
随 着 互 联 网 络 的迅 速 发 展 , 得 大 规 模 并 行 数 据 挖 掘 的 使 方 法 近 年 来 得 到 了 广 泛 的重 视 和 研 究 。 目前 关 于 这 方 面 的 研
HUA Q a —ig u npn
( stt o c aoEet nc dIf ma o n ier g Z e a g etead aho oa o a adT cncl I tue f n i Meh n — l r is n o t nE g ei , hj n xi n si V ct n ln eh i co a n r i n n i T l F n i a C lg , n b 12 C ia o ee Nig o 1, hn) l 35 1
c n i o r c s fd t n n , wh c s o d s o e s f l n wld ei a aa c sp s i l n o d t n i p o e so a ami i g i n i h i ic v ru e u o e g d t s t k n mu h a o s ea d i r v f ce c fd t b mp o ee i in y o a a
m i ng. Bas d o hi de , d t a ttonpr e sf rdaa f au ea d scm eho ni e nt si a a ap rii oc s o t e tr n ba i t dsofw eg e r le t i nga epr po e iht dpa al l am ni o s d. I da r n t s oc s hi pr e sofd t i i g, k a am n n nowl d ea e opa t e ger lt dt r ofd t a beg ndd a ac n ot a yna i e f r a c daam i ngc nbei p o dg e ty ̄ m cp ro m n eof t ni a m r ve r a l
究 主 要 是 从 方 法 上 尽 可 能 保 证 并 行 挖 掘 的 效 率 ,从 而 在 对 大
就 像 在 一 个 数 据 库 中 删 除 一 列 或 几 列 的 操 作 一 样 , 数 据 集 原 中 的数 据 就 会 因此 而 出现 重 复 , 些 重 复 的 数 据 所 表 示 的信 这
划 分 的方 法 有 两 种 , 水 平 划 分 与 垂 直 划 分 , 以水 平 划 分 即 而 方法最 为常用 。而为 了实现并行 数据挖 掘进行 的数据分配 ,
而 提 高 数 据 挖 掘 的 效 率 。这 个 意 义 可 以用 一 句 话 概 括 , : 即 数
据挖 掘过 程 必 须 是 意 义 第 一 , 率 第 二 。 是数 据 挖 掘 的 原 则 。 效 这 相 对 于 数 据 而 言 , 方 面 随 着 系 统 的不 断发 展 , 据 获 得 一 数
的动 态性 能 。
关 键 词 : 据 挖 掘 ; 并 行 处 理 ; 数 据 特 征 ; 权 值 ; 数 据 划 分 数
中 图法分类 号 :P8 T 1
文 献标识 码 : A
文 章 编 号 :0 07 2 2 1) 61 1—3 10.04(0 0 0 —3 30
Re e r h o iti u e aam i i o aaf au e s a c n d srb t dd t nngf rd t e t r
m os u t n ilw a o r ol u h pr blm . W hae rs q nc i i g orpa a llm i n ts bsa ta y t es ves c o e tve e ue em n n r le ni g, fna r s fdaa m i ng i hep e i lpu po e o t ni st r —
Ab t a t Co sd rn f a y a a lb em eh d r v f c e c f a ami i g p r l l aam i i gp o e s s e a d da e sr c : n i e i g o m n v i l t o s o i a t mp o e e i n y o d t n n , a al t n n r c s g r e s h i ed ir t
摘 要 :在 众 多 提 高 数 据 挖 掘 效 率 的 方 法 中 ,并 行 数 据 挖 掘 是 一 个 从 根 本 上 解 决 该 问 题 的有 效 途 径 。 首 先 指 出在 数 据 挖 掘
过 程 中 ,不论 采 用 顺 序 挖 掘 还 是 并 行 挖 掘 ,都 必 须 以 数 据 挖 掘 的 最 终 目的 为 前 提 ,即 尽 可 能 多 地 发 现 数 据 中 所 含 有 的有 用 的知 识 , 然后 在 此 基 础 上 提 高 数 据 挖 掘 的 较 率 。 在 该 想 法基 础 上 , 出 了 面 向 数 据 特 征 的 数 据 划 分 过 程 , 进 一 步提 出 了 加 提 并 权 式 的 并 行 数 据 挖 掘 基 本 方 法 。 在 这 种 数 据 挖 掘 过 程 中 ,可 以 得 到 相 对 于 部 分 数 据 的知 识 ,在 很 大 程 度 上 提 高 了数 据 挖 掘
相关文档
最新文档