分布式数据挖掘计算过程DDCP算法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 D P D C 算法
2 D C 算法步骤 . DP 1 基于分布式计算框架, 本文提出了D C 算法来实现框架的计算思想, DP 算法分为控制节点和分节点两
个部分。
万方数据
电子科技 大学学报
第3 2卷
控制节点的 算法包括三 个阶 段: 1 RU 初始化 进行必要的全局信息收集和 ) 的 TD 相应变量的 初始化 同时通知各个节点全局的 信息 2 T D 的事务分布。 ) U R 决定读人的每一个事务应该分配给哪一个节点进行处理, 纪录每一个节点得到 的 事务总数, 根据在初始化阶 段得到的各个节 点可以分配的事务数目 控制是否在下 一个事务的分配决策中
3 尸 处 己的 务, 所有事 理自 事 如果 ) 洛自 务可以 放人内 则选择高效的 存, 算法生成本 项集; 地大 否则将
事务缓存到本地磁盘, 在所有事务从T D 接受完毕后, RU 生成最后的 本地大项集; 4 IM 负责和各个节点之间的数据通信, ) U C 同时维护全局枚举树O 。 T 各节点在处理过程中或者处理完 成后都可以和 C U IM 通信, 这取决于 不同的实现策略。
Ky d amn g s ctn ; g ime d a s dt in; o ao re a e s; t a ew rs a i a ii u l t t ab e o s l r e 目 前数据挖掘的 算法很多M 这些算法都是针对特定的问题和应用领域, l但 在有些方面是高效的, 但 都存在或多 或少的缺陷。主要问题在于每一种方法都是对具体的计算方法的 研究, 在改善以往算法时却牺 牲了 些以 往算法的优点。 大规模数据库的 关联规则挖掘算法的效率瓶颈是大项集的生成过程, 这个过程 相当 耗时, 故所有的算法都针对这一点进行了 研究和分析, 提出了 各种不同技术的算法, 其目 的是尽量减 少 数据库的扫描次数。 本文通过深人分析以往算法的优缺点1 提出了一种关联规则挖掘大项集生成的并 2 1 ,
一 一
1 3
吴德伟2
黄玉美’
赵修斌“
王 轶2
( 安 大 机 精 仪 程 1西 理工 学 械与 密 器上 学院 西 7 0 ; 空 程大 讯1 学院 西安 7 0 ) 安源自文库1 4 2 军! 学电 . 08 . ( 1 1 7 07
[ 摘要】提出了一种关联规则挖极大项集生成的并行和分布式处理的计算框架的算法,该算法以大规模事 务数据库为基拙,将数据有效地分片后作分布或者并行处理,通过节点之间的通信降低了节. 点间传愉的数据童, 通过算法实 例验证了其法的正确性和可行性,可以在分布式或者并行环瑰里实现高效的数据挖掘口 关 健 词 数据挖据; 关联规则; 大项集;毅据岸
n Y2 i Fn Y gu n G a pn' W Dwi Iag e o b g Wag ag w ' Za un eg i 2 h g g n u e n Ymi ZaXui 2 e l u u ' h i n
( C lg oMehn aad c i ToEi ergX' U v f ho g X ' 704; gnei , r oTcnl y i n 108 1 oee cai l Peio ol . f c n r s n n n i n . e n a o a
Vn .2 No l 1 3 .
宜2" . 一 卫rTEo 3; 22 Wg A) 3l 年l ] } JT C o i- h uo1f E S-n n r r rf a— a 1 l r i x V T
分布式数据挖掘计算过程
一一D C 算法研究 P D
方英武” ・ 2
张广鹏‘
GfS 拢县 1 I } f F l 73 . P 15 文献标识码 A
R sac o Ds iui D t nn C l l ig cs eerh ir t e a ig c a n P oes n t b v a mi au t r
一 一 D P gr h 一 D C A oi m l t
为频繁项集;
2利 项 生 关 规 。 每 大 集 大 集 成 联 则 对 个 项 布 若 c , 0 且 u o(/p r )m c f )用 BA B . spt) pt } o , # p r s oB i n Au ( n
则有关联规则: }( B B A ) - 问题2 ) 较容易解决,已有成熟的生成算法,问 ) 题1 的解决影响大规模数据库的检索, 所以效率和准确 性是问题的关键, 讨论和算法都是集中 在不牺牲精度的 前提下提高大项集生成效率上, 本文算法和体系结 构将基于 po和 ai n对这一问题进行分析。 A rr Pri ii to t L 分布式计算框架 Z 分布式计算框架利用了Pri 数据库分片的思想,但是各个部分具体的算法不是固定的, ai n to t 在不同的 部分使用不同的算法, 该计算框架可以应用在 并行和分布式的环境里。其计算框架如图1 所 示 图中 D 表示分布单元(iru Cnoa U Ds bt otl t e r n i d
行 分 式 理 计 框 的 法 分 式 据 掘 算 程D t uvDt inCllnP cs 和 布 处 的 算 架 算 一 布 数 挖 计 过 (sb e m i aut re, i t a ng a g s i ri a c i o
D C) DP 算法。旨 在能够提供一个灵活的和可扩 展的计算平台, 利用现在相对廉价的单机进行网 络计算,充 分挖掘网 络计算的优势。
1 分布式计算框架
1 问 . 题描述 1 关联规则挖掘问题是在分析零售业事务数据库时提出的, 现在的发展已经超出了原来的应用范围,其
20年, o 收稿 月t日 02 。男 3岁 博士 0 研究生 主要从事月 力学与自 侧: 动控树 方面的研究
万方数据
第 1 期
方 武 等 布 数 挖 阵过 英 :分 式 据 掘i
Mn ee Ui, U 示信息 制管 单 a g n n) I 表 a m t C t M 控 理
元(fm tn no ad n e et t Io ao C tl M a m n U i, nr i or n a g n) T D 表示事务读取分发单元( as tn a RU T n co R d r ai e
算法研究
本文即 采取这种形式化的 描述方法 深度和广度都有很大提高, 但关联规则的形式化描述有其通用意义, 关联规则的发现可以 分解为两个子间题: 为大项集或者称 1找出 在于 务 据库中 所 项 项 I 支 度s p (3 iu, 事 数 ) 存 的 有大 集。 集 的 持 u o !l n p 则称X p r) s t- m
A s at h rc pooe a rh f a u t a ic r ue f h s oii T iaie ps a o t o t cl le het e d t asc tn bt c r s l r t d l i m h c a r t u s o e ao g e c r rlad a o t bs o t dtprtn fl ue t m rs seitsat sm t e u n ts rh ae n a ai , s h etad c l , e e e h l i m d h a i uy s i g e t o l e i n p ai t a i e h m ue cn oet as n s tn r dmy eo e dtse it dt aeT e oim s ot lr s g tna i s o ltr l t a kw h a bs. a rh i s r l o i r co a a n o v h a n a s e e h l t s g u d t ea p ad w t cr c es f il . a b ue f d tbtdt a ad s f h xm l n so s or t sad b t Icn s o ir u a b e e o e e h r h e e n n e i y t e d si e as n s a i r m sapcb fr r u cl li . ot lal o d tbt a u tn p i e i i e ao s c
包含该节点;
3I U 事务处理。 ) 的 C M 根据T D 读取数据的状态决定事务处理所处的阶段,当 RU 得知所有的事务已 经被 T D 读取结束后, RU 各个节点就得到了 它们应该处理的 全部事务, 因此可以 得到本地的大项集1 此时IM CU 处于等待状态,每当一个节点完成后就通知IM C U,同刚 将本地的大项集传递给IM , U C U IM 动态的合并 C 所有的本地大项集,最终输出全局大项集。 分节点的算法也包 括三个阶段: 1 从T D 得到全局的分布信息, ) RU 初始化自 身的变量, 包括将自 身节点同分配的 通道相绑定; 2 连续接受中央节点传递的事务, ) 同时负责清除通道的 数据为下一个 事务的 接收做 准备。 分节点根据 是否可以将全部事务放人内 存执行来决定是否放人内 存处理, 如果不可以放人内存执行则利用动态的事务 处理或者缓存到 本地的磁盘; 3 在得到J D 发送的明确的事务分发结束信号后,如果不适用动态的 ' R U ) T 集合枚举树牛成方法则开始 处 理所有得到的 事务, 处理结束后将得到的大项集传递给中央节点的 C U IM 单元 2 有序集合枚举树的动态生成 . 2
局集合枚举树(l aSt m re e Go l Eu e tT ) b e n a r 或其他 e 数据结构。 1 分布式计算流程 . 3 分布式计算框架从概念上来讲是一种层次 计算方法, 将整个数据挖掘大项集的生成算法 中涉及的各个相对独立的计算过程分离出来 利用单独的模块进行计算,因为各个模块之间 图1 分布式计算框架图 没有紧密的 祸合现象,相互之间只是事务数据 的传递和少量的指令流。 该计 算框架的核心是分布单元D ,其 U 具体的流 程可以分四 步进行:
1TD 首先 根据处理器或者可利用的 式单机的 创建数据传输通道C-C, 各种初始化 ) U R 分布 数目 I . 负责
工作;
2 启动函数D c e e e oe , e d cv N d( 根据所使用的 ) i Re i - ) 解决数据偏度策略的不同 初始化变量, 顺序读取数 据库中的 事务块, 将每一个事务分配到不同的处理器, 做到负载均衡和解决数据偏度;
a Dsbt Ui, B n ii e t T 表示事务数据库 d t u n) D r (aai Dta) C一C表示数据传道 T nc n a s , rst ab e , o (a T neCa e, P表示处理器( Dt r sr n l P- a f h n) , a 紧 藕合或树( c St mre ) G 表示全 ) L a eEu e tTe . o l n a r e T
2Te cm ui tn i en I t r Ar e i en n . a 107 r Eg e i U i X' 707) . Tl o m n ao Eg e i ni e i o n nr g v in h e e c i n n rg m . F c s