基于GPU的闭合频繁项集挖掘方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
u i g a b t a aa r pr s n a i n o e u n t ms t, u t rm e r — a e n e r e i s d t k e c a t r Ex e i ntlr s lss o s n i p d t e e e tto ff q e t e e s a f r m r i he mo y b s d i d x t s u e o ma e s a h f se . p rme a e u t h w e r h t oi t a e a g rt m a t r l t o a o ffe u nt t ms t s n e s s a e a d a h e ebet rp r o a c n i g tme h t l h C so ea 1 hei r t n o q e e e su i g ls p c . n nf m i r i n c iv t e r n ei r n n e f m nu i .
项集索 引树 , 以提高项 集支 持度计算和项集查找 的速度 。在 2 可 种数据集上 的实验结果表 明,该方法能够用更少 的空 间保存频繁项集 的全
部信 息,并减少挖掘时 间。 关健 词 :图形处理器 ;频繁项集 ;闭合频繁 项集 ;索引树 ;数据挖掘
Cl s d Fr q e tIe s t i i e h d o e e u n t m e n ngM t o M Ba e n G r p i o e sn i s d o a h cPr c s i g Un t
2 频繁项集与闭合频繁项集
2 频繁项集 . 1
令 厂={,, } 示 一 系 列 不 同 项 目 的 集 合 , 用 ‘f …, 表 2 I _n 厂l 表示 厂 的大小 ,则称 厂 的一个子集 x 为一 个项集 。
再根 据新建的数据格式进行数据挖掘 ;而基于指针 的算法 以 基于 写的算法为基础 ,将建立 的压缩数据格 式中的某些数据 直 接用指针代替 ,减少数据存储的代价 。 文献[】 1对频繁项集挖掘 的算法进行 了综述 ,并讨论 了今 后的研 究方向。文献【] 出了闭合频繁项集 的概念和最早 的 2提 闭合项集挖掘算法 C OS 在 层次模 型下通 过事务之 间的交 L E, 操作获得结果 。文献[】 出一种 基于 DS C —re的数据结 3提 F It e 构 ,对动态变化的数据进行更新和剪枝 ,实现对 闭合项集 的 挖掘 。文献【】 出了 L M 算法在 实现级别 的改进版 本,对 4提 C 数据库 中的数据进行预处理 , 将支持度过小或过大的项删除 , 进 而合 并类似 的事务 ,从而能够高性能地处理高 阈值下 的密 集型数据库 。
பைடு நூலகம்
[ ywo d ]Grp i rc sigUnt U)feu n e e;lsdf q e ttmstidxt ed t miig Ke r s ahc o es iGP ;rq e ttmstc e e u n e e;n e e; aa nn P n ( i o r i r D0I 1 9 9jsn10 —4 82 1.40 8 : 03 6 /i . 03 2 .0 11 .1 .s 0 ’
中 分 号 T3 圈 类 ; P1 1
基 于 GP 的 闭合频 繁项 集挖 掘 方 法 U
李海蜂
( 中央财经大 学信 息学院 ,北京 10 8 ) 00 1
摘
要 : 出一种 采用图形处理器挖掘 闭合频繁项集 的方法 ,用二进制数 据表示 项集 , 用单指令 多数据 的体 系结构实现 并行计 算,结合 提 利
LIHa - n ie g f
(co l fnoma o , e t l iesyo iac n c n misB in 0 0 1 C ia S h o fr t n C nr v ri f nn eadE o o c, e ig10 8 , hn ) oI i aUn t F j
写的算法将源数据进行再加工 ,建立压缩 的数据格 式,然 后
() 2基于索 引树提 出 了一 种并行 的闭合频 繁项集 挖掘 的
方法 ,可 以提 高项集查找 的速度 ,降低冗余计算。 () 3通过在 2种数据集上的实验 ,与最新 的闭合频繁项集 挖掘算法进行 了比较 ,验证 了本文算法 的有效性。
第3 7卷 第 1 4期
、o _7 ,13
・
计
算
机
工
程
2 1 年 7月 01
J l 2 1 u y 01
N o.4 1
Co utrEng n e i g mp e i e rn
软件技术与数据库 ・
文 编 1 0 3 8 o )-o 9 o 章 号: 0 - 4 ( 11 _ 5_ 3 文献 识 A o_ 22 14 _ _ _ 0 - 标 码:
Unt U)frmiig co e e u n e es T e me o mpo s i geisrc o — l pe d t rh t tr c eeaete miig s e d i GP ( o nn ls df q e t tms t h t de l y sn l— t t n mu t l— aaac i cu et a c lrt h nn p e r i . h a n ui i e o
[ sr clT i p p r o sdr apo lm a t eb s o ek o e g a o ena desd nme , o oLeGrp i Po es g Ab ta t hs ae nies rbe t t ot et ft n wl eh sn t e d rse , a l h w t S ahc rc si c h h h d b y I n
1 概述
频 繁项集挖掘是一种重要 的数据挖 掘类 型。传统频繁 项 集 挖掘方法主要考虑 的是在静态事务数据库 上的挖掘 问题 , 事务可以被保存到硬盘上实现多次扫描 。具体算法分为 3种 类型 :基于读 的算法 ,基于写 的算法和基于 指针 的算法。其 中 ,基 于读的算法主要通过迭代 的数据读操作来 完成 ,基于
项集索 引树 , 以提高项 集支 持度计算和项集查找 的速度 。在 2 可 种数据集上 的实验结果表 明,该方法能够用更少 的空 间保存频繁项集 的全
部信 息,并减少挖掘时 间。 关健 词 :图形处理器 ;频繁项集 ;闭合频繁 项集 ;索引树 ;数据挖掘
Cl s d Fr q e tIe s t i i e h d o e e u n t m e n ngM t o M Ba e n G r p i o e sn i s d o a h cPr c s i g Un t
2 频繁项集与闭合频繁项集
2 频繁项集 . 1
令 厂={,, } 示 一 系 列 不 同 项 目 的 集 合 , 用 ‘f …, 表 2 I _n 厂l 表示 厂 的大小 ,则称 厂 的一个子集 x 为一 个项集 。
再根 据新建的数据格式进行数据挖掘 ;而基于指针 的算法 以 基于 写的算法为基础 ,将建立 的压缩数据格 式中的某些数据 直 接用指针代替 ,减少数据存储的代价 。 文献[】 1对频繁项集挖掘 的算法进行 了综述 ,并讨论 了今 后的研 究方向。文献【] 出了闭合频繁项集 的概念和最早 的 2提 闭合项集挖掘算法 C OS 在 层次模 型下通 过事务之 间的交 L E, 操作获得结果 。文献[】 出一种 基于 DS C —re的数据结 3提 F It e 构 ,对动态变化的数据进行更新和剪枝 ,实现对 闭合项集 的 挖掘 。文献【】 出了 L M 算法在 实现级别 的改进版 本,对 4提 C 数据库 中的数据进行预处理 , 将支持度过小或过大的项删除 , 进 而合 并类似 的事务 ,从而能够高性能地处理高 阈值下 的密 集型数据库 。
பைடு நூலகம்
[ ywo d ]Grp i rc sigUnt U)feu n e e;lsdf q e ttmstidxt ed t miig Ke r s ahc o es iGP ;rq e ttmstc e e u n e e;n e e; aa nn P n ( i o r i r D0I 1 9 9jsn10 —4 82 1.40 8 : 03 6 /i . 03 2 .0 11 .1 .s 0 ’
中 分 号 T3 圈 类 ; P1 1
基 于 GP 的 闭合频 繁项 集挖 掘 方 法 U
李海蜂
( 中央财经大 学信 息学院 ,北京 10 8 ) 00 1
摘
要 : 出一种 采用图形处理器挖掘 闭合频繁项集 的方法 ,用二进制数 据表示 项集 , 用单指令 多数据 的体 系结构实现 并行计 算,结合 提 利
LIHa - n ie g f
(co l fnoma o , e t l iesyo iac n c n misB in 0 0 1 C ia S h o fr t n C nr v ri f nn eadE o o c, e ig10 8 , hn ) oI i aUn t F j
写的算法将源数据进行再加工 ,建立压缩 的数据格 式,然 后
() 2基于索 引树提 出 了一 种并行 的闭合频 繁项集 挖掘 的
方法 ,可 以提 高项集查找 的速度 ,降低冗余计算。 () 3通过在 2种数据集上的实验 ,与最新 的闭合频繁项集 挖掘算法进行 了比较 ,验证 了本文算法 的有效性。
第3 7卷 第 1 4期
、o _7 ,13
・
计
算
机
工
程
2 1 年 7月 01
J l 2 1 u y 01
N o.4 1
Co utrEng n e i g mp e i e rn
软件技术与数据库 ・
文 编 1 0 3 8 o )-o 9 o 章 号: 0 - 4 ( 11 _ 5_ 3 文献 识 A o_ 22 14 _ _ _ 0 - 标 码:
Unt U)frmiig co e e u n e es T e me o mpo s i geisrc o — l pe d t rh t tr c eeaete miig s e d i GP ( o nn ls df q e t tms t h t de l y sn l— t t n mu t l— aaac i cu et a c lrt h nn p e r i . h a n ui i e o
[ sr clT i p p r o sdr apo lm a t eb s o ek o e g a o ena desd nme , o oLeGrp i Po es g Ab ta t hs ae nies rbe t t ot et ft n wl eh sn t e d rse , a l h w t S ahc rc si c h h h d b y I n
1 概述
频 繁项集挖掘是一种重要 的数据挖 掘类 型。传统频繁 项 集 挖掘方法主要考虑 的是在静态事务数据库 上的挖掘 问题 , 事务可以被保存到硬盘上实现多次扫描 。具体算法分为 3种 类型 :基于读 的算法 ,基于写 的算法和基于 指针 的算法。其 中 ,基 于读的算法主要通过迭代 的数据读操作来 完成 ,基于