基于SQL的频繁模式挖掘的研究与实现
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的知识 发现功能 , 难于嵌 人大型应用 ; 数据挖掘 引擎 与数据库 系
统 是 松 散 耦 合 , .miisi H. a n a称 其 为 “ 件 挖 掘 系 T I e nk 和 l M ni l 文
统 ” :
给定事 务数据 库 T B和最 小支持 度 阈值 mn sp 频繁模 D i— u ,
含 A当且仅当 A T时包 含 k个项的模式称 为 k模式 模式 A 一
1 引 言
数据挖掘技 术的研究与应用至今为止 已经取得 了很 大的成
果 , 同 时 也 面 临 着 一 些 问题 , 如 : 据 挖 掘 系统 仅 提 供 孤 立 但 例 数
的支持 度计 数是指事 务集 中包含该 模式 的事 务数 , 如果模 式 A
R E RC A MP E ES A H ND I L ME A I QL B E R QUE T P T E N MI I G NT T ON OF S AS D F E N A T R NN
L uj ’ Z a gJ in ’ J n igu i ie G i hn i a g i gQ ny e x a
Ab t a t s r c F e u n a tr n n sa k y p o lm n ma y d t n n p l ain T i p p rt k sa h g e o ma c P g o t lo r q e t t n mi i g i e r b e i n aa mi ig a pi t . h s a e a e ih p r r n e F — w h ag — p e c o f r
rh r xm l,sst l i R B oeF ・e n ie eu n pt rs rm ib N I Q n r l P / Q r a i i m f a pe ue be n D MSt s r Pt eadm ns rq et a e o t yA S LadO a e L S Lpo mmn t oe a ot r f tn f S c r g g t h o g ,i st e i dpoe ue lm n ti S Lbsdf q et at nn t d e nl y g e h d tl r d rst i e eths Q ae r un pt r mii me o . c o v e ae c o mp e e n g h Ke w r s y od Fe un pt r nn S L F -e F -rwh rq et at mii e n g Q Pt e Pgo t - r -
的支持 度计 数不小于预先设定 的最小 支持 度阈值 mn sp与事 i—u
务总数的乘积 , 则称 A为频繁模 式。频繁 k模式 的集合通 常记 . 作 L 。对于 I 中单 个的项 , 如果它在 T B的事 务 中出现次数大 D 于等于 mi sp与事务总数的乘积 , n u — 则称该 项为频繁项 。
库 中的 表 来 存 储 频 繁 模 式 村 F —e , 过 标 准 S L语 言 硬 O al 据 库 P / Q Pte通 r Q rc e数 L S L编 程 技 术实 现 了这 种 基 于 S L的 频 繁 模 式 挖 掘 方 Q 法 , 给 出 了该 方 法 较 为 详 细 的 实 现 步 骤 一 并 关 键 词 频 繁 模 式 挖 掘 结 构 化 查询 语 言 频 繁 模 式 讨 频 繁 模 式增 长
式挖掘 问题 就是找出 T B中所包含的全部频繁模式的 问题 。 D
基于 S L的频繁模 式挖 掘 的研究 是数据 挖 掘与 数据 库 系 Q 统集成方面 的研究 :这 种 基于 S L的 频繁模 式挖 掘 方法 Q 不 同于 以往 的将待挖掘 数据 准备好提 供给挖 掘算 法的方 法 , 而
维普资讯
第2 3卷 第 7期
20 0 6年 7月
计 算机 应 用与软件
Co mpu e、App iai n n o t r tl l to s a d S f c wa e
Vo| 3. . l 2 No 7
J 12 0 u.0 6
( eat e t f o t t , a g h uDini nvr t . a gh uZ e mg3 0 1 C ia D p r n m m e H n zo a z U i s ) H n z o hj 1 0 2, hn ) m oC r ei x i
( H aC m n ain Z ea g . agh iZ ea g3 0 1 , hn ) A m o mui t ( h in ) H nzO h in 10 2 C ia c o j l j
基于 S QL的 频 繁 模 式 挖 掘 的研 究 与 实 现
李桂杰 张集祥
( 州电子科技大学i算机学院 杭 r
姜庆月
浙 江 杭 州 30 1 ) 10 2
浙 江 杭 州 3 0 1 ) ( 冠 科技 ( 10 2 华 浙江 ) 限 公 司 有
摘 要
频繁模式挖掘是 多种数据挖掘直胃 中的关键 问题~以一种高 效的频繁模式挖掘算法 F — o t Pg wh算法为例 , 用关 系数据 r 利
22 F - e . P t e和 F ・rwt 法 r P g o h算
频 繁模 式树 F .e 是如下 的一种树结构 : Pte r
( )它由三个部分组成 : 标记 为空结 点 ( U L) 1 ① N L 的根 ; ② 作为根的儿子的项 目前缀子树集 合 ; ③频繁项头表 ; ( )项 目前缀子树 中的每一 个节点 由三 个域组 成 : 项 目 2 ① 名 ; 支持度计 数 ; ② ③节 点链 。其 中, 目名 表示节 点代表 哪个 项