基于关联图的频繁闭模式挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第 2期

璇 :基 于关联 图的频 繁 闭模 式挖 掘
・l5・ 5
八 … 八 结果中 “ ” 的数 目 (“ 1 ^” 表示 逻辑与运算 ) 。 例如 ,表 1 所示 的一个事务数据库 D,每条记 录是为该事务所对应 的项的集合 。
表 1 事务数据库 D
B BV4
Байду номын сангаас
事 务标 识
提 出基 于 关 联 图 的 频 繁 闭 模 式 挖 掘 算 法 MF IG CB
( nn rq et l e e e ae n G ah 。 MiigFe u n o dI mst B sdo rp ) Cs t s 1 构造 关联 图
远小于频繁模式 ,但从中可以推导出所有的频繁模 式。最大频繁模式是频繁模式的最小压缩 ,但没有 记录相应频繁子集的支持度信息 ,不便产生关联规 则 ;而 频繁 闭模 式虽 然规模 比最 大频 繁 模式 大 ,但 同时包含了频繁子集的支持度信息 ,在生成关联规 则 时可 以直 接使用 。
与 以上算 法思 想不 同 的是 ,So hw—Jn e 出的 aeY n提
式转化成垂直 数据库形式 。项 的位 向量构造方 法 为 :位向量的每一位均对应着数据库中的事务项 , 其长度等于总事务数 ,若该项 在第 n 事务 中出 个
现 ,则其 位 向 量 的第 n位 置 1 ,否 则 置 0,项 i 的
1o o 2o o 3o 0
40 0
项集
口, b c , a, b c , ,d
b ,c,e a,c d,e , d,e

BV ;
图1根据表2 生成的关联图
5o 0
扫描数据库 ,将表 1中的每个项用相应的位 向 量 表 示 ,则 表 1的数据 库可 以表 示成 如 表 2所示 的 垂直数据库形式 。
J n 2 1 u. 01
【 信息科学与工程】
基 于 关 联 图 的频 繁 闭模 式挖 掘
王 璇
( 建对 外 经济 贸 易职业技 术 学院 信 息技 术 系,福 州 30 1 ) 福 506 摘 要 :将 关联 图的数 据挖 掘 思想应 用到 频繁 闭模 式的挖 掘 中,使 用位 向量的技 术 简化项 集 支持 度 的
位 向量用 表示 。
性质 1项 i 的位 向量 B , “ ” 的数 目表 示 y中 1
该项 i 在数据库 中出现的次数,即项 i 的支持度 计 数 ;项集 { ,: i i ,…, i }的支持度计数是 八
收稿 日期 :2 1 —0 0 1 4—2 0
作者简 介 :王璇 (9 8 ) 17 一 ,女 ,福 建福州人 ,硕士 ,讲师 ,研究方 向:数据库技术 、数据挖掘 。
IO开 销 较 大。P i 提 出基 于 频 繁 模 式 树 的 / e等 COE L S T算法 ,使用深度优先搜索策略 ,但递归 J 构 造条件频 繁子树 的 C U开 销和存储 开销很大 。 P Z k 等提出基于项集树的 C A M算法 ,采用双 ai HR J 向搜索策略 ,剪裁效率较高 ,但存储开销大,且投 影操作效率不高。此外 ,很多的研究都是基于以上 算法思想 的改进 ,如 C O E L S T+- 、F Coe 。 4 P l -等 J s5
第 l 第 2期 8卷 21 0 1年 6月
辽 东学院学报 ( 然科 学版 ) 自
Junl f at nLan gU i ri N t a cec ) ora s r i i n esy( a rl ine oE e on v t u S
Vo . 1 . 2 1 8 NO
计算 ,构造关联图表 示项集 间的频繁关 系。在此基础上 ,提 出一种频繁 闭模式挖掘算法, 针对频繁闭模式 的特点 ,结合剪枝策略、子集检测策略 、搜索策略等技术手段 ,优化算法性能。实验结果表明,该算法在 时 间性 能上优 于经典的频繁 闭模 式算 法 C O E 。 L S T
关键 词 :关联 图;频繁 闭模 式 ;位 向量 ;数 据挖 掘
关 联规 则研 究 中的一个 重 要 内容是 挖 掘频繁 模
式 ,而现实 中,数据库 中的频 繁模式往往数 量过 大 ,对 规则 的解 读造 成 困难 。为此 ,研 究者 提 出 了
最 大频 繁模 式 和频繁 闭模式 的概念 ,它 们 的规模 都
出所有的频繁模式。作者继承该算法思想 ,并对其 进行 改 造 ,使 之应 用 到频 繁闭模 式 的挖掘 中 ,从 而
根据 文献 [ ] 6 ,关 联 图 的构 造 可 分 为 两 个 步
骤 :首先使用垂直数据库布局将事务信息映射成位 向量 存储 ,并 生 成 频 繁 1项集 ;接 着 创 建 有 向边 , 生成 频繁 2项 集 。
1 1 位 向量 映射 与 生成频繁 l项集 .
扫描 一遍 事务 数 据库 ,按 每个项在 数 据库 中 出 现 的位置 建 立相应 的位 向量 ,从 而将水 平 数据 库形
中 图分类 号 :T 3 11 P 1 .3
文 献标 志码 :A
文章编 号 :17 4 3 (0 1 2— 14— 5 6 3— 99 2 1 )0 05 0 基 于 图的 关 联 规 则 挖 掘 算 法 D G- ,该 算 法 仅 扫 L 6 J 描 一次数 据 库 ,然后 构建关 联 图 ,在关 联 图 中挖 掘
由于 频繁 闭模 式是 所 有 频 繁模 式 的无 损 压缩 , 挖掘 频 繁闭模 式 日益成 为关 联规 则挖 掘 的一 个研 究 热点 。19 9 9年 ,Psue 等首先 提 出 了频繁 闭模 式 aqi r 的概 念 ,并 给 出 了基 于 A r r算 法 的频 繁 闭模 式 pi i o 挖掘算法 A—C s J l e ,算法需要多次扫描数据库 , o
表 2 事务数 据库 D的垂直数据 库形式
关联图中实际上已给 出了频繁 1 项集和频繁 2 项 集 ,此后 的挖掘 将在 此基 础上 ,不 断地 扩展 项集 的规模 ,最 终 生成 所有 的频繁 k ( 2 k> )项 集 。
相关文档
最新文档