关联规则最大频繁项目集的快速发现算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第42卷 第2期 吉林大学学报(理学版) V ol.42 N o.2 2004年4月 JO U RN A L OF JIL IN U N IV ER SIT Y(SCIEN CE EDIT ION)A pr 2004
关联规则最大频繁项目集的快速发现算法
刘大有1,2,刘亚波1,2,尹治东3
(1.吉林大学计算机科学与技术学院,长春130012;
2.吉林大学符号计算与知识工程教育部重点实验室,长春130012;
3.吉林出入境检验检疫局,长春130062)
摘要:提出一种快速发现最大频繁项目集的算法,该算法对集合枚举树进行改进,结合自底向上与自顶向下的搜索策略,利用非频繁项目集对候选最大频繁项目集进行剪枝和降维,减少了不必要候选最大频繁项目集的数量,显著提高了发现的效率.
关键词:关联规则;集合枚举树;最大频繁项目集
中图分类号:T P311 文献标识码:A 文章编号:1671-5489(2004)02-0212-04
Fast algorithm for discovering maximum frequent itemsets
of association rules
LIU Da-yo u1,2,LIU Ya-bo1,2,YIN Zhi-dong3
(1.College of Comp uter S cience and T echnology,J ilin U niver sity,Changchun130012,China;
2.K ey L abor atory of Sy mbolic Comp utation and K now ledg e E ngineering of M inistry of Education,J ilin U niver sity,
Changchun130012,China; 3.J ilin E ntry-Ex it I nsp ection and Quar antine Bureau,Changchun130062,China)
Abstract:The present paper presents an efficient alg orithm that improv es set-enumeratio n tr ee and finds maxim um frequent item sets.By co mbining botto m-up and top-dow n searches in set-enumeration tree and making use of the infrequent itemsets to pr une candidates of the m ax imum frequent itemsets, the algorithm reduces the number of candidates of the max imum frequent itemsets g enerated by it so that the efficiency is incr eased.
Keywords:association rule;set-enumeration tree;max imum frequent itemset
发现频繁项目集是关联规则等多种数据挖掘的关键问题.在关联规则挖掘中,如果一个项目集的支持度不小于用户定义的最小支持度(以下简记为minsup),则称为频繁项目集;反之则称为非频繁项目集.如果一个频繁项目集的所有超集都是非频繁项目集,则称为最大频繁项目集.目前,多数频繁项目集发现算法都是Apr io ri算法或者其变种[1].这些算法采用自底向上的方法穷举每个频繁项目集,当最大频繁项目集很长时,这将是一个NP问题.任何频繁项目集都是最大频繁项目集的子集,该问题可以转化为发现所有最大频繁项目集.提高发现最大频繁项目集效率的关键是减少生成不必要的候选项目集及对其支持度的计算.
文献[2]中的M ax-Miner算法采用集合枚举树来描述项目集,突破了传统的自底向上的搜索策
收稿日期:2003-09-28.
作者简介:刘大有(1942~),男,教授,博士生导师,从事人工智能、数据挖掘和计算机应用的研究,E-mail:dyliu@. cn.联系人:刘亚波(1975~),女,博士研究生,从事关联规则挖掘和粗糙集理论的研究,E-mail:liu-yabo@.
基金项目:国家自然科学基金(批准号:60173006)、国家高技术研究发展计划项目(批准号:2003AA118020)、吉林省科技发展计划重大项目(批准号:吉科合字20020303-2)和吉林大学符号计算与知识工程教育部重点实验室资助基金.
Fig .1 Set -enumeration tree over f our items
略,采用自底向上和自顶向下的搜索策略同时进行
搜索,提出向前看(look ahead)的剪枝策略,最大
频繁项目集发现过程转化为在集合枚举树的搜索过
程.集合枚举树可以枚举一个项目集合的所有子
集.图1表示集合{a ,b ,c ,d }的集合枚举树.但
M ax -M iner 算法并没有充分利用在剪枝时生成的非
频繁项目集信息,产生许多不必要的候选最大频繁
项目集.本文提出的P&M 算法针对M ax -M iner 算
法,对集合枚举树进行改进,借鉴文献[3]中Pin-
cer-Search 算法的思想,利用非频繁项目集对候选
最大频繁项目集进行剪枝和降维,减少了不必要候选最大频繁项目集的数量,并能及时发现最大频繁项目集.1 发现最大频繁项目集的算法P &M
1.1 集合枚举树的改进
P&M 算法对集合枚举树节点的表示及子节点生成方法进行了改进,使第i 层节点node 枚举的项目集由两个项目集表示,node 的前i 个元素记为h (node);除h (node)以外其余的元素记为t (node),node =h (node )∪t (node ).改进后集合枚举树根节点r oot 满足h (ro ot )为空集,t (ro ot )为整个集合.从父节点node 生成其子节点的方法是: m 1∈t (node ),则第一个子节点subno de 1为
h (subnode 1)=h (node)∪m 1, t (subnode 1)=t (node)-m 1; m 2∈t (subnode 1),
第二个子节点subnode 2为
h (subnode 2)=h (no de)∪m 2, t (subnode 2)=t (subnode 1)-m 2,…, m i ∈t (subnode i -1),
Fig .2 Improved set -enumeration tree over four items 第i 个子节点subno de i 为
h (subno de i )=h (no de)∪m i ,
t (subnode i )=t (subno de i -1)-m i .
图2为改进后{a ,b ,c ,d }的集合枚举树.图2
中,带下划线的部分为h (node),不带下划线的为
t (node).图2使集合枚举树的表示与子节点生成
更加清晰.因为{h (node ) node 为集合枚举树第k
层节点}包含一个集合的所有k 维子集,任一节点
node 都是在某一序关系下h (node)的最长超集,所以集合枚举树第k 层节点枚举的项目集可作为候选最大频繁项目集.
1.2 剪枝与降维策略
P&M 算法从树根开始双向搜索,当搜索集合枚举树的第k 层时,P&M 算法设置候选最大频繁项目集集合M FCS k 包含集合枚举树第k 层节点枚举的项目集,根据下面的策略对M FCS k 中的元素进行剪枝与降维,减少候选最大频繁项目集的数量.为方便,以下记任意项目集g 的支持度为sup(g ).
剪枝与降维策略:
(1) g ∈M FCS k ,若sup(h (g )) (2) g ∈MFCS k ,若sup(h (g ))≥minsup,并且 m i ∈t (g ),使得sup(h (g )∪m i )