基于单向F_tree的最大频繁项集挖掘算法研究

合集下载

频繁项集挖掘算法

频繁项集挖掘算法 FP-GrowthApriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法，处理的都是最简单的单层单维布尔关联规则。

Apriori算法Apriori算法是⼀种最有影响的挖掘布尔关联规则频繁项集的算法。

是基于这样的事实：算法使⽤频繁项集性质的先验知识。

Apriori使⽤⼀种称作逐层搜索的迭代⽅法，k-项集⽤于探索(k+1)-项集。

⾸先，找出频繁1-项集的集合。

该集合记作L1。

L1⽤于找频繁2-项集的集合L2，⽽L2⽤于找L3，如此下去，直到不能找到频繁k-项集。

找每个L k需要⼀次数据库扫描。

这个算法的思路，简单的说就是如果集合I不是频繁项集，那么所有包含集合I的更⼤的集合也不可能是频繁项集。

算法原始数据如下：TID List of item_ID’sT100 T200 T300 T400 T500 T600 T700 T800 T900I1,I2,I5 I2,I4I2,I3I1,I2,I4 I1,I3I2,I3I1,I3I1,I2,I3,I5 I1,I2,I3算法的基本过程如下图：⾸先扫描所有事务，得到1-项集C1，根据⽀持度要求滤去不满⾜条件项集，得到频繁1-项集。

下⾯进⾏递归运算：已知频繁k-项集(频繁1-项集已知)，根据频繁k-项集中的项，连接得到所有可能的K+1_项，并进⾏剪枝（如果该k+1_项集的所有k项⼦集不都能满⾜⽀持度条件，那么该k+1_项集被剪掉），得到项集，然后滤去该项集中不满⾜⽀持度条件的项得到频繁k+1-项集。

如果得到的项集为空，则算法结束。

连接的⽅法：假设项集中的所有项都是按照相同的顺序排列的，那么如果[i]和[j]中的前k-1项都是完全相同的，⽽第k项不同，则[i]和[j]是可连接的。

⽐如中的{I1,I2}和{I1,I3}就是可连接的，连接之后得到{I1,I2,I3}，但是{I1,I2}和{I2,I3}是不可连接的，否则将导致项集中出现重复项。

fp树算法

fp树算法FP树算法，全称频繁模式树算法（Frequent Pattern Tree Algorithm），是一种用来挖掘大规模数据集种频繁模式的算法。

其核心思想是利用FP树结构来存储数据集并高效地发现频繁模式。

这一算法在数据挖掘任务中被广泛使用，尤其适合处理大量离散数据的场景。

FP树算法的主要步骤分为三个部分：首先，统计出数据集中所有项的出现次数，并创建FP树结构；然后，通过遍历FP树结构，找出所有频繁项集；最后，再通过递归方法，在频繁项集种寻找关联规则。

首先，利用常用的Apriori算法，统计数据集中所有项（Item）的出现次数，并保留所有出现次数大于等于最小支持度（minimum support）的项。

然后，根据这些项构建FP树，FP树的节点包含了一个Item和指向所有出现该Item的项的连接。

其次，利用FP树结构，遍历FP树的所有路径，并寻找包含所有Item的路径，即频繁项集（Frequent Itemsets）。

在FP树结构中，由于每个Item的排序是根据最初出现的顺序而定，因此按顺序寻找每个Item，可以高效地找到频繁项集。

同时，在FP Tree的节点之间采用连接链接的方法构造，可以高效地遍历所有路径，从而找到所有频繁项集。

最后，对频繁项集可以进行关联规则的挖掘。

在求解关联规则时，需要考虑可信度（confidence）的概念，表示对于一个频繁项集$I$中的项$x$与$y$，给定$x$的前提下，$y$出现的概率。

我们可以通过计算$\frac{support(I)}{support(x)}$来得到$x$与$y$的可信度。

在求解规则时，在所有可信度达到最小置信度（minimum confidence）的规则中选择最优解。

总的来说，FP树算法具有以下几个优点：首先，它可以快速地找到频繁项集，因为它只遍历了FP树的所有路径而不是组合所有的项。

其次，它可以高效地存储数据，因为FP树只需要存储每个项的出现次数以及连接信息，比传统的关系型数据库存储更加高效。

基于改进FP-tree的最大频繁项目集挖掘算法

ＣＯＮＹＩＤＥＪＩＤＵ
ｈｔ：／ｗ．ｏａａｔ／ｗｗｊｃ．ｎｐ
ｄｉ１．７４Ｓ．．０７２１．０２ｏ：０３２／ＰＪ１８．０２０３６
基于改进Ｆ－ｅＰｔｅ的最大频繁项目集挖掘算法ｒ
马丽生。姚光顺，传健，杨
ＭＡＬ— ｅｇ‘ Ａｕｎ — ｕ，ＹＮｈａ－ａｉｈｎ，ＹＯＧａｇｓｎＡＧＣｕｎｊｎｓｈｉ
（ｏｅｅｏｏｐｔｎｆｒａｉｎｉｅｒｇｈｚｏｎｖｒｔｈｚｏｎｕ３００ｈｎ）ＣｌｇＣｍｕｅａｄＩｏｍｔｎＥｇｎｅｎ，ＣｕｈｕＵｉｓｙｌｆｒｎｏｉｅｉ，ＣｕｈｕＡｈｉ９０，Ｃｉ２ａ
ＡｂｔａｔｎｏｄｒｔｅｕｅｔｅｒｐａｅｒｖｒａｉｓｏａｈｉｈＰｔｅｔｅｃｎｉｏａａｔｒａｅｆａｌｓｒｃ：ＩｒｅｏｒｄｃｈｅｅｔｄｔａｅｓｌｔｍｅｆｐｔｎｔｅＦ・ｅ，ｈｏｄｔｎｌｐｔｎｂｓｓｏｒｉｅｌｒｕｎｉｍｓｔｎｔＰｔｅｎｅｏｂａｅｔｅｅｉｔｏｈ．Ｃｎｅｎｈｓｒｂｅｆｑｅｔ一ｅｅｓｉｅＦ－ｅｅｄｔｅｓｖｄｉｈｘｓｉｇａｇｒｔｍｓｏｃｒｉｇｔｉｐｏｌｍ，ｉｅｎｗａｇｒｔｍ，ｅ１ｔｈｒｎｎｌｉｎｎｔｅｌｏｈｈｉｔｅｄｔｔｃｕｅｏＰｔｅｗｓｉｒｖｄｔａｎｙｔｅｃｎｉｏａｐｔｒａｅｅｅｓｖｄｗｈｃｅｅｃｎｔｕｅｙｔｅｈａａｓｒｔｒｆＦ —ｒａｍｐｏｅｈｔｏｌｈｏｄｔｎａｔｎｂｓｓｗｒａｅｉｈｗｒｏｓｉｔｄｂｈｕｅｉｌｅｔｉｍｓｉｈａｈｆｍｖｒｅｆｎｄ ’ ａｅｔｔｈｏｔｉｈＰｔｅ，ａｄｔｅｓｏａｅｓａｅｏｅｃｎｉｏａｐｔｒａｅｔｎｔｅｐｔｏｅｅｙｌａｏｅｐｒｎｓｏｔｅｒｏｔｅＦ－ｅｎｔｒｇｐｃｆｈｏｄｔｎａｔｎｂｓｓｅｒｎｒｈｔｉｌｅｗｓｒｄｃｄＡｔｒｓｕｙｎｅｃｐｃｄｔｅｍｅｈｄｏａａｒｐｅｅｔｔｎｉｈｇｒｔｍｏｎｎｘｍａｅｕｎａｅｕｅ．ｆｔｄｉｇｓａｈｓａｅａｈｔｏｆｄｔｅｒｓｎａｉｎｔｅａｏｈｆｒｍｉｉｇｍａｉｌ￣ｑｅｔｅｒｎｏｌｉｉｍｓｔ，ｔｅｐｕｉｇａｄｃｍｐｅｓｏｔａｅｉｓｗｅｅｄｖｌｐｄｔｒｕｈｔｅｒｔａｎｙｉｎｅｉｃｔｎｗｉｈｃｕｄｔｅｓｈｒｎｎｎｏｒｓｉｎｓｒｔｇｅｒｅｅｏｅｈｏｇｈｏｅｉｌａａｓｓａｄｖｒａｉ，ｈｃｏｌｅｃｌｉｆｏｄｃｅｅｔｅｓａｃｐｃｎｈｃｅｏＰｔｅＦｎｌ，ｔｅｎｗａｇｒｈｗｓｃｍｐｒｄｗｉＨＴＰａｇｒｈａｄｅｒａｈｅｈｓａｅａｄｔｅｓａｆＦ — ｅ．ｉａｌｓｒｌｒｙｈｅｌｏｔｍａｏａｅｔＮＦＧｌｏｔｍｎｉｈｉＦＭＡＸａｇｒｈｒｓｅｔｅｙｎｔｒｆａｃｒｃｎｆｃｅｃ．Ｔ＊ｅｐｒｎａｅｕｓｓｏｈｔｔｅｎｗＦ－ｒｅｐｏｔｍｅｐｃｉｌｉｅｍｓｏｃｕａｙａｄｅｉｎｙｌｉｖｉｈｘｅｍｅｔｌｒｓｈｈｗｔａｈｅＰｔｉｅａｇｒｈｓｖｓｔｅｒｑｉｄｃｎｉｏｓｆｒｍｏｅ－ａｅｔｒｇｐｃｒｈｎ５％ｌｏｔｍａｅｅｕｒｏｄｔｎｏｄｌｓｄｓｏａｅｓａｅｍｏｅｔａ０ｉｈｅｉｂｔａｈｎＮＨＴＰａｇｒｔｍ，ａｄｔｅＦＧｌｏｉｈｎｈ

一种基于FP-树的最大频繁模式增量更新挖掘算法

出来的最大频繁模式。关键词数据挖掘关联规则频繁模式树最大频繁模式
ＡＮＦＰ．ＴＲＥＥＢＡＳＥＤＮＣＲＥＭＥＮＴＡＬＩＵＰＤＡＴＩＮＧＡＬＧＯＲＩＴＨＭ
ＦＡＭＡＬＦＥＱＵＮＡＴＲＩＮＧＯＲＭＸＩＲＥＴＰＴＥＮＳＭＮＩ
０引言
关联规则的挖掘是数据挖掘研究的重要内容之一。已经有许多可用的挖掘算法，ｐｉｉ法 ” 和利用频繁模式树（ＰＡｒｒ算ｏＦ—
１基本概念
设Ｉｉ，，，是项的集合，＝｛ｌｉ … ｉ２ｍ｝事务数据库Ｄ＝＜Ｔ，：Ｔ，
ｕｄｔｄｐａｅ．ＫｅｗｏｄｙｒｓＤａａｍｉｉｇＡｓｏｉｔｎｒｌＦｅｕｎａｔｒｒｅＭａｉｌｒｑｅｔｐｔｒｔｎｎｓｃａｉｅｏｕｒｑｅｔｐｔｎｔｅｅｘｍａｆｅｕｎａｔｎｅ
一
种基于Ｆ－的最大频繁模式增量更新挖掘算法Ｐ树
李忠哗பைடு நூலகம் 任春龙何丕廉
河北张家口０５０）７００天津３０７）００２（河北北方学院计算机系
。天津大学计算机学院（
摘
要
挖掘关联规则是数据挖掘领域的一个重要研究方向，人们已经提出了许多用于发现数据库中关联规则的算法，但对关联
维普资讯
第２４卷第５期
２００７年５月
计算机应用与软件
ＣｏｕｅｍｐｔｒＡｐｐｉａｉｎｎｏｔｒｌｃｔｏｓａｄＳｆｗａｅ

fp树算法

fp树算法FP树（Frequent Pattern Tree）算法是一种用于挖掘频繁项集的算法。

它通过构建一种称为FP树的数据结构，将事务数据集合转换为一棵树状结构，并利用该树状结构来发现频繁项集。

FP树算法具有高效的性能和较小的存储空间占用，因此被广泛应用于关联规则挖掘和数据压缩等领域。

FP树的构建过程包括两个主要步骤：首先是对事务数据集进行扫描以构建频繁项集表达的FP树，然后利用FP树进行频繁项集的挖掘和生成关联规则。

在FP树构建的过程中，数据集首先需要按照事务中的频繁项出现的频率进行排序，然后进行遍历扫描。

通过扫描事务数据集两次，分别统计每个项集的频度和排序，构建FP树的树状结构。

在构建过程中，如果某个项在树中已经存在，就在对应的节点上增加计数；否则，就新增一个节点。

FP树的节点包括项标签、计数和节点链接（指向相同项标签的下一个节点）。

其中，项标签表示该节点所代表的项，计数表示该项出现的频度。

节点链接用于将相同项标签的节点之间进行链接，方便后续的挖掘。

FP树的构建完成之后，可以通过遍历FP树来挖掘频繁项集。

FP树的遍历过程类似于深度优先搜索，从根节点开始，沿着子节点的链接递归遍历整个树。

在遍历过程中，根据某个节点的计数和条件模式基（由节点路径上的非叶子节点组成）可以得到该节点的条件频繁项集。

同时，遍历过程还会产生一颗以当前节点为根的条件FP树，用于进一步的频繁项集挖掘。

FP树算法通过构建FP树和遍历FP树的方式来发现频繁项集，具有较高的效率和性能优势。

它避免了候选项集的生成和扫描过程，减少了计算的复杂度并节省了存储空间。

因此，FP树算法在关联规则挖掘、购物篮分析、在线推荐系统等领域有着广泛的应用。

总结起来，FP树算法是一种用于挖掘频繁项集的高效算法。

通过构建FP树和遍历FP树的方式，可以发现频繁项集并生成关联规则。

该算法具有高效的性能和较小的存储空间占用，被广泛应用于关联规则挖掘和数据压缩等领域。

fpgrowth函数

fpgrowth函数fpgrowth函数是一种用于频繁模式挖掘的算法，它是一种高效的数据挖掘方法，用于发现数据集中的频繁模式或关联规则。

在本文中，我们将详细介绍fpgrowth函数的原理、应用场景以及使用方法。

一、原理fpgrowth函数是基于FP树（Frequent Pattern Tree）的一种频繁模式挖掘算法。

它通过构建一个特殊的数据结构FP树来存储数据集，然后利用FP树来快速发现频繁项集。

FP树是一种紧凑的数据结构，它通过节点链接的方式表示数据集中的频繁项集，可以避免昂贵的模式枚举过程。

具体来说，fpgrowth函数的工作流程如下：1. 构建FP树：遍历数据集，统计每个项的频次，并根据频次排序生成频繁项集。

然后根据频繁项集构建FP树，将数据集映射到FP 树上。

2. 挖掘频繁项集：从FP树的根节点开始，递归地遍历每个节点，找到以当前节点为末尾的路径（即频繁项集），将其加入结果列表中。

3. 生成关联规则：根据频繁项集，使用置信度等指标来生成关联规则，可以通过设置最小支持度和置信度的阈值来控制规则的生成。

二、应用场景fpgrowth函数在很多领域都有广泛的应用，特别适用于：1. 市场篮子分析：可以挖掘顾客购买商品的频繁组合，从而进行交叉销售和推荐。

2. 网络流量分析：可以挖掘网络流量中的异常行为和攻击模式，用于网络安全监测和预警。

3. 社交网络分析：可以挖掘用户之间的关系和行为模式，用于社交网络推荐和社区发现。

4. 生物信息学：可以挖掘基因序列中的频繁模式，用于寻找基因间的关联和功能预测。

三、使用方法fpgrowth函数通常通过调用相应的库或软件包来实现，例如Python 中的mlxtend库、R语言中的arules包等。

以Python为例，使用mlxtend库的fpgrowth函数可以按照以下步骤进行：1. 导入库：首先导入mlxtend库。

2. 准备数据集：将数据集整理成列表或数组的形式。

fpgrowth算法sql代码

fpgrowth算法是一种常用的频繁模式挖掘算法，它能够快速有效地发现数据集中的频繁模式和关联规则。

而在实际应用中，我们常常需要将该算法应用到SQL数据库中，以便更好地对数据进行分析和挖掘。

本文将介绍fpgrowth算法的原理和SQL代码实现，以帮助读者更好地理解和应用该算法。

一、fpgrowth算法原理fpgrowth算法是一种基于频繁模式树（FP-tree）结构的频繁模式挖掘算法。

它通过两次遍历数据集，首先构建FP树，然后通过递归方式挖掘FP树中的频繁模式。

具体步骤如下：1. 构建FP树(1) 遍历数据集，统计每个项的频数，然后根据频数降序排序得到频繁1项集；(2) 再次遍历数据集，根据频繁1项集和频数构建FP树，每个项在FP树上对应一条路径。

2. 挖掘频繁模式(1) 从FP树的底部开始，递归向上回溯每个项的前缀路径，得到条件模式基；(2) 对于每个条件模式基，构建条件FP树，然后递归挖掘得到频繁模式。

二、fpgrowth算法SQL代码实现在SQL数据库中，我们可以通过使用递归查询和临时表来实现fpgrowth算法。

下面是一个简单的示例，假设我们有一个名为transaction_table的交易表，表中包含了交易ID和对应的商品项集。

```sql-- 创建临时表存储频繁1项集CREATE TEMPORARY TABLE frequent_item1 ASSELECT item, COUNT(*) AS countFROM transaction_tableGROUP BY itemHAVING count >= min_support;-- 构建FP树WITH RECURSIVE fp_tree(item, count, parent) AS (SELECT item, SUM(count) AS count, NULL AS parentFROM frequent_item1GROUP BY itemUNION ALLSELECT t.item, SUM(t.count), f.idFROM transaction_table tJOIN fp_tree f ON t.item = f.itemGROUP BY t.item, f.idSELECT * FROM fp_tree;```上述SQL代码中，我们首先创建一个临时表frequent_item1来存储频繁1项集，然后使用递归查询构建FP树。

关联规则中FP-tree的最大频繁模式非检验挖掘算法

ＡｂｔａｔｈｌｏｉｍｓｂｓｄｏＰｔｅ，ｆｒｎｎｘｍａｒｑｅｔｐｔｒｓａｅｈｇｅｆｒｎｅｂｔｉｎｓｒｃ：ＴｅａｇｒｈａｅｎＦ —ｒｅｏｉｇｍａｉｌｆｕｎａｔｎ，ｈｖｉｈｐｒｍａｃｕｔｍａｙｔｍｉｅｅｏｗｈｄａｂｃｓｏｘｍｐｅｈｙｍｕｔｅｕｓｖｌｅｅａｅｃｎｉｏａＦ — ｅｓａｅｔｏｔｅｐｏｅｓｏｕｅｓｔｈｃｉｇｎｒｗａｋ．Ｆｒｅａｌ，ｔｅｓｃｒｉｅｙｇｎｒｔｏｄｔｎｌＰｔｅ，ｈｖｄｈｒｃｓｆｐｒｅｅｋｎ．ＩｒｉｒｏｓｃｏｄｒｔｖｒｏｅｅｄａｂｃｓｏｅｅｉｉｇａｇｒｔｍｓｎａｇｒｈＮｏ — ｈｃｎｎｌｏｉｍｏｘｍｕＦｅｕｎｒｅｏｅｃｍｅｔｓｒｗａｋｆｔｘｓｎｌｏｈ，ａｌｏｉｍｎＣｅｋＭｉｉｇａｇｒｈｆＭａｉｍｒｑｅｔｏｈｈｔｉｔｔ
第３０卷第７期
２１００年７月
计算机应用
ＪｕｎｌｏｏｕｅｐｉａｉｎｏｒａｆＣｍｐｔｒＡｐｌｔｓｃｏ
Ｖ０．０．１３Ｎｏ７
Ｊｌ００ｕｙ２１
文章编号：０１９８（０００１０ — ０１２１）７—１２０９２— ４
下，ＣＰ的效率是同类算法的２～ＮＭＦ５倍。

基于FP—tree挖掘密集型数据最大频繁模式算法

维普资讯
第１卷第１６期
２０年３０７月
湖南城市学院学报
ＪｒａｏｕａＣｉｙｏｕｎｌｆＨｎｎｔＵｎｖｒｉｙｉｅｓｔ
（自然科学版）
、０．６Ｎｏ１，１１．Ｍａｒ２００７．
ＦＰ．ｒｗｔＪｇｏｈ
．
对于任何频繁项目ａ，从Ｆ．ｅｆ项头表对ｉＰｔｅ￣ｒｌＪ应ａ项目的节点链（ｏｅ１ｋ）始，通过遍历ａｉｎｄ．ｎ开ｉｉ的节点链可以挖掘出所有包含ａ频繁模式．为珀勺
增长的方法挖掘频繁项集，无须产生候选项集，
益阳４３０１００）
摘
要：Ｆ —ｒｗｈｐｇｏｔ算法是当前挖掘频繁项目集算法中速度最快，应用最广，并且不需要候选集的一种挖但是，Ｆ —ｒｗｈ法也存在着算法结构复杂和空间利用率低等缺点．在Ｆｅ－的基ｐｇｏｔ算Ｐｔｅｒ￣构
掘关联规则的算法
中图分类号：Ｔ３１Ｐ１
文献标识码：Ａ
文章编号：１７— ３４２０）１０６０６２７０（０７０－７－３０
关联规则挖掘是数据挖掘领域研究的重要课题，而频繁模式挖掘是关联规则、时序模式挖掘应用中的关键技术和步骤．目前大多数关联规则挖掘算法是Ａｐｉｒｒｉｏ系列算法及改进算法【２】１－．但－５是，ｐｉｒＡｒｉ算法有１缺陷，ｏ系列个即在挖掘时需要

基于FP—tree和约束概念格的关联规则挖掘算法及应用研究

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１ — ３６９５．２０１４．０４．０１３
ＭｉｎｉｎｇａｌｇｏｒｉｔｈｍｏｆａｓｓｏｃｉａｔｉｏｎｒｕｌｅｂａｓｅｄｏｎＦＰ— ｔｒｅｅａｎｄｃｏｎｓｔｒａｉｎｅｄｃｏｎｃｅｐｔｌａｔｔｉｃｅａｎｄａｐｐｌｉｃａｔｉｏｎｒｅｓｅａｒｃｈ
・
１０１４・
计算机应用研究加，将所有候选节点组合记为集合ｓ。
第３１卷
构造的概念格中存在冗余节点的问题。本文算法提取的约束关联规则过滤了用户不感兴趣的结果，相比现有算法提取出的全部规则更简洁、直观。
ｄ）将集合Ｊｓ按照节点组合的个数划分成为不同的子集ＪＳ（ｉ ≤Ｊ７、ｒ），每个子集Ｓ中的项记为ｉｔｅｍ。ｅ）执行过程ＨａｓｓｅＧｅｎ，通过候选概念格节点集合Ｓ构造约束条件Ｐ下的约束概念格的Ｈａｓｓｅ图。
第３１卷第４期２０１４年４月
计算机应用研究
ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ
Ｖｏｌ｜３１Ｎｏ．４Ａｐｒ．２０１４
基于ＦＰ — ｔｒｅｅ和约束概念格的关联规则挖掘算法及应用研究术

基于FP-Tree的挖掘最大频繁项目集的新算法

ｍｘｍｕｆｅｕｎｊｍｓｔａｄＰａｉｍｒｑｅｔｔｅｅｓｎｍｅＦ —ＧＤＭＡａｅｂｓｄ
按以下步骤构建Ｆ — ｒｅＰＴｅ：１）第一次扫描数据库Ｄ，Ｄ为要挖掘的事务数据库。导出频繁项的集合和支持度计数。创建一个顶头表Ｌ存放频繁项的信息。Ｌ的每一个表项有３域组成：项目名ｉｍ— 个ｔｅｎｍｅａ，项目名的支持度计数ｉｍ－ｏｎ，ｔｅｃｕｔ项目链头ｉｅｈａ，ｉｍ－ｅｄ指向ｔｍ－ｅｄｔｅｈａ为Ｆ－ｒｅＰＴｅ中与之具有相同ｉｍ— ａ的首节ｔｅｎｍｅ点的指针。将导出的频繁项的集合按支持
ＡｅＡｌｏｉｍｆｒＭｉｉｇＭａｉｍＦｅｕｎＩｍｓｔａｅｏＰｒｅＮｗｇｒｔｈｏｎｎｘｍｕｒｑｅｔｔｅｅｓＢｓｄｎＦ－Ｔｅ
ＹｎｉｘａＨｎｘａｇＱｕＤｎｄｎｉＢｏｕａｇＱｎｉｅＭｉｉｉｏｇｏｇＮｅａｊｎｇｇｎ
Ｄ：１．９９ｊｉｎ１０－９２２１．４０７ＯＩ０３６／．ｓ．０１８７．０２１．４ｓ
基于Ｆ－ｒｅＰＴｅ的挖掘最大频繁项目集的新算法
杨青侠何明祥邱冬冬聂宝军山东科技大学信息科学与工程学院，山东青岛２６０６００
ＧＭ与ＤＦＡ法ＤＡＭＩ算

改进的基于FP—tree的频繁项集挖掘算法

关键词：据挖掘；数关联规则；繁项集；Ｐｔｅ频Ｆ～ｒｅ文章编号：０２８３（０７１ — １４０文献标识码：中图分类号：Ｐｌ．３１０ — ３１２０）９０７ — ３Ａ３１ｒ１
摘要：于频繁项集挖掘，用一种Ｆ一组技术来减少Ｆ —ｒｅ的遍历时间，少数据集的扫描次数，此基础上提出了一种对采Ｐ数Ｐｔｅ减在
基于Ｆ —ｒｅ行频繁项集挖掘的Ｆ —ｒｗｈ算法，高了算法的效率。最后的实验证明了该算法的有效性。Ｐｔ进ｅＰｇｏｔ＋提
色。自从Ａｒｗｌ出频繁项集挖掘的Ａｒｒ算法之后，了ｇａ提ａｐｉｉｏ为
２２Ｆ —ｒｅ和Ｆ — ｒｗｈ算法．ＰｔｅＰｇｏｔ
频繁模式树即Ｆ —ｒＰｔｅ中．个结点由３个域组成：名ｅ每项
维普资讯
１４７
２０，３１）０７４（９
Ｃｍｕｒｏｐｔ西肥ｅａｄＡｐｉｔｎｅ，ｎｐｌａｉｓ计算机Ｘ程与应用ｃｏ－
改进的基于Ｆ —ｒｅ的频繁项集挖掘算法Ｐｔｅ
郭伟．叶德谦
ｉｍ、点支持度计数ｓｐｃｕｔ结点链ｎｄ—ｉｋ为方便遍ｔ结ｅｕ— ｏｎ及ｏｅｌ。ｎ
历．创建一个项头表Ｈａｅｂｅ它由２个域组成：名ｉｍｅｄｒｔｌ，ａ项ｔｅ和结点链头ｈａｆｎｄ — ｉｋｅｄｏｏｅｌ，其中结点链头指向Ｆ —ｒｎＰｔｅ中ｅ

基于单向FP_tree的最大频繁项集挖掘算法研究

遍历Ｄ，统计所有项的种类及其支持度值，分别为｛Ｂ：１０，Ａ：９，Ｃ：９，Ｄ：７，Ｅ：７｝。根据ｓｅｑｕｅｎｃｅ — ｃｏｄｅ的编码规则进行编码，结果为｛Ｂ：
的事务。基于ＦＰｔｒｅｅ的最大频繁项集挖掘算法思
（１）提取ＦＰｔｒｅｅ项头表中ｐｃ域所指向的链表（按从下往上的策略进行）。（２）扫描链表，如果某结点的ｉｔｅｍ的ｓｕｐ所以可以把发现频繁项目集的问题转化为发现（１）占用资源少值大于ＭＩＮＳＵＰ，将其从ＰＣ链表删除，并插入最大频繁项目集的问题。在构造单向ＦＰｔｒｅｅ时，树结点的ｉｔｅｍ需ＣＭＦＩ。如果结点的ｉｔｅｍ是ＣＭＦＩ中某项集的子本文提出一种基于单向ＦＰ — ｔｒｅｅ的最大频包含路径上的所有项，假设事物数据库Ｄ有８种集，将其从Ｐｃ链表删除。繁项集挖掘算法。它先是对现有ＦＰｔｒｅｅ的结项，构造的ＦＰｔｒｅｅ有１００００个结点。与用ｃｈａｒ（３）ＰＣ链表中剩余的结点，逐个进行处构和构造方法进行优化，采用 “属性编码 ” 类型、ｉｎｔ类型表示的情况，见表３。理。处理过程如下：生成子项集，将其中是ｃ — 规则，设计的单向ＦＰｔｒｅｅ，且不会增加树的（２）比对速度快ＭＦＩ中某项集子集的子项集删除。剩下的子项空间复杂度。在进行最大频繁项集挖掘时，采用ｓｅｑｕｅｎｃｅ — ｃｏｄｅ对项集进行编码，能集插入ｃＦＩ。

基于FS—tree的频繁模式挖掘算法

ｑｕｎｔｔｍｓｔ．ｄｒｗｂａｋｆｉｓａｉｇｏｏｍｏｙｐｃＢａｅｔｔｉｋｉｏｅｉｅｅｓＴｈｅａｃｏｔｔｋｎａｌｔｆｍｅｒｓａｅ．ｓｄｏｎｈｅｈｎｎｇｆＦＰ—ｇｏｈｌｏｉｈｍ，ｎｌｒｔｉｒｗｔａｇｒｔａａｇｏｉｈｍｆｒｏ
Ｓｉ－ｕ．ＡＨＩＭｎｙＭＨｕ－ｉＴｉｍｎ，ＡＮＧｈｋ．ｇｒｔｍｆｆｅｕｎａｔｒｓｍｉｉｇｂｓｄｏＳｔｅ．ｍｐｔｒＥｎｉｅｒｎＳｕ－ｅＡｌｏｉｈｏｒｑｅｔｐｔｅｎｎｎａｅｎＦ－ｒｅＣｏｕｅｇｎｅｉｇ
１引言
关联规则挖掘是数据挖掘中的一个重要研究课题，用于大团划分的思想，８在Ｐｔｅ提
出了ＭａＣＰｒｅｘＦＴｅ算法，其扫描的时间复杂性为Ｏ（。Ｇａｎｎ）ｒｈｅ发现有８％的ＣＵ时间是用来遍历Ｆ０ＰＰ树的，他提出的Ｆ — ｐ
ａｄＡｐｌａｉｎ，０８，４３：６－６．ｎｐｉｔｓ２０４（０）１７１９ｃｏ
Ａｂｔａｔｓｒｃ：Ａｓｏｉｔｎｒｌｎｎｉｈｉｕｅｏｆｄｔｅｏｒｌｔｎｏｔｍｓｉａｍｐｒａｔｒｓａｃｉｅｔｎｉａａｍｉ— ｓｃａｉｕｅｍｉｉｇｗｈｃｓｓｄｔｎｈｃｒｅａｉｆｉｏｉｏｅｓｎｉｏｔｎｅｅｒｈｄｒｃｉｎｄｔｎｏｉｇＦｇｏｈａｇｒｈｇｅｔｅｕｅｈｅｒｈｔｔｏｔｇｎｒｔｇｃｎｉａｅｉｍｓｔｂｏｓｒｃｉｇＦ — ｒｅｔｎｒ — ｎ．Ｐ— ｒｗｔｌｏｉｍｒａｌｒｄｃｓｔｅｓａｃｉｔｙｍｅｗｉｕｅｅａｉａｄｄｔｔｈｎｅｅｓｙｃｎｔｔＰｔｏｆｄｆｅｕｎｅｉ

一种基于FP-tree挖掘最大频繁模式的改进算法

Key w ords: G I L y ; ho sub-classing; w s U ibrar ok; indow
procedure
长春工程学院学报( 自然科学版)
2007 ,8( 1)
(Null) 的根; (2) 作为根的子女的项目前缀子树集合; (3)频繁项目头表( head - table) 。其中项目前缀子树中的每个节点包含 3 个域: ( 1) 项目名( item( name) ; ( 2 ) 支持计数 ( count ) ; ( 3 ) 节点链 ( node 一 link) ，它指向 FP - tree 中下一个具有相同项目名的节点。频繁项目头表中的每个条目也包含 3 个域 : ( 1)项目名( item - name) ; (2) 项目的总支持度计数 (item- count) ; (3)节点链的头指针( head 一 link) ，指
中个事每务ti(j 二 } - ,n)包含个 I 2T 一惟一的标事务识TID和一个项目子集item set;模式(项集)PCI 被事务t 所包含，果pg t;T对P的如支持度sup(p,T) 是T 中包含P 的事务数。是频繁 p 模式，如果对于
预先指定的最小支持度阂 m 值 in-sup，有sup(p,T) ::,
[4] 李光明.Visual C+ + 6.0 经典实例大制作[M .北京: 中 ]
国事出社，人版 2000.
other techniques such as GDI pr gramming, message pr o o cessing mechanism, windows class，hook, sub-classing and etc . in one word it' s a complex of many technologies.

在单向FP—tree上挖掘最大频繁项集

１问题描述
已有的最大频繁项集挖掘算法可以按照文献ｆ提５忡
出的搜索空间树的遍历策略分为宽度优先算法和深度优先算法两种算法ＭａＭｉｅＰｎｅ－ｅｒｈ、）ｎ、ｉｒＳａｃｔＤＭＦ同【ｃ￣Ｉ和
ＤＩｔ于宽度优先算法．ＭＦＡｓ嘱当遇到稠密数据集或数据
收稿日期：０８１ — ５修稿日期：０９０ — ４２０ — ２２２０ — ８２作者简介：晶晶（９０）女，州人，教，士，究方向为数据挖掘宋１８－，郑助硕研
定义１如果频繁项集的所有超集都是非频繁嘲
Ｉ。
项集的深度优先算法分析Ｆ — ｘ算法可以清晰地看ＰＭａ
到影响该算法效率的主要原因在于：挖掘最大频繁项集
的过程中需要反复递归构造新的条件Ｆ —ｒｅ在对Ｐｔｅ
★ 基金项目：南省高校杰出科研人才创新工程项目（．０７ＹＣＸ０８河Ｎｏ２０Ｋ１）
ＭｉＭａ［ｌｍａｔｎｒ２Ｆ — ｘｌｎｘ、ｒｅ［１ＰＭａ【是挖掘最大频繁项ｎＳＭｉ１和 ” 集的深度优先算法
Ｆ — ｘ算法［是有效的基于Ｆ一ＰＭａ１３】Ｐ树挖掘最大频繁
ｃｕｔ／．中是Ｄ中事务的个数。ｏｎ（Ｉ其Ｘ）ＤＩ对于预先指定
现计机２１．代算００１０
＠
＼

基于FPMAX的最大频繁项目集挖掘改进算法

第４Ｏ卷第ｌ２期２０１３年１２月
计
算
机
科
学
Ｖｏ１．４０Ｎｏ．１２
Ｄｅｃ２０１３
ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ
基于ＦＰＭＡＸ的最大频繁项目集挖掘改进算法
牛新征佘垫（电子科技大学计算机科学与工程学院成都６１１７３１）
ＡｂｓｔｒａｃｔＦｉｎｄｉｎｇｍａｘｉｍａ１ｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓｉｓａｎｉｍｐｏｒｔａｎｔｉｓｓｕｅｉｎｄａｔａｍｉｎｉｎｇｒｅｓｅａｒｃｈｆｉｅｌｄ．ＴｈｅＦＰＭＡＸａｌｇｏ — ｒｉｔｈｍ，ｗｈｉｃｈｉｓｂａｓｅｄｏｎｔｈｅＦＰ－ｔｒｅｅｓｔｒｕｃｔｕｒｅ，ｈａｓｂｅｅｎｐｒｏｖｅｄｔｏｂｅｏｎｅｏｆｔｈｅｈｉｇｈ－ｐｅｒｆｏｒｍａｎｃｅａｌｇｏｉｔｒｈｍｓｏｎｍａｘｉ — ｍａ１ｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓｍｉｎｉｎｇ．Ｂｕｔｆｏｒｄａｔａｍｉｎｉｎｇｔａｓｋｉｎｄｅｎｓｅｄａｔａｓｅｔｓ，ＦＰＭＡＸａｌｇｏｒｉｔｈｍｗｉｌｌｃｏｎｓｔｒｕｃｔａｌａｒｇｅｈｕｍ－ｂｅｒｏｆｒｅｄｕｎｄａｎｔｃｏｎｄｉｔｉｏｎａｌＦＰ－ｔｒｅｅ．Ｗｈａｔ ’ ｓｍｏｒｅ，ｉｆｔｈｅｑｕａｎｔｉｔｙｏｆｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓｉｓｌａｒｇｅ，ｔｈｅＭＦｂｔｒｅｅｓｔｒｕｃｔｕｒｅｕｓｅｄｆｏｒｓｕｂｓｅｔｔｅｓｔｉｎｇｉｎＦＰＭＡＸｗｉｌ１ｂｅｃｏｍｅｑｕｉｔｅｂｉｇ，ｄｅｃｒｅａｓｉｇｎｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｓｕｂｓｅｔｔｅｓｔｉｎｇｉｎｔｈｅａｌｇｏｒｉｔｈｍ．Ｔｈｅｒｅｆｏｒｅ。ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄｔｈｅＦＰＭＡＸ－ｒｅｄｕｃｅａｌｇｏｒｉｔｍｈｔｏｏｖｅｒｃｏｍｅｔｈｏｓｅｄｒａｗｂａｃｋｓｏｆＦＰＭＡＸＴｈｉｓｎｏｖｅｌｌ— ａｇｏｒｉｔｍｈｕｓｅｓａｐｒｕｎｉｎｇｔｅｃｈｎｉｑｕｅｂａｓｅｄｏｎｔｈｅｃｏｍｍｏｎｓｕｆｆｉｘｏｆｔｒｎｓａａｃｔｉｏｎｓａｎｄｇｒｅａｔｌｙｒｅｄｕｃｅｓｔｈｅｃｏｎｓｔｒｕｃｔｉｏｎｏｆｒｅ —

基于FP-Tree的约束关联规则挖掘算法

Ｋｅｒｓａｓｃａｉｎｒｌ；ｉｍｏｓａｎ；ｔａｓｃｉｎｃｉ；Ｆ－ｅ；ｍｅｒｏｓｍｉｇｙｗｏｄ：ｓｏｉｔｕｅｔｃｎｔｉｔｒｎａｔｌｏｅｒｏｐＰｔｅｒｍｏｙｃｎｕｎ
ｉｐｔｏｗａｄｗｈｃｔｉｅｅ ’ ｒｓｎｅａｄａｓｎｅｃｎｔｉｔｏｃｉａｓｃｉｎｄｔｂｓｒｅｒｍｅｒｅＦ — ｒｅａｄａｔｒｓｕｒｒｉｈｕｉｚｓｔｍｓｐｅｅｃｎｂｅｃｏｓａｎｌｔｎａｔａａａｅｉｏｄｒｏｃｅｉｆＰＴｅ，ｎｆｆｌｉｒｔｐｒｏｎｔｂｅ
（．ＳｈｏｆｎｏｍａｉｎＳｉｎｅｎｅｈｏｏｙ１ｃｏｌＩｆｒｔｃｅｃｄＴｃｎｌｇ，Ｈｕａｒｕｔｒｌｉｅｓｔ，Ｃｈｎｓａ４０８，Ｃｈｎ；ｏｏａｎｎＡｇｉｌａｖｒｉｃｕＵｎｙａｇｈ１０２ｉａ
ｓａｎｎｅｄｔｂｓｇｉ，ｇｔｓｏｉｔｎｒｌ．ＴｅｅｐｒｎｈｗｓｔａｅａｇｒｔｃｕｉｓｌｓｍｏａｒｉａｙＦ－ｃｎｉｇｔａａｅａａｎｈａｅｓａｓｃａｉｅｏｏｈｘｅｍｅｔｏｈｔｈｌｏｈｏｃｐｅｅｓｍｅｒｔｎｏｄｎｒＰｉｓｔｉｍｙｈＴｅｌｏｔｒｅａｇｒｈｉｍｎａｄｎｅｓｅｓｕｉｅｅｄｌｓｎｔ．ｒｍ

基于有序FP-tree的最大长度频繁项集挖掘算法

ｑｅｔｔｍｓｔ．ｒｅＰ－ｅ－ａｅｌｏｉｍｒｐｓｄｆｒｔｅｍｉｉｇｐｏｌｍ．ｆｅｄｍａ－ｖｌｓａｄｄｉｕｎｅｅｓＡｎｏｄｒ－ｅｂｓｄａｇｒｔｉｐｏｏｅｏｎｎｒｂｅＡｌｘｌｅｄｅｉＦｔ．ｒｈｓｈｉｅｉｎ
ＬＩＡＯＦｕｒｎｇ，ＡＮＧｏ，ＷＣｈｅｌａ．ｇｉｈｍｏｎｉａｉａｅｔｒｑｎｔｉｅｓｔｓｄｏｎｏｄｅｎｇｉｎｇＡｌｏｒｔｆｒｍｉｎｇｍｘｍｌｌｎｇｈｆｅｕｅｔｍｅｓｂａｅｒｒ
基于有序fptree的最大长度频繁项集挖掘算法证明由于项i的maxlevel为y即项i在有序fptree中的最大高度为席故乞包含的项的个数小于等于船而包含阳个项的l不一定是最大频繁项集故以i为后缀的最大长度频繁项集的长度小于等3mlfiall算法31算法描述为叙述方便为每个节点p添加一个tag域存储是否为最大频繁项集ptagt表示乞可能是最大频繁项集ptagf表示l不可能是最大频繁项集初始值为t
摘要：频繁项集的挖掘受到大量候选频繁项集和较高计算花费的限制，只挖掘最大长度频繁项集已满足很多应用。提出一种基于有序Ｆ．ｅ结构挖掘最大长度频繁项集的算法。即对有序Ｆ．ｅ的头表进行改造，ＰｔｅｒＰｔｅｒ增加一个ｍｘｌｅ域，录该项在有序Ｆ．ｅ中的最大高度。挖掘时仅对ｍｘ１ｅａ— ｖｌ记ｅＢｅｒｔａ．ｖｌ大于等于已有最大长度频．ｅ繁项集长度的项进行遍历，不产生条件模式基，无需递归构造条件Ｆ．ｅ，Ｐｔｅ且计算出最大长度频繁项集的支持ｒ