FP-Tree算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Threshold = 3
a:4 b:3 d:2 e:1 f:1 g:1 e:1 g:1
root b:1 f:1 g:1 d:1 e:1 f:1
a b d e f g
对于项 “g”构造条件FP-Tree { (a:1, b:1, d:1, e:1, f:1, g:1),
(a:1, b:1, e:1, g:1),
Item
(Ordered) Frequent Items a, b, d, e, f, g a, f, g b, d, e, f a, b, d a, b, e, g
Threshold = 3
a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g
FP-tree
COMP537
6
TID Items Bought 100 200 300 400 500 Item
a b c d e
(Ordered) Frequent Items
Threshold = 3
a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g Frequency 4
a:4 b:3 d:2 e:1 f:1 g:1 e:1 g:1
root b:1 f:1 g:1 d:1 e:1 f:1
a b d e f g
对于项 “g”构造条件FP-Tree { (a:1, b:1, d:1, e:1, f:1, g:1), }
COMP537
23
Item
Head of node-link
4
FP-tree
TID Items Bought 100 200 300 400 500
COMP537
a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g
5
TID Items Bought 100 200 300 400 500 a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g
对于每一个项,先构造条件模式基,然后构造条件 FP-树。 在每一个新创建的条件FP-树上重复此过 程。 直到结果FP-树为空,或只包含一条路径 。
2
COMP537
FP-tree
Step 1: 遍历一次数据库,导出频繁项(1项集)的集合和支 持度计数(频率),并且以降序排序。 Step 2: 构造FP-tree Step 3: 根据第二步得到的FP-Tree, 为1项频繁项集中的每一项 构造条件FP-Tree. Step 4: 得到频繁模式(频繁项集).
a b d e f g
Bought 100 200 300 400 500
Item
(Ordered) Frequent Items a, b, d, e, f, g a, f, g b, d, e, f a, b, d a, b, e, g
Threshold = 3
g:1
14
TID Items Bought 100 200 300 400 500
Item
(Ordered) Frequent Items a, b, d, e, f, g a, f, g b, d, e, f a, b, d a, b, e, g
Threshold = 3
a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g
Threshold = 3
a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g
Head of node-link
root a:3 a:2 b:2 b:1 d:2 d:1 e:1 f:1 f:1 f:1 g:1 b:1 d:1 e:1
FP-Tree
主讲人:徐永秀 学号:2131002045
COMP537 1
FP-Tree(不产生频繁候选集)


FP-Tree增长算法的步骤:
(1) 建立 FP-tree树
扫描数据库一次,找出频繁1-项集,按递减顺序排 序。再一次扫描数据库,建立FP-tree 。


(2) 利用FP-tree挖掘频繁集
(a:1, b:1, e:1, g:1), (a:1, f:1, g:1)}
Item a b d e f g Frequency 3 2 1 2 2 COMP537 3
Threshold = 3
a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g
Head of node-link
root a:4 b:3 d:2 e:1 f:1 e:1 g:1 f:1 g:1 b:1 d:1 e:1 f:1
a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g
Head of node-link
root a:4 a:3 b:3 b:2 d:2 e:1 f:1 e:1 g:1 f:1 g:1 b:1 d:1 e:1 f:1
COMP537
3
FP-tree

频繁项集的挖掘(FP树的挖掘)
问题: 找到所有的满足最小支持度(阈值)的频繁项集(min_Support=3)
TID Items Bought 100 200 300 400 500
COMP537
a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g
f
g h
i
j k
COMP537 7
TID Items Bought 100 200 300 400 500 Item
a b c d e
(Ordered) Frequent Items
Threshold = 3
a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g Frequency 4 4 1 3 3 3 3 1 1 1 COMP537 1
a b d e f g
COMP537
g:1
17
TID Items Bought 100 200 300 400 500
Item
(Ordered) Frequent Items a, b, d, e, f, g a, f, g b, d, e, f a, b, d a, b, e, g
Threshold = 3
a b d e f g
COMP537
g:1
21
Item
Head of node-link
root a:4 b:3 d:2 e:1 f:1 e:1 g:1 f:1 g:1 b:1 d:1 e:1 f:1
a b d e f g
COMP537
g:1
22
Item
Head of node-link
Threshold = 3
f
g h
i
j k
8
TID Items Bought 100 200 300 400 500 Item
a b c d e
(Ordered) Frequent Items
Threshold = 3
a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g Frequency 4 4 1 3 3 3 3 1 1 1 COMP537 1 Item
Head of node-link
root a:1 b:1 d:1 e:1 f:1
a b d e f g
COMP537
g:1
13
TID Items Bought 100 200 300 400 500
Item
(Ordered) Frequent Items a, b, d, e, f, g a, f, g b, d, e, f a, b, d a, b, e, g
}
COMP537
24
Item
Head of node-link
Threshold = 3
a:4 b:3 d:2 e:1 f:1 g:1 e:1 g:1
root b:1 f:1 g:1 d:1 e:1 f:1
a b d e f g
Cond. FP-tree on “g”
{ (a:1, b:1, d:1, e:1, f:1, g:1),
a b d e f g
Threshold = 3
a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g Frequency 4 4 1 3 3 3 3 1 1 1 COMP537 1
Frequency
4 4 3 3 3 3
a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g
Head of node-link
root a:4 b:3 d:2 e:1 f:1 e:1 g:1 f:1 g:1 b:1 d:1 e:1 f:1
a b d e f g
COMP537
11
FP-Tree
FP-Tree构造如下: 首先,创建树的根节点,用“null”标记。 其次,第二次扫描数据库D.每个数据库的项 都按照L中的次序处理(即按照递减的支持 度技术排序),并对每个食物数据创建一 个分支。

COMP537
12
TID Items Bought 100 200 300 400 500
Head of node-link
root a:2 b:1 d:1 e:1 f:1 f:1 f:1 g:1 b:1 d:1 e:1
a b d e f g
COMP537
g:1
15
TID Items Bought 100 200 300 400 500
Item
(Ordered) Frequent Items a, b, d, e, f, g a, f, g b, d, e, f a, b, d a, b, e, g
COMP537
g:1
18
FP-tree



Step 1: 遍历一次数据库,导出频繁项(1项集)的集合 和支持度计数(频率),并且以降序排序。 Step 2: 构造FP-tree Step 3: 根据第二步得到的FP-Tree, 为1项频繁项集中的 每一项构造条件FP-Tree. Step 4: 得到频繁模式(频繁项集).
a b d e f g
Frequency
4 4 3 3 3 3
f
g h
i
j k
9
TID Items Bought 100 200 300 400 500 Item
a b c d e
(Ordered) Frequent Items a, b, d, e, f, g a, f, g b, d, e, f a, b, d a, b, e, g Item
Threshold = 3
a, b, c, d, e, f, g, h a, f, g b, d, e, f, j a, b, d, i, k a, b, e, g
Head of node-link
root a:2 a:1 b:1 d:1 e:1 f:1 f:1 g:1
a b d e f g
COMP537
COMP537
19
FP-Tree
★条件模式基:一个“子数据库”,由FP树 中与该后缀模式一起出现的前缀路径集组 成。
★由长度为1的频繁模式开始,构造他的条件 模式基(即从叶子节点开始)。
COMP537
20
TID Items Bought 100 200 300 400 500
Item
(Ordered) Frequent Items a, b, d, e, f, g a, f, g b, d, e, f a, b, d a, b, e, g
f
g h
i
j k
10
FP-tree
Step 1: 遍历一次数据库,导出频繁项(1项集)的集合和支持 度计数(频率),并且以降序排序,结果集或表记为L。 Step 2: 构造FP-tree Step 3: 根据第二步得到的FP-Tree, 为1项频繁项集中的每一项 构造条件FP-Tree. Step 4: 得到频繁模式(频繁项集).
相关文档
最新文档