关联分析:基本概念和算法(可编辑)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关联分析:基本概念和算法
C Vipin Kumar Parallel Issues in Data Mining VECPAR 2002 C Vipin Kumar Parallel Issues in Data Mining VECPAR 2002 关联分析基本概念和算法定义关联分析association analysis 关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系所发现的模式通常用关联规则或频繁项集的形式表示关联分析可以应用于生物信息学医疗诊断网页挖掘科学数据分析等定义频繁项集Frequent Itemset 项集Itemset 包含0个或多个项的集合例子 Milk Bread Diaper k-项集如果一个项集包含k 个项支持度计数Support count 包含特定项集的事务个数例如Milk BreadDiaper 2 支持度Support 包含项集的事务数与总事务数的比值例如 s Milk Bread Diaper 25 频繁项集Frequent Itemset 满足最小支持度阈值 minsup 的所有项集定义关联规则Association Rule 关联规则挖掘问题关联规则挖掘问题给定事务的集合 T 关联规则发现是指找出支持度大于等于 minsup 并且置信度大于等于minconf的所有规则 minsup和minconf是对应的支持度和置信度阈值挖掘关联规则的一种原始方法是Brute-force approach 计算每个可能规则的支持度和置信度这种方法计算代价过高因为可以从数据集提取的规则的数量达指数级从包含d个项的数据集提取的可能规则的总数R 3d-2d11如果d等于6
则R 602 挖掘关联规则Mining Association Rules 大多数关联规则挖掘算法通常采用的一种策略是将关联规则挖掘任务分解为如下两个主要的子任务频繁项集产生Frequent Itemset Generation 其目标是发现满足最小支持度阈值的所有项集这些项集称作频繁项集规则的产生Rule Generation 其目标是从上一步发现的频繁项集中提取所有高置信度的规则这些规则称作强规则strong rule 频繁项集产生Frequent Itemset Generation 频繁项集产生Frequent Itemset Generation Brute-force 方法把格结构中每个项集作为候选项集将每个候选项集和每个事务进行比较确定每个候选项集的支持度计数时间复杂度 O NMw 这种方法的开销可能非常大降低产生频繁项集计算复杂度的方法减少候选项集的数量 M 先验 apriori 原理减少比较的次数 NM 替代将每个候选项集与每个事务相匹配可以使用更高级的数据结构或存储候选项集或压缩数据集来减少比较次数先验原理 Apriori principle 先验原理如果一个项集是频繁的则它的所有子集一定也是频繁的相反如果一个项集是非频繁的则它的所有超集也一定是非频繁的这种基于支持度度量修剪指数搜索空间的策略称为基于支持度的剪枝support-based pruning 这种剪枝策略依赖于支持度度量的一个关键性质即一个项集的支持度决不会超过它的子集的支持度这个性质也称为支持度度量的反单调性anti-monotone Apriori算法的频繁项集产生 Apriori 算法的频繁项集产生 Apriori 算法 Apriori 算法 Apriori算法的频繁项集产生的部分有两个重要的特点它是一个逐层算法即从频繁
1-项集到最长的频繁项集它每次遍历项集格中的一层它使用产生-测试策略来发现频繁项集在每次迭代新的候选项集由前一次迭代发现的频繁项集产生然后对每个候选的支持度进行计数并与最小支持度阈值进行比较该算法需要的总迭代次数是k1其中k是频繁项集的最大长度候选的产生与剪枝构造apriori-gen函数蛮力方法蛮力方法把所有的k-项集都看作可能的候选然后使用候选剪枝除去不必要的候选第k层产生的候选项集的数目为虽然候选产生是相当简单的但是候选剪枝的开销极大因为必须考察的项集数量太大设每一个候选项集所需的计算量为Ok这种方法的总复杂度为候选的产生与剪枝候选的产生与剪枝这种方法用其他频繁项来扩展每个频繁k-1-项集这种方法将产生个候选k-项集其中Fj表示频繁j-项集的个数这种方法总复杂度是这种方法是完全的因为每一个频繁k-项集都是由一个频繁k-1-项集和一个频繁1-项集组成的因此所有的频繁k-项集是这种方法所产生的候选k-项集的一部分然而这种方法很难避免重复地产生候选项集如面包尿布牛奶不仅可以由合并项集面包尿布和牛奶得到而且还可以由合并面包牛奶和尿布得到或由合并尿布牛奶和面包得到候选的产生与剪枝候选的产生与剪枝避免产生重复的候选项集的一种方法是确保每个频繁项集中的项以字典序存储每个频繁k-1-项集X只用字典序比X中所有的项都大的频繁项进行扩展如项集面包尿布可以用项集牛奶扩展因为牛奶milk在字典序下比面包Bread和尿布Diapers都大尽管这种方法比蛮力方法有明显
改进但是仍然产生大量不必要的候选例如通过合并啤酒尿布和牛奶而得到的候选是不必要的因为它的子集啤酒牛奶是非频繁的候选的产生与剪枝这种方法合并一对频繁k-1-项集仅当它们的前k-2个项都相同如频繁项集面包尿布和面包牛奶合并形成了候选3-项集面包尿布牛奶算法不会合并项集啤酒尿布和尿布牛奶因为它们的第一个项不相同然而由于每个候选都由一对频繁k-1-项集合并而成因此需要附加的候选剪枝步骤来确保该候选的其余k-2个子集是频繁的候选的产生与剪枝支持度计数支持度计数过程确定在apriori-gen函数的候选项剪枝步骤保留下来的每个候选项集出现的频繁程度计算支持度的主要方法一种方法是将每个事务与所有的候选项集进行比较并且更新包含在事务中的候选项集的支持度计数这种方法是计算昂贵的尤其当事务和候选项集的数目都很大时另一种方法是枚举每个事务所包含的项集并且利用它们更新对应的候选项集的支持度枚举事务t的所有包含3个项的子集 Hash树结构 Hash树结构 Hash树结构使用Hash树进行支持度计数使用Hash树进行支持度计数使用Hash树进行支持度计数存放在被访问的叶结点中的候选项集与事务进行比较如果候选项集是该事务的子集则增加它的支持度计数在该例子中访问了9个叶子结点中的5个 15个项集中的9个与事务进行比较计算复杂性支持度阈值降低支持度阈值通常将导致更多的项集是频繁的计算复杂度增加随着支持度阈值的降低频繁项集的最大长度将增加导致算法需要扫描数据集的次数也将增多项数随着项数的增加需要更多
的空间来存储项的支持度计数如果频繁项集的数目也随着数据项数
增加而增长则由于算法产生的候选项集更多计算量和IO开销将增加
事务数由于Apriori算法反复扫描数据集因此它的运行时间随着
事务数增加而增加事务的平均宽度频繁项集的最大长度随事务平
均宽度增加而增加随着事务宽度的增加事务中将包含更多的项集这
将增加支持度计数时Hash树的遍历次数规则产生忽略那些前件或
后件为空的规则每个频繁k-项集能够产生多达2k-2个关联规则关
联规则的提取将一个项集 Y划分成两个非空的子集 X 和Y-X使得X
Y –X满足置信度阈值如果 ABCD 是频繁项集候选项集为 ABC
D ABD C ACD B BCD A
A BCD
B ACD
C AB
D D ABC
AB CD AC BD AD BC BC AD
BD AC CD AB
这样的规则必然已经满足支持度阈值因为它们是由频繁项集产生的
规则产生怎样有效的从频繁项集中产生关联规则一般计算关联规
则的置信度并不需要再次扫描事务数据集规则 ABC D 的置信度为
σ ABCD σ ABC 因为这两个项集的支持度计数已经在频繁项集产
生时得到因此不必再扫描整个数据集如果规则X Y-X不满足置信度
阈值则形如XY-X的规则一定也不满足置信度阈值其中X是X的子集
例如c ABC D c AB CD c A BCD 因为σ AB σ ABC 则
σ ABCD σ ABC σ ABCD σ AB 则c ABC D c AB CD Apriori 算法中规则的产生 Apriori 算法中规则的产生频繁项集
的紧凑表示由事务数据集产生的频繁项集的数量可能非常大因此从中识别出可以推导出其他所有的频繁项集的较小的具有代表性的项集是有用的频繁项集的数量需要紧凑的表示最大频繁项集imal Frequent Itemset 最大频繁项集的特点优点最大频繁项集有效地提供了频繁项集的紧凑表示换句话说最大频繁项集形成了可以导出所有频繁项集的最小的项集的集合从图中可以看出所有的频繁项集是最大频繁项集 AD ACE BCDE 的子集缺点尽管最大频繁项集提供了一种紧凑表示但是它却不包含它们子集的支持度信息频繁闭项集Closed Frequent Itemset 闭项集Closed Itemset项集X是闭的如果它的直接超集都不具有和它相同的支持度计数换句话说如果至少存在一个X的直接超集其支持度计数与X相同X就不是闭的频繁闭项集一个项集是频繁闭项集如果它是闭的并且它的支持度大于或等于最小支持度阈值频繁闭项集频繁闭项集频繁项集最大频繁项集和频繁闭项集之间的关系使用频繁闭项集进行支持度计数产生频繁项集的其他方法项集格遍历一般到特殊 vs 特殊到一般一般到特殊适合于频繁项集的最大长度不是太长的时候特殊到一般适合于处理频繁项集的最大长度较长的时候产生频繁项集的其他方法项集格遍历等价类将格划分为两个不相交的节点组或等价类频繁项集产生算法依次在每个等价类内搜索频繁项集 Apriori算法采用的逐层策略可以看作根据项集的大小划分格等价类也可以根据项集的前缀或后缀来定义产生频繁项集的其他方法项集格遍历宽度优先与深度优先通常深度优先搜索方法是用于
发现最大频繁项集的算法产生频繁项集的其他方法事务数据集的表示水平数据分布horizontal data layout 垂直vertical data layout FP增长算法FP-growth Algorithm 该算法采用完全不同的方法来发现频繁项集该算法不同于Apriori算法的产生-测试范型而是使用一种称作FP树的紧凑数据结构组织数据并直接从该结构中提取频繁项集 FP树是一种输入数据的压缩表示它通过逐个读入事务并把每个事务映射到FP树中的一条路径来构造构造FP树扫描一次数据集确定每个项的支持度计数丢弃非频繁项而将频繁项按照支持度的递减排序算法第二次扫描数据集构建FP树读入第一个事务 ab 之后创建标记为a和b的结点然后形成null- a- b路径对该事务编码该路径上的所有结点的频度计数为1 读入第二个事务 bcd 之后为项bc和d创建新的结点集然后连接结点null- b- c- d形成一条代表该事务的路径该路径上的每个结点的频度计数也等于1尽管前两个事务具有一个共同项b但是它们的路径不相交因为这两个事务没有共同的前缀构造FP树第三个事务 acde 与第一个事务共享一个共同的前缀项a所以第三个事务的路径null- a- c- d- e与第一个事务的路径null- a- b部分重叠因为它们的路径重叠所以结点a的频度计数增加为2 继续该过程直到每个事务都映射到FP树的一条路径构造FP树构造FP树构造FP树通常FP树的大小比未压缩的数据小因为购物篮数据的事务常常共享一些共同项如果共同项较少FP树对存储空间的压缩效果将不明显 FP树的大小也依赖于项如何排序一般按照支持度计数递减序可以导致较小的FP树但也有一些例
外 FP树还包含一个连接具有相同项的结点的指针列表这些指针有助于方便快捷地访问树中的项构造FP树 FP增长FP-growth算法 FP 增长是一种以自底向上方式探索树由FP树产生频繁项集的算法由于每一个事务都映射到FP树中的一条路径因而通过仅考察包含特定结点例如e的途径就可以发现以e结尾的频繁项集使用与结点e相关联的指针可以快速访问这些路径 FP增长FP-growth算法 FP增长FP-growth算法 FP增长FP-growth算法关联模式的评估Pattern Evaluation 关联分析算法往往产生大量的规则而其中很大一部分可能是不感兴趣的因此建立一组广泛接受的评价关联模式质量的标准是非常重要的第一组标准可以通过统计论据建立涉及相互独立的项或覆盖少量事务的模式被认为是不令人感兴趣的因为它们可能反映数据中的伪联系这些令人感兴趣的模式可以使用客观兴趣度度量来排除第二组标准可以通过主观论据建立一个模式被主观认为是无趣的除非它能够揭示料想不到的信息或提供导致有益的行动的有用信息例如黄油面包可能不是有趣的尽管有很高的支持度和置信度但是它表示的关系显而易见另一方面规则尿布啤酒是有趣的因为这种联系十分出乎意料并且可能为零售商提供新的交叉销售机会将主观知识加入到模式的评价中是一项困难的任务因为需要来自领域专家的大量先验信息下面是一些将主观信息加入到模式发现任务中的方法兴趣度客观度量objective interestingness measure 客观兴趣度度量使用从数据推导出的统计量来确定模式是否是有趣的客观兴趣度度量的例子包括支持度置信度相关性给定一个规则
X Y 我们可以构建一个相依表contingency table 支持度-置信度框架的局限性现有的关联规则的挖掘算法依赖于支持度和置信度来除去没有意义的模式例子假定希望分析爱喝咖啡和爱喝茶的人之间的关系收集一组人关于饮料偏爱的信息并汇总到下表6-8 支持度-置信度框架的局限性可以使用表中给出的信息来评估关系规则茶咖啡似乎喜欢喝茶的人也喜欢喝咖啡因为该规则的支持度15和置信度75都相当高但是所有人中不管他是否喝茶喝咖啡的人的比例为80这意味着一个人如果喝茶则他喝咖啡的可能性由80减到了75 置信度的缺点在于该度量忽略了规则后件中项集的支持度由于支持度-置信度框架的局限性各种客观度量已经用来评估关联模式下面简略介绍这些度量并解释它们的优点和局限性兴趣因子相关分析IS度量兴趣因子茶和咖啡的例子表明由于置信度度量忽略了规则后件中出现的项集的支持度高置信度的规则有时存在误导解决这个问题的一种方法是使用称作提升度lift的度量它计算规则置信度和规则后件中项集的支持度之间的比率对于二元变量提升度等价于另一种称作兴趣因子interest factor的客观度量其定义如下对于相互独立的两个变量I AB 1如果A和B是正相关的则I AB 1对于表6-8中的例子I 015 0208 09375 这表明存在负相关兴趣因子的局限性表6-9显示了两个词 pq 和 rs 出现的频率 pq 和 rs 的兴趣因子com 这表明虽然p和q同时出现在88的文档中但是它们的兴趣因子接近于1表明二者是相互独立的另一方面 rs 的兴趣因子比 pq 的高尽管r和s很少同时出现在同一个文档
中这种情况下置信度可能是一个更好的选择因为置信度表明p和q 之间的关联946远远强于r和s之间的关联286 表6-9 相关分析对于二元变量相关度可以用以下公式表示相关度的值从-1完全负相关到1完全正相关如果变量是统计独立的则值为0例如在表6-8中给出的饮茶者和喝咖啡者之间的相关度为-00625 相关分析的局限性相关性的缺点通过表6-9所给出词的关联可以看出虽然p和q同时出现的次数比r和s更多但是它们的¢系数是相同的都等于0232 这是因为这种方法把项在事务中出现和同时不出现视为同等重要因此它更适合于分析对称的二元变量这种度量的另一个局限性是当样本大小成比例变化时它不能够保持不变 IS度量 IS是另一种度量用于处理非对称二元变量该度量定义如下表6-9中显示的词对 pq 和rs 的IS值comIS度量暗示 pq 之间的关联强于 rs 这与期望的文档中词的关联一致可以证明IS数学上等价于二元变量的余弦变量IS度量也可以表示为从一对二元变量中提取出的关联规则的置信度的几何平均值 IS度量的局限性一对相互独立的项集A和B的IS 值是尽管表6-10中所显示的项p和q之间的IS值相当大0889当项统计独立时它仍小于期望值ISindep 09 表6-10 其他客观兴趣度度量不同度量间的比较客观度量的性质反演性客观度量M在反演操作下是不变的如果交换频度计数f11和f00f10和f01它的值保持不变在反演操作下保持不变的度量有¢系数几率k和集体强度这些度量可能不适合于分析非对称的二元数据一些非反演不变的度量包括兴趣因子ISPSJaccard系数零加性客观度量M在零加操作下
是不变的如果增加f00而保持相依表中所有其他的频度不变并不影
响M的值对文档分析或购物篮分析这样的应用期望度量多在零加操
作下保持不变满足零加性的度量包括余弦IS和Jaccard度量而不满
足该性质的度量包括兴趣因子PS几率和¢系数缩放性客观度量M
在行列缩放操作下是不变的如果MT MT其中T是频度计数为
[f11f00f10f01]的相依表T是频度计数为[k1k3f11 k2k3f10 k1k4f01
k2k4f00]的相依表多个二元变量的度量使用多维相依表可以扩
展到多个变量例如表6-18显示了ab和c的3维相依表倾斜支持度
分布的影响许多关联分析算法的性能受输入数据的性质的影响例如Apriori算法的计算复杂性依赖于数据中的项数和事务的平均长度
等性质具有倾斜支持度分布的数据集其中大多数项具有较低或中等
频率但是少数项具有很高的频率图6-29显示了一个呈现这种分布
的实际数据集的例子该数据取自PUMS人口普查数据它包含49046条
记录和2113个非对称的二元变量选择合适的支持度阈值较难如果
阈值太高则可能遗漏涉及G1中较低支持度项的有趣模式如在购物篮
数据中顾客很少买的昂贵商品珠宝等如果支持度阈值太低提取出的
关联模式大幅增加可能提取出大量的高频率项如牛奶与低频率项如
鱼子酱相关联的虚假模式这样的模式称为交叉支持cross-support
模式定义69 交叉支持模式交叉支持模式是一个项集X i1 i2 ik 它的支持度比率小于用户指定的阈值hc 假设牛奶的支持
度是70糖的支持度是10鱼子酱的支持度是0004给定hc 001频繁项
集牛奶糖鱼子酱是一个交叉支持模式因为r 000058 001 现有的度
量如支持度和置信度都不足以消除交叉支持模式例如图6-30所示
当hc 03时项集 pq pr pqr 是交叉支持模式虽然它们支持度很
高为430 133因为它们的支持度比率为02小于阈值03 例如置信度
也无法消除交叉支持模式因为交叉模式 q p 的置信度达到80 图
6-30 由于p的大部分事务不包含q所以由模式 pq 导出的规则 p q 的置信度很低相反由 rq 导出的规则 r q 却有很高的置信度
这一观察暗示可以通过检查由给定项集提取的最低置信度规则来检
测交叉支持模式所以当我们保证h置信度值超过hc时就可以消
除交叉支持模式除可以消除交叉支持模式外h置信度还具有反单调
性的特点所以可以直接并入挖掘算法此外h置信度能够确保项集中
的项之间是强关联的即超团模式 hyperclique pattern 挖掘关联模
式的研究问题 T f0 f1 fo f00 f01 X f1 f10 f11 X Y Y Contingency table for X Y 1000 200 800 800 150 650 Tea 200 50 150 Tea Coffee Coffee 1000 70 930 70 20 50 q 930 50 880 q p p 1000 930 70 930 880 50 s 70 50 20 s r r 1000 100 900 100 0 100 q 900 100 800 q p p 100 30 70 50 10 40 Low 50 20 30 High Female Male 230 90 140 110 30 80 Low 120 60 60 High Female Male 表
6-16显示了1993年和2004年注册某课程的学生的性别和成绩的相
依表 F1 F01 F11 F01 f001 f011 a F11 f101 f111 a b b c F0 F00
F10 F00 f000 f010 a F10 f100 f110 a b b c 1 5 9 1 4 5 1 3 6 3
4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2
5 4 5 8 147 258 369 Hash Function 1 2 3 5
6 3 5 6 1 2 5 6 1
3 6 1 5 3 5 6 2 5 6 3 1 2 3 5 6 transaction 15个项集中
的9个与事务进行比较被剪枝的规则低置信度规则频繁项集的边
界不频繁项集最大频繁项集最大频繁项集是这样的频繁项集它的
直接超集都不是频繁的非频繁的频繁的 Transaction Ids Not supported by any transactions minsup 40 Closed Frequent Itemset 9 imal Frequent itemset 4 null A1 B1 null A1 B1
B1 C1 D1 读入事务 TID 1后读入事务 TID 2后 D1 E1 null A1 B1
B1 C1 D1 读入事务 TID 3后 C1 null A8 B5 B2 C2 D1 C1 D1 C3 D1
D1 E1 E1 D1 E1 Header table 关联分析基本概念和算法 Rules Discovered Diaper -- Beer Example 关联规则关
联规则是形如 X Y的蕴含表达式其中 X 和 Y 是不相交的项集例
子
Milk Diaper Beer 关联规则的强度支持度 Support s 确定项集的频繁程度置信度 Confidence c 确定Y在包含X的事
务中出现的频繁程度格结构lattice structure 非频繁项集例子
被剪枝的超集Items 1-itemsets Pairs 2-itemsets Triplets 3-itemsets 支持度阈值 60 最小支持度计数 3 枚举
所有项集将产生 6C1 6C2 6C3 41个候选而使用先验原理将较
少为 6 6 1 13 Items 1-itemsets Pairs 2-itemsets Triplets 3-itemsets 支持度阈值 60 最小支持度计数 3 枚举
所有项集将产生 6C1 6C2 6C3 41个候选而使用先验原理将较
少为 6 6 1 13 产生Hash树 2 3 4 5 6 7 1 4 5 1 3 6 1 2 4
4 5 7 1 2 5 4 5 8 1 5 9 3 4 5 3 5 6 3 5 7 6 8 9 3 6 7 3 6 8 147 258 369 Hash function Hash函数h p p mod 3 假设有15个候选3-项集 1 4 5 1 2 4 4 5 7 1 2 5 4 5 8 1 5 9 1 3 6 2 3 4 5 6 7 3 4 5 3 5 6 3 5 7 6 8 9 3 6 7 3 6 8 1 5 9 1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 147 258 369 Hash Function Candidate Hash Tree Hash on 1 4 or 7 1 5 9 1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 147 258 369 Hash Function Candidate Hash Tree Hash on 2 5 or 8 1 5 9
1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9
2
3
4
5
6
7 1
2 4 4 5 7 1 2 5 4 5 8 147 258 369 Hash Function Candidate Hash Tree Hash on
3 6 or 9 1 5 9 1
4
5 1 3
6 3 4 5 3 6
7 3 6
8 3 5 6 3 5 7 6 8
9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 1 2 3 5 6 1 2 3 5 6 3 5 6 2 5 6 3 147 258 369 Hash Function transaction 1 5 9 1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 147 258 369 Hash Function 1 2 3 5 6 3 5 6 1 2 5 6 1 3 6 1 5 3 5 6 2 5 6 3 1 2 3 5 6 transaction Item Count Bread 4 Coke 2 Milk 4 Beer 3 Diaper 4 Eggs 1
Itemset Count BreadMilk 3 BreadBeer 2 BreadDiaper 3 MilkBeer 2 MilkDiaper 3 BeerDiaper 3
Itemset Count BreadMilkDiaper 3
TID Items 1 Bread Milk 2 Bread Diaper Beer Eggs 3 Milk Diaper Beer Coke 4 Bread Milk Diaper Beer 5 Bread Milk Diaper Coke
TID Items 1 Bread Milk 2 Bread Diaper Beer Eggs 3 Milk Diaper Beer Coke 4 Bread Milk Diaper Beer 5 Bread Milk Diaper Coke
Sheet1
TID
Items
ABC
ABCD
BCE
ACDE
DE
00
00
00
00
00
Sheet3
Sheet2
Sheet1 ABC ACDE ADE ABCD AB ABD BCE BCD Items TID
ABC
A
00
00
00
00
00
00
00
00
00
Sheet3 Sheet2 Sheet1 ABC ACDE ADE ABCD AB ABD BCE BCD Items TID
A
00
00
00
00
00
00
00
00
000 Sheet3 Sheet2 Sheet1 A
B
C
D
E
Item Pointer Sheet3 Sheet2 Sheet1 E1
E2
E3
E4
E5
E6
E8
E9
E10 Example f11
f10
f01
f00 00000 000 0000 00000 000000 00 00000 00 0000 00000 000000 00 00000
0000 0000 000000 00 00000 00000 00 00000 000000 00 00000 00000 00000 00000 000000 00 00000 00000 0000 00000 000000
00 00000 00000 00000 00000 000000 00 00000 00000 00000 00000 000000 00 00000 00000 00 00000 000000 00 000 00000 00
000000
00
TID Items 1 Bread Milk 2 Bread Diaper Beer Eggs 3 Milk Diaper Beer Coke 4 Bread Milk Diaper Beer 5 Bread Milk Diaper Coke
TID Items 1 Bread Milk 2 Bread Diaper Beer Eggs 3 Milk Diaper Beer Coke 4 Bread Milk Diaper Beer 5 Bread Milk Diaper Coke
Item Count Bread 4 Coke 2 Milk 4 Beer
3 Diaper
4 Eggs 1
Itemset Count BreadMilk 3 BreadBeer 2 BreadDiaper 3 MilkBeer 2 MilkDiaper 3 BeerDiaper 3
Itemset Count BreadMilkDiaper 3
Sheet3
Sheet2
Sheet1
ABC
ACDE
ADE
ABCD
ABD BCE BCD Items TID
ABC
A
00
00
00
00
00
00
00
00
00 000 Sheet3 Sheet2 Sheet1 e
e de ade ce ae
d cd bcd acd bd abd ad c bc abc ac
d
c
b
b ab
a
a
后缀
频繁项集。