关联规则算法 PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
C2
项集
扫描D, 对每个候 选计数
{I1,I2} {I1,I3} {I1,I4} {I1,I5} {I2,I3} {I2,I4} {I2,I5} {I3,I4} {I3,I5} {I4,I5}
支持度计数
4 4 1 2 4 2 2 0 1 0
为关联规则,即
S(A B) min_sup且C(A B) min_conf
闭项集, 如果不存在真超项集Y使得Y与X在D中有相同的支持度计数,则X 在D中是闭的.
极大闭项集, 如果X是频繁的,且不存在超项集Y使得X属于Y,并且Y在D中 是频繁的.
基本概念及理论
相关分析
Apriori(先验)算法
项集
{I1} {I2} {I3} {I4} {I5}
支持度计数
6 7 6 2 2
L1
比较候选支持度计数 与最小支持度计数
项集
{I1} {I2} {I3} {I4} {I5}
支持度计数
6 7 6 2 2
源自文库
C2
由L1产生 候选C2
项集
{I1,I2} {I1,I3} {I1,I4} {I1,I5} {I2,I3} {I2,I4} {I2,I5} {I3,I4} {I3,I5} {I4,I5}
例: L3={abc, abd, acd, ace, bcd} Pruning: acde is removed because ade is not in L3 C4={abcd}
Apriori(先验)算法
例:设有一个Electronics的事务数据库(如图1示)。数据库中有9个事 务,即|D|=9。Apriori假定事务中的项按字典次序存放。我们使用 图2解释Apriori算法寻找D中的频繁项集。
例:
L3={abc, abd, acd, ace, bcd} Self-joining: L3 ⊕ L3
abcd from abc and abd
acde from acd and ace
Apriori(先验)算法
2.剪枝步:Ck是Lk的超集,它的成员可以是频繁的,也可以不是频繁的,但 所有的频繁k-项集都包含在Ck中。扫描数据库,确定Ck中每个候选k-项集的 计数,将计数值≥最小支持度计数的所有候选k-项集确定到Lk中。然而,Ck 可能很大,这样所涉及到的计算量就很大。这时使用Apriori性质:如果一 个候选k-项集的(k-1)-项集不在Lk-1中,则该候选也不可能是频繁的,从 而可以从Ck中删除。
Apriori(先验)算法
性质 先验性质:频繁项集的所有非空子集都是频繁项集 非频繁项集的所有超集都是非频繁项集(反单调性)
例: 如果{啤酒,尿布,坚果}是一个频繁的,则其子集{啤酒,尿布}、 {啤酒,坚果}、{尿布,坚果}都是频繁的; 如果{啤酒,坚果}是非频繁项集,则{啤酒,尿布,坚果}也是非频繁的.
关联规则算法
目录
基本概念及理论 Apriori(先验)算法 改进Apriori算法 FP-Tree算法
基本概念及理论
关联规则(Association Rule Mining) : 最早是由Agrawal、R.Srikant提出(1994) 发现事务数据库、关系数据或其它信息库中项或数据对象集合间的频 繁模式, 关联, 相关, 或因果关系结构 频繁模式: 在数据库中频繁出现的模式(项集, 序列等)
TID
T100 T200 T300 T400 T500 T600 T700 T800 T900
项ID的列表
I1,I2,I5 I2,I4 I2,I3 I1,I2,I4 I1,I3 I2,I3 I1,I3 I1,I2, I3,I5 I1,I2,I3
(图1)
最小支持度为20% (计数为 2)
C1
扫描D,对每 个候选计数
置信度 confidence 规则AB具有置信度C,表示C是包含A项集的同时也包含B项集,相对于包 含A项集的百分比,这是条件概率P(B|A),即:
C(A B) P(B | A) | AB | |A|
阈值,在事务数据库中找出有用的关联规则,需要由用户确定两个阈值: 最小支持度阈值(min_sup)和最小置信度阈值(min_conf)
应用: 发现数据中的规律性 购物篮数据分析,交叉销售,分类设计,销售活动分析 Web日志(点击流)分析, DNA序列分析等
基本概念及理论
支持度 support 规则AB在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比, 它是概率P(AB)
S(A B) P(AB) | AB | |D|
Apriori(先验)算法
1.连接步:为找LK,通过LK-1与自己连接产生候选K-项集的集合。该候选 K-项集的集合记为CK,CK中包含2K个可能的项集。从LK-1中取出f1和f2, fj[j]表示fj的第j项。如果两者的前(k-2)个项相同(如果 f1[1]=f2[1]∧f1[2]=f2[2]∧…∧f1[k-2] =f2[k-2]∧f1[k-1] <f2[k-1],则 LK-1的元素f1和f2是可以连接的),则进行连接f1⊕f2形成: {f1[1],f1[2],… ,f1[k-2],f1[k-1],f2[k-1]}。
强规则, 同时满足最小支持度阈值和最小置信度阈值的规则
基本概念及理论
项集,项的集合称为项集(Itemset),包含k个项的项集称之为k-项集 频繁项集L,项集L的相对支持度满足预定义的最小支持度阈值,如频繁K-
项集的集合通常记作LK 同时满足最小支持度(min_sup)和最小置信度(min_conf)的规则称之
基本思想:使用一种称作逐层搜索的迭代方法,K-项集用于探索(K+1)-项 集。首先找出频繁1-项集的集合记为L1,L1用于找频繁2-项集的集合L2,而L2用 于找L3,如此下去直到不能找到频繁K-项集LK。找每个LK需要一次数据库扫描。 最后由频繁K-项集可直接产生强关联规则。
过程分为两步: 第一步:识别所有的频繁K-项集,并统计其频率; 第二步:由频繁K-项集产生强关联规则。依据搜索到的频繁K-项集,导出 满足给定阈值条件的关联规则。