关联规则和序列模式
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关联规则和序列模式
关联规则((Association Rule)
1关联规则
并发关系(occurrence Relationships)也称之为关联。首次有Agrawal于1993提出,发表论文Mining Association Rules between Sets of Items in Large Databases。经典应用是购物篮(Market Basket)数据分析。
2符号定义
假设I={i1,i2,……,i m}是一个项目集合,T=(t1,t2,……,t n)是一个数据库事务集合,其中每个事务t i是一个项目集合,并满足t i⊆I。
那么一个关联规则是一个如下形式的蕴涵关系:
X Y,其中X⊂I,Y⊂I,X I Y= ∅
X(或Y)是一个项目的集合,称作相机,并称X为前件,Y为后件。
支持度:规则X Y的支持度是指T中包含X U Y的事务的百分比。
置信度:规则X Y的置信度是指既包含了X又包含了Y的事务的数量占所有包含了X的事务的百分比。
3Apriori算法
3.1主要步骤
Step1 生成所有频繁项目集。由最小支持度决定。
Step2 从频繁项目集生成多有可信关联关系。由最小置信度决定。
3.2主要原理
1)如果一个项是,频繁的,则它的所有子集也一定是频繁的。相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。
2)如果规则X Y – X 不满足置信度阈值,则形如X sub Y – X sub的规则也一定不满足置信度阈值,其中X sub是X的子集。
3.3例子
3.3.1产生频繁项集
图1 产生频繁项集
1)假设最小支持度为2。
2)2-项集生成3-项集的时候,可以采取由1-项集与2-项集产生,也可采用2-项集自身产生。
3)产生的3-项集有{2 3 5}{1 2 3}{1 2 5},但是剪枝后得到{2 3 5}。因为{1 2 3}的子项{1 2}不包含于L 2,{1 2 5}的子项{1 2}不包含于L 2。
3.3.2产生关联规则
图2 产生关联规则
1) 产生规则{2 3 5}之后,可以利用原理2进行推理产生后续的关联规则。
4序列模式
关联规则挖掘不考虑事务间的顺序,序列模式挖掘注重事务间的顺序。主要应用:在web 使用挖掘中,从用户浏览网页的顺序中挖掘网站的浏览模式;在文本挖掘中,格局词在句子中的顺序挖掘语言模式。
5符号定义