关联规则和序列模式

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关联规则和序列模式

关联规则((Association Rule)

1关联规则

并发关系(occurrence Relationships)也称之为关联。首次有Agrawal于1993提出,发表论文Mining Association Rules between Sets of Items in Large Databases。经典应用是购物篮(Market Basket)数据分析。

2符号定义

假设I={i1,i2,……,i m}是一个项目集合,T=(t1,t2,……,t n)是一个数据库事务集合,其中每个事务t i是一个项目集合,并满足t i⊆I。

那么一个关联规则是一个如下形式的蕴涵关系:

X Y,其中X⊂I,Y⊂I,X I Y= ∅

X(或Y)是一个项目的集合,称作相机,并称X为前件,Y为后件。

支持度:规则X Y的支持度是指T中包含X U Y的事务的百分比。

置信度:规则X Y的置信度是指既包含了X又包含了Y的事务的数量占所有包含了X的事务的百分比。

3Apriori算法

3.1主要步骤

Step1 生成所有频繁项目集。由最小支持度决定。

Step2 从频繁项目集生成多有可信关联关系。由最小置信度决定。

3.2主要原理

1)如果一个项是,频繁的,则它的所有子集也一定是频繁的。相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。

2)如果规则X Y – X 不满足置信度阈值,则形如X sub Y – X sub的规则也一定不满足置信度阈值,其中X sub是X的子集。

3.3例子

3.3.1产生频繁项集

图1 产生频繁项集

1)假设最小支持度为2。

2)2-项集生成3-项集的时候,可以采取由1-项集与2-项集产生,也可采用2-项集自身产生。

3)产生的3-项集有{2 3 5}{1 2 3}{1 2 5},但是剪枝后得到{2 3 5}。因为{1 2 3}的子项{1 2}不包含于L 2,{1 2 5}的子项{1 2}不包含于L 2。

3.3.2产生关联规则

图2 产生关联规则

1) 产生规则{2 3 5}之后,可以利用原理2进行推理产生后续的关联规则。

4序列模式

关联规则挖掘不考虑事务间的顺序,序列模式挖掘注重事务间的顺序。主要应用:在web 使用挖掘中,从用户浏览网页的顺序中挖掘网站的浏览模式;在文本挖掘中,格局词在句子中的顺序挖掘语言模式。

5符号定义

对于两个序列s 1=和s 2=,如果存在整数1<=j 1

例如,序列s1=<{6}{3,7}{9}{4,5,8}{3,8}>包含序列s2=<{3}{4,5}{8}>。因为{3}⊆{3,7},{4,5}⊆{4,5,8},{8}⊆{3,8}。然而<{3}{8}>和<{3,8}>并不相互包含。序列s2的基数为3,长度为4。

6例子

图3 序列模式挖掘过程 7GSP 算法(待续待续。。。。)