关联规则概念.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Apriori的性质: 任何频繁项集的所有非空子集都必须也是频繁的
例:如果{啤酒,尿布,坚果}是一个频繁的, 则其子集{啤酒,尿布}、{啤酒,坚果}、 {尿布,坚果}都是频繁的。
12
二、Apriori算法及举例
1.连接步:为找LK,通过LK-1与自己连接产生 候选K-项集的集合。该候选K-项集的集合记为 CK,CK中包含2K个可能的项集。从LK-1中取出 f1和f2,fj[j]表示fj的第j项。如果两者的前(k-2) 个项相同(如果f1[1]=f2[1]∧f1[2]=f2[2]∧…∧f1[k2] =f2[k-2]∧f1[k-1] <f2[k-1],则LK-1的元素f1和f2 是可以连接的),则进行连接f1⊕ f2形成: f1[1] f1 [2]… f1 [k-2] f1 [k-1]f2[k-1]。
9
一、关联规则相关知识
关联规则的挖掘问题,即发现所有的强关联 规则,即发现所有同时满足最小支持度阈值的最 小置信度值的规则。此过程分为两步: 第一步:识别所有的频繁K-项集,并统计其频率; 第二步:由频繁K-项集产生强关联规则。依据搜
索到的频繁K-项集,导出满足给定阈值 条件的关联规则。
10
二、Apriori算法及举例
扫描数据库,确定Ck中每个候选k-项集的计数, 将计数值≥最小支持度计数的所有候选k-项集确定 到Lk中。然而,Ck可能很大,这样所涉及到的计算 量就很大。这时使用Apriori性质:如果一个候选 k-项集的(k-1)-项集不在Lk-1中,则该候选也不 可能是频繁的,从而可以从Ck中删除。
15
二、Apriori算法及举例
13
二、Aprio百度文库i算法及举例
1.连接步:
例: L3={abc, abd, acd, ace, bcd} Self-joining: L3 ⊕ L3
abcd from abc and abd acde from acd and ace
14
二、Apriori算法及举例
2.剪枝步:Ck是Lk的超集,它的成员可以是频繁的, 也可以不是频繁的,但所有的频繁k-项集都包含在 Ck中。
Ai (i∈{1, …,m}),Bj(j∈{1, …,n})是属性-值对。
关联规则X Y解释为“满足X中条件的数据库元组
多半也满足Y中条件”。
7
一、关联规则相关知识
例1:给Electionics公司的关系数据库,一个数据挖 掘系统可能发现如下形式的关联规则
age(X,“20…29”) ∧income(X,“20K…29K”)
关联规则算法--Apriori算法
讲课人:王艳兵
1
关联规则的类型:
1、根据规则处理的值的类型,分为布尔的和量化的。 2、根据规则中数据的维,分为单维和多维的。 3、根据规则涉及的抽象层,分为单层和多层的。 4、根据对关联挖掘的不同扩充,关联挖掘可以
扩充为相关分析和最大频繁模式。
2
关联规则挖掘包括:
TID 项ID的列表
T100 L1,L2,L5
T200 L2,L4
T300 L2,L3
T400 L1,L2,L4
T500 L1,L3
T600 L2,L3
T700 L1,L3
T800 L1,L2, L3,L5
T900 L1,L2,L3
(图1)
17
C1
项集
扫描D, 对每个 候选计数
buys(X,“CD_player”)[support=2%,confidence=60%] 1.其中X是变量,代表顾客。 2.所研究的Electronics顾客2%在20-29岁,年收入 20K-29K,并且在Electronics公司购买CD机 (2%:支持
度,如:support(A B)=p(A∪B)) 。
5
一、关联规则相关知识
Apriori算法是Agrawal等人于 1994年提出的。
该关联规则在分类上属于单维、 单层、布尔关联规则。
6
一、关联规则相关知识
关联分析就是发现关联规则,这些规则展示属性 -值频繁地在给定数据集中一起出现的条件。关联分 析广泛用于购物篮或事务数据分析。
关联规则是形如X Y, 即“A1∧…∧Am B1∧…∧Bn”规则,其中,
2.剪枝步:
例: L3={abc, abd, acd, ace, bcd}
Pruning:
acde is removed because ade is not in L3
C4={abcd}
16
二、Apriori算法及举例
例2:设有一个Electronics的事务数据库(如图1示)。 数据库中有9个事务,即|D|=9。Apriori假定事务 中的项按字典次序存放。我们使用图2解释Apriori算 法寻找D中的频繁项集。
算法的基本思想: 使用一种称作逐层搜索的迭代方法,K-项
集用于探索(K+1)-项集。首先,找出频繁1项集的集合,记为l1。l1用于找频繁2-项集的集 合l2,而l2用于找l3,如此下去,直到不能找到 频繁K-项集LK。找每个LK需要一次数据库扫描。 最后由频繁K-项集可直接产生强关联规则。
11
二、Apriori算法及举例
3.这个年龄和收入组的顾客购买CD机的可能性有60%
( 60%:置信度, support(A B)=p(B|A))。
8
一、关联规则相关知识
几个概念:
1.项集:包含K个项的项集称为K-项集。如集合 {computer,software}是一个2-项集。
2.项集的频率:包含项集的事务数,即项集的出 现频率。如果项集的出现频率≥min_sup(最小支 持度阈值) * (事务集D中事务总数),则该项集满 足最小支持度。如果项集满足最小支持度,则称 它为频繁项集。频繁K-项集的集合通常记作LK。
1、Apriori算法及其改进 2、频繁模式增长(FP-增长) 3、多层关联规则挖掘 4、多维关联规则挖掘 5、基于约束的挖掘
3
Apriori算法
内容:
一、关联规则相关知识 二、Apriori算法及举例 三、Apriori算法的改进
4
一、关联规则相关知识
关联规则挖掘的典型例子--购物 篮分析。
该过程通过发现顾客放入其购物 篮中不同商品之间的联系,分析顾客 的购买习惯。通过了解哪些商品频繁 地被同时购买,这各关联的发现可以 帮助零售商制定营销策略。
例:如果{啤酒,尿布,坚果}是一个频繁的, 则其子集{啤酒,尿布}、{啤酒,坚果}、 {尿布,坚果}都是频繁的。
12
二、Apriori算法及举例
1.连接步:为找LK,通过LK-1与自己连接产生 候选K-项集的集合。该候选K-项集的集合记为 CK,CK中包含2K个可能的项集。从LK-1中取出 f1和f2,fj[j]表示fj的第j项。如果两者的前(k-2) 个项相同(如果f1[1]=f2[1]∧f1[2]=f2[2]∧…∧f1[k2] =f2[k-2]∧f1[k-1] <f2[k-1],则LK-1的元素f1和f2 是可以连接的),则进行连接f1⊕ f2形成: f1[1] f1 [2]… f1 [k-2] f1 [k-1]f2[k-1]。
9
一、关联规则相关知识
关联规则的挖掘问题,即发现所有的强关联 规则,即发现所有同时满足最小支持度阈值的最 小置信度值的规则。此过程分为两步: 第一步:识别所有的频繁K-项集,并统计其频率; 第二步:由频繁K-项集产生强关联规则。依据搜
索到的频繁K-项集,导出满足给定阈值 条件的关联规则。
10
二、Apriori算法及举例
扫描数据库,确定Ck中每个候选k-项集的计数, 将计数值≥最小支持度计数的所有候选k-项集确定 到Lk中。然而,Ck可能很大,这样所涉及到的计算 量就很大。这时使用Apriori性质:如果一个候选 k-项集的(k-1)-项集不在Lk-1中,则该候选也不 可能是频繁的,从而可以从Ck中删除。
15
二、Apriori算法及举例
13
二、Aprio百度文库i算法及举例
1.连接步:
例: L3={abc, abd, acd, ace, bcd} Self-joining: L3 ⊕ L3
abcd from abc and abd acde from acd and ace
14
二、Apriori算法及举例
2.剪枝步:Ck是Lk的超集,它的成员可以是频繁的, 也可以不是频繁的,但所有的频繁k-项集都包含在 Ck中。
Ai (i∈{1, …,m}),Bj(j∈{1, …,n})是属性-值对。
关联规则X Y解释为“满足X中条件的数据库元组
多半也满足Y中条件”。
7
一、关联规则相关知识
例1:给Electionics公司的关系数据库,一个数据挖 掘系统可能发现如下形式的关联规则
age(X,“20…29”) ∧income(X,“20K…29K”)
关联规则算法--Apriori算法
讲课人:王艳兵
1
关联规则的类型:
1、根据规则处理的值的类型,分为布尔的和量化的。 2、根据规则中数据的维,分为单维和多维的。 3、根据规则涉及的抽象层,分为单层和多层的。 4、根据对关联挖掘的不同扩充,关联挖掘可以
扩充为相关分析和最大频繁模式。
2
关联规则挖掘包括:
TID 项ID的列表
T100 L1,L2,L5
T200 L2,L4
T300 L2,L3
T400 L1,L2,L4
T500 L1,L3
T600 L2,L3
T700 L1,L3
T800 L1,L2, L3,L5
T900 L1,L2,L3
(图1)
17
C1
项集
扫描D, 对每个 候选计数
buys(X,“CD_player”)[support=2%,confidence=60%] 1.其中X是变量,代表顾客。 2.所研究的Electronics顾客2%在20-29岁,年收入 20K-29K,并且在Electronics公司购买CD机 (2%:支持
度,如:support(A B)=p(A∪B)) 。
5
一、关联规则相关知识
Apriori算法是Agrawal等人于 1994年提出的。
该关联规则在分类上属于单维、 单层、布尔关联规则。
6
一、关联规则相关知识
关联分析就是发现关联规则,这些规则展示属性 -值频繁地在给定数据集中一起出现的条件。关联分 析广泛用于购物篮或事务数据分析。
关联规则是形如X Y, 即“A1∧…∧Am B1∧…∧Bn”规则,其中,
2.剪枝步:
例: L3={abc, abd, acd, ace, bcd}
Pruning:
acde is removed because ade is not in L3
C4={abcd}
16
二、Apriori算法及举例
例2:设有一个Electronics的事务数据库(如图1示)。 数据库中有9个事务,即|D|=9。Apriori假定事务 中的项按字典次序存放。我们使用图2解释Apriori算 法寻找D中的频繁项集。
算法的基本思想: 使用一种称作逐层搜索的迭代方法,K-项
集用于探索(K+1)-项集。首先,找出频繁1项集的集合,记为l1。l1用于找频繁2-项集的集 合l2,而l2用于找l3,如此下去,直到不能找到 频繁K-项集LK。找每个LK需要一次数据库扫描。 最后由频繁K-项集可直接产生强关联规则。
11
二、Apriori算法及举例
3.这个年龄和收入组的顾客购买CD机的可能性有60%
( 60%:置信度, support(A B)=p(B|A))。
8
一、关联规则相关知识
几个概念:
1.项集:包含K个项的项集称为K-项集。如集合 {computer,software}是一个2-项集。
2.项集的频率:包含项集的事务数,即项集的出 现频率。如果项集的出现频率≥min_sup(最小支 持度阈值) * (事务集D中事务总数),则该项集满 足最小支持度。如果项集满足最小支持度,则称 它为频繁项集。频繁K-项集的集合通常记作LK。
1、Apriori算法及其改进 2、频繁模式增长(FP-增长) 3、多层关联规则挖掘 4、多维关联规则挖掘 5、基于约束的挖掘
3
Apriori算法
内容:
一、关联规则相关知识 二、Apriori算法及举例 三、Apriori算法的改进
4
一、关联规则相关知识
关联规则挖掘的典型例子--购物 篮分析。
该过程通过发现顾客放入其购物 篮中不同商品之间的联系,分析顾客 的购买习惯。通过了解哪些商品频繁 地被同时购买,这各关联的发现可以 帮助零售商制定营销策略。