关联规则 PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
金融行业企业中,它可以成功预测银行客户需求 电子购物网站设置用户有意要一起购买的捆绑包
MORE…
序列模式的关联分析 用户点击页面的行为分析(研究用户的点击行为流,衡
量页面的体验以及易用性效果:哪些页面是引导用户进入关 键页面的重点页面,以及其引导能力等问题)
c(A B )||{T D |A B T}|| ||{T D |A T}||
支持度s : P(AB)
可信度c : P(B|A)
提升度: P(B|A)/P(B) 称为A条件对于B百度文库件的提升度,如
果该值=1,说明两个条件没有任何关联,如果<1,说明A条 件(或者说A事件的发生)与B事件是相斥的, 一般在数据挖 掘中当提升度大于3时,我们才承认挖掘出的关联规则是 有价值的。
FP-Growth vs. Apriori
Run time(sec.)
100
Data set T25I20D10K
90
D1 FP-grow th runtime
D1 Apriori runtime
80
70
60
50
40
30
20
10
0
0
0.5
1
1.5
2
2.5
3
Support threshold(%)
应用
2.1 基本概念
阈值 最小支持度 – 表示规则中的所有项在事务中出现的频度 最小可信度 - 表示规则中左边的项(集)的出现暗示着右
边的项(集)出现的频度
项集 – 任意项的集合 k-项集 – 包含k个项的项集 频繁 (或大)项集 – 满足最小支持度的项集 强规则:那些满足最小支持度和最小可信度的规则.
2.1 基本概念
交易数据库(D) 交易/事务 (T)
T I
交易标识符(TID) 项集(I)
I {i1,i2,..i.m},
规则 i1 i2
支持度support: D中包含i1和 i2 的事务数与总的事务数的比值
s(A B)|{ | TD| |AD| |B|T}||
可信度 confidence: D中同时包含i1和i2的事务数与包含i1的事务数的比值
关联规则
1.1 一个著名的故 事
1.1 一个简单的例子
如果将同程的所有产品设为一个集合,那么每个产品均 为一个二元的分类变量(取值为真/假),用以描述相应 商品是否被某用户(某一个用户在某一天)购买。因此, 每个用户的购物袋就可以用一个布尔向量来表示。
下表是4个的商品(item1~item4)的7次购买数据, 分别用basket1~basket7表示
P(B|A)/P(B)=100%/(6/7)=100%/85.71%=1.667
关联是指一件事情与另外一件事 情之间的依赖关系
关联规则就是有关联的规则,形式是这样定义 的:两个不相交的非空集合X、Y,如果有 X→Y,就说X→Y是一条关联规则。
Item4→item3
大家有疑问的,可以询问和交流
可以互相讨论下,但要小声点
2. 2 挖掘过程
第一阶段 找出所有频繁项集 (Large Itemsets) 第二阶段 由频繁项集产生强关联规则(Association Rules )
3. 1 相关算法
Apriori算法 基于划分的算法 FP-Grow算法
3.2 Apriori算法
思想:
首先,找出频繁1-项集,以L1表示.L1用来寻找L2,即频繁2-项集 的集合.L2用来寻找L3,以此类推,直至没有新的频繁k-项 集被发现.每个Lk都要求对数据库作一次完全扫描.
Apriori算法
候选项集生成的示例 L3={ abc, abd, acd, ace, bcd } 自连接: L3*L3 由abc 和abd 连接得到abcd 由acd 和ace 连接得到acde 剪枝: 因为ade 不在L3中acde 被剪除
Apriori算法
挑战: 多次扫描事务数据库 巨大数量的候选项集 繁重的计算候选项集的支持度工作 改进 Apriori: 大体的思路 减少事务数据库的扫描次数 缩减候选项集的数量 使候选项集的支持度计算更加方便
先验性质:
如果一个集合是频繁项集,则它的所有子集都是频繁项集
如果一个集合不是频繁项集,则它的所有超集都不是频繁 项集
Apriori算法 -----示例
Database TDB C1
L1
1st scan
C2
C2
L2
2nd scan
C3
3rd scan L3
15
频繁3项集{B, C, E}
非空子集:{B,C}、{B,E}、{C,E}、{B}、{C}、{E}
需要了解用户的购物模式,分析哪些商品 是被一起购买的???
用户在购买item4时100%也会购买item3
P(B|A)=4/4=100%
用户同时购买item3和item4的概率为57.14%
P(AB)=4/7=57.14%
用户购买item3的概率是85.71%,若用户购买 了item4后为其推荐item3,其购买item3的概 率为100%,可见购买item3的概率提高了 1.667
MORE…
序列模式的关联分析 用户点击页面的行为分析(研究用户的点击行为流,衡
量页面的体验以及易用性效果:哪些页面是引导用户进入关 键页面的重点页面,以及其引导能力等问题)
c(A B )||{T D |A B T}|| ||{T D |A T}||
支持度s : P(AB)
可信度c : P(B|A)
提升度: P(B|A)/P(B) 称为A条件对于B百度文库件的提升度,如
果该值=1,说明两个条件没有任何关联,如果<1,说明A条 件(或者说A事件的发生)与B事件是相斥的, 一般在数据挖 掘中当提升度大于3时,我们才承认挖掘出的关联规则是 有价值的。
FP-Growth vs. Apriori
Run time(sec.)
100
Data set T25I20D10K
90
D1 FP-grow th runtime
D1 Apriori runtime
80
70
60
50
40
30
20
10
0
0
0.5
1
1.5
2
2.5
3
Support threshold(%)
应用
2.1 基本概念
阈值 最小支持度 – 表示规则中的所有项在事务中出现的频度 最小可信度 - 表示规则中左边的项(集)的出现暗示着右
边的项(集)出现的频度
项集 – 任意项的集合 k-项集 – 包含k个项的项集 频繁 (或大)项集 – 满足最小支持度的项集 强规则:那些满足最小支持度和最小可信度的规则.
2.1 基本概念
交易数据库(D) 交易/事务 (T)
T I
交易标识符(TID) 项集(I)
I {i1,i2,..i.m},
规则 i1 i2
支持度support: D中包含i1和 i2 的事务数与总的事务数的比值
s(A B)|{ | TD| |AD| |B|T}||
可信度 confidence: D中同时包含i1和i2的事务数与包含i1的事务数的比值
关联规则
1.1 一个著名的故 事
1.1 一个简单的例子
如果将同程的所有产品设为一个集合,那么每个产品均 为一个二元的分类变量(取值为真/假),用以描述相应 商品是否被某用户(某一个用户在某一天)购买。因此, 每个用户的购物袋就可以用一个布尔向量来表示。
下表是4个的商品(item1~item4)的7次购买数据, 分别用basket1~basket7表示
P(B|A)/P(B)=100%/(6/7)=100%/85.71%=1.667
关联是指一件事情与另外一件事 情之间的依赖关系
关联规则就是有关联的规则,形式是这样定义 的:两个不相交的非空集合X、Y,如果有 X→Y,就说X→Y是一条关联规则。
Item4→item3
大家有疑问的,可以询问和交流
可以互相讨论下,但要小声点
2. 2 挖掘过程
第一阶段 找出所有频繁项集 (Large Itemsets) 第二阶段 由频繁项集产生强关联规则(Association Rules )
3. 1 相关算法
Apriori算法 基于划分的算法 FP-Grow算法
3.2 Apriori算法
思想:
首先,找出频繁1-项集,以L1表示.L1用来寻找L2,即频繁2-项集 的集合.L2用来寻找L3,以此类推,直至没有新的频繁k-项 集被发现.每个Lk都要求对数据库作一次完全扫描.
Apriori算法
候选项集生成的示例 L3={ abc, abd, acd, ace, bcd } 自连接: L3*L3 由abc 和abd 连接得到abcd 由acd 和ace 连接得到acde 剪枝: 因为ade 不在L3中acde 被剪除
Apriori算法
挑战: 多次扫描事务数据库 巨大数量的候选项集 繁重的计算候选项集的支持度工作 改进 Apriori: 大体的思路 减少事务数据库的扫描次数 缩减候选项集的数量 使候选项集的支持度计算更加方便
先验性质:
如果一个集合是频繁项集,则它的所有子集都是频繁项集
如果一个集合不是频繁项集,则它的所有超集都不是频繁 项集
Apriori算法 -----示例
Database TDB C1
L1
1st scan
C2
C2
L2
2nd scan
C3
3rd scan L3
15
频繁3项集{B, C, E}
非空子集:{B,C}、{B,E}、{C,E}、{B}、{C}、{E}
需要了解用户的购物模式,分析哪些商品 是被一起购买的???
用户在购买item4时100%也会购买item3
P(B|A)=4/4=100%
用户同时购买item3和item4的概率为57.14%
P(AB)=4/7=57.14%
用户购买item3的概率是85.71%,若用户购买 了item4后为其推荐item3,其购买item3的概 率为100%,可见购买item3的概率提高了 1.667