数据挖掘の基本关联分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
Bread, Milk, Diaper, Beer
5
Bread, Milk, Diaper, Coke
关联规则的例子
{Diaper} {Beer}, {Milk, Bread} {Eggs,Coke}, {Beer, Bread} {Milk},
蕴含符号“”表示共现关系,而 不是因果关系
数据挖掘导论
数据挖掘导论
主讲:杜剑峰
4/18/2010
‹#›
关联规则挖掘任务
给定一个事务集合T,关联规则挖掘的目标是寻找 所有满足下面条件的规则
– 支持度 ≥ minsup – 置信度 ≥ minconf
Brute-force(蛮力)方法:
– 列出所有可能的关联规则 – 计算每条规则的支持度和置信度 – 删除支持度不足minsup或置信度不足minconf的规则
3
Milk, Diaper, Beer, Coke
4
Bread, Milk, Diaper, Beer
5
Bread, Milk, Diaper, Coke
4/18/2010
‹#›
定义: 关联规则
关联规则
– 形式为 X Y 的蕴含表达式, 其中X 和Y是项集
– 例子: {Milk, Diaper} {Beer}
4
Bread, Milk, Diaper, Beer
5
Bread, Milk, Diaper, Coke
规则的例子:
{Milk,Diaper} {Beer} (s=0.4, c=0.67) {Milk,Beer} {Diaper} (s=0.4, c=1.0) {Diaper,Beer} {Milk} (s=0.4, c=0.67) {Beer} {Milk,Diaper} (s=0.4, c=0.67) {Diaper} {Milk,Beer} (s=0.4, c=0.5) {Milk} {Diaper,Beer} (s=0.4, c=0.5)
3. 规则产生 4. 关联模式的评估
数据挖掘导论
主讲:杜剑峰
4/18/2010
‹#›
频繁项集的产生
null
A
B
C
D
E
AB
AC
AD
AE
BC
BD
BE
CD
CE
DE
ABC
ABD
ABE
ACD
ACE
ADE
BCD
BCE
难点:使用散列树(Hash Tree)的支持度计算方法
数据挖掘导论
主讲:杜剑峰
4/18/2010
1
第6章:关联分析 — 基本概念和算法
1. 关联分析的预备知识 2. 频繁项集的产生
频繁项集产生的优化策略 计算复杂度的影响因素 频繁项集的紧凑表示 产生频繁项集的其他方法
3. 规则产生 4. 关联模式的评估
第6章:关联分析 — 基本概念和算法
1. 关联分析的预备知识 2. 频繁项集产生 3. 规则产生 4. 关联模式的评估
目的:介绍关联分析的基本概念、关联规则挖掘的基本 方法,以及关联模式评估的度量
要求:掌握关联规则挖掘的Apriori算法,了解关联规则 挖掘的其他方法,熟悉关联模式评估的典型度量
重点:用于频繁项集产生和规则产生的Apriori算法
主讲:杜剑峰
4/18/2010
‹#›
定义: 频繁项集
项集
– 一个或多个项的集合
例子: {Milk, Bread, Diaper}
– k-项集
包含k个项的项集
支持度计数 (support count)
– 给定项集的出现次数 – 比如 ({Milk, Bread,Diaper}) = 2
支持度 (support)
– 覆盖给定项集的事务数占所有事务数的 比例
– 比如 s({Milk, Bread, Diaper}) = 2/5 = 40%
频繁项集
– 支持度大于等于给定阈值 minsup 的项 集
数据挖掘导论
主讲:杜剑峰
TID Items
1
Bread, Milk
2
Bread, Diaper, Beer, Eggs
代价极高! 因为从包含d个项的数据集提取的可能规则 的总数是R=3d-2d+1+1,比如d=6则R=602
数据挖掘导论
主讲:杜剑峰
源自文库
4/18/2010
‹#›
挖掘关联规则
TID Items
1
Bread, Milk
2
Bread, Diaper, Beer, Eggs
3
Milk, Diaper, Beer, Coke
规则评估度量
– 支持度 (s) s(XY) = (X∪Y) / |T|
包含X和Y的事务个数占所有事 务个数的比例
– 置信度 (c) c(XY) = (X∪Y) / (X)
在包含X的事务集合中,包含Y 的事务个数占事务总数的比例
TID Items
1
Bread, Milk
2
Bread, Diaper, Beer, Eggs
观察结果:
• 上面所有的规则都是同一个项集的二分: {Milk, Diaper, Beer} • 由同一个项集得到的规则具有相同的支持度和不同的置信度 • 因此,我们可以将支持度和置信度分开处理
数据挖掘导论
主讲:杜剑峰
4/18/2010
‹#›
挖掘关联规则
两步方法: 1. 频繁项集的产生
– 产生 支持度minsup 的所有项集
3
Milk, Diaper, Beer, Coke
4
Bread, Milk, Diaper, Beer
5
Bread, Milk, Diaper, Coke
例子: {Milk , Diaper} Beer
s ({Milk , Diaper, Beer}) 2 40%
|T|
5
c ({Milk, Diaper, Beer}) 2 67% ({Milk , Diaper}) 3
数据挖掘导论
主讲:杜剑峰
4/18/2010
‹#›
关联分析
给定一组事务,寻找预测 “某些项将会随其他项 的出现而出现” 的规则
– 挖掘关联规则
购物篮事务数据库
TID Items
1
Bread, Milk
2
Bread, Diaper, Beer, Eggs
3
Milk, Diaper, Beer, Coke
2. 规则的产生
– 由每个频繁项集产生 置信度minconf 的规则,其中每 个规则都是该频繁项集的二分
数据挖掘导论
主讲:杜剑峰
4/18/2010
‹#›
第6章:关联分析 — 基本概念和算法
1. 关联分析的预备知识 2. 频繁项集的产生
频繁项集产生的优化策略 计算复杂度的影响因素 频繁项集的紧凑表示 产生频繁项集的其他方法