【数据挖掘】5 数据挖掘关联规则

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 支持度, s, 事务包含 XY 的概 率
• 置信度, c, 事务含 X 也包含 Y 的 条件概率.
顾客购买
尿布
令supmin = 50%, confmin = 50% Freq. Pat.: {A:3, B:3, D:4, E:3, AD:3}
顾客购买 啤酒
关联规则Association rules:
B
Lettuce, Spinach, Oranges, Celery, Apples,
Grapes
C
Chips, Salsa, Frozen Pizza, Frozen Cake
D
Lettuce, Spinach, Milk, Butter, Chips
I是什么? 事务ID B的T是什么? s(Chips=>Salsa) 是什么? c(Chips=>Salsa)是什么?
基本概念
• 项集 • 事务
I {i1, i2 ,..., im}
T I
Transactionid 10
20
30
• 关联规则
A B
40
• 事务数据集 (例如A右图I) , B I , A B
D
• 事务标识 TID: 每一个事务关联着一个标识
Items bought
A, B, C A, C A, D
• 包含项集的事务数
度量有趣的关联规则
• 可信度 c
• D中同时包含A和B的事务数与只包含A的事务数的比值
c( A B) || {T D | A B T}|| || {T D | A T}||
规则 AB 在数据集D中的可信度为c, 其中c表示D中包含A的事务中也包 含B的百分率.即可用条件概率P(B|A)表示.
A D (60%, 100%) D A (60%, 75%)
13 挖掘关联规则—一个例子
Transaction-id Items bought
10
A, B, C
最小支持度 50% 最小置信度 50%
20
A, C
30
A, D
40
B, E, F
Frequent pattern {A} {B}
{C}
则。
15
第5章:挖掘关联规则
• 关联规则挖掘 • 事务数据库中(单维布尔)关联规则挖掘的可伸缩算法 • 挖掘各种关联/相关规则 • 关联规则的评估 • 基于限制的关联挖掘 • 小结
16
• Apriori算法命名源于算法使用了频繁项集性质的先验 (Prior)知识。
• Apriori算法将发现关联规则的过程分为两个步骤:
{A, C}
规则 A C:
支持度 = support({A}{C}) = 50% 置信度 = support({A}{C})/support({A}) = 66.6%
Support 75% 50% 50% 50%
14
• 关联规则就是支持度和信任度分别满足用户 给定阈值的规则。 • • 发现关联规则需要经历如下两个步骤: • 找出所有频繁项集。 • 由频繁项集生成满足最小信任度阈值的规
• 通过迭代,检索出事务数据库中的所有频繁项集,即支持 度不低于用户设定的阈值的项集;
• 利用频繁项集构造出满足用户最小信任度的规则。
• 挖掘或识别出所有频繁项集是该算法的核心,占整个 计算量的大部分。
17
• 为了避免计算所有项集的支持度(实际上频 繁项集只占很少一部分),Apriori算法引入 潜在频繁项集的概念。 • 若潜在频繁k项集的集合记为Ck ,频繁k项集 的集合记为Lk ,m个项目构成的k项集的集合 •为 构成,潜C则mk在三频者繁之项间集满所足遵关循系的L原k 则Ck是“频。繁Cmk项 集的子集必为频繁项集”。
confidence(A B )=P(B|A)
条件概率 P(B|A) 表示A发生的条件下B也发生的概率.
confidence (XY) =P (Y | X) = support _count(XY)/support_count (X)
11
市场购物篮分析
事务 ID 购物篮
A
Chips, Salsa, Cookies, Crackers, Coke, Beer
B, E, F
度量有趣的关联规则
• 支持度s(support )
• D中包含A和 B 的事务数与总的事务数的比值
s( A B) || {T D | A B T}|| || D ||
规则 AB 在数据集D中的支持度为s, 其中s 表示D中包含AB (即 同时包含A和B)的事务的百分率.
• 项集的支持度计数(频率) support_count
控制科学与工程 研究生课程
第五章 挖掘关联规则
2
挖掘关联规则
• 关联规则挖掘 • 事务数据库中(单维布尔)关联规则挖掘的可伸缩算法 • 挖掘各种关联/相关规则 • 基于限制的关联挖掘 • 小结
3Leabharlann Baidu
第5章:挖掘关联规则
• 关联规则挖掘 • 事务数据库中(单维布尔)关联规则挖掘的可伸缩算法 • 挖掘各种关联/相关规则 • 关联规则的评估 • 基于限制的关联挖掘 • 小结
4
5
• 关联规则挖掘
• 首先被Agrawal, Imielinski and Swami在1993年的SIGMOD会 议上提出
• 在事务、关系数据库中的项集和对象中发现频繁模式、关 联规则、相关性或者因果结构
• 频繁模式: 数据库中频繁出现的项集
• 目的: 发现数据中的规律
• 超市数据中的什么产品会一起购买?— 啤酒和尿布 • 在买了一台PC之后下一步会购买? • 哪种DNA对这种药物敏感? • 我们如何自动对Web文档进行分类?
6
• 许多重要数据挖掘任务的基础 • 关联、相关性、因果性 • 序列模式、空间模式、时间模式、多维 • 关联分类、聚类分析
• 更加广泛的用处 • 购物篮分析、交叉销售、直销 • 点击流分析、DNA序列分析等等
7
• IBM公司Almaden研究中心的R.Agrawal首 先提出关联规则模型,并给出求解算法AIS。 随后又出现了SETM和Apriori等算法。其中, Apriori是关联规则模型中的经典算法。 • 给定一组事务 • 产生所有的关联规则 • 满足最小支持度和最小可信度
12
频繁模式和关联规则
Transaction-id 10 20 30 40 50
顾客购 买二者
Items bought A, B, D A, C, D A, D, E B, E, F
B, C, D, E, F
• Itemset X={x1, …, xk} • 找出满足最小支持度和置信度的所规
则 XY
相关文档
最新文档