第五章:关联规则方法讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Apriori算法
产生频繁项集
约定
• Ck:第k次迭代产生的候选项集为候选k 项集
• Lk:第k次迭代产生的频繁项集为频繁k 项集
北方工业大学信息工程学院
Apriori算法
北方工业大学信息工程学院
Apriori算法
产生频繁项集
1. 求频繁1项集L1
以项目集合I作为候选1项集C1,扫描数 据库1次,统计各个项目的出现次数, 根据设定的最小支持度得出频繁1项集 L1
北方工业大学信息工程学院
Apriori算法
ຫໍສະໝຸດ Baidu概述
Apriori性质:频繁项集的所有非空子 集也都必须是频繁的 这是频繁项集的先验知识 可以减少候选频繁项集的数量
北方工业大学信息工程学院
Apriori算法
概述
Step1:通过迭代,检索出源数据中的 所有频繁项集,即支持度不低于用户 设定阈值的项集 Step2:利用第一步检索出的频繁项集 构造出满足用户最小置信度的规则
置信度大于用户指定的最小置信度值的规则 是可信的
北方工业大学信息工程学院
关联规则的概念和分类
关联规则的概念
关联规则挖掘的任务:找到事务数据 库D中支持度和置信度分别满足用户指 定的最小支持度min_sup和最小置信度 min_con的规则A=>B
• 找出D中所有的频繁项集 • 从频繁项集中产生关联规则
北方工业大学信息工程学院
关联规则的概念和分类
关联规则的分类
基于规则中处理的变量类别
• 布尔型:离散的,可枚举的,种类化的
– 性别=“男”=>职业=“网络工程师”
• 数值型:原始的数据
– 性别=“男”=>收入=3500
北方工业大学信息工程学院
关联规则的概念和分类
关联规则的分类
基于规则中数据的抽象层次
北方工业大学信息工程学院
Apriori算法
产生频繁项集
算法
① k=1 ② 由(k-1)项集产生候选k-项集 ③ 依据Apriori性质,对候选k-项集进行剪枝 ④ 扫描数据库,统计各个项目的出现次数 ⑤ 依据最小支持度,由候选k-项集中产生频繁k-
项集 ⑥ K=k+1 ⑦ 转②,直到k=n为止
北方工业大学信息工程学院
库中的项目
T:数据库中的事务(transaction) X:项集(itemset),即项目的集合
北方工业大学信息工程学院
关联规则的概念和分类
关联规则的概念
k项集:包含k个项目的集合
支持度s(X): 项集X的支持度,表示数 据库中包含项集X的交易数据的条数 频繁项集:也称为频繁模式,指支持 度大于用户指定的最小支持度的项集 频繁k-项集:长度为k的频繁项集
北方工业大学信息工程学院
Apriori算法
产生频繁项集
2. 求频繁k+1项集Lk+1
对前k-1个项目相同的每两个k频繁模式执行join操作, 得到候选k+1项集Ck+1
北方工业大学信息工程学院
关联规则的概念和分类
关联规则的概念
设项目集合I={i1,i2,…,im}由m个不同的
项目组成,D为事务数据库,D中的每 一个事务T是I的一个子集,即T I 一个项目的集合称为项集 包含k个项目的集合称为k项集 项集X的支持度,记为s(X),表示包含该 项集的交易数据的条数
北方工业大学信息工程学院
• 单层:变量不考虑层次
– 三星数码相机=>三星手机
• 多层:考虑数据的多层性
– 数码相机=>三星手机
北方工业大学信息工程学院
关联规则的概念和分类
关联规则的分类
基于规则中涉及的数据维数
• 单维:只涉及数据的一个维/单个属性
– 啤酒=>尿布
• 多维:处理多个属性之间的关系
– 性别=“男”=>职业=“网络工程师”
北方工业大学信息工程学院
关联规则的概念和分类
关联规则的概念
关联规则:用来发现在同一事件中出 现的不同项的相关性,即找出事务中 频繁发生的项或属性的所有子集,以 及项目之间的相互关联性
北方工业大学信息工程学院
关联规则的概念和分类
关联规则的概念
D:事务数据库 I:项目(item)集合 I={i1,i2,…,im},其中, i1,i2,…,im为数据
北方工业大学信息工程学院
概述
由于实际应用目标的差异,在关联 规则大的理论框架下,有许多面向 应用目标的理论和方法等待探索和 创新
北方工业大学信息工程学院
关联规则的概念和分类
关联规则(association rules)概念 产生于1993年,目的是为了寻找大 量商务数据库中项集之间的有趣联 系 由Agrawal 、Imielinski、Swami提 出
第五章 关联规则方法
李晋宏
北方工业大学信息工程学院
内容
关联规则的概念和分类 Apriori算法 FP-Growth算法 利用SQL Server 2005进行关联规则 挖掘
北方工业大学信息工程学院
概述
数据挖掘中许多常用的传统模式发 现技术,如决策树、分类规则和聚 类技术,都属于机器学习领域的研 究成果 关联规则的出现,极大扩展了数据 挖掘的研究 从大型数据库中挖掘关联规则的问 题已经成为近年来数据挖掘研究领 域中的一个热点
关联规则的概念和分类
关联规则的概念
如果一个项集的支持度大于用户指定 的最小支持度(min_sup),称它是频繁 的 长度为k的频繁项集称为频繁k-项集 关联规则是形如A=>B的蕴涵式,其中 A I,B I,并且A∩B=O
北方工业大学信息工程学院
关联规则的概念和分类
关联规则的概念
规则A=>B的支持度s(A=>B)定义为D 中包含A∪B的事务所占的百分比,表示项 集A∪B在D中出现的概率
| {T: A∪B }|
S(A=>B)=-------------------|D|
北方工业大学信息工程学院
关联规则的概念和分类
关联规则的概念
规则A=>B的置信度c(min_con)定义为 D中包含项集A∪B的事务数和包含项集A
的事务数的比值,表示当项集A出现时,项 集B出现的概率
s(A∪B)
c(A=>B)=-------------------s(A)
北方工业大学信息工程学院
关联规则的概念和分类
关联规则的分类
基于模式与规则之间的相互关系
• 完全频繁模式挖掘 • 最大频繁模式挖掘 • 闭合频繁模式挖掘
挖掘研究基础(一维、单层、布尔)
北方工业大学信息工程学院
Apriori算法
概述
一维单层布尔型关联规则
产生候选项集
不产生候选项集
Apriori算法
FP-Growth