关联规则挖掘理论.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
基于散列的方法
1995,Park等发现寻找频繁项目集的主要计算是 在生成2-频繁项目集上。因此,Park等利用了这个 性质引入杂凑技术来改进产生2-频繁项目集的方 法。
10
第三章 关联规则挖掘理论和算法
基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法 对项目集格空间理论的发展 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法
11
探索新的理论
随着数据库容量的增大,重复访问数据库(外存) 将导致性能低下。因此,探索新的理论和算法来 减少数据库的扫描次数和侯选集空间占用,已经 成为近年来关联规则挖掘研究的热点之一。
两个典型的方法:
Close算法 FP-tree算法
12
第三章 关联规则挖掘理论和算法
基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法 对项目集格空间理论的发展 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法
关联规则挖掘是数据挖掘的其他研究分支的基础。
2
事务数据库
设I={ i1,i2,…,im }是一个项目集合,事务数据 库D={ t1,t2,…,tn }是由一系列具有唯一标识 TID的事务组成,每个事务ti(i=1,2,…,n)都 对应I上的一个子集。
一个事务数据库可以用来刻画:
购物记录: I是全部物品集合, D是购物清单,每个元 组ti是一次购买物品的集合(它当然是I的一个子集)。
16
第三章 关联规则挖掘理论和算法
基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法 对项目集格空间理论的发展 基于项目序列集操作的关联规则挖掘算法 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法
17
数量关联规则挖掘方法
数量关联规则是指同时包含分类属性和数量属性 的关联规则。对数量关联规则挖掘的研究只要基 于两条技术路线: 一是通过对相对比较成熟的布尔关联规则算法的 改进来解决数量关联规则问题; 二是用一种新的全新的思路和算法来解决数量关 联规则挖掘问题。
不同层次使用不同的最小支持度:每个层次都有自己的最小支持度。较低 层次的最小支持度相对较小,而较高层次的最小支持度相对较大。这种方 法增加了挖掘的灵活性。但是,也留下了许多相关问题需要解决: 首先,不同层次间的支持度应该有所关联,只有正确地刻画这种联系 或找到转换方法,才能使生成的关联规则相对客观。 其次,由于具有不同的支持度,层间的关联规则挖掘也是必须解决的 问题。例如,有人提出层间关联规则应该根据较低层次的最小支持度 来定。
层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层 间关联规则。
多层次关联规则挖掘的度量方法可以沿用 “支持度-可信度”的框架。 不过,多层次关联规则挖掘有两种基本的设置支持度的策略:
统一的最小支持度:算法实现容易,而且很容易支持层间的关联规则生成。 但是弊端也是显然的: 不同层次可能考虑问题的精度不同、面向的用户群不同。 对于一些用户,可能觉得支持度太小,产生了过多不感兴趣的规则。 而对于另外的用户来说,又认为支持度太大,有用信息丢失过多。
其中I1,I2I,I1∩I2=Ф。
定义(强关联规则). D在I上满足最小支持度和最 小信任度(Minconfidence)的关联规则称为强关 联规则(Strong Association Rule)。
5
关联规则挖掘基本过程
关联规则挖掘问题可以划分成两个子问题:
1. 发现频繁项目集:通过用户给定Minsupport ,寻找所 有频繁项目集或者最大频繁项目集。
目前讨论比较多的和相对成熟的方法是基于第一 种技术的。
18
2.生成关联规则:通过用户给定Minconfidence ,在频 繁项目集中,寻找关联规则。
第1个子问题是近年来关联规则挖掘算法研究的重 点。
6
第三章 关联规则挖掘理论和算法
基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法 对项目集格空间理论的发展 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法
三 关联规则挖掘理论
基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法 对项目集格空间理论的发展 关联规则挖掘中的一些更深入的问ቤተ መጻሕፍቲ ባይዱ 数量关联规则挖掘方法
1
关联规则挖掘是数据挖掘研究的基础
关联规则挖掘(Association Rule Mining)是数据挖掘中研究较早而且 至今仍活跃的研究方法之一。
基于散列(Hash)的方法:基本原理是“在一个hash桶内支持度 小于最小支持度的k-项集不可能是全局频繁的”。
基于采样(Sampling)的方法:基本原理是“通过采样技术,评 估被采样的子集中,并依次来估计k-项集的全局频度”。
其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来 的扫描结果不会产生影响,因而可以删除”。
其它应用问题
3
支持度与频繁项目集
定义(项目集的支持度). 给定一个全局项目集I和数据库 D,一个项目集I1I在D上的支持度(Support)是包含I1的 事务在D中所占的百分比:support( I1 )=|| {t D | I1 t}|| / || D||。
定义(频繁项目集).给定全局项目集I和数据库D ,D中所 有满足用户指定的最小支持度(Minsupport)的项目集, 即大于或等于minsupport的I的非空子集,称为频繁项目集 (频集:Frequent Itemsets)或者大项目集(Large Iitemsets)。在频繁项目集中挑选出所有不被其他元素包 含的频繁项目集称为最大频繁项目集(最大频集: Maximum Frequent Itemsets)或最大大项目集 (Maximum Large Iitemsets)。
4
可信度与关联规则
定义(关联规则与可信度).给定一个全局项目集I 和数据库D,一个定义在I和D上的关联规则形如 I1I2,并且它的可信度或信任度或置信度 (Confidence)是指包含I1和I2的事务数与包含I1的 事务数之比,即
Confidence(I1I2)= support(I1∪I2)/ support(I1),
最早是由Agrawal等人提出的(1993)。最初提出的动机是针对购物 篮分析(Basket Analysis)问题提出的,其目的是为了发现交易数据库 (Transaction Database)中不同商品之间的联系规则。
关联规则的挖掘工作成果颇丰。例如,关联规则的挖掘理论、算法设 计、算法的性能以及应用推广、并行关联规则挖掘(Parallel Association Rule Mining)以及数量关联规则挖掘(Quantitive Association Rule Mining)等。
15
多维关联规则挖掘
多维关联规则可以有:
维内的关联规则:例如,“年龄(X,20~30)^职业(X, 学生)=>购买(X,笔记本电脑)”。这里我们就涉及 到三个维:年龄、职业、购买。
混合维关联规则:这类规则允许同一个维重复出现。例 如,“年龄(X,20~30)^购买(X,笔记本电脑) => 购买(X,打印机)”。由于同一个维“购买”在规则 中重复出现,因此为挖掘带来难度。但是,这类规则更 具有普遍性,具有更好的应用价值,因此近年来得到普 遍关注。
13
第三章 关联规则挖掘理论和算法
基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法 对项目集格空间理论的发展 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法
14
多层次关联规则挖掘
根据规则中涉及到的层次,多层次关联规则可以分为:
同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,那么它 是同层关联规则。
1.多次扫描事务数据库,需要很大的I/O负载 2.可能产生庞大的侯选集
8
频繁项目集生成算法分析
一些算法虽然仍然遵循Apriori 属性,但是由于引入了相关 技术,在一定程度上改善了Apriori算法适应性和效率。
主要的改进方法有:
基于数据分割(Partition)的方法:基本原理是“在一个划分中 的支持度小于最小支持度的k-项集不可能是全局频繁的”。
7
频繁项目集生成算法分析 Agrawal等人建立了用于事务数据库挖掘 的项目集格空间理论(1993, Appriori 属 性)。
1994年,Agrawal 等人提出了著名的Apriori 算 法。(发现频繁项目集) Apriori作为经典的频繁项目集生成算法,在数 据挖掘中具有里程碑的作用。 Apriori算法有两个致命的性能瓶颈:
基于散列的方法
1995,Park等发现寻找频繁项目集的主要计算是 在生成2-频繁项目集上。因此,Park等利用了这个 性质引入杂凑技术来改进产生2-频繁项目集的方 法。
10
第三章 关联规则挖掘理论和算法
基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法 对项目集格空间理论的发展 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法
11
探索新的理论
随着数据库容量的增大,重复访问数据库(外存) 将导致性能低下。因此,探索新的理论和算法来 减少数据库的扫描次数和侯选集空间占用,已经 成为近年来关联规则挖掘研究的热点之一。
两个典型的方法:
Close算法 FP-tree算法
12
第三章 关联规则挖掘理论和算法
基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法 对项目集格空间理论的发展 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法
关联规则挖掘是数据挖掘的其他研究分支的基础。
2
事务数据库
设I={ i1,i2,…,im }是一个项目集合,事务数据 库D={ t1,t2,…,tn }是由一系列具有唯一标识 TID的事务组成,每个事务ti(i=1,2,…,n)都 对应I上的一个子集。
一个事务数据库可以用来刻画:
购物记录: I是全部物品集合, D是购物清单,每个元 组ti是一次购买物品的集合(它当然是I的一个子集)。
16
第三章 关联规则挖掘理论和算法
基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法 对项目集格空间理论的发展 基于项目序列集操作的关联规则挖掘算法 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法
17
数量关联规则挖掘方法
数量关联规则是指同时包含分类属性和数量属性 的关联规则。对数量关联规则挖掘的研究只要基 于两条技术路线: 一是通过对相对比较成熟的布尔关联规则算法的 改进来解决数量关联规则问题; 二是用一种新的全新的思路和算法来解决数量关 联规则挖掘问题。
不同层次使用不同的最小支持度:每个层次都有自己的最小支持度。较低 层次的最小支持度相对较小,而较高层次的最小支持度相对较大。这种方 法增加了挖掘的灵活性。但是,也留下了许多相关问题需要解决: 首先,不同层次间的支持度应该有所关联,只有正确地刻画这种联系 或找到转换方法,才能使生成的关联规则相对客观。 其次,由于具有不同的支持度,层间的关联规则挖掘也是必须解决的 问题。例如,有人提出层间关联规则应该根据较低层次的最小支持度 来定。
层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层 间关联规则。
多层次关联规则挖掘的度量方法可以沿用 “支持度-可信度”的框架。 不过,多层次关联规则挖掘有两种基本的设置支持度的策略:
统一的最小支持度:算法实现容易,而且很容易支持层间的关联规则生成。 但是弊端也是显然的: 不同层次可能考虑问题的精度不同、面向的用户群不同。 对于一些用户,可能觉得支持度太小,产生了过多不感兴趣的规则。 而对于另外的用户来说,又认为支持度太大,有用信息丢失过多。
其中I1,I2I,I1∩I2=Ф。
定义(强关联规则). D在I上满足最小支持度和最 小信任度(Minconfidence)的关联规则称为强关 联规则(Strong Association Rule)。
5
关联规则挖掘基本过程
关联规则挖掘问题可以划分成两个子问题:
1. 发现频繁项目集:通过用户给定Minsupport ,寻找所 有频繁项目集或者最大频繁项目集。
目前讨论比较多的和相对成熟的方法是基于第一 种技术的。
18
2.生成关联规则:通过用户给定Minconfidence ,在频 繁项目集中,寻找关联规则。
第1个子问题是近年来关联规则挖掘算法研究的重 点。
6
第三章 关联规则挖掘理论和算法
基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法 对项目集格空间理论的发展 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法
三 关联规则挖掘理论
基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法 对项目集格空间理论的发展 关联规则挖掘中的一些更深入的问ቤተ መጻሕፍቲ ባይዱ 数量关联规则挖掘方法
1
关联规则挖掘是数据挖掘研究的基础
关联规则挖掘(Association Rule Mining)是数据挖掘中研究较早而且 至今仍活跃的研究方法之一。
基于散列(Hash)的方法:基本原理是“在一个hash桶内支持度 小于最小支持度的k-项集不可能是全局频繁的”。
基于采样(Sampling)的方法:基本原理是“通过采样技术,评 估被采样的子集中,并依次来估计k-项集的全局频度”。
其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来 的扫描结果不会产生影响,因而可以删除”。
其它应用问题
3
支持度与频繁项目集
定义(项目集的支持度). 给定一个全局项目集I和数据库 D,一个项目集I1I在D上的支持度(Support)是包含I1的 事务在D中所占的百分比:support( I1 )=|| {t D | I1 t}|| / || D||。
定义(频繁项目集).给定全局项目集I和数据库D ,D中所 有满足用户指定的最小支持度(Minsupport)的项目集, 即大于或等于minsupport的I的非空子集,称为频繁项目集 (频集:Frequent Itemsets)或者大项目集(Large Iitemsets)。在频繁项目集中挑选出所有不被其他元素包 含的频繁项目集称为最大频繁项目集(最大频集: Maximum Frequent Itemsets)或最大大项目集 (Maximum Large Iitemsets)。
4
可信度与关联规则
定义(关联规则与可信度).给定一个全局项目集I 和数据库D,一个定义在I和D上的关联规则形如 I1I2,并且它的可信度或信任度或置信度 (Confidence)是指包含I1和I2的事务数与包含I1的 事务数之比,即
Confidence(I1I2)= support(I1∪I2)/ support(I1),
最早是由Agrawal等人提出的(1993)。最初提出的动机是针对购物 篮分析(Basket Analysis)问题提出的,其目的是为了发现交易数据库 (Transaction Database)中不同商品之间的联系规则。
关联规则的挖掘工作成果颇丰。例如,关联规则的挖掘理论、算法设 计、算法的性能以及应用推广、并行关联规则挖掘(Parallel Association Rule Mining)以及数量关联规则挖掘(Quantitive Association Rule Mining)等。
15
多维关联规则挖掘
多维关联规则可以有:
维内的关联规则:例如,“年龄(X,20~30)^职业(X, 学生)=>购买(X,笔记本电脑)”。这里我们就涉及 到三个维:年龄、职业、购买。
混合维关联规则:这类规则允许同一个维重复出现。例 如,“年龄(X,20~30)^购买(X,笔记本电脑) => 购买(X,打印机)”。由于同一个维“购买”在规则 中重复出现,因此为挖掘带来难度。但是,这类规则更 具有普遍性,具有更好的应用价值,因此近年来得到普 遍关注。
13
第三章 关联规则挖掘理论和算法
基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法 对项目集格空间理论的发展 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法
14
多层次关联规则挖掘
根据规则中涉及到的层次,多层次关联规则可以分为:
同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,那么它 是同层关联规则。
1.多次扫描事务数据库,需要很大的I/O负载 2.可能产生庞大的侯选集
8
频繁项目集生成算法分析
一些算法虽然仍然遵循Apriori 属性,但是由于引入了相关 技术,在一定程度上改善了Apriori算法适应性和效率。
主要的改进方法有:
基于数据分割(Partition)的方法:基本原理是“在一个划分中 的支持度小于最小支持度的k-项集不可能是全局频繁的”。
7
频繁项目集生成算法分析 Agrawal等人建立了用于事务数据库挖掘 的项目集格空间理论(1993, Appriori 属 性)。
1994年,Agrawal 等人提出了著名的Apriori 算 法。(发现频繁项目集) Apriori作为经典的频繁项目集生成算法,在数 据挖掘中具有里程碑的作用。 Apriori算法有两个致命的性能瓶颈: