关联规则 PPT
合集下载
关联规则与关联分析PPT课件
= {{A,B,C},{A,C,E},{B,C,E}}
• 2.使用Apriori性质剪枝:频繁项集的所有子集必须是频 繁的,对候选项C3,我们可以删除其子集为非频繁的选项:
– {所A,以B,删C}的除2这项个子选集项是;{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,
–
{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E} 所以删除这个选项;
confidence( A B) P( A | B) sup port _ count( A B) sup port _ count( A)
• 每个关联规则可由如下过程产生:
– 对于每个频繁项集l,产生l的所有非空子集;
– 对于每个非空子集s,如果
则输出规则“
” sup port _ count(l) min_ conf
• 关联规则的两个兴趣度度量
– 支持度 buys ( X , "computer") buys ( X , "software") – 置信度 [sup port 2%, confidence 60%]
第五页,共36页。
• 关联(association):两个或多个变量的取值之间存 在某种规律性。
集c’,使得每个包含c的事务也包含c’)
• (最大的频繁模式和频繁闭项集可以用来减少挖掘中产生的频繁项 集)
第十八页,共36页。
由事务数据库挖掘单维布尔关联规则
• 最简单的关联规则挖掘,即单维、单层、布尔关联
规则的挖掘。
Transaction ID Items Bought
最小支持度 50%
2000 A,B,C
关联规则与关联分析
第一页,共36页。
• 2.使用Apriori性质剪枝:频繁项集的所有子集必须是频 繁的,对候选项C3,我们可以删除其子集为非频繁的选项:
– {所A,以B,删C}的除2这项个子选集项是;{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,
–
{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E} 所以删除这个选项;
confidence( A B) P( A | B) sup port _ count( A B) sup port _ count( A)
• 每个关联规则可由如下过程产生:
– 对于每个频繁项集l,产生l的所有非空子集;
– 对于每个非空子集s,如果
则输出规则“
” sup port _ count(l) min_ conf
• 关联规则的两个兴趣度度量
– 支持度 buys ( X , "computer") buys ( X , "software") – 置信度 [sup port 2%, confidence 60%]
第五页,共36页。
• 关联(association):两个或多个变量的取值之间存 在某种规律性。
集c’,使得每个包含c的事务也包含c’)
• (最大的频繁模式和频繁闭项集可以用来减少挖掘中产生的频繁项 集)
第十八页,共36页。
由事务数据库挖掘单维布尔关联规则
• 最简单的关联规则挖掘,即单维、单层、布尔关联
规则的挖掘。
Transaction ID Items Bought
最小支持度 50%
2000 A,B,C
关联规则与关联分析
第一页,共36页。
02-关联规则概述PPT
大
学
国
中
C
O
M
O
大
学
国
中
C
O
M
O
大
学
国
中
学
学
学
学
学
学
学
学
M
M
M
M
M
M
M
M
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
C
C
C
C
C
C
C
C
关联规则vs相关分析
中
中
中
中
中
中
中
中
国
国
国
国
国
国
国
国
大
大
大
大
大
大
大
大
学
学
学
学
学
学
学
学
M
M
M
M
M
M
M
M
C
O
M
O
大
学
国
中
C
O
M
O
大
学
国
中
C
O
M
O
大
学
O
O
C
M
国
大
学
中
O
O
C
M
国
大
学
中
O
度阈值,则 I 是频繁项集。频繁k项集通常记作 LK
国
O
O
C
M
国
大
学
中
关联规则及相关算法讲解幻灯片
关联规则及相关算法
1
主要内容
?关联规则概述 ?Apriori 算法 ?CARMA 算法 ?序列模式
2
关联规则概述
?数据关联是数据库中存在的一类重要的可被发现的 知识。若两个或多个变量的取值之间存在某种规律 性,就称为 关联。
?关联规则挖掘的一个典型例子是购物篮分析。
?啤酒与尿布的故事
3
啤酒与尿布的故事
?1. 算法组成 ?2. 算法中的符号定义 ?3. 算法的基本过程
?㈡ 实例说明 ?
?4. 用一个简单的例子说明算法原理。
?㈢ CARMA 算法描述 ?
?5. 用自然语言描述算法的实现过程。
27
已有的一些关联规则挖掘算法在运行之前要 求用户输入最小置信度和最小支持度。而对用户 来讲,确定合适的最小置信度和最小支持度比较 困难,需要运行算法多次判断最小置信度和最小 支持度是否过高或过低。
? 在这些原始交易数据的基础上,沃尔玛利用数据 挖掘方法对这些数据进行分析和挖掘。
5
啤酒与尿布的故事
? 一个意外的发现是:跟尿布一起购买最多的商品 竟是啤酒!
? 经过大量实际调查和分析,揭示了一个隐藏在“ 尿布与啤酒”背后的美国人的一种行为模式:
?在美国,一些年轻的父亲下班后经常要到超市去买婴 儿尿布,而他们中有30%~40%的人同时也为自己买 一些啤酒。产生这一现象的原因是:美国的太太们常 叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买 尿布后又随手带回了他们喜欢的啤酒。
在Clementine 中应用Apriori 算法
?应用Apriori 节点来对某超市的客户采购数据集进 行购物篮分析。该数据集包含有 21个属性(这些 属性包括: COD、pasta 、milk 、water 、 biscuits 、coffee 、brioches 、yoghurt 、frozen vegetables 、tunny 、beer 、tomato 、souce 、 coke 、rice 、juices 、crackers 、oil 、frozen fish 、ice cream 、mozzarella 、tinned meat 。 其中“COD”是记录编号,其它 20个属性代表 20 种商品),共 46243个记录。每个属性代表某种 商品,其取值为“ 0”或者“1”,“0”表示没有购 买该商品,“ 1”表示购买了该商品。
1
主要内容
?关联规则概述 ?Apriori 算法 ?CARMA 算法 ?序列模式
2
关联规则概述
?数据关联是数据库中存在的一类重要的可被发现的 知识。若两个或多个变量的取值之间存在某种规律 性,就称为 关联。
?关联规则挖掘的一个典型例子是购物篮分析。
?啤酒与尿布的故事
3
啤酒与尿布的故事
?1. 算法组成 ?2. 算法中的符号定义 ?3. 算法的基本过程
?㈡ 实例说明 ?
?4. 用一个简单的例子说明算法原理。
?㈢ CARMA 算法描述 ?
?5. 用自然语言描述算法的实现过程。
27
已有的一些关联规则挖掘算法在运行之前要 求用户输入最小置信度和最小支持度。而对用户 来讲,确定合适的最小置信度和最小支持度比较 困难,需要运行算法多次判断最小置信度和最小 支持度是否过高或过低。
? 在这些原始交易数据的基础上,沃尔玛利用数据 挖掘方法对这些数据进行分析和挖掘。
5
啤酒与尿布的故事
? 一个意外的发现是:跟尿布一起购买最多的商品 竟是啤酒!
? 经过大量实际调查和分析,揭示了一个隐藏在“ 尿布与啤酒”背后的美国人的一种行为模式:
?在美国,一些年轻的父亲下班后经常要到超市去买婴 儿尿布,而他们中有30%~40%的人同时也为自己买 一些啤酒。产生这一现象的原因是:美国的太太们常 叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买 尿布后又随手带回了他们喜欢的啤酒。
在Clementine 中应用Apriori 算法
?应用Apriori 节点来对某超市的客户采购数据集进 行购物篮分析。该数据集包含有 21个属性(这些 属性包括: COD、pasta 、milk 、water 、 biscuits 、coffee 、brioches 、yoghurt 、frozen vegetables 、tunny 、beer 、tomato 、souce 、 coke 、rice 、juices 、crackers 、oil 、frozen fish 、ice cream 、mozzarella 、tinned meat 。 其中“COD”是记录编号,其它 20个属性代表 20 种商品),共 46243个记录。每个属性代表某种 商品,其取值为“ 0”或者“1”,“0”表示没有购 买该商品,“ 1”表示购买了该商品。
关联规则简介与Apriori算法课件
置信度评估
评估关联规则的置信度,以确定规则是否具有可信度 。
剪枝
根据规则的置信度和支持度进行剪枝,去除低置信度 和低支持度的规则。
04 Apriori算法的优化策略
基于散列的技术
散列技术
通过散列函数将数据项映射到固定大小的桶中,具有相同散列值的数据项被分配 到同一个桶中。这种方法可以减少候选项集的数量,提高算法效率。
散列函数选择
选择合适的散列函数可以减少冲突,提高散列技术的效率。需要考虑散列函数的 均匀分布性和稳定性。
基于排序的方法
排序技术
对数据项按照某种顺序进行排序,如 按照支持度降序排序,优先处理支持 度较高的数据项,减少不必要的计算 和比较。
排序算法选择
选择高效的排序算法可以提高算法效 率,如快速排序、归并排序等。
关联规则的分类
关联规则可以根据不同的标准进行分类。
根据不同的标准,关联规则可以分为多种类型。根据规则中涉及的项的数量,可以分为单维关联规则和多维关联规则。根据 规则中项的出现顺序,可以分为无序关联规则和有序关联规则。根据规则的置信度和支持度,可以分为强关联规则和弱关联 规则。
关联规则挖掘的步骤
关联规则挖掘通常包括以下步骤:数据预处理、生成 频繁项集、生成关联规则。
关联规则简介与 Apriori算法课件
目录
• 关联规则简介 • Apriori算法简介 • Apriori算法的实现过程 • Apriori算法的优化策略 • 实例分析 • 总结与展望
01 关联规则简介
关联规则的定义
关联规则是数据挖掘中的一种重要技术,用于发现数据集中 项之间的有趣关系。
关联规则是一种在数据集中发现项之间有趣关系的方法。这 些关系通常以规则的形式表示,其中包含一个或多个项集, 这些项集在数据集中同时出现的频率超过了预先设定的阈值 。
评估关联规则的置信度,以确定规则是否具有可信度 。
剪枝
根据规则的置信度和支持度进行剪枝,去除低置信度 和低支持度的规则。
04 Apriori算法的优化策略
基于散列的技术
散列技术
通过散列函数将数据项映射到固定大小的桶中,具有相同散列值的数据项被分配 到同一个桶中。这种方法可以减少候选项集的数量,提高算法效率。
散列函数选择
选择合适的散列函数可以减少冲突,提高散列技术的效率。需要考虑散列函数的 均匀分布性和稳定性。
基于排序的方法
排序技术
对数据项按照某种顺序进行排序,如 按照支持度降序排序,优先处理支持 度较高的数据项,减少不必要的计算 和比较。
排序算法选择
选择高效的排序算法可以提高算法效 率,如快速排序、归并排序等。
关联规则的分类
关联规则可以根据不同的标准进行分类。
根据不同的标准,关联规则可以分为多种类型。根据规则中涉及的项的数量,可以分为单维关联规则和多维关联规则。根据 规则中项的出现顺序,可以分为无序关联规则和有序关联规则。根据规则的置信度和支持度,可以分为强关联规则和弱关联 规则。
关联规则挖掘的步骤
关联规则挖掘通常包括以下步骤:数据预处理、生成 频繁项集、生成关联规则。
关联规则简介与 Apriori算法课件
目录
• 关联规则简介 • Apriori算法简介 • Apriori算法的实现过程 • Apriori算法的优化策略 • 实例分析 • 总结与展望
01 关联规则简介
关联规则的定义
关联规则是数据挖掘中的一种重要技术,用于发现数据集中 项之间的有趣关系。
关联规则是一种在数据集中发现项之间有趣关系的方法。这 些关系通常以规则的形式表示,其中包含一个或多个项集, 这些项集在数据集中同时出现的频率超过了预先设定的阈值 。
数据挖掘方法——关联规则(自己整理)PPT课件
3.多层关联规则挖掘算法
对于很多的应用来说,由于数据分布的分散性,所以很难在数据最细节的层次上发现一些强 关联规则。当我们引入概念层次后,就可以在较高的层次上进行挖掘。虽然较高层次上得出的规 则可能是更普通的信息,但是对于一个用户来说是普通的信息,对于另一个用户却未必如此。所 以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。
(1)
如 :if A then B。则它的支持度Support=P(A and B) 2. Confidence(可信度):它是针对规则而言的。
Confidence=p(condition and result)/p(condition)。
(2)
如:If B and C then A。则它的可信度Confidence=p(B and C and A)/p(B and C)。 把满足最小支持度阈值和最小置信度阈值的规则成为强规则。项的集合称
多层关联规则的分类:根据规则中涉及到的层次,多层关联规则可以分为同层关联规则和层 间关联规则。
多层关联规则的挖掘基本上可以沿用“支持度-可信度”的框架。不过,在支持度设置的问题 上有一些要考虑的东西。
4.多维关联规则挖掘算法
对于多维数据库而言,除维内的关联规则外,还有一类多维的关联规则。例如:年龄(X, “20…30”) 职业(X,“学生”)==> 购买(X,“笔记本电脑”)在这里我们就涉及到三个 维上的数据:年龄、职业、购买。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和 预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小 支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集 合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定 义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被 留下来。为了生成所有频集,使用了递推的方法。
第5次课关联规则newppt课件
第5章 关联规则 关联规则挖掘简介
研究关联规则的目标:发现数据中的规律 超市中的什么产品经常会被一起购买;-啤酒与尿布 在购买了PC机后,顾客下一步一般购买什么产品; 如何自动对WEB文档分类; 用户上了CCTV网站后,一般将会去那些其他网站; 用户购买了“XXX”书后,一般还会购买什么书; 某一类纳税人在当月未纳税,则其下个月也不纳税的可能性
所有关联规则的数量非常巨大,前面提到5000种商品共有25000 种模式。但可用评分函数的优势,可以将平均运行时间将到一个可 以接受的范围。
第5章 关联规则
关联规则的基本模型及算法
关于评分函数
注意若P(A=1) ≤Ps,且P(B=1) ≤Ps中任何一个成立。则
P(A=1,B=1) ≤Ps。
因此,可以首先找概率大于Ps的所有单个事件(线性扫描一 次)。若事件(或一组事件)大于Ps,则称其为频繁项集(频繁 1项集)。然后,对这些频繁事件所有可能对作为容量为2的候选 频繁集合。
项集(itemset)
第5章 关联规则 关联规则挖掘简介
关于属性值-属性值离散化 若数据集的属性都是布尔值,则此数据集中挖掘的关联
规则都是布尔关联规则。其它属性可以进行转换。可以将非布 尔值数据转换为布尔数据值。
TID
Age
Salary
1
35
3200
2
43
4600
3
56
3700
4
24
2100
…
…
…
第5章 关联规则
关联规则的基本模型及算法
{}
a
b
c
d
e
ab ac ad ae bc bd be
cd ce
de
关联规则分析及应用PPT课件
M={I1,I2,I5}。可以由M 产生哪些关联规则?
第9页/共24页
210
二、关联规则挖掘过程
• M 的非空真子集有{I1,I2}、{I1,I5}、{I2,I5}、{I1}、{I2}和{I5}。则结果 关联规则如下,每个都列出置信度。
项集 支持度 计数
{I1}
6
{I2}
7
{I3}
6
{I4}
2
{I5}
23
绪论
第3页/共24页
24
一、基本概念
设 I={I1,I2,…,In} 是项的集合。
•任 务 相 关 数 据 D : 是 事 务 ( 或 元 组 ) 的 集 合 。
•事务T: TID 是项的集合,且每个事务具有事务标识符
。
•项集A:是T
T I D 的 一 个 子 集 , 加 上
即事务。
•项集(Items):项的集合,包含k个项的项集称为k-项集,如二
第12页/共24页
213
二、关联规则挖掘过程
对强关联规则的批评:
eg:
项目
喝麦片
不喝麦片
合计
打篮球 2000 1000 3000
不打篮球 1750 250 2000
合计 3750 1250 5000
在5000个学生中,3000个打篮球,3750个喝麦片 粥,2000个学生既打篮球又喝麦片粥。
➢ 打篮球 => 喝麦片粥 [40%, 66.7%]是错误的,因为全部 学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。
9
第7页/共24页
28
二、关联规则挖掘过程
两个步骤: • 找出所有频繁项集。 • 由频繁项集生成满足最小信任度阈值的规则。
第9页/共24页
210
二、关联规则挖掘过程
• M 的非空真子集有{I1,I2}、{I1,I5}、{I2,I5}、{I1}、{I2}和{I5}。则结果 关联规则如下,每个都列出置信度。
项集 支持度 计数
{I1}
6
{I2}
7
{I3}
6
{I4}
2
{I5}
23
绪论
第3页/共24页
24
一、基本概念
设 I={I1,I2,…,In} 是项的集合。
•任 务 相 关 数 据 D : 是 事 务 ( 或 元 组 ) 的 集 合 。
•事务T: TID 是项的集合,且每个事务具有事务标识符
。
•项集A:是T
T I D 的 一 个 子 集 , 加 上
即事务。
•项集(Items):项的集合,包含k个项的项集称为k-项集,如二
第12页/共24页
213
二、关联规则挖掘过程
对强关联规则的批评:
eg:
项目
喝麦片
不喝麦片
合计
打篮球 2000 1000 3000
不打篮球 1750 250 2000
合计 3750 1250 5000
在5000个学生中,3000个打篮球,3750个喝麦片 粥,2000个学生既打篮球又喝麦片粥。
➢ 打篮球 => 喝麦片粥 [40%, 66.7%]是错误的,因为全部 学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。
9
第7页/共24页
28
二、关联规则挖掘过程
两个步骤: • 找出所有频繁项集。 • 由频繁项集生成满足最小信任度阈值的规则。
关联规则算法 PPT
Apriori(先验)算法
1.连接步:为找LK,通过LK-1与自己连接产生候选K-项集的集合。该候选 K-项集的集合记为CK,CK中包含2K个可能的项集。从LK-1中取出f1和f2, fj[j]表示fj的第j项。如果两者的前(k-2)个项相同(如果 f1[1]=f2[1]∧f1[2]=f2[2]∧…∧f1[k-2] =f2[k-2]∧f1[k-1] <f2[k-1],则 LK-1的元素f1和f2是可以连接的),则进行连接f1⊕f2形成: {f1[1],f1[2],… ,f1[k-2],f1[k-1],f2[k-1]}。
关联规则算法
目录
基本概念及理论 Apriori(先验)算法 改进Apriori算法 FP-Tree算法
基本概念及理论
关联规则(Association Rule Mining) : 最早是由Agrawal、R.Srikant提出(1994) 发现事务数据库、关系数据或其它信息库中项或数据对象集合间的频 繁模式, 关联, 相关, 或因果关系结构 频繁模式: 在数据库中频繁出现的模式(项集, 序列等)
项集
{I1} {I2} {I3} {I4} {I5}
支持度计数
6 7 6 2 2
L1
比较候选支持度计数 与最小支持度计数
项集
{I1} {I2} {I3} {I4} {I5}
支持度计数
6 7 6 2 2
C2
由L1产生 候选C2
项集
{I1,I2} {I1,I3} {I1,I4} {I1,I5} {I2,I3} {I2,I4} {I2,I5} {I3,I4} {I3,I5} {I4,I5}
Apriori(先验)算法
性质 先验性质:频繁项集的所有非空子集都是频繁项集 非频繁项集的所有超集都是非频繁项集(反单调性)
医药信息分析与决策-关联规则 ppt课件
则称 为频繁项目集,否则,称 为非频繁项目集。
8.1.2 基本概念与规则度量
• 强关联规则: 关联规则称为强关联规则, 必须
且
同时成立,否
则称为弱关联规则。
8.1.2 基本概念与规则度量
• 性质1. 设X 和 Y是数据集 中的项目子集
(1)若
,则support (X )
support (Y)
(2)若
是,参与连接的两个K项集合前k-1项相同,第k项不同。
2. 产生频繁项集的过程
2. 剪枝步
从CK+1删除K项子集不在LK中的项、并利用以下性质删除支持度小于sup的项。 Apriori 性质: 任何K+1项频繁集的任意K项子集必须是频繁的 支持度计算
C为CK中的一项,T是事务集中的一条事务,如果C∈T,C的支持度加1,遍历 整个数据库,可以得到C的支持度 例:C1={I1,I2},T2={I1,I2,I3} c.sup++
表示。项目的集合称为项目集,简称项集。设集合
是项
集, I中项目的个数为 n ,则集合 称为 n -项集。例如,集合{啤酒,
尿布,牛奶}是一个3-项集。
8.1.2 基本概念与规则度量
• 事务与事务集: 设
是由数据库中所有项目构成的集合
,一次处理所含项目的集合用 表示,是 I 的子集,称为一个事务。
事务的集合
2.利用频繁项目集生成所需要的关联规则。 对每一频繁项目集 ,找到其所有非空子集 ,如果比 率: 称为强关联规则。
8.2.2 Apriori算法
• 1.Apriori算法基本思想。 Apriori算法的基本思想是通过对数据库的多次扫描来计算项集的支持 度,发现所有的频繁项集从而生成关联规则。Apriori 算法 使用称为 逐层收索的迭代方法,首先寻找1-项频繁集的集合,集合 记做L1, L1用于寻找两项频繁集合L2,L2 用于寻找L3,如此下去,直到不能 找K项频繁集合
关联规则分析及应用ppt课件
❖ 强关联规则:同时满足用户定义的最小支持度阈值 (min_sup)和最小置信度阈值(min_conf)的规则 称为强规则。
9
8
2012-10-12
二、关联规则挖掘过程
两个步骤: ▪ 找出所有频繁项集。 ▪ 由频繁项集生成满足最小信任度阈值的规则。
挖掘模式:
Database
产生频繁项集
min_sup
3
2012-10-12
绪论
4
2012-10-12
一、基本概念
设 I={I1,I2,…,In} 是项的集合。
❖任务相关数据D:是事务(或元组)的集合。
❖事务T:是项的集合,且每个事务具有事务标识 符TID。
❖项集A:是T 的一个子集,加上TID 即事务。
❖项集(Items):项的集合,包含k个项的项集称为 k-项集,如二项集{I1,I2}。 ❖支持度计数(Support count):一个项集的出现次
Support(A B)=P ( A ∩ B )
= support _ count(A∩B)
count (T) ❖ 频繁项集:若一个项集的支持度大于等于某个阈值。
7
2012-10-12
一、基本概念
❖ 置信度c:是包含A的事务中同时又包含B的百分比, 即条件概率。[规则准确性衡量]
confidence ( A B ) = P ( B | A) = support _ count ( A U B ) support_count ( A)
啤酒=>尿布
职业 秘书 工程师
购买物品 月工资
尿布
3000
啤酒、尿布 5000
性别=“女”=>职业=“秘书”
20
2012-10-12
《关联规则七章》PPT课件_OK
第7章 关联规则
❖ 7.1 关联规则 ❖ 7.2 关联规则的挖掘方法 ❖ 7.3 算法与讨论 ❖ 7.4 Apriori算法(操作实例)
1
7.1 关联规则-引言
❖ 关联:是两个或多个变量取值之间存在的一类重要的 可被发现的某种规律性
❖ 关联可分为简单关联、时序关联、因果关联
❖ 关联分析:目的是寻找给定数据记录集中数据项之间 隐藏的关联关系,描述数据之间的密切度
❖ 多层关联规则:
变量涉及不同抽象层次的项或属性。 如:age(X,“30…39”) → buys(X, “laptop computer”);
age(X,“30…39”) → buys(X, “computer”) 顾客X购买的商品涉及不同抽象层次(“computer” 比
“laptop computer”抽象层次更高)
❖ 关联规则:是关联分析的常见结果,用于寻找在同一 个事件中出现的不同项的相关性
关联规则发现的主要对象是交易型数据库;
关联规则是描述在一个交易中物品之间同时出现的
规律的知识模式,更确切的说,关联规则是通过量
化的数字描述物品A的出现对物品B的出现有多大
的影响
2
7.1 关联规则-例子
购物篮分析-引发关联规则挖掘的例子
4
7.1 关联规则-概念-2
❖ 关联规则的支持度和可信度 支持度是重要性的度量;可信度是准确度的度量
❖ 规则 A→B具有支持度S,表示S是D中事务包含AUB的 百分比,即联合概率P(AUB),也可以表示为: support(A→B)= P(AUB) = (包含A和B的事务数 / 事务总 数)×100%
P(B|A)/P(B)
7
7.1 关联规则-概念-小结
❖ 7.1 关联规则 ❖ 7.2 关联规则的挖掘方法 ❖ 7.3 算法与讨论 ❖ 7.4 Apriori算法(操作实例)
1
7.1 关联规则-引言
❖ 关联:是两个或多个变量取值之间存在的一类重要的 可被发现的某种规律性
❖ 关联可分为简单关联、时序关联、因果关联
❖ 关联分析:目的是寻找给定数据记录集中数据项之间 隐藏的关联关系,描述数据之间的密切度
❖ 多层关联规则:
变量涉及不同抽象层次的项或属性。 如:age(X,“30…39”) → buys(X, “laptop computer”);
age(X,“30…39”) → buys(X, “computer”) 顾客X购买的商品涉及不同抽象层次(“computer” 比
“laptop computer”抽象层次更高)
❖ 关联规则:是关联分析的常见结果,用于寻找在同一 个事件中出现的不同项的相关性
关联规则发现的主要对象是交易型数据库;
关联规则是描述在一个交易中物品之间同时出现的
规律的知识模式,更确切的说,关联规则是通过量
化的数字描述物品A的出现对物品B的出现有多大
的影响
2
7.1 关联规则-例子
购物篮分析-引发关联规则挖掘的例子
4
7.1 关联规则-概念-2
❖ 关联规则的支持度和可信度 支持度是重要性的度量;可信度是准确度的度量
❖ 规则 A→B具有支持度S,表示S是D中事务包含AUB的 百分比,即联合概率P(AUB),也可以表示为: support(A→B)= P(AUB) = (包含A和B的事务数 / 事务总 数)×100%
P(B|A)/P(B)
7
7.1 关联规则-概念-小结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 2 挖掘过程
第一阶段 找出所有频繁项集 (Large Itemsets) 第二阶段 由频繁项集产生强关联规则(Association Rules )
3. 1 相关算法
Apriori算法 基于划分的算法 FP-Grow算法
3.2 Apriori算法
思想:
首先,找出频繁1-项集,以L1表示.L1用来寻找L2,即频繁2-项集 的集合.L2用来寻找L3,以此类推,直至没有新的频繁k-项 集被发现.每个Lk都要求对数据库作一次完全扫描.
2.1 基本概念
交易数据库(D) 交易/事务 (T)
T I
交易标识符(TID) 项集(I)
I {i1,i2,..i.m},
规则 i1 i2
支持度support: D中包含i1和 i2 的事务数与总的事务数的比值
s(A B)|{ | TD| |AD| |B|T}||
可信度 confidence: D中同时包含i1和i2的事务数与包含i1的事务数的比值
2.1 基本概念
阈值 最小支持度 – 表示规则中的所有项在事务中出现的频度 最小可信度 - 表示规则中左边的项(集)的出现暗示着右
边的项(集)出现的频度
项集 – 任意项的集合 k-项集 – 包含k个项的项集 频繁 (或大)项集 – 满足最小支持度的项集 强规则:那些满足最小支持度和最小可信度的规则.
Apriori算法
候选项集生成的示例 L3={ abc, abd, acd, ace, bcd } 自连接: L3*L3 由abc 和abd 连接得到abcd 由acd 和ace 连接得到acde 剪枝: 因为ade 不在L3中acde 被剪除
Apriori算法
挑战: 多次扫描事务数据库 巨大数量的候选项集 繁重的计算候选项集的支持度工作 改进 Apriori: 大体的思路 减少事务数据库的扫描次数 缩减候选项集的数量 使候选项集的支持度计算更加方便
关联规则
1.1 一个著名的故 事
1.1 一个简单的例子
如果将同程的所有产品设为一个集合,那么每个产品均 为一个二元的分类变量(取值为真/假),用以描述相应 商品是否被某用户(某一个用户在某一天)购买。因此, 每个用户的购物袋就可以用一个布尔向量来表示。
下表是4个的商品(item1~item4)的7次购买数据, 分别用basket1~basket7表示
c(A B )||{T D |A B T}|| ||{T D |A T}||
支持度s : P(AB)
可信度c : P(B|A)
提升度: P(B|A)/P(B) 称为A条件对于B事件的提升度,如
果该值=1,说明两个条件没有任何关联,如果<1,说明A条 件(或者说A事件的发生)与B事件是相斥的, 一般在数据挖 掘中当提升度大于3时,我们才承认挖掘出的关联规则是 有价值的。
FP-Growth vs. Apriori
Run time(sec.)
100
Data set T25I20D10K
90
D1 FP-grow th runtime
D1 Apriori runtime
80
70
60
50
40
30
20
10
0
0
0.5
1
1.5
2
2.5
3
Support threshold(%)
应用
P(B|A)/P(B)=100%/(6/7)=100%/85.71%=1.667
关联是指一件事情与另外一件事 情之间的依赖关系
关联规则就是有关联的规则,形式是这样定义 的:两个不相交的非空集合X、Y,如果有 X→Y,就说X→Y是一条关联规则。
Item4→item3
大家有疑问的,可以询问和交流
可以互相讨论下,但要小声点
先验性质:
如果一个集合是频繁项集,则它的所有子集都是频繁项集
如果一个集合不是频繁项集iori算法 -----示例
Database TDB C1
L1
1st scan
C2
C2
L2
2nd scan
C3
3rd scan L3
15
频繁3项集{B, C, E}
非空子集:{B,C}、{B,E}、{C,E}、{B}、{C}、{E}
需要了解用户的购物模式,分析哪些商品 是被一起购买的???
用户在购买item4时100%也会购买item3
P(B|A)=4/4=100%
用户同时购买item3和item4的概率为57.14%
P(AB)=4/7=57.14%
用户购买item3的概率是85.71%,若用户购买 了item4后为其推荐item3,其购买item3的概 率为100%,可见购买item3的概率提高了 1.667
金融行业企业中,它可以成功预测银行客户需求 电子购物网站设置用户有意要一起购买的捆绑包
MORE…
序列模式的关联分析 用户点击页面的行为分析(研究用户的点击行为流,衡
量页面的体验以及易用性效果:哪些页面是引导用户进入关 键页面的重点页面,以及其引导能力等问题)