5关联规则及相关算法讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集 合L2,接着用L2找L3,直到找不到频繁k-项集,找每个 Lk需要一次数据库扫描。
以表5-1为例 min_sup=0.22
频繁1-项集为
L1={{牛奶},{果冻},{啤酒},{面包},{花生酱}}
频繁2-项集为
L2={{牛奶,果冻},{牛奶,啤酒},{牛奶,花生酱},{果冻, 啤 酒},{果冻, 面包},{果冻, 花生酱}}
置信度c是包含X Y 的事务数与包含X的事务数的比值
confidence ( X Y ) P(Y | X )
频繁项集
用户预先定义最小支持度阈值(min_sup)和最 小置信度阈值(min_conf)。 如果某个项集的支持度大于等于设定的最小支持 度阈值min_sup,称这个项集为“频繁项集” (也称为“大项集”,LargeItemsets),所有 的“频繁k-项集”组成的集合通常记作Lk。
l={ I1, I2, I5 }的所有的非空子集为:
{I1, I2},{I1, I5},{I2, I5},{I1},{I2} 和 {I5}
对于 l 的每个非空子集 s,计算 s ⇒ l-s 的 置信度并输出规则:
I1∧I2 ⇒ I5,confidence = 2/4 = 50% I1∧I5 ⇒ I2,confidence = 2/2 = 100% I2∧I5 ⇒ I1,confidence = 2/2 = 100% I1 ⇒ I2∧I5,confidence = 2/6 = 33% I2 ⇒ I1∧I5,confidence = 2/7 = 29%
关联可分为简单关联、时序关联、因果关联。关联 分析的目的是找出数据库中隐藏的关联,并以规则 的形式表达出来,这就是关联规则。
基本概念
一个样本称为一个“事务” 每个事务由多个属性来确定,这里的属性我们称为“项” 多个项组成的集合称为“项集”
k-项集
由k个项构成的集合
{牛奶}、{啤酒}都是1-项集; {牛奶,果冻}是2-项集; {啤酒,面包,牛奶}是3-项集。
I5 ⇒ I1∧I2,confidence = 2/2 = 100%
如果最小置信度阈值为70%,则只有2、3 和 最后一个规则可以输出,因为只有这些是强的。
在Clementine中应用Apriori算法
应用Apriori节点来对某超市的客户采购数据集进 行购物篮分析。该数据集包含有21个属性(这些 属性包括:COD、pasta、milk、water、 biscuits、coffee、brioches、yoghurt、frozen vegetables、tunny、beer、tomato、souce、 coke、rice、juices、crackers、oil、frozen fish、ice cream、mozzarella、tinned meat。 其中“COD”是记录编号,其它20个属性代表20 种商品),共46243个记录。每个属性代表某种 商品,其取值为“0”或者“1”,“0”表示没有购 买该商品,“1”表示购买了该商品。
啤酒与尿布的故事
一个意外的发现是:跟尿布一起购买最多的商品 竟是啤酒! 经过大量实际调查和分析,揭示了一个隐藏在“ 尿布与啤酒”背后的美国人的一种行为模式:
在美国,一些年轻的父亲下班后经常要到超市去买婴 儿尿布,而他们中有30%~40%的人同时也为自己买 一些啤酒。产生这一现象的原因是:美国的太太们常 叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买 尿布后又随手带回了他们喜欢的啤酒。
频繁3-项集为
L3={{牛奶,果冻,啤酒},{牛奶,果冻,花生酱}}
2. 由频繁项集产生关联规则 由上一步得到的频繁项集集合 L2 和 L3 中的 每一个频繁项集 l 都可以产生关联规则。
以下用 L3wenku.baidu.com中频繁项集 l = {I1, I2, I5} 进行说明。 L2 和 L3 中的其它频繁项集的关联规则同理可得。
Apriori:频繁项集的非单调性 AprioriTid: AprioriHybrid
深度优先算法
FP-growth Eclat H-Mine
Apriori算法 (1)
Apriori算法是挖掘布尔关联规则频繁项集的算法 Apriori算法利用频繁项集性质的先验知识(prior knowledge),通过逐层搜索的迭代方法,即将 k-项集用于探察(k+1)-项集,来穷尽数据集中的所 有频繁项集。
每个事务其实就是一个项集
关联规则的表示
X Y
s, c
X和Y是项集 X称为规则前项(或者前件,antecedent) Y称为规则后项(或者后件,consequent)
支持度s是数据库中包含 X Y 的事务占全部事务的百分比
support( X Y ) P( X Y )
在一家超市里,有一个有趣的现象:尿布和啤酒 赫然摆在一起出售。但是这个奇怪的举措却使尿 布和啤酒的销量双双增加了。
这不是一个笑话,而是发生在美国沃尔玛连锁店 超市的真实案例,并一直为商家所津津乐道。
啤酒与尿布的故事
沃尔玛拥有世界上最大的数据仓库系统,为了能 够准确了解顾客在其门店的购买习惯,沃尔玛对 其顾客的购物行为进行购物篮分析,想知道顾客 经常一起购买的商品有哪些。沃尔玛数据仓库里 集中了其各门店的详细原始交易数据。 在这些原始交易数据的基础上,沃尔玛利用数据 挖掘方法对这些数据进行分析和挖掘。
关联规则及相关算法
主要内容
关联规则概述 Apriori算法 CARMA算法 序列模式
关联规则概述
数据关联是数据库中存在的一类重要的可被发现的 知识。若两个或多个变量的取值之间存在某种规律 性,就称为关联。 关联规则挖掘的一个典型例子是购物篮分析。
啤酒与尿布的故事
啤酒与尿布的故事
关联规则挖掘过程主要包含两个阶段
第一阶段先从数据集中找出所有的频繁项集,它们的支 持度均大于等于最小支持度阈值min_sup 第二阶段由这些频繁项集产生关联规则,计算它们的置 信度,然后保留那些置信度大于等于最小置信度阈值 min_conf的关联规则。
关联规则挖掘算法
广度优先算法
以表5-1为例 min_sup=0.22
频繁1-项集为
L1={{牛奶},{果冻},{啤酒},{面包},{花生酱}}
频繁2-项集为
L2={{牛奶,果冻},{牛奶,啤酒},{牛奶,花生酱},{果冻, 啤 酒},{果冻, 面包},{果冻, 花生酱}}
置信度c是包含X Y 的事务数与包含X的事务数的比值
confidence ( X Y ) P(Y | X )
频繁项集
用户预先定义最小支持度阈值(min_sup)和最 小置信度阈值(min_conf)。 如果某个项集的支持度大于等于设定的最小支持 度阈值min_sup,称这个项集为“频繁项集” (也称为“大项集”,LargeItemsets),所有 的“频繁k-项集”组成的集合通常记作Lk。
l={ I1, I2, I5 }的所有的非空子集为:
{I1, I2},{I1, I5},{I2, I5},{I1},{I2} 和 {I5}
对于 l 的每个非空子集 s,计算 s ⇒ l-s 的 置信度并输出规则:
I1∧I2 ⇒ I5,confidence = 2/4 = 50% I1∧I5 ⇒ I2,confidence = 2/2 = 100% I2∧I5 ⇒ I1,confidence = 2/2 = 100% I1 ⇒ I2∧I5,confidence = 2/6 = 33% I2 ⇒ I1∧I5,confidence = 2/7 = 29%
关联可分为简单关联、时序关联、因果关联。关联 分析的目的是找出数据库中隐藏的关联,并以规则 的形式表达出来,这就是关联规则。
基本概念
一个样本称为一个“事务” 每个事务由多个属性来确定,这里的属性我们称为“项” 多个项组成的集合称为“项集”
k-项集
由k个项构成的集合
{牛奶}、{啤酒}都是1-项集; {牛奶,果冻}是2-项集; {啤酒,面包,牛奶}是3-项集。
I5 ⇒ I1∧I2,confidence = 2/2 = 100%
如果最小置信度阈值为70%,则只有2、3 和 最后一个规则可以输出,因为只有这些是强的。
在Clementine中应用Apriori算法
应用Apriori节点来对某超市的客户采购数据集进 行购物篮分析。该数据集包含有21个属性(这些 属性包括:COD、pasta、milk、water、 biscuits、coffee、brioches、yoghurt、frozen vegetables、tunny、beer、tomato、souce、 coke、rice、juices、crackers、oil、frozen fish、ice cream、mozzarella、tinned meat。 其中“COD”是记录编号,其它20个属性代表20 种商品),共46243个记录。每个属性代表某种 商品,其取值为“0”或者“1”,“0”表示没有购 买该商品,“1”表示购买了该商品。
啤酒与尿布的故事
一个意外的发现是:跟尿布一起购买最多的商品 竟是啤酒! 经过大量实际调查和分析,揭示了一个隐藏在“ 尿布与啤酒”背后的美国人的一种行为模式:
在美国,一些年轻的父亲下班后经常要到超市去买婴 儿尿布,而他们中有30%~40%的人同时也为自己买 一些啤酒。产生这一现象的原因是:美国的太太们常 叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买 尿布后又随手带回了他们喜欢的啤酒。
频繁3-项集为
L3={{牛奶,果冻,啤酒},{牛奶,果冻,花生酱}}
2. 由频繁项集产生关联规则 由上一步得到的频繁项集集合 L2 和 L3 中的 每一个频繁项集 l 都可以产生关联规则。
以下用 L3wenku.baidu.com中频繁项集 l = {I1, I2, I5} 进行说明。 L2 和 L3 中的其它频繁项集的关联规则同理可得。
Apriori:频繁项集的非单调性 AprioriTid: AprioriHybrid
深度优先算法
FP-growth Eclat H-Mine
Apriori算法 (1)
Apriori算法是挖掘布尔关联规则频繁项集的算法 Apriori算法利用频繁项集性质的先验知识(prior knowledge),通过逐层搜索的迭代方法,即将 k-项集用于探察(k+1)-项集,来穷尽数据集中的所 有频繁项集。
每个事务其实就是一个项集
关联规则的表示
X Y
s, c
X和Y是项集 X称为规则前项(或者前件,antecedent) Y称为规则后项(或者后件,consequent)
支持度s是数据库中包含 X Y 的事务占全部事务的百分比
support( X Y ) P( X Y )
在一家超市里,有一个有趣的现象:尿布和啤酒 赫然摆在一起出售。但是这个奇怪的举措却使尿 布和啤酒的销量双双增加了。
这不是一个笑话,而是发生在美国沃尔玛连锁店 超市的真实案例,并一直为商家所津津乐道。
啤酒与尿布的故事
沃尔玛拥有世界上最大的数据仓库系统,为了能 够准确了解顾客在其门店的购买习惯,沃尔玛对 其顾客的购物行为进行购物篮分析,想知道顾客 经常一起购买的商品有哪些。沃尔玛数据仓库里 集中了其各门店的详细原始交易数据。 在这些原始交易数据的基础上,沃尔玛利用数据 挖掘方法对这些数据进行分析和挖掘。
关联规则及相关算法
主要内容
关联规则概述 Apriori算法 CARMA算法 序列模式
关联规则概述
数据关联是数据库中存在的一类重要的可被发现的 知识。若两个或多个变量的取值之间存在某种规律 性,就称为关联。 关联规则挖掘的一个典型例子是购物篮分析。
啤酒与尿布的故事
啤酒与尿布的故事
关联规则挖掘过程主要包含两个阶段
第一阶段先从数据集中找出所有的频繁项集,它们的支 持度均大于等于最小支持度阈值min_sup 第二阶段由这些频繁项集产生关联规则,计算它们的置 信度,然后保留那些置信度大于等于最小置信度阈值 min_conf的关联规则。
关联规则挖掘算法
广度优先算法