关联规则分析及应用 ppt课件
合集下载
关联规则与关联分析PPT课件
= {{A,B,C},{A,C,E},{B,C,E}}
• 2.使用Apriori性质剪枝:频繁项集的所有子集必须是频 繁的,对候选项C3,我们可以删除其子集为非频繁的选项:
– {所A,以B,删C}的除2这项个子选集项是;{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,
–
{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E} 所以删除这个选项;
confidence( A B) P( A | B) sup port _ count( A B) sup port _ count( A)
• 每个关联规则可由如下过程产生:
– 对于每个频繁项集l,产生l的所有非空子集;
– 对于每个非空子集s,如果
则输出规则“
” sup port _ count(l) min_ conf
• 关联规则的两个兴趣度度量
– 支持度 buys ( X , "computer") buys ( X , "software") – 置信度 [sup port 2%, confidence 60%]
第五页,共36页。
• 关联(association):两个或多个变量的取值之间存 在某种规律性。
集c’,使得每个包含c的事务也包含c’)
• (最大的频繁模式和频繁闭项集可以用来减少挖掘中产生的频繁项 集)
第十八页,共36页。
由事务数据库挖掘单维布尔关联规则
• 最简单的关联规则挖掘,即单维、单层、布尔关联
规则的挖掘。
Transaction ID Items Bought
最小支持度 50%
2000 A,B,C
关联规则与关联分析
第一页,共36页。
• 2.使用Apriori性质剪枝:频繁项集的所有子集必须是频 繁的,对候选项C3,我们可以删除其子集为非频繁的选项:
– {所A,以B,删C}的除2这项个子选集项是;{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,
–
{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E} 所以删除这个选项;
confidence( A B) P( A | B) sup port _ count( A B) sup port _ count( A)
• 每个关联规则可由如下过程产生:
– 对于每个频繁项集l,产生l的所有非空子集;
– 对于每个非空子集s,如果
则输出规则“
” sup port _ count(l) min_ conf
• 关联规则的两个兴趣度度量
– 支持度 buys ( X , "computer") buys ( X , "software") – 置信度 [sup port 2%, confidence 60%]
第五页,共36页。
• 关联(association):两个或多个变量的取值之间存 在某种规律性。
集c’,使得每个包含c的事务也包含c’)
• (最大的频繁模式和频繁闭项集可以用来减少挖掘中产生的频繁项 集)
第十八页,共36页。
由事务数据库挖掘单维布尔关联规则
• 最简单的关联规则挖掘,即单维、单层、布尔关联
规则的挖掘。
Transaction ID Items Bought
最小支持度 50%
2000 A,B,C
关联规则与关联分析
第一页,共36页。
数据挖掘(第2版)-课件 第5章关联规则
• 如:规则{尿布}—>{啤酒}表示尿布和啤酒的销售之间存在关联—— “啤酒与尿布”的故事。
• 关联分析用以发现事物间存在的关联性,除了购物篮分析外,有广泛应用, 如:辅助决策——挖掘商场销售数据、发现商品间的联系;医疗诊断—— 用于发现某些症状与某种疾病之间的关联;网页挖掘——用于发现文档集 合中某些词之间的关联,发现主题词演化模式、学科发展趋势;电子商 务——进行产品的关联推荐等。
频繁项集
支持度不小于最小支持度阈值的项集
强关联规则
根据用户预先定义的支持度和置信度阈值,支持度不小于最小支持度阈值 并且置信度不小于最小置信度阈值的规则
5.2.1 基本概念(4)
关联分析挖掘的关联规则分类 根据处理值分类
布尔关联规则 量化关联规则
根据涉及维度分类
单维关联规则 多维关联规则
支持度 (support)
事务数据库D中包含项A和B的事务占所有 事务的百分比
可表示为:support(A,B ) P(A B ) (A B )/ N
5.2.1 基本概念(3)
置信度
事务数据库D中同时包含项A和B的事务占包含项A的事务的百分比
条件概率表示为: confindence(A,B ) P(B | A) (A B )/ (A)
根据数据抽象层次分类
单层关联规则 多层关联规则
【例5-1】 设有事务集合如表5-1,计算规则{bread,milk tea} 的支持度、置信度。
交易号TID
顾客购买的商品
ห้องสมุดไป่ตู้
交易号TID
T1
bread, cream, milk, tea
T6
T2
bread, cream, milk
T7
• 关联分析用以发现事物间存在的关联性,除了购物篮分析外,有广泛应用, 如:辅助决策——挖掘商场销售数据、发现商品间的联系;医疗诊断—— 用于发现某些症状与某种疾病之间的关联;网页挖掘——用于发现文档集 合中某些词之间的关联,发现主题词演化模式、学科发展趋势;电子商 务——进行产品的关联推荐等。
频繁项集
支持度不小于最小支持度阈值的项集
强关联规则
根据用户预先定义的支持度和置信度阈值,支持度不小于最小支持度阈值 并且置信度不小于最小置信度阈值的规则
5.2.1 基本概念(4)
关联分析挖掘的关联规则分类 根据处理值分类
布尔关联规则 量化关联规则
根据涉及维度分类
单维关联规则 多维关联规则
支持度 (support)
事务数据库D中包含项A和B的事务占所有 事务的百分比
可表示为:support(A,B ) P(A B ) (A B )/ N
5.2.1 基本概念(3)
置信度
事务数据库D中同时包含项A和B的事务占包含项A的事务的百分比
条件概率表示为: confindence(A,B ) P(B | A) (A B )/ (A)
根据数据抽象层次分类
单层关联规则 多层关联规则
【例5-1】 设有事务集合如表5-1,计算规则{bread,milk tea} 的支持度、置信度。
交易号TID
顾客购买的商品
ห้องสมุดไป่ตู้
交易号TID
T1
bread, cream, milk, tea
T6
T2
bread, cream, milk
T7
关联规则及相关算法讲解幻灯片
关联规则及相关算法
1
主要内容
?关联规则概述 ?Apriori 算法 ?CARMA 算法 ?序列模式
2
关联规则概述
?数据关联是数据库中存在的一类重要的可被发现的 知识。若两个或多个变量的取值之间存在某种规律 性,就称为 关联。
?关联规则挖掘的一个典型例子是购物篮分析。
?啤酒与尿布的故事
3
啤酒与尿布的故事
?1. 算法组成 ?2. 算法中的符号定义 ?3. 算法的基本过程
?㈡ 实例说明 ?
?4. 用一个简单的例子说明算法原理。
?㈢ CARMA 算法描述 ?
?5. 用自然语言描述算法的实现过程。
27
已有的一些关联规则挖掘算法在运行之前要 求用户输入最小置信度和最小支持度。而对用户 来讲,确定合适的最小置信度和最小支持度比较 困难,需要运行算法多次判断最小置信度和最小 支持度是否过高或过低。
? 在这些原始交易数据的基础上,沃尔玛利用数据 挖掘方法对这些数据进行分析和挖掘。
5
啤酒与尿布的故事
? 一个意外的发现是:跟尿布一起购买最多的商品 竟是啤酒!
? 经过大量实际调查和分析,揭示了一个隐藏在“ 尿布与啤酒”背后的美国人的一种行为模式:
?在美国,一些年轻的父亲下班后经常要到超市去买婴 儿尿布,而他们中有30%~40%的人同时也为自己买 一些啤酒。产生这一现象的原因是:美国的太太们常 叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买 尿布后又随手带回了他们喜欢的啤酒。
在Clementine 中应用Apriori 算法
?应用Apriori 节点来对某超市的客户采购数据集进 行购物篮分析。该数据集包含有 21个属性(这些 属性包括: COD、pasta 、milk 、water 、 biscuits 、coffee 、brioches 、yoghurt 、frozen vegetables 、tunny 、beer 、tomato 、souce 、 coke 、rice 、juices 、crackers 、oil 、frozen fish 、ice cream 、mozzarella 、tinned meat 。 其中“COD”是记录编号,其它 20个属性代表 20 种商品),共 46243个记录。每个属性代表某种 商品,其取值为“ 0”或者“1”,“0”表示没有购 买该商品,“ 1”表示购买了该商品。
1
主要内容
?关联规则概述 ?Apriori 算法 ?CARMA 算法 ?序列模式
2
关联规则概述
?数据关联是数据库中存在的一类重要的可被发现的 知识。若两个或多个变量的取值之间存在某种规律 性,就称为 关联。
?关联规则挖掘的一个典型例子是购物篮分析。
?啤酒与尿布的故事
3
啤酒与尿布的故事
?1. 算法组成 ?2. 算法中的符号定义 ?3. 算法的基本过程
?㈡ 实例说明 ?
?4. 用一个简单的例子说明算法原理。
?㈢ CARMA 算法描述 ?
?5. 用自然语言描述算法的实现过程。
27
已有的一些关联规则挖掘算法在运行之前要 求用户输入最小置信度和最小支持度。而对用户 来讲,确定合适的最小置信度和最小支持度比较 困难,需要运行算法多次判断最小置信度和最小 支持度是否过高或过低。
? 在这些原始交易数据的基础上,沃尔玛利用数据 挖掘方法对这些数据进行分析和挖掘。
5
啤酒与尿布的故事
? 一个意外的发现是:跟尿布一起购买最多的商品 竟是啤酒!
? 经过大量实际调查和分析,揭示了一个隐藏在“ 尿布与啤酒”背后的美国人的一种行为模式:
?在美国,一些年轻的父亲下班后经常要到超市去买婴 儿尿布,而他们中有30%~40%的人同时也为自己买 一些啤酒。产生这一现象的原因是:美国的太太们常 叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买 尿布后又随手带回了他们喜欢的啤酒。
在Clementine 中应用Apriori 算法
?应用Apriori 节点来对某超市的客户采购数据集进 行购物篮分析。该数据集包含有 21个属性(这些 属性包括: COD、pasta 、milk 、water 、 biscuits 、coffee 、brioches 、yoghurt 、frozen vegetables 、tunny 、beer 、tomato 、souce 、 coke 、rice 、juices 、crackers 、oil 、frozen fish 、ice cream 、mozzarella 、tinned meat 。 其中“COD”是记录编号,其它 20个属性代表 20 种商品),共 46243个记录。每个属性代表某种 商品,其取值为“ 0”或者“1”,“0”表示没有购 买该商品,“ 1”表示购买了该商品。
数据挖掘方法——关联规则(自己整理)PPT课件
3.多层关联规则挖掘算法
对于很多的应用来说,由于数据分布的分散性,所以很难在数据最细节的层次上发现一些强 关联规则。当我们引入概念层次后,就可以在较高的层次上进行挖掘。虽然较高层次上得出的规 则可能是更普通的信息,但是对于一个用户来说是普通的信息,对于另一个用户却未必如此。所 以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。
(1)
如 :if A then B。则它的支持度Support=P(A and B) 2. Confidence(可信度):它是针对规则而言的。
Confidence=p(condition and result)/p(condition)。
(2)
如:If B and C then A。则它的可信度Confidence=p(B and C and A)/p(B and C)。 把满足最小支持度阈值和最小置信度阈值的规则成为强规则。项的集合称
多层关联规则的分类:根据规则中涉及到的层次,多层关联规则可以分为同层关联规则和层 间关联规则。
多层关联规则的挖掘基本上可以沿用“支持度-可信度”的框架。不过,在支持度设置的问题 上有一些要考虑的东西。
4.多维关联规则挖掘算法
对于多维数据库而言,除维内的关联规则外,还有一类多维的关联规则。例如:年龄(X, “20…30”) 职业(X,“学生”)==> 购买(X,“笔记本电脑”)在这里我们就涉及到三个 维上的数据:年龄、职业、购买。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和 预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小 支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集 合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定 义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被 留下来。为了生成所有频集,使用了递推的方法。
4关联分析PPT课件
支持度 0 0 0 0 0 0
20 20
0 0 0 0 0 0 0
关联规则挖掘的基本概念
所有频繁项集及其支持度
项集 啤酒 面包 牛奶 花生酱 面包、花生酱
支持度(%) 40 80 40 60 60
假设最小支持度 设定为40%
关联规则挖掘的基本概念
所有最大频繁项集及其支持度(黄色标识)
项集 啤酒 面包 牛奶 花生酱 面包、花生酱
关联规则挖掘的步骤
1.产生所有 频繁项集
2.产生相应 强关联规则
这些项集的频度 至少应等于(预先 设置的)最小支持 度
Confidence(X→Y),即
Confi(dXe nYc)eSupp(XorYt) Supp(Xo)rt
关联规则挖掘的基本概念
支持度和可信度
用户定义的一个可信度阈值,表示规则的最低 最小可信度 可靠性,记作minconf
支持度和可 信度的作用
淘汰无用的关联规则
强关联规则:同时满足最小支持度和最小可信度阀值的规则。 (两个阀值的取值都在0%~100%之间)
支持度定义:假定X是一个项集,D是一个事务集合或事务数据库, 称D中包含X的交易的个数与D中总的交易个数之比为X在D中的支持 度,记作Support (X),即
Sup(p X)o|r|{d tD|Xd|| ||D||
关联规则挖掘的基本概念
支持度和可信度
由用户定义的衡量项集频繁程度的一个阈值, 最小支持度 记作minsup
关联规则挖掘的基本概念
数据集、事务、项
❖ 事务数据库 ▪ 关联规则挖掘的数据集记为D ▪ D={t1,t2,…tk…tn},由一系列具有唯一标 识tid的事务组成
关联规则挖掘的基本概念
医药信息分析与决策-关联规则 ppt课件
则称 为频繁项目集,否则,称 为非频繁项目集。
8.1.2 基本概念与规则度量
• 强关联规则: 关联规则称为强关联规则, 必须
且
同时成立,否
则称为弱关联规则。
8.1.2 基本概念与规则度量
• 性质1. 设X 和 Y是数据集 中的项目子集
(1)若
,则support (X )
support (Y)
(2)若
是,参与连接的两个K项集合前k-1项相同,第k项不同。
2. 产生频繁项集的过程
2. 剪枝步
从CK+1删除K项子集不在LK中的项、并利用以下性质删除支持度小于sup的项。 Apriori 性质: 任何K+1项频繁集的任意K项子集必须是频繁的 支持度计算
C为CK中的一项,T是事务集中的一条事务,如果C∈T,C的支持度加1,遍历 整个数据库,可以得到C的支持度 例:C1={I1,I2},T2={I1,I2,I3} c.sup++
表示。项目的集合称为项目集,简称项集。设集合
是项
集, I中项目的个数为 n ,则集合 称为 n -项集。例如,集合{啤酒,
尿布,牛奶}是一个3-项集。
8.1.2 基本概念与规则度量
• 事务与事务集: 设
是由数据库中所有项目构成的集合
,一次处理所含项目的集合用 表示,是 I 的子集,称为一个事务。
事务的集合
2.利用频繁项目集生成所需要的关联规则。 对每一频繁项目集 ,找到其所有非空子集 ,如果比 率: 称为强关联规则。
8.2.2 Apriori算法
• 1.Apriori算法基本思想。 Apriori算法的基本思想是通过对数据库的多次扫描来计算项集的支持 度,发现所有的频繁项集从而生成关联规则。Apriori 算法 使用称为 逐层收索的迭代方法,首先寻找1-项频繁集的集合,集合 记做L1, L1用于寻找两项频繁集合L2,L2 用于寻找L3,如此下去,直到不能 找K项频繁集合
关联规则分析及应用.ppt
数就是整个数据集中包含该项集的事务数。
5
2012-10-12
一、基本概念
D
TID
Items
001
I1、I2、I5
002
I2、I4
T
003
A I2、I3
004
I1、I2、I4
005
I1、I3
006
B I2、I3
007
I1、I3
008
I1、I2、I3、I5
009
I1、I2、I3
6
2012-10-12
In(n=1,2,…) 指具体项目,如 购物篮分析中:
台式机=>Sony打印机
18
2012-10-12
三、关联规则的分类
分层示例:
19
2012-10-12
三、关联规则的分类
基于规则中数据的维数: A.单维关联规则:只涉及到数据的一个维,如用户购
买的物品;
B.多维关联规则:要处理的数据将会涉及多个维。
TID 001 002
eg:
姓名 张三 李四
性别 女 男
I1 I2 I5, I1 I5 I2, I2 I5 I1, I1 I2 I5, I2 I1 I5, I5 I1 I2,
confidence = 2/4 = 50 % confidence = 2/2 = 100 % confidence = 2/2 = 100 %
confidence = 2/6 = 33% confidence = 2/7 = 29% confidence = 2/2 = 100 %
Data Mining
关联规则分析及应用
2012-10-12
1
目录
1
基本概念
5
2012-10-12
一、基本概念
D
TID
Items
001
I1、I2、I5
002
I2、I4
T
003
A I2、I3
004
I1、I2、I4
005
I1、I3
006
B I2、I3
007
I1、I3
008
I1、I2、I3、I5
009
I1、I2、I3
6
2012-10-12
In(n=1,2,…) 指具体项目,如 购物篮分析中:
台式机=>Sony打印机
18
2012-10-12
三、关联规则的分类
分层示例:
19
2012-10-12
三、关联规则的分类
基于规则中数据的维数: A.单维关联规则:只涉及到数据的一个维,如用户购
买的物品;
B.多维关联规则:要处理的数据将会涉及多个维。
TID 001 002
eg:
姓名 张三 李四
性别 女 男
I1 I2 I5, I1 I5 I2, I2 I5 I1, I1 I2 I5, I2 I1 I5, I5 I1 I2,
confidence = 2/4 = 50 % confidence = 2/2 = 100 % confidence = 2/2 = 100 %
confidence = 2/6 = 33% confidence = 2/7 = 29% confidence = 2/2 = 100 %
Data Mining
关联规则分析及应用
2012-10-12
1
目录
1
基本概念
关联规则分析及应用ppt课件
❖ 强关联规则:同时满足用户定义的最小支持度阈值 (min_sup)和最小置信度阈值(min_conf)的规则 称为强规则。
9
8
2012-10-12
二、关联规则挖掘过程
两个步骤: ▪ 找出所有频繁项集。 ▪ 由频繁项集生成满足最小信任度阈值的规则。
挖掘模式:
Database
产生频繁项集
min_sup
3
2012-10-12
绪论
4
2012-10-12
一、基本概念
设 I={I1,I2,…,In} 是项的集合。
❖任务相关数据D:是事务(或元组)的集合。
❖事务T:是项的集合,且每个事务具有事务标识 符TID。
❖项集A:是T 的一个子集,加上TID 即事务。
❖项集(Items):项的集合,包含k个项的项集称为 k-项集,如二项集{I1,I2}。 ❖支持度计数(Support count):一个项集的出现次
Support(A B)=P ( A ∩ B )
= support _ count(A∩B)
count (T) ❖ 频繁项集:若一个项集的支持度大于等于某个阈值。
7
2012-10-12
一、基本概念
❖ 置信度c:是包含A的事务中同时又包含B的百分比, 即条件概率。[规则准确性衡量]
confidence ( A B ) = P ( B | A) = support _ count ( A U B ) support_count ( A)
啤酒=>尿布
职业 秘书 工程师
购买物品 月工资
尿布
3000
啤酒、尿布 5000
性别=“女”=>职业=“秘书”
20
2012-10-12
《关联规则七章》PPT课件_OK
第7章 关联规则
❖ 7.1 关联规则 ❖ 7.2 关联规则的挖掘方法 ❖ 7.3 算法与讨论 ❖ 7.4 Apriori算法(操作实例)
1
7.1 关联规则-引言
❖ 关联:是两个或多个变量取值之间存在的一类重要的 可被发现的某种规律性
❖ 关联可分为简单关联、时序关联、因果关联
❖ 关联分析:目的是寻找给定数据记录集中数据项之间 隐藏的关联关系,描述数据之间的密切度
❖ 多层关联规则:
变量涉及不同抽象层次的项或属性。 如:age(X,“30…39”) → buys(X, “laptop computer”);
age(X,“30…39”) → buys(X, “computer”) 顾客X购买的商品涉及不同抽象层次(“computer” 比
“laptop computer”抽象层次更高)
❖ 关联规则:是关联分析的常见结果,用于寻找在同一 个事件中出现的不同项的相关性
关联规则发现的主要对象是交易型数据库;
关联规则是描述在一个交易中物品之间同时出现的
规律的知识模式,更确切的说,关联规则是通过量
化的数字描述物品A的出现对物品B的出现有多大
的影响
2
7.1 关联规则-例子
购物篮分析-引发关联规则挖掘的例子
4
7.1 关联规则-概念-2
❖ 关联规则的支持度和可信度 支持度是重要性的度量;可信度是准确度的度量
❖ 规则 A→B具有支持度S,表示S是D中事务包含AUB的 百分比,即联合概率P(AUB),也可以表示为: support(A→B)= P(AUB) = (包含A和B的事务数 / 事务总 数)×100%
P(B|A)/P(B)
7
7.1 关联规则-概念-小结
❖ 7.1 关联规则 ❖ 7.2 关联规则的挖掘方法 ❖ 7.3 算法与讨论 ❖ 7.4 Apriori算法(操作实例)
1
7.1 关联规则-引言
❖ 关联:是两个或多个变量取值之间存在的一类重要的 可被发现的某种规律性
❖ 关联可分为简单关联、时序关联、因果关联
❖ 关联分析:目的是寻找给定数据记录集中数据项之间 隐藏的关联关系,描述数据之间的密切度
❖ 多层关联规则:
变量涉及不同抽象层次的项或属性。 如:age(X,“30…39”) → buys(X, “laptop computer”);
age(X,“30…39”) → buys(X, “computer”) 顾客X购买的商品涉及不同抽象层次(“computer” 比
“laptop computer”抽象层次更高)
❖ 关联规则:是关联分析的常见结果,用于寻找在同一 个事件中出现的不同项的相关性
关联规则发现的主要对象是交易型数据库;
关联规则是描述在一个交易中物品之间同时出现的
规律的知识模式,更确切的说,关联规则是通过量
化的数字描述物品A的出现对物品B的出现有多大
的影响
2
7.1 关联规则-例子
购物篮分析-引发关联规则挖掘的例子
4
7.1 关联规则-概念-2
❖ 关联规则的支持度和可信度 支持度是重要性的度量;可信度是准确度的度量
❖ 规则 A→B具有支持度S,表示S是D中事务包含AUB的 百分比,即联合概率P(AUB),也可以表示为: support(A→B)= P(AUB) = (包含A和B的事务数 / 事务总 数)×100%
P(B|A)/P(B)
7
7.1 关联规则-概念-小结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
14
2020/11/13
二、关联规则挖掘过程
如果最小置信度阈值为70%,那么只有第2、3、6个规 则可以作为最终的结果输出,因为只有这些是产生的 强关联规则。
I1 I5 I2, I2 I5 I1,
I5 I1 I2,
confidence = 2/2 = 100 % confidence = 2/2 = 100% confidence = 2/2 = 100%
In(n=1,2,…) 指具体项目,如 购物篮分析中:
I1=苹果 I2=面包 I3=牛奶 I4=尿布 I5=啤酒
Support-count(I1)=6
一、基本概念
❖关联规则:形如 A => B 的蕴涵式,其中A ⊂I , B⊂I,并且 A∩B =ф。
❖ 支持度:关联规则在D中的支持度(support)是D中事 务同时包含A、B的百分比,即概率。[规则代表性、 重要性衡量]
生成强关联规则
min_conf
用户
规则评价
11
2020/11/13
二、关联规则挖掘过程
关联规则挖掘举例:
假定数据包含频繁项集
M={I1,I2,I5}。可以由M
产生哪些关联规则?
12
2020/11/13
二、关联规则挖掘过程
❖ M 的非空真子集有{I1,I2}、{I1,I5}、{I2,I5}、
{I1}、{I2}和{I5}。则结果关联规则如下,每个都
17
2020/11/13
三、关联规则的分类
基于规则中处理的变量的类别 A.布尔型:布尔型关联规则处理的值都是离散的、种
15
2020/11/13
二、关联规则挖掘过程
对强关联规则的批评:
eg:
项目 喝麦片 不喝麦片 合计
打篮球 2000 1000 3000
不打篮球 1750 250 2000
合计 3750 1250 5000
在5000个学生中,3000个打篮球,3750个喝麦片 粥,2000个学生既打篮球又喝麦片粥。
列出置信度。
项集
支持度计
数
项集 支持度 {I1,I2}
4
计数
{I1}
6
{I2}
7
{I3}
6
{I4}
2
{I1,I3}
4
{I1,I5}
2
{I2,I3}
4
{I2,I4}
2
项集
支持度 计数
{I1,I2,I3} 2
{I1,I2,I5} 2
{I5}
2
{I2,I5}
2
13
2020/11/13
二、关联规则挖掘过程
5
2020/11/13
绪论
6
2020/11/13
一、基本概念
设 I={I1,I2,…,In} 是项的集合。
❖任务相关数据D:是事务(或元组)的集合。
❖事务T:是项的集合,且每个事务具有事务标识 符TID。
❖项集A:是T 的一个子集,加上TID 即事务。
❖项集(Items):项的集合,包含k个项的项集称为 k-项集,如二项集{I1,I2}。 ❖支持度计数(Support count):一个项集的出现次
• “不怕太阳晒,也不怕那风雨狂,只怕先生骂我 笨,没有学问无颜见爹娘 ……”
• “太阳当空照,花儿对我笑,小鸟说早早早……”
绪论
在购买铁锤的顾客当中,有70%的人同时 购买了铁钉。
年龄在40 岁以上,工作在A区的投保人当 中,有45%的人曾经向保险公司索赔过。
在超市购买面包的人有70%会购买牛奶
❖ 强关联规则:同时满足用户定义的最小支持度阈值 (min_sup)和最小置信度阈值(min_conf)的规则 称为强规则。
9
10
2020/11/13
二、关联规则挖掘过程
两个步骤: ▪ 找出所有频繁项集。 ▪ 由频繁项集生成满足最小信任度阈值的规则。
挖掘模式:
Database
产生频繁项集
min_sup
Data Mining
关联规则分析及应用
2020/11/13
1
目录
1
基本概念
2
关联规则挖掘过程
3
分类
4
关联规则的价值衡量
5
挖掘算法
6
关联规则的应用
2
2020/11/13
精品资料
• 你怎么称呼老师?
• 如果老师最后没有总结一节课的重点的难点,你 是否会认为老师的教学方法需要改进?
• 你所经历的课堂,是讲座式还是讨论式? • 教师的教鞭
Support(A B)=P ( A ∩ B )
= support _ count(A∩B)
count (T) ❖ 频繁项集:若一个项集的支持度大于等于某个阈值。
9
2020/11/13
一、基本概念
❖ 置信度c:是包含A的事务中同时又包含B的百分比, 即条件概率。[规则准确性衡量]
confidence ( A B ) = P ( B | A) = support _ count ( A U B ) support_count ( A)
P(AB) I(A B)= P(A)P(B) ✓若I(A B)=1,即P(A)P(B)=P(AB),A与B相互独立; ✓若I(A B)<1,表示A出现和B出现是负相关的。 ✓若I(A B)>1,表示A出现和B出现是正相关的。意味 着A的出 现蕴含B的出现。 小结:只有兴趣度大于1,该规则才具有实际价值。
数就是整个数据集中包含该项集的事务数。
7
2020/11/13
一、基本概念
TID
001
002
T
003
004
005
006
007
008
009
D
Items
I1、I2、I5 I2、I4
A I2、I3
I1、I2、I4 I1、I3
B I2、I3
I1、I3 I1、I2、I3、I5
I1、I2、I3
8
2020/11/13
➢ 打篮球 => 喝麦片粥 [40%, 66.7%]是错误的,因为全部 学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。
➢ 打篮球 => 不喝麦片粥 [20%, 33.3%]这个规则远比上面 那个要精确,尽管支持度和置信度都要低的多。
16
2020/11/13
二、关联规则挖掘过程
兴趣度(作用度):I1 I2 I5, I1 I5 I2, I2 I5 I1, I1 I2 I5, I2 I1 I5, I5 I1 I2,
confidence = 2/4 = 50 % confidence = 2/2 = 100 % confidence = 2/2 = 100 %
confidence = 2/6 = 33% confidence = 2/7 = 29% confidence = 2/2 = 100 %