数据挖掘关联规则-课件
合集下载
关联规则与关联分析PPT课件
= {{A,B,C},{A,C,E},{B,C,E}}
• 2.使用Apriori性质剪枝:频繁项集的所有子集必须是频 繁的,对候选项C3,我们可以删除其子集为非频繁的选项:
– {所A,以B,删C}的除2这项个子选集项是;{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,
–
{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E} 所以删除这个选项;
confidence( A B) P( A | B) sup port _ count( A B) sup port _ count( A)
• 每个关联规则可由如下过程产生:
– 对于每个频繁项集l,产生l的所有非空子集;
– 对于每个非空子集s,如果
则输出规则“
” sup port _ count(l) min_ conf
• 关联规则的两个兴趣度度量
– 支持度 buys ( X , "computer") buys ( X , "software") – 置信度 [sup port 2%, confidence 60%]
第五页,共36页。
• 关联(association):两个或多个变量的取值之间存 在某种规律性。
集c’,使得每个包含c的事务也包含c’)
• (最大的频繁模式和频繁闭项集可以用来减少挖掘中产生的频繁项 集)
第十八页,共36页。
由事务数据库挖掘单维布尔关联规则
• 最简单的关联规则挖掘,即单维、单层、布尔关联
规则的挖掘。
Transaction ID Items Bought
最小支持度 50%
2000 A,B,C
关联规则与关联分析
第一页,共36页。
• 2.使用Apriori性质剪枝:频繁项集的所有子集必须是频 繁的,对候选项C3,我们可以删除其子集为非频繁的选项:
– {所A,以B,删C}的除2这项个子选集项是;{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,
–
{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E} 所以删除这个选项;
confidence( A B) P( A | B) sup port _ count( A B) sup port _ count( A)
• 每个关联规则可由如下过程产生:
– 对于每个频繁项集l,产生l的所有非空子集;
– 对于每个非空子集s,如果
则输出规则“
” sup port _ count(l) min_ conf
• 关联规则的两个兴趣度度量
– 支持度 buys ( X , "computer") buys ( X , "software") – 置信度 [sup port 2%, confidence 60%]
第五页,共36页。
• 关联(association):两个或多个变量的取值之间存 在某种规律性。
集c’,使得每个包含c的事务也包含c’)
• (最大的频繁模式和频繁闭项集可以用来减少挖掘中产生的频繁项 集)
第十八页,共36页。
由事务数据库挖掘单维布尔关联规则
• 最简单的关联规则挖掘,即单维、单层、布尔关联
规则的挖掘。
Transaction ID Items Bought
最小支持度 50%
2000 A,B,C
关联规则与关联分析
第一页,共36页。
数据挖掘(第2版)-课件 第5章关联规则
• 如:规则{尿布}—>{啤酒}表示尿布和啤酒的销售之间存在关联—— “啤酒与尿布”的故事。
• 关联分析用以发现事物间存在的关联性,除了购物篮分析外,有广泛应用, 如:辅助决策——挖掘商场销售数据、发现商品间的联系;医疗诊断—— 用于发现某些症状与某种疾病之间的关联;网页挖掘——用于发现文档集 合中某些词之间的关联,发现主题词演化模式、学科发展趋势;电子商 务——进行产品的关联推荐等。
频繁项集
支持度不小于最小支持度阈值的项集
强关联规则
根据用户预先定义的支持度和置信度阈值,支持度不小于最小支持度阈值 并且置信度不小于最小置信度阈值的规则
5.2.1 基本概念(4)
关联分析挖掘的关联规则分类 根据处理值分类
布尔关联规则 量化关联规则
根据涉及维度分类
单维关联规则 多维关联规则
支持度 (support)
事务数据库D中包含项A和B的事务占所有 事务的百分比
可表示为:support(A,B ) P(A B ) (A B )/ N
5.2.1 基本概念(3)
置信度
事务数据库D中同时包含项A和B的事务占包含项A的事务的百分比
条件概率表示为: confindence(A,B ) P(B | A) (A B )/ (A)
根据数据抽象层次分类
单层关联规则 多层关联规则
【例5-1】 设有事务集合如表5-1,计算规则{bread,milk tea} 的支持度、置信度。
交易号TID
顾客购买的商品
ห้องสมุดไป่ตู้
交易号TID
T1
bread, cream, milk, tea
T6
T2
bread, cream, milk
T7
• 关联分析用以发现事物间存在的关联性,除了购物篮分析外,有广泛应用, 如:辅助决策——挖掘商场销售数据、发现商品间的联系;医疗诊断—— 用于发现某些症状与某种疾病之间的关联;网页挖掘——用于发现文档集 合中某些词之间的关联,发现主题词演化模式、学科发展趋势;电子商 务——进行产品的关联推荐等。
频繁项集
支持度不小于最小支持度阈值的项集
强关联规则
根据用户预先定义的支持度和置信度阈值,支持度不小于最小支持度阈值 并且置信度不小于最小置信度阈值的规则
5.2.1 基本概念(4)
关联分析挖掘的关联规则分类 根据处理值分类
布尔关联规则 量化关联规则
根据涉及维度分类
单维关联规则 多维关联规则
支持度 (support)
事务数据库D中包含项A和B的事务占所有 事务的百分比
可表示为:support(A,B ) P(A B ) (A B )/ N
5.2.1 基本概念(3)
置信度
事务数据库D中同时包含项A和B的事务占包含项A的事务的百分比
条件概率表示为: confindence(A,B ) P(B | A) (A B )/ (A)
根据数据抽象层次分类
单层关联规则 多层关联规则
【例5-1】 设有事务集合如表5-1,计算规则{bread,milk tea} 的支持度、置信度。
交易号TID
顾客购买的商品
ห้องสมุดไป่ตู้
交易号TID
T1
bread, cream, milk, tea
T6
T2
bread, cream, milk
T7
大数据技术及应用教学课件第7章 大数据分析挖掘-关联规则
第7章
大数据分析挖掘—关联规则
主要内容
01
关联规则的概念
02
关联规则挖掘的一般过程
03
Apriori算法
04
FP-Growth算法
05
关联模式评估
大数据分析挖掘——关联规则
7.1基本概念
• 设 I {x1, x2,xm}是项目的集合,其中的元素称为项目 (item),一个集合被称为一个项集,包含k个项的集合称为 k-项集。
项集 支持度计数
{I1,I2} 1
{I1,I3} 2
{I1,I5} 1
{I2,I3} 2
{I2,I5} 3
{I3,I5} 2
4.比较候选项支持度计数与最小支持度min_sup,产生2维最大项目集:
项集 支持度计数
{I1,I3} 2
{I2,I3} 2
{I2,I5} 3
{I3,I5} 2
5.由L2 产生候选项集 C3,比较候选项支持度计数与最小支持度 min_sup,产生3维最大项目集 L3 ,至此算法终止。
• FP-Growth算法(Frequent Pattern-Growth)是另一种 找出频繁项集的方法,与先生成规则再筛选的Apriori算 法不同,FP-Growth算法是将数据库中符合频繁1-项集规 则的事务映射在一种图数据结构中,即FP树,而后据此 再生成频繁项集,整个过程只需要扫描两次数据集。
表7.1 某商店购物清单 Item 2
Item 3
1
香草华夫
香蕉
狗粮
2
香蕉
3
香蕉
4
香草华夫
5
面包
6
牛奶
7
香草华夫
8
酸奶
9
大数据分析挖掘—关联规则
主要内容
01
关联规则的概念
02
关联规则挖掘的一般过程
03
Apriori算法
04
FP-Growth算法
05
关联模式评估
大数据分析挖掘——关联规则
7.1基本概念
• 设 I {x1, x2,xm}是项目的集合,其中的元素称为项目 (item),一个集合被称为一个项集,包含k个项的集合称为 k-项集。
项集 支持度计数
{I1,I2} 1
{I1,I3} 2
{I1,I5} 1
{I2,I3} 2
{I2,I5} 3
{I3,I5} 2
4.比较候选项支持度计数与最小支持度min_sup,产生2维最大项目集:
项集 支持度计数
{I1,I3} 2
{I2,I3} 2
{I2,I5} 3
{I3,I5} 2
5.由L2 产生候选项集 C3,比较候选项支持度计数与最小支持度 min_sup,产生3维最大项目集 L3 ,至此算法终止。
• FP-Growth算法(Frequent Pattern-Growth)是另一种 找出频繁项集的方法,与先生成规则再筛选的Apriori算 法不同,FP-Growth算法是将数据库中符合频繁1-项集规 则的事务映射在一种图数据结构中,即FP树,而后据此 再生成频繁项集,整个过程只需要扫描两次数据集。
表7.1 某商店购物清单 Item 2
Item 3
1
香草华夫
香蕉
狗粮
2
香蕉
3
香蕉
4
香草华夫
5
面包
6
牛奶
7
香草华夫
8
酸奶
9
数据挖掘方法——关联规则(自己整理)PPT课件
3.多层关联规则挖掘算法
对于很多的应用来说,由于数据分布的分散性,所以很难在数据最细节的层次上发现一些强 关联规则。当我们引入概念层次后,就可以在较高的层次上进行挖掘。虽然较高层次上得出的规 则可能是更普通的信息,但是对于一个用户来说是普通的信息,对于另一个用户却未必如此。所 以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。
(1)
如 :if A then B。则它的支持度Support=P(A and B) 2. Confidence(可信度):它是针对规则而言的。
Confidence=p(condition and result)/p(condition)。
(2)
如:If B and C then A。则它的可信度Confidence=p(B and C and A)/p(B and C)。 把满足最小支持度阈值和最小置信度阈值的规则成为强规则。项的集合称
多层关联规则的分类:根据规则中涉及到的层次,多层关联规则可以分为同层关联规则和层 间关联规则。
多层关联规则的挖掘基本上可以沿用“支持度-可信度”的框架。不过,在支持度设置的问题 上有一些要考虑的东西。
4.多维关联规则挖掘算法
对于多维数据库而言,除维内的关联规则外,还有一类多维的关联规则。例如:年龄(X, “20…30”) 职业(X,“学生”)==> 购买(X,“笔记本电脑”)在这里我们就涉及到三个 维上的数据:年龄、职业、购买。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和 预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小 支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集 合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定 义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被 留下来。为了生成所有频集,使用了递推的方法。
上课用课件:数据挖掘SAS(关联规则)
联规则:评判规则的标准
提升度
提升度指的是是两种可能性的比较,一种是在已知购买 了左边商品情况下购买右边商品的可能性,另一种是任 意情况下购买右边商品的可能性。两种可能性比较方式 可以定义为两种可能性的概率之差值,或者两种可能性 的概率之比值。 在SAS 软件中定义的提升度为两种可能性的概率之比 值。 即规则的可信度/包含规则右边商品的交易次数占总交 易量的比例。
confidence( A C ) P(C | A) P( A C ) / P( A) sup port( A C ) / sup port( A) 66.6%
Apriori算法 (1)
Apriori算法是挖掘布尔关联规则频繁项集的算法 Apriori算法利用的是Apriori性质:频繁项集的所有非 空子集也必须是频繁的。 A B 模式不可能比A更频繁的出现
频繁2-项集 L2 项集 支持频度
算法第3次扫描:最小支持频度2
连接项集 可用否 {A,B,C} Y 项集
3-项集C3
支持频度
{A,B}
{A,C} {A,E} {B,C}
4
4 2 4
{A,B,E}
{A,C,E} {B,C,D} {B,C,E} (B,D,E}
Y
N N N N
{A,B,C} 2
{A,B,E} 2
Lk-1中的两个元素L1和L2可以执行连接操作 l1 l2 的条件是
(l1[1] l2 [1]) (l1[2] l2 [2]) ... (l1[k 2] l2 [k 2]) (l1[k 1] l2 [k 1])
Ck是Lk的超集,即它的成员可能不是频繁的,但是所 有频繁的k-项集都在Ck中(为什么?)。因此可以通 过扫描数据库,通过计算每个k-项集的支持度来得到 Lk 。
提升度
提升度指的是是两种可能性的比较,一种是在已知购买 了左边商品情况下购买右边商品的可能性,另一种是任 意情况下购买右边商品的可能性。两种可能性比较方式 可以定义为两种可能性的概率之差值,或者两种可能性 的概率之比值。 在SAS 软件中定义的提升度为两种可能性的概率之比 值。 即规则的可信度/包含规则右边商品的交易次数占总交 易量的比例。
confidence( A C ) P(C | A) P( A C ) / P( A) sup port( A C ) / sup port( A) 66.6%
Apriori算法 (1)
Apriori算法是挖掘布尔关联规则频繁项集的算法 Apriori算法利用的是Apriori性质:频繁项集的所有非 空子集也必须是频繁的。 A B 模式不可能比A更频繁的出现
频繁2-项集 L2 项集 支持频度
算法第3次扫描:最小支持频度2
连接项集 可用否 {A,B,C} Y 项集
3-项集C3
支持频度
{A,B}
{A,C} {A,E} {B,C}
4
4 2 4
{A,B,E}
{A,C,E} {B,C,D} {B,C,E} (B,D,E}
Y
N N N N
{A,B,C} 2
{A,B,E} 2
Lk-1中的两个元素L1和L2可以执行连接操作 l1 l2 的条件是
(l1[1] l2 [1]) (l1[2] l2 [2]) ... (l1[k 2] l2 [k 2]) (l1[k 1] l2 [k 1])
Ck是Lk的超集,即它的成员可能不是频繁的,但是所 有频繁的k-项集都在Ck中(为什么?)。因此可以通 过扫描数据库,通过计算每个k-项集的支持度来得到 Lk 。
《数据挖掘关联规则》PPT课件
支持度s D中包含A和 B 的事务数与总的事务数的比
值 s(A B )|{ |T D |A B T}|| ||D ||
规则 AB 在数据集D中的支持度为s, 其中s 表示
D中包含AB (即同时包含A和B)的事务的百分 率.
8
度量有趣的关联规则
可信度 c D中同时包含A和B的事务数与只包含A的事务 数的比值
24
加权关联规则的描述
对于项目集 X、Y, X、Y,XI ∩Y =φ ,如果有 wsup( X ∪Y )≥wminsup,且 conf(X→Y)≥minconf, 则称 X→Y 是一条加权关联规则。
25
权值的设定
加权支持度 (1)、平均值: (2)、归一化:
(3)、最大值:
w'sup(x)1k(jk1wj)sup(x)
证明:设n为事务数.假设A是l个事务的子集,若 A’ A , 则A’ 为l’ (l’ l )个事务的子集.因此, l/n ≥s(最小 支持度), l’/n ≥s也成立.
18
Apriori 算法
Apriori算法是一种经典的生成布尔型关联规则的频 繁项集挖掘算法.算法名字是缘于算法使用了频繁项 集的性质这一先验知识.
方法: 由频繁k-项集生成候选(k+1)-项集,并且 在DB中测试候选项集
性能研究显示了Apriori算法是有效的和可伸缩 (scalablility)的.
21
The Apriori 算法—一个示例
Database TDB
Tid Items
10
A, C, D
20
B, C, E
C1
1st scan
threshold )
for each itemset l1 Lk-1
值 s(A B )|{ |T D |A B T}|| ||D ||
规则 AB 在数据集D中的支持度为s, 其中s 表示
D中包含AB (即同时包含A和B)的事务的百分 率.
8
度量有趣的关联规则
可信度 c D中同时包含A和B的事务数与只包含A的事务 数的比值
24
加权关联规则的描述
对于项目集 X、Y, X、Y,XI ∩Y =φ ,如果有 wsup( X ∪Y )≥wminsup,且 conf(X→Y)≥minconf, 则称 X→Y 是一条加权关联规则。
25
权值的设定
加权支持度 (1)、平均值: (2)、归一化:
(3)、最大值:
w'sup(x)1k(jk1wj)sup(x)
证明:设n为事务数.假设A是l个事务的子集,若 A’ A , 则A’ 为l’ (l’ l )个事务的子集.因此, l/n ≥s(最小 支持度), l’/n ≥s也成立.
18
Apriori 算法
Apriori算法是一种经典的生成布尔型关联规则的频 繁项集挖掘算法.算法名字是缘于算法使用了频繁项 集的性质这一先验知识.
方法: 由频繁k-项集生成候选(k+1)-项集,并且 在DB中测试候选项集
性能研究显示了Apriori算法是有效的和可伸缩 (scalablility)的.
21
The Apriori 算法—一个示例
Database TDB
Tid Items
10
A, C, D
20
B, C, E
C1
1st scan
threshold )
for each itemset l1 Lk-1
第5次课关联规则newppt课件
第5章 关联规则 关联规则挖掘简介
研究关联规则的目标:发现数据中的规律 超市中的什么产品经常会被一起购买;-啤酒与尿布 在购买了PC机后,顾客下一步一般购买什么产品; 如何自动对WEB文档分类; 用户上了CCTV网站后,一般将会去那些其他网站; 用户购买了“XXX”书后,一般还会购买什么书; 某一类纳税人在当月未纳税,则其下个月也不纳税的可能性
所有关联规则的数量非常巨大,前面提到5000种商品共有25000 种模式。但可用评分函数的优势,可以将平均运行时间将到一个可 以接受的范围。
第5章 关联规则
关联规则的基本模型及算法
关于评分函数
注意若P(A=1) ≤Ps,且P(B=1) ≤Ps中任何一个成立。则
P(A=1,B=1) ≤Ps。
因此,可以首先找概率大于Ps的所有单个事件(线性扫描一 次)。若事件(或一组事件)大于Ps,则称其为频繁项集(频繁 1项集)。然后,对这些频繁事件所有可能对作为容量为2的候选 频繁集合。
项集(itemset)
第5章 关联规则 关联规则挖掘简介
关于属性值-属性值离散化 若数据集的属性都是布尔值,则此数据集中挖掘的关联
规则都是布尔关联规则。其它属性可以进行转换。可以将非布 尔值数据转换为布尔数据值。
TID
Age
Salary
1
35
3200
2
43
4600
3
56
3700
4
24
2100
…
…
…
第5章 关联规则
关联规则的基本模型及算法
{}
a
b
c
d
e
ab ac ad ae bc bd be
cd ce
de
第4章数据挖掘的主要方法关联规则ppt课件
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。 Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找 频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到 频繁k-项集。找每个Lk需要一次数据库扫描。 该算法利用了一个基本性质: 一个频繁项目集的任一子集必定也 是频繁项目集,一个非频繁项目集的任一超集必定也是非频繁项 目集。
3
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
关联规则简介
设I={i1,i2,...,im}是数据项的集合。设D为与任务相关的数据集合, 也 就是一个交易数据库,其中每个交易T是一个数据项子集合,即 T I;每一个交易有一个标识符,称作TID。设A是一个数据项集, 交易T包含A当且仅当A T。 关联规则是形如A->B形式的蕴含式,其中A I,B I,并且 A∩B= 。
19
6
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
关联规则简介
“如何由大型数据库挖掘关联规则?” 关联规则的挖掘是一个两步的过程: 1.找出所有频繁项集:根据定义,这些项集出现的频繁性至少和 预定义的最小支持计数一样。 2.由频繁项集产生强关联规则:根据定义,这些规则必须满足最 小支持度和最小置信度。 如果愿意,也可以使用附加的兴趣度度量。这两步中,第二步最 容易。挖掘关联规则的总体性能由第一步决定。
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
3
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
关联规则简介
设I={i1,i2,...,im}是数据项的集合。设D为与任务相关的数据集合, 也 就是一个交易数据库,其中每个交易T是一个数据项子集合,即 T I;每一个交易有一个标识符,称作TID。设A是一个数据项集, 交易T包含A当且仅当A T。 关联规则是形如A->B形式的蕴含式,其中A I,B I,并且 A∩B= 。
19
6
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
关联规则简介
“如何由大型数据库挖掘关联规则?” 关联规则的挖掘是一个两步的过程: 1.找出所有频繁项集:根据定义,这些项集出现的频繁性至少和 预定义的最小支持计数一样。 2.由频繁项集产生强关联规则:根据定义,这些规则必须满足最 小支持度和最小置信度。 如果愿意,也可以使用附加的兴趣度度量。这两步中,第二步最 容易。挖掘关联规则的总体性能由第一步决定。
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
《关联规则七章》PPT课件_OK
第7章 关联规则
❖ 7.1 关联规则 ❖ 7.2 关联规则的挖掘方法 ❖ 7.3 算法与讨论 ❖ 7.4 Apriori算法(操作实例)
1
7.1 关联规则-引言
❖ 关联:是两个或多个变量取值之间存在的一类重要的 可被发现的某种规律性
❖ 关联可分为简单关联、时序关联、因果关联
❖ 关联分析:目的是寻找给定数据记录集中数据项之间 隐藏的关联关系,描述数据之间的密切度
❖ 多层关联规则:
变量涉及不同抽象层次的项或属性。 如:age(X,“30…39”) → buys(X, “laptop computer”);
age(X,“30…39”) → buys(X, “computer”) 顾客X购买的商品涉及不同抽象层次(“computer” 比
“laptop computer”抽象层次更高)
❖ 关联规则:是关联分析的常见结果,用于寻找在同一 个事件中出现的不同项的相关性
关联规则发现的主要对象是交易型数据库;
关联规则是描述在一个交易中物品之间同时出现的
规律的知识模式,更确切的说,关联规则是通过量
化的数字描述物品A的出现对物品B的出现有多大
的影响
2
7.1 关联规则-例子
购物篮分析-引发关联规则挖掘的例子
4
7.1 关联规则-概念-2
❖ 关联规则的支持度和可信度 支持度是重要性的度量;可信度是准确度的度量
❖ 规则 A→B具有支持度S,表示S是D中事务包含AUB的 百分比,即联合概率P(AUB),也可以表示为: support(A→B)= P(AUB) = (包含A和B的事务数 / 事务总 数)×100%
P(B|A)/P(B)
7
7.1 关联规则-概念-小结
❖ 7.1 关联规则 ❖ 7.2 关联规则的挖掘方法 ❖ 7.3 算法与讨论 ❖ 7.4 Apriori算法(操作实例)
1
7.1 关联规则-引言
❖ 关联:是两个或多个变量取值之间存在的一类重要的 可被发现的某种规律性
❖ 关联可分为简单关联、时序关联、因果关联
❖ 关联分析:目的是寻找给定数据记录集中数据项之间 隐藏的关联关系,描述数据之间的密切度
❖ 多层关联规则:
变量涉及不同抽象层次的项或属性。 如:age(X,“30…39”) → buys(X, “laptop computer”);
age(X,“30…39”) → buys(X, “computer”) 顾客X购买的商品涉及不同抽象层次(“computer” 比
“laptop computer”抽象层次更高)
❖ 关联规则:是关联分析的常见结果,用于寻找在同一 个事件中出现的不同项的相关性
关联规则发现的主要对象是交易型数据库;
关联规则是描述在一个交易中物品之间同时出现的
规律的知识模式,更确切的说,关联规则是通过量
化的数字描述物品A的出现对物品B的出现有多大
的影响
2
7.1 关联规则-例子
购物篮分析-引发关联规则挖掘的例子
4
7.1 关联规则-概念-2
❖ 关联规则的支持度和可信度 支持度是重要性的度量;可信度是准确度的度量
❖ 规则 A→B具有支持度S,表示S是D中事务包含AUB的 百分比,即联合概率P(AUB),也可以表示为: support(A→B)= P(AUB) = (包含A和B的事务数 / 事务总 数)×100%
P(B|A)/P(B)
7
7.1 关联规则-概念-小结
最新《数据挖掘及其应用讲义》应用-关联规则教学讲义ppt课件
规则5 说明《数据库原理》成绩在80~90 分之间,《计算 机网络》也在80~90分之间的支持度为58.4%,置信度为 76.5%,
规则6 说明《高级语言程序设计》在80~90 分之间,《计 算机网络》也在80~90 分之间的支持度为56.9%,置信度 为83.4%,这两个规则虽然可信度和置信度都较高, 但实际 究竟有无关联需要深入探讨。
《数据挖掘及其应用讲义》 应用-关联规则
1 关联规则
设I={I1,I2,…,Im}是一组数据项集合, D是与任务相关的数 据集合,也称为交易数据库。其中每个交易T是一个数据项 子集,T∈I。关联规则是如下形式的一种蕴含: A B ,表示 If conditions then result
其中A∈I,B∈I,且A∩B= 。一般用支持度、可信 度、期望可信度、作用度4个参数来描述一个
2.1 数据清理 原始数据库中包含全校各个专业、各个年级、各门课程
的所有成绩, 某些记录难免会有一些差错或者从经验上看没 有关联,为了便于进行数据挖掘,只选取01 届计算机专业 学生的《计算机网络》等8门课程成绩作为挖掘对象,去掉 所有其他不必要的字段,删除空白以及数据有缺失的记录。 清理后的数据表部分数据如图1 所示。
规则2 说明《计算机基础》成绩在70~80 分之间,《工科 高 数 》 在 80 ~ 90 分 之 间 的 支 持 度 为 55.8%, 置 信 度 为 87.2%, 虽然可信度和置信度都达到了要求,但根据实际经 验,两者并无直接关联,实际工作中可以不予考虑。其他 规则同样如此, 需要决策者根据实际情况具体研究,有分 析地借鉴参考。
4 结果与分析
规则1说明,《数据结构》成绩在80~90 分之间,《高级 语言程序设计》成绩也在80~90分之间的支持度为66.8%, 置信度为89.2%,说明学好《数据结构》课程对学好《高级语 言课程》起到关键作用,以后安排课程时可以将《数据结构》 安排在前,教师授课中要督促学生学好这门课程,打好基础。
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
c(A B )||{T D |A B T}|| ||{T D |A T}||
规则 AB 在数据集D中的可信度为c, 其中c表示D
中包含A的事务中也包含B的百分率.即可用条件概率
P(B|A)表示. confidence(A B )=P(B|A) 条件概率 P(B|A) 表示A发生的条件下B也发生的
概率.
12
Step two:强关联规则
给定一个项集,容易生成关联规则. 项集: {Chips, Salsa, Beer} Beer, Chips => Salsa Beer, Salsa => Chips Chips, Salsa => Beer
强规则是有趣的 强规则通常定义为那些满足最小支持度和最小 可信度的规则.
精品
数据挖掘关联规则
内容提要
引言 Apriori 算法 Frequent-pattern tree 和FP-growth 算法 多维关联规则挖掘 相关规则 基于约束的关联规则挖掘 总结
2
关联规则
关联规则表示了项之间的关系 示例:
cereal, milk fruit “买谷类食品和牛奶的人也会买水果.” 商店可以把牛奶和谷类食品作特价品以使人们买更多的水
I是什么? 事务ID B的T是什么? s(Chips=>Salsa) 是什么? c(Chips=>Salsa)是什么?
11
Step one: 频繁项集
项集 – 任意项的集合 k-项集 – 包含k个项的项集 频繁 (或大)项集 – 满足最小支持度的项集 若I包含m个项,那么可以产生多少个项集?
13
关联规则挖掘
两个基本步骤 Step one:找出所有的频繁项集 满足最小支持度 Step two:找出所有的强关联规则 由频繁项集生成关联规则 保留满足最小可信度的规则
14
内容提要
引言 Apriori 算法 Frequent-pattern tree 和FP-growth 算法 多维关联规则挖掘 相关规则 基于约束关联规则挖掘 总结
我们是否可假定? Chips => Salsa
Lettuce => Spinach
4
基本概念
通常, 数据包含:
TID 事务 ID
Basket 项的子集
5
关联规则挖掘
在事务数据库,关系数据库和其它信 息库中的项或对象的集合之间,发现 频繁模式,关联,相关,或因果关系的 结构.
频繁模式: 数据库中出现频繁的模式 (项集,序列,等等)
15
生成频繁项集
Naïve algorithm
n <- |D| for each subset s of I do
l <- 0 for each transaction T in D do
if s is a subset of T then l <- l + 1
if minimum support <= l/n then add s to frequent subsets
19
生成频繁项集
中心思想: 由频繁(k-1)-项集构建候选k-项集 方法
果.
3
市场购物篮分析
分析事务数据库表
Perso n A B
C D
Basket
Chips, Salsa, Cookies, Crackers, Coke, Beer Lettuce, Spinach, Oranges, Celery, Apples, Grapes Chips, Salsa, Frozen Pizza, Frozen Cake Lettuce, Spinach, Milk, Butter
16
生成频繁项集
naïve algorithm的分析
I 的子集: O(2m)
为每一个子集扫描n个事务 测试s为T的子集: O(2mn) 随着项的个数呈指数级增长! 我们能否做的更好?
17
Apriori 性质
定理(Apriori 性质): 若A是一个频繁项集,则A的每 一个子集都是一个频繁项集.
支持度s D中包含A和 B 的事务数与总的事务数的比
值
s(A B )||{T D |A B T}|| ||D ||
规则 AB 在数据集D中的支持度为s, 其中s 表
示D中包含AB (即同时包含A和B)的事务的 百分率.
8
度量有趣的关联规则
可信度 c D中同时包含A和B的事务数与只包含A的事务 数的比值
6
基本概念
项集
I{i1,i2,..i.m},
Transacti on-id
事务
T I
10
20
关联规则 AB
30
AI,BI,AB 40
Items bought A, B, C
A, C A, D B, E, F
事务数据集 (例如右图) D
事务标识 TID: 每一个事务关联着一个标识
7
度量有趣的关联规则
9
度量有趣的关联规则
关联规则根据以下两个标准(包含或排除):
最小支持度 – 表示规则中的所有项在事
务中出现的频度
最小可信度 - 表示规则中左边的项(集)
的出现暗示着右边的项(集)出现的频度
10
市场购物篮分析
事务 ID A B
C D
购物篮 Chips, Salsa, Cookies, Crackers, Coke, Beer Lettuce, Spinach, Oranges, Celery, Apples, Grapes Chips, Salsa, Frozen Pizza, Frozen Cake Lettuce, Spinach, Milk, Butter, Chips
证明:设n为事务数.假设A是l个事务的子集,若 A’ A , 则A’ 为l’ (l’ l )个事务的子集.因此, l/n ≥s(最小支持度), l’/n ≥s也成立.
18
Apriori 算法
Apriori算法是一种经典的生成布尔型关联规则的频 繁项集挖掘算法.算法名字是缘于算法使用了频繁项 集的性质这一先验知识.
思想: Apriori 使用了一种称作level-wise搜索的迭 代方法,其中k-项集被用作寻找(k+1)-项集. 首先,找出频繁1-项集,以L1表示.L1用来寻找L2,即频 繁2-项集的集合.L2用来寻找L3,以此类推,直至没有 新的频繁k-项集被发现.每个Lk都要求对数据库作一 次完全扫描..
规则 AB 在数据集D中的可信度为c, 其中c表示D
中包含A的事务中也包含B的百分率.即可用条件概率
P(B|A)表示. confidence(A B )=P(B|A) 条件概率 P(B|A) 表示A发生的条件下B也发生的
概率.
12
Step two:强关联规则
给定一个项集,容易生成关联规则. 项集: {Chips, Salsa, Beer} Beer, Chips => Salsa Beer, Salsa => Chips Chips, Salsa => Beer
强规则是有趣的 强规则通常定义为那些满足最小支持度和最小 可信度的规则.
精品
数据挖掘关联规则
内容提要
引言 Apriori 算法 Frequent-pattern tree 和FP-growth 算法 多维关联规则挖掘 相关规则 基于约束的关联规则挖掘 总结
2
关联规则
关联规则表示了项之间的关系 示例:
cereal, milk fruit “买谷类食品和牛奶的人也会买水果.” 商店可以把牛奶和谷类食品作特价品以使人们买更多的水
I是什么? 事务ID B的T是什么? s(Chips=>Salsa) 是什么? c(Chips=>Salsa)是什么?
11
Step one: 频繁项集
项集 – 任意项的集合 k-项集 – 包含k个项的项集 频繁 (或大)项集 – 满足最小支持度的项集 若I包含m个项,那么可以产生多少个项集?
13
关联规则挖掘
两个基本步骤 Step one:找出所有的频繁项集 满足最小支持度 Step two:找出所有的强关联规则 由频繁项集生成关联规则 保留满足最小可信度的规则
14
内容提要
引言 Apriori 算法 Frequent-pattern tree 和FP-growth 算法 多维关联规则挖掘 相关规则 基于约束关联规则挖掘 总结
我们是否可假定? Chips => Salsa
Lettuce => Spinach
4
基本概念
通常, 数据包含:
TID 事务 ID
Basket 项的子集
5
关联规则挖掘
在事务数据库,关系数据库和其它信 息库中的项或对象的集合之间,发现 频繁模式,关联,相关,或因果关系的 结构.
频繁模式: 数据库中出现频繁的模式 (项集,序列,等等)
15
生成频繁项集
Naïve algorithm
n <- |D| for each subset s of I do
l <- 0 for each transaction T in D do
if s is a subset of T then l <- l + 1
if minimum support <= l/n then add s to frequent subsets
19
生成频繁项集
中心思想: 由频繁(k-1)-项集构建候选k-项集 方法
果.
3
市场购物篮分析
分析事务数据库表
Perso n A B
C D
Basket
Chips, Salsa, Cookies, Crackers, Coke, Beer Lettuce, Spinach, Oranges, Celery, Apples, Grapes Chips, Salsa, Frozen Pizza, Frozen Cake Lettuce, Spinach, Milk, Butter
16
生成频繁项集
naïve algorithm的分析
I 的子集: O(2m)
为每一个子集扫描n个事务 测试s为T的子集: O(2mn) 随着项的个数呈指数级增长! 我们能否做的更好?
17
Apriori 性质
定理(Apriori 性质): 若A是一个频繁项集,则A的每 一个子集都是一个频繁项集.
支持度s D中包含A和 B 的事务数与总的事务数的比
值
s(A B )||{T D |A B T}|| ||D ||
规则 AB 在数据集D中的支持度为s, 其中s 表
示D中包含AB (即同时包含A和B)的事务的 百分率.
8
度量有趣的关联规则
可信度 c D中同时包含A和B的事务数与只包含A的事务 数的比值
6
基本概念
项集
I{i1,i2,..i.m},
Transacti on-id
事务
T I
10
20
关联规则 AB
30
AI,BI,AB 40
Items bought A, B, C
A, C A, D B, E, F
事务数据集 (例如右图) D
事务标识 TID: 每一个事务关联着一个标识
7
度量有趣的关联规则
9
度量有趣的关联规则
关联规则根据以下两个标准(包含或排除):
最小支持度 – 表示规则中的所有项在事
务中出现的频度
最小可信度 - 表示规则中左边的项(集)
的出现暗示着右边的项(集)出现的频度
10
市场购物篮分析
事务 ID A B
C D
购物篮 Chips, Salsa, Cookies, Crackers, Coke, Beer Lettuce, Spinach, Oranges, Celery, Apples, Grapes Chips, Salsa, Frozen Pizza, Frozen Cake Lettuce, Spinach, Milk, Butter, Chips
证明:设n为事务数.假设A是l个事务的子集,若 A’ A , 则A’ 为l’ (l’ l )个事务的子集.因此, l/n ≥s(最小支持度), l’/n ≥s也成立.
18
Apriori 算法
Apriori算法是一种经典的生成布尔型关联规则的频 繁项集挖掘算法.算法名字是缘于算法使用了频繁项 集的性质这一先验知识.
思想: Apriori 使用了一种称作level-wise搜索的迭 代方法,其中k-项集被用作寻找(k+1)-项集. 首先,找出频繁1-项集,以L1表示.L1用来寻找L2,即频 繁2-项集的集合.L2用来寻找L3,以此类推,直至没有 新的频繁k-项集被发现.每个Lk都要求对数据库作一 次完全扫描..