关联规则与关联分析教学教材
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关联规则挖掘分类 (1)
• 关联规则有多种分类:
– 根据规则中所处理的值类型
• 布尔关联规则
com pfiunta e_m r ncain aa l_sgoefm tweanrte
• 量化关联规则(规则描述的是量化的项或属性间的关联性)
a( X g ," 3 . e 3 .0 " ) . 9 in( X c ," 4 o k .4 2 .m k . " ) 8 b e( u X ," c yo s" ) m – 根据规则中涉及的数据维
什么是关联规则挖掘?
• 关联规则挖掘:
– 从事务数据库,关系数据库和其他信息存储中 的大量数据的项集之间发现有趣的、频繁出现 的模式、关联和相关性。
• 应用:
– 购物篮分析、分类设计、捆绑销售等
“尿布与啤酒”——典型关联分析 案例
• 采用关联模型比较典型的案例是“尿布与 啤酒”的故事。在美国,一些年轻的父亲 下班后经常要到超市去买婴儿尿布,超市 也因此发现了一个规律,在购买婴儿尿布 的年轻父亲们中,有30%~40%的人同时 要买一些啤酒。超市随后调整了货架的摆 放,把尿布和啤酒放在一起,明显增加了 销售额。同样的,我们还可以根据关联规 则在商品销售方面做各种促销活动。
• 项集的一个重要性质就是它的支持度计数 ,即包含特定项集的事务个数,数学上, 项集X的支持度计数σ(X)可以表示为: σ (X)=|{ti|X≤ti,ti∈T}|
• 关联规则是形如X→Y的蕴含表达式,其中 X和Y是不相交的项集。
• 关联规则的强度可以用它的支持度 (support)和置信度(confidence)度量。 支持度确定了规则可以用于给定数据集的 频繁程度,而置信度确定了Y包含X的事务 中出现的频繁程度。
• 每个事务ti包含的项集都是I的子集。 • 在关联分析中,包含0个或者多个项的集合
被称为项集(itemset) • 如果一个项集包含k个项,则称它为k-项集。
例如{啤酒,尿布,牛奶}是一个3-项集。 • 空集是指不包含任何项的项集。
• 事务的宽度定义为事务中出现项的个数。
• 如果项集X是事务tj的子集,则称事务tj包含 项集X。
关联规则挖掘的基本过程与分类
• 关联规则挖掘的基本过程 • 关联规则挖掘的分类
关联规则挖掘的基本过程
• 给定事务的集合T,关联规则发现是指找出 支持度大于等于minsup,并且置信度大于 等于minconf的所有规则,其中minsup和 minconf是对应的支持度和置信度的阈值。
原始关联规则挖掘方法:
规则度量:支持度和置信度
Customer buys both
Customer buys diaper
• 对所有满足最小支持度 和置信度的关联规则
– 支持度s是指事务集D中 包含 AB 的百分比
su p( p o A r B ) tP (A B )
Customer buys beer
TID 2000 1000 4000 5000
• 关联分析(association analysis):用于发现隐 藏在大型数据集中的令人感兴趣的联系。所发现 的联系可以用关联规则或者频繁项集的形式表示。 关联规则挖掘就是从大量的数据中挖掘出描述数 据项之间相互联系的有价值的有关知识。
• 应用:购物篮分析、生物信息学、医疗诊断、 Web挖掘、科学数据分析、分类设计、捆绑销售 和亏本销售分析
购物篮事务的例子
TID
项集
1
{面包,牛奶}
2
{面包,尿布,啤酒,鸡蛋}
3
{牛奶,尿布,啤酒,可乐}
4
{面包,牛奶,尿布,啤酒}
5
Hale Waihona Puke Baidu
{面包,牛奶,尿布,可乐}
第一节 关联规则基本概念和关联规则挖掘分类
• 关联规则的基本概念 • 关联规则挖掘的基本过程与分类
关联规则的基本概念
• 令I={i1, i2, ……,id}是购物篮数据中所 有项的集合,而T={t1, t2, ……,tn}是所 有事务的集合。
• 关联规则的两个兴趣度度量 – 支持度 bu(y X,s"com"p ) ubtu e(ry X,s"soft"w ) – 置信度 [su pp or2% t c,onfid6e % 0n]ce
• 关联(association):两个或多个变量的取值之 间存在某种规律性。
• 关联规则(association rule):指在同一个事件 中出现的不同项的相关性。
购买的item A,B,C A,C A,D B,E,F
– 置信度c是指D中包含A 的事务同时也包含B的百 分比
con (A fB i) d P ( B e |A )n P (A c B e )/P (A )
• 假设最小支持度为50%, 最小置信度为50%,则 有如下关联规则
– A C (50%, 66.6%) – C A (50%, 100%)
第四章 关联规则与关联分析
摘要
• 关联规则挖掘是数据挖掘中成果颇丰而且 比较活跃的研究分支。本章主要介绍了关 联规则挖掘的基本概念及其分类,以单维 单层布尔关联规则的挖掘理论为切入点, 介绍关联规则挖掘理论模型以及算法方面 的内容,并简单扼要介绍了多层关联规则 挖掘、多维关联规则挖掘的相关内容,最 后通过一个实例给出了关联分析的医学应 用。
• 计算每一个可能规则的支持度和置信度。 但是这种方法由于过高的代价而让人望而 却步。
关联规则挖掘任务的步骤
• 找出所有频繁项集:其目标是发现满足最 小支持度阈值的所有项集,这些项集称作 频繁项集(frequent itemset)
• 由频繁项集产生强关联规则:其目标是从 上一步发现的频繁项集中提取所有高置信 度的规则,这些规则称作强规则(strong rule)
• 单维关联规则 • (仅涉及buys这个维)
bu (X y ,"csom ") p bu u (X ty ,e "ss rof"t)ware
购物篮分析
• 如果问题的全域是商店中所有商品的集合,则对 每种商品都可以用一个布尔量来表示该商品是否 被顾客购买,则每个购物篮都可以用一个布尔向 量表示;而通过分析布尔向量则可以得到商品被 频繁关联或被同时购买的模式,这些模式就可以 用关联规则表示(0001001100,这种方法丢失了什么信息?)