关联规则挖掘
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Mart)拥有世上最大的数据仓库系统之一。为 了能够准确了解顾客在其门店的购买习惯,沃 尔玛对其顾客的购物行为进行了购物篮关联规 则分析,从而知道顾客经常一起购买的商品有 哪些。 跟尿不湿一起购买最多的商品竟是啤酒”!这 是数据挖掘技术对历史数据进行分析的结果, 反映的是数据的内在规律。 那么这个结果符合现实情况吗?是否是一个有 用的知识?是否有利用价值?
交易(transaction):定义I
T09
T10
B C M T
B M T
为所有商品的集合,在这个 例子中I={B C M T}。每个非 空的I子集都成为一个交易。 所有交易构成交易数据库D。
关联规则
设
I={i1,i2,…,im}是项(Item)的集合。记D 为事务(Transaction)的集合(事务数据库), 事务T是项的集合,并且TI。 设A是I中一个项集,如果AT,那么称事务T 包含A。
的出现对物品集B 的出现有多大的影响。
定义4:兴趣度:
I ( A B)
P ( AB) P ( A) P ( B)
公式反映了项集A与项集B的相关程度。 若
I ( A B) 1 即 P( AB) P( A) P( B)
表示项集A出现和项集B是相互独立的。
若 I(A B ) <1
B:bread C:cream M:milk T:tea
项目(item):其中的B C M
T 都称作item。
项集(itemset):item的集合,
例如{B C}、{C M T}等,每 个顾客购买的都是一个项集。 其中,项集中item的个数称为 项集的长度,含有k个item的 项集成为K-itemset.
4
美国折扣零售商塔吉特与怀孕预测
美国一名男子闯入他家附近的一家
美国零售连锁超市Target店铺(美国 第三大零售商塔吉特)进行抗议: “你们竟然给我17岁的女儿发婴儿尿 片和童车的优惠券。”
店铺经理立刻向来者承认错误,但
是其实该经理并不知道这一行为是 总公司运行数据挖掘的结果。如图 所示。一个月后,这位父亲来道歉, 因为这时他才知道他的女儿的确怀 孕了。Target比这位父亲知道他女儿 怀孕的时间足足早了一个月。
为弱关联规则。
数据挖掘主要就是对强规则的挖掘。
3. 关联规则挖掘过程
关联规则的挖掘一般分为两个过程:
(1)找出所有的频繁项集:找出支持度大 于最小支持度的项集,即频繁项集。 (2)由频繁项集产生(强)关联规则:根 据定义,这些规则必须满足最小支持度和 最小可信度。
中,物品集B 也同时出现的概率 规则AB具有可信度C,表示C是条件概 率P(B|A),即: | AB |
C (A B) P( B | A) |A|
其中
| A|
表示数据库中包含项集A的事务
个数。
小结
可信度是对关联规则的准确度的衡量,支
持度是对关联规则重要性的衡量。支持度 说明了这条规则在所有事务中有多大的代 表性。
买的人数占总人数的比例,即800/10000=8%,有8%的用户 同时购买了A和B两个产品;
可信度
可信度指的是在购买了一个产品之后购买另外一个产品的可能
性,如购买了A产品之后购买B产品的可信度=800/1000=80%
作用度(兴趣度)
讨论两种事务的比较关系
AB
作用度是两种可能性的比较,描述物品集A
6
大数据分析核心手段、技术
数据处理 数据挖掘 模型预测
概念
数据挖掘(Data Mining) 是通过分析每个数据,从大量
数据中寻找其规律的技术,主要有数据准备、规律寻找 和规律表示3个步骤。 数据挖掘的任务有关联分析、聚类分析、分类分析、异 常分析、特异群组分析和演变分析等。
关联分析是指如果两个或多个事物之间存在一定的关联,
显然支持度越大,关联规则越重要。有些 关联规则可信度虽然很高,但支持度却很 低,说明该关联规则实用的机会很小,因
此也不重要。
理解:关联分析中的三个重要的概念
支持度
举例:
10000个人购买了产品,其中购买A产品的人是1000个,购买 B产品的人是2000个,AB同时购买的人是800个。 支持度指的是关联的产品(假定A产品和B产品关联)同时购
2关联规则挖掘
在关联规则的三个属性中,支持度和可信
度能够比较直接形容关联规则的性质
事实上,人们一般只对满足一定的支持度
和可信度的关联规则感兴趣。
因此,为了发现有意义的关联规则,需要 由用户给定两个阈值:
最小支持度(min_sup)和最小可信度
(min_conf)
频繁项集
如果项集满足最小支持度,则它称之为
3
尿不湿和啤酒
经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒” 背后的美国消费者的一种行为模式: 在美国,到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工 作,而他们中有30%~40%的人同时也会为自己买一些啤酒。产生 这一现象的原因是:美国的太太们常叮嘱她们的丈夫不要忘了下班 后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢 的啤酒。另一种情况是丈夫们在买啤酒时突然记起他们的责任,又 去买了尿不湿。既然尿不湿与啤酒一起被购买的机会很多,那么沃 尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起,结果 是得到了尿不湿与啤酒的销售量双双增长。 按常规思维,尿不湿与啤酒风马牛不相及,若不是借助数据挖掘技 术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内这一 有价值的规律的。
频繁项集(Frequent Itemset)。
强规则
定义5:强关联规则。
同时满足最小支持度(min_sup)和最小可 信度(min_conf)的规则称之为强关联规 则,即 S (A B) min_sup 且C(A B) min_conf
成立时,规则称之为强关联规则,否则称
支持度描述了A 和B 这两个物品集在所有的 事务中同时出现的概率有多大。
规则AB在数据库D中具有支持度S,即概
率P(AB),即: S (A B) P(AB) | AB |
|D|
其中|D|表示事务数据库D的个数,表示A、
B两个项集同时发生的事务个数。
可信度
定义3:规则的可信度 可信度就是指在出现了物品集A 的事务T
S
C
I
1 2 3 4 5 6 7 8
0.2 0.2 0.05 0.05 0.7 0.7 0.05 0.05
0.8 0.22 0.2 0.5 0.93 0.78 0.067 0.2
0.89 0.89 2 2 1.037 1.037 0.67 0.87
讨论I1﹑I2﹑I3﹑I6共4条规则: 由于I1,I2<1, 在实际中它的价值不大; I3,I6>1,规则才有价值。
识模式。
更确切的说,关联规则通过量化的数字描述物 品甲的出现对物品乙的出现有多大的影响
现实中,这样的例子很多。
例如超级市场利用前端收款机收集存储了大量的售货数
据,这些数据是一条条的购买事务记录,每条记录存储 了
事务处理时间, 顾客购买的物品、 物品的数量及金额等。
这些数据中常常隐含形式如下的关联规则:在购买铁 锤的顾客当中,有70 %的人同时购买了铁钉。 这些关联规则很有价值,商场管理人员可以根据这些 关联规则更好地规划商场,如把铁锤和铁钉这样的商品 摆放在一起,能够促进销售。
5Leabharlann 美国折扣零售商塔吉特与怀孕预测
塔吉特公司能在不被清楚告知的情况下预测出一个女性
的怀孕情况 该公司找出了大概20多种与怀孕的关联物,给顾客进行 “怀孕趋势”评分 这些数据甚至使得零售商能够比较准确地预测预产期, 这样就能够在孕期的每个阶段给客户寄送相应的优惠券 Target能够通过分析女性客户购买记录,“猜出”哪些 是孕妇。他们从Target的数据仓库中挖掘出25项与怀孕 高度相关的商品,制作“怀孕预测”指数。比如他们发 现女性会在怀孕四个月左右,大量购买无香味乳液。以 此为依据推算出预产期后,就抢先一步将孕妇装、婴儿 床等折扣券寄给客户来吸引客户购买。
兴趣度I不小于0。
例
设交易集D,经过对D的分析,得到表格:
买咖啡
买牛奶 不买牛奶 合计 20 70 90
不买咖啡
5 5 10
合计
25 75 100
所有可能的关联规则
Rules
买牛奶→买咖啡 买咖啡→买牛奶 买牛奶→不买咖啡 不买咖啡→买牛奶 不买牛奶→买咖啡 买咖啡→不买牛奶 不买牛奶→不买咖啡 不买咖啡→不买牛奶
关联规则挖掘(Association Rule)
在数据挖掘的知识模式中,关联规则模式是比 较重要的一种。
关联规则的概念由Agrawal、Imielinski、Swami
提出,是数据中一种简单但很实用的规则。
在数据库的知识发现中,关联规则就是描述这 种在一个事务中物品之间同时出现的规律的知
表示A出现和B出现是负相关的。
若 I(A B ) >1
表示A出现和B出现是正相关的。意味着A的出现 蕴含B的出现。
一条规则的兴趣度越大于1说明我们对这条规
则越感兴趣(即其实际利用价值越大);
一条规则的兴趣度越小于1说明我们对这条规
则的反面规则越感兴趣(即其反面规则的实际 利用价值越大);
关联规则分析拓展
1)商业销售上,如何通过交叉销售得到更大的收
入? 2)保险方面,如何分析索赔要求发现潜在的欺诈 行为? 3)银行方面,如何分析顾客消费行业,以便有针 对性地向其推荐感兴趣的服务? 4)哪些制造零件和设备设置与故障事件关联? 5)哪些病人和药物属性与结果关联? 6)哪些商品是已经购买商品A的人最有可能购买 的?
购物篮分析
“啤酒和尿布”的故事是营销届的神话, “啤酒”和“尿布”两个看上去没有关系的 商品摆放在一起进行销售、并获得了很好的 销售收益,这种现象就是卖场中商品之间的 关联性。 研究“啤酒与尿布”关联的方法就是购物 篮分析,购物篮分析是沃尔玛秘而不宣的独 门武器,购物篮分析可以帮助我们在门店的 销售过程中找到具有关联关系的商品,并以 此获得销售收益的增长!
案例回顾
沃尔玛,请把蛋挞与飓风用品摆在一起
通过对历史交易记录这个庞大数据库进行
观察,沃尔玛注意到,每当季节性飓风来 临之前,不仅手电筒销量增加,而且美式 早餐含糖零食蛋挞销量也增加了。
因此每当季节性飓风来临时,沃尔玛就会 把蛋挞与飓风用品摆放在一起,从而增加 销量。
2
尿不湿和啤酒
超级商业零售连锁巨无霸沃尔玛公司(Wal
定义1:关联规则是形如AB的蕴涵式,
这里AI,BI,并且AB=。
度量规则的指标
支持度(support)
可信度(confidence)
作用度/兴趣度(Lift)
支持度
定义2:规则的支持度。
Customer buys beer
Customer buys both
Customer buys diaper
兴趣度也称为作用度(Lift),表示关联规 则A→B的“提升”。如果作用度(兴趣度) 不大于1,则此关联规则就没有意义了。
小结
作用度描述了物品集A 对物品集B 的影响力
的大小。 作用度越大,说明物品集B 受物品集A 的影 响越大。
一般情况,有用的关联规则的作用度都应 该大于1,说明A 的出现对B 的出现有促进 作用,也说明了它们之间某种程度的相关 性,如果作用度不大于1,则此关联规则也 就没有意义了。
那么其中一个事物就能通过其他事物进行预测.它的目的 是为了挖掘隐藏在数据间的相互关系 。
典型的关联规则发现问题是对超市中的货
篮数据(Market Basket)进行分析。通过 发现顾客放入货篮中的不同商品之间的关 系来分析顾客的购买习惯。
数据关联
经典案例:沃尔玛的啤酒和尿布的故事
关 联 规 则
问题
如何从交易记录数据库或关系数据库的大量数 据中挖掘出关联规则知识?
什么样的关联规则才是最有意义的? 如何才能帮助挖掘过程尽快发现有价值的关联 知识?
1关联规则基本概念
交易ID(TID)购买商品(Items) T01 T02 T03 T04 T05 T06 T07 T08 B C M T B C M C M M T B C M B T B M T B T