大数据应用基础-关联规则(PPT 21张)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
什么是关联规则?
• 经典例子:发现了买尿布的顾客经常也会买啤酒后, 超市把两者摆在一起,从而提高了两者的销量。具 体原因是:年轻的父亲下班回家的路上需要给孩子 买尿布,但他们又没空去酒吧,所以就通常也给自 己买一些啤酒。
关联规则基本概念
• 关联规则(association rule) 的主要目的 是找出数据集中的频繁模式(frequent pattern),即多次重复出现的项(item) 之间的“关联”(association)。 • 关联规则和聚类一样,都是无监督的学习。 它们都不用来预测。 • 应用关联规则最经典的案例就是购物篮分 析(basket analysis)。通过分析顾客购 物篮中商品之间的关联,可以看出顾客的 购物习惯。
• 超市发现:在所有购买了尿布的顾客 中,有40%的人同时还买了啤酒
超市会发现很 多关联规则
• 超市分析了很 多商品之间的 关联性。 • 尿布加啤酒是 所发现的关联 规则中的一个。
超市会发现很多关联规则
• 购物篮中的商品也叫做项(item)。 • 购物篮中多个项组成的集合叫做项集(itemset)。 • 大型超市的数据中可能有10万个项,几百万个购物篮 (可以是以一笔交易即一张购物小票的形式)。
关联规则在传统零售业的应用
• 购物篮分析对于传统零售商非常有用,因为他 们可以通过把顾客经常同时购买的商品摆在一 起,从而方便顾客选取。 • 这也叫做交叉销售。
关联规则在传统零售业的应用
• 找到关联规则后,超市可以: – 把两三种商品摆在一起; – 把两种商品打包销售; – 把其中一种商品价格提高一点,因为 顾客会不太在意那种商品的价格; – 把两种商品分开放置,迫使顾客必须 走过通道寻找所要购买的东西,这时 谷歌可能会看到并购买其他东西。
• 支持度:在所有顾客中,同时购买了尿布和啤酒的人 所占的比重。
– 如果支持度太小,说明这个规则只是偶发事件,不具有普 遍性和商业价值,或者说这两件items只出现在很少的购 物篮中。
• 置信度:在购买了尿布的顾客中,也购买了啤酒的人 所占的比重。
– 如果置信度太低,则从X(购买尿布)就很难可靠地推断 出Y(购买啤酒)来。
用于进一步筛选关联规则的指标: 提升度 • 除了支持度和置信度以外,还有 一个指标很重要。 • 这是因为,仅根据支持度和置信 度所发现的简单关联关系可能并 不实用。
用于进一步筛选关联规则的指标:提升 度
• 规则提升度(Lift)。这个指标反映了规则的价值。提升度能 说明规则对后项的预测比没有规则要好多少。 • 当Lift大于1时,意味着X的出现对Y的出现有促进作用;当它 小于1时,表明X的出现降低了Y出现的可能性。 • Lift越大越好。
规则可以有多个前项或后项 • 规则可以有多个前项,也可以有 多个后项 • 当然,后项通常只有一个。
关联规则小结
• 置信度 • 支持度 • 提升度
•项 • 项集 • 频繁项集
• • • • • • • • •
• • • •
• • • • •
1、不是井里没有水,而是你挖的不够深。不是成功来得慢,而是你努力的不够多。 2、孤单一人的时间使自己变得优秀,给来的人一个惊喜,也给自己一个好的交代。 3、命运给你一个比别人低的起点是想告诉你,让你用你的一生去奋斗出一个绝地反击的故事,所以有什么理由不努力! 4、心中没有过分的贪求,自然苦就少。口里不说多余的话,自然祸就少。腹内的食物能减少,自然病就少。思绪中没有过分欲,自然忧就少。大悲是无泪的,同样大悟 无言。缘来尽量要惜,缘尽就放。人生本来就空,对人家笑笑,对自己笑笑,笑着看天下,看日出日落,花谢花开,岂不自在,哪里来的尘埃! 5、心情就像衣服,脏了就拿去洗洗,晒晒,阳光自然就会蔓延开来。阳光那么好,何必自寻烦恼,过好每一个当下,一万个美丽的未来抵不过一个温暖的现在。 6、无论你正遭遇着什么,你都要从落魄中站起来重振旗鼓,要继续保持热忱,要继续保持微笑,就像从未受伤过一样。 7、生命的美丽,永远展现在她的进取之中;就像大树的美丽,是展现在它负势向上高耸入云的蓬勃生机中;像雄鹰的美丽,是展现在它搏风击雨如苍天之魂的翱翔中;像江 河的美丽,是展现在它波涛汹涌一泻千里的奔流中。 8、有些事,不可避免地发生,阴晴圆缺皆有规律,我们只能坦然地接受;有些事,只要你愿意努力,矢志不渝地付出,就能慢慢改变它的轨迹。 9、与其埋怨世界,不如改变自己。管好自己的心,做好自己的事,比什么都强。人生无完美,曲折亦风景。别把失去看得过重,放弃是另一种拥有;不要经常艳羡他人, 人做到了,心悟到了,相信属于你的风景就在下一个拐弯处。 10、有些事想开了,你就会明白,在世上,你就是你,你痛痛你自己,你累累你自己,就算有人同情你,那又怎样,最后收拾残局的还是要靠你自己。 11、人生的某些障碍,你是逃不掉的。与其费尽周折绕过去,不如勇敢地攀登,或许这会铸就你人生的高点。 12、有些压力总是得自己扛过去,说出来就成了充满负能量的抱怨。寻求安慰也无济于事,还徒增了别人的烦恼。 13、认识到我们的所见所闻都是假象,认识到此生都是虚幻,我们才能真正认识到佛法的真相。钱多了会压死你,你承受得了吗?带,带不走,放,放不下。时时刻刻发 悲心,饶益众生为他人。 14、梦想总是跑在我的前面。努力追寻它们,为了那一瞬间的同步,这就是动人的生命奇迹。 15、懒惰不会让你一下子跌倒,但会在不知不觉中减少你的收获;勤奋也不会让你一夜成功,但会在不知不觉中积累你的成果。人生需要挑战,更需要坚持和勤奋! 16、人生在世:可以缺钱,但不能缺德;可以失言,但不能失信;可以倒下,但不能跪下;可以求名,但不能盗名;可以低落,但不能堕落;可以放松,但不能放纵;可以虚荣, 但不能虚伪;可以平凡,但不能平庸;可以浪漫,但不能浪荡;可以生气,但不能生事。 17、人生没有笔直路,当你感到迷茫、失落时,找几部这种充满正能量的电影,坐下来静静欣赏,去发现生命中真正重要的东西。 18、在人生的舞台上,当有人愿意在台下陪你度过无数个没有未来的夜时,你就更想展现精彩绝伦的自己。但愿每个被努力支撑的灵魂能吸引更多的人同行。
关联规则的其他应用
• 把文档(例如网页、推特)当做购物篮, 把词汇当做item。我们可以发现哪些词汇 之间共同出现的频率较高。 • 把病人当做购物篮,把生物标志物(例如 血蛋白、基因)或疾病当做item。经常共 同出现的一组生物标志物(biomarker) 可以作为疾病诊断的方法。
基本原理——啤酒加尿布:经典 的购物篮分析案例
Βιβλιοθήκη Baidu
用于进一步筛选关联规则的指标: 提升度
• 提升度有助于找到那些可能是意外发现的规则, 而不是本来就知道的规则。可以避免向顾客推 荐热销商品。 • 正如啤酒加尿布的例子一样。
• 在各种关联规则算法中,最常用的是 Apriori算法。它分两步: 1. 生成频繁项目集。频繁项目集是支持度 高于最小支持度阈值的项目的集合。 2. 从上一步得到的频繁项目集中生成所有 的可信关联规则。这里,可信关联规则 是指置信度大于最小置信度阈值的规则。
超市处理不了过多的关联规则 • 必须限定关联规则的数量,否则 如果给超市经理提供一百万条关 联规则,他们根本阅读不过来。
关联规则有效性的两个指标
• 判断关联规则是否有效,最常 用的两个指标是:
–置信度( Confidence) –支持度( Support)
• 为了筛选出那些具有较高置信 度和支持度的规则,需要给这
最常用的关联规则算法—— Apriori
关联规则的分类
• 分析简单关联关系的技术成为简单关联规则。 • 而分析序列关联关系的技术则称为序列关联规 则。 • 序列关联关系的例子:购买了洗衣机的顾客中, 一段时间内会有40%的人购买洗衣粉。 • 知道这种规则后,我们可以在客户购买了洗衣 机后的合适时间间隔后,向其推荐洗衣粉。 • 序列关联规则的最常见算法是Sequence算法。 它具有两个步骤,并且这两个步骤和Apriori算 法几乎完全相同。
关联规则在电商中的应用
• 不仅是传统零售业,在电商中同样有交叉销 售,比如根据用户已经购买的商品,进行商 品推荐,或者把两种商品捆绑销售。但是, 关联规则主要适用于传统零售,而不是电商。
关联规则主要用于传统零售而非 电商
• 关联规则主要适用于传统零售,而不是电商。 这是因为: – 电商重视长尾,哪怕某些商品的购买者人 数并不多,也完全可以给购买它们的顾客 推荐另一些商品。由于购买数据稀疏,关 联规则难以做到为每个顾客推荐商品。 – 而对于传统零售,如果某件商品销量低, 对它做促销、广告就得不偿失。这就是为 什么要限制规则数量。
相关文档
最新文档