大数据营销 第9章 商品关联营销
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图9.2 寻找频繁项集
9.4 简单关联规则
9.4.2 搜索频繁项集
Apriori算法从图9.2所示的底层(1-项集)开始向上,采用迭代方式逐层找到下层的超集,并在超集中 发现频繁项集。如此反复,直到最顶层得到最大频繁项集为止。每次迭代均包含两个步骤。 第一步,产生候选集Ck。所谓候选集就是有可能成为频繁项集的项目集合。 当k =1时,候选集Ck是所有1_项集。 第二步,修剪候选集Ck。基于候选集Ck计算支持度,且依据最小支持度对候选集Ck进行删减,最终确 定最大频繁项集Lk。
• 从数据中可以找到很多关联规则,但并非所有的关联规则都有效。可能有的规则令人信服的水平不 高,有的规则适用的范围很有限,也就是说,这些规则都不具有有效性。判断一条关联规则是否有 效,应依据各种测度指标,其中最常用的测度是关联规则的置信度和支持度。
• 一个有效的简单关联规则应具有较高的置信度和较高的支持度。 • 如果规则支持度较高,但置信度较低,则说明规则的可信程度差;如果规则置信度较高但支持度较
目录
商品关联营销的概念 购物篮商品关联问题背景与挖掘目标 简单关联规则 购物篮分析模型
简单关联规则的有效性和实用性讨论
26
9.5 简单关联规则的有效性和实用性讨论
9.5.1 Apriori算法的优缺点与适用场景
• Apriori算法是关联规则最常用的也是最经典的分析频繁项集的算法,它的优点是大大压缩了频繁项 集的大小,并取得良好性能。Apriori算法的缺点是每次计算支持度与置信度都需要重新扫描所有数 据,而且该算法有多次扫描事务数据的缺陷,在每一步产生候选集时循环产生的项集过多,没有排 除不应该参与组合的元素。
目录
商品关联营销的概念 购物篮商品关联问题背景与挖掘目标 简单关联规则
购物篮分析模型
简单关联规则的有效性和实用性讨论
17
9.4 购物篮分析模型
• 关联规则算法有Apriori算法、FP-Tree 算法、Eclat算法和灰色关联算法等。关联规则算法 主要用于寻找数据中项集之间的关联关系,基于样本的统计规律,进行关联规则分析。根 据所分析的关联关系,可从一个特征的信息来推断另一个特征的信息。当信息置信度达到 某一阈值时,就可以认为规则成立。
• 最大频繁项集是k最大时的最大频繁k-项集。
根据频繁项集的定义很容易得到以下结论,即频繁项集的子集一定是频繁项集。 例如, {A,B,C}是一个3项的频繁项集,则其子集{A,B}、{B,C}、{A,C} 也一定是2项的频繁项集。反之,如果在不是频繁项集的项集I中添加事务A, 那么新的项集I∩A一定也不是频繁项集。
9.3 简单关联规则
9.3.2 置信度和支持度 关联规则是形如X→Y的表达式,其中X和Y不相交。置信度和支持度这两个指标用于量度关联 规则的强度。支持度也称为相对支持度,表示X与Y同时发生的概率。置信度是指X发生的条 件下Y发生的概率。因此,支持度和置信度可以分别用下列公式表示:
Support(X→Y)= C(X∩Y) Confidence(X→Y)= S(Y|X)
{A,B}→{D}(S=50%, C=100%) 为有效规则。同样我们也可以得到其他的关联规则:
{A,D}→{B}(S=50%, C=100%) {B,D}→{A}(S=50% ,C=100%) 从以上结果可以看出,顾客同时购买商品A、B和D的概率为50%,而置信度则达到100%,说明该 规则有效。了解到上述信息即可对商品摆放位置进行更改,可以考虑把商品A、B和D的位置摆放 得靠近一些,在增加销量的同时给客户更好的购物体验。
本章小结本章主要结吅商品零售购物篮的顷目重点介绉了关联规则算法中的apriori算法在商品零售购物篮分析顷目中的应用详细地分析了商品零售的现状不问题同时以某商场的商品零售数据为例分析了商品的热销程度最后通过apriori算法构建相应模型幵根据模型结果制定销售策略
第9章 商品关联营销
商品关联营销
学习目标 1. 了解商品关联营销(购物篮关联分析)的概念 2. 了解简单关联规则的概念 3. 了解购物篮分析模型的基本原理和方法 4. 了解简单关联规则的应用场景及其有效性和实用性
事务ID 1 2 3 4
项集
备注
ABCDE
BEF CDG
表中不同的字母代表不同的商品
ABDF
表9.1 顾客购买行为数据示例
9.3 简单关联规则
9.3ቤተ መጻሕፍቲ ባይዱ2关联规则的表达形式 • 简单关联规则的一般表示形式是:
前项→后项[支持度(Support)= s%,置信度(Confidence)=c%], 或表达为:X→Y(S = s%,C = c%),
9.4 简单关联规则
9.4.2 搜索频繁项集
图9.3就是用表9.1的数据举例说 明以迭代的方式找出最大频繁项 集的过程。由图9.3可以看出, 最大频繁项集是{ABD},支持度达 50%。
图9.3 用Apriori算法产生频繁项集的迭代过程举例
9.4 简单关联规则
9.4.3 由频繁项集产生关联规则
9.3.2频繁项集 • 项集是项的集合,包含k项的项集称为k项集。 • 项集的出现频率是所有包含项集事务的级数,又称绝对支持度或支持度计数。 • 若存在项集的支持度满足预定义的最小置信度或最小支持度的阈值,则称此项集为频繁项
集,频繁k项集通常记作Lk。 • 而同时满足最小置信度和最小支持度的规则称为强规则。 • 包含1个项目的频繁项集称为频繁1项集;包含k个项目的项集称为频繁k项集。
性。在日常生活中事物之间的关联性随处可见,在电
子商务平台的购物篮中的商品,其关联性也是显而易
见的。 • 购物篮商品的关联关系通常有两种情况:
啤酒与尿布
一种是顾客在一次购买行为中放入购物篮中不同商品之间的关联关系,我们称之为简单
关联关系。
另一种是顾客在购买某种商品之后,在下一次光顾时会购买另一些其他商品,这些前后
• 针对这些问题,Zaki等人于1997年提出了一种快速搜索频繁项集的算法—— Equivalence CLAss clustering and bottom-up Traversal,简称Eclat算法。该算法与Apriori算法的思路类似,但它的特 色在于:基于对等类,采用自底向上的搜索策略,只需访问很少次的数据集,便可确定最大频繁项 集,从而提高了搜索效率。
• 项目是在事务中涉及的对象。 • 一个事务通常包含若干个项目。一个项目可以是一种商品、一个网页链接、一个险种 等。
• 若干个项目的集合叫作项目集,简称项集。 • 我们把属于同一个事务的所有项目组成的集合,称为事务的项集。
9.3 简单关联规则
小明喜欢在淘宝上购物,当他想购买某商品时,会在淘宝上浏览,一遍又一遍地研究该商品,也会关注 它,甚至把它加入购物车。经过一段时间的研究,小明才会放入购物篮里准备购买,同时,小明也准备 购买其他商品。最终他购买了A、B、C、D、E共5件商品。在这里,小明的购物行为就是一个事务。他 购买的5件商品A、B、C、D、E的集合就是项集。为了研究方便,我们会给每一个事务一个ID(标识), 对应于ID就有一个项集。其他客户也会在淘宝上购物,也会像小明一样有自己的购物篮,购物篮里有自 己喜欢的商品,见表9.1。
• 关联营销也是一种新的、低成本的、企业在网站上用 来提高收入的营销方法。
目录
商品关联营销的概念
购物篮商品关联问题背景与挖掘目标
简单关联规则 购物篮分析模型 简单关联规则的有效性和实用性讨论
7
9.2 购物篮商品关联问题背景与挖掘目标
关联营销:
• 关联分析是挖掘数据内在结构特征或变量之间的关联
目录
商品关联营销的概念 购物篮商品关联问题背景与挖掘目标
简单关联规则
购物篮分析模型 简单关联规则的有效性和实用性讨论
10
9.3 简单关联规则
9.3.1 事务和项集 • 事务就是简单关联分析的分析对象。
• 事务可理解为一种行为,例如,百货商店顾客的购物行为是一种事务;网页用户的页 面浏览关注行为是一种事务;一份财产保险公司的汽车保单也是一种事务。
牛奶与鸡蛋
挖掘数据集:购物篮数据 挖掘目标:关联规则 关联规则:牛奶=>鸡蛋【支持度=2%,置信度=60%】 支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋 置信度:购买了牛奶的客户有60%也购买了鸡蛋 最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定
9.3 简单关联规则
其中: X称为规则的前项,可以是一个项目或项集,也可以是一个包含项目以及逻辑操作 (与∩、或∪、非|)的逻辑表达式; Y称为规则的后项,一般为一个项目,表示某种结论或事实; 括号中,S = s%表示规则支持度为s%,C = c%表示规则置信度为c%。
例如,面包→牛奶(S=85%,C=90%),就是一条简单关联规则。前项和后项均为一个项目。该关 联规则的含义是:有90%的把握程度相信购买面包则购买牛奶,该规则适用性为85%。
ID
商品A 商品B 商品C 商品D 商品E
商品F 商品G
1
1
1
1
1
1
0
0
2
0
1
0
0
1
1
0
3
0
0
1
1
0
0
1
4
1
1
0
1
0
1
0
表9.2 事实表示例
ID
项集X
1
A
1
B
1
C
1
D
1
E
2
B
2
E
2
F
3
C
3
D
3
G
4
A
4
B
4
D
4
F
表9.3 事务表示例
9.4 简单关联规则
9.4.2 搜索频繁项集
寻找频繁项集是Apriori算法提高寻找关联规则 效率的关键。以图9.2为例,在Apriori算法中 寻找频繁项集的基本原则是:如果最底层中只 包含D项的1-项集不是频繁项集,则包含D项 的其他所有项集,即D的超集(图中灰色圆圈) 都不可能是频繁项集,后续无须再对这些项集 进行判断,因为基于这些项集的关联规则不可 能有较高的支持度。
上述步骤已经剔除了不满足最小支持度阈值的项,如果剩下的项能满足预定的最小置信度阈值, 那么就可以找到强关联规则。例如,对于上述例子,频繁项集L包含项目A、B、D。如果设L的子 集L’包含项目A和B,则L-L’包含项目E。计算置信度:
C(|A,B|→D) = S(A,B,D)/S(A,B) = 0.5/0.5 = 100% 置信度最大,大于用户指定的任何阈值。因此,简单关联规则
思维导图
【开篇思考】
拥有海量用户、车辆、司机以及交通
轨迹的大数据对于滴滴而言,已经远
离了纸上谈兵,在司机接入、智慧交
通等多个维度产生了实际效用。滴滴
出行近日披露,在其严格的注册审核
机制下,共有超2500万名“问题司机”
被拒之平台外。而通过大数据实时分
析、智能上车点推荐等领先技术,全
国20个机场上线“智能引导”功能, 请试想一下:
• Apriori算法是应用最广泛的关联规则算法之一,也是最为经典的在大数据集上可行的关联 规则提取的算法。
购物篮分析
哪些商品平凡的同时被客户购买?
9.4 购物篮分析模型
图9.1 购物篮商品关联规则模型的流程图
9.4 简单关联规则
9.4.1 原始数据的预处理
购物篮商品关联规则分析中的数据预处理的主要任务是通过整理原 始数据,建立事务数据集对象。事务数据集的组织方式有事实表和 事务表两种格式。
• Apriori算法除了适用于商品零售购物篮分析外,近年来也广泛应用于金融行业中,可以成功预测银 行客户的需求,还可应用于网络安全领域,检测出用户行为的安全模式,进而锁定攻击者。此外, Apriori 算法还可应用于高校管理、移动通信、中医证型等领域。
9.5 简单关联规则的有效性和实用性讨论
9.5.2 如何评价简单关联规则的有效性
不同时间购买的商品之间同样存在关联关系,我们把这种关联关系称为序列关联关系。
9.2 购物篮商品关联问题背景与挖掘目标
最早的关联分析概念:是1993年由Agrawal、Imielinski和Swami提出的。其主要研究目的是分 析超市顾客购买行为的规律,发现连带购买商品,为制定合理的方便顾客选取的货架摆放方案提 供依据。该分析称为购物篮分析。 电子商务领域:关联分析可帮助经营者发现顾客的消费偏好,定位顾客消费需求,制定合理的交 叉销售方案,实现商品的精准推荐; 保险公司业务:关联分析可帮助企业分析保险索赔的原因,及时甄别欺诈行为; 电信行业:关联分析可帮助企业发现不同增值业务间的关联性及对客户流失的影响等。
帮助乘客快速出港。
滴滴出行有哪些大数据营销的场景?
目录
商品关联营销的概念
购物篮商品关联问题背景与挖掘目标 简单关联规则 购物篮分析模型 简单关联规则的有效性和实用性讨论
5
9.1 商品关联营销的概念
关联营销:
• 关联营销是一种建立在双方互利互益的基础上的营销, 在交叉营销的基础上,将事物、产品、品牌等所要营 销的东西上寻找关联性,来实现深层次的多面引导。