实验二 Clementine12购物篮分析(关联规则)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验二Clementine12购物篮分析(关联规则)
一、[实验目的]
设计关联规则分析模型,通过模型演示如何对购物篮分析,并根据细分结果对采取不同的营销策略。

体验以数据驱动的模型计算给科学决策带来的先进性。

二、[知识要点]
1、购物蓝分析概念;
2、管来呢规则算法原理;
3、购物蓝分析工具;
4、Clementine12.0关联规则分析流程。

三、[实验要求和内容]
1、初步了解使用工作流的方式构建分析模型;
2、理解智能数据分析流程,主要是CRISP-DM工业标准流程;
3、理解关联规则模型原理;
4、设计关联规则分流;
5、运行该流,并将结果可视化展示;
6、得出模型分析结论
7、运行结果进行相关营销策略设计。

四、[实验条件]
Clementine12.0挖掘软件。

五、[实验步骤]
1、启动Clementine12.0软件;
2、在工作区设计管来呢规则挖掘流;
3、执行模型,分析计算结果;
4、撰写实验报告。

六、[思考与练习]
1、为什么要进行关联规则分析?它是如何支持客户营销的?
实验内容与步骤
一、前言
“啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长!
“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。

父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。

如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。

沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。

当然“啤酒与尿布”的故事必须具有技术方面的支持。

1993年美国学者Agrawal (个人翻译--艾格拉沃)提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。

艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法—Aprior算法。

沃尔玛从上个世纪90年代尝试将Aprior算法引入到POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。

“啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中?
卖场中“啤酒与尿布”的现象比比皆是,为什么“啤酒与尿布”的故事只产生在沃尔玛的卖场中,而不是其他零售门店?这里有两个原因。

第一个是沃尔玛先进的计算机技术是“啤酒与尿布”故事产生的强大支持后盾。

零售业目前使用的很多新技术都是沃尔玛率先“尝鲜”的,比如沃尔玛最早在门店尝试计算机记账,最早在门店收款台尝试使用外形丑陋俗称“牛眼”的条码扫描器进行收款,世界上第一个发射私人通信卫星等等。

“前人栽树,后人乘凉”,目前运用于门店管理的很多技术手段都是沃尔玛做了“第一个吃螃蟹”的,我们只不过坐享其成而已。

由于沃尔玛具备先进的技术手段,“啤酒与尿布”的故事在沃尔玛产生就一点也不奇怪了。

第二个原因是沃尔玛拥有一双锐利的慧眼。

沃尔玛是一家极其讲究卖场现场管理的企业,沃尔玛创始人老沃尔顿最大的乐趣就是不停地在卖场巡视,更多地运用自己的双眼而不是数据来发现事实。

因此不能忽略的是,没有沃尔玛管理人员的慧眼,“啤酒与尿布”的故事也会淹没在大量的零售数据中。

营销界很多人对于“啤酒与尿布”的故事津津乐道,吹捧得如同发现新大陆般!“啤酒与尿布”的故事就是商品交叉销售,这种销售现象几乎和人类历史一样悠久,在古人披着兽皮交换贝壳、粮食、石斧等商品时,他们已经清楚地了解商品交叉销售对于商品交易的重要性,一些聪明的家伙会采取种种措施鼓励客户多交换一些商品(估计是一袋贝壳加一条鱼换一袋大米)。

“啤酒与尿布”的故事只是对商品交叉销售现象的一种现代解释,并不是出现“啤酒与尿布”的故事之后,才存在商品交叉销售的现象。

从这个意义上讲,沃尔玛并没有发现新大陆,只不过把我们视而不见的现象挖出来,并从中发现了商业价值。

沃尔玛的创始人老沃尔顿说,retail is detail (零售就是细节)。

研究商品关联关系的方法就是购物篮分析,在购物篮分析方面有两个值得我们学习的榜样,一个是美国的沃尔玛,另一个是日本的7-11便利店。

同样是购物篮分析,沃尔玛强调找出商品之间的关联关系,比如啤酒与尿布,而7-11便利店的重点在于找出影响商品销售的所有因素,比如碳酸饮料与气温的关系等等。

换句话说,沃尔玛重点是分析购物篮内商品之间的关联关系,而日本7-11便利店的重点是从购物篮外面找影响商品销售的关联关系。

美式购物篮分析
以沃尔玛为代表的美食购物篮分析的目标一般是卖场面积巨大,通常都是上
万平方米,商品种类繁多,大多在10万种以上,所以要通过购物篮分析找出淹没在不同区域商品之间的关联关系,并将这些关联关系用于商品关联陈列、促销等具体工作中,是很难通过人工完成的。

比如啤酒在酒类区域,尿布在婴儿用品区域,两个商品陈列区域相差几十米,甚至可能是“楼上、楼下”的陈列关系,用肉眼很难发现啤酒与尿布存在关联关系的规律。

我们把找出购物篮中商品之间关系的方法称为“美式购物篮”分析法,这种方法适合应用于类似沃尔玛这样的大卖场,用于找出不同陈列区域商品之间的关系。

英国的Tesco连锁超市、Safeway连锁超市也都是这种购物篮分析的高手。

我们这个课程所主要研究的目标也是这种美食购物篮。

日式购物篮分析
日本这个国家很神奇,虽然身为岛国,但是经济发达。

分析日式购物篮确实能够看到日本人在经商方面的巧妙之处。

日本的超市以7-11便利店为典型,7-11便利店营业面积都很小,一般只有100~250平方米,商品品种3000~10000种,是典型的“螺蛳壳里做道场”。

如我们在电影或者泡沫剧里面所见,日本很多门店的经营面积狭小,站在门店里任何一个角落,所有的商品转个身就全看见了——真正的抬头不见低头见,所以找出商品关联关系不是日本7-11便利店的重点:你就是找出来啤酒与尿布之间有“暗恋”关系,也没用!因为啤酒与尿布本来就在一起。

当然日本7-11便利店这类相关陈列的故事也是有的,比如荞麦冷面与纳豆、鱼肉香肠与面包、酸奶与盒饭等等,但是毕竟起不到主要作用,日本7-11便利店更关注的是:
●气温由28℃上升到30℃,对碳酸类饮料、凉面的销售量会有什么影响?
●下雨的时候,关东煮的销售量会有什么变化?
●盒饭加酸奶、盒饭加罐装啤酒都是针对什么样的客户群体?他们什么时间到门店买这些商品?
所以,日本人的重点是分析所有影响商品销售的关联因素,比如天气、温度、时间、事件、客户群体等,这些因素我们称为商品相关性因素。

日本人对于所有影响商品销售的关联因素研究得非常透彻,因此日本就会有气温-碳酸饮料指数、空调指数、冰激凌指数,因此就不难理解为什么7-11便利店会设置专门的气象部门,因此更能够理解为什么日本7-11便利店会要求门店
每天5次将门店内外的温度、湿度上传回总部,供总部与商品销售进行对比分析。

与商品之间的关联关系相比,日本7-11便利店认为这些关联因素更重要。

由于这是日本7-11便利店大量采取的方式,我们也称为“日式购物篮”分析法。

“啤酒和尿布”故事包含什么样的含义?
沃尔玛的“啤酒与尿布”的故事实际上向我们揭示了零售业未来的获利及生存模式。

他凸显了零售卖场中一个全新的管理理念,即商品之间是具有关联关系的,发现并利用这些商品之间的关联关系,可以在无法大幅增加门店客户数的前提下,通过增加购物篮中的商品数量达到增加销售额的目的,从而获得更大的经营收益。

启示一:购物篮大于商品
有在零售业工作经验的朋友都知道,老板考核大家的主要指标是商品销售额,你的工资袋取决于商品的销售额。

老板会将商品销售指标下发到个人,每个人都只会关注自己的“一亩三分地”,卖啤酒的只管闷头卖啤酒,卖尿布的只管闷头卖尿布,每个柜台只管自己的商品是否能进入客户手中的购物篮。

卖啤酒的不关心购物篮中的尿布,卖尿布的也漠视购物篮中的啤酒,只要别漏了自己柜台的东西就行了,因为漏了自己的商品,这个月的奖金就没了,人人只扫门前雪,长此以往商店的整体效益当然不会好了,效益不好就要裁员,大家都没好果子吃。

反观沃尔玛的卖场管理体系中,购物篮是主要的管理对象,而不仅仅是商品。

为什么沃尔玛会以购物篮为管理重点?沃尔玛认为商品销售量的冲刺只是短期行为,而零售企业的生命力取决于购物篮。

一个小小的购物篮体现了客户的真实消费需求和购物行为,每一只购物篮里都蕴藏着太多的客户信息。

零售业的宗旨是服务客户,沃尔玛认为商店的管理核心应该是以购物篮为中心的顾客经营模式,商品排名只能体现商品自身的表现,而购物篮可以体现客户的购买行为及消费需求,关注购物篮可以使门店随时掌握客户的消费动向,从而使门店始终与客户保持一致。

启示二:购物篮方面的差距
购物篮的表现形式就是我们常说的“客单价”,客单价的高低直接反映了零售企业的经营效益。

根据AC·尼尔森2006年对国内零售企业的调查发现,从周一到周五正常工作日,同样一个万米经营面积的大卖场,国内卖场的平均客单价是29元,家乐福、沃尔玛、欧尚等国际零售巨头卖场的客单价为75元,好又
多、大润发、乐购等台资卖场客单价为50元。

到了周末(周六、周日)的差距更大,国内卖场客单价为35元,台资卖场客单价为80元,外资卖场可以达到149元,这就是我们国内企业在购物篮方面的差距。

我们知道,销售额=客单价×客流数。

在同等客流量的情况下,我们的企业由于客单价低,已经先失一着,销售业绩要比外资企业低200%,比台资企业低60%。

此外,销售额低会带来很多问题,比如毛利额低、通道费低、与供应商的话语权降低,甚至会直接影响到企业的生存。

因此,要想提高商业企业的销售业绩,必须改善企业购物篮,全面提升客单价,可以说零售企业的购物篮代表了企业的生存权!
另据有关报道,客户到家乐福卖场的年平均购物频度只有9.8次,但是在快速消费品的市场份额却比年平均客户购物频度高达51次的华润苏果高出3.63%,家乐福、沃尔玛、易初莲花等外资零售企业仅仅利用客户几次上门购物的机会,就获得了远比国内零售同行高很多的快速消费品市场份额。

尤其要注意的是,沃尔玛、欧尚等外资零售企业在国内只有区区的十几家门店,居然占据了非常大的市场份额,充分显示了这些外资零售企业在购物篮方面的确有“高招”。

“啤酒与尿布”故事的依据是商品之间的相关性(也称关联性,英文名称为association rule),商品相关性是指商品在卖场中不是孤立的,不同商品在销售中会形成相互影响关系(也称关联关系),比如“啤酒与尿布”故事中,尿布会影响啤酒的销量。

在卖场中商品之间的关联关系比比皆是,比如咖啡的销量会影响到咖啡伴侣、方糖的销售量,牛奶的销量会影响面包的销售量等等。

所谓事物之间的相关性是指当一个事物变化时,另一个事物也会发生变化。

当事物之间的变化是相互抵消的,比如猪肉价格上涨、猪肉销量下降,我们称这种相关性是负相关;当事物之间的变化呈现同一个方向发展时,比如气温上升、冷饮销量也上升,我们称这种相关性是正相关。

有些事物的相关性显而易见,有些则不是那么明显。

美国华尔街股票分析师将女性超短裙的长度与道琼斯股票指数建立了关联,超短裙的长度与股票指数成反比趋势,据说十分灵验,这就是相关性在生活中的种种体现。

商店中的关联性更是比比皆是,比如烟酒销售的关联关系:当门店附近有建筑工地时,低档烟、酒的销售就会上升;当附近有高档社区时,中华烟、葡萄酒
的销售量就会上升。

提到商品相关性,很多人认为就是数据分析的事儿,其实对于商品相关性来说,更重要的是客户心理层面的因素,毕竟是人在提着购物篮,而不是猴子。

客户在购物时的心理行为是产生商品之间关联关系最基本的原因,因此在找到购物篮规律时,必须要从客户消费心理层面解释这些关联关系,否则“啤酒与尿布”会永远停留在啤酒与尿布两个商品身上,而没有任何的推广意义。

要想详细了解商品相关性形成的客户心理因素,要进行大量的客户消费行为观察,构建客户购物篮场景,才可使“啤酒与尿布” 的故事发扬光大。

二、关联规则的概念
关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。

它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。

关联规则挖掘的一个典型例子是购物篮分析。

关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。

分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。

Agrawal 等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。

他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。

最近也有独立于Agrawal 的频集方法的工作,以避免频集方法的一些缺陷,探索挖掘关联规则的新方法。

也有一些工作注重于对挖掘到的模式的价值进行评估,他们提出的模型建议了一些值得考虑的研究方向。

关联规则挖掘可以发现存在于数据库中的项目或属性间的有趣关系,这些关系是预先未知的或者被隐藏的。

为了准确描述关联规则挖掘问题,需要给出关联规则挖掘问题的正式定义,下面用事务数据库来定义关联规则。

设D 交易(transaction) T 的集合,12{,,,}n D t t t =⋯,这里交易T 是项的集合,可以表述为:12{,,,}P T t t t =⋯并且T D ⊆。

T 中的元素{1,2,,}j i j p ==⋯称为项。

对应每一个交易有唯一的标识,如交易号,记作TID 。

设12{,,,}m I i i i =⋯是数据
集中所有项的集合,I 是二进制文字的集合。

I 中的任何子集称为项目集(itemset),若|X|k =,则称集合X 为-K 项集。

设k t 和X 分别为D 中的事务和项目集,如果k X t ⊆,称事务k t 包含项目集X 。

项目集X 的支持率support(X),若
support(X)不小于用户指定的最小支持率(记作:
minsupport),则称X 为频繁项目集,否则称X 为非频繁项目集。

设X ,Y 是数据集D 中的项目集。

若Y X ⊆,则support(X)support(Y )≥;若X Y ⊆,如果X 是非频繁项目集,则Y 也是非频繁项目集;若X Y ⊆,如果Y 是频繁项目集,则X 也是频繁项目集。

一个关联规则是形如Y X =>的蕴涵式,这里X ,Y 都是项目集,且1X C ⊂,1⊂Y ,并且 X Y ϕ=,X ,Y 分别称为关联规则Y X =>的前提和结论。

一般使用支持度(support )和置信度(confidence )两个参数来描述关联规则的属性。

(1)支持度
规则Y X =>在数据库D 中的支持度(support)是交易集中同时包含X , Y 的事务数与所有事务数之比,记为support(X Y)=> sup ()port X Y =⋃。

支持度描述了X ,Y 这两个项集在所有事务中同时出现的概率。

(2)置信度
规则Y X =>在事务集中的置信度(confidence)是指同时包含X ,Y 的事务数与包含X 的事务数之比,它用来衡量关联规则的可信程度。

记为()confidence X Y =>=support(X Y)support(X)。

一般情况下,只有关联规则的置信度大于期望可信度,才说明X 的出现对Y 的出现有促进作用,也说明了它们之间的某种程度的相关性。

给定一个事务集D ,挖掘关联规则的问题就是产生支持度和置信度分别大于用户事先给定的最小支持度和最小置信度的关联规则。

关联规则挖掘的任务就是要挖掘出D 中所有的强规则Y X =>。

强规则Y X =>对应的项目集(X Y)⋃必定是频繁项目集,频繁项目集(X Y)⋃导出的关联规则Y X =>的置信度可由频繁项目集X 和(X Y)⋃的支持度计算。

因此,可以把关联规则挖掘划分为两个子问题:一个是找出所有的频繁项目集:即所有支持度不低于给定的最小支持度的项目集。

另一个是由频繁
项目集产生强关联规则:即从第一个子问题得到的频繁项目集中找出置信度不小于用户给定的最小置信度的规则。

其中,第一个子问题是关联规则挖掘算法的核心问题,是衡量关联规则挖掘算法的标准。

三、Apriori 算法
关联规则的算法相当多,其中经典算法Apriori 是最有影响的挖掘布尔关联规则频繁项目集的算法,同时大部分关联规则算法也都是经典算法Apriori 的演绎和改进。

Apriori 算法是通过有候选项集的方法来产生频繁项集,它的核心思想 :任何频繁项集的所有子集一定是频繁项集。

在Apriori 算法中,遍历数据库,得到大一项集1F 。

如果1F 非空,由1F 产生长度为2的候选项集合2C ,对事务处理数据库中的每一个事务t ,求出t 在2C 中的全部子集t C ,对于t C 中的每一个长度为2的候选取项集c ,令c 的计数c. count 加1。

当扫描事务处理数据库一遍后,筛选取出候选项集合2C 中所有计数满足最小支持度的项集组成了长度为2的频繁项集合。

用以上步骤重复处理新得到的频繁项集合,直到没有频繁项集合产生。

在这里,由于从候选项集中产生频繁项集的过程需要遍历数据库,因此如何正确地产生最少数目的候选项集十分关键。

候选项集产生的过程Apriori - gen(Fk-1)被分为两个部分:联合与剪技。

采用这种方式,使得所有的频繁项集既不会遗漏又不会重复。

剪枝的目的是减少扫描数据库时需要比较的候选项集的数量。

剪枝的原则是:候选项集C 的k 个长度为1k -的子集都在1k F -中,则保留C ;否则C 被剪枝。

Apriori 算法的描述如下。

输入:
①事务数据库D ;
②最小支持度阀值min_sup 。

输出:D 中的频繁项集L 。

方法:
第1步 产生频繁项集
第2步 产生频繁)2(end k >-项集
产生频繁候选k 项集
由频繁1-k 项集连接成为k 项集
检测k 项集的所有的1-k 子集是否为频繁项集,若是该k 项集就
成为了频繁候选项集
扫描事务数据库D 对每个候选k 项集计数
达到最少支持度的频繁候选k 项成为频繁k 项集。

四、Clementine 购物蓝分析
本次实验是以clementine 软件当中的数据为数据来源展开数据挖掘工作的,数据样本为Demos 文件夹里的baskrule.sav 文件,数据量为一千余条,保证了实验结果的依据性和可靠性。

实验的目的是基于关联规则,利用clementine 实现市场购物篮分析。

SPSS Clementine 支持标准化的数据挖掘流程,现在将从其中的数据理解、数据准备、建立模型等几个方面进行本课题的研究。

下图1是整个数据流的图形:
图1 整体数据流
此次实验的研究方法可以概括为如图2.
图2 研究方法流程
4.1 数据理解阶段
数据准备是整个数据挖掘过程的重要部分,数据质量越高,挖掘结果准确性越高。

首先选择“数据源”选项卡里面的固定文件节点,将其添加到数据流区,并导入baskrule.sav 文件数据。

此时可以用“输出”选项卡里的表结点与数据文件连接,查看数据的情况。

数据当中18个变量的情况可见下表1.
表1 研究数据字段说明
字段都属于一个订单项。

4.2数据准备阶段
在数据表当中既无缺失值,又无数据重复性的问题出现,因此不需要对源数据做过多的数据过滤和预处理过程。

考虑到数据属性对于数据挖掘建模的影响,需要对数据的方向属性做修改,此时可添加“类型”节点,让数据源固定文件节点连接到“类型节点”。

类型节点使用:使用Clementine 类型节点能访问每个字段的属性,可以很便利地扩充脚本内容以列出类型节点中显示的其他属性,例如缺失值或方向。

编辑“类型节点”,将所有产品类别的角色设置为双向(双向表示该字段可以是结果模型的输入或者输出),并将所有其他角色设置为无(如图3)。

因为每个忠诚卡ID 在数据集中只出现一次,因此对于建模没有用处,此时可将字段卡ID 的类型设置为“无类型”。

同时为了确保GRI 建模算法不会将性别视为标志,应将选择集作为字段性别的类型。

图3 数据属性编辑表
4.3建立模型阶段
建立模型之前,必须选择模型算法,关联规则算法和决策树分析算法适合于本次的购物篮分析。

首先,介绍GRI节点选项
最低规则置信度,可以指定在规则集中保留规则的准确性标准(以百分比表示)。

最大条件数,可以为任何规则指定最大条件数。

这是一种用来限制规则复杂性的方式。

如果规则太复杂或者太具体,需要尝试降低此设置,此设置对于训练时间也具有很大的影响;如果规则集训练所需的时间过长,需要尝试降低此设置。

最大规则数,此选项决定了规则集中包含的规则数。

规则是按照相关度(由GRI 算法计算)的降序顺序包含在内的。

使用分区数据。

如果分区字段位于流中,则此选项会将数据分割成数个用于训练、测试和验证的单独样本,并且可能提供当模型扩展为可适用于大型数据集(与当前的数据类似)时,该模型的能力说明。

只显示值为真的标志变量。

如果选中此选项,生成的规则则只会显示真值。

这样可能有助于使得规则更容易理解。

接着进行操作。

在数据准备过程完成、指定了用于建模的字段后,将GRI 节点添加到“类型”节点,编辑它,选择选项“使用分区数据”、“只显示值为真的标志变量”,设置最低规则置信度为50.0%,最大前项数为3,最大规则数为20,。

相关文档
最新文档