《R语言商务数据分析实战》教学课件—02商品零售购物篮分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
比3.164%等。 前20种商品销量占据的比例约为50%,基本符合“二八定 律”。
销量排行前10商品的销量及其占比
商品名称
销量
销量占比
全脂牛奶
2513
0.057947287
其他蔬菜
1903
0.043881292
面包卷
1809
0.041713745
苏打
1715
0.039546199
酸奶
1372
0.031636959
《R语言商务数据分析实战》
第2章 商品零售购物篮分析
目录
1
了解购物篮分析
2
分析商品销售状况
3
使用Apriori关联规则构建购物篮分析模型
4
小结
分析商品零售企业现状
➢ 现代商品种类繁多,顾客往往会由于需要购买的商品众多而变得疲于选择,且顾客并不会因为商品选择丰 富而选择购买更多的商品。
例如,货架上有可口可乐和百事可乐,若顾 客需要选购可乐若干,或许会同时购买两种 可乐,但是购买可乐的数量大多数情况下不 会因为品牌数量增加而增加。
目录
1
了解购物篮分析
2
分析商品销售状况
3
使用Apriori关联规则构建购物篮分析模型
4
小结
了解Apriori算法的基本原理与使用方法
关联规则算法主要用于寻找数据中项集之间的关联关系,基于样本的统计规律,进行关联规则分析。根据所 分析的关联关系,可从一个特征的信息来推断另一个特征的信息。当信息置信度达到某一阈值时,就可以认 为规则成立。
了解Apriori算法的基本原理与使用方法
Apriori算法是常用的关联规则算法之一,也是最为经典的分析频繁项集的算法,第一次实现在大数据集上可 行的关联规则提取的算法。 在介绍Apriori算法前引入几个相关概念。 ➢ 置信度、支持度和提升度 ➢ 频繁项集 ➢ 优缺点与适用场景 ➢ apriori函数及其参数介绍
销量 7594 7192 7146 5185 5141 4870 2287 1870 1459 541
销量占比 0.175442 0.166155 0.165092 0.119787 0.118771 0.11251 0.052836 0.043202 0.033707 0.012499
分析商品结构
分析商品零售企业现状
➢ 许多商场以打折方式作为主要促销手段折往往会使顾客增加原计划购买商品 的数量,对于原计划不打算购买且不必 要的商品,打折的吸引力远远不足。 而正确的商品摆放却能提醒顾客购买某 些必需品,甚至吸引他们购买感兴趣的 商品。
了解某商品零售企业基本数据情况
熟悉购物篮分析的步骤与流程
业务系统
数据抽取
分析与建模
结果反馈
历
选择性抽取
史
数
据
数据源
增
量
新增信息抽取
数
据
建
模 数
热销商品分析
据
模型 优化
Apriori关联
增
规则分析
量
数
应
据
模型应用
用 结
果
目录
1
了解购物篮分析
2
分析商品销售状况
3
使用Apriori关联规则构建购物篮分析模型
4
小结
分析热销商品
针对原始数据中不同商品销量进行统计,结果如表所示。 ➢ 全脂牛奶销售量最高,销量为2513件,占比5.795%。 ➢ 其余热销商品还有其他蔬菜销量1903件,占比4.388%。 ➢ 面包卷销量1809件,占比4.171%。 ➢ 苏打销量1715件,占比3.955%。酸奶销量1372件,占
某商品零售企业共收集了9835个购物篮的数据,其中包含169个不同的商品类别,售出商品总数为43367件。 其数据示例如表所示。
ID
Goods
1
柑橘类水果
1
人造黄油
1
即食汤
1
半成品面包
2
咖啡
2
热带水果
2
酸奶
3
全脂牛奶
4
奶油乳酪
4
肉蔓
案例目标
综合商品零售行业现状,该商品零售企业提供的数据,本案例需要完成以下分析目标。 ➢ 分析商品热销情况和商品结构。 ➢ 分析商品之间的关联性。 ➢ 根据分析结果给出销售建议。
停留时间,促进非热销产品的销量。
分析商品结构
原始数据中的商品本身已经过归类处理,但是部分商品还是存在一定的重叠,故再次对其进行归类处理。归 类后每一类的商品占据的比例如表所示,并根据表中数据作商品结构分析图。
归类后每一类的商品占据的比例
商品结构分析图
商品类别 非酒精饮料
西点 果蔬 米粮调料 百货 肉类 酒精饮料 食品类 零食 熟食
进一步查看销量第一的非酒精饮料类商品的内部商品结构,统计商品销量占比如表所示。
商品类别 全脂牛奶
苏打 瓶装水 水果/蔬菜汁 咖啡 超高温杀菌的牛奶 其他饮料 一般饮料 速溶咖啡
茶 可可饮料
销量 2513 1715 1087 711 571 329 279 256
73 38 22
销量占比 0.330919 0.225836 0.143139 0.093627 0.075191 0.043324 0.03674 0.033711 0.009613 0.005004 0.002897
瓶装水
1087
0.025065142
根茎类蔬菜
1072
0.024719257
热带水果
1032
0.023796896
购物袋
969
0.022344179
香肠
924
0.021306523
分析商品结构
对每一类商品的热销程度进行分析,有利于商家制定商品在货架的摆放策略和位置。若是某类商品较为热销, 它的摆放位置可以有如下选择。 ➢ 可以把此类商品摆放到商场的中心位置,方便顾客选购。 ➢ 或者把此类商品摆放到商场深处位置,使顾客在购买热销商品前经过非热销商品,增加在非热销商品处的
分析商品零售企业现状
➢ 繁杂的选购过程往往会给顾客疲惫的购物体验。
对于某些商品,顾客会选择同时购买,如面包与 牛奶、薯片与可乐等,当面包与牛奶或者薯片与 可乐分布在商场的两侧,且距离十分遥远时,顾 客购买的欲望就会减少,在时间紧迫的情况下顾 客甚至会放弃购买某些计划购买的商品。相反, 把牛奶与面包摆放在相邻的位置,既给顾客提供 便利,提升购物体验,又提高顾客购买的概率, 达到了促销的目的。
了解Apriori算法的基本原理与使用方法
1. 置信度、支持度和提升度
➢
了解Apriori算法的基本原理与使用方法
2. 频繁项集
➢ 项集是项的集合,包含k项的项集称为k项集。项集的出现频率是所有包含项集事务的级数,又称绝对支持 度或支持度计数。
➢ 若存在项集的支持度满足预定义的最小置信度或最小支持度的阈值,则称此项集为频繁项集。 ➢ 同时满足最小置信度和最小支持度的规则称为强规则。
销量排行前10商品的销量及其占比
商品名称
销量
销量占比
全脂牛奶
2513
0.057947287
其他蔬菜
1903
0.043881292
面包卷
1809
0.041713745
苏打
1715
0.039546199
酸奶
1372
0.031636959
《R语言商务数据分析实战》
第2章 商品零售购物篮分析
目录
1
了解购物篮分析
2
分析商品销售状况
3
使用Apriori关联规则构建购物篮分析模型
4
小结
分析商品零售企业现状
➢ 现代商品种类繁多,顾客往往会由于需要购买的商品众多而变得疲于选择,且顾客并不会因为商品选择丰 富而选择购买更多的商品。
例如,货架上有可口可乐和百事可乐,若顾 客需要选购可乐若干,或许会同时购买两种 可乐,但是购买可乐的数量大多数情况下不 会因为品牌数量增加而增加。
目录
1
了解购物篮分析
2
分析商品销售状况
3
使用Apriori关联规则构建购物篮分析模型
4
小结
了解Apriori算法的基本原理与使用方法
关联规则算法主要用于寻找数据中项集之间的关联关系,基于样本的统计规律,进行关联规则分析。根据所 分析的关联关系,可从一个特征的信息来推断另一个特征的信息。当信息置信度达到某一阈值时,就可以认 为规则成立。
了解Apriori算法的基本原理与使用方法
Apriori算法是常用的关联规则算法之一,也是最为经典的分析频繁项集的算法,第一次实现在大数据集上可 行的关联规则提取的算法。 在介绍Apriori算法前引入几个相关概念。 ➢ 置信度、支持度和提升度 ➢ 频繁项集 ➢ 优缺点与适用场景 ➢ apriori函数及其参数介绍
销量 7594 7192 7146 5185 5141 4870 2287 1870 1459 541
销量占比 0.175442 0.166155 0.165092 0.119787 0.118771 0.11251 0.052836 0.043202 0.033707 0.012499
分析商品结构
分析商品零售企业现状
➢ 许多商场以打折方式作为主要促销手段折往往会使顾客增加原计划购买商品 的数量,对于原计划不打算购买且不必 要的商品,打折的吸引力远远不足。 而正确的商品摆放却能提醒顾客购买某 些必需品,甚至吸引他们购买感兴趣的 商品。
了解某商品零售企业基本数据情况
熟悉购物篮分析的步骤与流程
业务系统
数据抽取
分析与建模
结果反馈
历
选择性抽取
史
数
据
数据源
增
量
新增信息抽取
数
据
建
模 数
热销商品分析
据
模型 优化
Apriori关联
增
规则分析
量
数
应
据
模型应用
用 结
果
目录
1
了解购物篮分析
2
分析商品销售状况
3
使用Apriori关联规则构建购物篮分析模型
4
小结
分析热销商品
针对原始数据中不同商品销量进行统计,结果如表所示。 ➢ 全脂牛奶销售量最高,销量为2513件,占比5.795%。 ➢ 其余热销商品还有其他蔬菜销量1903件,占比4.388%。 ➢ 面包卷销量1809件,占比4.171%。 ➢ 苏打销量1715件,占比3.955%。酸奶销量1372件,占
某商品零售企业共收集了9835个购物篮的数据,其中包含169个不同的商品类别,售出商品总数为43367件。 其数据示例如表所示。
ID
Goods
1
柑橘类水果
1
人造黄油
1
即食汤
1
半成品面包
2
咖啡
2
热带水果
2
酸奶
3
全脂牛奶
4
奶油乳酪
4
肉蔓
案例目标
综合商品零售行业现状,该商品零售企业提供的数据,本案例需要完成以下分析目标。 ➢ 分析商品热销情况和商品结构。 ➢ 分析商品之间的关联性。 ➢ 根据分析结果给出销售建议。
停留时间,促进非热销产品的销量。
分析商品结构
原始数据中的商品本身已经过归类处理,但是部分商品还是存在一定的重叠,故再次对其进行归类处理。归 类后每一类的商品占据的比例如表所示,并根据表中数据作商品结构分析图。
归类后每一类的商品占据的比例
商品结构分析图
商品类别 非酒精饮料
西点 果蔬 米粮调料 百货 肉类 酒精饮料 食品类 零食 熟食
进一步查看销量第一的非酒精饮料类商品的内部商品结构,统计商品销量占比如表所示。
商品类别 全脂牛奶
苏打 瓶装水 水果/蔬菜汁 咖啡 超高温杀菌的牛奶 其他饮料 一般饮料 速溶咖啡
茶 可可饮料
销量 2513 1715 1087 711 571 329 279 256
73 38 22
销量占比 0.330919 0.225836 0.143139 0.093627 0.075191 0.043324 0.03674 0.033711 0.009613 0.005004 0.002897
瓶装水
1087
0.025065142
根茎类蔬菜
1072
0.024719257
热带水果
1032
0.023796896
购物袋
969
0.022344179
香肠
924
0.021306523
分析商品结构
对每一类商品的热销程度进行分析,有利于商家制定商品在货架的摆放策略和位置。若是某类商品较为热销, 它的摆放位置可以有如下选择。 ➢ 可以把此类商品摆放到商场的中心位置,方便顾客选购。 ➢ 或者把此类商品摆放到商场深处位置,使顾客在购买热销商品前经过非热销商品,增加在非热销商品处的
分析商品零售企业现状
➢ 繁杂的选购过程往往会给顾客疲惫的购物体验。
对于某些商品,顾客会选择同时购买,如面包与 牛奶、薯片与可乐等,当面包与牛奶或者薯片与 可乐分布在商场的两侧,且距离十分遥远时,顾 客购买的欲望就会减少,在时间紧迫的情况下顾 客甚至会放弃购买某些计划购买的商品。相反, 把牛奶与面包摆放在相邻的位置,既给顾客提供 便利,提升购物体验,又提高顾客购买的概率, 达到了促销的目的。
了解Apriori算法的基本原理与使用方法
1. 置信度、支持度和提升度
➢
了解Apriori算法的基本原理与使用方法
2. 频繁项集
➢ 项集是项的集合,包含k项的项集称为k项集。项集的出现频率是所有包含项集事务的级数,又称绝对支持 度或支持度计数。
➢ 若存在项集的支持度满足预定义的最小置信度或最小支持度的阈值,则称此项集为频繁项集。 ➢ 同时满足最小置信度和最小支持度的规则称为强规则。