基于大数据的用户行为预测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于天池数据的用户行为分析报告
摘要
电商每天都面临着大量的用户访问行为数据信息,这些看似零散的数据,其实隐藏着巨大的商业逻辑。本报告基于阿里巴巴集团的大数据科研平台——“天池”中的4月15日至8月15日这四个月之间的用户行为数据,分别从用户角度和品牌角度对这些数据进行了数据描述,数据相关分析、聚类分析、预测分析。
【关键词】:大数据;相关分析;聚类分析
目录
1 前言 (5)
2 数据介绍 (5)
3 数据分析 (6)
3.1 描述统计分析 (6)
3.1.1 用户行为描述统计 (6)
表3.1 用户行为统计表 (6)
3.1.2 关于品牌的用户行为描述统计 (6)
表3.2 关于品牌的用户行为统计表 (6)
表3.3 被购买排名前十的品牌 (7)
3.2 相关分析 (8)
3.2.1 用户行为的相关分析 (8)
表3.4 用户行为相关性分析 (8)
3.2.2 关于品牌的用户行为的相关分析 (9)
表3.5 关于品牌的用户行为相关性分析 (9)
3.3 聚类分析 (10)
3.3.1 用户行为的聚类分析 (10)
表3.6 用户购买次数分组统计 (10)
3.3.2 关于品牌的用户行为的聚类分析 (11)
表3.6 最终聚类中心 (11)
3.4 预测分析 (11)
3.4.1 简单模型预测 (11)
表3.7 购买时间模型描述 (12)
表3.8 购买时间模型统计量 (12)
4 总结 (12)
表3.2 关于品牌的用户行为统计表 (6)
表3.3 被购买排名前十的品牌 (7)
表3.4 用户行为相关性分析 (8)
表3.5 关于品牌的用户行为相关性分析 (9)
表3.6 用户购买次数分组统计 (10)
表3.6 最终聚类中心 (11)
表3.7 购买时间模型描述 (12)
表3.8 购买时间模型统计量 (12)
图3.2 在4月15日到8月15日之间用户购物次数图 (11)
图3.3 以星期为周期的购买模型 (12)
1 前言
这几年,电商的价格战打得不亦乐乎,继去年的“双11 大促”和“6·18 狂欢节”之后,电商之间以价格为主要诉求的大规模促销层出不穷,几乎要把所有能够用来造势的节日都用上了,就今年5月份来说,不仅有“五一疯狂促”、“母亲节活动促销”,还有“520促销”,即使不是节日,电商们仍有层出不穷的名目来促销。而消费者们作为这场游戏中的弱者,不断地被这些真假价格战挑逗着和引导着。然而,在当今的商场上,还有另外一类企业不是通过简单粗暴的价格战,而是通过对数据的充分使用和挖掘而在商战中获胜的。
电商每天都面临着大量的用户访问行为数据信息,这些看似零散的数据,其实隐藏着巨大的商业逻辑,哪些品牌吸引到了这些受众?哪些用户是有潜力客户?访问行为数据的分析评估随着电商行业竞争趋势的加强,电商在数据处理能力上的强弱已经成为发展核心命脉,电商期待通过数据挖掘将电商网站的用户、内容、营销进行有效的连接,既能数据化客观地评估和分析营销的效果,又能发掘出真正潜在的客户。合作伙伴通过这类数据分析,就能获悉自己的产品在各区域、各时间段、各消费群的详细情况,进而判断市场趋势,有的放矢地刺激用户需求。
2 数据介绍
本报告中使用的数据来自于阿里巴巴集团的“天池”,一共有182880条数据,数据真是有效,记录了用户在4月15日到8月15日这4个月之间在天猫的行为日志,其中涉及到884位天猫用户,涉及到的天猫品牌有9531个。用户行为分为4类,其中“0”代表“点击”,“1”代表“购买”,“2”代表收藏,“3”代表加购物车。
表2.1 大数据的内容
名称记录内容
user_id 用户
brand_id 品牌号
type 用户操作行为
visit_datetime 用户行为发生时间
本报告期望通过对这些数据进行有效的分析和挖掘,了解用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的操作行为。
3 数据分析
3.1 描述统计分析
3.1.1 用户行为描述统计
表3.1 用户行为统计表
购买点击收藏加购物车总计
N 884 884 884 884 884
极差83 2376 52 11 2406
极小值0 0 0 0 1
极大值83 2376 52 11 2407
合计6984 174539 1204 153 182880
均值
7.9 197.44 1.36 0.17 206.88 0.316 7.593 0.148 0.026 7.817
标准差9.401 225.769 4.407 0.775 232.425 方差88.375 50971.746 19.418 0.601 54021.507
偏度2.871 2.845 6.023 7.105 2.763 0.082 0.082 0.082 0.082 0.082
峰度13.727 14.114 45.813 66.781 13.256 0.164 0.164 0.164 0.164 0.164
由表3.1可知,用户在182880次访问行为中,居首位的是点击,达174539次,接着依次是购买、收藏、加购物车,分别达6984、1204、153次。说明大部分用户对网络购物比较克制,购买前会经过多次点击浏览。购物车的使用率不高,只有及少数的人使用购物车,造成这种情况主要是因为购物车的作用只是让多件商品交易过程变得更简单,不用卖家修改邮费,节省卖家的时间,但是对于买家来说一则是不长买多件商品,二是使用购物车对买家没有实质性的实惠和帮助,所以购物车对买家的吸引力不大。
3.1.2 关于品牌的用户行为描述统计
表3.2 关于品牌的用户行为统计表