一种基于用户商业行为的数据采集分析方案_卞琛

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2015.07

随着中国互联网和移动网络的普及、全国网络带宽的全面提速和手机的价格一降再降,互联网用户数越来越多[1]。同时,互联网的应用也出现了爆发式增长,原本单机的应用,几乎都在逐渐增加互联网功能,原本基于互联网的应用,现在正在积极扩展功能并疯狂搜集数据。

用户在互联网上活动的增多,留下的痕迹和数据也越来越多[2]。如何利用好用户在网上留下的痕迹数据从而能够洞察用户的一些使用习惯,深层次挖掘用户需求,就非常值得研究。一些互联网平台的沉浮都在彰显着大数据分析的威力。从2012年开始大数据概念开始进入人们的视野,并有了一些初步应用。大数据(big data)[3]又被称为称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法[4,5]。因此,对于用户行为的分析和研究是基于大量真实数据样本的,而不是随机抽查。而在电子商务平台,为做到有的放矢,提高利润率,对海量用户活动数据的采集、分析和推荐必不可少[6]。

研究用户商业行为数据的采集分析问题,提出用户数据的采集、分析和推荐的一整套解决方案。文章分为两个阶段,第一阶段将用户商业行为划分为两类:访问日志数据和行为操作数据,以行为操作数据为重点,制定采集规则和指标体系,设计采集过程;存储结构采用Hadoop 的数据仓库[7],以应对大数据负载压力,Hive 工具完成ETL 工作[8]。第二阶段,通过应用关联规则推荐模型将用户行为数据进行关联规则比对,向用户呈现最优推荐。

1用户行为数据采集和分析

电子商务平台运营的核心是利润。利润可以由图1中的

公式直观体现。

暂不考虑营销手段提升的访客数,仅关注访客到达网站后的“购买转化率”。通过上面这个简单的公式化推导,得到这样的结论:无论是流量引导还是购买都存在各种转化率问题。比如,打广告引导流量,就要知道广告会展现多少次,

然后广告点击率就是到店的转化;这些人进入店面后会不会购买也不确定,这就会产生购买转化率……这些环节都是一条链上的组成部分,只要任意一环出现问题,都会导致营业额下降从而引起利润下降。作为电商的运营者最关心的一个指标是“购买转化率”。购买转化率就是成功进行了购买动作的访问量/总访问量,该指标用于评估网站内容与网站宣传对访问者的吸引和引导效果。比如,某个商品页面点击率很高,但是购买的很少,那就很能说明问题,该商品很可能放置了虚假宣传信息或者其他什么原因,从而使得当前商品描述页面的转化率降低,那必然导致最终成交量的降低。

通常来说,用户行为数据采集和分析的主要过程步骤如

图2所示。

一种基于用户商业行为的数据采集分析方案

卞琛1,2,英昌甜2,修位蓉3

(1.乌鲁木齐职业大学信息工程学院,乌鲁木齐830002;2.新疆大学信息科学与工程学院,乌鲁木齐830046;

3.乌鲁木齐市技工学校信息工程部,乌鲁木齐830031)

要:为了有效利用用户在互联网上留下的痕迹数据,提高电子商务平台的购买转化率,提出一种基于用户商业

行为的数据采集分析方案。该方案对痕迹数据进行分类采集,通过即定评价指标进行深层次挖掘,与关联规则库进行比对匹配,形成满足用户需求的推荐内容。应用表明,痕迹数据的采集全面可靠,评价体系指标设定合理,推荐内容符合用户满意度。

关键词:大数据;商业行为;数据挖掘;推荐系统

基金项目:国家自然科学基金资助项目(61262088,61462079);

新疆维吾尔自治区自然科学基金资助项目(2011211A011)。

作者简介:卞琛(1981-),男,讲师,博士,研究方向:网络

计算、分布式系统;英昌甜(1989-),女,博士,研究方向:分布式文件系统、内存计算;修位蓉(1979-),女,讲师,硕士,研究方向:电子商务、数据挖掘。

收稿日期:2015-01-11

图1

利润及提升方式示意图

图2用户行为数据采集过程

57

DOI:10.16184/prg.2015.07.028

2015.07

从上述基本过程可以看出,用户行为数据的采集是整个过程的起点,足够的正确的用户行为数据是后面所有处理过程的基础。那么,所谓“足够”的用户行为数据指的是什么呢?

从用户登录网站所留下的痕迹来看,主要有两种数据:(1)用户访问Web 网站所留下的服务器端的访问日志数据。(2)用户在Web 网站的每个网页中的具体行为操作过程数据。

1.1用户日志数据

用户日志数据的采集过程比较简单,在服务器端设置好日

志策略,定时从服务器中备份日志,交由统计工具生成报告。

目前很多统计工具都主要是针对第一种数据类型做的各种分析。例如,Google Analytics [9]、百度统计、百度移动统计等。这些统计平台通过用户对网站地址的访问来研究用户在互联网上的使用习惯,通过这些分析工具的指标解析,可以完成内容分析、移动分析、转化分析、社交分析、广告分析等分析报告[10,11]。对于非电商平台来说,上述分析报告已经可以给企业的经营提供足够的指导和决策支持。但是对于电子商务平台来说,这些上述分析结果远远不够。

1.2用户行为数据

一般来说,访客从进入网站首页开始到购物付款完成,

至少会经历以下6个步骤:

(1)搜索商品。(2)查看商品详细。(3)进入购买向导。

(4)填写购买数量和送货地址。(5)选择支付方式。(6)成功支付。

其中每一步都有可能造成用户流失,为了提高最终的购买,尽可能地提升产品销量,就需要对每一步的顾客行为做出精确分析,找出流失率过高的步骤,查找原因,及时改进,才能够有效地提升产品的销量。这就需要找到真正的问题根源,提高整个网站的购买转化率。

在用户行为数据采集过程时,评价指标包含以下几个方面:(1)PV :page view 页面浏览量。(2)UV :unique visitor 访客。

(3)CV :click visit 页面元素点击量。(4)IP :独立IP 数。

(5)PT :用户在某一页面的停留时间。(6)PageFrom :贡献下游浏览量。(7)Source :访问网站来源。具体的数据的分析过程如下:

(1)记录用户行为数据。行为数据的记录分为两大类:用户请求网站资源形成的服务器日志和用户在每个页面中的具体操作过程。这一过程需要记录大量的用户访问网站资源的数据(资源请求数据大多可从网站访问日志中获取;页面

具体操作数据可通过JS 进行记录)。

(2)统计和分析访客数(Unique Visitor ,UV ),独立IP 数(IP ),关注页面的访问量(PageView ,PV ),页面中重点元素的点击量(Click Visit ,CV ),页面停留时间(Page Stay

Time ,PST )等数据。然后根据条件对分布式数据库的数据进

行初步过滤和清洗,对产生的中间数据进行计算和统计,从而确定购物过程中每个过程的流失率。

(3)计算页面内关键元素的点击操作相关数据,操作时间,页面内容浏览完整度等数据,作为推荐系统的基础数据,也可以形成单独的数据统计报告。

(4)将用户行为数据提交关联规则库进行比对,选择匹配度最高的规则,向用户进行推荐。

2解决方案及核心实现

对于一个大型的电商平台来说,用户访问数据每天可高

达10TB 甚至更高。针对如此大量的数据还要做到有效快捷的存储,只能抛弃所有的传统关系型数据库,采用分布式数据库Hadoop 来应对,同时后续的数据清洗和过滤过程,也可以借助Hive 数据仓库工具的高并行性和高性能来实现。

2.1Hadoop 分布式系统

Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System )[12],简称HDFS 。HDFS 有高容错性的特点,并且

设计用来部署在低廉的(low-cost )硬件上;而且它提供高传输率(high throughput )来访问应用程序的数据,适合那些有着超大数据集(large data set )的应用程序。Hadoop 文件系统数据存储流程图如图3所示。

2.2HIVE 工具集

Hive 是建立在Hadoop 上的数据仓库基础构架。它提供了

一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。Hive 定义了简单的类SQL 查询语言,称为HQL ,它允许熟悉SQL 的用户查询数据[13,14]。同时,这个语言也允许熟悉Map/Reduce 开发者的开发自定义的mapper 和reducer 来处理内建的mapper 和reducer 无法完成的复杂的分析工作。

图3HDFS 写入数据流程图

58

相关文档
最新文档