一种基于用户商业行为的数据采集分析方案_卞琛
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2015.07
随着中国互联网和移动网络的普及、全国网络带宽的全面提速和手机的价格一降再降,互联网用户数越来越多[1]。
同时,互联网的应用也出现了爆发式增长,原本单机的应用,几乎都在逐渐增加互联网功能,原本基于互联网的应用,现在正在积极扩展功能并疯狂搜集数据。
用户在互联网上活动的增多,留下的痕迹和数据也越来越多[2]。
如何利用好用户在网上留下的痕迹数据从而能够洞察用户的一些使用习惯,深层次挖掘用户需求,就非常值得研究。
一些互联网平台的沉浮都在彰显着大数据分析的威力。
从2012年开始大数据概念开始进入人们的视野,并有了一些初步应用。
大数据(big data)[3]又被称为称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法[4,5]。
因此,对于用户行为的分析和研究是基于大量真实数据样本的,而不是随机抽查。
而在电子商务平台,为做到有的放矢,提高利润率,对海量用户活动数据的采集、分析和推荐必不可少[6]。
研究用户商业行为数据的采集分析问题,提出用户数据的采集、分析和推荐的一整套解决方案。
文章分为两个阶段,第一阶段将用户商业行为划分为两类:访问日志数据和行为操作数据,以行为操作数据为重点,制定采集规则和指标体系,设计采集过程;存储结构采用Hadoop 的数据仓库[7],以应对大数据负载压力,Hive 工具完成ETL 工作[8]。
第二阶段,通过应用关联规则推荐模型将用户行为数据进行关联规则比对,向用户呈现最优推荐。
1用户行为数据采集和分析
电子商务平台运营的核心是利润。
利润可以由图1中的
公式直观体现。
暂不考虑营销手段提升的访客数,仅关注访客到达网站后的“购买转化率”。
通过上面这个简单的公式化推导,得到这样的结论:无论是流量引导还是购买都存在各种转化率问题。
比如,打广告引导流量,就要知道广告会展现多少次,
然后广告点击率就是到店的转化;这些人进入店面后会不会购买也不确定,这就会产生购买转化率……这些环节都是一条链上的组成部分,只要任意一环出现问题,都会导致营业额下降从而引起利润下降。
作为电商的运营者最关心的一个指标是“购买转化率”。
购买转化率就是成功进行了购买动作的访问量/总访问量,该指标用于评估网站内容与网站宣传对访问者的吸引和引导效果。
比如,某个商品页面点击率很高,但是购买的很少,那就很能说明问题,该商品很可能放置了虚假宣传信息或者其他什么原因,从而使得当前商品描述页面的转化率降低,那必然导致最终成交量的降低。
通常来说,用户行为数据采集和分析的主要过程步骤如
图2所示。
一种基于用户商业行为的数据采集分析方案
卞琛1,2,英昌甜2,修位蓉3
(1.乌鲁木齐职业大学信息工程学院,乌鲁木齐830002;2.新疆大学信息科学与工程学院,乌鲁木齐830046;
3.乌鲁木齐市技工学校信息工程部,乌鲁木齐830031)
摘
要:为了有效利用用户在互联网上留下的痕迹数据,提高电子商务平台的购买转化率,提出一种基于用户商业
行为的数据采集分析方案。
该方案对痕迹数据进行分类采集,通过即定评价指标进行深层次挖掘,与关联规则库进行比对匹配,形成满足用户需求的推荐内容。
应用表明,痕迹数据的采集全面可靠,评价体系指标设定合理,推荐内容符合用户满意度。
关键词:大数据;商业行为;数据挖掘;推荐系统
基金项目:国家自然科学基金资助项目(61262088,61462079);
新疆维吾尔自治区自然科学基金资助项目(2011211A011)。
作者简介:卞琛(1981-),男,讲师,博士,研究方向:网络
计算、分布式系统;英昌甜(1989-),女,博士,研究方向:分布式文件系统、内存计算;修位蓉(1979-),女,讲师,硕士,研究方向:电子商务、数据挖掘。
收稿日期:2015-01-11
图1
利润及提升方式示意图
图2用户行为数据采集过程
57
DOI:10.16184/prg.2015.07.028
2015.07
从上述基本过程可以看出,用户行为数据的采集是整个过程的起点,足够的正确的用户行为数据是后面所有处理过程的基础。
那么,所谓“足够”的用户行为数据指的是什么呢?
从用户登录网站所留下的痕迹来看,主要有两种数据:(1)用户访问Web 网站所留下的服务器端的访问日志数据。
(2)用户在Web 网站的每个网页中的具体行为操作过程数据。
1.1用户日志数据
用户日志数据的采集过程比较简单,在服务器端设置好日
志策略,定时从服务器中备份日志,交由统计工具生成报告。
目前很多统计工具都主要是针对第一种数据类型做的各种分析。
例如,Google Analytics [9]、百度统计、百度移动统计等。
这些统计平台通过用户对网站地址的访问来研究用户在互联网上的使用习惯,通过这些分析工具的指标解析,可以完成内容分析、移动分析、转化分析、社交分析、广告分析等分析报告[10,11]。
对于非电商平台来说,上述分析报告已经可以给企业的经营提供足够的指导和决策支持。
但是对于电子商务平台来说,这些上述分析结果远远不够。
1.2用户行为数据
一般来说,访客从进入网站首页开始到购物付款完成,
至少会经历以下6个步骤:
(1)搜索商品。
(2)查看商品详细。
(3)进入购买向导。
(4)填写购买数量和送货地址。
(5)选择支付方式。
(6)成功支付。
其中每一步都有可能造成用户流失,为了提高最终的购买,尽可能地提升产品销量,就需要对每一步的顾客行为做出精确分析,找出流失率过高的步骤,查找原因,及时改进,才能够有效地提升产品的销量。
这就需要找到真正的问题根源,提高整个网站的购买转化率。
在用户行为数据采集过程时,评价指标包含以下几个方面:(1)PV :page view 页面浏览量。
(2)UV :unique visitor 访客。
(3)CV :click visit 页面元素点击量。
(4)IP :独立IP 数。
(5)PT :用户在某一页面的停留时间。
(6)PageFrom :贡献下游浏览量。
(7)Source :访问网站来源。
具体的数据的分析过程如下:
(1)记录用户行为数据。
行为数据的记录分为两大类:用户请求网站资源形成的服务器日志和用户在每个页面中的具体操作过程。
这一过程需要记录大量的用户访问网站资源的数据(资源请求数据大多可从网站访问日志中获取;页面
具体操作数据可通过JS 进行记录)。
(2)统计和分析访客数(Unique Visitor ,UV ),独立IP 数(IP ),关注页面的访问量(PageView ,PV ),页面中重点元素的点击量(Click Visit ,CV ),页面停留时间(Page Stay
Time ,PST )等数据。
然后根据条件对分布式数据库的数据进
行初步过滤和清洗,对产生的中间数据进行计算和统计,从而确定购物过程中每个过程的流失率。
(3)计算页面内关键元素的点击操作相关数据,操作时间,页面内容浏览完整度等数据,作为推荐系统的基础数据,也可以形成单独的数据统计报告。
(4)将用户行为数据提交关联规则库进行比对,选择匹配度最高的规则,向用户进行推荐。
2解决方案及核心实现
对于一个大型的电商平台来说,用户访问数据每天可高
达10TB 甚至更高。
针对如此大量的数据还要做到有效快捷的存储,只能抛弃所有的传统关系型数据库,采用分布式数据库Hadoop 来应对,同时后续的数据清洗和过滤过程,也可以借助Hive 数据仓库工具的高并行性和高性能来实现。
2.1Hadoop 分布式系统
Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System )[12],简称HDFS 。
HDFS 有高容错性的特点,并且
设计用来部署在低廉的(low-cost )硬件上;而且它提供高传输率(high throughput )来访问应用程序的数据,适合那些有着超大数据集(large data set )的应用程序。
Hadoop 文件系统数据存储流程图如图3所示。
2.2HIVE 工具集
Hive 是建立在Hadoop 上的数据仓库基础构架。
它提供了
一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。
Hive 定义了简单的类SQL 查询语言,称为HQL ,它允许熟悉SQL 的用户查询数据[13,14]。
同时,这个语言也允许熟悉Map/Reduce 开发者的开发自定义的mapper 和reducer 来处理内建的mapper 和reducer 无法完成的复杂的分析工作。
图3HDFS 写入数据流程图
58
2015.07
2.3解决方案框架
提出的用户行为数据采集分析系统采用分布式数据库
Hadoop 来存储,同时后续的数据清洗和过滤过程,借助Hive
数据仓库工具的高并行性和高性能来实现[15]。
经过Hive 清洗之后的数据,会将其存储在Microsoft SQL
Server 群集上面,利用Microsoft SQL Server 强大的商业智能分
析工具来完成二次统计,再通过专门编写的用户行为分析系统(Web 平台)呈献给决策者,供决策者查看分析结果甚至回放指定用户某一时间在某个网页上的操作过程,具体框架如图4所示。
2.4核心实现
用户行为数据分析的最终目的是:根据大量用户的历史
浏览或购买商品记录,利用一定的规则推算出商品之间的相关关系,向用户进行商品推荐,从而提高购买转化率。
因此解决方案核心部分采用关联规则推荐模型进行设计。
关联规则模型是一种基于数据挖掘技术的推荐模型,经典的算法是
Apriori 算法,核心是采用逐层迭代搜索的方式挖掘频繁项目
集合,使集合中的项目数目不断增加,以此获得关于用户的频繁项目集合,然后定义推荐系数为关联规则的置信度乘以区间距离,最后利用推荐系数选择N 个值较大的项目作为推荐项目集合向用户推荐[16,17]。
由用户行为数据分析到项目推荐的基本过程是,首先对用户历史访问数据进行离线分析,构造事务数据库,并通过关联规则挖掘建立关联规则和用户的频繁项目集合,然后根据关联规则集合找出用户支持的所有关联规则,以此为目标用户进行推荐。
关于关联规则挖掘,就是发掘大量数据文件中项目之间的相互联系,它属于数据挖掘领域的一个重要分支,其形式化表示为:令C 、D 为项目集合I 的一个子集且满足C 哿I 、D 哿I 、C ∩D=,则关联规则是形如C →D 的一种蕴含表达式,其中C 为关联规则的条件,D 为关联规则的结论。
再令事务Transaction 为I 的一个子集且满足
Transaction 哿I ,不同的事务构成事务集T 存放于事务数据库
中。
关联规则从某个侧面揭示了事务之间的某种联系,此时
关联规则C →D 在事务集T 中的支持度表示为:Support (C →
D ),它是T 中包含C ∪D 项目集的百分数,用于表示T 中同
时出现C 和D 的概率,概率越大说明C 、D 之间的联系越密切;同时C →D 在T 中的置信度表示为:Confidence (C →D ),它是指T 中支持C 的事务中同时支持D 的百分数,用于表示在出现C 的条件下出现D 的概率,即条件概率。
支持度和置信度伴随着关联规则,是对关联规则的必要补充,它们的表达式分别如下:
Support (C →D )=Pcent (C ∪D )(3-1)Confidence (C →D )=Pcent (C |D )
(3-2)
关联规则建立的过程中,可以根据情况设定支持度阈值
MinSupport 和置信度阈值MinConfidence ,当有Support (C →D )≥MinSupport ∧Confidence (C →D )满足时,则称规则C →D 为
强规则。
其中,那些满足Support (C →D )≥MinSupport 条件的项目构成的集合为频繁项目集合。
关联规则推荐模型主要通过关联规则挖掘过程来建立关联规则库,以此发掘不同商品在销售过程中存在的某种内在关联性,从而增加不同商品的交叉销售能力。
它主要通过采集系统中获取用户的事务信息,利用关联规则挖掘过程进行规则学习,寻找到一些有意义的关联建立关联规则,并将其放到推荐引擎中的关联规则库中,这一过程需要处理大量的数据且需要花费很长的时间,不过这个过程可以由系统的离
线模块专门负责完成。
然后当请求用户出现时,系统便可以根据目标用户此时的请求内容在关联规则库中匹配合适的关联规则,以此在线向用户提供项目推荐。
3结语
研究用户商业行为数据的采集分析问题,对用户商业行
为划分为两类:访问日志数据和行为操作数据,以行为操作数据为重点,制定采集规则和指标体系,设计采集过程;存储结构采用Hadoop 的数据仓库,以应对大数据负载压力,
Hive 工具完成ETL 工作。
应用关联规则推荐模型将用户行为
数据进行关联规则比对,向用户呈现最优推荐,从而形成用户数据的采集、分析和推荐的一整套解决方案。
经过多周期实验论证,解决方案运行情况整体良好,但随着数据量级的增加,缺陷也在逐步显露,以此作为下一阶段的主要工作。
(1)用户冷启动问题:新录入的项目由于缺乏用户历史记录数据,无法融入到现有的关联规则中去,以致于无法获得推荐。
(2)支持度阈值和置信度阈值的机器判定:关联规则挖掘过程中,支持度阈值和置信度阈值等相关参数需要人工设定,这在实际中难以把握,如果设定的不合理,则会直接降低系统的推荐质量。
(3)数据挖掘的复杂度问题:同时随着系统规模的扩大,关联规则挖掘过程的复杂度会急剧升高,从而会对性能造成不利的影响。
图4
基于大数据的用户行为数据采集分析系统整体解决方案
59
2015.07
录入数据,充分考虑时间节点、活动结果、活动频率及教学环节权重等因素,建立评估模型,进行教学过程评估,人机结合,最终实现优质课程教学过程质量评估功能。
3技术实现及实施效果
系统依托校园网,采用B/S 结构,依托校园网建立基于
Web 的三层体系架构,包括用户表示层、业务逻辑层、数据
访问层。
其中将实现人机界面的所有表单和组件放在表示层,将所有业务规则和逻辑的实现封装在负责业务逻辑组件中,将所有和数据库的交互封装在数据访问组件中,主要实现技术可采用SQLServer+ (C#)技术进行开发,实现了优质课程的督、评、管、建、用的分级、分层使用功能。
4结语
在课堂教学质量方面,经验证明,还是制度靠得住。
缺
乏良好的制度规则,或者良好的制度规则得不到实施,教学质量就无法得到根本的保证,平台建设就是保证课堂教学制度贯彻落实的一个具体措施。
平台建设完成并通过投入运行一年来的实际效果表明,平台基本达到了预期设计目标,实现了优质课程管理模式向精细化管理的转变,大大提高了效
率。
需要说明的是,系统解决了评价体系网上实施的可操作问题,指标体系和评估模型科学完备是平台实用化的基础,需要加大这方面的研究。
同时,平台按照统一的平台和标准进行研发,可以对接网上学员评教的结果数据,以及和其他教育教学应用系统的信息共享。
但是在初次使用过程中也存在着输入繁琐工作量较大,以及评估结果不尽合理的问题,需要下一步着力研究解决。
对于使用平台积累的大量宝贵资料数据,可以运用大数据技术,进行深度挖掘,对优质课程的走向进行科学的预测,提出有针对性的对策,这是下一步的研究方向。
参考文献
[1]毕菁华.建立课堂教学质量评价体系的实践性探索[J].
北京大学学报(哲学社会科学版),2007,(5).
[2]符泰民.信息技术支持下的教学质量监测研究[J].中国
电化教育,2014,328(5):130-133.
[3]吕玲,马国泰.高职院校教学质量信息采集体系建设研究
[J].中国职业技术教育,2014,(2):52-55.
[4]薛云,郑丽,沈桂兰.高校网络教学过程质量控制与管
理研究[J].教育理论与实践,2014,34(9):42-44.
参考文献
[1]每日经济新闻.推销高手亚马逊的秘密[EB/OL].[2]延皓.基于流量监测的网络用户行为分析[D].北京邮电
大学,2011.
[3]马帅,李建欣,胡春明.大数据科学与工程的挑战与思考
[J].中国计算机学会通讯,2012,8(9):22-28.[4]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].
计算机学报,2013,36(6):1127-1134.
[5]陈如明.大数据时代的挑战、价值与应对策略[J].移动
通信.2012,7(17):14-15.
[6]周岳.基于兴趣分类的用户行为分析系统的研究与设计
[D].
北京邮电大学,2010.
[7]韩家炜.数据挖掘:概念与技术[M].北京:机械工业
出版社,2007:146-183.
[8]丁振,项颖.基于Hadoop 的关联规则算法在电子商务中
的应用[J].计算机与现代化,2012,8(8):122-125.
[9]The ACM conference series on recommender systems.ACM
RecSys 2014[EB/OL].
[10]刘华.基于关联规则的个性化推荐系统研究与应用[D].
华东师范大学软件学院,2011.
[11]丁振国,陈静.基于关联规则的个性化推荐系统[J].计
算机集成制造系统,2003,9(10):891-893.
[12]倪卫杰.基于用户兴趣模型的个性化论文推荐系统研究
[D].天津大学软件学院,2010.
[13]Demiriz A.Enhancing product recommender systems on sparse
binary data [J].Data Mining and Knowledge Discovery,2004,9(2):147-170.
[14]Jia C X,Liu R R,SunD,Wang B H.A new weighting method
in network-based recommendation [J].Physica A-Statistical Mechanics and Its Applications,2008,387(23):5887-5891.[15]Zhou T,RenJ,MedoM,Zhang Y C.Bipartite network projection
and personal recommendation [J].Physical Review E,2007,76(4):1-7.
[16]杨兴耀,于炯,吐尔根·依布拉音,廖彬.综合用户和项
目预测的协同过滤模型[J].计算机应用,2013,33
(12):3354-3358.
[17]HernandoA,MoyaR,OrtegaF,Bobadillaj.Hierarchical graph maps
for visualization of collaborative recommender systems [J].Journal of Information Science,2014,40(1):97-106.
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
(上接第50页)
60。