基于K-MEANS聚类的电商网站用户行为分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第38卷第3期温州大学学报(自 然 科 学 版)2017年8月V ol 38, No 3 Journal of Wenzhou University (Natural Science Edition) Aug, 2017 基于K-MEANS聚类的电商网站用户行为分析
王召义,薛晨杰
(安徽商贸职业技术学院经济贸易系,安徽芜湖 241002)
摘要:调整网站访问日志数据,从中提取用户访问各类页面次数,考虑类别化的变量组合方式,采
用K-MEANS聚类对类别化的变量进行聚类分析,理解各类别特征,描述用户行为,分析各类别与输
出结果的关联性,并为制定网站经营策略提供支持和参考依据.实证研究表明,对页面访问次数占比
进行K-MEANS聚类分析,可以明确各类型页面与输出结果之间的关联性.
关键词:K-MEANS聚类;用户行为;多元回归;输出结果
中图分类号:TP311.13 文献标志码:A 文章编号:1674-3563(2017)03-0049-06
DOI:10.3875/j.issn.1674-3563.2017.03.008 本文的PDF文件可以从获得
用户行为主要是指用户在使用网络资源时所呈现出来的规律,可以用某些特征量的统计特征或特征量的关联关系定量或定性地表示[1].购物网站的用户行为特征更有其独特之处,通过数据挖掘技术分析购物网站的用户行为特征,己成为电子商务用户流失领域的一个重要研究课题[2].1 问题由来
现在的中小企业在互联网的冲击下,有的被时代淘汰,有的则搭乘互联网+的浪潮,摇身一变成了有着独立购物网站的电子商务企业[3].独立购物网站在给企业带来机遇的同时,也面临着一系列的问题——网站如何推广、流量从哪里来、如何识别用户访问行为特征等,这些问题处理不好,会拖累企业发展.分析网站访问日志是解决这些问题的有效手段之一,通过分析网站访问日志能了解用户行为及被频繁访问的资源.因此,本文从大量网站访问日志数据中提取有关数据,使用K-MEANS聚类对这些数据进行分析,描述用户行为特征,从而为制定网站经营策略提供支持和参考依据.
2 研究模型
基于K-MEANS聚类的网站用户行为分析,其核心是对网站访问日志数据进行聚类分析,描述各类别的特征,并分析各类别与输出结果的关联性.研究模型主要分为三个部分:数据准备、数据分析和结论.具体流程如图1.
1)数据准备
从企业自建的购物网站访问日志中提取出用户访问各类页面的次数,并计算出各页面类型访
收稿日期:2016-09-30
基金项目:安徽省高校优秀青年人才支持计划项目(gxyqZD2017110);安徽省高校人文社会科学研究重点项目(SK2016A0357);安徽省教学研究项目(2015jyxm751);安徽省高校自然科学研究重点项目(KJ2016A253)
作者简介:王召义(1983-),男,安徽宿州人,讲师,硕士,研究方向:数据挖掘
温州大学学报(自然科学版)(2017)第38卷第3期
50
问占比即类别化;从用户交易记录数据库中,统计出用户的总消费金额.即得到变量为用户ID 、各页面类型访问占比,输出结果为消费金额的原始数据.
2)数据分析
数据分析分为两个阶段展开工作。第一阶段是对类别化后的数据进行K-MEANS 聚类分析,分析各类别与输出结果的关联性;第二阶段是用多元回归统计分析各变量与输出结果的关联性,并与第一阶段分析结果进行比较.
3)结 论
以分析结果为参考,对网站及经营策略进行改善并验收成果.
图1 研究模型 Fig 1 Research Model
3 实证研究
3.1 数据准备
以安徽省芜湖市A 企业自建购物网站的访问日志为数据源,该网站架构如图2所示.
图2 A 企业网站首页部分截图(网站logo 已遮挡)
Fig 2 Website Homepage Partial Screenshots from Company A (Website Logo Has Been Shielded)
王召义等:基于K-MEANS聚类的电商网站用户行为分析51首页上是商品分类、特卖页面的链接,访客可以由此进入商品详情页,并在购物车内进行订单结算,其它还有搜索、帮助功能.“商品详情”与“商品分类”的页面完全不同,“特卖页面”与“帮助”页面也不一样.因此,可以先将网站上的各个页面按照其文件性质大致分类,然后请网络工程师按照该分类列表统计访问日志.
3.1.1 原始数据
在筛选网站访问日志时,要将访问日志与以用户为单位统计的消费金额相结合,从中分离出适当的变量及数据.为了能够将体现用户行为特征的要素以一目了然的形式统计出来,本文把购物网站的页面简单分成首页、商品分类、商品详情、特卖页面、搜索功能、购物车、其他(帮助或客服)几大类.以用户为单位,统计各类页面的访问次数,并将其与输出结果(消费金额)相结合,即成如表1的原始数据.
表1 原始数据
Table 1 Raw Data
访问次数
用户ID 消费金额/ 元
首页商品分类商品详情特卖页面搜索功能购物车其它合计
U00000268 1 670 7 6 37 0 1 2 1 54
U00000323 6 870 4 1 5 2 0 1 0 13
U00000386 2 940 5 4 10 3 0 1 0 23
U00000535 1 390 7 2 39 3 12 8 2 73
U00000536 27 500 3 3 8 1 1 1 0 17
U00000625 920 4 1 6 3 0 1 0 15 … … … … … … … … … … 3.1.2 变量的类别化
表1中除了用户ID、消费金额外,还包含了用户对各类型页面的访问次数.排除消费金额和用户ID,可供选择的变量即为各类型页面的访问次数,但不能直接对其进行聚类分析,因为聚类分析会将值相似的数据看作“同一个类别”进行分类[4].因此,本文不直接使用访问次数进行聚类,而是将焦点放在访问页面类型所占的比例上,即各类型页面的访问次数除以合计访问次数所得的占比,这是因为访问页面类型的占比可以反映用户的喜好.
需要强调的是,本文使用各类页面的访问占比进行聚类分析,是由多方面因素决定的.在其他情况下,直接使用次数,或者使用完全不相干的其它要素进行聚类分析也是非常有可能的.3.2 数据分析
3.2.1 K-MEANS聚类分析
K-MEANS聚类需要事先判断簇个数来作为输入参量,该参数的设置往往涉及到聚类效果.轮廓系数可以用来解决这个问题.轮廓系数方法结合了凝聚度和分离度,可以以此来判断聚类的优良性,其值在-1到+1之间,值越大表示聚类效果越好.依据这个原理,使用SPSS Modeler对类别化后的数据进行多次K-MEANS聚类分析,并计算在每个簇数条件下的轮廓系数,当轮廓系数取最大时,其相应的簇个数是最好的.选择k = 2,3,4,5,6,对应的平均轮廓值为0.4, 0.6, 0.5, 0.5, 0.5.因此,选择聚类数为3的K-MEANS聚类对数据进行分析,聚类结果如表2所示,其中,聚类-1数量为2 185、聚类-2数量为5 754、聚类-3数量为2 596,共计10 535,无缺失.