基于通信数据的移动用户行为分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于通信数据的移动用户行为分析
[摘要] 认为分析移动用户行为特征与分类,对移动应用个性化服务的改进具有重要的参考价值。基于国内电信运营商随机抽取某市一万移动用户一周的日志记录,其中含有4万余条通话记录和200余万条网络请求,每条请求包含对应的基站标号以及基站地理位置。本研究从消费能力、通话量、网络请求量、位移量四个维度从这批数据中提取14种基本特征指标。利用K-Means聚类方法将移动用户区分成规律通话型、随机上网型、居家节约型和随机高消费型等四类用户模型。
[关键词] 用户行为分析;移动用户研究;聚类分析;数据挖掘
[分类号] G35
1 引言
随着移动通信技术的迅猛发展和广泛应用,移动终端大量普及于民众,也产生了大量用户信息记录,如何利用大数据来了解移动用户行为与习惯特征的研究不断涌现。通过对移动用户的分析与了解,许多企业与政府部门可以依据结果提供各式各样的服务与应用方案。移动用户行为分析通常是指基于地理信息涉及用户访问网络、通话的行为规律与活动研究。电信运营商通过获取用户访问移动互联网、使用移动应用及通话的行为规律,能够有效地配置网络资源并提供具有针对性的服务。
近年来,针对桌面端日志挖掘的研究层出不穷,[15, 16, 17]都是针对桌面端web服务的后台日志挖掘入手,通过分析用户访问页面的占比、用户访问的页面顺序等对用户的行为进行建模。而针对移动用户的行为分析研究则在很多方面借鉴了桌面端的研究,同时利用移动端设备的地理位置位置记录,挖掘出用户移动轨迹模式,找出轨迹中重要的位置并结合通信数据、互联网日志数据以及移动应用数据作为研究的基础,分析挖掘移动用户的需求、行为、兴趣,甚至是通过预测用户的目的地、推测用户下一步即将到达的位置以便提供针对性的推荐服务[1, 13]。传统的移动用户轨迹分析,多数利用软件采集仿真数据,属于细时空粒度下的数据,即可以采集到用户一天中连续时间段的位置数据。Y.Zhu等作者着眼于用户位置数据中经常出现的地点,并根据出现时间来推测用户所处的位置是家还是公司[2]。此外,S.Akoush和A.Sameh则通过指定时间粒度,聚类用户在多日同一时间段的行动轨迹,利用稀疏数据拟合出用户在这时间段移动轨迹的目的[3]。研究用户的移动轨迹,实现预测用户下一步位置目的的方法,包括利用贝叶斯算法、聚类、数据挖掘方法等。实际上,电信运营商服务器上的数据是粗时间粒度的,唯有请求通信或上网时才会被记录,因此用户位置变化是不连贯的,具有随机性、稀疏性的特点,不能支持用户行为轨迹直接且连续的刻画描述。谭均元等人提出了生活熵概念作为用户移动轨迹规律程度的度量[4],采用了个人多天时段移动序列的算法来弥补实际数据的这种不足,即通过对多天数据的分析来获得更准确的用户移动轨迹。S.A.Shad则结合地理信息与用户提供的上下文语义信息来增加预测准确性[5]。梁鹏等作者则透过在WAP网关进行数据采集,并对数据进行数值分析和拟合,最后得到用户行为的统计性特征来建立用户行为
分析模型[6]。吕洋利用上网数据研究用户的网络请求行为、时间、网页应用、数据包大小等信息建立用户行为模型[7]。Y.Liu关注于移动用户上网过程中访问频率、访问时间、访问深度之间的关系[8]。G.F.Zhao等作者则利用二分网络模型来分析移动用户上网过程中用户与不同网站之间的关联。对移动用户上网请求过程中数据包的大小、请求响应时间等的研究也是与运营商相关的研究方向[9, 10, 11, 12]。由此可知,国内外对移动用户行为的研究呈现向上的趋势,研究的方法也越来越多样。
笔者基于运营商提供的移动数据,提取用户特征,并将选取的特征作为聚类分析的输入参数,以发现具有不同行为特征的用户类别。利用消费能力、通话量、网络请求量、位移量四个维度作为分析用户行为的基础,从该批数据中提取相关的评价指标。通过聚类算法对用户的分类,分析各类型用户所独有的属性、行为特征。各类用户模型分析结果可以作为电信运营商、服务或应用提供企业根据不同用户类型提供更好的推荐服务。
2 数据集及预处理
2.1 数据集
本研究的数据集来自国内移动电信运营商某市内的一万注册用户的一周数据,时间为2013年12月的第一周。数据包括用户基本信息、通话记录、上网记录、以及使用基站地理位置等,其中共有456006条通话记录和21441422条网络请求记录。该批数据中的所使用到的具体的信息字段包括:用户编号(user_id)、移动产品品牌(brand_name)、用户通话产生的费用(call_fee)、用户上网产生的流量费用(gprs_fee)、增值业务费(databusiness_fee)、终端品牌(brand_chn)、手机操作系统(operation_sys)、通话开始时间(start_time)、通话结束时间(end_time)、通话基站纬度(l ongitud e)、通话基站经度(latitud e)、网络请求时间(start_time)、网络请求基站纬度(l ongitud e)、网络请求基站经度(latitud e)等。考虑到商业机密和隐私保护,笔者只对部份信息进行分析和结果展示。
2.2 数据预处理
数据预处理的主要工作包含删除空记录;删除通话数据异常记录(单一通话连续时长超过十小时);清除与标记部份字段值缺失记录;以及清理用户请求基站服务的异常记录。通过数据清理与预处理,最后共8916个有效用户。
(1)部份字段值缺失记录
该批数据用户的基本信息记录中,对于用户通话产生的费用、用户上网产生的流量费用、增值业务费数据缺失的情况,这是由于用户在相应字段意义内未产生额外费用,统一赋值为0;对于手机品牌或操作系统值缺失的情况,我们推测这是由于用户是用的手机并不属于主流品牌或主流操作系统,统一赋值为其他(OTHER);用户的通话与上网数据记录有开始时间或结束时间缺失,对这部分记录做了删除处理;并且用户通话和上网数据中的位置信息的经纬度缺失的情况,也做了清除处理。
(2)用户请求基站服务的异常记录
根据同一用户不同时间的连续位移数据分析,发现部份记录用户在极短时间内进行了极大的位移。本研究利用通话起始、结束时间、上网请求时间、基站纬度、基站经度来计算用户位移时速,将时速大于100km/h的用户记录清除。在