移动互联网时代的用户上网行为分析浅谈

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1
数据流量激增,运营商如何利用
据统计 , 全球移动数据流量将在 2014 年达到每月
4.2EB,预计到2016年时将增长到每月10.8EB,如图1 所示。
FC0௅ሆ 23 21 9 7 5 3 1 3/51 2/41 1/71 3122!!!!!!!3123!!!!!!!3124!!!!!!!3125!!!!!!!3126!!!!!!!3127 ౎ 5/31 7/:1 21/91
ຌႠ 渍狩B@ A? B2 B3 BO
诚度。以下分析以提高ARPU值为最终目标函数。
3.1 基于上网时间段的套餐划分
具体到上述的实例,时间增益为各个属性中的最大 值,即影响用户ARPU值的第一要素是时间,则在套餐 的制定上可以考虑专门设立基于上网时间段的套餐包, 在特定的时间段内享有流量优惠,如闲时资费比忙时资 费便宜 , 但此 “ 忙闲时 ” 不同于网络中话务业务的忙 闲,主要指数据业务。一方面满足用户的个性化需求差 异,另一方面,有目的地引导用户上网时间分布,疏导 流量,缓解网络压力,提高用户上网感知。而用户在享 受流量优惠的同时也增加了黏性,提高了对产品的忠诚
表3 每个年龄阶段的ARPU分布及概率
ageΒιβλιοθήκη Baidu>40 30~40 20~30 <20 ARPU(低) 2 0 0 0 P1 1 0 0 0 ARPU(中) 0 2 0 0 P2 0 2/3 0 0 ARPU(高) 0 1 4 1 P3 0 1/3 1 1
BSQV ARPU )ߛ* 雴
表4 各属性的信息增益对比
2
数据深度挖掘,分析用户上网行为
以WCDMA移动通信网络系统为例,运营商可在核
心网(Core Network,CN)网关GPRS支持节点(Gateway GPRS Support Node,GGSN)处通过一定的技术手段 获取用户同外部IP分组网络交互的信息,并利用自身服 务器集群,按照一定的录入数据库规则,实时存储用户 的上网数据。表1为用户上网信息的简单汇总,通过数 据挖掘的过程,可以分析出对于用户上网的影响因素, 从而细分用户群体,为精细化营销奠定基础。
[5]
表1 用户上网记录初始数据
性别 (Sex) 男 男 女 男 男 女 女 男 女 女 年龄 (Age) 43 23 20 19 48 35 27 37 29 32 上网集中时段 (Time) 9:00-10:00 18:00-19:00 7:30-8:30 8:00-9:00 10:00-11:00 14:00-15:00 17:30-18:30 15:00-16:00 19:00-20:00 9:30-10:30 主要流量类型 (Main Flow) 凤凰网、新浪 土豆 人人、QQ 网易游戏 新浪、人民网 微博、微信 腾讯新浪微博 财经网、QQ QQ、微信 优酷、PPlive 终端类型 (Terminal Type) 三星noteII 三星GalaxyS3 Iphone5 Iphone4S Lumia920 三星noteII 小米2 HTC One iphone4S iphone5
为便于对初始数据处理 , 需要进行预处理 。 首先 对初始数据按照以下规则进行粗粒度的分类 , 形成训 练样本。 1) 按照年龄层次划分。小于20,20~30,30~40, 大于40,共计4部分。 2) 按照上网集中时段划分 。 对于上网集中的定义 为 : 以小时为计量单位 , 上网流量大于 10M/ 小时 。 系统需 要对 每个用 户的 小时用量 进 行累加 , 选出流 量最多 的一 个小 时 , 作为 上网 集中的时 段 。 本文 暂 不考虑日均流量小于 10M 的用户 。 9:00 之前归为上班 途 , 9:00~12:00 归为上午 , 12:00~17:00 归为下午 , 17:00~19:00归为下班途,19:00~24:00归为晚上,共 计5部分。 3) 按照主要流量划分 。 ①网页类 : 主要指利用手 机终端浏览各种门户网站,图片等。②即时通讯类:如 QQ、飞信、微信等。③视频类:优酷、PPLive、乐视 网等。④游戏类:网易游戏等。⑤社交类:开心网、人 人网、微博等。⑥其他类:如某些炒股软件等,共计6 部分。 4) 按照终端类型划分。Android、iPhone、
附加值越来越低。因此,运营商寻找新的利润增长点、 提高流量经营的质量迫在眉睫。 反观消费渠道的多元化和消费内容的多样化 , 导 致用户在信息交互过程中产生大量各异的行为偏好 、 决策偏好和忠诚行为[2],而用户的这些偏好反映在每一 个上网行为的细节中 , 并最终影响运营商的业务收入 和利润水平。 在最先获得用户行为资料的前提下 , 运营商很有 必要对用户上网行为进行深入分析、深度发掘、细化分 类,构建流量差异化计费体系,提升流量价值,增加核 心竞争力,才不会被移动互联的时代浪潮所湮没。
BSQV ARPU )ዐ‫*ڪ‬
BSQV ARPU )ߛ*
BSQV ARPU )ߛ*
图2 用户按照时间属性进行分类
由于实例中的样本量较小 , 第一层级的决策树形 (3) 由此得出属性age的信息增益为 成之后,就完全符合了用户行为跟ARPU的对应关系, 即处于第二层级的属性都是平等的 , 用户只要处于某
(4) 同理可得到其他属性的信息期望
(5) (6)
(7) (8)
2.2 数据挖掘,影响因素排序
根据数据挖掘的基本理论[6],任何样本分类的信息 期望为 (1) 其中,数据集为S,m为S的分类数目, C i为某分类标号 , P i为任意样本属于 C i的概率 , S i 为分类Ci上的样本数。 将用户群体划分为 A 1 、 A 2 、 A 3 三类 , 分别代表的 ARPU值为低,中等,高,则用户的信息熵为
属性 时间(time) 年龄(age) 性别(sex) 类型(type) 流量(flow) 数值 1.3711 1.2541 1.2491 1.0667 0.8956
Time
Ujnf ฉӬ཰ ྟฉ
ฉ࿷ ူ࿷
ူӬ཰
P1、P2、P3分别表示每个年龄阶段中的用户属于 A1、A2、A3的概率。
BSQV ARPU )‫*گ‬
44
Research & Development 研究与开发
个时间段,其通常的上网行为对应产生的ARPU就是固 定的。 在实际生活中 , 由于海量样本及影响 ARPU 的因 素不止列出来的五类 , 如地域 、 收入等也会影响用户 ARPU值,则可以在第二层级去掉时间属性后进行二次 划分,直至满足下列停止分割的条件之一。1)一个节点 上的实例都属于同一个类别;2)没有属性可以再用于对 数据进行分割。 经过上述步骤之后 , 就可以形成一个完整的决策 树。图3展示的就是具有普遍意义的决策树。
数据挖掘技术是从海量数据中提取或者“挖掘”知 识的过程,这些知识必须的是隐藏的、潜在有用的,常 用的主要方法有聚类分析、决策树分析、关联分析、判 别分析、回归分析和神经网络分析等,本文主要使用的 分析方法是决策树分析。主要考虑方便快速地对用户行 为数据进行分析,提供有效的决策支持。
2.1 数据预处理,形成训练样本
(9) (10)
(11) (12)
2.3 数据后处理,生成决策树
通过比较各个属性信息增益的高低 , 可选出影响 ARPU 的关键因素 , 如表 4 所示 , 影响用户 ARPU 的第 一要素就是时间,根据上述实例,将用户人群进行简单 的初步划分,如图2所示。
(2) 按照先前的分类,对每一个年龄阶段的用户,统计 其属于A1、A2、A3三类的个数,然后得出概率,从而计 算属性age的信息期望,如表3所示。
研究与开发 Research & Development
移动互联网时代的用户上网行为分析浅谈
张 第1 罗晓娜1 杨静雯2
1 中国联通研究院 北京 100032 2 中国电信集团公司 北京 100031
摘 要
移动互联网技术的高速发展带来了数据流量的爆炸式增长,如何利用自身系统存储的用户上网行为数据
来摆脱目前流量增速远大于其对应的收入增速的困境,成为运营商在移动互联网时代面临的一大难题。文章从数 据挖掘的角度出发,分析数据中隐藏的用户行为,并细化分类,构建流量差异化计费体系,从而全面提升流量价 值,增强运营商的核心竞争力。 关键词 移动互联网;数据挖掘;用户行为分析;精细化营销;流量经营
43
研究与开发 Research & Development
Windows Phone,共计3部分。 从运营商BSS系统中读取用户相关的ARPU值,作 为数据挖掘的一个目标函数,如表2所示。
表2 用户上网记录预处理后的数据
性别 (Sex) 男 男 女 男 男 女 女 男 女 女 年龄 (Age) >40 20~30 20~30 <20 >40 30~40 20~30 30~40 20~30 30~40 上网集中 时段(Time) 上午 下班途 上班途 上班途 上午 下午 晚上 下午 晚上 上班途 主要流量 (Main Flow) 网页类 视频类 社交类 游戏类 网页类 社交类 社交类 即时通讯类 即时通讯类 视频类 终端类型 ARPU (Terminal Type) Android 低 Android 高 iPhone 高 iPhone 高 Windows Phone 低 Android 中等 Android 高 Android 中等 iPhone 高 iPhone 高
图1 全球移动数据流量增长趋势(2011~2016年)
42
Research & Development 研究与开发
以中国联通为例,每月的上网记录数已超过2万亿 条 , 是目前运营商所有计费数据的 30 倍以上 , 并且以 每月 7% 的速度递增 [3], 运营商需要用数量巨大的服务 器来存储这些数据 , 虽然服务器成本逐年下降 , 但与 能耗相关的成本所占比重会逐渐平稳或者上升 , 如果 留存这些海量数据的意义仅仅在于查询流量 、 解决客 户流量争议,难免有些“大材小用”。 相比其他企业,运营商能够第一时间获得用户消费 行为的资料,有着得天独厚的优势。这些看起来毫无规 律可循的用户上网信息,内部是存在关联性的,利用数 据挖掘技术[4],能够定量地分析用户行为,如上网浏览 内容偏好、时间偏好等,通过对这些数据的分析,运营 商可以重新进行用户市场划分,提出更具有针对性的营 销体系。 本文主要是从数据挖掘的角度重新观察这些数据 并加以利用。由于电信运营商内部数据库中存储着海量 多维的信息,这些信息不仅包括常规的年龄、品牌、套 餐资费 、终端的IMEI、终端品牌、终端类型等基础信 息,随着运营商自身数据平台的完善,还包括用户何时 何地上网、上网的内容偏好、各种应用的驻留时间、手 机支付信息等等,从理论上来讲,这些丰富的内容为数 据挖掘提供了可能性,同时,运营商将借助数据挖掘技 术在日益激烈的流量竞争中制定准确的决策,提高流量 经营的质量。
也导致了运营商之间同质化竞争愈发激烈,数据产生的
引言
随着移动互联网时代的到来 , 传统通信行业正面 临着终端智能化、无线接入宽带化、业务融合化、运营 平台化的挑战,用户每天通过移动终端等信息载体、利 用基础网络进行无线接入和信息交互,以获得自己需要 的信息 。 无处不在的网络在给用户提供便捷服务的同 时,也带来了流量爆炸式增长的压力,这给运营商网络 扩建、升级带来难题。为满足用户需求,运营商不断加 大对网络建设的投资,但流量的激增并没有给运营商带 来相应的营业收入的快速增长 。 2013 年 , 中国联通实 现营业收入 2 950.4 亿元 , 同比增长 18.5% , 净利润达 104.1亿元,同比增长46.7%,而移动手机用户数据流 量增长则为120.3%,达到2 698亿Mb[1]。与此同时,以 腾讯、新浪为代表的大量OTT(Over The Top)企业通过 运营商提供的网络向自己的用户提供互联网产品及服 务 , 绕开了传统的运营商收费路径 , 通过客户端广告 植入、在线商店等进行盈利。另外,即时通信类的互联 网产品使得传统的语音、短信费用转换为低廉的流量费 用,从而大大降低了用户对于运营商的黏性,也对传统 语音和短信业务造成巨大冲击。运营商虽然投入大量人 力、财力和物力建设基础网络,但并没有通过数据流量 获得应有的营业收入,投入产出不成比例,面临“被管 道化”的危险。同时,用户规模和流量规模快速增长,
相关文档
最新文档