移动通信网络数据采集方法分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
移动通信网络数据采集方法分析
摘要:移动互联网是移动通信与互联网两个概念结合的产物。目前移动通信运
营商3G、4G技术的发展以及Wifi覆盖范围的扩大也使得网速越来越快,用户体
服务需求体验越来越迫切;想用户之所想,急用户之所急的商业竞争地位思维是
需要大量用户数据支撑并分析的前提。因此对用户数据合理采集并不断发掘分析,才能满足移动互联网用户日益增长的智能化需求。
关键词:移动通信;WAP网关;用户数据
一、概述
目前移动通信网络飞速发展,GSM、TD-SCDMA、CDMA2000以及WCDMA各
制式无线网络基础设施升级换代频繁、核心网3G无线网络与核心网络与2G网络
互相兼容兼容性,各地运营商根据实际需求考虑使用4G、3G与2G三大独立的
无线、接入、核心网络并存的局面。在全网同步引入HSDPA和HSUPA技术的同时,对2G核心网中对原有GPRS/EDGE网络升级改造。
利用2G网络频率范围在890-960MHz的穿透性强的优势,不仅减轻3G、4G
基站的运维负担,还可以弥补4G网络的覆盖盲区。所以在移动通信用户数据采
集时不能不考虑现存2G网络的丰富数据参考价值。
随着ISO和安卓系统的智能手机的大众化,曾经的GPRS技术里数据经过WAP网关的处理逐渐弱化,用户终端可接入移动网络经过GGSN网关连接互联网
并访问其内容,2G网络GPRS数据业务和EDGE技术与WAP网关相连。2G时代,WAP无线协议互联网无直接访问功能,所以添加WAP网关是用户上网。智能手
机之前的Symbian系统处理能力不及PC主机,无论是网速还是现实视频、音频、互动性媒体、发布主题等等都与宽带互联网甚至光纤入户的PC家用主机电脑无
法匹敌,在2.5G时代,GSM通信系统中的配套设备模块中的WAP网关只能根据MS手机终端的应别能力进行通信网与互联网的交。
二、移动通信网络数据
移动互联网在2G/3G时代,核心网是两个独立的域,控制语音相关的叫电路
域(CS域:Circuit Switch),控制数据业务相关的叫分组域(PS域:Packet Switch)。相应的,与语音相关的控制都放在了电路域,比如上面的语音呼叫建立、返回振铃、判断并执行呼叫转移,业务短信等等。与数据相关的控制则放在
了分组域,比如上面的与因特网服务器(通信网与因特网是两张网)建立数据连接、区分当前流量是微信还是微博等等。自2G时代以来WAP网关是承载移动数
据业务的网元。
2.1 用户数据
移动通信的空间自由度与互联网的内容形式丰富结合处移动互联网的新品种。目前移动通信运营商3G、4G技术的发展以及Wifi覆盖范围的扩大也使得网速越
来越快,用户体服务需求验越来越迫切;用户数据分为两种:一种是用户注册信
息将自己的身份识别与手机号码相关联,在信息层面上存入数据库,咋数据层面
上存入HLR中为通信系统的呼叫、寻址、和计费分配信道等工作提供服务;另一
种是指通过无线基站近乎于log日志的形式,使用户主观意愿被动或不知情的前
提下在系统存储设备上记录用户位置更新,小区切换,小区重选等为用户提供的
移动通信服务功能。这类数据的产生不由用户的主观意愿为选择,是为了完成一
次通信系统用户漫游的一个必要手段和环节,但是在数据分析挖掘研究者看来,
是有着非常意义的数据内容,通过数据的数据清洗:去重、去噪声、去错误、插
值等异常处理;数据集成:统一单位、去掉冗余、选择感兴趣属性列;数据变换:数值归一化、离散化处理;数据脱敏:去隐私化,截断与加密;数据演绎:特征
构造,根据原有的一个或多个特征创建出新的特征并填充。获得群体用户的地理
位置特征,在不同时段的移动基站下的人流密度,绘制出人口出行交通时段的密
度可视化图等等,通过对用户数据不断发掘分析,才能满足移动互联网用户日益
增长的智能化需求。
2.2 数据分析
在3.5G的LTE网络体系架构中,WAP/Web网关处在PGW后与外网互通,功能等同于PDSN,其余接口并没有什么功能变化。经过BTS(基站)、传输设备、BSC\RNC等至PDSN(分组数据支持节点),在2G网络中发至WAP网关的数据
分流发至智能设备;由设备开启用户TCP连接,解析主机的URL用户请求、判断、处理,经过鉴权处理合法用户,允许通过防火墙转达请求接至互联网提供链路连
接分配IP地址提供服务,如果是欠费或非法用户拒绝原服务请求。从移动互联网
的智能手机应用端的使用业务流量角度来分析,用户通过终端经过移动互联网接
入Internet网络不同的APP有不同的流量特征,例如连接应用程序:电子邮件、
即时通讯、GPS导航、远程访问;商业应用程序:移动银行服务、股市跟踪与交易、文件处理及日程规划;日常生活类应用程序:电子商务、账单支付、健康监测、数字阅读与社交;娱乐应用程序:新闻、游戏、多媒体播放器、照片及视频
编辑器。
三、研究方法
3.1 数据流收集器
部署于SGSN和GGSN之间,并且不仅仅移动电话产生的流量会被记录,上
网卡所产生的流量也会被记录。流量记录中包含了时间、手机号、服务器IP、数
据传输大小、数据类型等信息。本课题根据这些信息建立了流量权值图(简称流
量图)。其中,手机号和服务器IP分别对应流量图中的不同节点,手机号向服务
器IP的数据传输代表了流量图的边,从服务器-IP到手机号是流量图中对应边的
方向,数据传输大小代表了流量图中边的权值。通过上述对应方法,为不同类型
的流量数据建立了各自的流量图。并在流量图的基础上,对网络流量传输数据进
行了分析。
3.2 技术路线
SGSN与无线分组控制器之间同过Gb口连接,实现移动数据的管理;与归属
位置寄存器通过Gr口连接,实现对用户数据库的访问控制;与GGSN通过Gn口
连接,进行IP数据包的传输以及协议变换。本文通过部署Gb接口(SGSN与BSS
之间)的PC端截取数据流之后,用网络爬虫软件对数据进行初步的收集。Gb接
口是传递转达SGSN和BSC之问的信令和用户数据的功能。用户通过移动终端将
请求发给BTS,再通过基站子系统连接传输网络,Gb接口是终端入网的必经接口。本文是从Gb接口拦截移动互联网产生的数据,并对数据尽情分类,聚类等数据
挖掘方面的研究。原始数据由Gb接口得到,进行深层次的分析,不仅能够实时
地了解当前的网络质量,还能发现移动用户的网络行为。以SGSN作为研究对象,GPRS是GPRS服务节点(Service GPRS Support Node)是移动通信核心网的重要组
成部分,也是分组交换的核心部分。研宄流经具体SGSN的网络业务流量、接入
用户数以及访问记录数的情况,以此来表征网络中具体节点的业务情况。