电信大数据解决方案及实践
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
电信大数据解决方案及实践
Telco Big-Data Solution and Experience
李秋静/LI Qiujing
叶云/YE Yun
(中兴通讯股份有限公司,广东深圳,
518057)
(ZTE Corporation,Shenzhen 518057,China)
结合全球多个实际案例,提出了一个电信大数据的精简方案架构。方案结
合运营商的实际应用场景,挑选合适的组件进行组合,摒弃了通用化的大平台。大数据的发展,一要通过大数据应用提升运营效率,二要通过数据即服务(DAAS)拓展新的服务内容,提供对外服务。在业务实施设过程中,抓取、管理和挖掘电信运营商的核心数据是基础,运营商大数据的快速部署和应用是最终目标,两者需要在效率、成本和时间上取得平衡。大数据;电信网络;精简架构;数据即服务
In this paper,we discuss a number of domestic and international big-data telecommunications architectures and propose our own lean big-data architecture.This new architecture combines the practical application scenarios of operators,and the universal large platform is abandoned.There are two directions in big-data
development:improving business efficiency and providing data as a service (DaaS).Capturing,managing,and mining core data of a telecom operator is the basis for
service implementation.Rapid deployment and application of big data is the final target.A balance also needs to be struck between in efficiency,cost and time when deploying a big-data architecture.
big data;telecommunications network;lean architecture;data as a service
收稿日期:2013-04-27
网络出版时间:2013-06-24基金项目:国家高技术研究发展(“863”)计划(2013AA01A210)
DOI:10.3969/j.issn.1009-6868.2013.04.007
网络出版地址:/kcms/detail/34.1228.TN.20130624.1522.004.html
李秋静等
电信大数据解决方案及实践
ZTE TECHNOLOGY JOURNAL
1电信运营商建设大数据
思路及关键技术
运
营商的网络和用户是运营商的核心资产,而其中流动的数据
(包括用户配置基础数据、网络信令数据、网管/日志数据、用户位置数据、终端信息)是运营商的核心数据资产。对于运营商来说,最有价值的数据来自基础电信网络本身,对于基础管道数据的挖掘和分析是运营商大数据挖掘的最重要方向。抓取、管
理和挖掘这些数据是运营商的当务之急[1-2]。运营商基于核心数据的大数据应用可从两个方面入手:
(1)通过大数据应用提升自身运营效率。比较典型的应用包括:信令多维分析、网络综合管理及分析、业务和运营支撑系统(BOSS)经营综合分析、精准营销等。
(2)通过数据即服务(DAAS)拓展新的服务内容,提供对外服务。包括个体及群体的位置信息以及用户行为分析等,对于第三方公司(比如零售业或者咨询公司、政府等)都是非常有价值的信息。运营商可以基于这些数据提供对外DAAS 服务,拓展市场空间。
为了构建电信运营的大数据应用,从技术能力的角度可以分为数据收集与存储、信息检索汇聚、知识发现以及智慧4个层面。电信大数据技术层面如图1所示。自下而上数据挖掘深度增加,难度加大,对于系统的智能需求提升。其中关键的技术包括抽取转换装载(ETL)、并行计算框架、分布式数据库、分布式文件系统和数据挖掘、机器学习等。
面对海量的大数据,如何有效进行数据处理是需要解决的迫切问题,分布式并行处理是有效手段。传统关系型数据库多采用共享磁盘
(Sharing-disk)架构,当数据量达到一定程度,将面临处理的“瓶颈”以及扩展的困难,同时成本也偏高。当前有效的做法是采用分布式文件系统/分布式数据库结合做分布并行处理。目前基于开源的Hadoop 平台是业界采用较广泛的一个实现方案。Hadoop [3]的核心思想是基于Hadoop 分布式文件系统(HDFS)存储文件或者基于HBase 数据库(也是基于HDFS),使用分布式并行计算框架MapReduce 来并行执行分发Map 操作以及Reduce 归约操作。在Hadoop 的计算模型中,计算节点与存储节点合一。存储数据的普通PC 服务器可以执行MapReduce 的任务。而在
李秋静等电信大数据解决方案及实践ZTE TECHNOLOGY JOURNAL
Sharing-disk模型中,存储节点与计算节点是分离的,存储的数据需要传送到计算节点做计算。Hadoop计算模型适合离线批处理的场景,比如Log 日志分析、文档统计分析等。它是关系型数据库管理系统(RDBMS)的有益补充。
在私有技术上实现分布式存储和并行处理,在调用接口上与Hadoop 兼容,这是一个可行的技术方案。这种方案可以避免上述Hadoop的缺点,同时在性能上做更多的优化。有效的手段包括增加数据本地性(Data Locality)特性,在多次迭代的计算过程减少数据在不同节点之间的传送;使用索引和缓存加快数据的处理速度。结合存储和计算硬件进行调优也是有效的手段,可以使用数据的分层存储,将数据分布在内存、固态硬盘(SSD)、硬盘等不同介质上[4],使得与计算资源达到很好的平衡。
面对海量数据实时性的要求,比较有效的方式是采用复杂事件处理(CEP)[5]。实时流处理采用事件触发机制,对于输入的事件在内存中及时处理。同时对于多个事件能合成一个事件[6]。实时流处理需要支持规则以满足灵活的事件处理要求。实时流处理可以使用分布式内存数据库、
消息总线等机制来实现快速实时响
应。目前商用的CEP产品有不少,但
是在功能、性能以及适用范围上有较
大差异,选择成熟度高以及合适的产
品是关键。
针对大数据中大量的半结构化
或者非结构数据,NoSQL数据库应运
而生。NoSQL数据库放弃关系模型,
弱化事务,支持海量存储、高可扩展
性、高可用及高并发需求。NoSQL数
据库在特定应用场景下有很高的优
势,是传统数据库的有效补充。按照
数据模型,NoSQL主要有四大类:键-
值(Key-Value)型、列存储型、文档
型、图型,它们对应不同的应用场
景。比如Key-Value型适合简单键-
值对的高效查询,而图型适合社交关
系的存储和高效查询。
针对大数据挖掘分析、搜索以及
机器自适应学习等技术在企业系统
中逐步应用。相关的算法种类很多,
当前需求较多的是分布式挖掘和分
布式搜索。
由于数据类型以及数据处理方
式的改变,传统ETL已经不适用。运
营商需要根据应用场景做不同的规
划。目前来说,由于运营商应用系统
差别较大,尚未有一种统一的处理模
式。比较可行的一种方法是依据数
据的功用以及特性做分层处理,比如
大量的数据源首先做初筛,初筛完之
后有部分数据进入数据仓库或者
RDBMS或者其他应用。初筛可以使
用Hadoop或者CEP或者定制的方式
来完成。
针对运营商的不同应用场景,需
要采用不同的技术或者技术组合。
比如用户实时详单查询,数据量巨
大,但是它的数据类型简单,数据以
读为主,不需要复杂的Join操作,数
据的分布性好。相比传统的
RDBMS,使用Hadoop可以大大提升查
询性能,降低处理成本。更多的应用
可能需要多种技术的组合。比如信
令采集及多维分析,信令数据特别是
分组域(PS)信令数据量大且实时性
要求高,有效解决海量数据处理与实
时性要求是它的关键,需要CEP与
Hadoop的组合。在当前阶段,不同的
技术成熟度不一,由于业界大数据应
用进展较快,我们认为当前针对不同
应用的精简方案是最合适的,也就是
依据应用场景,挑选最合适的组件做
组合,摒弃通用化的大平台。
2中兴通讯大数据实践
中兴通讯依托在云计算等领域
的长期积累,针对大数据形成了一套
完整的技术体系架构。ZTE大数据
技术体系架构如图2所示。架构依
据运营商的不同的应用需求,注重采
用组件搭建的方式,形成端到端的精
简方案。下面以两个具体的案例进
行说明。
(1)用户实时位置信息服务系统
该系统实时采集蜂窝网络用户
的动态位置信息,并通过规范接口提
供DAAS服务。实际工程中,当期接
入的用户数达两千多万,每天用户位
置更新数据可达40多亿条,高峰期
更新达到每秒几十万次。除了采集
的位置,还可以结合其他数据源比如
用户年龄等属性做分析,以应用编程