大数据-基本功能
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
电信业大数据经分系统基本功能
Document#:2013-00105
Date:2013年7月21日
大数据是一个非常新的市场,市面上大部分的大数据产品都基于开源项目Hadoop。虽然Hadoop是一个较为成熟的产品,但属于第一代大数据产品,利用Hadoop开发的大数据产品无法保障系统的可靠性、不支持快速实时查询、数据库不能修改、数据库一旦发生问题不能回复等等。
大数据系统对提升企业竞争力,实现精细化管理、精准化营销、提升企业管理和运营能力上都将发挥着决定性作用。在项目的选型上至关重要。
我们注意到那些基于Hadoop开发的大数据产品,其报价相对来说比较低。价格是项目选型的一个至关重要的指标,但更重要的是价有所值。我们知道某省移动花了¥200左右引进了一个基于Hadoop的大数据产品,该系统只能处理2个月的数据,系统没有转为电信系统开发的应用,只是对话单做了一些简单处理和不多的一些统计。因为在Hadoop之上开发应用极为困难,导致系统验收已经近一年,目前还无法上线。即使有一天上线,也不可能成为该公司今后大数据的平台。这意味着公司还必须继续投资,不仅浪费了资金,更重要的是由此带来的商业成本的损失。
根据我们多年对电信业经分系统的经验和结合大数据技术、大数据市场的特点,下面是大数据经分系统应该有的一些性能、功能指标,仅供我们的客户参考。
系统功能
下面5个系统功能是整个系统实时性和可靠性的根本保障。不具备这些功能的大数据系统都无法保障系统的可靠性和实时性。这5个功能是电信级大数据的必须功能。所有基于Hadoop的大数据系统都不支持这些功能。
功能重要性描述
01数据库可修改性必须所有基于Hadoop的大数据产品其数据库都无
法修改。即使一些产品在应用层面上实现了数
据库的修改,但这将严重影响系统的性能。而
从根本上解决Hadoop的可修改性现在即使在
国外也没用解决。
02大数据
Transaction(事
务)必须Hadoop通过数据备份保障数据的可靠性,这给人们一假象,认为这样的系统是可靠的。但
数据备份只能保障数据的可靠性,不能保障数
据修改过程的可靠性。一旦数据修改过程出问
题,无论有多少数据备份都无法恢复系统,严
重时导致系统崩溃。因此没有大数据
Transaction(事务)的大数据产品无法保障系
统的可靠性。
03大数据快照必须所有基于Hadoop的大数据产品都不支持快
照。没有快照的数据系统无法恢复系统。一旦
系统出现问题,系统将因无法恢复而崩溃。因
此没有快照的大数据系统都是不可靠的系统。04增量处理必须没有增量处理的大数据系统无法保障系统的实
时性。所有基于Hadoop的大数据产品都不支
持增量处理,都无法保障系统的实时性。
05快速实时查询必须所有基于Hadoop的大数据产品都不支持快速
实时查询。虽然有一些技术,例如Impala、
Singer、Drill在某种意义上实现了快速实时查
询,但这些技术仍然沿用的是“逐条全表查
询”,需要耗费少则几百台设备、多则上千台
设备。
业务功能
下面是我们根据大数据技术专门为电信业开发的功能。这些功能都已经实现并在一些运营商中使用。所有功能都支持不少于3年的数据,并且查询速度极快(都不大于10秒钟,一般3秒之内完成)。06话单全数据查询重要支持至少3年全数据话单查询,并支
持任意多条件话单全数据查询,包括
按电话号码、通话时间、通话时长、
电信个数、上网流量、业务类型、基
站、地市县等等。必须支持实时查
询,每个查询一个不大于10秒钟。
07全数据话务分析重要提供多维度话务分析,包括时间维
度、业务类型、通话时长、通话次
数、短信个数、上网流量、每日时
段、地市县等等。所实现的各种统计
分析都可以在10秒钟内完成,且所
有统计都支持不少于3年数据。
08基站分析重要以基站为单位,提供多维度话务分
析,包括时间、业务类型、通话时
长、通话次数、短信个数、上网流
量、每日时段、所属网格等等。所实
现的各种统计分析都可以在10秒钟
内完成,且所有统计都支持不少于3
年数据。
09竞争对手分析重要了解每个竞争对手(既其他运营商)
每天新发展了多少客户、每天流失了
多少客户、每天客户数统计。并按所
设计的数学模型,将竞争对手的新
增、流失细化到每个地市县,对指导
公司运营极为重要。
10宏观趋势分析重要为公司领导层专门设计,提供每日经
营指标分析,包括:(1)通话时长
(2)通话次数
(3)短信个数
(4)上网流量
(5)新增竞争对手客户
(6)流失竞争对手客户
(7)话费收入
(8)套餐客户话费
(9)套餐客户话务量
(10)套餐客户通话次数
(11)套餐客户短信个数
(12)套餐客户上网
所有这些宏观数据按每日统计,并按
全省、各市,并支持不少于3年数
据。
11运营异常分析重要系统对以下话务指标按每日统计做异
常分析,既每日数据与前六天的平均
值相比。该值被称为“波动值”。每
日波动值大于一个值得值的称为“异
常”。系统自动检测每日运营异常,
并按全省、各市统计:(1)通话时
长
(2)通话次数
(3)短信个数
(4)上网流量
(5)新增竞争对手客户
(6)流失竞争对手客户
(7)话费收入
(8)套餐客户话费
(9)套餐客户话务量
(10)套餐客户通话次数
(11)套餐客户短信个数
(12)套餐客户上网
所有这些宏观数据按每日统计,并按
全省、各市,并支持不少于3年数
据。
12按业务类型话务分析重要以业务类型为中心,对以下话务数据按时间轴、全省或各市、套餐客户、
基站做分析:
(1)通话时长
(2)通话次数
(3)短信个数