湖北移动大数据技术交流
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
VOLUME
BLOG
SOCIAL
• 多结构化数据(Variety)
• 短信文本信息 • CallCenter投诉信息 • DPI/WAP日志/WEB日志/电渠点击流/社交媒体
SMART METER
VARIETY
• 增长速度快(Velocity)
• 信令数据、话单信息、互联网数据增长速度很快 • 业务上需要能够对客户行为进行快速的分析(Fast Data)
物;大数据给我们带来的价值是把许多信息碎片拼起来,更好地洞察客户、发现规 律,为我们的决策来服务。
以前数据依附于具体业务而存在,在大数据时代,数据可以作为一种独立的存在,
数据的―资产‖性价值越来越引起人们的重视。从业务引领数据发展为数据驱动业 务;
大数据时代最大的挑战是如何从大数据中获取―价值‖。从大数据中获取最大价值,
Insert Information Protection Policy Classification from Slide 12
福建移动放弃原有技术路线,转向新一代技术平台
业务能力优化
• 原MPP平台无法满足业务对混合负载、高并发要求 • 通过数据库云实现快速业务部署
性能提升百分比
0.62%
Insert Information Protection Policy Classification from Slide 12
数据超市-NoSQL定位:历史数据实时计算和查询
□ 为了获得数据快速访问
• • 明细数据大量冗余 通过API接口去操作HBase
□ 牺牲磁盘容量,以得到
• • 避免明细数据网络传输 变大量随机读为顺序读
4
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12
建设大数据平台必需要回答的问题
数据工厂-Hadoop定位:离线数据批量处理
7
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12
圈、…
– 项目式建设 vs 开放平台、百花齐放
5
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12
福建移动账务系统:原数据库负载特点
Commit, System 0.32% I/O, 5.12%
数据库时间分布
Network, 0.24%
传统小型机加存储,硬件配置如下:
服务器:2台IBM Power7 780,构成HA,, 每台配置
DB CPU
DB CPU, 26.04%
User I/O System I/O
备注: 红色部分新建 黄色部分提升 绿色部分已建
18
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12
Insert Information Protection Policy Classification from Slide 12
数据一致性存在问题
数据分割后,数据一致性维护越来越困难,非重要业务需要牺牲
14
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
□ NoSQL是SQL的有益补充
□ 历史数据的实时计算 □ 空间换时间
10
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12
湖北移动大数据技术交流
娄恒 Exadata资深解决方案顾问
议程
大数据范畴和参考架构 大数据平台典型案例 大数据的各种技术特点和发展趋势 Oracle端到端大数据平台方案
2
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
根据NG-BASS系统逐步向企业级大数据中心平台演进策略与目标,总体系统演进将分阶段推进实施,第一 阶段搭建企业级大数据中心平台系统框架与管理平台,同时满足2014年底大数据分析要求的系统能力。根据我省 经分系统现状以及近期正在实施流量经营基础数据支撑平台情况,对标企业级大数据中心平台目标系统架构,明 确系统建设内容。
Insert Information Protection Policy Classification from Slide 12
关键技术架构总结:强大的开发集成能力
□ 关系型数据库仍然是王道(支持前台分析和查询)
难点:Sharding分库:开发、扩展、拉关系
□ NoSQL是SQL的有益补充(实现Cube功能)
选择和构建怎样的数据架构?
– 不同的技术路线:RAC、MPP、 Sharding、 Hadoop、NoSQL、流技
术……
– 不同的数据类型:交易数据、信令、网络日志、VAS、外媒信息 – 不同的应用需求:交易、查询、分析、数据服务
怎样挖掘丰富的数据价值?
– 例如:信令数据--位置、住址、工作地、行为特点、兴趣喜好、轨迹、交往
系统参考架构
数据加工平台 (数据工厂) 批量数据处理 实时流数据处理 数据服务平台 (数据超市)
高并发、实时化 的数据访问
跨SQL和NoSQL 平台的数据集成
6
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12
需要探索式的研究方法。大数据环境中,数据科学家职责会产生,这种科学家既要 熟悉商业环境,也要有操作层面的知识。
大数据价值链的三个C即(Collect—收集、Consolidation—整合、Consumptions—
消费)。对大数据技术进行规范是问题的关键。从强调监管大数据的收集,转向重点 监管大数据的实际使用。
Teradata
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Proห้องสมุดไป่ตู้ection Policy Classification from Slide 12
Exadata演进为企业级大数据中心平台
15倍以上 5-15倍 5倍以下
每年维保费用(万元)
800 700 600 500 400 300 200 100 0 2012 2013 2014
维保和运维
• 2013年约下降40%,2014预计将进一步下降 • 与其他Oracle平台统一化维护、管理、备份,降低 间接运维成本
17
Oracle
Insert Information Protection Policy Classification from Slide 12
淘宝数据的发展方向:实时化、高并发、差异化
12
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
技术能力提升
• 性能提升15倍、加载提高10倍、压缩比提高5倍 • 与生产Oracle无缝对接,实现实时数据加载和分析
40.10% 59.29%
购买成本
• Teradata 31节点,共购买了5次,累计投资额超过 1.6亿,每次投资超过3000-4000万,年均投资 2000W • Exadata 2台,年均投资低于1000万
议程
大数据范畴和参考架构
大数据平台典型案例
– 福建移动:大数据中心
– 广东移动:Data Store – 江苏移动:数据中心
大数据的各种技术特点和发展趋势
Oracle端到端大数据平台方案
16
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
处理器:32核(Power7 主频 3.92GHz) 内存: 256GB
数据超市-数据应用:多租户的产品数据集市
自由的计算能力 支持标准SQL语法
支持order by/group by/limit
支持大表Join 支持常规的统计分析函数(count/sum/avg/max/min) 支持distinct
支持常规的数学、字符串、日期函数
11
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12
12
对数据操作的“分而治之”
数据结构的去模式化、简化
了数据关联访问 需要牺牲部分业务作为代价 增加应用逻辑的处理过程
13
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
难点:通过大量数据冗余避免网络传输和随机读
□ 用中间层隔离前后端 难点:异构数据源的整合 □ 缓存是系统化的工程 难点:数据一致性、穿透与雪崩
15
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12
Insert Information Protection Policy Classification from Slide 12
什么是大数据?
具有4V特性的数据称为大数据
• 巨大的数据量(Volume)
• • • • 海量的话单信息(语音话单、短信话单、GPRS话单) 海量信令信息(用户位置信息、开关机信息、异常断线信息) 互联网网关信息(URL信息、查询关键词) 社交媒体、M2M数据
VELOCITY
10110010100100100 11010101010111001 01010100100101
• 低价值(Value)
• 单条的数据没有太大的价值,需要基于对大量数据的挖掘与分析才能发现隐藏在数据 背后的“客户特征”巨大的数据量
VALUE
对大数据建设的观点
以前实时交易数据被看作为应用的血液,非结构化的碎片化数据看作为应用的排泄
数据超市-SQL数据库:数据查询服务
由于底层的分库分表 设计,造成前端数据
读写业务受到限制,
从而要求前端业务牺 牲一定的灵活性和自 由度。
MyFOX是一个针对OLAP能力设计的高性能分 布式MySQL集群中间层,目前单集群存储容量 达100TB,日均请求量超过1亿。
8
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12
SQL虽牛,但是…
如果继续用SQL来存储数据,怎么建索引?
9
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.