云平台大数据平台及应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
并行数据 搜索引擎 抽取转换 BC-SE BC-ETL
数据仓库系统 HugeTable
弹性块存储 对象存储 BC-Block BC-oNest store
BC-BSP 数据并行框架
BC-Hadoop 数据存储和分析平台
分布式内 存引擎 BC-DME
消息队列 BCQueue
其他平台中间件
IT基础资源
Hadoop数据存储与分析
友情提示
请勿在室内吸烟
上课时间请勿:
--请将您手机改为“震动” 避免在课室里使用手机 --交谈其他事宜 --随意进出教室
上课时间欢迎:
--提问题和积极回答问题 --随时指出授课内容的不当之处
电信运营商具有更多的数据
移动互联网 服务商
专业SNS 博客 电商 音乐 图片
消息
视频 优惠券
点评 新闻 地图 问答 SN S
ProtocolHandler
发送请求 返回结果
基于Ambari的Hadoop监控管理 • Apache Ambari是对Hadoop工具 进行部署、监控和管理的开源项目
– Puppet部署hadoop服务 – Ganglia 收集hadoop 服务数据与生成图表 – Nagios监控集群服务状态并报警
结算 系统
信令 系统
云计算 资源池系统
物联 网应用
EMail IDC服务
…
PaaS 产品
数据管理/分析类 实时交易类
“大云”产品
IaaS 产品
计算/存储资源池 文件中间件 弹性计算 BC-NAS BC-EC
商务智能平台
并行数据 挖掘工具 集 BC-PDM
能力开放平台
K-V数据库 BC-kvDB 分布式 SQL数据 库 BC-RDB 系 统 监 控 和 管 理 CloudSecurity CloudMaster 平 台 安 全 管 理
电信运营商
微博 签到 论坛
2G、3G、4G、WIFI
除了像移动互联网服务商那样关注“结果”,电信运营商还需要关注“过程”!
典型的应用场景之一:大数据批 处理系统 目标:针对海量结构化、非结构化数据的ETL操作。从各种数据源获取数据,并进
行清洗、转换、去重、缺值补充等操作。通常采用MapReduce等并行计算技术。
典型的应用场景之三:大数据挖 掘系统 目标:针对海量结构化、非结构化数据的进行深度挖掘。通常需要根据业务需求设
计模型、训练集并选择算法(分类、聚类、关联、非结构化)。通常会使用各种分 布式数据挖掘工具和算法 技术要求举例:
针对海量数据实施全量数据挖掘, 规模达到10TB-PB规模。 处理时间没有严格要求,通常达 到几个小时,甚至更长时间
来自百度文库
JT000 3
RegionServer
Zookeeper
RS级别结果汇聚 线程池管理 异步IPC调用
(走网络)
内部异步调用
Region Region 本地调用 RegionServer Region
HConnectionManager
Client
1,定位所有region Region 2,异步分发Call RegionServer Region Region Region
例图:分时段汇总的业务场景
典型的应用场景之二:大数据查 询系统 目标:针对海量结构化、半结构化数据的精确定位、区段扫描等条件查询操作,用
于网络优化、帐详单查询、故障定位、搜索引擎等业务场景。
技术要求举例:
针对海量数据实施交互式查询, 返回时间在1秒钟左右。 针对海量大数据规模实施查询, 数据规模可以达到100TB-10PB 规模。
REST
Puppet
基于该配置执行
Ambari-server
(http server/jetty)
HTTPS (heartbeat/json)
解析json取到command (state/execute/upgrade) 调用
Python
生成
site#.pp .repo (第一次或upgrage)
基于Ambari的Hadoop监控管理 工具
TODO: • 启用MRv1 JT/HMaster HA • 删除节点 • 节点异构配置(Ambari-
数据仓库系统(HugeTable)
基于Hadoop的海量结构化数据存储系统,利用低成本硬件提供高性能的数据加载、索引查询 和并行分析能力,对外提供易于应用集成的数据访问接口
大容量:支持PB级别的数据存储能力 低成本:基于PC架构,不需要外接集中存 储设备 高性能:秒级别索引查询、数据并行扫描 可靠性:数据冗余备份永不丢失 可定制:根据应用需求选择索引类型及存储 引擎 接口丰富:提供标准的JDBC/ODBC/ SQL 接口;提串行Scan接口和分布式 MapReduce接口 外围工具:支持数据、性能、故障、配置、 日志管理功能;支持外部数据并行加载;支 持数据快速备份、恢复
技术要求举例:
针对海量数据实时离线批处理运 算(ETL),通常时间要求较为 宽松,如几个小时级别。 数据ETL运算种类多,灵活性强, 通常具有很强的定制化特征 数据通常需要导出到数据库、数 据仓库,提供报表能力 需要灵活的调度的系统,便于系 统需要和其他业务系统混合部署, 提高资源利用水平
需要支持各种并行计算模式,如 MapReduce、BSP等
人群1
数据挖掘系统需要较好的用户界 面,用户通常具备业务知识,但 是未必具备开发经验
系统可以和其他系统混合部署
其它人群
数据具有一定的可靠性和可用性 要求
例图:客户分类识别应用
中国移动“大云” 云计算平台
经分KPI 集中运算
经分系统 ETL/DM
大数据库 大数据库 原始 数据
采集预处理
融合
计算1
处理
计算2
消息
数据插入通常采用批处理方式, 而查询通常带有条件,通常返回 结果数较少 系统具备较高的并发性,支持大 量用户同时查询,依然可以在给 定时间出口返回结果
营业厅系统
营业厅1
营业厅2
营业厅3
营业厅4
例图:帐详单查询系统
数据具有很高的可靠性和可用性 要求
HTTP/JMX
Hadoop
与server部署在同一台服务
Ambari-web
(与server在同一个container)
Metrics
Shell
Ganglia
Nagios Yum
获取RPM
REST
DB
HTTP/cgi->rrd
HTTP/php
Ambari-agent
Ambari-client (python cli)
BC-Hadoop:对开源Hadoop/HBase进行扩展和增强,为大云其他组件提供基本的存储计算 能力。 基于Hadoop 1.0的NameNode/JobTracker HA,HBase Coprocessor优化,管理工具整合等
JobTracker (Virtual IP)
JT000 1
JT000 2