数据共享平台相关技术与应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hadoop技术与MPP技术的比较
Hadoop
平台开放性 运维复杂度 扩展能力 拥有成本 系统和数据管理成本 应用开发维护成本 SQL支持 数据规模 计算性能 数据结构 高 高,与运维人员能力相关 高 低 高 高 低 PB级别 对非关系型操作效率高 结构化、半结构化和非结构数据
MPP
低 中 中 中 中 中 高 部分PB 对关系型操作效率高 结构化数据
数据质量管理
新数据源 稽核 数据质量 监控 数据质量 评估 数据质量 配置管理 数据质量 两级联动 数据质量 问题处理 平台管理
数 据 管 理 域
隐私管理 审计追踪
数据处 理域
统一ETL管理 传统技术ETL HadoopETL 流式计算ETL
生命周期管理
入库存储 数据清理 调度管理 监控管理
数据源
结构化数据 客户信息 账务信息
新技术的引入不能影响原有的使用感知,需要按照分阶段逐步引入的方式。可以参考 如下的几个引入原则:
1、先增量后存量。现有的数据处理系统引入大数据处理技术,面临着模型改造、流程改造等一系列的问题, 可以首先在新上线应用引入大数据处理技术。 2、先边缘后核心。对于原有功能的迁移,可以先迁移非关键的应用。这些应用不涉及到关键生产任务,可以 忍受数据处理延迟和故障修复时间较高等可能出现的风险。 3、先简单后复杂。数据处理逻辑较简单的应用也可以首先尝试引入大数据处理技术,降低实施的复杂度,积 累运维经验。 通过在大数据处理技术的规划、实施及运维过程中积累经验及教训,不断提升和完善大数据技术的应用水平, 逐步拓展大数据技术应用领域。
权限管理 综 合 分 析 系 统 综 合 监 控 系 统 信 令 监 测 系 统 日 志 上 层 应 用 备份与恢复 其 他 应 用 设备管理 资源池管理 存储管理 日志管理 数据服务功能 服务管 理 配置类 数据服 务 信息 子层 KPI 数据 聚合 服务 OD WRD B OD WMP P 资料类数据 服务 清单累数据 服务 报表 数据 处理 服务 指标类 数据服 务 日志类 数据服 务 统一 视图 数据 查询 服务 分布式关系数据库 分布式文件系统 ETL调 度 数据交 互、转 换 设备监控指 标 OPEN API
通过大数据的业务需求,为云计算的落地找到了实际应用
数据中心引入大数据的意义与原则
随着半结构化、非结构化数据、互联网数据等新型数据源的引入以及分析需求对分析 深度和广度的增加,以移动运营商行业为例,越来越需要大数据。主要包括如下:
1、数据规模方面:GPRS流量话单的条数和数据量已经超过了语音详单,而位置信令、Gn信令、客服语音、 互联网外部数据等规模更大,且还处在不断增长的趋势。 2、数据类型方面:逐步从OLTP系统中获得的结构化数据,过渡到结构化数据和互联网网页、上网日志等非 结构化数据和半结构化数据共存。 3、对数据的使用方面:不仅有批量的数据加工和前台界面的访问,临时统计、数据挖掘等访问需求也逐步增 多。对历史明细数据的访问增多。对数据访问的及时性增强。 随着数据中心越来越具备大数据平台的特征,利用传统的单一数据仓库技术就难以满足高效低成本的需求, 需要引入相应的大数据技术。
业务数据集市
前端分析展现工具
查询工具、应用
新一代数据中心定义
平台管理功能 用户管理 资源池指标 分布式系统 指标 数据库指标 指标汇总 性能预警 调度异常控 制 作业调度管 理 事件自动化 执行引擎 规则配置 北向接口管理 数据采集接口 管理 数据共享配置 通用接口配置
企业数据中心是指建立在数据仓库与数据仓库之上的 决策分析应用,应包括数据源、数据ETL、ODS数据 库、数据仓库、数据集市、商务智能应用、数据管理 等功能。 数据中心应该具备常见数据的处理与管理能力,具备 对结构化、半结构化、非结构化等数据的处理能力, 同时支持RDB、MPP、NoSQL,同时具备数据的通用 管理能力,以数据为中心进行平台建设。 数据中心数据平台在接口层要丰富又简单,可以提供 各种应用所需接口,最大程度匹配已有接口,对应用 改动需求力求最低。
目录
企业级数据中心定义
数据中心中的大数据
MPP数据库在数据中心的应用 Hadoop在数据中心的应用 大数据技术与传统数据中心的集成
数据中心BI技术选型描述 数据中心ESB技术研究
传统的数据仓库的架构
OLTP
数据源
抽取、转换、加载
ETL 元数据
企业数据仓库
传统数据仓库在大数据时代面临的挑 战: 成本居高不下,以Scale Up为主 数据量,以GB~TB为主 扩展能力 拥有成本 处理数据的能力 数据共享能力
A+ ABI S应 用
无 线 网 优
接口层
数据管理功能 知识 库 事件 通知 服务 分 布 式 计 算 数据 映射 元数据管理 元数据获取 管理 元数据存储 与模型管理 元数据分析、 展现、服务 技术、业务 元数据管理 数据生命周 期管理 数据质量管理 采集层数 据质量管 理 数据质量 规则、知 识库 数据质量 稽核指标 运维 数据可视化 管理 数据安全管理 4A认证 隐私信息 保护 权限管控、 审计追踪
元数据 应用 元数据 服务封装 元数据 分析展现 元数据 基础管理 元数据 存储 元数据 获取
安全管理
4A认证 安全服务 调用
数据分发同步处理 数据集市A 运行数据库 (RDBMS) 数据集市B 分析挖掘数 据库 (EDW,MPP) 数据集市C 非关系数据库NoSQL 分布式文件系统 ……
分布式 计算框 架
数据变为企业的核心资产
市场研究机构Gartner最新报告显示,到2017年,数 据业务能力差的企业将失去核心竞争力,25%的企业 可能会被淘汰。 • 数据商业策略创造了一定的价值和资产收入,它 超越了传统的业务模式和客户体验,通过自动化 过程管理改造流程,利用数字系统建立人、地方 和事物的普遍联系。 • 如今,数据业务已迅速成为现代商业模式中的一 个共同关注的、通用的话题,它正在重塑现代企 业的组织形式和企业文化。
一级数据 数据 生命 周期 管理
支撑系统的交易级核 心数据
传统RDBMS演进到“新型 RDBMS+一体机技术”
二级数据
海量查询与历史数据
传统RDBMS演进到“MPP RDBMS+分布式数据库”
三级数据
备份和备查数据
分布式文件系统、分布式数据库技 术
一句话总结未来天云数据平台
一句话定位:天云数据平台=“传统”+“现代”数据中心集 大成者。
数据共享平台逻辑架构
客服投诉 应用层 查询类应用 综合监控 统计类应用 无线网优 分析类应用 经营分析 审计类应用 … 客户感知 Open API … 数据门户域 数据管理门户
面向SOA的ESB(webservice)
接口服 务域 资料类 数据服务 数据聚合服务 基础 数据存 数据 储域 服务 指标类 数据服务 数据处理服务 配置类 数据服务 数据查询服务 清单类 数据服务 事件通知服务 日志类 数据服务 事件类 数据服务 元数据管理
大数据在数据中心的应用场景
大数据技术可以应用在以下场景(包括但不限于):
1、原数据仓库底层结构化数据处理(ETL或ELT)。底层结构化数据处理计算任务重但复杂性不高,不涉及多 表关联,适合引入大数据技术实现高效低成本。例如:对运营商的清单(语音详单、GPRS清单、WLAN清单 等)的清洗、转换、汇总等。 2、半结构和非结构数据处理与分析。例如对上网日志、网络信令、客服语音等数据的处理和分析,这些数据 难以利用传统数据仓库技术进行处理和分析。 3、数据集市。地数据集市应用较为独立,且对可靠性的要求并不是十分严格,适合作为引入大数据技术形成 资源池,以移动运营商为例,可实现各地市、各部门数据集市的云化、池化和虚拟化,最终实现资源动态调 配,达到高效低成本。 4、数据仓库数据分级存储。对低价值的细节数据以及长周期的历史数据(冷数据)访问频率较低,也能容忍 相对较长的响应时间,可以存储在成本更低的平台上。 5、数据挖掘。某些数据挖掘设计长周期的数据,计算时间很长(数天),占用很多数据仓库资源。还有一些 数据挖掘算法超出了关系代数计算范畴,需要抽取数据到独立的计算平台(例如SAS统计分析系统)中进行计 算。这些数据挖掘任务可以迁移到大数据平台之上进行计算。例如交往圈的计算,因其仅涉及单一数据,但 数据量非常大,且需要多次迭代计算。 6、对外查询。数据中心不仅仅是数据处理,也需要将数据处理的结果对外提供查询,而这些查询一部分是海 量的OLAP性质的查询,另外还有一部分OLTP性质的查询,即数量众多但每次查询量较少的。比如数据中心 前端库、与生产系统互动的数据库以及提供流量详单查询的数据库。这些查询任务不能很好地运行在OLAP类 数据库之上,可以迁移到大数据平台上。 针对这些应用场景,可以看到,主要需要引入的是Hadoop和MPP技术,然后逐步考虑NoSQL、流计算和内存计 算等技术的引入。
目录
企业级数据中心定义
数据中心中的大数据
MPP数据库在数据中心的应用 Hadoop在数据中心的应用 大数据技术与传统数据中心的集成
数据中心BI技术选型描述 数据中心ESB技术研究
云计算与大数据的关系
云计算 大数据
商业模式驱动
云计算改变了IT,而大数据则改变了业务
应用需求驱动
云计算是大数据的IT基础,大数据须有云计算作为基础架构,才能高效运行
传统数据仓库
低 中 低 高 中 中 高 TB级别 对关系型操作效率中 结构化数据
Hadoop 在处理非结构数据和半结构数据上具备优势,尤其适合海量数据批处理等应 用需求。当然随着Hadoop技术的成熟,基于Hadoop的即席查询技术也逐渐崭露头角。 比如仿照Dremel的开源项目Apache Drill以及Cloudera Impala。 MPP适合替代现有关系数据结构下的大数据处理,具有较高的效率,但其在大规模集 群(超过100个节点)下的可用性还有待试点证实。 MPP数据库场景下经常需要扫描大量的数据,所以对磁盘存储系统的I/O性能要求非 常高,在测试和日常运行中,I/O多大情况下是瓶颈,这点与Hadoop平台可以明显区 分开来。
数据中心相关技术与应用
2013-12-02
智慧物联网-体系结构
数据Baidu Nhomakorabea心
智慧城市架构
中国移动经营分析系统新一代架构
电脑 智能手机 PAD 监控中心
基础分析应用
应 用 域 开放应用平台
挖掘分析应用 服务组件
自助分析应用 功能组件
实时分析应用 管理组件
管理域
标准化应用开放/测试/部署/运行环境
数据地图 访问接口(API/SQL) 数据联邦 数据互通
数据层
数据 存储
数据分发同步处理
采集 处理层
数据抽取/加载 /检查
一个合理的数据平台,不能等同于Hadoop或者 其他某项单一技术建设;整体数据中心的建设, 从数据采集层、存储层、应用层都有完整的解决 方案,同时具备平台运维管理、接口管理、数据 管理功能; 数据中心数据管理能力至少应包含:1.元数据管 理,2.数据质量管理,3.数据安全管理,4.数据 可视化管理,5.数据生命周期管理。 数据平台必须针对数据提供完整方案,同时兼顾 应用接口、其他平台接入,系统管理、系统调度 等功能。 任何一种单一技术都难以适应数据中心数据采集、 存储、处理和对外服务的需求,多种技术并存才 是发展趋势。RDB、MPP、Hadoop
半结构/非结构化数据
网络信息 社会环境信息
流式数据 ……
系统管 理域
接口管理
数据的分级支撑体系
专题目标:通过引入大数据、NoSQL、NewSQL技术,对数据分级支撑的研究和试点, 为业务支撑系统的数据生命周期管理和数据支撑提供技术上的指导和规范。 零级数据 供应用高速直接访问 的数据 内存数据库集群技术 内存网格集群技术
数据目录
元数据管理
透明访问层 数 据 域
数据质量管理
数 据 存 储 层
主数据仓库
深度分析库
Hadoop云平台
安全管理
运维管理
基于高性能平台
基于X86平台 数据预处理
基于X86平台
集群监控/配置
获 取 域
统一调度
统一数据采集接口(结构化数据/非结构化数据)
中国电信Enterprise Data Analysis
传统=传统数据仓库/RDBMS,是基于传统基于结构化数据处 理的关系型数据(仓)库,以Scale Up为特点 现代=基于关系代数理论的MPP + Hadoop技术,以分布式处 理为基础,以Scale out为特点,可处理海量数据 适用场景:运营商跨域数据融合,智慧城市,智慧省份解决 方案,公安,医疗等。