北明大数据技术栈介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Q2
http
. agen .. t 加载集群
L-3
agen 汇 t 聚 集 群... agen t agen t . .. agen t
csv
SQL2@JDB C 流式引擎
avr o
数据总线
L-4 百度文库-5
file
汇聚集群
任务调度 资源管理
数据基础平台
Hive表存 储 对象存储 KV存储 索引存储 RDBMS
Log Collector
Coordination

Zookeeper
支持高速和灵活的键值对 沟通
Distributed Processing Framework
YARN Map Reduce v2
Flume
HDFS
Hive增强

HDFS增强

Hadoop Distributed File System
1. MPP数据仓库
Turboo EnSQL
关键技术:
✓ P2P全分布式架构 ✓ 高并发加载技术
✓ 高性能MPP查询引擎
✓ 自适应多态存储引擎 ✓ 异构多源数据统一查询
✓ 标准及兼容技术
✓ SQL扩展计算框架 ✓ 计算能力下推
1. MPP数据仓库
Turboo EnSQL


标准兼容,支持SQL2003 支持跨数据源关联,异构多源数据统一查询 单表千亿级,单库万亿级 1300亿大表和2000万小表关联查询6.3s响应 带索引千亿记录多条件查询0.7s响应 全表扫描聚合带宽>8GB/s 并发查询负载下每服务器查询吞吐率>1GB/s; 每服务器数据加载性能>500万tps(1174MB/s)
A2 A1 Q3
数据查询
Q1
数据查询
Q4 L6 Q5
数据加载 agen t
csv
avr o
数 据 采 集
. .. 数 据 采 集
L-1
SQL1@JDBC
K-V 二维 表
ftp
csv
avr o
L-2
MR
Spar k 数据分析
任 务 提 交
SDK @REST
SQL3@JDB C 检索引擎
对象访问
Posix Moun t
DB2
Hive
SQL on Hadoo p Presto
SQL Server
OLT P
Netez za
OLA P
GreenPl um
Vertic a
Impal a
Spark
SQL
Sybase ASE
Informix (IBM)
规模扩展性差 无法快速处理全量数据 计算存储难以高并发分载
无法处理新型数据
SQL on Hadoo p
1. MPP数据仓库
Turboo EnSQL
自适应负载均 衡、消除单点 瓶颈
支持对接多种查询 引擎,查询入口标 准化。兼容SQL2008, 低成本兼容PL/SQL
高速的查询引擎, 多种核心数据通路 优化、分布式join优 化、异构数据关联
自适应多态存储: 行列存、压缩、 冗余策略

适用场景

新型MPP数仓:面向高价值密度的EDW及商业BI分析领域 对标GreenPlum/Teradata/Netezza/SQL@Hadoop方案 基于通用服务器构建,提供大规模低成本的数仓解决方案 迁移成本低,可对已有工具及团队进行利旧
1. MPP数据仓库
新型混合数仓及一站式分析引擎
实现了RCfile行列混合存储技术,已为Apache Hive社区接纳
硬件
带硬件加速的数据透明压缩&解压缩 计算存储均衡性
计算密集型
存储密集型
HBase
DataMPI
Columnar Store
Hive
Pig
Hadoop平台产品及第三方服务
大数据平台接口及规范
数据使用方 数据提供方 业务系 统
数据分析
SQL语义难以融合深度分析
加载效率低 数据跑批慢、实时性差 数据孤岛:无法跨库融合分 析 软硬耦合、重资产
接口标准化及兼容性差
实时更新困难
分析实时性差 无法利用成熟的索引等技术 程序利旧及团队复用
1. MPP数据仓库
独立派 系
Postgre s派生系
Turboo EnSQL
北明大数据技术栈介绍
Hadoop平台产品及第三方服务
Turboo Hadoop
同时提供对开源及商用大数据平台的技术服务
1. CDH、HDP、Pivotal 2. 华为、曙光、星环
应用 HBase增强(多列区间查询) 商业智能、数据分析、挖掘、个性化应用等

Apache Hadoop生态环境
元 数 据 管 理 系 统
M-1
大数据平台产品
大数据软件套件 — PaaS
Turboo UDFS Turboo Base Turboo EnSQL Turboo DTube Turboo BDEP 分布式集群存储系统 分布式列式数据库系统 分布式数据仓库产品 分布式数据总线 大数据统一管理平台

Data Exchange

Sqoop
In-Memory Processing Framework
Mahout
SQL Based DW
Workflow
Scription
Oozie
Spark
将Map和Reduce解耦,使计算资源不 再被提前占用,可以降低作业运行时 间约30%,提高资源使用效率
用户价值
➢ ➢ ➢ ➢ ➢ ➢ ➢ ➢ 基于X86服务器集群的线性能力扩展 多源数据in-place关联 千亿数据分钟级别响应 业务人员自助建模,实时“数据把玩” 基于拖拽的探索式建模 分析直接嵌入业务流程 PLSQL兼容,减少既有代码移植 打通多维分析与数据挖掘/机器学习
大数据行业解决方案软硬一体机
大数据软件套件 — SaaS
Turboo HTS Turboo D2i Turboo Link Turboo Dsearch 高通量流式分析引擎 探索式建模挖掘平台 关联分析引擎 全联搜索引擎
1. MPP数据仓库
当前数据库体系及遇到的挑战
Oracle
Terad ata
Machine Learning
Uncoupled Map/Reduce

访问控制与权限管理 资源调度和细粒度性能隔离 Ambari 支持 SQL解析、查询性能优化 Provisioning, Managing and Monitoring Hadoop Clusters 片内二级索引(IRIndex) 互补聚簇索引(CCIndex) 服务器端聚合运算 数据快速并行加载(CORW) 专用图形化管控界面
相关文档
最新文档