基于Hadoop的企业数据仓库建设与创新 刘汪根
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
CG D I T C G IT C G T I C G I T CG G I T C G I T C G I T C G I T C G I T CG I T C G IT C G T I C G I T CG G I T C G T I C G I T CI G I T C G C G I T C G I T C G I T C I T C G I T C G I T C G I T C G I T C G I T C G I T C I T C G I T C G T C G A
2016/6/23
6
Hadoop需要解决的关键问题
数仓能力与构建 成本
稳定性、可靠性以及计算性能非常重要,当前 Hadoop计算能力和稳定性都存在问题,开发和 运维成本也很高
A
数仓平台需要能够处理实 时数据和非结构化数据的 GITC GITC GITC GIT 能力,开发和运维实时 应用需要简单可靠 类
加载
OLAP Analytics
2016/6/23
www.transwarp.io
2
一个典型的案例
SSAS
OLAP Analytics
SQLServer
SSIS + T-SQL
SQL Server DW
问G : CG I T C I T C G I T C G I T C G I T C G I T C G I T C G I T C G I T CG I T C G IT C G T I C G I T CG G I T C G T I C G I T CI G I T C G Reporting C G I T C题 G I T C G I T C G I T C G I T C G I T C G I T C G I T C G I T C G I T C I T C G I T C G T C G 1. 单机数据库,单表上亿记录已经是存储、查询以及分析的最大上限 2. 多维Cube数据膨胀块,单机无法存储,集中式存储昂贵 3. 查询性能下降,进而导致稳定性下降 4. 无法适应新业务的要求,如移动应用或者时效性要求
•
优点
–
C GI TCGI TC G IT C G IT C G ITC G ITC G T I C G IT C G I T C G IT C GITCGI TCG • 缺点 G I T C G T C G
– – – – – – – – 系统成本比较高,Teradata非常昂贵 应用/开发人员需要详细的管理各个数据表的存储和计算方式,一个业务需要适配两套模型 没有一个统一的引擎,应用使用跨系统的数据需要数据先同步 实时业务开发门槛比较高,丢数据情况很常见,无HA 开源Hadoop不支持事务,做全表级别的数据同步非常麻烦 Hadoop对SQL支持比较弱,通常要MapReduce、Spark以及脚本语言混合编程 Hadoop对数据的管理和开发支持很弱 需要一个比较大的运维团队,提供架构支撑和数据开发 www.transwarp.io
loop invariants hoisting
cursor parallelization
CSE
Logical Optimizer
CBO Optimizer
First PL/SQL Compiler on Hadoop; 98% Oracle PL/SQL Compatibility.
RDD DAG SQL Normalizer
byte code geቤተ መጻሕፍቲ ባይዱeration
column pruner operator pruner partition pruner predicate pushdown Join optimizations
PL/SQL A n al yz e r
dead code redundant function CSE Control elimination inlining elimination GITCFlGowITGCrapGhITC GITC GITC GITC GITC CFG GITC Optimizer
C C
GITC GITC
C GITC GITC GITC G ITC GITCGITC GITC G ITC GITC GITC GIT E B OLAP GITC GITC GITC GITC GITC GITC
数据处理能 力
实时、非结构化
数仓批处理和
ETL等批处理业务是数仓的 资源消耗大户,OLAP是保 C GITC GITC Hadoop GITC GITC 证 BI性能的关键, 在这方面能力不足
Hadoop作为补充,能够满足新型业务的需求,并且重用已经构建的传统MPP数仓系统 CG I TC G IT C –G 可 I T 以 C满 G 足I 离 TC 线 批G 处 I理 T C与 G 在I 线 T C OL A GP 分 I T析 C 的 G需 IT 求 C ;G 两 I套 TC 系 统 G互 I T 相C 备G 份 ,T I C 提升 G数 I T 据 C的 G 安I T 全C 性G T I CG I T CG I TC
T A
Streaming Sources Un-structural data Analytics
Daily Sync-up
MySQL
Business Intelligence
HBase
> 50 PB
Hive
Kylin
Forecasting
Teradata 优点
•完善的SQL支持,事务支持,提供OLAP分析功能 •MPP执行引擎稳定,可以处理100TB以上的数据 •管理工具比较完善 2016/6/23
Abstract Syntax Tree
Constant Constant C onF sotal dni ntg Folding Folding
PL/SQL Table Statistics
AST optimizer SQL2003
TC GITC GITC GITC GITC GITC GITC G G C GIT C G IT C GI GITC Parallel Optimizer C GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC
2.性能超群
率先进入复杂数据分析的百TB时代
3.支持分布式事务处理
• 保证事务处理的ACID • BEGIN TRANSACTION/COMMIT/ROLLBACK语 法进行事务处理
•
两阶段封锁协议可保证事务的完全可序
列化
• 新 应用 的 开 发G 本 很 低 高并 发 性 G CG IT C I T C I T C G I T C G I T C G I T C G I T C G I T C G I T CG I T C G IT C G T I C G T C I T C G T I C G I T C C G I T CG G IT成 C G I T C G I T C G I T C G I T C G I T C G I T C G I T C G I TI C GI T C G I T C G G I T C G T C G 4.业界唯一分布式流式 SQL 5.丰富的数据挖掘和机器学习算法 6.运维无忧 • 降低流应用开发门槛,提高流应用开 发效率 • 简单易用 • 7*24小时不间断
基于Hadoop的企业数据仓库建设与创新
刘汪根 大数据平台 研发总监 星环信息科技(上海)有限公司 wayne.liu@transwarp.io
2016/6/23 www.transwarp.io 1
CG I T C G IT C G T I C G I T CG G I T C G I T C G I T C G I T C G I T CG I T C G IT C G T I C G I T CG G I T C G T I C G I T CI G I T C G C G I T C G I T C G I T C I T C G I T C G I T C G I T C G I T C G I T C G I T C I T C G I T C G T C G
G GITC GITC GITC G
D
跨系统间数据同步和一致性无 法有效保证 ETL的一致性对 业务非常关键
C
数据挖掘能力
Spark Mllib技术门槛高,只能由数据科学 家使用,普通的业务分析人员无法有效使 用这些技术
数据一致性与数 据同步支持
2016/6/23
www.transwarp.io
7
CG I T C G IT C G I T C G I T C G I T C G I T C G I T C G I T C G I C G I T C G IT C G T I C G I T C G T I C G I 如 何 解 决 H a d o o p 作 为 统 一 数 仓 的 关 键 问 C G I T C G I T C G I T C G I T C G IT C G IT C G IT T C G I T C G I T C G I T C G I T C G
缺点
•单节点>百万$,并且在大数据规模可扩展性不足 •无法存储非结构化数据,或者实时数据 •无法有效支持数据挖掘类需求 www.transwarp.io 5
MPP + Hadoop混合结构
• 混合架构
– – – – 结构化数据入MPP,非结构化+实时数据数据入Hadoop 核心BI报表由MPP生成,低优先级任务放在Hadoop上 OLAP服务由MPP提供,MPP上数据每天同步到Hadoop上 为了保证SLA,需要有个严格的规则控制对MPP的资源使用
SSRS
2016/6/23
www.transwarp.io
3
CG I T C G I T C G I T C G I T C G I T C G I T C G I T C G I T C G I C G I T C G I T C G T I C G I T C G T I C G 如 果 需 要 融 合 数 据 , 数 仓 如 何 构 建 呢 ? C G I T C G I T C G I T C G I T C G I大 T C G IT C G IT T C G I T C G I T C G I T C G I T C T I C G I T C G I T C G G I T C G I T C G
2016/6/23
www.transwarp.io
4
某互联网巨头的企业数仓架构
报表区
Portal
S O U R C E
Structural data
ETL Clusters
Master Cluster Teradata <5 PB
Standby Cluster Teradata
MySQL TacticalReporting
企业级数据仓库架构
数据源 ETL
抽取
Reporting
数据仓库
数据集市
数据服务
转换
CG I T C G IT C G T I C G I T CG G I T C G I T C G I T C G I T C G I T CG I T C G IT C G T I C G I T CG G I T C G T I C G I T C G I T C G B IG C G I T C G I T C G I T C I T C G I T C G I T C G I T C G I T C G I T C G I T C I T C G I T C I T C G 清洗
• 多版本(快照)隔离可以保证只读事务的
• 针对性的优化让StreamSQL比编程开
发流应用性能更高 • 帮助用户零成本将传统业务逻辑变成 流应用 2016/6/23 www.transwarp.io 9
Inceptor PL/SQL Compiler架构
SQL Statements SQL Parser
T C G I T C G I T C G 题 I T C G I T C G
2016/6/23
www.transwarp.io
8
星环科技团队的成果
1.支持最全SQL,唯一支持PL/SQL
• 支持99%的SQL 2003语法 • Hadoop业界唯一支持Oracle PL/SQL • Hadoop业界唯一支持DB2 SQL/PL • 帮助用户零成本迁移传统应用