大数据分析关键技术概述(PPT 38张)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

批量处理
批量处理 证所有映射的键值对中的每一个共享相同的键组。
实时性:低
MapReduce是一种编程模型,用于大规模数据集的并行批量计算。概念Map和Reduce当前的主流 实现是指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保 形成这种模型的原因是:数据的分布式存储、计算资源的分布式、并行计算减少计算时长。
Batch Processing
Ad-Hoc Query
SQL Syntax Parallel Compute Framework Meta Data
SQL Syntax+ Compute Framework
Resource Management Storage Distribute File System Column Database
流式计算
流式计算
实时性:高
流数据的实时计算注重对流数据的快速高效处理、计算和分析。其特点是计算过程数据不落地,所有 数据在内存中完成。其计算模型是根据规则生成容器,当数据流经过容器时,实时产生分析结果。
NoSQL
Input Adapter
Output Adapter
Engine Cluster
Cluster Management
大数据分析关键 技术
• • • •
概述 即席查询 批量处理 流式计算
大数据计算分析模式分类
数据承载
响应时间
适用场景
即席查询 Ad-Hoc Query
磁盘
秒级 (准实时)
自然人交互式 经营分析
批量处理 Batch Processing Map/Reduce
磁盘
分钟级至小时级 (准实时)
事前/事后 大批量数据处理
Name Node
Data
HDFS DN Task Tracker
解析 HiveSQL 之后生成所 MapReduce 任务,在运行中访问元数据信息时,将直接 读取生成的物理计划时产生的 plan.xml ,此 文件会被放入 Hadoop 的分布式缓存中,, MapReduce任务可以从分布式缓存中获得相 应的元数据。
然后由QueryCompiler来对用户提交
的HiveSQL进行编译/检查/优化并最终 生成MapReduce任务。 • ExecutionEngine会与Hadoop进行交 互,将 MapReduce任务交给Hadoop 来执行,并从Hadoop取得最终的执行 结果,并返回给用户。
Job Tracker
流式计算 Stream Computing
内存 (事件窗口 非全量数据)
秒级 (实时)
实时事件分析 实时风险干预
针对不同的业务领域,需要采用不同的数据计算分析方式,快速发现数据价值。
即席查询
即席查询 户自定义查询条件。
实时性:高
即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成 相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是用
代码实 现
用C++实现,做了很多有针对性的硬件优化。对外提供多语言API、多种访问协议。
• • • •
概述 即席查询 批量处理 流式计算
HDFS DN HBase
Impalad
Query Planner Query Coordinator Query Exec Engine Data
HDFS DN HBase
Impalad
Query Planner Query Coordinator Query Exec Engine Data
HDFS DN HBase
Batch Processing
Ad-Hoc Query
SQL Syntax Parallel Compute Framework Meta Data
SQL Syntax+ Compute Framework
Resource Management Storage Distribute File System Column Database
Thrift Server
Meta Store
的执行创建一个Session,Driver维护 整个session的生命周期。Driver首先 将HiveSQL传送给QueryCompiler,
Driver (Compiler, Optimizer, Executor) Hive (Over Hadoop 0.20.X)
Rule Repository
wk.baidu.com
• • • •
概述 即席查询 批量处理 流式计算
Impala架构
SQL JDBC
Common HiveQL & Interface
Hive MetaStore
HDFS NN
MetaData
State Store
Impalad
Query Planner Query Coordinator Query Exec Engine Data
Hadoop
Impala相对于Hive的优势
中间结 果 作业调 度 作业分 发 数据访 问 Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销。
省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(默认每个心跳间 隔是3秒钟),Impala直接通过相应的服务进程来进行作业调度,速度快了很多。 Impala借鉴了MPP并行数据库的思想,可以做更多的查询优化,从而省掉不必要的 shuffle、sort等开销。 使用了支持Data locality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行, 减少了网络开销。
Impala Node
Impala Node
Impala Node
Local Direct Reads
Thrift
Hive架构
SQL JDBC WUI
• ThriftServer:JDBC通过ThriftServer 连接到Hive。ThriftServer连接 MetaStore来读取hive的元数据信息。 • MetaStore:在关系型数据库中存放表 /分区/列元数据,可以低延迟的快速的 访问到需要的元数据信息。 • Driver/QueryCompiler/ExecutionEn gine:客户端提交的HiveSQL首先进入 Driver,然后Driver会为此次HiveSQL
相关文档
最新文档