Spark大数据计算性能调优与硬件选型性价比

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

10Gb
10Gb
Workload ( TPC-­‐DS)
Queries
19,42,43,52,55,63,68,72,98
Data S cale (Raw Data)
10 T B
Data F ormat
Parquet
Compression Codec
Snappy
Data Size
Executor Number 5 / nodes
Spark M ode
yarn-­‐client
JDK Version
1.8.0_112
memory.Overhead 10% E xecutor M emory
Shuffle Partition # 200
Hadoop D ata N ode, Spark Slaves
Name Node, Resource Manager
Data Node, Node Manager
1
7
Intel Xeon E 5-­‐2650 v 3 ( HSW) / Intel Xeon E 5-­‐2680 v 4 ( BDW) ( Dual S ocket / n ode)
系统资源信息,包括CPU、磁盘、网络、内存等,并以图形化的 形式展现出来。
0 3 6 9 12 15 18 21 24 27 30 33 36 Job …
坐标轴标题
坐标轴标题
Disk Bandwidth
15000000 10000000 5000000
0
Free Memory
1.5E+09
PAT: https://github.com/intel-­‐hadoop/PAT
6
性能优化一般步骤
基准 瓶颈 优化 验证 测试 分析 方案 方案
7
Spark SQL性能基准测试
8
实验环境和测试集
Nodes Roles Services Numbers Processer Memory
Storage
Network
Master
Slave
Hadoop N ame Node, Spark M aster
Broadcast threshold
30MB
broadcastTimeout 3600 sec
GC
Parallel GC
9
Intel Performance Analysis Tool
Performance Analysis Tool(PAT) 适用于与在分布式环境下收集
256GB
256GB
OS D isk: 480GB S SD
OS Disk: 480GB S SD Data Disk: 1TB S ATA H DD x 8 / Data Disk: Intel S 3520 S SD x 8 / Data Disk: Intel P 3600 S SD x 3
Spark SQL优化与硬件选型
程浩
1
主要内容
• Spark概要简介 • Spark SQL基准测试 • 性能比较分析 • 推荐硬件选型 • 下一步?
2
Spark概要简介
3
Spark软件栈
用户Spark App
Job Server
… Visualization
SQL / DF / ML / Structured Streaming
Catalyst
Spark Streaming
Mllib (Machine Learning)
GraphX (graphs)
Bare Metal
(YARN / C ONTAINER / STANDALONE)
Core & RDD API
ቤተ መጻሕፍቲ ባይዱ
~3TB
Hadoop/Spark C onfiguration
Hadoop version 2.7.3
Spark v ersion
2.1.0
Executor m emory 25~40 G B
Executor C ores
8 – 10 / e xecutors
• 多种语言支持(SQL, Java, Scala, Python, R) • Declarative ( DataSet / DataFrames / RDD) API VS. Imperative API • 活跃的数据源连接器开源组件(Hbase, Cassandra, Redis,
ElasticSearch, M ongoDB …)
• 更快的处理引擎 • DAG Based任务调度机制 • 缓存API与内存计算 • 开放式的Catalyst执行计划优化器&Tungsten系列优化执行加速
5
Spark生态圈组件使用比例
https://databricks.com/blog/2016/09/27/spark-­‐survey-­‐2016-­‐released.html
1E+09
500000000
0 1 4 7 10 13 16 19 22 25 28 31 34 37
Cpu Utilization
100
50
1500000 1000000
Network IO
坐标轴标题
坐标轴标题
0 0 2 4 6 8 101214161820222426283032343638
Kubernates

Google Cloud Platform
AWS
Parquet
ORC
CSV
Hive Tables
HBase
Cassandra
… Redis
4
为什么选Spark? 而不是MR?
• 简单易用
• 同一个软件栈搞定一切(Streaming, SQL, GraphX, Machine Learning, BigDL)
相关文档
最新文档