SPARK调优之并行度设置

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SPARK调优之并⾏度设置

操作场景

并⾏度控制任务的数量,影响shuffle操作后数据被切分成的块数。调整并⾏度让任务的数量和每个任务处理的数据与机器的处理能⼒达到最优

查看CPU使⽤情况和内存占⽤情况,当任务和数据不是平均分布在各节点,⽽是集中在个别节点时,可以增⼤并⾏度使任务和数据更均匀的分布在各个节点。增加任务的并⾏度,充分利⽤集群机器的计算能⼒,⼀般并⾏度设置为集群CPU总和的2-3倍

操作步骤

并⾏度可以通过如下三种⽅式来设置,可以根据实际的内存、CPU、数据以及应⽤程序逻辑的情况调整并⾏度参数

●在会产⽣shuffle的操作函数内设置并⾏度参数,优先级最⾼

testRDD.groupByKey(24)

●在代码中配置“spark.default.parallelism”设置并⾏度,优先级次之

val conf = new SparkConf()

conf.set("spark.default.parallelism", 24)

●在 “$SPARK_HOME/conf/spark-defaults.conf” ⽂件中配置“spark.default.parallelism”的值,优先级最低

spark.default.parallelism 24

相关文档
最新文档