Spark编程基础：Spark的设计与运行原理单元测验与答案

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、单选题
1、以下哪个不是Spark的组件?（）
A.Spark Streaming
B.MLlib
C.GraphX
D.Flink
正确答案：D
2、下面哪个不是 RDD 的特点 ? （）
A.可分区
B.可序列化
C.可修改
D.可持久化
正确答案：C
3、Task是Executor上的工作单元，运行于下面哪个组件上？（）
A.Driver Program
B.Spark Master
C.Worker Node
D.Cluster Manager
正确答案：C
4、下面哪个操作肯定是宽依赖？（）
A.map
B.filter
C.reduceByKey
D.union
正确答案：C
二、多选题
1、以下是Spark的主要特点的有? （）
A.运行速度快
B.容易使用，简洁的API设计有助于用户轻松构建并行程序
C.通用性，Spark提供了完整而强大的技术栈
D.运行模式多样
正确答案：A、B、C、D
2、Spark的运行架构包括哪些？（）
A.集群资源管理器（Cluster Manager）
B.执行进程（Executor）
C.Worker Node
D.任务控制节点Driver Program
正确答案：A、B、C、D
3、关于RDD之间的依赖分为窄依赖和宽依赖，以下说法正确的是？（）
A.存在一个父RDD的一个分区对应一个子RDD的多个分区，则为宽依赖
B.存在一个父RDD的多个分区对应一个子RDD的一个分区，则为宽依赖
C.存在一个父RDD的一个分区只被一个子RDD的一个分区所使用，则为窄依赖
D.存在一个父RDD的一个分区被一个子RDD的多个分区所使用，则为窄依赖
正确答案：A、C
4、Spark可以采用几种不同的部署方式，以下正确的部署方式有？（）
A.Local
B.Standalone
C.Spark on Mesos
D.Spark on YARN
正确答案：A、B、C、D
5、目前的大数据处理典型应用场景可分为哪几个类型? （）
A.复杂的批量数据处理
B.基于历史数据的交互式查询
C.大数据的分布式计算
D.基于实时数据流的数据处理
正确答案：A、B、D
6、以下选项中哪些是Spark的优点？（）
A.具有高效的容错性
B.利用进程模型
C.可以将中间结果持久化到内存
D.表达能力有限
正确答案：A、C。