[南开大学]20春学期《大数据开发技术(二)》在线作业(答案100分)

合集下载

奥鹏南开20春学期(1709、1803、1809、1903、1909、2003)《大数据开发技术(二)》在线作业_2 随机.doc

1.Spark中DataFrame的（）方法是进行条件查询A.whereB.joinC.limitD.apply【参考答案】: A2.Dstream输出操作中print方法在Driver中打印出DStream中数据的()元素。

A.第一个B.所有C.前10个D.前100个【参考答案】: C3.Scala元组的值是通过将单个的值包含在（）中构成的A.小括号B.中括号C.大括号D.尖括号【参考答案】: A4.当需要将一个普通的RDD转化为一个PairRDD时可以使用（）函数来进行操作A.transferB.changeC.mapD.build【参考答案】: C5.以下哪个函数可以求两个RDD交集（）A.unionB.substractC.intersectionD.cartesian【参考答案】: C6.以下哪个函数可以求两个RDD差集（）A.unionB.substractC.intersectionD.cartesian【参考答案】: B7.spark-submit配置项中（）表示executor使用的总核数A.--num-executors NUMB.--executor-memoryMEM C.--total-executor-cores NUM D.--executor-coures NUM 【参考答案】: C8.GraphX中（）方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist 【参考答案】: C9.以下哪个方法可以从外部存储中创建RDD（）A.parallelizeB.makeRDDC.textFileD.loadFile【参考答案】: C10.Scala可以使用（）关键字实现单例模式A.objectB.staticC.privateD.public【参考答案】: A11.以下哪个不是Scala的数据类型（）A.IntB.Short IntC.LongD.Any【参考答案】: B12.Mllib中metrics.precisionByThreshold表示（）指标A.准确度B.召回率C.F值D.ROC曲线【参考答案】: A13.图的结构通常表示为：G(V,E)，其中，E是图G中()A.顶点B.顶点的集合C.边D.边的集合【参考答案】: D14.请问RDD的（）操作用于将相同键的数据聚合A.joinB.zipbineByKeyD.collect【参考答案】: C15.Mllib中metrics.recallByThreshold 表示（）指标A.准确度B.召回率C.F值D.ROC曲线【参考答案】: B16.GraphX中EdgeRDD继承自（）A.EdgeRDDB.RDD[Edge]C.VertexRDD[VD]D.RDD[(VertexId，VD)]【参考答案】: B17.Dstream输出操作中（）方法将DStream中的内容以文本的形式保存为文本文件A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoop Files【参考答案】: B18.GraphX中（）方法可以查询顶点信息A.numVerticesB.numEdgesC.verticesD.edges【参考答案】: C19.Scala通过（）来定义变量A.valB.valC.defineD.def【参考答案】: A20.Mllib中线性会馆算法中的参数reParam表示（）A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征sso 和ridge 的正规化参数【参考答案】: D21.Scala中（）方法返回Map所有的valueA.keyB.keysC.valueD.values【参考答案】: D22.Scala列表方法中返回所有元素，除了最后一个的方法是（）A.dropB.headC.filterD.init【参考答案】: D23.Spark Streming中（）函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStreamA.unionB.reduceC.joinD.cogroup【参考答案】: B24.PairRDD可以通过（）获得仅包含键的RDDA.keyB.keysC.valueD.values【参考答案】: B25.Scala中（）方法返回Map所有的keyA.keyB.keysC.valueD.values【参考答案】: B26.以下哪个是Scala的数据类型（）A.AnyB.NULLC.NothingD.AnyRef【参考答案】: ABCD27.以下算法中属于分类算法的是（）A.KNN算法B.逻辑回归C.随机森林D.Kmeans 【参考答案】: ABC28.Spark的RDD持久化操作有()方式A.cacheB.presistC.storageD.long【参考答案】: AB29.Spark Streaming的特点有（）A.单极性B.可伸缩C.高吞吐量D.容错能力强【参考答案】: BCD30.Spark Streaming能够和（）无缝集成A.HadoopB.Spark SQLC.MllibD.GraphX 【参考答案】: BCD31.Scala系统支持（）作为对象成员A.通用类B.内部类C.抽象类D.复合类【参考答案】: ABCD32.Scala中可以用（）方法来连接两个或多个列表A.::B.#:::C.List.:::()D.List.concat()【参考答案】: ABCD33.Spark DataFrame中（）方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList【参考答案】: ABCD34.Spark DataFrame中（）方法可以返回一个Array对象A.collectB.takeC.takeAsListD.collectAsList【参考答案】: AB35.Spark可以通过哪些外部存储创建RDD（）A.文本文件B.目录C.压缩文件D.通配符匹配的文件【参考答案】: ABCD36.Spark只有键值对类型的RDD才能设置分区方式T.对 F.错【参考答案】: T37.Scala中列表是可变的T.对 F.错【参考答案】: F38.RDD的转换操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。

南开远程教育20春《大数据开发技术(二)》在线作业解答3

2分
A Int
B Short Int
C Long
D Any
12
Mllib中metrics.precisionByThreshold表示（）指标
2分
A 准确度
B 召回率
C F值
D ROC曲线
13
图的结构通常表示为：G(V,E)，其中，E是图G中()
2分
A 顶点
B 顶点的集合
C边
D 边的集合
14
请问RDD的（）操作用于将相同键的数据聚合
南开远程教育20春《大数据开发技术（二）》在线作业解答3----下面绿色选项为标准答案
共50道题，
一、单选题
共25题，50分
1
Spark中DataFrame的（）方法是进行条件查询
2分
A where
B join
C limit
D apply
2
Dstream输出操作中print方法在Driver中打印出DStream
D RDD[(VertexId，VD)]
17
Dstream输出操作中（）方法将DStream中的内容以文本的
形式保存为文本文件
2分 A print
B saveAsTextFiles
C saveAsObjectFiles
D saveAsHadoopFiles
18
GraphX中（）方法可以查询顶点信息
2分
5
以下哪个函数可以求两个RDD交集（）
2分
A union
B substract
C intersection
D cartesian
6
以下哪个函数可以求两个RDD差集（）
2分

南开大学20春学期《大数据导论》在线作业

南开大学20春学期《大数据导论》在线作业
试卷总分:100 得分:100
一、单选题(共15 道试题,共30 分)
1.大数据的特点不包含
A.数据体量大
B.数据不统一
C.处理速度快
D.价值密度高
答案:B
2.基础设施即服务的英文简称是
A.SaaS
B.PaaS
C.IaaS
答案:C
3.下面哪一项不是中国发展大数据产业的基础()。

A.大数据技术创新取得明显突破
B.大数据应用推动势头良好
C.大数据产业支撑薄弱
D.信息化积累了丰富的数据资源
答案:C
4.数据清洗的方法不包括
A.重复数据记录处理
B.缺失值处理
C.噪声数据清除
D.一致性检查
答案:A
5.以下不是数据仓库基本特征的是()
A.数据仓库的数据是相对稳定的
B.数据仓库的数据是反映历史变化的
C.数据仓库是面向事务的
D.数据仓库是面向主题的
答案:C
6.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。

A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
答案:A
7.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。

南开20秋学期《大数据开发技术(二)》在线作业答案1296

(单选题)1: （）是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark 的Job运行在集群上
A: SparkR
B: BlinkDB
C: GraphX
D: Mllib
正确答案: A
(单选题)2: 图的结构通常表示为：G(V,E)，其中，V是图G中()
A: 顶点
B: 顶点的集合
C: 边
D: 边的集合
正确答案: B
(单选题)3: Dstream输出操作中（）方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存
A: print
B: saveAsTextFiles
C: saveAsObjectFiles
D: saveAsHadoopFiles
正确答案: D
(单选题)4: （）是Spark的核心，提供底层框架及核心支持
A: Spark Core
B: Spark SQL
C: Spark Streaming
D: Mllib
正确答案: A
(单选题)5: Spark中的每个RDD一般情况下是由（）个分区组成的
A: 0
B: 1
C: 多
D: 无数
正确答案: C
(单选题)6: RDD的（）操作通常用来划分单词
A: filter
B: union
C: flatmap
D: mapPartitions
正确答案: C。

南开20秋学期《大数据开发技术(二)》在线作业 (3)

A:print
B:saveAsTextFiles
C:saveAsObjectFiles
D:saveAsHadoopFiles
答案：D
Dstream窗口操作中（）方法基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的Dstream
A:window
B:countByWindow
C:reduceByWindow
答案：C,B,A
以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区（）
A:resetpartition
B:repartiton
C:Partition
D:coalesce
答案：B,D
Spark创建DataFrame对象方式有（）
A:结构化数据文件
B:外部数据库
C:RDD
D:Hive中的表
答案：A,B,C,D
MLlib中用于线性回归算法的包主要有（）
A:LinearRegressionWithSGD
B:RidgeRegressionWithSGD
C:LassoWithSGD
D:LeftRegression
答案：B,A,C
以下哪个方法可以从集合中创建RDD（）
A:parallelize
var b=0
var sum=0;
for(a<-1 until 3; b<-1 until 3) {
sum+=a+b;
}
println(sum);
A:36
B:35
C:11
D:12
答案：D
Scala列表方法中返回所有元素，除了最后一个的方法是（）
A:drop

奥鹏远程南开大学(本部)20春学期《大数据导论》在线作业标准答案

【选项】：
A一个名字节点
B若干个名字节点
C一个数据节点
D若干个数据节点
【答案】：A.D
28.大数据在社交网络中的应用
【选项】：
A用户偏好、情感、社交网络结构
B用户画像、精准推荐
C舆情监控、突发事件预警
D预测外部趋势
【答案】：A.B.C.D
29.开放云()
【选项】：
A价值呈现：大数据应用价值呈现和创新不足
23.数据分析的类型根据数据分析深度可以分为()
【选项】：
A描述性分析
B预测性分析s
C规则性分析
【答案】：A.B.C
24.主流分布式计算平台有()
【选项】：
A g：A.B.D
25.交通数据分析可用于:
【选项】：
A交通流量实时分析
B合理进行道路规划
南开大学（奥鹏）网络教育
《大数据导论》在线作业
正确答案
参考资料试读一页
20春学期（1709、1803、1809、1903、1909、2003）《大数据导论》在线作业
1.大数据的特点不包含
【选项】：
A数据体量大
B价值密度高
C处理速度快
D数据不统一
【答案】：D
2.基础设施即服务的英文简称是
【选项】：
A IaaS
【选项】：
A ggplot2
B network
C ggmaps
D animation
【答案】：D
12.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
【选项】：
A运营式系统阶段
B用户原创内容阶段
C感知式系统阶段
【答案】：B
13.哪个选项不属于大数据4V特点?

奥鹏远程南开大学(本部)20春学期《大数据导论》在线作业参考答案

D健康档案数据
【答案】：C
14.大数据的特点不包含
【选项】：
A数据体量大
B价值密度高
C处理速度快
D数据不统一
【答案】：D
15.下列哪个工具常用来开发移动友好地交互地图()
【选项】：
A Leaflet
B Visual.ly
C BPizza Pie Charts
D Gephi
【答案】：A
16.医疗大数据的来源主要包括()
D巨量级数据分析
【答案】：
22.大数据在医疗中的应用有()
【选项】：
A流行性疾病预防
B慢性病健康管理
C临床决策支持
D医疗器械研发
【答案】：A.B.C.D
23.互连网上出现的海量信息可以划分为三种,分别为( )
【选项】：
A结构化信息
B非结构化信息
C半结构化信息
D特殊化信息
【答案】：
24. ##和##,它们把原数据变换或投影到较小的空间。
【选项】：
A小波变换
B中心化变换
C主成分分析
D对数变换
【答案】：
25.社会信号数据的特点有()
【选项】：
A规模大
B空间覆盖率广
C监测时间长
D实时性
【答案】：A.B.C.D
26.大数据存储的特点与挑战有()
【选项】：
A容量问题
B延迟问题
C安全问题
D成本问题
【答案】：A.B.C.D
27.数据预处理的过程主要是
【选项】：
T对
F错
【答案】：A
39. NAS代表的意思是网络附加存储
【选项】：
T对
F错
【答案】：A

【南开】20春学期《大数据导论》在线作业【资料答案】

20春学期（1709、1803、1809、1903、1909、2003）《大数据导论》在线作业试卷总分:100 得分:92
一、单选题 (共 15 道试题,共 30 分)
1.大数据的特点不包含
A.数据体量大
B.价值密度高
C.处理速度快
D.数据不统一
答案:
2.基础设施即服务的英文简称是
A.IaaS
B.PaaS
C.SaaS
答案:A
3.下面哪一项不是中国发展大数据产业的基础()。

A.信息化积累了丰富的数据资源
B.大数据技术创新取得明显突破
C.大数据应用推动势头良好
D.大数据产业支撑薄弱
答案:D
4.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
答案:D
5.以下不是数据仓库基本特征的是()
A.数据仓库是面向主题的
B.数据仓库是面向事务的
C.数据仓库的数据是相对稳定的
D.数据仓库的数据是反映历史变化的
答案:B
6.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。

A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
答案:
7.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。

2020年奥鹏南开20春学期《大数据开发技术(二)》在线作业第1次试题标准答案

【选项】：
A RDD[Edge]
B EdgeRDD
C RDD[(VertexId,VD)]
D VertexRDD
【答案】：D
6. Scala列表方法中返回所有元素，除了最后一个的方法是（）
【选项】：
A drop
B head
C filter
D init
【答案】：D
7. Dstream输出操作中（）方法在Driver中打印出DStream中数据的前12个元素。
2. 以下哪个函数可以对RDD进行排序（）
【选项】：
A sortBy
B filter
C distinct
D intersection
【答案】：A
3. Graph类中如果要直接通过边数据文件创建图，要求数据按空格分隔，应该用（）方法
【选项】：
A Graph(vertices,edges, defaultVertexAttr)
【选项】：
【答案】：D
4. 下列Scala代码应输出（）：
var a=0;
var b=0
var sum=0;
for(a<-1 until 3; b<-1 until 3) {
sum+=a+b;
}
println(sum);
【选项】：
A 36
B 35
C 11
D 12
【答案】：D
5. GraphX中（）是提供顶点的各种操作方法的对象
【选项】：
A transfer
B change
C map
D build
【答案】：C
13. Dstream窗口操作中（）方法基于滑动窗口对（K，V）键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得到一个新的Dstream

南开大学20秋学期《大数据开发技术(二)》在线作业(参考答案)

1.()是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的Job运行在集群上。

A.SparkRB.BlinkDBC.GraphXD.Mllib答案：A2.图的结构通常表示为：G(V，E)，其中，V是图G中()。

A.顶点B.顶点的集合C.边D.边的集合答案：B3.Dstream输出操作中()方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存。

A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles答案：D4.()是Spark的核心，提供底层框架及核心支持。

A.Spark CoreB.Spark SQLC.Spark StreamingD.Mllib答案：A5.Spark中的每个RDD一般情况下是由()个分区组成的。

A.0B.1C.多D.无数答案：C6.RDD的()操作通常用来划分单词。

A.filterB.unionC.flatmapD.mapPartitions答案：C7.图结构中如果任意两个顶点之间都存在边，那么称之为()。

A.完全图B.有向完全图C.无向图D.简单图答案：A8.Spark GraphX中类Graph的aggregateMessages方法可以()。

A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中答案：C9.Spark中DataFrame的()方法是进行连接查询。

A.whereB.joinC.limitD.apply答案：B10.以下哪个不是Scala的数据类型?()A.AnyRefB.AnythingC.NULLD.Nothing答案：B11.GraphX中()方法可以释放边缓存。

A.cacheB.presistC.unpersistVerticesD.edges.unpersist答案：D12.()是Spark的数据挖掘算法库。

奥鹏南开《大数据开发技术(二)》20春期末考核.doc

1.GraphX中。

方法可以查询顶点信息A. numVerticesB. numEdgesC. verticesD. edges【参考答案】：C2. MLlib中可以调用mllib. tree. DecisionTree类中的静态方法（）训练回归树A. trainClassifierB. trainRegressorC. LogisticRegressionModelbeledPoint【参考答案】：B3.以下哪个函数可以对RDD进行去重OA. sortByB.filterC. distinctD. intersection【参考答案】：c4,图是一种数据元素间为。

关系的数据结构A.多对多B.一对一C.一对多D.多对一【参考答案】：A5.GraphX中。

方法可以查询度数A.degreesB. degreeC.verticesD. edges【参考答案】：A6. Scala中。

方法返回一个列表，包含除了第一个元素之外的其他元素A. headB. initC. tailD. last【参考答案】：C1. GraphX 中 graph. triplets 可以得到 OA.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图【参考答案】：C8. spark-submit配置项中。

表示启动的executor数量A. 一一num-executors NUMB. 一一executor-memoryMEM C. 一一total-executor-cores NUM D. 一一executor-coures NUM【参考答案】：A9.。

是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的Job运行在集群上A. SparkRB.BlinkDBC. GraphXD. Ml lib【参考答案】:A10.Spark GraphX 中类 Graph 的collectNeighborIds(edgeDirection： EdgeDirection)方法可以。

奥鹏远程南开大学(本部)20春学期《大数据开发技术(二)》在线作业标准答案

C RDD[(VertexId,VD)]
D VertexRDD
【答案】：B
7.一般情况下，对于迭代次数较多的应用程序，Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的（）多倍
【选项】：
A 2
B 10
C 100
D 1000
【答案】：C
8. MLlib中可以调用mllib.tree.DecisionTree类中的静态方法（）训练分类树
【答案】：B
14.当需要将一个普通的RDD转化为一个PairRDD时可以使用（）函数来进行操作
【选项】：
A transfer
B change
C map
D build
【答案】：C
15. Dstream窗口操作中（）方法返回一个基于源DStream的窗口批次计算后得到新的DStream。
【选项】：
A window
【选项】：
A收集邻居顶点的顶点Id和顶点属性
B收集邻居顶点的顶点Id
C向指定顶点发送信息并聚合信息
D将顶点信息更新到图中
【答案】：C
24. Scala列表方法中通过给定的方法将所有元素重新计算的方法是（）
【选项】：
A filter
B foreach
C map
D mkString
【答案】：C
25. Scala列表方法中返回所有元素，除了最后一个的方法是（）
D reduceByKeyAndWindow
【答案】：D
12. Scala列表方法中输出符号指定条件的所有元素的方法是（）
【选项】：
A drop
B head
C filter
Dபைடு நூலகம்init

南开大学智慧树知到“物联网工程”《大数据开发技术(二)》网课测试题答案卷3

南开大学智慧树知到“物联网工程”《大数据开发技术（二）》网课测试题答案（图片大小可自由调整）第1卷一.综合考核(共10题) 1.Scala 函数组合器可以对集合中的元素进行分组操作，结果得到的是一个Map 的方法是() A.filter B.flatten C.grouby D.flatmap2.Scala 中高阶函数可以产生新的函数，并将新的函数作为返回值。

()T.对 F.错3.PairRDD 中mapValues 是针对键值对(Key ，Value)类型的数据中的key 和Value 进行Map 操作。

()A.正确B.错误4.RDD 的intersection 方法用于求出两个RDD 的共同元素。

()A.正确B.错误5.Mllib 中线性会馆算法中的参数reParam 默认值是()6.Scala 支持()。

A.匿名函数B.高阶函数C.函数嵌套D.柯里化7.RDD 是一个可读写的数据结构。

() T.对 F.错8.以下哪个不是Scala 的数据类型()A.AnyRefB.AnythingC.NULLD.Nothing9.RDD 的sortBy 函数包含参数numPartitions ，该参数决定排序后的RDD 的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size 。

() A.正确B.错误10.Spark SQL 可被视为一个分布式的SQL 查询引擎，并且提供了一个叫做DataFrame 的可编程抽象数据模型。

()A.正确B.错误第1卷参考答案一.综合考核 1.参考答案：C2.参考答案：T3.参考答案：B4.参考答案：A5.参考答案：16.参考答案：ABCD7.参考答案：F8.参考答案：B9.参考答案：A10.参考答案：A。

南开《大数据开发技术(二)》在线作业满分答案

南开《大数据开发技术（二）》在线作业满分答案1在MLlib中，逻辑回归算法的输入值为（）类型A DoubleB LabledPointC PointD SGB答案：B2Scala列表方法中获取列表的第一个元素的方法是（）A dropB headC filterD init答案：B3spark-submit配置项中（）表示每个executor使用的内核数A --num-executors NUMB --executor-memory MEMC --total-executor-cores NUMD --executor-coures NUM答案：D4Spark Streming中（）函数当被调用的两个DStream分别含有(K, V) 和(K, W)键值对时,返回一个(K, Seq[V], Seq[W])类型的新的DStream。

A unionB reduceC joinD cogroup答案：C5PairRDD可以通过（）获得仅包含键的RDDA keyB keysC valueD values答案：B6GraphX中（）是完整提供边的各种操作类A RDD[Edge]B EdgeRDDC RDD[(VertexId,VD)]D VertexRDD7一般情况下，对于迭代次数较多的应用程序，Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的（）多倍A 2B 10C 100D 1000答案：C8MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法（）训练分类树A trainClassifierB trainRegressorC LogisticRegressionModelD LabeledPoint答案：A9Scala中（）方法返回Map所有的valueA keyB keysC valueD values答案：D10Spark Streming中DStream的每个RDD都是由（）分割开来的数据集A 分区B 一小段时间C 数据量D 随机答案：B11Dstream窗口操作中（）方法基于滑动窗口对（K，V）键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得到一个新的DstreamA windowB countByWindowC reduceByWindowD reduceByKeyAndWindow答案：D12Scala列表方法中输出符号指定条件的所有元素的方法是（）A dropB headD init答案：C13以下哪个不是Scala的数据类型（）A IntB Short IntC LongD Any答案：B14当需要将一个普通的RDD转化为一个PairRDD时可以使用（）函数来进行操作A transferB changeC mapD build答案：C15Dstream窗口操作中（）方法返回一个基于源DStream的窗口批次计算后得到新的DStream。

南开大学《大数据开发技术（二）》在线作业05

《大数据开发技术（二）》在线作业Spark中DataFrame的（）方法是进行排序查询A:order byB:group byC:select byD:sort by参考选项：ASpark中运行交互式SQL查询的大规模并行查询引擎是（）A:Spark CoreB:Spark SQLC:BlinkDBD:Mllib参考选项：Cvar a=10;while(a20){a+=1;}共循环了（）次A:9B:10C:11D:12参考选项：BPairRDD可以通过（）获得仅包含值的RDDA:keyB:keysC:valueD:values参考选项：Dvar a=10;for(a-1 to 20){println(a);}共循环了（）次A:10B:11C:20D:19参考选项：C（）是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的Job运行在集群上A:SparkRB:BlinkDBC:GraphXD:Mllib参考选项：ASpark GraphX中类Graph的joinVertices方法可以（）A:收集邻居顶点的顶点Id和顶点属性B:收集邻居顶点的顶点IdC:向指定顶点发送信息并聚合信息D:将顶点信息更新到图中参考选项：D以下哪个函数可以对RDD进行去重（）A:sortByB:filterC:distinctD:intersection参考选项：CScala中（）方法返回一个列表，包含除了最后一个元素之外的其他元素A:headB:initC:tailD:last参考选项：BScala函数组合器可以通过一个函数重新计算列表中所有元素，但是没有返回值的方法是（）A:mapB:foreachC:flattenD:flatmap参考选项：B递归函数意味着函数可以调用它（）A:其他函数B:主函数C:子函数。

南开21春学期《大数据开发技术(二)》在线作业-(学习材料)-答案

南开大学21春学期《大数据开发技术（二）》在线作业
试卷总分:100 得分:100
一、单选题 (共 25 道试题,共 50 分)
1.Mllib中metrics.roc 表示（）指标
【A.】准确度
【B.】召回率
【C.】F值
【D.】ROC曲线
<提问：>按照以上题目叙述，请作出选择
[正确选择]：D
2.以下哪个函数可以对两个RDD进行合并（）
【A.】union
【B.】substract
【C.】intersection
【D.】cartesian
<提问：>按照以上题目叙述，请作出选择
[正确选择]：A
3.如果numPartitions是分区个数，那么Spark每个RDD的分区ID范围是（）【A.】[0,numPartitions]
【B.】[0,numPartitions-1]
【C.】[1,numPartitions-1]
【D.】[1,numPartitions]
<提问：>按照以上题目叙述，请作出选择
[正确选择]：B
4.Spark Streming中（）函数可以合并两个DStream，生成一个包含两个DStream中所有元素的新DStream对象
【A.】map
【B.】flatMap
【C.】filter
【D.】union
<提问：>按照以上题目叙述，请作出选择
[正确选择]：D
5.Spark中DataFrame的（）方法是进行连接查询
【A.】where
【B.】join
【C.】limit
【D.】apply
<提问：>按照以上题目叙述，请作出选择
[正确选择]：B。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

【奥鹏】-[南开大学]20春学期（1709、1803、1809、1903、1909、2003）《大数据开发技术（二）》在线作业试卷总分:100 得分:100第1题,在MLlib中，逻辑回归算法的输入值为（）类型A、DoubleB、LabledPointC、PointD、SGB正确答案:B第2题,Scala列表方法中获取列表的第一个元素的方法是（）A、dropB、headC、filterD、init正确答案:B第3题,spark-submit配置项中（）表示每个executor使用的内核数A、--num-executors NUMB、--executor-memory MEMC、--total-executor-cores NUMD、--executor-coures NUM正确答案:D第4题,Spark Streming中（）函数当被调用的两个DStream分别含有(K, V) 和(K, W)键值对时,返回一个(K, Seq[V], Seq[W])类型的新的DStream。

A、unionB、reduceC、joinD、cogroup正确答案:C第5题,PairRDD可以通过（）获得仅包含键的RDDA、keyB、keysC、valueD、values正确答案:B第6题,GraphX中（）是完整提供边的各种操作类A、RDD[Edge]B、EdgeRDDC、RDD[(VertexId,VD)]D、VertexRDD正确答案:B第7题,一般情况下，对于迭代次数较多的应用程序，Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的（）多倍A、2B、10C、100D、1000正确答案:C第8题,MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法（）训练分类树A、trainClassifierB、trainRegressorC、LogisticRegressionModelD、LabeledPoint正确答案:A第9题,Scala中（）方法返回Map所有的valueA、keyB、keysC、valueD、values正确答案:D第10题,Spark Streming中DStream的每个RDD都是由（）分割开来的数据集A、分区B、一小段时间C、数据量D、随机正确答案:B第11题,Dstream窗口操作中（）方法基于滑动窗口对（K，V）键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得到一个新的DstreamA、windowB、countByWindowC、reduceByWindowD、reduceByKeyAndWindow正确答案:D第12题,Scala列表方法中输出符号指定条件的所有元素的方法是（）A、dropB、headC、filterD、init正确答案:C第13题,以下哪个不是Scala的数据类型（）A、IntB、Short IntC、LongD、Any正确答案:B第14题,当需要将一个普通的RDD转化为一个PairRDD时可以使用（）函数来进行操作A、transferB、changeC、mapD、build正确答案:C第15题,Dstream窗口操作中（）方法返回一个基于源DStream的窗口批次计算后得到新的DStream。

A、windowB、countByWindowC、reduceByWindowD、reduceByKeyAndWindow正确答案:A第16题,Dstream窗口操作中（）方法基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的DstreamA、windowB、countByWindowC、reduceByWindowD、reduceByKeyAndWindow正确答案:C第17题,Dstream输出操作中（）方法在Driver中打印出DStream中数据的前12个元素。

A、printB、saveAsTextFilesC、saveAsObjectFilesD、saveAsHadoopFiles正确答案:C第18题,如果numPartitions是分区个数，那么Spark每个RDD的分区ID范围是（）A、[0,numPartitions]B、[0,numPartitions-1]C、[1,numPartitions-1]D、[1,numPartitions]正确答案:B第19题,GraphX中graph.edges可以得到（）A、顶点视图B、边视图C、顶点与边的三元组整体视图D、有向图正确答案:B第20题,GraphX中（）是存放着存放顶点的RDDA、RDD[Edge]B、EdgeRDDC、RDD[(VertexId,VD)]D、VertexRDD正确答案:C第21题,Scala中（）方法返回一个列表，包含除了第一个元素之外的其他元素A、headB、initC、tailD、last正确答案:C第22题,请问RDD的（）操作把RDD 所有元素转换成数组并返回到Driver 端A、joinB、zipC、combineByKeyD、collect正确答案:D第23题,Spark GraphX中类Graph的mapReduceTriplets方法可以（）A、收集邻居顶点的顶点Id和顶点属性B、收集邻居顶点的顶点IdC、向指定顶点发送信息并聚合信息D、将顶点信息更新到图中正确答案:C第24题,Scala列表方法中通过给定的方法将所有元素重新计算的方法是（）A、filterB、foreachC、mapD、mkString正确答案:C第25题,Scala列表方法中返回所有元素，除了最后一个的方法是（）A、dropB、headC、filterD、init正确答案:D第26题,Scala中可以用（）方法来连接两个或多个列表A、::B、#:::C、List.:::()D、List.concat()正确答案:B,C,D第27题,Spark DataFrame中（）方法可以返回一个Array对象A、collectB、takeC、takeAsListD、collectAsList正确答案:A,B第28题,Scala系统支持（）作为对象成员A、通用类B、内部类C、抽象类D、复合类正确答案:A,B,C,D第29题,Mllib实现了一些常见的机器学习算法和应用程序，包括（）A、分类B、聚类C、降维D、回归正确答案:A,B,C,D第30题,Spark Streaming能够和（）无缝集成A、HadoopB、Spark SQLC、MllibD、GraphX正确答案:B,C,D第31题,以下算法中属于分类算法的是（）A、KNN算法B、逻辑回归C、随机森林D、Kmeans正确答案:A,B,C第32题,Spark Core包含的功能有（）A、任务调度B、内存管理C、SQL查询D、容错机制正确答案:A,B,D第33题,Scala中构造列表的两个基本单位是（）A、NilB、NillC、::D、List正确答案:A,C第34题,Spark DataFrame中（）方法可以返回一个ListA、collectB、takeC、takeAsListD、collectAsList正确答案:C,D第35题,MLlib中用于线性回归算法的包主要有（）A、LinearRegressionWithSGDB、RidgeRegressionWithSGDC、LassoWithSGDD、LeftRegression正确答案:A,B,C第36题,RDD的map操作不会改变RDD的分区数目T、对F、错正确答案:T第37题,MLlib中StandardScaler处理的对象是每一列，也就是每一维特征，将特征标准化为单位标准差或是0均值，或是0均值单位标准差。

T、对F、错正确答案:T第38题,Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数T、对F、错正确答案:F第39题,Spark SQL仅仅包括基本的SQL语法T、对F、错正确答案:F第40题,聚类是一种无监督学习的方法，用于将高度相似的数据分到一类中T、对F、错正确答案:T第41题,MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。

T、对F、错正确答案:T第42题,Spark GraphX课通过mapVertices[VD2: ClassTag](map: (VertexId, VD) = VD2)实现对顶点属性经过变换生成新的图T、对F、错正确答案:T第43题,Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作T、对F、错正确答案:T第44题,Scala中默认情况下使用的是可变的MapT、对F、错正确答案:F第45题,mllib.feature中存在一些常见的特征转化方法，主要包括创建特征向量和标准化数据T、对F、错正确答案:T第46题,Scala中允许集成多个父类T、对F、错正确答案:F第47题,RDD中combineByKey不允许返回类型与输入数据类型不同的返回值T、对F、错正确答案:F第48题,Spark SQL可被视为一个分布式的SQL查询引擎，并且提供了一个叫做DataFrame 的可编程抽象数据模型T、对F、错正确答案:T第49题,Spark GraphX课通过mapTriplets[ED2: ClassTag](map: EdgeTriplet[VD, ED] = ED2)实现对边属性经过变换生成新的图T、对F、错正确答案:T第50题,Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括函数式编程的特性。

T、对F、错正确答案:F。