南开《大数据开发技术(一)》20春期末考核答案

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《大数据开发技术（一）》20春期末考核-00001
试卷总分:100 得分:70
一、单选题(共15 道试题,共30 分)
1.使用Amazon云环境部署Hadoop的说法中错误的是()。

A.Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中
B.Hadoop自带有一套脚本，用于在EC2上面运行Hadoop
C.在EC2上运行Hadoop尤其适用于一些工作流
D.Amazon EC2为Hadoop提供了存储服务
答案:D
2.Xtimeline是哪种可视化工具()
A.信息图表
B.地图工具
C.时间线工具
D.分析工具
答案:C
3.Amazon Redshift属于()
A.关系数据库
B.键值数据库
C.NoSQL数据库
D.数据仓库
答案:D
4.SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流
A.Client Layer
B.Services Layer
C.Platform Layer
D.Infrastructure Layer
答案:A
5.UMP系通过()来实现实现在不停机的情况下动态扩容、缩容和迁移
A.Controller服务器
B.Procy服务器
C.愚公系统
D.Agent服务器
答案:C
6.Hbase采用()作为底层数据存储
A.HDFS
B.GFS
C.Hbase
D.传统文件系统
答案:A
7.关于MapReduce工作流程,说法错误的是()。

A.不同的Map任务之间不会进行通信
B.不同的Reduce任务之间不会发生任何信息交换
C.用户可以显式地从一台机器向另一台机器发送消息
D.所有的数据交换都是通过MapReduce框架自身去实现的
答案:C
8.针对流数据,“量子恒道”开发了海量数据实时流计算框架()。

A.Time Tunnel
B.Spark
C.Super Mario
D.Storm
答案:C
9.关于Hadoop集群,以下说法错误的是()。

A.SecondaryNameNode可以和NameNode共用一台机器
B.JobTracker指派的任务由TaskTracker执行
C.SecondaryNameNode可以和DataNode共用一台机器
Node可以和JobTracker共用一台机器
答案:C
10.关于Strom中Bolt说法错误的是()。

A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作
B.Bolt是一个被动的角色，Spout是一个主动的角色
C.Bolt不仅可以处理Tuple还可以创建新的Tuple
D.Bolt是Streams的状态转换过程的抽象含义
答案:C
11.HDFS读数据过程中()具体实现了FileSystem
A.DistributedFileSystem
B.GFSSystem
C.FileSystem
D.HDFSSystem
答案:A
12.UMP系通过()来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能
A.Controller服务器
B.Procy服务器
C.愚公系统
D.Agent服务器
答案:A
13.名称节点和数据节点之间则使用()协议进行交互
A.名称节点
B.第二名称节点
C.数据节点
D.TCP
答案:C
14.HBase的目标是处理非常庞大的表,可以通过()方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表
A.垂直扩展
B.水平扩展
C.拓扑扩展
D.叠加
答案:B
15.以下哪种属于列族数据库()
A.MongoDB
B.Redis
C.Hbase
D.Neo4j
答案:C
二、多选题(共10 道试题,共20 分)
16.Pregel中顶点之间的通讯的每条消息都包含了()
A.消息值
B.需要到达的目标顶点ID
C.起始点ID
D.时间
答案:AB
17.Hbase中Zookeeper提供了()
A.分布式同步
B.组服务
C.域名服务
D.配置维护
答案:ABCD
18.HDFS中NameNode保存的核心数据结构是()
A.FsImage
B.DataNode
C.Block
D.EditLog
答案:AD
19.以下哪些不是UMP系统中的角色()
A.Controller服务器
B.Procy服务器
C.Master服务器
D.Agent服务器
答案:C
20.以下哪些是数据可视化信息图表工具()
A.大数据魔镜
B.D3
C.Google Chart API
D.Google Fusion Tables
答案:ABC
21.以下图计算软件哪种属于以图顶点为中心的、基于消息传递批处理的并行引擎
A.Giraph
B.Pregel
C.Hama
D.DEX
答案:ABC
22.以下哪些可以提供计算服务()。

A.Spark
B.Tez
C.Mahout
D.MapReduce
E.YARN
答案:ABCDE
23.以下哪些属于典型的大数据应用()。

A.谷歌搜索
B.谷歌流感趋势
C.谷歌统计
D.《纸牌屋》制作
E.《黑镜子》制作
答案:BD
24.以下哪种数据库属于NoSQL数据库()
A.MongoDB
B.Oracle
C.Neo4j
D.Redis
E.Hbase
答案:ACD
25.以下哪个是HDFS的局限性()。

A.延迟高
B.只允许对文件执行追加操作，不能执行随机写操作
C.用MapReduce处理大量小文件时，会产生过多的Map任务，线程管理开销会大大增加
D.拥有复杂的数据模型
答案:ABC
三、判断题(共10 道试题,共20 分)
26.图算法如果用MapReduce实现,需要一系列的MapReduce的调用。

从一个阶段到下一个阶段,它需要传递整个图的状态,会产生大量不必要的序列化和反序列化开销。

而Pregel使用超步简化了这个过程
答案:正确
27.在HBase中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在
答案:错误
28.Facebook主要将Hadoop平台用于日志处理、推荐系统等方面
答案:正确
29.HDFS读数据过程中读取请求获得的输入流是FSInputStream
答案:错误
30.关系数据库的关键特性包括完善的事务机制和高效的查询机制
答案:正确
31.分布式文件系统中文件块会被复制为多个副本,存储在不同的节点上,而且,存储同一文件块的不同副本的各个节点,会分布在不同的机架上。

答案:正确
32.Hadoop是典型的批处理模型
答案:正确
33.Hadoop可以在单节点上以伪分布式的方式运行,Hadoop进程以分离的Java进程来运行,节点既作为NameNode也作为DataNode,同时,读取的是HDFS中的文件。

答案:正确
34.CAP理论告诉我们,一个分布式系统可以同时满足一致性、可用性和分区容忍性这三个需求
答案:错误
35.HDFS在块的大小的设计上明显要小于普通文件系统,可以最小化寻址开销
答案:错误
四、主观填空题(共5 道试题,共10 分)
36.所有的HDFS通信协议都是构建在##协议基础之上的
答案:TCP/IP 
37.MapReduce的main函数中添加MyMapper类的方法为job.##(MyMapper.class);
答案:setMapperClass 
38.HDFS中SecondaryNameNode通过HTTP的##请求方式从NameNode上获取到FsImage和EditLog文件，并下载到本地的相应目录下；
答案:Get 
39.SQL中的table对应与MongoDB中的##
答案:collection/集合 
40.Storm运行任务的方式与Hadoop类似：Hadoop运行的是MapReduce作业，而Storm运行的是##
答案:Topology 
五、问答题(共1 道试题,共10 分)
41.Hbase中Master的主要工作
答案:1）管理用户对表的增加、删除、修改、查询等操作 2）实现不同Region服务器之间的负载均衡 3）在Region分裂或合并后，负责重新调整Region的分布 4）对发生故障失效的Region服务器上的Region进行迁移 
六、名词解释(共2 道试题,共10 分)
42.Hadoop项目中的Pig
答案:Pig是一种数据流语言和运行环境，适合于使用Hadoop和MapReduce平台来查询大型结构化数据集。

43.数据库事务的原子性
答案:A（Atomicity）：原子性，是指事务必须是原子工作单元，对于其数据修改，要么全都执行，要么全都不执行 。