(完整版)hadoop常见笔试题答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Hadoop测试题

一.填空题,1分(41空),2分(42空)共125分

1.(每空1分) datanode 负责HDFS数据存储。

2.(每空1分)HDFS中的block默认保存 3 份。

3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。

4.(每空1分)hadoop运行的模式有:单机模式、伪分布模式、完全分布式。

5.(每空1分)Hadoop集群搭建中常用的4个配置文件为:core-site.xml 、hdfs-site.xml

、mapred-site.xml 、yarn-site.xml 。

6.(每空2分)HDFS将要存储的大文件进行分割,分割后存放在既定的存储块

中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求。

7.(每空2分)一个HDFS集群包括两大部分,即namenode 与datanode 。一般来说,一

个集群中会有一个namenode 和多个datanode 共同工作。

8.(每空2分) namenode 是集群的主服务器,主要是用于对HDFS中所有的文件及内容

数据进行维护,并不断读取记录集群中datanode 主机情况与工作状态,并通过读取与写入镜像日志文件的方式进行存储。

9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色,是集群的工作节点。文

件被分成若干个相同大小的数据块,分别存储在若干个datanode 上,datanode 会定期向集群内namenode 发送自己的运行状态与存储内容,并根据namnode 发送的指令进行工作。

10.(每空2分) namenode 负责接受客户端发送过来的信息,然后将文件存储位置信息发

送给client ,由client 直接与datanode 进行联系,从而进行部分文件的运算与操作。

11.(每空1分) block 是HDFS的基本存储单元,默认大小是128M 。

12.(每空1分)HDFS还可以对已经存储的Block进行多副本备份,将每个Block至少复制到

3 个相互独立的硬件上,这样可以快速恢复损坏的数据。

13.(每空2分)当客户端的读取操作发生错误的时候,客户端会向namenode 报告错误,并

请求namenode 排除错误的datanode 后,重新根据距离排序,从而获得一个新的的读取路径。如果所有的datanode 都报告读取失败,那么整个任务就读取失败。14.(每空2分)对于写出操作过程中出现的问题,FSDataOutputStream 并不会立即关闭。

客户端向Namenode报告错误信息,并直接向提供备份的datanode 中写入数据。备份datanode 被升级为首选datanode ,并在其余2个datanode 中备份复制数据。

NameNode对错误的DataNode进行标记以便后续对其进行处理。

15.(每空1分)格式化HDFS系统的命令为:hdfs namenode –format 。

16.(每空1分)启动hdfs的shell脚本为:start-dfs.sh 。

17.(每空1分)启动yarn的shell脚本为:start-yarn.sh 。

18.(每空1分)停止hdfs的shell脚本为:stop-dfs.sh 。

19.(每空1分)hadoop创建多级目录(如:/a/b/c)的命令为:hadoop fs –mkdir –p /a/b/c 。

20.(每空1分)hadoop显示根目录命令为:hadoop fs –lsr 。

21.(每空1分)hadoop包含的四大模块分别是:Hadoop common 、HDFS 、

Mapreduce 、yarn 。

22.(每空1分)namenode默认的WebUI访问端口号为:50070 。

23.(每空1分)ResourceManager默认的WebUI访问端口号为:8088 。

24.(每空1分)historyServer默认的WebUI访问端口号为:19888 。

25.(每空1分)修改blocksize大小的属性是:dfs.blocksize ,在hdfs-site.xml 配置文件里。

26.(每空1分)HDFS中namenode的RPC端口号为:8021 ,其作用是:接收Client连

接的RPC端口,用于获取文件系统metadata信息。

27.(每空2分)Mapper类中有 4 个函数。

28.(每空1分)默认NameNode周期性从DataNode接收心跳信号的时间间隔为:3s 。

29.(每空1分)hadoop集群默认机架感知是启用的。是否正确:错误。

30.(每空2分)Hadoop Map/Reduce Shuffle过程:inputsplit-->map函数—>内存缓冲区→

Partition→sort→combine→spill--> map端merge -->reduce端copy—>merge→reduce函数。

31.(每空2分)一个NodeManager能够同时运行最大reduce任务数(默认): 2 。

32.(每空2分)默认情况下,一个同时运行了namenode,secondarynamenode和

ResourceManager的主节点,所使用的内存容量为3000 M。

33.(每空2分)Hadoop集群中有三种作业调度算法,分别为FIFO调度,计算能力调

度和公平调度。

34.(每空1分)HA产生的背景是:为了解决单NN可能出现宕机导致集群不可用或数据

丢失的问题。

35.(每空1分)通过Zookeeper 管理两个或者多个NameNode,使一个NameNode为

active 状态,并且同步每个NN的元数据,如果active 状态的NN宕机后马上启用状态为standby 状态的备用节点。

36.(每空1分) job 是客户端需要执行的一个工作单元。

37.(每空1分)Hadoop将作业分成若干个task 来执行,其中包括:maptask 和

reducetask 。

38.(每空2分)combiner是通过Reducer 类来定义的。

39.(每空2分)map任务将其输出写入到本地磁盘。

40.(每空2分)reduce的输出通常存储在HDFS 中以实现可靠存储。

41.(每空2分)HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和。

42.(每空2分)序列化用于分布式数据处理的两大领域为:进程间通信和永久存储。

43.(每空2分)hadoop使用自己的序列化格式为:Writable 。

二.简答题,3分(17题),5分(5题)共75分

1.(3分)简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出

具体步骤,列出具体步骤更好。

答:

1使用root账户登录

2 修改IP

3 修改host主机名

4 配置SSH免密码登录

5 关闭防火墙

6 安装JDK

相关文档
最新文档