Hadoop 100道面试题及答案解析

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

3.6

误）

3.7Hadoop支持数据的随机读写。（错） (8)

NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中3.8

读取或则会写入metadata信息并反馈client端。（错误） (8)

NameNode本地磁盘保存了Block的位置信息。（个人认为正确，欢迎提出其它意见） (9)

3.9

3.10 3.11DataNode通过长连接与NameNode保持通信。（有分歧） (9)

Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。（错误）9

3.12 3.13 3.14Slave节点要存储数据，所以它的磁盘越大越好。（错误） (9)

hadoop dfsadmin–report命令用于检测HDFS损坏块。（错误） (9)

Hadoop默认调度器策略为FIFO（正确） (9)

100道常见Hadoop面试题及答案解析

1单选题 (5)

1.1 1.2 1.3 1.4 1.5 1.6 1.7下面哪个程序负责HDFS数据存储。 (5)

HDfS中的block默认保存几份？ (5)

下列哪个程序通常与NameNode在一个节点启动？ (5)

Hadoop作者 (6)

HDFS默认Block Size (6)

下列哪项通常是集群的最主要瓶颈： (6)

关于SecondaryNameNode哪项是正确的？ (6)

2 3多选题 (7)

2.1

2.2

2.3

2.4

2.5

下列哪项可以作为集群的管理？ (7)

配置机架感知的下面哪项正确： (7)

Client端上传文件的时候下列哪项正确？ (7)

下列哪个是Hadoop运行的模式： (7)

Cloudera提供哪几种安装CDH的方法？ (7)

判断题 (8)

3.1

3.2

3.3

Ganglia不仅可以进行监控，也可以进行告警。（正确） (8)

Block Size是不可以修改的。（错误） (8)

Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。（错误）

8

3.4如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。（错误） (8)

3.5Cloudera CDH是需要付费使用的。（错误） (8)

Hadoop是Java开发的，所以MapReduce只支持Java语言编写。（错

8

3.15

集群内每个节点都应该配RAID ，这样避免单磁盘损坏，影响整个节点运行。（错误）.................................................................................................................93.16

因为HDFS 有多个副本，所以NameNode 是不存在单点问题的。（错误）93.17

3.18

3.19

误）

3.20

每个map 槽就是一个线程。（错误）.......................................................9Mapreduce 的input split 就是一个block 。（错误）..............................10NameNode 的Web UI 端口是50030，它通过jetty 启动的Web 服务。（错10Hadoop 环境变量中的HADOOP_HEAPSIZE 用于设置所有Hadoop 守护线程的内存。它默认是200GB 。（错误）.............................................................10DataNode 首次加入cluster 的时候，如果log 中报告不兼容文件版本，那3.21

需要NameNode 执行“Hadoop namenode -format”操作格式化磁盘。（错误）......10问答题（一）. (10)

4 4.1

Hadoop 集群可以运行的3个模式？........................................................10单机（本地）模式中的注意点？................................................................10伪分布模式中的注意点？..........................................................................10VM 是否可以称为Pseudo ？....................................................................10全分布模式又有什么注意点？...................................................................10Hadoop 是否遵循UNIX 模式？...............................................................11Hadoop 安装在什么目录下？...................................................................11Namenode 、Jobtracker 和tasktracker 的端口号是？............................11Hadoop 的核心配置是什么？...................................................................11那当下又该如何配置？..............................................................................11RAM 的溢出因子是？...............................................................................11fs.mapr.working.dir 只是单一的目录？....................................................11hdfs-site.xml 的3个主要属性？..............................................................11如何退出输入模式？.................................................................................11当你输入hadoopfsck/造成“connectionrefusedjavaexception’”时，系4.2

4.3

4.4

4.5

4.6

4.7

4.8

4.9

4.10

4.11

4.12

4.13

4.14

4.15

统究竟发生了什么？...............................................................................................11我们使用Ubuntu 及Cloudera ，那么我们该去哪里下载Hadoop ，或者是默认就与Ubuntu 一起安装？ (11)

4.16

4.17

4.18

4.19

4.20

4.21

4.22

4.23

4.24“jps”命令的用处？................................................................................11如何重启Namenode ？............................................................................11Fsck 的全名？...........................................................................................12如何检查Namenode 是否正常运行？......................................................12mapred.job.tracker 命令的作用？...........................................................12/etc/init.d 命令的作用是？.......................................................................12如何在浏览器中查找Namenode ？..........................................................12如何从SU 转到Cloudera ？ (12)