面试必过——50个最受欢迎的Hadoop面试问题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

50个最受欢迎的Hadoop面试问题
您是否打算在大数据和数据分析领域找到工作?您是否担心破解Hadoop面试?
我们整理了一份方便的Hadoop面试问题清单。

您可能具有关于软件框架的丰富知识,但是在短短的15分钟面试环节中无法测试所有这些知识。

因此,面试官会问您一些特定的大数据面试问题,他们认为这些问题易于判断您对主题的了解。

立即注册:Hadoop基础在线培训课程
Hadoop面试的前50名问答
当前,与大数据相关的工作正在增加。

五分之一的大公司正在迁移到大数据分析,因此现在是时候开始申请该领域的工作了。

因此,我们不需再拖延地介绍Hadoop面试的前50名问答,这将帮助您完成面试。

Hadoop基本面试问题
这些是您在大数据采访中必将面对的最常见和最受欢迎的大数据Hadoop采访问题。

通过准备这些Hadoop面试问题,无疑会给您带来竞争优势。

首先,我们将重点关注人们在申请Hadoop相关工作时遇到的常见和基本的Hadoop 面试问题,无论其职位如何。

1. Hadoop框架中使用了哪些概念?
答:Hadoop框架在两个核心概念上起作用:
•HDFS:Hadoop分布式文件系统的缩写,它是一个基于Java的文件系统,用于可扩展和可靠地存储大型数据集。

HDFS本身在主从架构上工作,并以块
形式存储其所有数据。

•MapReduce:这是用于处理和生成大型数据集的编程模型以及相关的实现。

Hadoop作业基本上分为两个不同的任务作业。

映射作业将数据集分解为键
值对或元组。

然后,reduce作业获取map作业的输出,并将数据元组合并
为较小的元组集。

2.什么是Hadoop?命名Hadoop应用程序的主要组件。

答:Hadoop是“大数据”问题的解决方案。

Hadoop被描述为提供许多用于存储和处理大数据的工具和服务的框架。

当难以使用传统方法进行决策时,它在大数据分析和制定有效的业务决策中也起着重要作用。

Hadoop提供了广泛的工具集,可以非常轻松地存储和处理数据。

以下是Hadoop的所有主要组件:
•Hadoop常见
•HDFS
•Hadoop MapReduce
•纱
•PIG和HIVE –数据访问组件。

•HBase –用于数据存储
•Apache Flume,Sqoop,Chukwa –数据集成组件
•Ambari,Oozie和ZooKeeper –数据管理和监视组件
•Thrift和Avro –数据序列化组件
•Apache Mahout和Drill –数据智能组件
3. Hadoop中有几种输入格式?说明。

答:Hadoop中有以下三种输入格式–
1.文本输入格式:文本输入是Hadoop中的默认输入格式。

2.序列文件输入格式:此输入格式用于按顺序读取文件。

3.键值输入格式:此输入格式用于纯文本文件。

4.您对YARN有什么了解?
答:YARN代表“另一个资源协商者”,它是Hadoop处理框架。

YARN负责管理资源并为流程建立执行环境。

5.为什么在Hadoop集群中频繁删除和添加节点?
答:Hadoop框架的以下功能使Hadoop管理员可以在Hadoop集群中添加(委托)和删除(停用)数据节点–
1.Hadoop框架利用商用硬件,这是Hadoop框架的重要功能之一。

这会导致
Hadoop集群中的DataNode频繁崩溃。

2.可扩展性是Hadoop框架的另一个重要功能,该功能根据数据量的快速增长
而执行。

6.您对“机架意识”了解什么?
答:在Hadoop中,机架感知定义为NameNode通过其确定块及其副本存储在Hadoop集群中的方式的算法。

这是通过机架定义来完成的,该定义将同一机架内的数据节点之间的通信量减到最少。

让我们举个例子–我们知道复制因子的默认值为3。

根据“复制品放置策略”,每个数据块的复制品的两个副本将存储在一个机架中,而第三份副本则存储在不同的机架中架。

7.您对投机执行了解多少?
答:在Hadoop中,推测执行是在节点上较慢执行任务期间发生的过程。

在此过程中,主节点开始在另一个节点上执行同一任务的另一个实例。

然后接受最先完成的任务,并通过杀死该任务停止其他任务的执行。

8.说明Hadoop的一些重要功能。

答:Hadoop的重要功能是–
•Hadoop框架是在基于Google大数据文件系统的Google MapReduce上设计的。

•Hadoop框架可以有效地解决许多问题,以进行大数据分析。

9.您知道一些使用Hadoop的公司吗?
答:是的,我知道一些使用Hadoop的流行名称。

Yahoo –使用Hadoop
Facebook –开发Hive进行分析
亚马逊,Adobe,Spotify,Netflix,eBay和Twitter是其他一些使用Hadoop的知名公司。

10.如何区分RDBMS和Hadoop?
答:区分RDBMS和Hadoop的关键点是–
1.RDBMS用于存储结构化数据,而Hadoop可以存储任何类型的数据,即非
结构化,结构化或半结构化。

2.RDBMS遵循“写入时架构”策略,而Hadoop基于“读取时架构”策略。

3.数据模式在RDBMS中是众所周知的,它可以使读取速度更快,而在HDFS
中,写操作在HDFS写入过程中不会发生模式验证,因此写入速度很快。

4.RDBMS是许可软件,因此需要付费。

而Hadoop是开源软件,因此无需花
费任何费用。

5.RDBMS用于在线事务处理(OLTP)系统,而Hadoop也用于数据分析,
数据发现和OLAP系统。

Hadoop体系结构面试问题
接下来,我们有一些基于Hadoop架构的Hadoop面试问题。

了解和理解Hadoop架构有助于Hadoop专业人员正确回答所有Hadoop面试问题。

11. Hadoop 1和Hadoop 2有什么区别?
答:以下两点说明了Hadoop 1和Hadoop 2之间的区别:
在Hadoop 1.X中,只有一个NameNode,因此是单点故障,而在Hadoop 2.x中,则有主动和被动NameNode。

万一主动名称节点发生故障,被动名称节点将替换主动名称节点并承担费用。

结果,Hadoop 2.x中具有高可用性。

在Hadoop 2.x中,YARN提供了一个中央资源管理器,该资源管理器共享一个公共资源以在Hadoop中运行多个应用程序,而数据处理在Hadoop 1.x中是一个问题。

12.您对主动和被动NameNode有什么了解?
答:在高可用性Hadoop架构中,存在两个NameNode。

Active NameNode –在Hadoop群集中运行的NameNode是Active NameNode。

被动NameNode –与“活动NameNode”存储相同数据的备用NameNode是“被动NameNode”。

在主动NameNode发生故障时,被动NameNode将替换它并负责。

这样,群集中始终有一个正在运行的NameNode,因此它永远不会失败。

13. Apache HBase的组成部分是什么?
答:Apache HBase包含以下主要组件:
•区域服务器:一个表可以分为几个区域。

这些区域中的一组由区域服务器提供给客户端。

•HMaster:协调和管理区域服务器。

•ZooKeeper:它充当HBase分布式环境中的协调器。

它通过会话中的通信维护集群内部服务器状态。

14. NameNode如何处理DataNode故障?
答:NameNode不断从Hadoop群集中存在的所有DataNode接收信号,该信号指定DataNode的正常功能。

DataNode上存在的所有块的列表存储在块报告中。

如果DataNode无法将信号发送到NameNode,则在特定时间段后将其标记为无效。

然后,NameNode使用先前创建的副本将死节点的块复制/复制到另一个DataNode。

15.解释NameNode恢复过程。

答:NameNode恢复过程有助于保持Hadoop集群运行,可以通过以下步骤进行解释-
步骤1:要启动新的NameNode,请使用文件系统元数据副本(FsImage)。

步骤2:配置客户端和DataNode确认新的NameNode。

步骤3:一旦新名称完成了最后一个检查点FsImage的加载并从DataNodes接收到块报告,新的NameNode将开始为客户端提供服务。

16. Hadoop中可用的调度程序有哪些?
答:Hadoop中不同的可用调度程序是–
COSHH –通过考虑群集,工作负载和使用异构性来调度决策。

FIFO调度程序–它根据作业在队列中的到达时间对作业进行排序,而无需使用异构性。

公平共享–它为每个用户定义一个池,该池包含许多映射并减少资源上的插槽。

允许每个用户使用自己的池来执行作业。

17. DataNode和NameNode可以是商品硬件吗?
答:DataNode仅是商品硬件,因为它可以存储笔记本电脑和个人计算机之类的数据,而这些是大量必需的。

相反,NameNode是主节点。

它存储有关HDFS中存储的所有块的元数据。

它需要高存储空间,因此可以用作具有大存储空间的高端计算机。

18.什么是Hadoop守护程序?解释他们的角色。

答:Hadoop守护程序是NameNode,Secondary NameNode,DataNode,NodeManager,ResourceManager,JobHistoryServer。

不同的Hadoop守护程序的作用是–
NameNode –负责所有目录和文件的元数据存储的主节点称为NameNode。

它还包含有关文件的每个块及其在Hadoop群集中的分配的元数据信息。

辅助NameNode –该守护程序负责将修改后的Filesystem Image合并并存储到永久存储中。

它用于NameNode发生故障的情况。

DataNode –包含实际数据的从节点是DataNode。

NodeManager –在从属计算机上运行,NodeManager处理应用程序容器的启动,监视资源使用情况并将其报告给ResourceManager。

ResourceManager –它是负责管理资源和计划在YARN顶部运行的应用程序的主要权限。

JobHistoryServer –当Application Master停止工作(终止)时,负责维护有关MapReduce作业的所有信息。

19.定义“检查点”。

有什么好处?
答:检查点是将FsImage和Edit日志压缩到新的FsImage中的过程。

这样,NameNode 直接从FsImage处理最终的内存状态的加载,而不是重放编辑日志。

次要NameNode 负责执行检查点过程。

检查点的好处
检查点是一个高效的过程,可以减少NameNode的启动时间。

Hadoop管理员面试问题
Hadoop管理员负责处理Hadoop集群运行顺利的问题。

要破解Hadoop Administrator面试,您需要阅读与Hadoop环境,集群等相关的Hadoop面试问题。

Hadoop Administrator的常见Hadoop面试问题如下:
20.在生产环境中部署Hadoop时,重要的硬件注意事项是什么?答:内存系统的内存要求:根据应用程序,工作服务和管理服务之间会有所不同。

操作系统:最好使用64位OS,因为它避免了对可在工作节点上使用的内存量的任何此类限制。

存储:Hadoop平台的设计应通过将计算活动转移到数据上,从而实现可扩展性和高性能。

容量:大型磁盘将降低成本,并提供更多存储空间。

网络:每个机架两个TOR交换机是避免冗余的理想选择。

21.部署辅助NameNode时应考虑什么?
答:辅助NameNode应始终部署在单独的Standalone系统上。

这样可以防止它干扰主节点的操作。

22.命名可以运行Hadoop代码的模式。

答:有多种模式可以运行Hadoop代码–
1.全分布式模式
2.伪分布式模式
3.独立模式
23.命名Hadoop部署支持的操作系统。

答:Linux是用于Hadoop的主要操作系统。

但是,也可以借助一些其他软件将其部署在Windows操作系统上。

24.为什么将HDFS用于具有大数据集的应用程序,而不用于多个小文件?
答:与存储在多个文件中的少量数据相比,HDFS对于在单个文件中维护的大量数据集更有效。

当NameNode在RAM中为文件系统执行元数据存储时,内存量限制了HDFS 文件系统中的文件数。

简而言之,更多的文件将生成更多的元数据,从而需要更多的内存(RAM)。

建议块,文件或目录的元数据应占用150个字节。

25. hdfs-site.xml的重要属性是什么?
答:hdfs-site.xml具有三个重要属性:
•data.dr –标识数据存储的位置。

•name.dr –标识元数据存储的位置,并指定DFS是位于磁盘上还是位于远程位置上。

•checkpoint.dir –用于辅助NameNode。

26.增强大数据性能的基本Hadoop工具是什么?
答:增强大数据性能的一些重要Hadoop工具包括:
Hive,HDFS,HBase,Avro,SQL,NoSQL,Oozie,Clouds,Flume,SolrSee / Lucene 和ZooKeeper
27.您对SequenceFile了解多少?
答:SequenceFile被定义为包含二进制键或值对的平面文件。

它主要用于MapReduce 的输入/输出格式。

映射输出在内部存储为SequenceFile。

SequenceFile的不同格式是–。

相关文档
最新文档