面试必过——50个最受欢迎的Hadoop面试问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
50个最受欢迎的Hadoop面试问题
您是否打算在大数据和数据分析领域找到工作?您是否担心破解Hadoop面试?
我们整理了一份方便的Hadoop面试问题清单。
您可能具有关于软件框架的丰富知识,但是在短短的15分钟面试环节中无法测试所有这些知识。
因此,面试官会问您一些特定的大数据面试问题,他们认为这些问题易于判断您对主题的了解。
立即注册:Hadoop基础在线培训课程
Hadoop面试的前50名问答
当前,与大数据相关的工作正在增加。
五分之一的大公司正在迁移到大数据分析,因此现在是时候开始申请该领域的工作了。
因此,我们不需再拖延地介绍Hadoop面试的前50名问答,这将帮助您完成面试。
Hadoop基本面试问题
这些是您在大数据采访中必将面对的最常见和最受欢迎的大数据Hadoop采访问题。
通过准备这些Hadoop面试问题,无疑会给您带来竞争优势。
首先,我们将重点关注人们在申请Hadoop相关工作时遇到的常见和基本的Hadoop 面试问题,无论其职位如何。
1. Hadoop框架中使用了哪些概念?
答:Hadoop框架在两个核心概念上起作用:
•HDFS:Hadoop分布式文件系统的缩写,它是一个基于Java的文件系统,用于可扩展和可靠地存储大型数据集。
HDFS本身在主从架构上工作,并以块
形式存储其所有数据。
•MapReduce:这是用于处理和生成大型数据集的编程模型以及相关的实现。
Hadoop作业基本上分为两个不同的任务作业。
映射作业将数据集分解为键
值对或元组。
然后,reduce作业获取map作业的输出,并将数据元组合并
为较小的元组集。
2.什么是Hadoop?命名Hadoop应用程序的主要组件。
答:Hadoop是“大数据”问题的解决方案。
Hadoop被描述为提供许多用于存储和处理大数据的工具和服务的框架。
当难以使用传统方法进行决策时,它在大数据分析和制定有效的业务决策中也起着重要作用。
Hadoop提供了广泛的工具集,可以非常轻松地存储和处理数据。
以下是Hadoop的所有主要组件:
•Hadoop常见
•HDFS
•Hadoop MapReduce
•纱
•PIG和HIVE –数据访问组件。
•HBase –用于数据存储
•Apache Flume,Sqoop,Chukwa –数据集成组件
•Ambari,Oozie和ZooKeeper –数据管理和监视组件
•Thrift和Avro –数据序列化组件
•Apache Mahout和Drill –数据智能组件
3. Hadoop中有几种输入格式?说明。
答:Hadoop中有以下三种输入格式–
1.文本输入格式:文本输入是Hadoop中的默认输入格式。
2.序列文件输入格式:此输入格式用于按顺序读取文件。
3.键值输入格式:此输入格式用于纯文本文件。
4.您对YARN有什么了解?
答:YARN代表“另一个资源协商者”,它是Hadoop处理框架。
YARN负责管理资源并为流程建立执行环境。
5.为什么在Hadoop集群中频繁删除和添加节点?
答:Hadoop框架的以下功能使Hadoop管理员可以在Hadoop集群中添加(委托)和删除(停用)数据节点–
1.Hadoop框架利用商用硬件,这是Hadoop框架的重要功能之一。
这会导致
Hadoop集群中的DataNode频繁崩溃。
2.可扩展性是Hadoop框架的另一个重要功能,该功能根据数据量的快速增长
而执行。
6.您对“机架意识”了解什么?
答:在Hadoop中,机架感知定义为NameNode通过其确定块及其副本存储在Hadoop集群中的方式的算法。
这是通过机架定义来完成的,该定义将同一机架内的数据节点之间的通信量减到最少。
让我们举个例子–我们知道复制因子的默认值为3。
根据“复制品放置策略”,每个数据块的复制品的两个副本将存储在一个机架中,而第三份副本则存储在不同的机架中架。
7.您对投机执行了解多少?
答:在Hadoop中,推测执行是在节点上较慢执行任务期间发生的过程。
在此过程中,主节点开始在另一个节点上执行同一任务的另一个实例。
然后接受最先完成的任务,并通过杀死该任务停止其他任务的执行。
8.说明Hadoop的一些重要功能。
答:Hadoop的重要功能是–
•Hadoop框架是在基于Google大数据文件系统的Google MapReduce上设计的。
•Hadoop框架可以有效地解决许多问题,以进行大数据分析。
9.您知道一些使用Hadoop的公司吗?
答:是的,我知道一些使用Hadoop的流行名称。
Yahoo –使用Hadoop
Facebook –开发Hive进行分析
亚马逊,Adobe,Spotify,Netflix,eBay和Twitter是其他一些使用Hadoop的知名公司。
10.如何区分RDBMS和Hadoop?
答:区分RDBMS和Hadoop的关键点是–
1.RDBMS用于存储结构化数据,而Hadoop可以存储任何类型的数据,即非
结构化,结构化或半结构化。
2.RDBMS遵循“写入时架构”策略,而Hadoop基于“读取时架构”策略。
3.数据模式在RDBMS中是众所周知的,它可以使读取速度更快,而在HDFS
中,写操作在HDFS写入过程中不会发生模式验证,因此写入速度很快。
4.RDBMS是许可软件,因此需要付费。
而Hadoop是开源软件,因此无需花
费任何费用。
5.RDBMS用于在线事务处理(OLTP)系统,而Hadoop也用于数据分析,
数据发现和OLAP系统。
Hadoop体系结构面试问题
接下来,我们有一些基于Hadoop架构的Hadoop面试问题。
了解和理解Hadoop架构有助于Hadoop专业人员正确回答所有Hadoop面试问题。
11. Hadoop 1和Hadoop 2有什么区别?
答:以下两点说明了Hadoop 1和Hadoop 2之间的区别:
在Hadoop 1.X中,只有一个NameNode,因此是单点故障,而在Hadoop 2.x中,则有主动和被动NameNode。
万一主动名称节点发生故障,被动名称节点将替换主动名称节点并承担费用。
结果,Hadoop 2.x中具有高可用性。
在Hadoop 2.x中,YARN提供了一个中央资源管理器,该资源管理器共享一个公共资源以在Hadoop中运行多个应用程序,而数据处理在Hadoop 1.x中是一个问题。
12.您对主动和被动NameNode有什么了解?
答:在高可用性Hadoop架构中,存在两个NameNode。
Active NameNode –在Hadoop群集中运行的NameNode是Active NameNode。
被动NameNode –与“活动NameNode”存储相同数据的备用NameNode是“被动NameNode”。
在主动NameNode发生故障时,被动NameNode将替换它并负责。
这样,群集中始终有一个正在运行的NameNode,因此它永远不会失败。
13. Apache HBase的组成部分是什么?
答:Apache HBase包含以下主要组件:
•区域服务器:一个表可以分为几个区域。
这些区域中的一组由区域服务器提供给客户端。
•HMaster:协调和管理区域服务器。
•ZooKeeper:它充当HBase分布式环境中的协调器。
它通过会话中的通信维护集群内部服务器状态。
14. NameNode如何处理DataNode故障?
答:NameNode不断从Hadoop群集中存在的所有DataNode接收信号,该信号指定DataNode的正常功能。
DataNode上存在的所有块的列表存储在块报告中。
如果DataNode无法将信号发送到NameNode,则在特定时间段后将其标记为无效。
然后,NameNode使用先前创建的副本将死节点的块复制/复制到另一个DataNode。
15.解释NameNode恢复过程。
答:NameNode恢复过程有助于保持Hadoop集群运行,可以通过以下步骤进行解释-
步骤1:要启动新的NameNode,请使用文件系统元数据副本(FsImage)。
步骤2:配置客户端和DataNode确认新的NameNode。
步骤3:一旦新名称完成了最后一个检查点FsImage的加载并从DataNodes接收到块报告,新的NameNode将开始为客户端提供服务。
16. Hadoop中可用的调度程序有哪些?
答:Hadoop中不同的可用调度程序是–
COSHH –通过考虑群集,工作负载和使用异构性来调度决策。
FIFO调度程序–它根据作业在队列中的到达时间对作业进行排序,而无需使用异构性。
公平共享–它为每个用户定义一个池,该池包含许多映射并减少资源上的插槽。
允许每个用户使用自己的池来执行作业。
17. DataNode和NameNode可以是商品硬件吗?
答:DataNode仅是商品硬件,因为它可以存储笔记本电脑和个人计算机之类的数据,而这些是大量必需的。
相反,NameNode是主节点。
它存储有关HDFS中存储的所有块的元数据。
它需要高存储空间,因此可以用作具有大存储空间的高端计算机。
18.什么是Hadoop守护程序?解释他们的角色。
答:Hadoop守护程序是NameNode,Secondary NameNode,DataNode,NodeManager,ResourceManager,JobHistoryServer。
不同的Hadoop守护程序的作用是–
NameNode –负责所有目录和文件的元数据存储的主节点称为NameNode。
它还包含有关文件的每个块及其在Hadoop群集中的分配的元数据信息。
辅助NameNode –该守护程序负责将修改后的Filesystem Image合并并存储到永久存储中。
它用于NameNode发生故障的情况。
DataNode –包含实际数据的从节点是DataNode。
NodeManager –在从属计算机上运行,NodeManager处理应用程序容器的启动,监视资源使用情况并将其报告给ResourceManager。
ResourceManager –它是负责管理资源和计划在YARN顶部运行的应用程序的主要权限。
JobHistoryServer –当Application Master停止工作(终止)时,负责维护有关MapReduce作业的所有信息。
19.定义“检查点”。
有什么好处?
答:检查点是将FsImage和Edit日志压缩到新的FsImage中的过程。
这样,NameNode 直接从FsImage处理最终的内存状态的加载,而不是重放编辑日志。
次要NameNode 负责执行检查点过程。
检查点的好处
检查点是一个高效的过程,可以减少NameNode的启动时间。
Hadoop管理员面试问题
Hadoop管理员负责处理Hadoop集群运行顺利的问题。
要破解Hadoop Administrator面试,您需要阅读与Hadoop环境,集群等相关的Hadoop面试问题。
Hadoop Administrator的常见Hadoop面试问题如下:
20.在生产环境中部署Hadoop时,重要的硬件注意事项是什么?答:内存系统的内存要求:根据应用程序,工作服务和管理服务之间会有所不同。
操作系统:最好使用64位OS,因为它避免了对可在工作节点上使用的内存量的任何此类限制。
存储:Hadoop平台的设计应通过将计算活动转移到数据上,从而实现可扩展性和高性能。
容量:大型磁盘将降低成本,并提供更多存储空间。
网络:每个机架两个TOR交换机是避免冗余的理想选择。
21.部署辅助NameNode时应考虑什么?
答:辅助NameNode应始终部署在单独的Standalone系统上。
这样可以防止它干扰主节点的操作。
22.命名可以运行Hadoop代码的模式。
答:有多种模式可以运行Hadoop代码–
1.全分布式模式
2.伪分布式模式
3.独立模式
23.命名Hadoop部署支持的操作系统。
答:Linux是用于Hadoop的主要操作系统。
但是,也可以借助一些其他软件将其部署在Windows操作系统上。
24.为什么将HDFS用于具有大数据集的应用程序,而不用于多个小文件?
答:与存储在多个文件中的少量数据相比,HDFS对于在单个文件中维护的大量数据集更有效。
当NameNode在RAM中为文件系统执行元数据存储时,内存量限制了HDFS 文件系统中的文件数。
简而言之,更多的文件将生成更多的元数据,从而需要更多的内存(RAM)。
建议块,文件或目录的元数据应占用150个字节。
25. hdfs-site.xml的重要属性是什么?
答:hdfs-site.xml具有三个重要属性:
•data.dr –标识数据存储的位置。
•name.dr –标识元数据存储的位置,并指定DFS是位于磁盘上还是位于远程位置上。
•checkpoint.dir –用于辅助NameNode。
26.增强大数据性能的基本Hadoop工具是什么?
答:增强大数据性能的一些重要Hadoop工具包括:
Hive,HDFS,HBase,Avro,SQL,NoSQL,Oozie,Clouds,Flume,SolrSee / Lucene 和ZooKeeper
27.您对SequenceFile了解多少?
答:SequenceFile被定义为包含二进制键或值对的平面文件。
它主要用于MapReduce 的输入/输出格式。
映射输出在内部存储为SequenceFile。
SequenceFile的不同格式是–。