(完整版)hadoop例题

合集下载

(完整版)hadoop常见笔试题答案

Hadoop测试题一．填空题，1分（41空），2分（42空）共125分1.(每空1分) datanode 负责HDFS数据存储。

2.(每空1分)HDFS中的block默认保存 3 份。

3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。

4.(每空1分)hadoop运行的模式有：单机模式、伪分布模式、完全分布式。

5.(每空1分)Hadoop集群搭建中常用的4个配置文件为：core-site.xml 、hdfs-site.xml、mapred-site.xml 、yarn-site.xml 。

6.(每空2分)HDFS将要存储的大文件进行分割，分割后存放在既定的存储块中，并通过预先设定的优化处理，模式对存储的数据进行预处理，从而解决了大文件储存与计算的需求。

7.(每空2分)一个HDFS集群包括两大部分，即namenode 与datanode 。

一般来说，一个集群中会有一个namenode 和多个datanode 共同工作。

8.(每空2分) namenode 是集群的主服务器，主要是用于对HDFS中所有的文件及内容数据进行维护，并不断读取记录集群中datanode 主机情况与工作状态，并通过读取与写入镜像日志文件的方式进行存储。

9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色，是集群的工作节点。

文件被分成若干个相同大小的数据块，分别存储在若干个datanode 上，datanode 会定期向集群内namenode 发送自己的运行状态与存储内容，并根据namnode 发送的指令进行工作。

10.(每空2分) namenode 负责接受客户端发送过来的信息，然后将文件存储位置信息发送给client ，由client 直接与datanode 进行联系，从而进行部分文件的运算与操作。

11.(每空1分) block 是HDFS的基本存储单元，默认大小是128M 。

hadoop练习题带答案

hadoop练习题带答案hadoop练习题--带答案Hadoop练习姓名：分数：单选题1.下面哪个程序负责hdfs数据存储。

a） namenodeb）工作追踪者c)datanode√d）第二名（nodee）任务跟踪器2.hdfs中的block默认保存几份？a） 3份√ b） 2份C）1份d）不确定3.下列哪个程序通常与namenode在一个节点启动？a） secondarynamenodeb）datanodec）tasktrackerd）jobtracker√4.hadoop作者a）马丁福勒布）肯特贝克c)dougcutting√5.HDFS默认块大小a)32mbb)64mb√c)128mb6.以下哪项通常是集群的主要性能瓶颈a)cpub)网络c)磁盘√d)内存7.关于secondarynamenode，以下哪项是正确的？a)它是namenode的热备b)它对内存没有要求c）其目的是帮助namenode合并和编辑日志，减少namenode的启动时间√ d）secondarynamenode应部署到与namenode相同的节点8.一个gzip文件大小75mb，客户端设置block大小为64mb，请我其占用几个block？a）一,b)2√c)3d)49.HDFS的gzip文件大小为75mb，客户端将块大小设置为64MB。

运行MapReduce时任务读取该文件时inputsplit大小为？a)64mbb)75mb√c）一张地图显示64MB，另一张地图显示11mb10.hdfs有一个lzo（withindex）文件大小75mb，客户端设置block大小为64mb。

当运MapReduce任务读取文件时，inputplit大小为？a） 64MB）75mbc)一个map读取64mb，另外一个map读取11mb√多项选择题：11.下列哪项可以作为集群的管理工具a）木偶√b）pdsh√c)clouderamanager√d)rsync+ssh+scp√12.以下哪项对于配置机架感知是正确的a)如果一个机架出问题，不会影响数据读写√b）写入数据时，数据将被写入不同机架的数据节点√c)mapreduce会根据机架获取离自己比较近的网络数据√13.在客户端上传文件时，以下哪项是正确的a)数据经过namenode传递给datanodeb）客户端以块和管道模式将文件传输到datanode√c)client只上传数据到一台datanode，然后由namenode负责block复制工作d)当某个datanode失败，客户端会继续传给其它datanode√14.以下哪项是Hadoop的运行模式a)单机版√b)伪分布式√c)分布式√15.cloudera提供了哪些安装CDH的方法a)clouderamanager√b)tarball√c)yum√d)rpm√判断问题：（全部错）16.神经节不仅能监测，还能报警。

hadoop练习题

hadoop练习题Hadoop是一个开源的分布式计算框架，旨在解决大数据处理和分析的问题。

通过将数据分解为多个小块，并在多个计算节点上并行处理，Hadoop可以实现高效的大规模数据处理。

为了熟悉和掌握Hadoop 的使用，以下是一些Hadoop练习题。

练习一：WordCount在Hadoop上实现经典的WordCount功能。

给定一个文本文件，统计其中每个单词出现的次数。

练习二：TopN给定一个包含大量整数的文件，找出其中最大的N个数。

使用Hadoop将任务分发到多个计算节点上，并在每个节点上进行部分排序，最后通过合并得到全局的TopN结果。

练习三：倒排索引给定一系列文本文件，建立倒排索引表。

即统计每个单词在哪些文件中出现过，并列出对应的文件路径。

练习四：连接操作将两个大文件中的数据进行连接操作。

例如，给定两个包含员工信息的文件，通过员工ID将两个文件中的数据进行连接，并输出最终结果。

练习五：数据去重给定一个包含重复数据的文件，使用Hadoop将其中的重复数据进行去重处理。

练习六：数据采样给定一个大数据集，使用Hadoop对数据进行采样，以获取数据的整体特征。

练习七：关系型数据库与Hadoop集成将关系型数据库中的数据导入Hadoop，通过使用Hadoop的分布式计算能力进行数据分析和处理。

练习八：海量日志分析使用Hadoop对海量日志进行分析。

例如，统计每个IP地址的访问次数，识别异常的访问行为等。

练习九：图计算使用Hadoop进行图计算。

例如，计算社交网络中的最短路径，查找关键节点等。

练习十：机器学习与Hadoop集成将机器学习算法与Hadoop结合，使用Hadoop进行大规模数据集的训练和模型构建。

通过完成以上Hadoop练习题，你将能够深入理解Hadoop的工作原理和应用场景，掌握Hadoop的使用技巧。

同时，这些练习题也能够提升你的数据处理和分析能力，为你在大数据领域的职业发展打下坚实基础。

Hadoop题库(第1-3-8章)

题库（第一、三、八章）第一章单选题1、大数据的数据量现在已经达到了哪个级别？（ C ）A、GBB、TBC、PBD、ZB2、2003年，Google公司发表了主要讲解海量数据的可靠存储方法的论文是？（ A ）A、“The Google File System”B、“MapReduce: Simplified Data Processing on Large Clusters”C、“Bigtable: A Distributed Storage System for Structured Data”D、“The Hadoop File System”3、2004年，Google公司发表了主要讲解海量数据的高效计算方法的论文是？（ B ）A、“The Google File System”B、“MapReduce: Simplified Data Processing on Large Clusters”C、“Bigtable: A Distributed Storage System for Structured Data”D、“The Hadoop File System”4、2006年，Google公司发表了用来处理海量数据的一种非关系型数据库的论文是?（ C ）A、“The Google File System”B、“MapReduce: Simplified Data Processing on Large Clusters”C、“Bigtable: A Distributed Storage System for Structured Data”D、“The Hadoop File System”5、对于GFS架构，下面哪个说法是错误的？（A）A、GFS Master节点管理所有的文件系统所有数据块。

B、GFS存储的文件都被分割成固定大小的块，每个块都会被复制到多个块服务器上（可靠性）。

块的冗余度默认为3。

（完整版）hadoop例题

（完整版）hadoop例题选择题1、关于MapReduce的描述错误的是（）A、MapReduce框架会先排序map任务的输出B、通常，作业的输入输出都会被存储在文件系统中C、通常计算节点和存储节点是同一节点D、一个Task通常会把输入集切分成若干独立的数据块2、关于基于Hadoop的MapReduce编程的环境配置，下面哪一步是不必要的（）A、安装linux或者在Windows下安装CgywinB、安装javaC、安装MapReduceD、配置Hadoop参数3、关于基于Hadoop的MapReduce编程的环境配置，下面哪一步是不必要的（）A、配置java环境变量B、配置Hadoop环境变量C、配置EclipseD、配置ssh4、下列说法错误的是（）A、MapReduce中maperconbiner reducer 缺一不可B、在JobConf中InputFormat参数可以不设C、在JobConf中MapperClass参数可以不设D、在JobConf中OutputKeyComparator参数可以不设5、下列关于mapreduce的key/value对的说法正确的是（）A、输入键值对不需要和输出键值对类型一致B、输入的key类型必须和输出的key类型一致C、输入的value类型必须和输出的value类型一致D、输入键值对只能映射成一个输出键值对6、在mapreduce任务中，下列哪一项会由hadoop系统自动排序（）A、keys of mapper's outputB、values of mapper's outputC、keys of reducer's outputD、values of reducer's output7、关于mapreduce框架中一个作业的reduce任务的数目，下列说法正确的是（）A、由自定义的Partitioner来确定B、是分块的总数目一半C、可以由用户来自定义，通过JobConf.setNumReducetTask(int)来设定一个作业中reduce的任务数目D、由MapReduce随机确定其数目8、MapReduce框架中，在Map和Reduce之间的combiner 的作用是（）A、对Map的输出结果排序B、对中间过程的输出进行本地的聚集C、对中间结果进行混洗D、对中间格式进行压缩9、MapReduce框架分为Map和Reduce，下列对Reduce阶段叙述正确的是（）A、主要分为shuffle和sort这2个阶段B、这个阶段过程中，key的分组规则是不可更改的C、其中的shuffle 和sort是同时进行的D、Reduce 数目的增加不会增加系统的开销10、Hadoop中，Reducer的三个阶段是（）A、Shuffle——Sort——ReduceB、Shuffle——Reduce——SortC、Reduce——Shuffle——SortD、Sort——Shuffle——Reduce11、请问在Hadoop体系结构中，按照由下到上顺序，排列正确的是（）Pig Hive Crunch都是运行在MapReduce , Spark ,或者Tez之上的处理框架Avro是一个克服了Writable部分不足的序列化系统A、Common Hive HDFSB、Common MapReduce PigC、HDFS MapReduceHBaseD、HDFS Avro HBase12、关于Hadoop下列说法错误的是（）A、HDFS采用了Master/Slave的架构模型B、Namenode负责维护文件系统的命名空间C、Datanode执行比如打开、关闭、重命名文件操作D、HDFS暴露了文件系统的命名空间，允许用户以文件的形式在上面存储数据13、下面哪个选项不是我们需要Hadoop的主要原因（）A、我们需要处理PB级别的数据B、为每个应用建立一个可靠的系统是很昂贵的C、几乎每天都有结点坏掉D、把一个任务分割成多个子任务的方式是不好的14、hadoop中下面哪项操作是不需要记录进日志的（）A、打开文件B、重命名C、编译文件D、删除操作15、hadoop中，下面关于向文件系统中添加一个文件的过程，错误的是（）A、需要创建路径的父目录B、需要创建一个新的INode文件C、将新的INode文件加入到name space中去D、将所有操作记录到EditLog中去16、在安装配置好Hadoop集群后，查看Namenode节点的端口是以下哪个（）A、50030B、50070C、60010D、6003017、下面哪个不是Hadoop的输出数据格式（）A、文本输出B、二进制输出C、单一输出D、多输出18、要在HDFS的根目录中建立一个叫hadoo的目录，下面哪一条命令是正确的（）A、mkdirhadooB、mkdir /hadooC、hadoopmkdirhadooD、hadoop fs –mkdir /hadoo19、下面有关NameNode 安全模式(safe mode)说法错误的是（）A、name space处于安全模式时只能被读取B、NameNode 启动时自动进入安全模式C、调用setSafeMode()函数能够打开或关闭安全模式D、安全模式下不能够复制或删除文件中的数据块20、以下情况除哪项发生时balancer便会自动退出（）A、集群平衡或者没有数据块可以移动B、在连续三次迭代中没有块移动C、与namenode传输时发生异常D、另一个balancer在运行21、下列说法错误的是（）A、Partitioner负责控制map输出结果key的分割B、Reporter用于MapReduce应用程序报告进度C、OutputCollector收集Mapper或Reducer输出数据D、Reduce的数目不可以是022、下列说法错误的是（）A、JobServer是用户作业和JobTracker交互的主要接口B、JobClient为用户提供提交作业功能C、JobClient提供访问子任务报告和日志功能D、JobClient提供获取MapReduce集群状态信息功能23、Hadoop的哪个包的功能是表示层，将各种数据编码/解码，方便在网络上传输（）A、fsB、ipcC、ioD、net24、Hadoop的哪个包的功能是根据DDL（数据描述语言）自动生成他们的编解码函数（）A、recordB、metricsC、utilD、tool25、hadoop中什么类提供了连接到HDFS系统并执行文件操作的基本功能（）A、FSDirectoryB、DFSClientC、ClientProtocolD、FSInputStream26、MapReduce程序最基本的组成部分不包括（）A、Mapper类B、Reducer类C、创建JobConf的执行程序D、Conbiner类27、下列关于Hadoop中Shell类说法错误的是（）A、Shell类是一个继承类B、Shell类定义了如何在当前文件系统环境中，通过命令进行交互C、Shell类定义了静态的字符串命令D、Shell类定义了与实现命令的执行相关的属性28、如果想在hadoop文件系统中通过键盘输入来创建一个文件，你应该使用下列哪种方法（）A、copy()B、copyFromStdin()C、printT oStdout()D、copyFromLocal()29、关于FsShell的说法，下面哪一项是正确的（）A、FsShell和UNIX系统中的shell一样功能强大B、FsShell实际上是一个Java应用程序C、可以在FsShell中执行HDFS文件系统中的可执行文件D、FsShell实际上是调用UNIX的shell命令来实现复制操作30、当__时，HDFS启动balancer（）A、threshold =<ratio(datanode)-ratio(rack)< p="">B、threshold=<ratio(datanode)-ratio(rack)< p="">C、threshold< ratio(Rack) -ratio(Datanode)D、threshold >=|ratio(Datanode)-ratio(Rack)31、执行数据块复制的任务时，是什么和什么在进行通信（）A、client and namenodeB、client and datanodeC、namenode and datanodeD、datanode and datanode32、关于NameNode和Secondary NameNode的说法错误的是（）A、NameNode上实现的NamenodeProtocol用于二者命令通信B、数据的通信使用的是ftp协议（http协议）C、数据通信使用的是http协议D、协议的容器是jetty33、关于Secondary NameNode的说法错误的是（）A、main方法是Secondary NameNode的入口，它启动线程执行runB、启动前的构造过程主要是创建和NameNode通信的接口和启动HTTP 服务器C、run方法每隔一段时间执行doCheckpoint()D、main方法从NameNode上取下FSImage和日志，和本地合并再传回NameNode （应该是run方法完成）34、Hadoop中节点之间的进程通信是通过什么协议来实现的（）A、HTTPB、SMTPC、SSHD、RPC35、下面有关NameNode和secondary NameNode通信协议说法错误的是（）A、secondary NameNode使用NamenodeProtocol协议与NameNode 进行通信B、如果文件系统处于安全模式，那么关闭当前日志并打开新的日志操作会失败C、如果旧的编辑日志丢失了，那么滚动fsImage 日志会失败D、secondary NameNode 可以从NameNode中得到任何datanode的块及其位置36、下面有关NameNode 和 DataNode 之间的Hearbeat说法错误的是（）A、DataNode 通过发送Heartbeat 告诉NameNode自己还"活着"，并且工作正常B、HeatBeat包含DataNode状态相关信息C、NameNode回复HeartBeat 一些DatanodeCommandD、如果NameNode在某一固定时间内没有收到Datanode的Heatbeat，那么它会要求 DataNode发送Heartbeat37、下面哪个协议用于Datanode和Namenode之间的通信（）A、DatanodeProtocolB、NamenodeProcotolC、ClientProtocolD、ClientDatanodeProtocol38、下面哪个协议用于Secondary Namenode和Namenode之间的通信（）A、DatanodeProtocolB、NamenodeProcotolC、ClientProtocolD、ClientDatanodeProtocol39、在Hadoop上提交Job时不涉及哪个实体（）A、客户端B、HDFSC、SecondaryNodeD、JobTracker40、MapReduce处理流程中Reduce如何获取Map端结果（）A、Map端发送B、Reduce端获取C、Map端发送到中间管理节点，Reduce统一获取D、随机发送</ratio(datanode)-ratio(rack)<></ratio(datanode)-ratio(rack)<>。

(完整版)hadoop习题册

第一章大数据概述1.互联网的发展分为______个阶段。

A．一 B.三 C.二 D.四2.下列不属于大数据特点的是（）。

A.种类和来源多样化B.数据量巨大C.分析处理速度快D.价值密度高3.互联网发展的第_____个时代为智能互联网。

A.3.0B.4.0C.1.0D.2.04.关于大数据叙述不正确的一项是（）。

A.大数据=“海量数据”+“复杂类型的数据”B.大数据是指在一定时间对内容抓取、管理和处理的数据集合C.大数据可以及时有效的分析海量的数据D.数据包括结构化数据、半结构化数据、结构化数据。

5.下列数据换算正确的一项为（）。

A.1YB=1024EBB.1TB=1024MBC.1PB==1024EBD.1024ZB=1EB6.结构化数据的表现形式为______。

A.文本B.视图C.二维表D.查询7.结构化的数据，先有________,再有_________.A.数据结构B.结构数据C.内容结构D.结构内容8.结构化的数据，先有________,再有_________.A.数据结构B.结构数据C.内容结构D.结构内容9.软件是大数据的_________。

A.核心B.部件C.引擎D.集合10.大数据技术不包括( )。

A.数据计算B.数据存储C.数据冗余D.数据采集11.大数据的特点不包括（）。

A.数量大B.类型少C.速度快D.价值高第二章Hadoop简介1.下列对云栈架构层数不正确的一项为________。

A.三层云栈架构B.四层云栈架构C.五层云栈架构D.六层云栈架构2.下列______不是云计算三层架构的概括。

A.IaaSB.PaaSC.SaaPD.SaaS3.IaaS基础设施及服务可以称为______。

A.弹性计算B.效用计算C.有效计算D.随需应用4.四层云栈模式，是将三层模式中的_________进行分解，分为两层，一层为硬件层，一层为虚拟资源层。

A.硬件部分B.虚拟化部分C.基础设施D.平台5.五层云栈模式，第五层为______。

Hadoop基础(习题卷8)

Hadoop基础(习题卷8)第1部分：单项选择题，共54题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]在Java中，<? version="1.0" encoding=”UTF-8”>这行声明该文档采用了什么编码标准A)GB2312B)ANSIC)ISO-8859-1D)UTF-8答案:D解析:2.[单选题]关于hadoop集群描述正确的是（）A)hadoop集群组件之间通过RPC通信协议B)hadoop集群NameNode节点越多越好C)hadoop集群使用Namenode存储元数据D)以上都正确答案:A解析:3.[单选题]HDFS 默认 Block SizeA)32MBB)64MBC)128MBD)240MB答案:B解析:4.[单选题]下面属于Hadoop特点的是（）A)低价值密度B)低吞吐量C)高容错D)高成本答案:C解析:5.[单选题]编写MapReduce必须继承（）类A)ConfiguredB)DonfiguredC)AonfiguredD)Writable答案:A解析:6.[单选题]在Java中，File类提供的方法中，哪个方法可以获取一个目录下所有子文件对象D)listFiles()答案:D解析:7.[单选题]HDFS结构不包括________。

A)Master体系结构B)主从服务器C)元数据服务器D)存储服务器答案:A解析:8.[单选题]下列哪一项不属于数据库事务具有ACID四性？A)间断性B)原子性C)一致性D)持久性答案:A解析:9.[单选题]客户端从Zookeeper获取Region的存储位置信息后，直接在_______上读写数据。

A)ZookeeperB)HMasterC)Region ServerD)HLog答案:C解析:10.[单选题]对NodeManager服务描述不正确的是( )A)NodeManager负责单节点资源管理和使用B)NodeManager管理当前节点的ContainerC)向ResourceManager汇报本节点上的资源使用情况D)NodeManager服务器不需要与ResourceManager通信答案:D解析:11.[单选题]下面对分区描述的过程正确的是( )A)merge是将多个溢写文件合并到一个文件B)merge过程不可能有Combiner处理C)缓冲区的作用不大D)以上都不正确答案:A解析:12.[单选题]云计算发展对产业的影响对一般企业和机构来说主要是（）。

Hadoop基础(习题卷18)

Hadoop基础(习题卷18)第1部分：单项选择题，共53题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]下列不属于Python中Flask框架特点的是？A)内置开发服务器和调试器B)与Python单元测试功能无缝衔接C)使用Jinja2模板D)端口号固定为5000，且无法修改答案:D解析:2.[单选题]在Java中，方法resume( )负责重新开始▁▁线程的执行A)被stop( )方法停止B)被sleep( )方法停止C)被wait( )方法停止D)被suspend( )方法停止答案:D解析:3.[单选题]在Java中，假如电脑上E盘没有xxx目录，则下面程序功能描述正确是_x000D_File file1=new File("e:\\xxx\\yyy"); file1.mkdir()A)在当前目录下生成子目录:\xxx\yyyB)在E盘自动创建xxx/yyy目录C)在当前目录下生成文件xxx.yyyD)代码执行后E盘不会产生任何目录答案:D解析:4.[单选题]在Hadoop上提交Job时不涉及哪个实体（）A)客户端B)HDFSC)SecondaryNodeD)JobTracker答案:C解析:5.[单选题]下面哪些不是引起 Spark 负载不均的原因？（）A)Spark 读入的数据源是倾斜的B)Shuffle 阶段 Key 值过于集中C)在数据过滤阶段需要处理的数据量差异D)Spark 的运行方式差异答案:D解析:6.[单选题]配置Hadoop时，JAVA_HOME包含在哪一个配置文件中?A)hadoop-default.xmlC)hadoop-site.xmlD)configuration.xml答案:B解析:7.[单选题]在 hadoop 配置中 yarn-site.xml 作用是( )A)用于定义系统级别的参数B)用于名称节点和数据节点的存放位置C)用于配置 JobHistory Server 和应用程序参数D)配置 ResourceManager,NodeManager 的通信端口答案:D解析:8.[单选题]HDFS中的block默认保存____份。

Hadoop试题试题库完整

Hadoop试题试题库完整1. 以下哪⼀项不属于Hadoop可以运⾏的模式___C___。

A. 单机（本地）模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下⾯哪⼀位__B____。

A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与 NameNode 在同⼀个节点启动__D___。

A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认 Block Size的⼤⼩是___B___。

A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。

A. CPUB. ⽹络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。

A. MapReduce是⼀种计算框架B. MapReduce来源于google的学术论⽂C. MapReduce程序只能⽤java语⾔编写D. MapReduce隐藏了并⾏计算的细节，⽅便使⽤8. HDFS是基于流数据模式访问和处理超⼤⽂件的需求⽽开发的，具有⾼容错、⾼可靠性、⾼可扩展性、⾼吞吐率等特征，适合的读写任务是 __D____。

A．⼀次写⼊，少次读C．多次写⼊，多次读D．⼀次写⼊，多次读9. HBase依靠__A____存储底层数据。

A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强⼤的计算能⼒。

A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下⾯与HDFS类似的框架是___C____？A. NTFSB. FAT32C. GFSD. EXT313. 关于 SecondaryNameNode 下⾯哪项是正确的___C___。

Hadoop基础(习题卷3)

Hadoop基础(习题卷3)第1部分：单项选择题，共54题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]大数据的简单算法与小数据的复杂算法相比（）A)更有效B)相当C)不具备可比性D)无效答案:A解析:2.[单选题]下列选项中，不是CouchDB的复制中的特点是：A)使用优先列表B)复制过程是逐步进行C)允许分区复制D)支持智能文档模式答案:A解析:3.[单选题]从HDFS下载文件，正确的shell命令是（）。

A)-getB)-appendToFileC)-putD)-copyFromLocal答案:A解析:4.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)存储客户端上传的数据的数据块B)一个DataNode上存储的所有数据块可以有相同的C)DataNode之间可以互相通信D)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:B解析:5.[单选题]在Java中，一个线程如果调用了sleep()方法，能唤醒它的方法是A)notify()B)resume()C)run()D)以上都不是，时间到了会自动继续执行答案:D解析:6.[单选题]软件是大数据的_________。

A)核心解析:7.[单选题]_______模式，只适合于Hive简单试用及单元测试。

A)单用户模式B)多用户模式C)多用户远程模式D)单用户远程模式答案:A解析:8.[单选题]下列关于Hive描述错误的是（）。

A)hive学习成本低，支持标准的SQL语法B)hive运行效率低，延迟高C)HQL的表达能力有限D)Hive支持迭代计算答案:D解析:9.[单选题]下面哪个选项不是我们需要Hadoop的主要原因（）A)我们需要处理PB级别的数据B)为每个应用建立一个可靠的系统是很昂贵的C)几乎每天都有结点坏掉D)把一个任务分割成多个子任务的方式是不好的答案:D解析:10.[单选题]为了让集群中的机器能够正常通信，所有集群的IP必须设置成静态IP，防止机器重启之后而找不到机器的情况，那么IP地址配置需要修改那个文件（）A)ifcfg-loB)network-functionsC)ifcfg-ens33D)network-functions-ipv6答案:C解析:11.[单选题]Spark生态系统组件Spark Streaming的应用场景是？A)基于历史数据的数据挖掘B)图结构数据的处理C)基于历史数据的交互式查询D)基于实时数据流的数据处理答案:D解析:12.[单选题]关于HDFS集群中的DataNode的描述不正确的是？A)DataNode之间都是独立的，相互之间不会有通信B)存储客户端上传的数据的数据块C)响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑13.[单选题]Hadoop2.x版本中的数据块大小默认是多少? ()A)64MB)128MC)256MD)512M答案:B解析:14.[单选题]HDFS分布式文件系统的特点为____________。

Hadoop基础(习题卷1)

Hadoop基础(习题卷1)说明：答案和解析在试卷最后第1部分：单项选择题，共145题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]以下哪一项不属于Hadoop可以运行的模式（）A)单机模式B)伪分布式模式C)互联模式D)分布式模式2.[单选题]下列哪一个不属于Hadoop的大数据层的功能？A)数据挖掘B)离线分析C)实时计算D)BI分析3.[单选题]用于检查节点自身的健康状态的进程是（）A)ResourceManagerB)NodeManagerC)NameNodeD)DataNode4.[单选题]下面与Zookeeper类似的框架是？A)ProtobufB)JavaC)KafkaD)Chubby5.[单选题]哪个不是HDFS的特点？A)高容错B)高吞吐量C)低延迟读取D)大文件存储6.[单选题]在mapreduce任务中，下列哪一项会由hadoop系统自动排序（）A)keys of mapper's outputB)values of mapper's outputC)keys of reducer's outputD)values of reducer's output7.[单选题]HDFS的是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是？A)一次写入，多次读写B)一次写入，少次读写C)多次写入，少次读写D)多次写入，多次读写8.[单选题]下列哪项通常是集群的最主要的性能瓶颈? ()A)CPUB)网络C)磁盘D)内存9.[单选题]以下选项中，哪种类型间的转换是被Hive查询语言所支持的（）A)Double-NumberB)BigInt-DoubleC)Int-BigIntD)String--Double10.[单选题]下面哪个选项中的Daemon总是运行在同一台主机上()A)Name Node & Job TrackerB)Secondary Name Node & Job TrackerC)Name Node & Secondary Name NodeD)Data Node & Task Tracker11.[单选题]2003年，Google公司发表了主要讲解海量数据的可靠存储方法的论文是？A)“TheGoogleFileSystem”B)“MapReduce:SimplifiedDataProcessingonLargeClusters”C)“Bigtable:ADistributedStorageSystemforStructuredData”D)“TheHadoopFileSystem”12.[单选题]下列_______通常与NameNode在一个节点启动。

Hadoop基础(习题卷11)

Hadoop基础(习题卷11)第1部分：单项选择题，共54题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]在文件属性中，文件的权限用第( )列字符表示。

A)1-5B)2-10C)3-9D)1-8答案:B解析:2.[单选题]下列______不是云计算三层架构的概括。

A)IaaSB)PaaSC)SaaPD)SaaS答案:C解析:3.[单选题]验证java运行环境是否安装成功，使用哪个命令查看java版本，若出现版本号则表示安装成功（）A)java-versionB)java-ipconfigC)java-editionD)java-Release答案:A解析:4.[单选题]在Hadoop官方的示例程序包hadoop-maprecduceexamples-2.6.4.jar中，封装了一些常用的测试模块。

可以获得文件中单词长度的中位数的模块是(C)。

A)wordcountB)wordmeanC)wordmedianD)wordstandarddeviation答案:C解析:5.[单选题]在 MapReduce 中 Shuffle 的主要作用是（）A)将数据进行拆分B)对映射后的数据进行排序, 然后输入到 ReducerC)经过映射后的输出数据会被排序，然后每个映射器会进行分区D)通过实现自定义的 Partitioner 来指定哪些数据进入哪个Reducer答案:B解析:B)HTTPSC)SSHD)ClientProtocol答案:C解析:7.[单选题]关于ApplicationMaster组件描述错误的是（）。

A)与资源管理器协商获取资源B)与节点管理器通信以启动或停止具体的任务C)监控应用程序所有任务的状态D)定时向资源管理器汇报资源使用情况答案:A解析:8.[单选题]SecondaryNameNode 是对主NameNode的一个补充，他会定期地执行对HDFS元数据的检查点。

当前设计仅允许每个HDFS只有（）SecondaryNameNode节点。

Hadoop基础(习题卷2)

Hadoop基础(习题卷2)第1部分：单项选择题，共54题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]HDFS 中的 block 默认保存几个备份。

A)1B)2C)3D)4答案:C解析:2.[单选题]HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠行、高扩展性、高吞吐率等特征，适合的读写任务是________。

A)一次写入，少次读取B)多次写入，少次读取C)多次写入，多次读取D)一次写入，多次读取答案:D解析:3.[单选题]下面哪个选项不属于Google的三驾马车？A)HDFSB)MapReduceC)BigTableD)GFS答案:A解析:4.[单选题]下面描述错误的是：A)Hive的功能十分强大，可以支持采用SQL方式查询Hadoop平台上的数据B)在实际应用中，Hive也暴露出不稳定的问题，在极少数情况下，甚至会出现端口不响应或者进程丢失的问题C)在Hive HA中，在Hadoop集群上构建的数据仓库是由单个Hive实例进行管理的D)在Hive HA中，客户端的查询请求首先访问HAProxy，由HAProxy对访问请求进行转发答案:C解析:5.[单选题]下列关于配置机架感知的相关描述哪项不正确？A)如果一个机架出问题，不会影响数据读写和正确性B)MapReduce 会根据机架的拓扑获取离自己比较近的数据块C)写入数据的时候多个副本会写到不同机架的 DataNode 中D)数据块的第一个副本会优先考虑存储在客户端所在节点答案:C解析:6.[单选题]在java网络编程中，使用TCP编程时编写服务端的套接字类是A)SocketC)ServerSocketD)DatagramPacket答案:C解析:7.[单选题]HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。

当运行mapreduce任务读取该文件时input split大小为？A)一个map读取64MB，另外一个map读取11MBB)128MBC)75MBD)75MB答案:C解析:8.[单选题]配置机架感知的下面哪项正确？A)都正确B)MapReduce会根据机架获取离自己比较近的网络数据C)写入数据的时候会写到不同机架的DataNodeD)如果一个机架出问题，不会影响数据读写答案:A解析:9.[单选题]在下列压缩格式中，哪一个压缩格式压缩速度最慢。

完整版hadoop习题册

第一章大数据概述1.互联网的发展分为______个阶段。

A．一B.三 C.二 D.四2.下列不属于大数据特点的是（）。

A.种类和来源多样化B.数据量巨大C.分析处理速度快D.价值密度高互联网发展的第_____个时代为智能互联网。

3. C.1.0 D.2.0A.3.0 B.4.0）。

4.关于大数据叙述不正确的一项是（+“复杂类型的数据”A.大数据=“海量数据”B.大数据是指在一定时间对内容抓取、管理和处理的数据集合 C.大数据可以及时有效的分析海量的数据 D.数据包括结构化数据、半结构化数据、结构化数据。

）。

5.下列数据换算正确的一项为（A.1YB=1024EBB.1TB=1024MBC.1PB==1024EBD.1024ZB=1EB 。

6.结构化数据的表现形式为______ 查询C.二维表 D.A.文本 B.视图_________.7.结构化的数据，先有________,再有结构A.数据结构B. 数据C.内容结构D.结构内容结构化的数据，先有________,再有_________.8.结构A.数据结构数据B. 结构内容C. 内容D.结构_________。

9.软件是大数据的集合 C.引擎D. A.核心B.部件) 。

10.大数据技术不包括(D.数据采集A.数据计算B.数据存储C.数据冗余）。

大数据的特点不包括（11.D.C.速度快价值高数量大A. B.类型少第二章Hadoop简介1.下列对云栈架构层数不正确的一项为________。

A.三层云栈架构B.四层云栈架构C.五层云栈架构D.六层云栈架构不是云计算三层架构的概括。

______下列2.A.IaaSB.PaaSC.SaaPD.SaaS3.IaaS基础设施及服务可以称为______。

A.弹性计算B.效用计算C.有效计算D.随需应用4.四层云栈模式，是将三层模式中的_________进行分解，分为两层，一层为硬件层，一层为虚拟资源层。

A.硬件部分B.虚拟化部分C.基础设施D.平台5.五层云栈模式，第五层为______。

hadoop面试题（自己整理版）

hadoop⾯试题（⾃⼰整理版）
1、 hadoop 运⾏原理
2、 mapreduce 原理
3、 mapreduce 的优化
4、举⼀个简单的例⼦说下 mapreduce 是怎么运⾏的
5、 hadoop 中 combiner 的作⽤
6、简述 hadoop 的安装
7、请列出 hadoop 的进程名
8、简述 hadoop 的调度器
9、列出你开发 mapreduce 的语⾔
10、我们开发 job 时是否可以去掉 reduce 阶段
11、 datanode 在什么情况下不会备份
12、 combiner 出现在哪个过程
13、 hdfs 的体系结构
14、 3 个 datanode 中有⼀个 datanode 出现错误会怎么样
15、描述⼀下 hadoop 中，有哪些地⽅⽤了缓存机制，作⽤分别是
什么？
16、如何确定 hadoop 集群的健康状况
17、 shuffe 阶段，你怎么理解
18、 mapreduce 的 map 数量和 reduce 数量怎么确定，怎么配置
19、简单说⼀下 mapreduce 的编程模型
20、 hadoop 的 TextInputFormatter 作⽤是什么，如何⾃定义实现
21、 hadoop 和 spark 都是并⾏计算，他们有什么相同和区别
22、为什么要⽤ flume 导⼊ hdfs， hdfs 的架构是怎样的
23、简单说⼀下 hadoop 和 spark 的 shuffle 过程
24、 hadoop ⾼并发
25、 map-reduce 程序运⾏的时候会有什么⽐较常见的问题。

hadoop面试题目(3篇)

第1篇一、Hadoop基础知识1. 请简述Hadoop的核心组件及其作用。

2. 什么是Hadoop生态系统？列举出Hadoop生态系统中的主要组件。

3. 什么是MapReduce？请简述MapReduce的原理和特点。

4. 请简述Hadoop的分布式文件系统HDFS的架构和特点。

5. 什么是Hadoop的YARN？它有什么作用？6. 请简述Hadoop的HBase、Hive、Pig等组件的特点和应用场景。

7. 什么是Hadoop的集群部署？请简述Hadoop集群的部署流程。

8. 什么是Hadoop的分布式缓存？请简述其作用和实现方式。

9. 什么是Hadoop的MapReduce作业？请简述MapReduce作业的执行流程。

10. 请简述Hadoop的HDFS数据复制策略。

11. 什么是Hadoop的NameNode和DataNode？它们各自有什么作用？12. 请简述Hadoop的HDFS数据写入和读取过程。

13. 什么是Hadoop的Zookeeper？它在Hadoop集群中有什么作用？14. 请简述Hadoop的HDFS数据块的校验和机制。

15. 什么是Hadoop的HDFS数据恢复机制？二、Hadoop核心组件面试题1. 请简述Hadoop的MapReduce组件的架构和执行流程。

2. 请简述Hadoop的HDFS数据块的读写过程。

3. 请简述Hadoop的YARN资源调度器的工作原理。

4. 请简述Hadoop的HBase组件的架构和特点。

5. 请简述Hadoop的Hive组件的架构和特点。

6. 请简述Hadoop的Pig组件的架构和特点。

7. 请简述Hadoop的Zookeeper组件的架构和特点。

8. 请简述Hadoop的HDFS数据块的复制策略。

9. 请简述Hadoop的HDFS数据块的校验和机制。

10. 请简述Hadoop的HDFS数据恢复机制。

三、Hadoop高级面试题1. 请简述Hadoop集群的故障转移机制。

Hadoop试题试题库完整

. . . . 学习.参考1. 1. 以下哪一项不属于以下哪一项不属于Hadoop 可以运行的模式可以运行的模式___C______C______C___。

A. A. 单机（本地）模式单机（本地）模式B. B. 伪分布式模式伪分布式模式C. C. 互联模式互联模式D. D. 分布式模式分布式模式2. Hadoop 的作者是下面哪一位的作者是下面哪一位__B______B______B____。

A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 3. 下列哪个程序通常与下列哪个程序通常与下列哪个程序通常与 NameNode NameNode NameNode 在同一个节点启动在同一个节点启动在同一个节点启动__D_____D_____D___。

A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 4. HDFS 默认默认默认 Block Size Block Size 的大小是的大小是___B______B______B___。

A.32MBB.64MBC.128MBD.256M5. 5. 下列哪项通常是集群的最主要瓶颈下列哪项通常是集群的最主要瓶颈下列哪项通常是集群的最主要瓶颈____C______C______C__。

A. CPUB. B. 网络网络C. C. 磁盘磁盘IOD. D. 内存内存6. 6. 下列关于下列关于MapReduce 说法不正确的是说法不正确的是_____C______C______C_。

A. MapReduce 是一种计算框架B. MapReduce 来源于google 的学术论文C. MapReduce 程序只能用java 语言编写D. MapReduce 隐藏了并行计算的细节，方便使用8. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是高可扩展性、高吞吐率等特征，适合的读写任务是 __D____ __D____ __D____。

Hadoop试题试题库

1.以下哪一项不属于 Hadoop 可以运行的模式 C 。

A.单机（本地）模式B.伪分布式模式C.互联模式D.分布式模式2.Hadoop 的作者是下面哪一位 B 。

A.Martin FowlerB.Doug cuttingC.Kent BeckD.Grace Hopper3.下列哪个程序通常与NameNode 在同一个节点启动 D 。

A.TaskTrackerB.DataNodeC.SecondaryNameNodeD.Jobtracker4.HDFS 默认Block Size 的大小是 B 。

A.32MBB.64MBC.128MBD.256M5.下列哪项通常是集群的最主要瓶颈 C 。

A.CPUB.网络C.磁盘 IOD.内存6.下列关于 MapReduce 说法不正确的是C_ 。

A.M apReduce 是一种计算框架B.MapReduce 来源于 google 的学术论文C.M apReduce 程序只能用 java 语言编写D.MapReduce 隐藏了并行计算的细节，方便使用8.HDFS 是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是 D 。

A．一次写入，少次读B．多次写入，少次读C．多次写入，多次读D．一次写入，多次读9.HBase 依靠 A 存储底层数据。

A.HDFSB.HadoopC.MemoryD.MapReduce10.HBase 依赖 D 提供强大的计算能力。

A.ZookeeperB.ChubbyC.RPCD.MapReduce11.HBase 依赖 A 提供消息通信机制A.ZookeeperB.ChubbyC.RPCD.Socket12.下面与 HDFS 类似的框架是 C ？A.NTFSB.FAT32C.GFSD.EXT313.关于SecondaryNameNode 下面哪项是正确的 C 。

A.它是NameNode 的热备B.它对内存没有要求C.它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间D.SecondaryNameNode 应与NameNode 部署到一个节点14.大数据的特点不包括下面哪一项 D 。

(完整版)hadoop练习题--带答案

Hadoop 练习题姓名：分数：单项选择题1.下面哪个程序负责HDFS数据存储。

a)NameNodeb)Jobtrackerc)Datanode √d)secondaryNameNodee)tasktracker2.HDfS中的block默认保存几份？a)3份√b)2份c)1份d)不确定3.下列哪个程序通常与NameNode在一个节点启动？a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker√4.Hadoop作者a)Martin Fowlerb)Kent Beckc)Doug cutting√5.HDFS默认Block Sizea)32MBb)64MB√c)128MB6.下列哪项通常是集群的最主要的性能瓶颈a)CPUb)网络c)磁盘√d)内存7.关于SecondaryNameNode哪项是正确的？a)它是NameNode的热备b)它对内存没有要求c)它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间√d)SecondaryNameNode应与NameNode部署到一个节点8.一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？a) 1b)2√c) 3d) 49.HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。

当运行mapreduce任务读取该文件时input split大小为？a)64MBb)75MB√c)一个map读取64MB，另外一个map读取11MB10.HDFS有一个LZO（with index）文件大小75MB，客户端设置Block大小为64MB。

当运行mapreduce任务读取该文件时input split大小为？a)64MBb)75MBc)一个map读取64MB，另外一个map读取11MB√多选题：11.下列哪项可以作为集群的管理工具a)Puppet√b)Pdsh√c)Cloudera Manager√d)Rsync + ssh + scp√12.配置机架感知的下面哪项正确a)如果一个机架出问题，不会影响数据读写√b)写入数据的时候会写到不同机架的DataNode中√c)MapReduce会根据机架获取离自己比较近的网络数据√13.Client端上传文件的时候下列哪项正确a)数据经过NameNode传递给DataNodeb)Client端将文件以Block为单位，管道方式依次传到DataNode√c)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作d)当某个DataNode失败，客户端会继续传给其它DataNode √14.下列哪个是Hadoop运行的模式a)单机版√b)伪分布式√c)分布式√15.Cloudera提供哪几种安装CDH的方法a)Cloudera manager√b)Tar ball√c)Yum√d)Rpm√判断题：（全部错）16.Ganglia不仅可以进行监控，也可以进行告警。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

选择题1、关于MapReduce的描述错误的是（）A、MapReduce框架会先排序map任务的输出B、通常，作业的输入输出都会被存储在文件系统中C、通常计算节点和存储节点是同一节点D、一个Task通常会把输入集切分成若干独立的数据块2、关于基于Hadoop的MapReduce编程的环境配置，下面哪一步是不必要的（）A、安装linux或者在Windows下安装CgywinB、安装javaC、安装MapReduceD、配置Hadoop参数3、关于基于Hadoop的MapReduce编程的环境配置，下面哪一步是不必要的（）A、配置java环境变量B、配置Hadoop环境变量C、配置EclipseD、配置ssh4、下列说法错误的是（）A、MapReduce中maperconbiner reducer 缺一不可B、在JobConf中InputFormat参数可以不设C、在JobConf中MapperClass参数可以不设D、在JobConf中OutputKeyComparator参数可以不设5、下列关于mapreduce的key/value对的说法正确的是（）A、输入键值对不需要和输出键值对类型一致B、输入的key类型必须和输出的key类型一致C、输入的value类型必须和输出的value类型一致D、输入键值对只能映射成一个输出键值对6、在mapreduce任务中，下列哪一项会由hadoop系统自动排序（）A、keys of mapper's outputB、values of mapper's outputC、keys of reducer's outputD、values of reducer's output7、关于mapreduce框架中一个作业的reduce任务的数目，下列说法正确的是（）A、由自定义的Partitioner来确定B、是分块的总数目一半C、可以由用户来自定义，通过JobConf.setNumReducetTask(int)来设定一个作业中reduce的任务数目D、由MapReduce随机确定其数目8、MapReduce框架中，在Map和Reduce之间的combiner的作用是（）A、对Map的输出结果排序B、对中间过程的输出进行本地的聚集C、对中间结果进行混洗D、对中间格式进行压缩9、MapReduce框架分为Map和Reduce，下列对Reduce阶段叙述正确的是（）A、主要分为shuffle和sort这2个阶段B、这个阶段过程中，key的分组规则是不可更改的C、其中的shuffle 和sort是同时进行的D、Reduce 数目的增加不会增加系统的开销10、Hadoop中，Reducer的三个阶段是（）A、Shuffle——Sort——ReduceB、Shuffle——Reduce——SortC、Reduce——Shuffle——SortD、Sort——Shuffle——Reduce11、请问在Hadoop体系结构中，按照由下到上顺序，排列正确的是（）Pig Hive Crunch都是运行在MapReduce , Spark ,或者Tez之上的处理框架Avro是一个克服了Writable部分不足的序列化系统A、Common Hive HDFSB、Common MapReduce PigC、HDFS MapReduceHBaseD、HDFS Avro HBase12、关于Hadoop下列说法错误的是（）A、HDFS采用了Master/Slave的架构模型B、Namenode负责维护文件系统的命名空间C、Datanode执行比如打开、关闭、重命名文件操作D、HDFS暴露了文件系统的命名空间，允许用户以文件的形式在上面存储数据13、下面哪个选项不是我们需要Hadoop的主要原因（）A、我们需要处理PB级别的数据B、为每个应用建立一个可靠的系统是很昂贵的C、几乎每天都有结点坏掉D、把一个任务分割成多个子任务的方式是不好的14、hadoop中下面哪项操作是不需要记录进日志的（）A、打开文件B、重命名C、编译文件D、删除操作15、hadoop中，下面关于向文件系统中添加一个文件的过程，错误的是（）A、需要创建路径的父目录B、需要创建一个新的INode文件C、将新的INode文件加入到name space中去D、将所有操作记录到EditLog中去16、在安装配置好Hadoop集群后，查看Namenode节点的端口是以下哪个（）A、50030B、50070C、60010D、6003017、下面哪个不是Hadoop的输出数据格式（）A、文本输出B、二进制输出C、单一输出D、多输出18、要在HDFS的根目录中建立一个叫hadoo的目录，下面哪一条命令是正确的（）A、mkdirhadooB、mkdir /hadooC、hadoopmkdirhadooD、hadoop fs –mkdir /hadoo19、下面有关NameNode 安全模式(safe mode)说法错误的是（）A、name space处于安全模式时只能被读取B、NameNode 启动时自动进入安全模式C、调用setSafeMode()函数能够打开或关闭安全模式D、安全模式下不能够复制或删除文件中的数据块20、以下情况除哪项发生时balancer便会自动退出（）A、集群平衡或者没有数据块可以移动B、在连续三次迭代中没有块移动C、与namenode传输时发生异常D、另一个balancer在运行21、下列说法错误的是（）A、Partitioner负责控制map输出结果key的分割B、Reporter用于MapReduce应用程序报告进度C、OutputCollector收集Mapper或Reducer输出数据D、Reduce的数目不可以是022、下列说法错误的是（）A、JobServer是用户作业和JobTracker交互的主要接口B、JobClient为用户提供提交作业功能C、JobClient提供访问子任务报告和日志功能D、JobClient提供获取MapReduce集群状态信息功能23、Hadoop的哪个包的功能是表示层，将各种数据编码/解码，方便在网络上传输（）A、fsB、ipcC、ioD、net24、Hadoop的哪个包的功能是根据DDL（数据描述语言）自动生成他们的编解码函数（）A、recordB、metricsC、utilD、tool25、hadoop中什么类提供了连接到HDFS系统并执行文件操作的基本功能（）A、FSDirectoryB、DFSClientC、ClientProtocolD、FSInputStream26、MapReduce程序最基本的组成部分不包括（）A、Mapper类B、Reducer类C、创建JobConf的执行程序D、Conbiner类27、下列关于Hadoop中Shell类说法错误的是（）A、Shell类是一个继承类B、Shell类定义了如何在当前文件系统环境中，通过命令进行交互C、Shell类定义了静态的字符串命令D、Shell类定义了与实现命令的执行相关的属性28、如果想在hadoop文件系统中通过键盘输入来创建一个文件，你应该使用下列哪种方法（）A、copy()B、copyFromStdin()C、printToStdout()D、copyFromLocal()29、关于FsShell的说法，下面哪一项是正确的（）A、FsShell和UNIX系统中的shell一样功能强大B、FsShell实际上是一个Java应用程序C、可以在FsShell中执行HDFS文件系统中的可执行文件D、FsShell实际上是调用UNIX的shell命令来实现复制操作30、当__时，HDFS启动balancer（）A、threshold =<ratio(Datanode)-ratio(Rack)B、threshold=<ratio(Datanode)-ratio(Rack)C、threshold< ratio(Rack) -ratio(Datanode)D、threshold >=|ratio(Datanode)-ratio(Rack)31、执行数据块复制的任务时，是什么和什么在进行通信（）A、client and namenodeB、client and datanodeC、namenode and datanodeD、datanode and datanode32、关于NameNode和Secondary NameNode的说法错误的是（）A、NameNode上实现的NamenodeProtocol用于二者命令通信B、数据的通信使用的是ftp协议（http协议）C、数据通信使用的是http协议D、协议的容器是jetty33、关于Secondary NameNode的说法错误的是（）A、main方法是Secondary NameNode的入口，它启动线程执行runB、启动前的构造过程主要是创建和NameNode通信的接口和启动HTTP 服务器C、run方法每隔一段时间执行doCheckpoint()D、main方法从NameNode上取下FSImage和日志，和本地合并再传回NameNode （应该是run方法完成）34、Hadoop中节点之间的进程通信是通过什么协议来实现的（）A、HTTPB、SMTPC、SSHD、RPC35、下面有关NameNode和secondary NameNode通信协议说法错误的是（）A、secondary NameNode使用NamenodeProtocol协议与NameNode 进行通信B、如果文件系统处于安全模式，那么关闭当前日志并打开新的日志操作会失败C、如果旧的编辑日志丢失了，那么滚动fsImage 日志会失败D、secondary NameNode 可以从NameNode中得到任何datanode的块及其位置36、下面有关NameNode 和 DataNode 之间的Hearbeat说法错误的是（）A、DataNode 通过发送Heartbeat 告诉NameNode自己还"活着"，并且工作正常B、HeatBeat包含DataNode状态相关信息C、NameNode回复HeartBeat 一些DatanodeCommandD、如果NameNode在某一固定时间内没有收到Datanode的Heatbeat，那么它会要求 DataNode发送Heartbeat37、下面哪个协议用于Datanode和Namenode之间的通信（）A、DatanodeProtocolB、NamenodeProcotolC、ClientProtocolD、ClientDatanodeProtocol38、下面哪个协议用于Secondary Namenode和Namenode之间的通信（）A、DatanodeProtocolB、NamenodeProcotolC、ClientProtocolD、ClientDatanodeProtocol39、在Hadoop上提交Job时不涉及哪个实体（）A、客户端B、HDFSC、SecondaryNodeD、JobTracker40、MapReduce处理流程中Reduce如何获取Map端结果（）A、Map端发送B、Reduce端获取C、Map端发送到中间管理节点，Reduce统一获取D、随机发送。

(完整版)hadoop例题

(完整版)hadoop常见笔试题答案

hadoop练习题 带答案

hadoop练习题

Hadoop题库(第1-3-8章)

（完整版）hadoop例题

(完整版)hadoop习题册

Hadoop基础(习题卷8)

Hadoop基础(习题卷18)

Hadoop试题试题库完整

Hadoop基础(习题卷3)

Hadoop基础(习题卷1)

Hadoop基础(习题卷11)

Hadoop基础(习题卷2)

完整版hadoop习题册

hadoop面试题（自己整理版）

hadoop面试题目(3篇)

Hadoop试题试题库完整

Hadoop试题试题库

(完整版)hadoop练习题--带答案

hadoop练习题带答案