最新Hadoop期中考试-测试资料

合集下载

Hadoop试题题库

1.以下哪一项不属于H a d o o p可以运行的模式___C___。

A.单机（本地）模式B.伪分布式模式C.互联模式D.分布式模式的作者是下面哪一位__B____。

3.下列哪个程序通常与NameNode在同一个节点启动__D___。

默认BlockSize的大小是___B___。

5.下列哪项通常是集群的最主要瓶颈____C__。

B.网络C.磁盘IOD.内存6.下列关于MapReduce说法不正确的是_____C_。

是一种计算框架来源于google的学术论文程序只能用java语言编写隐藏了并行计算的细节，方便使用是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是__D____。

A．一次写入，少次读B．多次写入，少次读C．多次写入，多次读D．一次写入，多次读依靠__A____存储底层数据。

依赖___D___提供强大的计算能力。

依赖___A___提供消息通信机制12.下面与HDFS类似的框架是___C____？13.关于SecondaryNameNode下面哪项是正确的___C___。

A.它是NameNode的热备B.它对内存没有要求C.它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间应与NameNode部署到一个节点14.大数据的特点不包括下面哪一项___D___。

A.巨大的数据量B.多结构化数据C.增长速度快D.价值密度高HBase测试题来源于哪一项？CATheGoogleFileSystemBMapReduceCBigTableDChubby2.下面对HBase的描述哪些是正确的？B、C、DA不是开源的B是面向列的C是分布式的D是一种NoSQL数据库依靠（）存储底层数据AAHDFSBHadoopCMemoryDMapReduce依赖（）提供消息通信机制AAZookeeperBChubbyCRPCDSocket依赖（）提供强大的计算能力DAZookeeperBChubbyCRPCDMapReduce与HBase的关系，哪些描述是正确的？B、CA两者不可或缺，MapReduce是HBase可以正常运行的保证B两者不是强关联关系，没有MapReduce，HBase可以正常运行CMapReduce可以直接访问HBaseD它们之间没有任何关系7.下面哪些选项正确描述了HBase的特性？A、B、C、DA高可靠性B高性能C面向列D可伸缩8.下面与Zookeeper类似的框架是？DAProtobufBJavaCKafkaDChubby9.下面与HDFS类似的框架是？CANTFSBFAT32CGFSDEXT310.下面哪些概念是HBase框架中使用的？A、CAHDFSBGridFSCZookeeperDEXT3第二部分：HBase核心知识点含义是？AA日志结构合并树B二叉树C平衡二叉树D基于日志结构的合并树12.下面对LSM结构描述正确的是？A、CA顺序存储B直接写硬盘C需要将数据Flush到磁盘D是一种搜索平衡树更能保证哪种操作的性能？BA读B写C随机读D合并的读操作和写操作是独立的？AA是。

hadoop常见笔试题答案

Hadoop测试题一．填空题，1分（41空），2分（42空）共125分1.(每空1分) datanode 负责HDFS数据存储。

2.(每空1分)HDFS中的block默认保存 3 份。

3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。

4.(每空1分)hadoop运行的模式有：单机模式、伪分布模式、完全分布式。

5.(每空1分)Hadoop集群搭建中常用的4个配置文件为：、、、。

6.(每空2分)HDFS将要存储的大文件进行分割，分割后存放在既定的存储块中，并通过预先设定的优化处理，模式对存储的数据进行预处理，从而解决了大文件储存与计算的需求。

7.(每空2分)一个HDFS集群包括两大部分，即namenode 与datanode 。

一般来说，一个集群中会有一个namenode 和多个datanode 共同工作。

8.…9.(每空2分) namenode 是集群的主服务器，主要是用于对HDFS中所有的文件及内容数据进行维护，并不断读取记录集群中datanode 主机情况与工作状态，并通过读取与写入镜像日志文件的方式进行存储。

10.(每空2分) datanode 在HDFS集群中担任任务具体执行角色，是集群的工作节点。

文件被分成若干个相同大小的数据块，分别存储在若干个datanode 上，datanode 会定期向集群内namenode 发送自己的运行状态与存储内容，并根据namnode 发送的指令进行工作。

11.(每空2分) namenode 负责接受客户端发送过来的信息，然后将文件存储位置信息发送给client ，由client 直接与datanode 进行联系，从而进行部分文件的运算与操作。

12.(每空1分) block 是HDFS的基本存储单元，默认大小是128M 。

13.(每空1分)HDFS还可以对已经存储的Block进行多副本备份，将每个Block至少复制到3 个相互独立的硬件上，这样可以快速恢复损坏的数据。

Hadoop试题试题库完整

Hadoop试题试题库完整1. 以下哪⼀项不属于Hadoop可以运⾏的模式___C___。

A. 单机（本地）模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下⾯哪⼀位__B____。

A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与 NameNode 在同⼀个节点启动__D___。

A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认 Block Size的⼤⼩是___B___。

A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。

A. CPUB. ⽹络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。

A. MapReduce是⼀种计算框架B. MapReduce来源于google的学术论⽂C. MapReduce程序只能⽤java语⾔编写D. MapReduce隐藏了并⾏计算的细节，⽅便使⽤8. HDFS是基于流数据模式访问和处理超⼤⽂件的需求⽽开发的，具有⾼容错、⾼可靠性、⾼可扩展性、⾼吞吐率等特征，适合的读写任务是 __D____。

A．⼀次写⼊，少次读C．多次写⼊，多次读D．⼀次写⼊，多次读9. HBase依靠__A____存储底层数据。

A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强⼤的计算能⼒。

A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下⾯与HDFS类似的框架是___C____？A. NTFSB. FAT32C. GFSD. EXT313. 关于 SecondaryNameNode 下⾯哪项是正确的___C___。

Hadoop试题题库

1. 以下哪一项不属于Hadoop可以运行的模式___C___。

A. 单机（本地）模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位__B____。

A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与 NameNode 在同一个节点启动__D___。

A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认 Block Size的大小是___B___。

5. 下列哪项通常是集群的最主要瓶颈____C__。

A. CPUB. 网络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。

A. MapReduce是一种计算框架B. MapReduce来源于google的学术论文C. MapReduce程序只能用java语言编写D. MapReduce隐藏了并行计算的细节，方便使用8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是 __D____。

A．一次写入，少次读B．多次写入，少次读C．多次写入，多次读D．一次写入，多次读9. HBase依靠__A____存储底层数据。

A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强大的计算能力。

A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下面与HDFS类似的框架是___C____？A. NTFSB. FAT32C. GFSD. EXT313. 关于 SecondaryNameNode 下面哪项是正确的___C___。

Hadoop试题试题库完整

. . . . 学习.参考1. 1. 以下哪一项不属于以下哪一项不属于Hadoop 可以运行的模式可以运行的模式___C______C______C___。

A. A. 单机（本地）模式单机（本地）模式B. B. 伪分布式模式伪分布式模式C. C. 互联模式互联模式D. D. 分布式模式分布式模式2. Hadoop 的作者是下面哪一位的作者是下面哪一位__B______B______B____。

A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 3. 下列哪个程序通常与下列哪个程序通常与下列哪个程序通常与 NameNode NameNode NameNode 在同一个节点启动在同一个节点启动在同一个节点启动__D_____D_____D___。

A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 4. HDFS 默认默认默认 Block Size Block Size 的大小是的大小是___B______B______B___。

A.32MBB.64MBC.128MBD.256M5. 5. 下列哪项通常是集群的最主要瓶颈下列哪项通常是集群的最主要瓶颈下列哪项通常是集群的最主要瓶颈____C______C______C__。

A. CPUB. B. 网络网络C. C. 磁盘磁盘IOD. D. 内存内存6. 6. 下列关于下列关于MapReduce 说法不正确的是说法不正确的是_____C______C______C_。

A. MapReduce 是一种计算框架B. MapReduce 来源于google 的学术论文C. MapReduce 程序只能用java 语言编写D. MapReduce 隐藏了并行计算的细节，方便使用8. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是高可扩展性、高吞吐率等特征，适合的读写任务是 __D____ __D____ __D____。

Hadoop期中考试-测试

D. Hive不支持，Presto支持
（20）既然有了Hive，还需要用MapReduce编写程序处理数据吗？（B）
A.不需要
B.需要
2．多选题（每个4分，共20分）
（1）关于HDFS，说法正确的是（ABC）
A．不存在NameNode单点故障问题
B．一个集群可存在多个NameNode对外提供服务
C．HDFS HA和Federation是它的两大特色
Hadoop
1．单选题（每个1.5分，共20分）
（1）Mapreduce擅长哪个领域的计算（A）。
A.离线批处理
B. DAG计算
C.流式计算
D.实时计算
（2）关于MapReduce原理，下面说法错误的是（D）。
A.分为Map和Reduce两个阶段
B. Map阶段由一系列Map任务组成
C. Reduce阶段由一系列Reduce任务组成
D.用户自己指定
HDFS，Block默认大小为128MB。
一个Block文件只能来自于一个文件。
查看一个文件有多少个Block的命令：hdfsfsck /input –files –blocks -locations
（19）Hive和Presto支持标准SQL吗？（BD）
A.都支持
B.都不支持
C. Hive支持，Presto不支持
A. row key
B. column family名称
C.表名
D.列名
E.版本号
F. cell值
数据存储冗余，非常耗费空间
（18）默认情况下，一个MapReduce作业（处理的数据HDFS上的一个目录）的map task个数是由（B）决定的。
A.目录中文件个数

Hadoop测试题

Hadoop测试题（100分）1、下面哪个程序负责HDFS 数据存储？（单选题）【单选题】NodeB.JobtrackerC.DatanodeD.secondaryNameNodeE.tasktracker正确答案: C2、HDfS 中的block 默认保存几份？（单选题）【单选题】A.3 份B.2 份C.1 份D.不确定正确答案: A3、下列哪个程序通常与NameNode 在一个节点启动？（单选题）【单选题】A.SecondaryNameNodeB.DataNodeC.TaskTrackerD.Jobtracker正确答案: D4、Hadoop 作者是哪位？（单选题）【单选题】A.Martin FowlerB.Kent BeckC.Doug cutting正确答案: C5、HDFS 默认Block Size是多少？（单选题）【单选题】A.32MBB.64MBC.128MB正确答案: B6、下列哪项通常是集群的最主要瓶颈？（单选题）【单选题】A.CPUB.网络C.磁盘IOD.内存正确答案: C7、关于SecondaryNameNode 哪项是正确的？（单选题）【单选题】A.它是NameNode 的热备B.它对内存没有要求C.它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间D.SecondaryNameNode 应与NameNode 部署到一个节点正确答案: C8、Client 端上传文件的时候下列哪项正确？（单选题）【单选题】A.数据经过NameNode 传递给DataNodeB.Client 端将文件切分为Block，依次上传C.Client 只上传数据到一台DataNode，然后由NameNode 负责Block 复制工作正确答案: B9、配置机架感知的下面哪项正确？（多选题）【多选题】（10分）A.如果一个机架出问题，不会影响数据读写B.写入数据的时候会写到不同机架的DataNode 中C.MapReduce 会根据机架获取离自己比较近的网络数据正确答案: ABC10、下列哪个是Hadoop 运行的模式？（多选题）【多选题】（10分）A.单机版B.伪分布式C.分布式正确答案: ABC。

Hadoop期中考试-测试

A. HDFS
B. MapReduce
C. HBase
D. YARN
（7）不属于HBase中的术语的是（D）。
A. Column
B. Column Family
C. Row Key
D. Meta
（8）下面关于Hive，说法错误的是（A）。
A. Hive支持所有标准SQL语法
B. Hive底层采用的计算引擎是MapReduce（目前支持Spark、Tez等）
★（5）关于Block和Split两个概念，下面说法错误的是（C）。
A. Block是HDFS中最小的数据存储单位
B. Split是MapReduce中最小的计算单元
C. Block是Split是一一对应关系（默认是一一对应的）
D. Block和Split之间对应关系是任意的，可由用户控制
（6）以下不属于Hadoop内核的组成部分的是（C）。
答：
createtable if not exists test(
id int,
namename string
)
gzip
storedas parquet;
4．编程题（40分）
（1）有一批文件，格式如下：
每行有4列，每一列均是一个整数，列之间采用“.”作为分隔符，将数据按照第二列和第三列分组，每组中第四列所有数之和。注：如果第二列相同，则按照第三列分组，比如上述结果为：
12.13
14.25
11.41
结果中，key为“第二列和第三列”值，value是对应的第四列累加和，key和value之间使用\t分割。
要求：
使用任意语言实现以上功能，写出Mapper和Reducer，并给出相应的作业提交命令（或脚本）。

hadoop练习题--带答案

Hadoop 练习题姓名：分数：单项选择题1.下面哪个程序负责HDFS数据存储。

a)NameNodeb)Jobtrackerc)Datanode √d)secondaryNameNodee)tasktracker2.HDfS中的block默认保存几份？a)3份√b)2份c)1份d)不确定3.下列哪个程序通常与NameNode在一个节点启动？a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker√4.Hadoop作者a)Martin Fowlerb)Kent Beckc)Doug cutting√5.HDFS默认Block Sizea)32MBb)64MB√c)128MB6.下列哪项通常是集群的最主要的性能瓶颈a)CPUb)网络c)磁盘√d)内存7.关于SecondaryNameNode哪项是正确的？a)它是NameNode的热备b)它对内存没有要求c)它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间√d)SecondaryNameNode应与NameNode部署到一个节点8.一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？a) 1b)2√c) 3d) 49.HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。

当运行mapreduce任务读取该文件时input split大小为？a)64MBb)75MB√c)一个map读取64MB，另外一个map读取11MB10.HDFS有一个LZO（with index）文件大小75MB，客户端设置Block大小为64MB。

当运行mapreduce任务读取该文件时input split大小为？a)64MBb)75MBc)一个map读取64MB，另外一个map读取11MB√多选题：11.下列哪项可以作为集群的管理工具a)Puppet√b)Pdsh√c)Cloudera Manager√d)Rsync + ssh + scp√12.配置机架感知的下面哪项正确a)如果一个机架出问题，不会影响数据读写√b)写入数据的时候会写到不同机架的DataNode中√c)MapReduce会根据机架获取离自己比较近的网络数据√13.Client端上传文件的时候下列哪项正确a)数据经过NameNode传递给DataNodeb)Client端将文件以Block为单位，管道方式依次传到DataNode√c)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作d)当某个DataNode失败，客户端会继续传给其它DataNode √14.下列哪个是Hadoop运行的模式a)单机版√b)伪分布式√c)分布式√15.Cloudera提供哪几种安装CDH的方法a)Cloudera manager√b)Tar ball√c)Yum√d)Rpm√判断题：（全部错）16.Ganglia不仅可以进行监控，也可以进行告警。

hadoop练习题--带答案

Hadoop 练习题姓名：分数：单项选择题1.下面哪个程序负责HDFS数据存储。

hadoop考试判断题

hadoop考试判断题Hadoop考试通常涉及许多方面，包括Hadoop的基本概念、架构、组件、工作原理、应用和实践等。

以下是一些可能涉及到的判断题：1. Hadoop是一个开源的分布式计算平台。

(判断题)。

答，是的，这是正确的。

Hadoop是一个开源的分布式计算平台，它提供了可靠、可扩展的分布式计算和存储解决方案。

2. Hadoop的核心组件包括HDFS和YARN。

(判断题)。

答，是的，这是正确的。

Hadoop的核心组件包括Hadoop分布式文件系统（HDFS）用于存储和YARN（Yet Another Resource Negotiator）用于资源管理和作业调度。

3. MapReduce是Hadoop中用于数据处理的编程模型。

(判断题)。

答，是的，这是正确的。

MapReduce是Hadoop中用于大规模数据处理的编程模型，它将作业分解成小的任务并在集群中并行执行。

4. Hadoop生态系统中的Hive是一个用于实时数据处理的工具。

(判断题)。

答，不对，这是错误的。

Hive是Hadoop生态系统中的一个数据仓库工具，它提供了类似SQL的查询语言HiveQL，用于在Hadoop上进行数据分析。

5. Hadoop的高可用性可以通过使用ZooKeeper来实现。

(判断题)。

答，是的，这是正确的。

Hadoop的高可用性可以通过使用ZooKeeper来实现，ZooKeeper是一个分布式的协调服务，可以用于管理Hadoop集群的状态信息。

以上是一些可能涉及到的Hadoop考试判断题，希望能够帮助到你。

如果你还有其他问题，欢迎继续提问。

Hadoop笔试题

原创Hadoop基础题库1.//Hadoop基础2.Doug Cutting所创立的项目的名称都受到其家人的启发，以下项目不是由他创立的项目是3.A． Hadoop4.B． Nutch5.C． Lucene6.D． Solr7.答案：D8.9.配置Hadoop时，JAVA_HOME包含在哪一个配置文件中10.A． hadoop-default.xml11.B． hadoop-env.sh12.C． hadoop-site.xml13.D． configuration.xsl14.答案：B15.知识点：hadoop配置16.17.Hadoop配置文件中，hadoop-site.xml显示覆盖hadoop-default.xml里的内容。

在版本0.20中，hadoop-site.xml被分离成三个XML文件，不包括18.A． conf-site.xml19.B． mapred-site.xml20.C． core-site.xml21.D． hdfs-site.xml22.答案：A23.知识点：hadoop配置24.25.HDFS默认的当前工作目录是/user/$USER，的值需要在哪个配置文件内说明26. A. mapred-site.xml27. B. core-site.xml28. C. hdfs-site.xml29. D. 以上均不是30.答案：B31.知识点：hadoop配置32.33.关于Hadoop单机模式和伪分布式模式的说法，正确的是34.A．两者都起守护进程，且守护进程运行在一台机器上35.B．单机模式不使用HDFS，但加载守护进程36.C．两者都不与守护进程交互，避免复杂性37.D．后者比前者增加了HDFS输入输出以及可检查内存使用情况38.答案：D39.知识点：hadoop配置40.41.下列关于Hadoop API的说法错误的是42.A． Hadoop的文件API不是通用的，只用于HDFS文件系统43.B． Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的44.C． FileStatus对象存储文件和目录的元数据45.D． FSDataInputStream是java.io.DataInputStream的子类46.答案：A47.48.//HDFS49.HDFS的NameNode负责管理文件系统的命名空间，将所有的文件和文件夹的元数据保存在一个文件系统树中，这些信息也会在硬盘上保存成以下文件：50.A．日志51.B．命名空间镜像52.C．两者都是53.答案：C54.知识点：55.56.HDFS的namenode保存了一个文件包括哪些数据块，分布在哪些数据节点上，这些信息也存储在硬盘上。

Hadoop题库(第2-4-9章)

题库（第二、四、九章）第二章单选题1、下面的配置项配置在hadoop哪个配置文件？（A）A、core-site.xmlB、hdfs-site.xmlC、mapred-site.xmlD、yarn-site.xml2、端口50070默认是Hadoop哪个服务的端口？（A）A、NameNodeB、DataNodeC、SecondaryNameNodeD、Yarn3、Hadoop完全分布模式配置免密登录是要？（C）A、实现主节点到其他节点免密登录B、实现从节点到主节点的免密登录C、主节点和从节点任意两个节点之间免密登录D、以上都不是4、安装Hadoop时，发现50070对应的页面无法打开，可以通过下面哪个命令查看某个端口（TCP或UDP）是否在监听?（B）A、psB、netstatC、pingD、ifconfig5、下面哪个目录保存了Hadoop集群的命令（比如启动Hadoop）?（B）A、binB、sbinC、etcD、share6、把公钥追加到授权文件的命令是？（A）A、ssh-copy-idB、ssh-addC、sshD、ssh-keygen7、采用用户user1安装hadoop伪分布式时，解压hadoop安装包采用下面命令：sudo tar -zxvf hadoop-2.7.3.tar.gz -C ~运行ls -al命令显示如果要修改hadoop-2.7.3目录的权限，采用下面哪个命令才有效而且最佳？（D）A、chown user1:user1 hadoop-2.7.3B、chown -R user1:user1 hadoop-2.7.3C、sudo chmod -R 777 hadoop-2.7.3D、sudo chown -R user1:user1 hadoop-2.7.38、下列哪个属性是hdfs-site.xml中的配置？（B）A、fs.defaultFSB、dfs.replicationC、D、yarn.resourcemanager.address9、Hadoop的配置目录在哪里？（ D ）A、/etc/hostsB、/etc/hadoopC、$HADOOP_HOME/confD、$HADOOP_HOME/etc/hadoop10、安装Hadoop集群时，在哪个文件指定从机是哪些机器？（ B ）A、datanodeB、slavesC、yarn-site.xmlD、core-site.xml多选题1、启动HDFS后，jps能看到哪些守护进程？（ ABD ）A、DataNodeB、NameNodeC、NodeManagerD、SecondaryNameNode2、启动YARN后，jps能看到哪些守护进程？（ BC ）A、DataNodeB、NodeManagerC、ResourceManagerD、NameNode判断题( ×) 1、SecondaryNameNode 应与NameNode 部署到一个节点( ×) 2、安装Hadoop时，配置项”dfs.replication”是配置在文件core-site.xml ( √) 3、查看Linux ip的命令是ifconfig( ×) 4、每次启动Hadoop都要格式化文件系统( √) 5、启动Hadoop所有进程的命令是start-all.sh( √) 6、设置免密登录需要先用ssh-keygen生成一对密钥( ×) 7、SecondaryNameNode 是NameNode 的热备份( √) 8、datanode负责存储数据( ×) 9、修改~/.bashrc文件保存后，修改的内容能立即生效( √) 10、在/etc/hosts文件映射ip和主机名称第四章单选题1、YARN Web界面默认占用哪个端口？（B）A、50070B、8088C、50090D、90002、下面哪个YARN的描述不正确的是？（B）A、YARN 指Yet Another Resource Negotiator，是另一种资源协调者B、YARN只支持MapReduce一种分布式计算模式C、YARN最初是为了改善MapReduce的实现D、YARN的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处3、下面哪个不属于YARN的架构的组成部分？（A）A、JobTrackerB、ResourceManagerC、NodeManagerD、Application Master4、YARN哪种调度器采用的是单队列？（C）A、Capacity SchedulerB、Fair SchedulerC、FIFO SchedulerD、以上都不是5、哪种调度器是YARN中默认的资源调度器？（B）A、FIFO SchedulerB、Capacity SchedulerC、Fair SchedulerD、以上都不是6、多用户的情况下，哪个YARN调度器可以最大化集群的吞吐和利用率？（ A）A、Capacity SchedulerB、FIFO SchedulerC、Fair SchedulerD、以上都不是7、YARN中，任务进度监控是向哪个组件汇报的？（C）A、ResourceManagerB、NodeManagerC、ApplicationMasterD、Container8、下图哪个表示YARN里面的 Fair Scheduler？（A）A、如下图B、如下图C、如下图9、关于YARN的说法错误的是？（ D ）A、YARN可以支持除了MapReduce之外的其他计算框架B、YARN是Yet Another Resource Negotiator的缩写C、YARN可以为上层应用提供统一的资源管理和调度D、YARN不是通用的资源管理器10、关于MapReduce1和YARN的对比错误的是？（ B ）A、MapReduce1由JobTracker负责作业调度与任务监控B、YARN的作业调度和任务监控都是由ResourceManager组件完成C、MapReduce1的任务节点叫做TaskTracker，而Yarn的任务节点为NodeManagerD、MapReduce1的资源调配单元为Slot，而Yarn的资源调配单元为Container 多选题1、YARN有哪几种资源调度器？（ ABC ）A、FIFO SchedulerB、Capacity SchedulerC、Fair SchedulerD、Resource Scheduler2、YARN架构的几个组成部分有哪些？（ ABCD ）A、ContainerB、ResourceManagerC、NodeManagerD、Application Master判断题( √ ) 1、在YARN之上可以部署Spark( × ) 2、多用户的情况下，Fair Scheduler可以最大化集群的吞吐和利用率( × ) 3、Hadoop2.0，FIFO Scheduler是YARN中默认的资源调度器( √ ) 4、YARN的FIFO Scheduler采用的是单队列( √ ) 5、启动YARN的命令是start-yarn.sh( √ ) 6、启动YARN之后，jps能看到ResourceManager和NodeManager两个守护进程( × ) 7、Hadoop1.x有YARN组件( × ) 8、YARN默认的调度器是Fair Scheduler( × ) 9、公平调度器是所有队列中的所有任务公平的得到相同资源( √ ) 10、容器调度器在多用户的情况下，可以最大化集群的吞吐和利用率第九章单选题1、Zookeeper服务端默认的对外服务端口是？（C）A、8088B、3888C、2181D、28882、Zookeeper生产环境一般采用多少台机器组成集群？（D）A、1B、3C、5D、奇数台(且大于1）E、偶数台(且大于1）3、下面就Zookeeper的配置文件zoo.cfg的一部分，请问initLimit表示的含义是？（A）A、Leader-Follower初始通信时限B、Leader-Follower同步通信时限C、Client-Server通信心跳时间D、Client-Server初始通信时限4、关于ZooKeeper的说法错误的是？（ D ）A、ZooKeeper是一个高可用的分布式数据管理和协调框架B、能够很好的保证分布式环境中数据的一致性C、越来越多的分布式系统（Hadoop、HBase、Kafka）中使用ZooKeeperD、Hadoop的高可用不需要用到ZooKeeper5、ZooKeeper树中节点叫做什么？（ A ）A、ZnodeB、ZknodeC、inodeD、Zxid6、关于ZooKeeper顺序节点的说法正确的是？（C ）A、创建顺序节点的命令为：create /test value1B、创建顺序节点时不能连续执行创建命令，否者报错节点已存在C、通过顺序节点，可以创建分布式系统唯一IDD、顺序节点的序号能无限增加7、关于ZooKeeper临时节点的说法正确的是？（B ）A、创建临时节点的命令为：create -s /tmp myvalueB、一旦会话结束，临时节点将被自动删除C、临时节点不能手动删除D、临时节点允许有子节点8、下列选项哪个不是ZooKeeper的应用场景？（D ）A、Master选举B、分布式锁C、分布式协调/通知D、存储非关系型数据9、关于ZooKeeper的说法错误的是？（A ）A、ZooKeeper不存在单点故障的情况B、ZooKeeper服务端有两种重要的角色是Leader和FollowerC、ZooKeeper Leader挂掉之后会自动在其他机器选出新的LeaderD、客户端可以连接到ZooKeeper集群中任一台机器10、关于ZooKeeper的特性说法错误的是？（D ）A、能改变ZooKeeper服务器状态的操作称为事务操作B、是版本机制有效避免了数据更新时出现的先后顺序问题C、当节点发生变化时，通过watcher机制，可以让客户端得到通知D、watch能触发多次多选题1、下列选项哪些是ZooKeeper的应用场景？（ABCD ）A、Master选举B、分布式锁C、数据发布与订阅D、心跳检测2、ZooKeeper的节点类型有？（ABC）A、临时节点B、持久节点C、顺序节点D、监控节点判断题( × ) 1、ZooKeeper服务端默认的对外服务端口是3888( √) 2、ZooKeeper的Znode保存的数据不能超过1MB( √ ) 3、ZooKeeper的close命令会关闭当前连接，可用connect 再次连接，不会退出客户端( × ) 4、ZooKeeper通过命令“create -s /tmp tmpvalue”可以创建一个临时节点( √ ) 5、Zab为原子消息广播协议，是Zookeeper数据一致性的核心算法( √ ) 6、ZooKeeper Server端中存在一个角色为Leader的节点，其他节点都为Follower( √ ) 7、进入Zookeeper客户端的命令是zkCli.sh( √ ) 8、输入help查看ZooKeeper的命令帮助( × ) 9、ZooKeeper用ls命令查看znode的值( × ) 10、ZooKeeper的一个应用场景为Hadoop Federation。

hadoop练习题--带答案

hadoop练习题--带答案Hadoop 练习题姓名：分数：单项选择题1.下面哪个程序负责HDFS数据存储。

a)NameNodeb)Jobtrackerc)Datanode √d)secondaryNameNodee)tasktracker2.HDfS中的block默认保存几份？a)3份√b)2份c)1份d)不确定3.下列哪个程序通常与NameNode在一个节点启动？a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker√4.Hadoop作者a)Martin Fowlerb)Kent Beckc)Doug cutting√5.HDFS默认Block Sizea)32MBb)64MB√c)128MB6.下列哪项通常是集群的最主要的性能瓶颈a)CPUc)磁盘√d)内存7.关于SecondaryNameNode哪项是正确的？a)它是NameNode的热备b)它对内存没有要求c)它的目的是帮助NameNode合并编辑日志，减少NameNode 启动时间√d)SecondaryNameNode应与NameNode部署到一个节点8.一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？a)1b)2√c)3d)49.HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。

当运行mapreduce任务读取该文件时input split大小为？a)64MBb)75MBc)一个map读取64MB，另外一个map读取11MB√多选题：11.下列哪项可以作为集群的管理工具a)Puppet√c)Cloudera Manager√d)Rsync + ssh + scp√12.配置机架感知的下面哪项正确a)如果一个机架出问题，不会影响数据读写√b)写入数据的时候会写到不同机架的DataNode中√c)MapReduce会根据机架获取离自己比较近的网络数据√13.Client端上传文件的时候下列哪项正确a)数据经过NameNode传递给DataNodeb)Client端将文件以Block为单位，管道方式依次传到DataNode√c)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作d)当某个DataNode失败，客户端会继续传给其它DataNode √14.下列哪个是Hadoop运行的模式a)单机版√b)伪分布式√c)分布式√15.Cloudera提供哪几种安装CDH的方法a)Cloudera manager√b)Tar ball√c)Yum√d)Rpm√判断题：（全部错）16.Ganglia不仅可以进行监控，也可以进行告警。

hadoop考试试题

hadoop 考试一试题您的姓名：[填空题 ] *_________________________________1.Spark 是用一下哪一种编程语言实现的？[单项选择题 ] *（）A.CB.C++;C.JAVA; (正确答案 )D.Scala2.FusionInsight Manager对服务的管理操作，下边说法错误的选项是？（）[ 单项选择题 ] *A.可对服务进行启停重启操作；B.能够增添和卸载服务 ;C.可设置不常用的服务隐蔽或显示;(正确答案 )D.能够查察服务的目前状态;3.FusionInsight HD 集群升级，一下描绘正确的选项是？（）*A. 升级过程中不可以够操作准备OMS 倒换 ;(正确答案 )B.集群内全部主机的root 账户密码要保持一致 ;(正确答案 )C.保持网络畅达，防止网络问题致使升级异样;(正确答案 )D.察看期不可以做扩容 ;(正确答案 )4.FusionInsight HD Loader 在创立作业时，连结器(Connector)有什么用？（）[单项选择题 ] *A. 确立有哪些转变步骤 ;B.供给优化参数，提高数据导出性能;C.配置数据怎样与外面数据进行连结;(正确答案 )D.配置数据怎样与内部数据进行连结;5.以下哪个 HDFS 命令可用于检测数据块的完好性？（）[ 单项选择题 ] *A.hdfs fsck /;(正确答案 )B.hdfs fsck / -delete;C.hdfs dfsadmin -report;D.hdfs balancer -threshold 1;6.YARN 中设置行列 QueueA 最大使用资源里，需要配置哪个参数？（）[单项选择题 ]*A.yarn scheduler capacty root QueueA user-limit-factor;B.yarn scheduler capacty root QueueA minimum-user-limit-percent;C.yarn scheduler capacty root QueueA state;D.yarn scheduler capacty root QueueA maximum-capacity;(正确答案 )7.Flume 的数据流能够依据headers的信息发送到不一样的channel中。

hadoop练习题--带答案

Hadoop 练习题姓名：分数：单项选择题1.下面哪个程序负责HDFS数据存储。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hadoop期中考试1．单选题（每个1.5分，共20分）（1）Mapreduce擅长哪个领域的计算（ A ）。

A. 离线批处理B. DAG计算C. 流式计算D. 实时计算（2）关于MapReduce原理，下面说法错误的是（ D ）。

A. 分为Map和Reduce两个阶段B. Map阶段由一系列Map任务组成C. Reduce阶段由一系列Reduce任务组成D. Map阶段与Reduce阶段没有任何依赖关系（3）HDFS默认副本数是（ C ）。

A. 1B. 2C. 3D. 4（4）不属于HDFS架构组成部分是（ D ）。

A. NameNodeB. Secondary NameNodeC. DataNodeD. TaskTracker（Hadoop MapReduce 1.0的组件）★（5）关于Block和Split两个概念，下面说法错误的是（ C ）。

A. Block是HDFS中最小的数据存储单位B. Split是MapReduce中最小的计算单元C. Block是Split是一一对应关系（默认是一一对应的）D. Block和Split之间对应关系是任意的，可由用户控制（6）以下不属于Hadoop内核的组成部分的是（ C ）。

A. HDFSB. MapReduceC. HBaseD. YARN（7）不属于HBase中的术语的是（ D ）。

A. ColumnB. Column FamilyC. Row KeyD. Meta（8）下面关于Hive，说法错误的是（ A ）。

A. Hive支持所有标准SQL语法B. Hive底层采用的计算引擎是MapReduce（目前支持Spark、Tez等）C. Hive提供的HQL语法，与传统SQL很类似D. Hive Server可采用MySQL存储元数据信息（9）通常而言，一个标准的生产环境（考虑成本、效益等）中，Zookeeper实例个数不可能是（ B ）。

A. 3B. 4C. 5D. 7（10）Flume的主要作用是（ C ）。

A. 数据处理和分析B. 数据存储C. 数据收集D. 网络爬虫（11）HBase支持多语言（比如C++、Python等）访问，为实现该功能，它采用的开源软件是（ C ）。

A. protobufB. 自定义网络协议C. thriftD. avro（12）关于HDFS和HBase，说法错误的是（ D ）。

A．HDFS不能随机读写，HBase可以B．HDFS适合存储大文件，HBase可以存储小文件C．HBase底层采用了HDFSD．HDFS和HBase无直接关系（13）YARN和MapReduce的关系是（ A ）。

A. MapReduce是一个计算框架，可运行在YARN之上B．YARN是一个计算框架，可运行在MapReduce之上C．MapReduce和YARN无直接关系D．以上回答均不正确★★★（14）关于MapReduce中的数据本地性，下面方法正确的是（A B ）。

A．Map Task和Reduce Task都会考虑数据本地性B．只有Map Task会考虑数据本地性（Reduce阶段是从Map阶段拉取Shuffle数据的）C．只有Reduce Task会考虑数据本地性D．Map Task和Reduce Task都不考虑数据本地性（15）与Hive相比，Presto主要优势是（ C ）。

A．利用MapReduce进行分布式计算，更加高效B．完全分布式计算，可以充分利用集群资源C．MPP架构，全内存计算D．有很强的容错性（16）下面哪种存储格式是Hive中常用的列式存储格式（ D ）。

A. Text FileB. Sequence FileC. ParquetD. ORC★(17) 下面哪个信息不会存储在HBase的一个cell（E C ）。

A. row keyB. column family名称C. 表名D. 列名E. 版本号F. cell值数据存储冗余，非常耗费空间（18）默认情况下，一个MapReduce作业（处理的数据HDFS上的一个目录）的map task 个数是由（ B ）决定的。

A. 目录中文件个数B. 目录对应的block数目C. 默认个数是1D. 用户自己指定HDFS，Block默认大小为128MB。

一个Block文件只能来自于一个文件。

查看一个文件有多少个Block的命令：hdfs fsck /input –files –blocks -locations（19）Hive和Presto支持标准SQL吗？（B D）A. 都支持B. 都不支持C. Hive支持，Presto不支持D. Hive不支持，Presto支持（20）既然有了Hive，还需要用MapReduce编写程序处理数据吗？（ B ）A. 不需要B. 需要2．多选题（每个4分，共20分）（1）关于HDFS，说法正确的是（ABC ）A．不存在NameNode单点故障问题B．一个集群可存在多个NameNode对外提供服务C．HDFS HA和Federation是它的两大特色D．不能存储小文件（2）关于Kafka，说法正确的是（BCD ）A．是一个分布式key/value存储系统B．由producer、broker和consumer等角色构成C．通过zookeeper进行服务协调D．消息可以存成多个副本以达到容错的目标（3）关于MapReduce，说法正确的是（ACD ）A．MapReduce具有容错性，一台节点挂掉不会导致整个应用程序运行失败B．所有MapReduce程序公用一个ApplicationMasterC．MapReduce程序可以运行在YARN之上（也可以运行在本地）D．MapReduce是Hive默认的计算引擎（4）用户可使用哪几种语言开发MapReduce应用程序（ABCD ）A.C++B.JavaC.PHPD.Go（5）下面哪几个属于YARN自带的资源调度器（BCD ）A．Deadline SchedulerB．FIFO（先进先出）C．Capacity Scheduler（容错调度系统）D．Fair Scheduler（公平调度系统）3．简答题（每个5分，共10分）（1）描述MapReduce作业从提交到YARN上，到运行结束的整个过程，请用步骤1，步骤2，…，描述。

答：步骤1，客户端提交请求到Yarn的ResourceManager步骤2，RM确定一个AppMaster步骤3，AppMaster向RM申请NodeManager步骤4，AppMaster将Task发送给NodeManager仅限执行步骤5，AppMaster负责收集NodeManager的运行结果步骤6，AppMaster将结果返回给客户端（2）★试描述如何对Hadoop Streaming程序进行调试？并举出一个例子。

答：？单机运行，本地测试：1.txt：cat，管道输入Mapper，sort（3）试写出以下操作的shell命令：1）在HDFS上创建目录/home/test答：hdfs dfs -mkdir /homehdfs dfs -mkdir /home/test或hdfs dfs -mkdir -p /home/test2）将正在运行的ID为application_123132131_0001的应用程序杀死答：3）查看HDFS上文件/home/test/1.txt的大小答：hdfs dfs -ls /home/test/1.txt4）在Hive中创建一个parquet表，采用gzip压缩格式，该表名为test，包含两列：int类型名为id的列和string类型名为namename的列。

如何在Presto中创建这个表，有何不同？答：create table if not exists test(id int,namename string)gzipstored as parquet;4．编程题（40分）（1）有一批文件，格式如下：11.12.1.211.14.2.311.11.4.111.12.1.111.14.2.2每行有4列，每一列均是一个整数，列之间采用“.”作为分隔符，将数据按照第二列和第三列分组，每组中第四列所有数之和。

注：如果第二列相同，则按照第三列分组，比如上述结果为：12.1 314.2 511.4 1结果中，key为“第二列和第三列”值，value是对应的第四列累加和，key和value之间使用\t分割。

要求：使用任意语言实现以上功能，写出Mapper和Reducer，并给出相应的作业提交命令（或脚本）。

答：（根据WordCount实例进行改造）Mapper:String [] values = value.toString().split(“\\.”);Text outputKey = new Text(values[1]+’.’+values[2]);IntWritable outputValue = new IntWritable(Integer.parsetInt(values[3]));Context.write(outputKey, outputValue);Reducer:无需调整（2）编写MapReduce程序实现以下功能：1）在Kafka上创建topic，名为“aura”，包含5个partition2）编写producer，将1~100000依次写入该topic，每个数字作为一条消息写入3）用Java语言实现一个consumer，读取aura中的数据，并写入到HDFS的/data/aura 目录下4）如何使用MapReduce实现3）中的功能？。