Hadoop试题试题库

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1. 以下哪一项不属于Hadoop可以运行的模式___C___。

A. 单机(本地)模式
B. 伪分布式模式
C. 互联模式
D. 分布式模式
2. Hadoop的作者是下面哪一位__B____。

A. Martin Fowler
B. Doug cutting
C. Kent Beck
D. Grace Hopper
3. 下列哪个程序通常与NameNode 在同一个节点启动__D___。

A. TaskTracker
B. DataNode
C. SecondaryNameNode
D. Jobtracker
4. HDFS 默认Block Size的大小是___B___。

A.32MB
B.64MB
C.128MB
D.256M
5. 下列哪项通常是集群的最主要瓶颈____C__。

A. CPU
B. 网络
C. 磁盘IO
D. 内存
6. 下列关于MapReduce说法不正确的是_____C_。

A. MapReduce是一种计算框架
B. MapReduce来源于google的学术论文
C. MapReduce程序只能用java语言编写
D. MapReduce隐藏了并行计算的细节,方便使用
8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是__D____。

A.一次写入,少次读
B.多次写入,少次读
C.多次写入,多次读
D.一次写入,多次读
9. HBase依靠__A____存储底层数据。

A. HDFS
B. Hadoop
C. Memory
D. MapReduce
10. HBase依赖___D___提供强大的计算能力。

A. Zookeeper
B. Chubby
C. RPC
D. MapReduce
11. HBase依赖___A___提供消息通信机制
A. Zookeeper
B. Chubby
C. RPC
D. Socket
12. 下面与HDFS类似的框架是___C____?
A. NTFS
B. FAT32
C. GFS
D. EXT3
13. 关于SecondaryNameNode 下面哪项是正确的___C___。

A. 它是NameNode 的热备
B. 它对内存没有要求
C. 它的目的是帮助NameNode 合并编辑日志,减少NameNode 启动时间
D. SecondaryNameNode 应与NameNode 部署到一个节点
14. 大数据的特点不包括下面哪一项___D___。

A. 巨大的数据量
B. 多结构化数据
C. 增长速度快
D. 价值密度高
HBase测试题
1. HBase来源于哪一项?C
A The Google File System
B MapReduce
C BigTable
D Chubby
2. 下面对HBase的描述哪些是正确的?B、C、D
A 不是开源的
B 是面向列的
C 是分布式的
D 是一种NoSQL数据库
3. HBase依靠()存储底层数据A
A HDFS
B Hadoop
C Memory
D MapReduce
4. HBase依赖()提供消息通信机制A
A Zookeeper
B Chubby
C RPC
D Socket
5. HBase依赖()提供强大的计算能力D
A Zookeeper
B Chubby
C RPC
D MapReduce
6. MapReduce与HBase的关系,哪些描述是正确的?B、C
A 两者不可或缺,MapReduce是HBase可以正常运行的保证
B 两者不是强关联关系,没有MapReduce,HBase可以正常运行
C MapReduce可以直接访问HBase
D 它们之间没有任何关系
7. 下面哪些选项正确描述了HBase的特性?A、B、C、D
A 高可靠性
B 高性能
C 面向列
D可伸缩
8. 下面与Zookeeper类似的框架是?D
A Protobuf
C Kafka
D Chubby
9. 下面与HDFS类似的框架是?C
A NTFS
B FAT32
C GFS
D EXT3
10. 下面哪些概念是HBase框架中使用的?A、C
A HDFS
B GridFS
C Zookeeper
D EXT3
第二部分:HBase核心知识点
11. LSM含义是?A
A 日志结构合并树
B 二叉树
C 平衡二叉树
D 基于日志结构的合并树
12. 下面对LSM结构描述正确的是?A、C
A 顺序存储
B 直接写硬盘
C 需要将数据Flush到磁盘
D 是一种搜索平衡树
13. LSM更能保证哪种操作的性能?B
A 读
B 写
C 随机读
D 合并
14. LSM的读操作和写操作是独立的?A
A 是。

B 否。

C LSM并不区分读和写
D LSM中读写是同一种操作
15. LSM结构的数据首先存储在()。

B
A 硬盘上
C 磁盘阵列中
D 闪存中
16 HFile数据格式中的Data字段用于()。

A
A 存储实际的KeyValue数据
B 存储数据的起点
C 指定字段的长度
D 存储数据块的起点
17 HFile数据格式中的MetaIndex字段用于()。

D
A Meta块的长度
B Meta块的结束点
C Meta块数据内容
D Meta块的起始点
18 HFile数据格式中的Magic字段用于()。

A
A 存储随机数,防止数据损坏
B 存储数据的起点
C 存储数据块的起点
D 指定字段的长度
19 HFile数据格式中的KeyValue数据格式,下列选项描述正确的是()。

A、D
A 是byte[]数组
B 没有固定的结构
C 数据的大小是定长的
D 有固定的结构
20 HFile数据格式中的KeyValue数据格式中Value部分是()。

C
A 拥有复杂结构的字符串
B 字符串
C 二进制数据
D 压缩数据
第三部分:HBase高级应用介绍
31 HBase中的批量加载底层使用()实现。

A
A MapReduce
B Hive
C Coprocessor
D Bloom Filter
32. HBase性能优化包含下面的哪些选项?A、B、C、D
A 读优化
B 写优化
C 配置优化
33. Rowkey设计的原则,下列哪些选项的描述是正确的?A、B、C
A 尽量保证越短越好
B 可以使用汉字
C 可以使用字符串
D 本身是无序的
34. HBase构建二级索引的实现方式有哪些?A、B
A MapReduce
B Coprocessor
C Bloom Filter
D Filter
35. 关于HBase二级索引的描述,哪些是正确的?A、B
A 核心是倒排表
B 二级索引概念是对应Rowkey这个“一级”索引
C 二级索引使用平衡二叉树
D 二级索引使用LSM结构
36. 下列关于Bloom Filter的描述正确的是?A、C
A 是一个很长的二进制向量和一系列随机映射函数
B 没有误算率
C 有一定的误算率
D 可以在Bloom Filter中删除元素
第四部分:HBase安装、部署、启动
37. HBase官方版本可以安装在什么操作系统上?A、B、C
A CentOS
B Ubuntu
C RedHat
D Windows
38. HBase虚拟分布式模式需要()个节点?A
A 1
B 2
C 3
D 最少3个
39. HBase分布式模式最好需要()个节点?C
A 1
B 2
C 3
D 最少
关于hadoop的选择题
1、Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是
A.Hadoop
B.Nutch
C.Lucene
D.Solr
答案:D
2、配置Hadoop时,JAVA_HOME包含在哪一个配置文件中
A.hadoop-default.xml
B.hadoop-env.sh
C.hadoop-site.xml
D.configuration.xsl
答案:B
知识点:hadoop配置
3、Hadoop配置文件中,hadoop-site.xml显示覆盖hadoop-default.xml里的内容。

在版本0.20中,hadoop-site.xml被分离成三个XML文件,不包括A.conf-site.xml
B.mapred-site.xml
C.core-site.xml
D.hdfs-site.xml
答案:A
知识点:hadoop配置
4、HDFS默认的当前工作目录是/user/$USER,的值需要在哪个配置文件内说明
A. mapred-site.xml
B. core-site.xml
C. hdfs-site.xml
D. 以上均不是
答案:B
知识点:hadoop配置
5、关于Hadoop单机模式和伪分布式模式的说法,正确的是
A.两者都起守护进程,且守护进程运行在一台机器上
B.单机模式不使用HDFS,但加载守护进程
C.两者都不与守护进程交互,避免复杂性
D.后者比前者增加了HDFS输入输出以及可检查内存使用情况
答案:D
知识点:hadoop配置
6、下列关于Hadoop API的说法错误的是
A.Hadoop的文件API不是通用的,只用于HDFS文件系统B.Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的C.FileStatus对象存储文件和目录的元数据
D.FSDataInputStream是java.io.DataInputStream的子类
答案:A
//HDFS
7、HDFS的NameNode负责管理文件系统的命名空间,将所有的文件和文件夹的元数据保存在一个文件系统树中,这些信息也会在硬盘上保存成以下文件:A.日志
B.命名空间镜像
C.两者都是
答案:C
知识点:
8、HDFS的namenode保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息也存储在硬盘上。

A.正确
B.错误
答案:B
知识点:在系统启动的时候从数据节点收集而成的
9、Secondary namenode就是namenode出现问题时的备用节点
A.正确
B.错误
答案:B
知识点:它和元数据节点负责不同的事情。

其主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并,以防日志文件过大。

合并过后的命名空间镜像文件也在Secondary namenode保存了一份,以防namenode失败的时候,可以恢复。

10、出现在datanode的VERSION文件格式中但不出现在namenode的VERSION 文件格式中的是
A. namespaceID
B. storageID
C. storageType
D. layoutVersion
答案:B
知识点:其他三项是公有的。

layoutVersion是一个负整数,保存了HDFS的持续化在硬盘上的数据结构的格式版本号;namespaceID是文件系统的唯一标识符,是在文件系统初次格式化时生成的;storageType表示此文件夹中保存的是数据节点的类型
11、Client在HDFS上进行文件写入时,namenode根据文件大小和配置情况,
返回部分datanode信息,谁负责将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块
A.Client
B.Namenode
C.Datanode
D.Secondary namenode
答案:A
知识点:HDFS文件写入
12、HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是
A.一次写入,少次读写
B.多次写入,少次读写
C.一次写入,多次读写
D.多次写入,多次读写
答案:C
知识点:HDFS特性
13、HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括
A.利用SequenceFile、MapFile、Har等方式归档小文件
B.多Master设计
C.Block大小适当调小
D.调大namenode内存或将文件系统元数据存到硬盘里
答案:D
知识点:HDFS特性
14、关于HDFS的文件写入,正确的是
A.支持多用户对同一文件的写操作
B.用户可以在文件任意位置进行修改
C.默认将文件块复制成三份存放
D.复制的文件块默认都存在同一机架上
答案:C
知识点:在HDFS的一个文件中只有一个写入者,而且写操作只能在文件末尾完成,即只能执行追加操作。

默认三份文件块两块在同一机架上,另一份存放在其他机架上。

15、Hadoop fs中的-get和-put命令操作对象是
A.文件
B.目录
C.两者都是
答案:C
知识点:HDFS命令
16、Namenode在启动时自动进入安全模式,在安全模式阶段,说法错误的是A.安全模式目的是在系统启动时检查各个DataNode上数据块的有效性B.根据策略对数据块进行必要的复制或删除
C.当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式D.文件系统允许有修改
答案:D
知识点:HDFS安全模式
//MapReduce
17、MapReduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程中充当键或值,以下说法错误的是
A.实现Writable接口的类是值
B.实现WritableComparable<T>接口的类可以是值或键
C.Hadoop的基本类型Text并不实现WritableComparable<T>接口
D.键和值的数据类型可以超出Hadoop自身支持的基本类型
答案:C
18、以下四个Hadoop预定义的Mapper实现类的描述错误的是A.IdentityMapper<K, V>实现Mapper<K, V, K, V>,将输入直接映射到输出B.InverseMapper<K, V>实现Mapper<K, V, K, V>,反转键/值对C.RegexMapper<K>实现Mapper<K, Text, Text, LongWritable>,为每个常规
表达式的匹配项生成一个(match, 1)对
D.TokenCountMapper<K>实现Mapper<K, Text, Text, LongWritable>,当输入的值为分词时,生成(taken, 1)对
答案:B
知识点:InverseMapper<K, V>实现Mapper<K, V, V, K>
19、下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是
A.FSDataInputStream扩展了DataInputStream以支持随机读
B.为实现细粒度并行,输入分片(Input Split)应该越小越好
C.一台机器可能被指派从输入文件的任意位置开始处理一个分片
D.输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割
答案:B
知识点:每个分片不能太小,否则启动与停止各个分片处理所需的开销将占很大一部分执行时间
20、针对每行数据内容为”Timestamp Url”的数据文件,在用JobConf对象conf 设置conf.setInputFormat(WhichInputFormat.class)来读取这个文件时,WhichInputFormat应该为以下的
A.TextInputFormat
B.KeyValueTextInputFormat。

相关文档
最新文档