1+x大数据习题(含答案)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1+x大数据习题（含答案）
一、单选题（共93题，每题1分，共93分）
1.HDFS 启动成功的标识是（）
A、jps 显示 NameNode
B、jps 显示 DataNode
C、jps 显示 SecondaryNameNode
D、jps 显示NameNode\DataNode\SecondaryNameNode
正确答案：D
2.HDFS首先把大数据文件切分成若干个小的数据块，再把这些数据块分别写入不同的节点，这些负责保存文件数据的节点被称为？（）
A、NameNode
B、DataNode
C、SecondaryNameNode
D、Block
正确答案：B
3.关于SecondaryNameNode哪项是正确的？
A、它对内存没有要求
B、SecondaryNameNode应与NameNode部署到一个节点
C、它是NameNode的热备
D、它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间
正确答案：D
4.用于检查节点自身的健康状态的进程是（）
A、ResourceManager
B、NodeManager
C、NameNode
D、DataNode
正确答案：B
5.关于HDFS回收站描述正确的是？（）
A、HDFS回收站默认开启
B、HDFS回收站中的文件文件像Windows回收站一样，如果不清空回收站，文件会一直保留在回收站。

C、HDFS为每一个用户都创建了回收站，这个类似操作系统的回收站。

位置是/user/用户名/.Trash/
D、用户不能手动清空回收站中的内容
正确答案：C
node 在启动时自动进入安全模式，在安全模式阶段，说法错误的是（）
A、安全模式目的是在系统启动时检查各个 DataNode 上数据块的有效性
B、根据策略对数据块进行必要的复制或删除
C、当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式
D、文件系统允许有修改
正确答案：D
7.大数据分析平台的实施流程顺序是（）。

A与甲方确定总体计划B组建项目团队C部署环境准备D应用集成及数据集成E 系统安装和调试
A、BACED
B、CABED
C、ADCBE
D、DABCE
正确答案：A
8.列出mysql数据库中的所有数据库sqoop命令是?
A、sqoop import –connect
B、sqoop list-tables –connect
C、sqoop create-hive-table –connect
D、sqoop list-databases –connect
正确答案：D
9.在确认客户需求，进行确认需求调研的时候，以下说法正确的是（）。

A、按计划有步骤的确定客户需求调研。

B、将客户的想法记录下来，就能解决客户的实际问题。

C、确定客户需求调研的过程中，不可避免的会出现客户提出一些现有条件下根本无法实现或者即使实现也非常困难的要求，我们要无条件去满足客户的需求。

D、先了解细节需求，再了解宏观需求。

正确答案：A
10.关于 HDFS 的文件写入，正确的是（）
A、支持多用户对同一文件的写操作
B、用户可以在文件任意位置进行修改
C、默认将文件块复制成三份存放
D、复制的文件块默认都存在同一机架上
正确答案：C
11.以下选项哪个命令可以生成公钥（）
A、nmcli con sh
B、nmcli dev
C、ssh-keygen
D、ifup team0
正确答案：C
12.关于培训的总体目标、定制培训课程和内容和培训形式，以下说法正确的是（）。

A、系统使用人员的培训目的是使其可以独立完成大数据平台的日常维护，解决一般问题。

B、培训过程中将针对不同的用户和不同的培训内容采用相同的培训方案，以达到最佳的培训效果。

C、实践培训主要针对于技术开发人员及系统维护和客户。

D、培训形式包括集中培训、现场培训、针对性培训。

正确答案：D
13.Hadoop类库中最终面向用户提供的接口类是_____。

该类是个抽象类，只能通过类的get方法得到具体类？（）
A、Configuration类
B、FileSystem类
C、Path类
D、URI类
正确答案：B
14.下列sink中哪些是flume不支持的sink
A、HDFS sink
B、kafka sink
C、memory sink
D、file roll sink
正确答案：C
答案解析：Flume支持的sinks类型有：HDFS Sink、Hive Sink、Logger Sink、Avro SinkThrift Sink、IRC Sink、File Roll Sink、Null Sink、HBaseSink、Kafka Sink、HTTP Sink、Custom Sink、ElasticSearchSink、MorphlineSolrSink
15.下面哪个程序负责HDFS数据存储。

A、NameNode
B、Jobtracker
C、Datanode
D、secondaryNameNode
E、tasktracker
正确答案：C
16.Zookeeper生产环境一般采用多少台机器组成集群？（ D ）
A、1
B、3
C、5
D、奇数台(且大于1）
E、偶数台(且大于1）
正确答案：D
17.关于Sqoop数据的导入导出描述不正确的是？（）
A、实现从MySQL到Hive的导入导出
B、实现从MySQL到Oracle的导入导出
C、实现从HDFS到Oracle的导入导出
D、实现从HDFS到MySQL的导入导出
正确答案：B
18.下列描述中，哪项不属于 Sqoop 的缺点（）
A、无法控制任务的并发度
B、格式紧耦合
C、安全机制不够完善
D、connector 必须符合 JDBC 模型
正确答案：A
19.在文件属性中，文件的权限用第列字符表示。

A、2-10
B、1-5
C、1-8
D、3-9
正确答案：A
20.整个大数据平台按其职能划分为五个模块层次，运行环境层是（ )
A、运行环境层为基础设施层提供运行时环境，它由 2 部分构成，即操
作系统和运行时环境。

B、基础设施层由 2 部分组成：Zookeeper 集群和 Hadoop 集群。

它为基础平台层提供基础设施服务
C、基础平台层由 3 个部分组成：任务调度控制台、HBase 和 Hive。

它为用户网关层提供基础服务调用接口。

D、用户网关层用于为终端客户提供个性化的调用接口以及用户的身份认证，是用户唯一可见的大数据平台操作入口。

正确答案：A
21.下列哪项通常是集群的最主要的性能瓶颈
A、CPU
B、网络
C、磁盘
D、内存
正确答案：C
22.Hadoop完全分布模式配置免密登录是要？（）
A、实现主节点到其他节点免密登录
B、实现从节点到主节点的免密登录
C、主节点和从节点任意两个节点之间免密登录
D、以上都不是
正确答案：C
23.下列有关flume的描述不正确的是
A、flume是Apache的一个子项目
B、flume主要是一个日志采集，传输系统
C、flume和sqoop功能相似，因此可以相互替代
D、flume可以同时采集集群内部和集群外部的日志数据
正确答案：C
24.ZooKeeper 是一个典型的分布式数据一致性解决方案,下列哪项是不属于它实现的功能（）
A、分布式锁
B、数据发布/订阅
C、响应用户 I/O 请求
D、负载均衡
正确答案：C
25.HBase 依赖_()存储底层数据
B、Hadoop
C、Memory
D、MapReduce
正确答案：A
26.HDFS能够在出错的情况下保证数据存储的可靠性，常见的出错情况不包括？（）
A、数据节点（DataNode）出错
B、名称节点（NameNode）出错
C、数据本身出错
D、以上选项都不包括
正确答案：D
27.YARN Web界面默认占用哪个端口？（）
A、50070
B、8088
C、50090
D、9000
正确答案：B
28.对Sqoop描述不正确的是?
A、Sqoop的底层实现是MapReduce
B、Sqoop主要采集关系型数据库中数据，常用于离线计算批量处理
C、Sqoop只支持从关系型数据库导入到HDFS，不支持从HDFS导入到关系型数据库。

D、Sqoop脚本最终会变成提交到YARN上的一个个map任务
正确答案：C
29.在 Centos7 系统中，查看和修改 IP 信息需要用到（）文件
A、/etc/sysconfig/network/ifcfg-ens0
B、/etc/sysconfig/network-script/ifcfg-ens0
C、/etc/sysconfig /ifcfg-ens0
D、/etc/resolv.conf
正确答案：B
30.下面哪个目录保存了Hadoop集群的命令（比如启动Hadoop）?（）
A、sbin
B、share
D、etc
正确答案：A
31.在 HBase 的组件中，哪一个负责日志记录（）
A、HRegion
B、HFile
C、MemStore
D、WAL
正确答案：D
32.下列是关于flume和sqoop对比的描述，不正确的是（)
A、flume和sqoop都是分布式处理任务
B、flume主要用于采集多数据源小数据而sqoop用来迁移单数据源数据
C、flume主要用来采集日志而sqoop主要用来做数据迁移
D、flume主要采集流式数据而sqoop主要用来迁移规范化数据
正确答案：A
33.安装Hadoop时，发现50070对应的页面无法打开，可以通过下面哪个命令查看某个端口（TCP或UDP）是否在监听?（）
A、ps
B、netstat
C、ping
D、ifconfig
正确答案：B
34.把公钥追加到授权文件的命令是？（）
A、ssh-add
B、ssh-keygen
C、ssh
D、ssh-copy-id
正确答案：D
35.HDfS中的block默认保存几份？
A、3份
B、2份
C、1份
D、不确定
正确答案：A
36.查看 HDFS 的报告命令是（）
A、bin/hdfs dfsadmin -report
B、bin/hdfs -report
C、bin/hdfs deadmin -report
D、bin/hdfs dfs -report
正确答案：A
37.在 ZooKeeper 中有三种角色，下列选项中不属于ZooKeeper 中的角色（）
A、Obeyer
B、Leader
C、Observer
D、Follower
正确答案：A
38.下列关于YARN的描述错误的是？（）
A、ResourceManager负责整个系统的资源分配和管理，是一个全局的资源管理器
B、NodeManager是每个节点上的资源和任务管理器
C、ApplicationManager是一个详细的框架库，它结合从ResourceManager 获得的资源和 NodeManager协同工作来运行和监控任务 ApplicationMaster
D、调度器根据资源情况为应用程序分配封装在Container中的资源
正确答案：C
39.Hadoop 的安装部署的模式属于伪分布模式（ )
A、默认的模式，无需运行任何守护进程（daemon），所有程序都在单个JVM 上执行。

B、在一台主机模拟多主机。

即，Hadoop 的守护程序在本地计算机上运行，模拟集群环境，并且是相互独立的Java 进程。

C、完全分布模式的守护进程运行在由多台主机搭建的集群上，是真正的生产环境。

D、高容错全分布模式的守护进程运行在多台主机搭建的集群上
正确答案：B
40.HDFS的是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是：（）
A、一次写入，少次读写
B、多次写入，少次读写
C、一次写入，多次读写
D、多次写入，多次读写
正确答案：C
41.下面哪个选项不属于DataNode的职责？（）
A、保存数据块
B、启动DataNode线程，向NameNode定期汇报数据块信息
C、管理数据块
D、定期向NameNode发送心跳信息保持联系
正确答案：C
42.下列选项哪个不是ZooKeeper的应用场景？（）
A、分布式协调/通知
B、Master选举
C、分布式锁
D、存储非关系型数据
正确答案：D
43.关于 SecondaryNameNode 下面哪项是正确的（）。

A、它的目的是帮助 NameNode 合并编辑日志，减少 NameNode 启动时间
B、它是 NameNode 的热备
C、它对内存没有要求
D、SecondaryNameNode 应与 NameNode 部署到一个节点
正确答案：A
44.关于MapReduce1和YARN的对比错误的是？（）
A、MapReduce1由JobTracker负责作业调度与任务监控
B、YARN的作业调度和任务监控都是由ResourceManager组件完成
C、MapReduce1的任务节点叫做TaskTracker，而Yarn的任务节点为NodeManager
D、MapReduce1的资源调配单元为Slot，而Yarn的资源调配单元为Container
正确答案：B
45.以下关于日志采集工具Flume的说法不正确的是？
A、Flume 支持多级级联和多路复制
B、Flume 适用于大量数据的实时数据采集
C、Flume 的数据源和目标都是可定制、可扩展的
D、Flume 是一个分布式、可靠和高可用的海量日志采集、聚合和传输的日志收集系统
正确答案：A
46.下列分区方式哪个不是采用的Hash方式分区 (.
A、BinaryPartitioner
B、TotalOrderPartitioner
C、HashPartitioner
D、KeyFieldBasedPartitioner
正确答案：B
47.ZooKeeper树中节点叫做什么？（）
A、Znode
B、Zknode
C、Zxid
D、inode
正确答案：A
48.HDFS 默认 Block Size 的大小是（）。

A、32MB
B、64MB
C、128MB
D、256M
正确答案：C
49.以下选项哪个是 MapReduce 正确的运行模型（）
A、.Map-Shuffle-Reduce
B、Reduce-Map-Shuffle
C、Map-Reduce-Shuffle
D、Shuffle-Map-Reduce
正确答案：A
50.使用java-api访问hdfs时，数据块副本数由下面那个决定？（）
A、secondarynode
B、client
C、datanode
D、namenode
正确答案：B
51.HMaster 的主要作用是（）
A、用于启动任务管理多个 HRegionServer
B、负责响应用户 I/O 请求，向 HDFS 文件系统读写数据
C、负责协调集群中的分布式组件
D、最终保存 HBase 数据行的文件
正确答案：A
52.大数据解决方案确认需求分析准备工作不包括（）
A、和客户负责人沟通，确定客户需求小组成员
B、根据事先了解的初步用户需求，列出这些难点
C、充分了解客户的要求，客户的业务，客户的关注重点
D、编制确定客户实施计划
正确答案：D
53.Sqoop的底层实现是()?
A、HDFS
B、MapReduce
C、Hbase
D、Hadoop
正确答案：B
54.以前在传统数据库与Hadoop之间，数据传输没有专门的工具，两者数据的互导是比较困难的，_____的出现解决了这个问题？（）
A、Sqoop
B、Zookeeper
C、Flume
D、Hive
正确答案：A
55.在进行 Hive 组件配置时，JAR 包冲突导致异常，出现以下错误信息( )
A、Failed to set setXIncludeAware(true) for parser
B、mkdir: `input’: No such file or directory
C、E45: ‘readonly’ option is set (add ! to override)
D、ERROR tool.ImportTool:Imported Failed:Character 8216 is an out-of-range delimiter
正确答案：A
56.大数据平台操作演示不包括（）
A、实现呈现技巧提升
B、在大数据平台操作演示前需要做好准备工作
C、分析本次演示的目的和听众群体
D、准备好演示环境
正确答案：A
57.关于ZooKeeper的说法错误的是？（）
A、ZooKeeper不存在单点故障的情况
B、ZooKeeper服务端有两种重要的角色是Leader和Follower
C、ZooKeeper Leader挂掉之后会自动在其他机器选出新的Leader
D、客户端可以连接到ZooKeeper集群中任一台机器
正确答案：A
58.大数据平台项目实施计划不包括（）
A、用户环境准备
B、完成大数据平台操作开发
C、基础平台部署
D、完成大数据平台的安装调试
正确答案：B
59.下面哪个YARN的描述不正确的是？（）
A、YARN 指Yet Another Resource Negotiator，是另一种资源协调者
B、YARN只支持MapReduce一种分布式计算模式
C、YARN最初是为了改善MapReduce的实现
D、YARN的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处
正确答案：B
60.Sqoop 是 Hadoop 和关系数据库服务器之间传送数据的工具，下列哪种数据库是不支持使用 Sqoop 直接进行数据传送（）
A、Postgres
B、Oracle
C、Redis
D、MySQL
正确答案：C
61.Centos 中修改文件或目录的访问权限命令
A、chown
B、passwd
C、chmod
D、clear
正确答案：C
62.YARN中，任务进度监控是向哪个组件汇报的？（）
A、ResourceManager
B、NodeManager
C、ApplicationMaster
D、Container
正确答案：C
63.Hadoop 安装在一台计算机上，需修改相应的配置文件，用一台计算机模拟多台主机的集群是（）模式。

A、全分布模式
B、伪分布模式
C、单机模式
D、全分布 HA 模式
正确答案：B
64.下列哪些不是 ZooKeeper 的特点（）
A、顺序一致性
B、可靠性
C、多样系统映像
D、原子性
正确答案：C
65.HDFS有一个LZO（with index）文件大小75MB，客户端设置Block大小为64MB。

当运行mapreduce任务读取该文件时input split大小为？
A、64MB
B、75MB
C、一个map读取64MB，另外一个map读取11MB
正确答案：C
66.Hadoop的生态系统组件之一Sqoop的功能是?
A、提供高可靠性、高可用、分布式的海量日志采集
B、用来存储非结构化和半结构化的松散数据
C、用来在Hadoop和关系数据库之间的交换数据，改进数据的互操作性
D、负责集群资源调度管理的组件
正确答案：C
67.查看当前yarn 运行任务列表采用（）命令
A、yarn application -log
B、HDFS application –list
C、yarn application -kill
D、yarn application -list
正确答案：D
68.大数据平台实施方案流程中,建议整个项目过程顺序是（）。

A与客户确认实施方案B确认客户需求C系统测试D编写实施方案E用户培训F 执行实施方案G项目验收
A、BDAFCEG
B、ABDFCEG
C、DEABCFG
D、BDAFEGC
正确答案：A
69.向HDFS上传文件，正确的shell命令是？（）
A、hdfs dfs -get
B、hdfs dfs -put
C、hdfs dfs -appendToFile
D、hdfs dfs -copyToLocal
正确答案：B
70.关于 Hadoop 单机模式和伪分布式模式的说法，正确的是（）
A、两者都起守护进程，且守护进程运行在一台机器上
B、单机模式不使用 HDFS，但加载守护进程
C、两者都不与守护进程交互，避免复杂性
D、后者比前者增加了 HDFS 输入输出以及可检查内存使用情况
正确答案：D
71.大数据处理中数据应用层不包括（）
A、数据建模
B、数据分析
C、数据挖掘
D、数据可视化
正确答案：D
72.Hadoop作者
A、Martin Fowler
B、Kent Beck
C、Doug cutting
正确答案：C
73.列出mysql数据库中的所有数据库sqoop命令是？（）
A、sqoop import –connect
B、sqoop list-databases –connect
C、sqoop list-tables –connect
D、sqoop create-hive-table –connect
正确答案：B
74.HBase 依赖（）提供消息通信机制
A、Zookeeper
B、Chubby
C、RPC
D、Socket
正确答案：A
75.关于 SecondaryNameNode的描述，哪项是正确的？（）
A、它是NameNode的热备
B、它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间
C、它对内存没有要求
D、SecondaryNameNode应与NameNode部署到一个节点
正确答案：B
76.下面关于分布式文件系统HDFS的描述正确的是：（）
A、分布式文件系统HDFS是谷歌分布式文件系统GFS（Google File System）的一种开源实现
B、分布式文件系统HDFS比较适合存储大量零碎的小文件
C、分布式文件系统HDFS是Google Bigtable的一种开源实现
D、分布式文件系统HDFS是一种关系型数据库
正确答案：A
77.flume 有哪个组件用于采集数据（）
A、source
B、channel
C、web server
D、sink
正确答案：A
78.ZooKeeper 的特点不包括（）
A、复合系统映像
B、原子性
C、可靠性
D、顺序一致性
正确答案：A
79.当NameNode出错时，下面哪个方案描述正确，且是最佳故障恢复和容错方案？（）
A、采用SecondaryName定时备份NameNode的fsimage和edits
B、采用NameNode HA,当一个NameNode出错时，另一个NameNode接管它的工作。

C、采用NameNode Fedaration，多个Namenode一起工作。

D、多增加DataNode
正确答案：B
80.大数据的数据量现在已经达到了哪个级别？（ C ）
A、GB
B、TB
C、PB
D、ZB
正确答案：C
81.Hbase 的主要作用是（）
A、是一个分布式的、面向列的开源数据库
B、是一种编程模型，用于大规模数据集（大于 1TB）的并行运算
C、是 Hadoop 集群当中的资源管理系统模块
D、将要储存的文件分散在不同的硬盘上，并记录他们的位置
正确答案：A
82.对Sqoop描述不正确的是？（）
A、Sqoop的底层实现是MapReduce
B、Sqoop主要采集关系型数据库中数据，常用于离线计算批量处理
C、Sqoop只支持从关系型数据库导入到HDFS，不支持从HDFS导入到关系型数据库。

D、Sqoop脚本最终会变成提交到YARN上的一个个map任务
正确答案：C
83.在 hadoop 配置中 yarn-site.xml 作用是（）
A、用于配置 JobHistory Server 和应用程序参数
B、用于定义系统级别的参数
C、用于名称节点和数据节点的存放位置
D、配置 ResourceManager，NodeManager 的通信端口
正确答案：D
84.Sqoop 将导入或导出命令翻译成什么程序来实现导入导出（）
A、MapReduce
B、Storm
C、Spark
D、Tez
正确答案：A
85.MapReduce编程模型，键值对<key, value>的key必须实现哪个接口？（）
A、WritableComparable
B、Comparable
C、Writable
D、LongWritable
正确答案：A
86.下列哪个程序通常与NameNode在一个节点启动？
A、SecondaryNameNode
B、DataNode
C、TaskTracker
D、Jobtracker
正确答案：D
87.hadoop 平台下检查 h3cu 目录的健康状态采用（）命令
A、hdfs fsck /h3cu
B、find /h3cu
C、hadoop fs -lsr /h3cu
D、list /h3cu
正确答案：A
88.Flume用于收集数据,其传输的数据基本单位是?
A、Split
B、Block
C、Event
D、Packet
正确答案：C
89.报告 hdfs 使用情况采用（）命令
A、hdfs dfs -getfacl /user/testname
B、hdfs dfsadmin -clrSpaceQuota /user/testname
C、hdfs dfsadmin -setSpaceQuota 500g /path/xxx/
D、hdfs dfsadmin -report
正确答案：D
90.若不针对MapReduce编程模型中的key和value值进行特别设置，下列哪一项是MapReduce不适宜的运算。

（）
A、Max
B、Min
C、Count
D、Average
正确答案：D
91.考虑到安全和效率，Hadoop设计了机架感知（rack-aware）功能，下面关于机架感知说法正确的是？（）
A、三个冗余备份可在同一个机架上
B、三个冗余备份在不同的机架上
C、三个冗余备份其中有两个在同一个架构上，另外一个备份在不同的机架上
D、上述说法都不对
正确答案：C
92.哪个不是HDFS默认Block Size
A、32MB
B、64MB
C、128MB旧版本用64M 当前新版本用128M
正确答案：A
93.大数据处理中数据处理层不包括（）
A、数据分析
B、数据规约
C、数据提取
D、数据清洗
正确答案：A
二、多选题（共7题，每题1分，共7分）
1.Hadoop 的运行模式分为以下（）种
A、主备模式
B、全分布模式
C、伪分布模式
D、单机模式
正确答案：BCD
2.Client端上传文件的时候下列哪项正确
A、数据经过NameNode传递给DataNode
B、Client端将文件以Block为单位，管道方式依次传到DataNode
C、Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作
D、当某个DataNode失败，客户端会继续传给其它DataNode
正确答案：BD
3.Hbase 组件部分包括（）
A、HRegionServer
B、Zookeeper
C、HMaster
D、hbase-client
正确答案：ABCD
4.MapReduce 不合适对哪些场景的使用（）
A、MapReduce 不支持多用户写入及任意修改文件
B、MapReduce 不适合做低延迟数据访问场景的使用
C、MapReduce 不支持大文件存储
D、MapReduce 不适合存储大量小文件
正确答案：ABD
5.Hadoop 集群验证步骤包括（）
A、初始化集群，使用 Hadoop 命令启动集群。

B、使用 Hadoop 命令，创建 HDFS 文件夹。

C、使用 HDFS 命令查看文件系统“/”路径下是否存在文件。

D、用 Hadoop 自带的 WordCount 程序去测试MapReduce
正确答案：ABCD
6.启动YARN后，jps能看到哪些守护进程？（）
A、DataNode
B、NodeManager
C、ResourceManager
D、NameNode
正确答案：BC
7.下面的命令描述正确的是()
A、创建一个名称为test 组的命令：groupadd test
B、删除用户名为Tom 的命令：userdel Tom
C、改用户 Tom 设置密码命令：passwd Tom
D、切换当前用户帐户为 admin 的命令：su admin 正确答案：ABC。