大数据HCIA考试模拟题及答案

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据HCIA考试模拟题及答案
一、单选题（共40题，每题1分，共40分）
1、关于Hive建表的基本操作，描述正确的是？
A、创建外部表的时需要指定external关键字
B、一旦表创建好，不可再修改列名
C、一旦表创建好，不可再修改表名
D、一旦表创建好，不可再增加新列
正确答案：A
2、Flink的数据转换操作在以下哪个环节中完成？
A、source
B、sink
C、transformation
D、channel
正确答案：C
3、Kafka集群中，Kafka服务端部署的角色是?
A、Producer
B、Consumer
C、ZooKeeper
D、Broker
正确答案：D
4、可以通过以下哪个命令创建节点数据？
A、ls/node
B、get/node
C、create/node
D、set/nodedata
正确答案：C
5、在Zookeeper和YARN的协同工作中，当ActiveResourceManager产生故障时，StandbyResourceManager会从以下哪个项目中获取Application相关信息？
A、warehouse
B、metastore
C、Storage
D、Statestore
正确答案：D
6、以下关于Kafka的描述错误的有？
A、具有消息持久化，高吞吐，实时等特性
B、用作活动流和运营数据处理管道的基础
C、使用Scala，Java语言实现
D、由ApacheHadoop开发，并于2011年开源
正确答案：D
7、下面关于Zookeeper特性的描述错误的是？（）
A、Zookeeper节点数必须为奇数个。

B、客户端所发送的更新会按照它们被发送的顺序进行应用。

C、消息更新只能成功或者失败，没有中间状态。

D、一条消息要被超过半数的Server接收，它将可以成功写入磁盘
正确答案：A
8、Flink中的（）接口用于流数据处理，（）接口用于批处理？
A、BatchAPI,StreamAPI
B、DataStreamAPI,DataSetAPI
C、StreamAPI,BatchAPI
D、DataBatchAPI,DataStreamAPI
正确答案：B
9、Flume支持监控并传输目录下新增的文件，可实现准实时数据传输，以上描述的是哪一类source?
A、syslogsource
B、spoolingdirectorysource
C、httpsource
D、execsource
正确答案：B
10、FusionlnsightHD中Loader实例必须与哪个实例部署在一起？
A、DataNode
B、RegionServer
C、ResourceManager
D、Nodemanager
正确答案：D
11、在Zookeeper和YARN的协同工作中，当ActiveResourceManager产生故障时，StandbyResourceManager会从以下哪个目录中获取Application相关信息（）
A、warchouse
B、metastore
C、Statestore
D、Storage
正确答案：C
12、哪个不是Flume的channel类型
A、MemoryChannel
B、FileChannel
C、JDBCChannel
D、HDFSChannel
正确答案：D
13、FusionInsightHDHBase的管理进程是如何选择主节点的?
A、随机选取
B、由RegionServer进行裁决
C、通过ZooKeeper进行裁决
D、HMaster为双主模式，不需要进行裁决
正确答案：C
14、FuskmlnsightHD集群规划中，管理节点&控制节点&数据节点合一部署方案适合什么样的场景？
A、30节点以下
B、100节点以上
C、100-200节点
D、200节点以上
正确答案：A
15、关于Hive与传统数据仓库的对比，以下描述错误的是？()
A、由于Hive的数据存储在HDFS中，所以可以保证数据的高容错、高可靠。

B、由于Hive基于大数据平台，所以查询效率比传统数据仓库快
C、Hive基于HDFS存储，理论上存储量可以无限扩展，而传统的数据仓库存储量会有上限
D、Hive元数据存储独立于数据存储之外，从而解耦合元数据和数据，灵活性高，而传统数据仓库数据应用单一，灵活性低。

正确答案：B
16、Hadoop系统中YARN资源的抽象是用什么表示?
A、内存
B、CPU
C、Container
D、磁盘空间
正确答案：C
17、安装FusionInsightHD的Streaming组件时，Nimbus角色要求安装几个节点?
A、1
B、2
C、3
D、4
正确答案：B
18、FusionInsightHD系统中执行HBase写数据时，数据被写入内存MemStore、日志HLog和HDP中，请问哪一步写入成功后才会最终返回客户端写数据成功?
A、MemStore
B、HLog
C、HDFS
D、Memory
正确答案：B
19、在FusionInsight产品中，关于kafka的topic，以下描述不正确的有？
A、每条发布到kafka的消息都有一个类别，这个类别被称为topic，也可以理解为一个存储消息的队列
B、每个topic只能分成一个partition（区）
C、topic的partition的数量可以在创建时配置
D、每个partition在存储层面对应一个log文件，log文件中记录了所有的消息数据。

正确答案：B
20、FusionInsightHDHBase默认使用什么作为其底层文件存储系统?()
A、Hadoop
B、MapReduce
C、Memory
D、HDFS
正确答案：D
21、HBase的主HMaster是如何选举的？
A、通过ZooKeeper进行裁决
B、由RegionServer进行裁决
C、HMaster为双主模式，不需要进行裁决
D、随机选取
正确答案：A
22、YRAN的基于标签调度，是对下列选项中的哪个进行标签化？
A、APPMaster
B、ResourceManager
C、Container
D、NodeManager
正确答案：D
23、以下关于ZooKeeper关键特性中的原子性说法正确的是
A、客户端发送的更新会按照他们被发送的顺序进行应用
B、更新只能全部完成或失败，不会部分完成
C、一条消息被一个server接收，将被所有server接收
D、集群中无论哪台服务器，对外展示的均是同一视图
正确答案：B
24、创建loader作业中，可以在以下哪个步骤中设置过滤器类型？（）
A、基本信息
B、输出
C、输入设置
D、转换
正确答案：C
25、Hive是基于Hadoop的数据仓库软件，可以查询和管理PB级别的分布式数据。

以下关于Hive特性的描述不正确的是？
A、可直接访问HDFS文件以及HBase
B、灵活方便的ETL（extract/transform/load）
C、仅支持MapReduce计算引擎
D、易用易编程
正确答案：C
26、Spark应用在运行时，Stage划分的依据是什么？
A、task
B、action
C、taskSet
D、shuffle
正确答案：D
27、对于容量调度器的任务选择，以下说法正确的是（）
A、资源利用量最低的队列优先
B、资源回收请求队列优先
C、最小队列层级优先
D、最大队列层级优先
正确答案：B
28、华为FusionInsightHD是国内首家符合国家金融等级保护的大数据平台，其安全性现在以下哪些方面？
A、系统安全
B、权限认证
C、数据安全
D、以上全都正确
正确答案：D
29、下面关于zookeeper的说法错误的是()
A、Zookeeper集群在启动时就选举出Leader角色
B、如果zookeeper在同步消息过程中发生中断，故障恢复后可根据故障前的状态继续同步，即支持断点续传
C、zookeeper使用自定义的原子消息协议，保证整个系统中节点数据的一致性
D、Leader节点在接受到数据变更请求后，先写磁盘再写内存。

正确答案：B
30、Hadoop中哪个模块负责HDFS的数据存储?
A、NameNode
B、DataNode
C、ZooKeeper
D、JobTraoker
正确答案：B
31、FusionInsightHDLoader作业运行前后，需要哪些节点与外部数据源通讯?
A、Loader服务主节点
B、运行Yarn服务作业的节点
C、前面两个都需要
D、前面两个都不需要
正确答案：C
32、FusionlnsightManager对服务的管理操作，下面说法错误的是？
A、可对服务进行启停重启操作
B、可查看服务的当前状态
C、可以添加和卸载服务
D、可设置不常用的服务隐藏或显示
正确答案：D
33、Hadoop中MapReduce组件擅长处理哪种场景的计算任务?
A、迭代计算
B、实时交互计算
C、离线计算
D、流式计算
正确答案：C
34、FusionInsightHD中Loader从SFTP服务器导入文件，如果不需要做编码转换和数据转换且速度最快，选择下面哪个文件类型?
A、text_file
B、sequence_file
C、binary_file
D、graph_file
正确答案：C
35、在Flink技术架构中，（）是流处理和批处理的计算引擎
A、Standalone
B、Runtime
C、DataStream
D、FlinkCore
正确答案：B
36、HBase中如果发生一个Region的Split，将一个HFile文件真正分开到两个Region的过程发生在以下什么阶段?
A、Split过程中
B、Flush过程中
C、Compaction过程中
D、HFile分开过程中
正确答案：C
37、KafkaClusterMirroring工具可以实现以下哪项功能？
A、Kafka跨集群数据同步方案
B、Kafka单集群内数据备份
C、Kafka单集群内数据恢复
D、以上全不正确
正确答案：A
38、Flume用于收集数据，其传输的数据的基本单位是？
A、block
B、split
C、packet
D、event
正确答案：D
39、FusionInsightHD系统中HDFS默认BlockSize是多少?
A、32MB
B、64MB
C、128MB
D、256MB
正确答案：C
40、Kafka集群中，Kafka服务端的角色是？
A、Producer
B、Consumer
C、Zookeeper
D、Broker
正确答案：A
二、多选题（共20题，每题1分，共20分）
1、以下哪些是Kafka实际的应用场景?
A、日志收集
B、聚合统计系统运营数据（监控数据）
C、网站活性跟踪
D、资源管理
正确答案：ABC
2、以下哪些数据源可以通过loader实现与FusionInsightHD的数据交
换？（）
A、MySQL
B、NoSQL
C、FTPServer
D、SFTPServer
正确答案：ABCD
3、Flink可以基于以下哪些窗口进行统计？
A、滑动窗口
B、countWindow
C、时间窗口
D、会话窗口
正确答案：ABCD
4、关于FusionInsightManager功能说法错误的有哪些?
A、通过FusionInsightManager的Audit审计界面可以查询每个重要操作
B、通过FusionInsightManager不能下载单个组件的客户端
C、集群部署完成后，通过FusionInsightManager不能进行集群扩容，只能通过卸载集群重新搭建来扩容集群
D、通过FusionInsightManager的Alarms告警界面可以查询每个告警的具体信息
正确答案：BC
5、HBase中以下哪种场景会出发Flush操作？
A、HBase定期刷新Memstore，默认周期为1小时
B、当WALs中文件数量达到阈值时
C、Region中MemStore的总大小，达到了预设的FlushSize阈值
D、MemStore占用内存的总量和RegionServer总内存比值超出了预设的阈值大小
正确答案：ABCD
6、以下关于Flink与其他组件交互说法正确的是?
A、Flink可以将接收的组件发送给Kafka
B、Flink的checkpoint的实现依赖于Zookeeper
C、Flink任务的运行依赖Yarn来进行资源的调度管理
D、Flink在HDFS文件系统中读写数据
正确答案：ABCD
7、在华为大数据解决方案中，Hadoop层包含以下哪些组件（）
A、Miner
B、Flink
C、Spark
D、Hive
正确答案：BCD
8、下列关于Worker（工作进程）、Executor（线程）、TASK（任务）说法正确的是？
A、每个Worker（工作进程）可以运行多个Executor（线程）
B、每个Executor（线程）可以运行不同组件（Spout或Bolt）的TASK （任务）
C、每个Executor（线程）可以运行多个TASK（任务）
D、每个Worker只能为一个拓补运行Executor（线程）
正确答案：ABC
9、spark有哪些特点？（）
A、快
B、轻
C、灵
D、巧
正确答案：ABCD
10、YARN中，“从”节点负责以下哪些工作?
A、集群中所有资源的统一管理和分配
B、监控每个Container的资源使用(内存、CPU等)情况
C、监督Container的生命周期管理
D、管理日志和不同应用程序用到的附属服务
正确答案：BCD
11、以下关于FusionInsight多租户管理的描述正确的有？
A、基于容器机制的租户资源隔离，为租户SLA保驾护航
B、与企业组织结构相匹配的多级的租户模型，不同部门对应不同的租户，按需动态增删租户
C、可视化的多级租户管理，与企业组织结构相匹配，简化系统资源分配与管理
D、一站式管理租户资源，计算资源（CPU/内存/IO），存储资源（HDFS），服务资源（HBase...）
正确答案：ABCD
12、在华为大数据解决方案中，hadoop层包含以下哪些组件？（）
A、Spark
B、Hive
C、Miner
D、Flink
正确答案：ABD
13、FusionInsight家族包含下列哪些子产品？
A、HD
B、Libra
C、Manager
D、Miner
E、Farmer
F、DWS
正确答案：ABCDE
14、下列属于flume数据监控的指标是？（）
A、Source接收数据量
B、Sink写入数据量
C、DataNode数量
D、Channel缓存数据量
正确答案：ABD
15、华为FusionInsightHD是国内首家符合国家金融等级保护的大数据平台，其安全性体现在以下哪些方面
A、系统安全
B、权限认证
C、数据安全
D、以上全都正确
正确答案：ABCD
16、在Loader历史作业记录中，可以查看以下哪些内容？
A、作业状态
B、作业开始/运行时间
C、错误行/文件数量
D、脏数据连接
正确答案：ABCD
17、以下关于KafkaPartition说法正确的有
A、Partition数量决定了每个consumergroup中并发消费者的最大数量
B、引入Partition机制，保证了Kafka的高吞吐能力
C、每个Partition都是有序且不可变的消息队列
D、每个Partition在存储层面对应一个log文件
正确答案：ABCD
18、Nimbus在Streaming架构中的功能包括？
A、启动/关闭工作进程
B、监控任务执行状态
C、资源分配
D、任务调度
正确答案：CD
19、以下哪些是Spark服务的常驻进程?
A、JobHistory
B、JDBCServer
C、SparkResource
D、NodeManaaer
正确答案：AB
20、与开源sqoop相比，loader具有哪些增强特性？
A、高可靠性
B、高性能
C、安全性
D、图形化
正确答案：ABCD
三、判断题（共40题，每题1分，共40分）
1、为减少写入磁盘的数据量，mapreduce支持对MOF（mapoutfile）进行压缩后再写入。

A、正确
B、错误
正确答案：B
2、FusionInsightManger对外支持REST接口、SNMP接口、SYSLOG接口
A、正确
B、错误
正确答案：A
3、现在有3个机架，有一个文件需要存3份，其中副本1和副本2存放在与Client相同的机架且不同的服务器上，根据HDFS副本放置策略，副本3一定要存放在其他机架。

A、正确
B、错误
正确答案：A
4、FusionInsightManager界面上，当收到Kafka盘容量不足告警，且该告警的原因已经排除硬盘硬件故障时，系统管理员需要考虑扩容解决此问题。

A、正确
B、错误
正确答案：A
5、Hadoop系统中，如果HDFS文件系统的备份因子是3，那么MapReduce 每次运行Task都要从3个有副本的机器上传输需要处理的文件段。

A、正确
B、错误
正确答案：B
6、如果某些Container的物理内存利用超过了配置的内存阈值，但所有Container的总内存利用率并没有超过设置的NodeManager内存阈值，那么内存使用过多的Container仍可以继续运行。

（）
A、正确
B、错误
正确答案：A
7、Hive支持普通视图和物化视图
A、正确
B、错误
正确答案：B
8、SparkonYarn-client适合用于生产坏境是因为可以更快的看到APP的输出。

A、正确
B、错误
正确答案：B
9、Flink采用checkpoint机制保障应用程序中的容错性。

A、正确
B、错误
正确答案：A
10、Spark任务的每个stage可划分为job，划分的标记是shuffle。

A、正确
B、错误
正确答案：B
11、YARN上有两个同级队列Q1与Q2，容量都是50，Q1上已经有10个任务共占用了40的容量，Q2上有2个任务共占用了30的容量，那么由于Q1的任务数多，调度器会优先将资源分配给Q
A、正确
B、错误
正确答案：B
12、FusionInsightHD集群三层组网时，管理节点、控制节点、数据节点建议安装在不同的网段内，可以提高可靠性。

A、正确
B、错误
正确答案：A
13、FusionInsightHD系统中，集群中一个Loader节点异常，其他服务没有异常的情况下，不会影响Loader服务功能的正常使用
A、正确
B、错误
正确答案：A
14、FusionInsightManager界面上，当收到kafka磁盘容量不足告警，且读告警的原因已经排除磁盘硬件故障时，系统管理员需要考虑扩容解决此问题。

（）
A、正确
B、错误
正确答案：A
15、FusionInsightHDLoader进行数据导入和导出，必须经过Reduce阶段进行数据处理。

A、正确
B、错误
正确答案：B
16、Hbase的最小处理单元是Region,UserRegion和RegionServer之间
的路由信息是保存在ZooKeeper中。

（）
A、正确
B、错误
正确答案：B
17、MapReduce编程中，代码不仅要描述做什么，还要描述具体怎做。

A、正确
B、错误
正确答案：B
18、HBase中MOB数据直接HFile的格式存储在HDFS上，然后把这个文件的地址信息及大小信息作为value存储在管理HBase的store上，通过工具集中管理这些文件。

这样就可以大大降低HBase的compation和split频率，提升性能。

A、正确
B、错误
正确答案：A
19、在MapReduce编程中，代码不仅要描述做什么，还要描述具体怎么做。

（）
A、正确
B、错误
正确答案：B
20、对高价值高度聚合的信息和知识的批次处理是大数据行业主要商业诉求
A、正确
B、错误
正确答案：A
21、topology的处理逻辑都在bolt中。

A、正确
B、错误
正确答案：A
22、用户权限管理基于角色的访问控制，提供可视化的多组件统一的集中用户权限管理。

A、正确
B、错误
正确答案：A
23、Hive在load时是不检查数据是否符合schema的，hive遵循的是schemaonread（读时模式），只有在读的时候hive才检查、解析具体的数据字段、schema。

（）
A、正确
B、错误
正确答案：A
24、flume传输数据的可靠性是指flume在传输数据过程中，当下一跳的flume节点故障或者数据接收异常时，可以自动切换到另外一路上继续传输。

（）
A、正确
B、错误
正确答案：A
25、FusionInsightHD的Streaming对于Zookeeper弱依赖，即使Zookeeper故障Streaming也可以正常提供服务。

A、正确
B、错误
正确答案：B
26、kafkalogssegment文件命名规则是partion全局的第一个segment 从0开始，后续每个segment文件名为上一个全局partion的最大offset（偏移message数）。

（）
A、正确
B、错误
正确答案：A
27、HDFS联邦机制下，各NameNode间元数据是不共享的。

A、正确
B、错误
正确答案：A
28、FusionInsightManager界面上，当收到Kafka磁盘容量不足告警，且该告警的原因已经排除硬盘硬件故障时，系统管理员需要考虑扩容解决此问题
A、正确
B、错误
正确答案：A
29、在Streaming中，消息可靠性级别中精确一次是通过ACK机制来实
现的。

A、正确
B、错误
正确答案：B
30、FusionInsightTool是为技术支持工程师和维护工程师提供的一套健康检查工具，能够检查集群相关节点，服务的健康状态，提前发现集群中潜在的问题，并生成健康检查报告。

方便技术支持工程师和维护工程师快速了解系统的健康状况。

A、正确
B、错误
正确答案：A
31、SparkOnYarn模式下的driver只能运行在客户端。

A、正确
B、错误
正确答案：B
32、华为在金融、公安、铁路、政务等多行业拥有丰富的大数据解决方案经验
A、正确
B、错误
正确答案：A
33、FusionInsight中Hive包含2个角色，HiveServer和MetaStore。

A、正确
B、错误
正确答案：B
34、Hive在load是不检索数据是否符合schema的，hive遵循的是schemaonread(读时模式)只有在读时模式的时候才检查hive的数据字段，schema。

A、正确
B、错误
正确答案：A
35、FusionInsightManager对外支持REST接口、SNMP接口、SYSLOG接口。

A、正确
B、错误
正确答案：A
36、KafkaProducer读数据总体流程是，Producer连接任意存活的Broker，请求指定Topic，Partition的Leader元数据信息，然后直接与对应的Broker直接连接，发布数据。

A、正确
B、错误
正确答案：A
37、通常情况下，Hive以文本文件存储的表会以回车作为其行分隔符，在华为FusionInsightHive中，可以指定表数据的输入和输出格式处理类。

A、正确
B、错误
正确答案：A
38、Hive中“Groupby”指的是通过一定的规则将每一个数据集划分成若干个小的数据集，然后针对若干个小的数据集进行数据分组处理
A、正确
B、错误
正确答案：A
39、Kafka日志的清理方式有两种：delete和compact。

默认值是delete。

A、正确
B、错误
正确答案：A
40、KafkaConsumer写数据总体流程是，Consumer连接指定TopicPartition所在的LeaderBroker，用主动获取的方式从Kafka中获取消息？
A、正确
B、错误
正确答案：A。