hadoop习题册
Hadoop题库(第1-3-8章)
题库(第一、三、八章)第一章单选题1、大数据的数据量现在已经达到了哪个级别?( C )A、GBB、TBC、PBD、ZB2、2003年,Google公司发表了主要讲解海量数据的可靠存储方法的论文是?( A )A、“The Google File System”B、“MapReduce: Simplified Data Processing on Large Clusters”C、“Bigtable: A Distributed Storage System for Structured Data”D、“The Hadoop File System”3、2004年,Google公司发表了主要讲解海量数据的高效计算方法的论文是?( B )A、“The Google File System”B、“MapReduce: Simplified Data Processing on Large Clusters”C、“Bigtable: A Distributed Storage System for Structured Data”D、“The Hadoop File System”4、2006年,Google公司发表了用来处理海量数据的一种非关系型数据库的论文是?( C )A、“The Google File System”B、“MapReduce: Simplified Data Processing on Large Clusters”C、“Bigtable: A Distributed Storage System for Structured Data”D、“The Hadoop File System”5、对于GFS架构,下面哪个说法是错误的?(A)A、GFS Master节点管理所有的文件系统所有数据块。
B、GFS存储的文件都被分割成固定大小的块,每个块都会被复制到多个块服务器上(可靠性)。
块的冗余度默认为3。
(完整版)hadoop习题册
第一章大数据概述1.互联网的发展分为______个阶段。
A.一 B.三 C.二 D.四2.下列不属于大数据特点的是()。
A.种类和来源多样化B.数据量巨大C.分析处理速度快D.价值密度高3.互联网发展的第_____个时代为智能互联网。
A.3.0B.4.0C.1.0D.2.04.关于大数据叙述不正确的一项是()。
A.大数据=“海量数据”+“复杂类型的数据”B.大数据是指在一定时间对内容抓取、管理和处理的数据集合C.大数据可以及时有效的分析海量的数据D.数据包括结构化数据、半结构化数据、结构化数据。
5.下列数据换算正确的一项为()。
A.1YB=1024EBB.1TB=1024MBC.1PB==1024EBD.1024ZB=1EB6.结构化数据的表现形式为______。
A.文本B.视图C.二维表D.查询7.结构化的数据,先有________,再有_________.A.数据结构B.结构数据C.内容结构D.结构内容8.结构化的数据,先有________,再有_________.A.数据结构B.结构数据C.内容结构D.结构内容9.软件是大数据的_________。
A.核心B.部件C.引擎D.集合10.大数据技术不包括( )。
A.数据计算B.数据存储C.数据冗余D.数据采集11.大数据的特点不包括()。
A.数量大B.类型少C.速度快D.价值高第二章Hadoop简介1.下列对云栈架构层数不正确的一项为________。
A.三层云栈架构B.四层云栈架构C.五层云栈架构D.六层云栈架构2.下列______不是云计算三层架构的概括。
A.IaaSB.PaaSC.SaaPD.SaaS3.IaaS基础设施及服务可以称为______。
A.弹性计算B.效用计算C.有效计算D.随需应用4.四层云栈模式,是将三层模式中的_________进行分解,分为两层,一层为硬件层,一层为虚拟资源层。
A.硬件部分B.虚拟化部分C.基础设施D.平台5.五层云栈模式,第五层为______。
Hadoop基础(习题卷18)
Hadoop基础(习题卷18)第1部分:单项选择题,共53题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]下列不属于Python中Flask框架特点的是?A)内置开发服务器和调试器B)与Python单元测试功能无缝衔接C)使用Jinja2模板D)端口号固定为5000,且无法修改答案:D解析:2.[单选题]在Java中,方法resume( )负责重新开始▁▁线程的执行A)被stop( )方法停止B)被sleep( )方法停止C)被wait( )方法停止D)被suspend( )方法停止答案:D解析:3.[单选题]在Java中,假如电脑上E盘没有xxx目录,则下面程序功能描述正确是_x000D_File file1=new File("e:\\xxx\\yyy"); file1.mkdir()A)在当前目录下生成子目录:\xxx\yyyB)在E盘自动创建xxx/yyy目录C)在当前目录下生成文件xxx.yyyD)代码执行后E盘不会产生任何目录答案:D解析:4.[单选题]在Hadoop上提交Job时不涉及哪个实体()A)客户端B)HDFSC)SecondaryNodeD)JobTracker答案:C解析:5.[单选题]下面哪些不是引起 Spark 负载不均的原因?( )A)Spark 读入的数据源是倾斜的B)Shuffle 阶段 Key 值过于集中C)在数据过滤阶段需要处理的数据量差异D)Spark 的运行方式差异答案:D解析:6.[单选题]配置Hadoop时,JAVA_HOME包含在哪一个配置文件中?A)hadoop-default.xmlC)hadoop-site.xmlD)configuration.xml答案:B解析:7.[单选题]在 hadoop 配置中 yarn-site.xml 作用是( )A)用于定义系统级别的参数B)用于名称节点和数据节点的存放位置C)用于配置 JobHistory Server 和应用程序参数D)配置 ResourceManager,NodeManager 的通信端口答案:D解析:8.[单选题]HDFS中的block默认保存____份。
Hadoop试题试题库完整
1. 以下哪一项不属于 Hadoop 可以运行的模式___C___。
A.单机(本地)模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop 的作者是下面哪一位__B____。
A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与 NameNode 在同一个节点启动__D___。
A.TaskTrackerB. DataNodeC.SecondaryNameNodeD. Jobtracker4. HDFS 默认 Block Size 的大小是___B___。
A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。
A. CPUB. 网络C. 磁盘 IOD. 内存6. 下列关于 MapReduce 说法不正确的是_____C_。
A. MapReduce 是一种计算框架B. MapReduce 来源于 google 的学术论文C. MapReduce 程序只能用 java 语言编写D. MapReduce 隐藏了并行计算的细节,方便使用8. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是 __D____。
A.一次写入,少次读B.多次写入,少次读C.多次写入,多次读D.一次写入,多次读9. HBase 依靠__A____存储底层数据。
A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase 依赖___D___提供强大的计算能力。
A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase 依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下面与 HDFS 类似的框架是___C____?A. NTFSB. FAT32C. GFSD. EXT313. 关于 SecondaryNameNode 下面哪项是正确的___C___。
Hadoop基础(习题卷3)
Hadoop基础(习题卷3)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]大数据的简单算法与小数据的复杂算法相比()A)更有效B)相当C)不具备可比性D)无效答案:A解析:2.[单选题]下列选项中,不是CouchDB的复制中的特点是:A)使用优先列表B)复制过程是逐步进行C)允许分区复制D)支持智能文档模式答案:A解析:3.[单选题]从HDFS下载文件,正确的shell命令是()。
A)-getB)-appendToFileC)-putD)-copyFromLocal答案:A解析:4.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)存储客户端上传的数据的数据块B)一个DataNode上存储的所有数据块可以有相同的C)DataNode之间可以互相通信D)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:B解析:5.[单选题]在Java中,一个线程如果调用了sleep()方法,能唤醒它的方法是A)notify()B)resume()C)run()D)以上都不是,时间到了会自动继续执行答案:D解析:6.[单选题]软件是大数据的_________。
A)核心解析:7.[单选题]_______模式,只适合于Hive简单试用及单元测试。
A)单用户模式B)多用户模式C)多用户远程模式D)单用户远程模式答案:A解析:8.[单选题]下列关于Hive描述错误的是()。
A)hive学习成本低,支持标准的SQL语法B)hive运行效率低,延迟高C)HQL的表达能力有限D)Hive支持迭代计算答案:D解析:9.[单选题]下面哪个选项不是我们需要Hadoop的主要原因()A)我们需要处理PB级别的数据B)为每个应用建立一个可靠的系统是很昂贵的C)几乎每天都有结点坏掉D)把一个任务分割成多个子任务的方式是不好的答案:D解析:10.[单选题]为了让集群中的机器能够正常通信,所有集群的IP必须设置成静态IP,防止机器重启之后而找不到机器的情况,那么IP地址配置需要修改那个文件()A)ifcfg-loB)network-functionsC)ifcfg-ens33D)network-functions-ipv6答案:C解析:11.[单选题]Spark生态系统组件Spark Streaming的应用场景是?A)基于历史数据的数据挖掘B)图结构数据的处理C)基于历史数据的交互式查询D)基于实时数据流的数据处理答案:D解析:12.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)DataNode之间都是独立的,相互之间不会有通信B)存储客户端上传的数据的数据块C)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑13.[单选题]Hadoop2.x版本中的数据块大小默认是多少? ()A)64MB)128MC)256MD)512M答案:B解析:14.[单选题]HDFS分布式文件系统的特点为____________。
Hadoop基础(习题卷1)
Hadoop基础(习题卷1)说明:答案和解析在试卷最后第1部分:单项选择题,共145题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]以下哪一项不属于Hadoop可以运行的模式()A)单机模式B)伪分布式模式C)互联模式D)分布式模式2.[单选题]下列哪一个不属于Hadoop的大数据层的功能?A)数据挖掘B)离线分析C)实时计算D)BI分析3.[单选题]用于检查节点自身的健康状态的进程是( )A)ResourceManagerB)NodeManagerC)NameNodeD)DataNode4.[单选题]下面与Zookeeper类似的框架是?A)ProtobufB)JavaC)KafkaD)Chubby5.[单选题]哪个不是HDFS的特点?A)高容错B)高吞吐量C)低延迟读取D)大文件存储6.[单选题]在mapreduce任务中,下列哪一项会由hadoop系统自动排序()A)keys of mapper's outputB)values of mapper's outputC)keys of reducer's outputD)values of reducer's output7.[单选题]HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是?A)一次写入,多次读写B)一次写入,少次读写C)多次写入,少次读写D)多次写入,多次读写8.[单选题]下列哪项通常是集群的最主要的性能瓶颈? ()A)CPUB)网络C)磁盘D)内存9.[单选题]以下选项中,哪种类型间的转换是被Hive查询语言所支持的()A)Double-NumberB)BigInt-DoubleC)Int-BigIntD)String--Double10.[单选题]下面哪个选项中的Daemon总是运行在同一台主机上()A)Name Node & Job TrackerB)Secondary Name Node & Job TrackerC)Name Node & Secondary Name NodeD)Data Node & Task Tracker11.[单选题]2003年,Google公司发表了主要讲解海量数据的可靠存储方法的论文是?A)“TheGoogleFileSystem”B)“MapReduce:SimplifiedDataProcessingonLargeClusters”C)“Bigtable:ADistributedStorageSystemforStructuredData”D)“TheHadoopFileSystem”12.[单选题]下列_______通常与NameNode在一个节点启动。
完整版hadoop习题册
第一章大数据概述1.互联网的发展分为______个阶段。
A.一B.三 C.二 D.四2.下列不属于大数据特点的是()。
A.种类和来源多样化B.数据量巨大C.分析处理速度快D.价值密度高互联网发展的第_____个时代为智能互联网。
3. C.1.0 D.2.0A.3.0 B.4.0)。
4.关于大数据叙述不正确的一项是(+“复杂类型的数据”A.大数据=“海量数据”B.大数据是指在一定时间对内容抓取、管理和处理的数据集合 C.大数据可以及时有效的分析海量的数据 D.数据包括结构化数据、半结构化数据、结构化数据。
)。
5.下列数据换算正确的一项为(A.1YB=1024EBB.1TB=1024MBC.1PB==1024EBD.1024ZB=1EB 。
6.结构化数据的表现形式为______ 查询C.二维表 D.A.文本 B.视图_________.7.结构化的数据,先有________,再有结构A.数据结构B. 数据C.内容结构D.结构内容结构化的数据,先有________,再有_________.8.结构A.数据结构数据B. 结构内容C. 内容D.结构_________。
9.软件是大数据的集合 C.引擎D. A.核心B.部件) 。
10.大数据技术不包括(D.数据采集A.数据计算B.数据存储C.数据冗余)。
大数据的特点不包括(11.D.C.速度快价值高数量大A. B.类型少第二章Hadoop简介1.下列对云栈架构层数不正确的一项为________。
A.三层云栈架构B.四层云栈架构C.五层云栈架构D.六层云栈架构不是云计算三层架构的概括。
______下列2.A.IaaSB.PaaSC.SaaPD.SaaS3.IaaS基础设施及服务可以称为______。
A.弹性计算B.效用计算C.有效计算D.随需应用4.四层云栈模式,是将三层模式中的_________进行分解,分为两层,一层为硬件层,一层为虚拟资源层。
A.硬件部分B.虚拟化部分C.基础设施D.平台5.五层云栈模式,第五层为______。
Hadoop题库
1. 以下哪一项不属于Hadoop可以运行的模式___C___。
A. 单机(本地)模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位__B____。
A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与NameNode在同一个节点启动__D___。
A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认Block Size的大小是___B___。
A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。
A. CPUB. 网络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。
A. MapReduce是一种计算框架B. MapReduce来源于google的学术论文C. MapReduce程序只能用java语言编写D. MapReduce隐藏了并行计算的细节,方便使用8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是__D____。
A.一次写入,少次读B.多次写入,少次读C.多次写入,多次读D.一次写入,多次读9. HBase依靠__A____存储底层数据。
A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强大的计算能力。
A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下面与HDFS类似的框架是___C____?A. NTFSB. FAT32C. GFSD. EXT313. 关于SecondaryNameNode下面哪项是正确的___C___。
Hadoop测试题
Hadoop测试题(100分)1、下面哪个程序负责HDFS 数据存储?(单选题)【单选题】NodeB.JobtrackerC.DatanodeD.secondaryNameNodeE.tasktracker正确答案: C2、HDfS 中的block 默认保存几份?(单选题)【单选题】A.3 份B.2 份C.1 份D.不确定正确答案: A3、下列哪个程序通常与NameNode 在一个节点启动?(单选题)【单选题】A.SecondaryNameNodeB.DataNodeC.TaskTrackerD.Jobtracker正确答案: D4、Hadoop 作者是哪位?(单选题)【单选题】A.Martin FowlerB.Kent BeckC.Doug cutting正确答案: C5、HDFS 默认Block Size是多少?(单选题)【单选题】A.32MBB.64MBC.128MB正确答案: B6、下列哪项通常是集群的最主要瓶颈?(单选题)【单选题】A.CPUB.网络C.磁盘IOD.内存正确答案: C7、关于SecondaryNameNode 哪项是正确的?(单选题)【单选题】A.它是NameNode 的热备B.它对内存没有要求C.它的目的是帮助NameNode 合并编辑日志,减少NameNode 启动时间D.SecondaryNameNode 应与NameNode 部署到一个节点正确答案: C8、Client 端上传文件的时候下列哪项正确?(单选题)【单选题】A.数据经过NameNode 传递给DataNodeB.Client 端将文件切分为Block,依次上传C.Client 只上传数据到一台DataNode,然后由NameNode 负责Block 复制工作正确答案: B9、配置机架感知的下面哪项正确?(多选题)【多选题】(10分)A.如果一个机架出问题,不会影响数据读写B.写入数据的时候会写到不同机架的DataNode 中C.MapReduce 会根据机架获取离自己比较近的网络数据正确答案: ABC10、下列哪个是Hadoop 运行的模式?(多选题)【多选题】(10分)A.单机版B.伪分布式C.分布式正确答案: ABC。
Hadoop基础(习题卷2)
Hadoop基础(习题卷2)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]HDFS 中的 block 默认保存几个备份。
A)1B)2C)3D)4答案:C解析:2.[单选题]HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠行、高扩展性、高吞吐率等特征,适合的读写任务是________。
A)一次写入,少次读取B)多次写入,少次读取C)多次写入,多次读取D)一次写入,多次读取答案:D解析:3.[单选题]下面哪个选项不属于Google的三驾马车?A)HDFSB)MapReduceC)BigTableD)GFS答案:A解析:4.[单选题]下面描述错误的是:A)Hive的功能十分强大,可以支持采用SQL方式查询Hadoop平台上的数据B)在实际应用中,Hive也暴露出不稳定的问题,在极少数情况下,甚至会出现端口不响应或者进程丢失的问题C)在Hive HA中,在Hadoop集群上构建的数据仓库是由单个Hive实例进行管理的D)在Hive HA中,客户端的查询请求首先访问HAProxy,由HAProxy对访问请求进行转发答案:C解析:5.[单选题]下列关于配置机架感知的相关描述哪项不正确?A)如果一个机架出问题,不会影响数据读写和正确性B)MapReduce 会根据机架的拓扑获取离自己比较近的数据块C)写入数据的时候多个副本会写到不同机架的 DataNode 中D)数据块的第一个副本会优先考虑存储在客户端所在节点答案:C解析:6.[单选题]在java网络编程中,使用TCP编程时编写服务端的套接字类是A)SocketC)ServerSocketD)DatagramPacket答案:C解析:7.[单选题]HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。
当运行mapreduce任务读取该文件时input split大小为?A)一个map读取64MB,另外一个map读取11MBB)128MBC)75MBD)75MB答案:C解析:8.[单选题]配置机架感知的下面哪项正确?A)都正确B)MapReduce会根据机架获取离自己比较近的网络数据C)写入数据的时候会写到不同机架的DataNodeD)如果一个机架出问题,不会影响数据读写答案:A解析:9.[单选题]在下列压缩格式中,哪一个压缩格式压缩速度最慢。
Hadoop基础(习题卷11)
Hadoop基础(习题卷11)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]在文件属性中, 文件的权限用第( )列字符表示。
A)1-5B)2-10C)3-9D)1-8答案:B解析:2.[单选题]下列______不是云计算三层架构的概括。
A)IaaSB)PaaSC)SaaPD)SaaS答案:C解析:3.[单选题]验证java运行环境是否安装成功,使用哪个命令查看java版本,若出现版本号则表示 安装成功()A)java-versionB)java-ipconfigC)java-editionD)java-Release答案:A解析:4.[单选题]在Hadoop官方的示例程序包hadoop-maprecduceexamples-2.6.4.jar中,封装了一些常用的测试模块。
可以获得文件中单词长度的中位数的模块是(C)。
A)wordcountB)wordmeanC)wordmedianD)wordstandarddeviation答案:C解析:5.[单选题]在 MapReduce 中 Shuffle 的主要作用是( )A)将数据进行拆分B)对映射后的数据进行排序, 然后输入到 ReducerC)经过映射后的输出数据会被排序, 然后每个映射器会进 行分区D)通过实现自定义的 Partitioner 来指定哪些数据进入哪个Reducer答案:B解析:B)HTTPSC)SSHD)ClientProtocol答案:C解析:7.[单选题]关于ApplicationMaster组件描述错误的是()。
A)与资源管理器协商获取资源B)与节点管理器通信以启动或停止具体的任务C)监控应用程序所有任务的状态D)定时向资源管理器汇报资源使用情况答案:A解析:8.[单选题]SecondaryNameNode 是对主NameNode的一个补充,他会定期地执行对HDFS元数据的检查点。
当前设计仅允许每个HDFS只有()SecondaryNameNode节点。
hadoop习题册答案
hadoop习题册答案Hadoop习题册答案Hadoop是一个开源的分布式存储和计算框架,被广泛应用于大数据处理领域。
学习Hadoop需要不断练习和实践,而习题册则是一个很好的学习工具。
在这篇文章中,我们将为大家提供Hadoop习题册的答案,希望能够帮助大家更好地掌握Hadoop的知识。
1. 什么是Hadoop的核心组件?答:Hadoop的核心组件包括HDFS(Hadoop分布式文件系统)和MapReduce (分布式计算框架)。
2. Hadoop中的NameNode和DataNode分别是什么作用?答:NameNode是HDFS的主要组件,负责管理文件系统的命名空间和客户端对文件的访问。
DataNode则是存储实际数据块的节点,负责存储和检索数据。
3. 请简要说明MapReduce的工作流程。
答:MapReduce的工作流程包括两个阶段:Map阶段和Reduce阶段。
在Map 阶段,数据被划分成若干个小的数据块,然后由不同的Map任务并行处理。
在Reduce阶段,Map任务的输出被合并和排序,然后由Reduce任务进行最终的处理。
4. 什么是Hadoop的作业调度器?答:Hadoop的作业调度器负责管理集群上的作业,并根据资源的可用情况来进行作业的调度和分配。
5. Hadoop中的数据压缩是如何实现的?答:Hadoop中的数据压缩可以通过使用压缩编解码器来实现,例如Gzip、Snappy等。
以上是Hadoop习题册的部分答案,希望对大家学习Hadoop有所帮助。
通过不断地练习和实践,相信大家一定能够掌握Hadoop的核心知识,并在大数据处理领域有所建树。
Hadoop基础(习题卷8)
Hadoop基础(习题卷8)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]在Java中,<? version="1.0" encoding=”UTF-8”>这行声明该文档采用了什么编码标准A)GB2312B)ANSIC)ISO-8859-1D)UTF-8答案:D解析:2.[单选题]关于hadoop集群描述正确的是( )A)hadoop集群组件之间通过RPC通信协议B)hadoop集群NameNode节点越多越好C)hadoop集群使用Namenode存储元数据D)以上都正确答案:A解析:3.[单选题]HDFS 默认 Block SizeA)32MBB)64MBC)128MBD)240MB答案:B解析:4.[单选题]下面属于Hadoop特点的是()A)低价值密度B)低吞吐量C)高容错D)高成本答案:C解析:5.[单选题]编写MapReduce必须继承()类A)ConfiguredB)DonfiguredC)AonfiguredD)Writable答案:A解析:6.[单选题]在Java中,File类提供的方法中,哪个方法可以获取一个目录下所有子文件对象D)listFiles()答案:D解析:7.[单选题]HDFS结构不包括________。
A)Master体系结构B)主从服务器C)元数据服务器D)存储服务器答案:A解析:8.[单选题]下列哪一项不属于数据库事务具有ACID四性?A)间断性B)原子性C)一致性D)持久性答案:A解析:9.[单选题]客户端从Zookeeper获取Region的存储位置信息后,直接在_______上读写数据。
A)ZookeeperB)HMasterC)Region ServerD)HLog答案:C解析:10.[单选题]对NodeManager服务描述不正确的是( )A)NodeManager负责单节点资源管理和使用B)NodeManager管理当前节点的ContainerC)向ResourceManager汇报本节点上的资源使用情况D)NodeManager服务器不需要与ResourceManager通信答案:D解析:11.[单选题]下面对分区描述的过程正确的是( )A)merge是将多个溢写文件合并到一个文件B)merge过程不可能有Combiner处理C)缓冲区的作用不大D)以上都不正确答案:A解析:12.[单选题]云计算发展对产业的影响对一般企业和机构来说主要是( )。
Hadoop试题试题库完整
1.以下哪一项不属于Hadoop 可以运行的模式 C 。
A.单机(本地)模式B.伪分布式模式C.互联模式D.分布式模式2.Hadoop 的作者是下面哪一位 B 。
A.Martin FowlerB.Doug cuttingC.Kent BeckD.Grace Hopper3.下列哪个程序通常与NameNode 在同一个节点启动 D 。
A.TaskTrackerB.DataNodeC.SecondaryNameNodeD.Jobtracker4.HDFS 默认 Block Size 的大小是 B 。
A.32MBB.64MBC.128MBD.256M5.下列哪项通常是集群的最主要瓶颈 C 。
A.CPUB.网络C.磁盘 IOD.内存6.下列关于MapReduce 说法不正确的是C_ 。
A.MapReduce 是一种计算框架B.MapReduce 来源于 google 的学术论文C.MapReduce 程序只能用 java 语言编写D.MapReduce 隐藏了并行计算的细节,方便使用8.HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、D 。
高可扩展性、高吞吐率等特征,适合的读写任务是A.一次写入,少次读B.多次写入,少次读C.多次写入,多次读D.一次写入,多次读9.HBase 依靠 A 存储底层数据。
A.HDFSB.HadoopC.MemoryD.MapReduce10.HBase 依赖 D 提供强大的计算能力。
A.ZookeeperB.ChubbyC.RPCD.MapReduce11.HBase 依赖 A 提供消息通信机制A.ZookeeperB.ChubbyC.RPCD.Socket12.下面与HDFS 类似的框架是 C ?A.NTFSB.FAT32C.GFSD.EXT313.关于 SecondaryNameNode 下面哪项是正确的 C 。
A.它是 NameNode 的热备B.它对内存没有要求C.它的目的是帮助NameNode 合并编辑日志,减少NameNode 启动时间D.SecondaryNameNode 应与 NameNode 部署到一个节点14.大数据的特点不包括下面哪一项 D 。
Hadoop基础(习题卷5)
Hadoop基础(习题卷5)说明:答案和解析在试卷最后第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]使用下面那个命令可以将HDFS目录中所有文件合并到一起A)putmergeB)getmergeC)remergeD)mergeALL2.[单选题]下列关于Map/Reduce并行计算模型叙述正确的一项为________。
A)Map/Reduce把待处理的数据集分割成许多大的数据块B)大数据块经Map()函数并行处理后输出新的中间结果C)reduce()函数把多任务处理后的中间结果进行汇总D)reduce阶段的作用接受来自输出列表的迭代器3.[单选题]Hadoop伪分布式是()A)一个操作系统B)一台机器C)一个软件D)一种概念4.[单选题]在MapReduce任务中,下列哪一项会由hadoop自动排序?A)keys of mapper's outputB)values of mapper's outputC)keys of reducer's outputD)values of reducer's output5.[单选题]使配置的环境变量生效的命令是( )A)vi ~/.bashrcB)source ~/bashrcC)cat ~/.bashrcD)source ~/.bashrc6.[单选题]在命令模式中,以下那个命令不会进入输入模式?A)qB)oC)iD)a7.[单选题]DataNode默认存放目录为()A)/opt/hadoop-record/softC)/home/hadoop-record/softD)/opt/hadoop-record/data8.[单选题]HDFS 2.x默认Block Size ( )A)16MBB)32MBC)64MBD)128MB9.[单选题]在本次项目实施中,需求调研前的准备不包括( )。
(完整版)hadoop练习题--带答案
Hadoop 练习题姓名:分数:单项选择题1.下面哪个程序负责HDFS数据存储。
a)NameNodeb)Jobtrackerc)Datanode √d)secondaryNameNodee)tasktracker2.HDfS中的block默认保存几份?a)3份√b)2份c)1份d)不确定3.下列哪个程序通常与NameNode在一个节点启动?a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker√4.Hadoop作者a)Martin Fowlerb)Kent Beckc)Doug cutting√5.HDFS默认Block Sizea)32MBb)64MB√c)128MB6.下列哪项通常是集群的最主要的性能瓶颈a)CPUb)网络c)磁盘√d)内存7.关于SecondaryNameNode哪项是正确的?a)它是NameNode的热备b)它对内存没有要求c)它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间√d)SecondaryNameNode应与NameNode部署到一个节点8.一个gzip文件大小75MB,客户端设置Block大小为64MB,请我其占用几个Block?a) 1b)2√c) 3d) 49.HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。
当运行mapreduce任务读取该文件时input split大小为?a)64MBb)75MB√c)一个map读取64MB,另外一个map读取11MB10.HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为64MB。
当运行mapreduce任务读取该文件时input split大小为?a)64MBb)75MBc)一个map读取64MB,另外一个map读取11MB√多选题:11.下列哪项可以作为集群的管理工具a)Puppet√b)Pdsh√c)Cloudera Manager√d)Rsync + ssh + scp√12.配置机架感知的下面哪项正确a)如果一个机架出问题,不会影响数据读写√b)写入数据的时候会写到不同机架的DataNode中√c)MapReduce会根据机架获取离自己比较近的网络数据√13.Client端上传文件的时候下列哪项正确a)数据经过NameNode传递给DataNodeb)Client端将文件以Block为单位,管道方式依次传到DataNode√c)Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作d)当某个DataNode失败,客户端会继续传给其它DataNode √14.下列哪个是Hadoop运行的模式a)单机版√b)伪分布式√c)分布式√15.Cloudera提供哪几种安装CDH的方法a)Cloudera manager√b)Tar ball√c)Yum√d)Rpm√判断题:(全部错)16.Ganglia不仅可以进行监控,也可以进行告警。
Hadoop试题库完整
Hadoop试题库完整1. 以下哪一项不属于Hadoop可以运行的模式___C___。
A. 单机(本地)模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位__B____。
A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与NameNode 在同一个节点启动__D___。
A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认Block Size的大小是___B___。
A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。
A. CPUB. 网络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。
A. MapReduce是一种计算框架B. MapReduce来源于google的学术论文C. MapReduce程序只能用java语言编写D. MapReduce隐藏了并行计算的细节,方便使用8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是__D____。
A.一次写入,少次读B.多次写入,少次读C.多次写入,多次读D.一次写入,多次读9. HBase依靠__A____存储底层数据。
A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强大的计算能力。
A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下面与HDFS类似的框架是___C____?A. NTFSB. FAT32C. GFSD. EXT313. 关于SecondaryNameNode 下面哪项是正确的___C___。
hadoop练习题
hadoop练习题Hadoop是一个开源的分布式计算框架,旨在解决大数据处理和分析的问题。
通过将数据分解为多个小块,并在多个计算节点上并行处理,Hadoop可以实现高效的大规模数据处理。
为了熟悉和掌握Hadoop 的使用,以下是一些Hadoop练习题。
练习一:WordCount在Hadoop上实现经典的WordCount功能。
给定一个文本文件,统计其中每个单词出现的次数。
练习二:TopN给定一个包含大量整数的文件,找出其中最大的N个数。
使用Hadoop将任务分发到多个计算节点上,并在每个节点上进行部分排序,最后通过合并得到全局的TopN结果。
练习三:倒排索引给定一系列文本文件,建立倒排索引表。
即统计每个单词在哪些文件中出现过,并列出对应的文件路径。
练习四:连接操作将两个大文件中的数据进行连接操作。
例如,给定两个包含员工信息的文件,通过员工ID将两个文件中的数据进行连接,并输出最终结果。
练习五:数据去重给定一个包含重复数据的文件,使用Hadoop将其中的重复数据进行去重处理。
练习六:数据采样给定一个大数据集,使用Hadoop对数据进行采样,以获取数据的整体特征。
练习七:关系型数据库与Hadoop集成将关系型数据库中的数据导入Hadoop,通过使用Hadoop的分布式计算能力进行数据分析和处理。
练习八:海量日志分析使用Hadoop对海量日志进行分析。
例如,统计每个IP地址的访问次数,识别异常的访问行为等。
练习九:图计算使用Hadoop进行图计算。
例如,计算社交网络中的最短路径,查找关键节点等。
练习十:机器学习与Hadoop集成将机器学习算法与Hadoop结合,使用Hadoop进行大规模数据集的训练和模型构建。
通过完成以上Hadoop练习题,你将能够深入理解Hadoop的工作原理和应用场景,掌握Hadoop的使用技巧。
同时,这些练习题也能够提升你的数据处理和分析能力,为你在大数据领域的职业发展打下坚实基础。
Hadoop试题试题库完整
1.以下哪一项不属于Hadoop 可以运行的模式 C 。
A.单机(本地)模式B.伪分布式模式C.互联模式D.分布式模式2.Hadoop 的作者是下面哪一位 B 。
A.Martin FowlerB.Doug cuttingC.Kent BeckD.Grace Hopper3.下列哪个程序通常与NameNode 在同一个节点启动 D 。
A.TaskTrackerB.DataNodeC.SecondaryNameNodeD.Jobtracker4.HDFS 默认 Block Size 的大小是 B 。
A.32MBB.64MBC.128MBD.256M5.下列哪项通常是集群的最主要瓶颈 C 。
A.CPUB.网络C.磁盘 IOD.内存6.下列关于MapReduce 说法不正确的是C_ 。
A.MapReduce 是一种计算框架B.MapReduce 来源于 google 的学术论文C.MapReduce 程序只能用 java 语言编写D.MapReduce 隐藏了并行计算的细节,方便使用8.HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、D 。
高可扩展性、高吞吐率等特征,适合的读写任务是A.一次写入,少次读B.多次写入,少次读C.多次写入,多次读D.一次写入,多次读9.HBase 依靠 A 存储底层数据。
A.HDFSB.HadoopC.MemoryD.MapReduce10.HBase 依赖 D 提供强大的计算能力。
A.ZookeeperB.ChubbyC.RPCD.MapReduce11.HBase 依赖 A 提供消息通信机制A.ZookeeperB.ChubbyC.RPCD.Socket12.下面与HDFS 类似的框架是 C ?A.NTFSB.FAT32C.GFSD.EXT313.关于 SecondaryNameNode 下面哪项是正确的 C 。
A.它是 NameNode 的热备B.它对内存没有要求C.它的目的是帮助NameNode 合并编辑日志,减少NameNode 启动时间D.SecondaryNameNode 应与 NameNode 部署到一个节点14.大数据的特点不包括下面哪一项 D 。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章大数据概述1.互联网的发展分为______个阶段。
A.一 B.三 C.二 D.四2.下列不属于大数据特点的是()。
A.种类和来源多样化B.数据量巨大C.分析处理速度快D.价值密度高3.互联网发展的第_____个时代为智能互联网。
A.3.0B.4.0C.1.0D.2.04.关于大数据叙述不正确的一项是()。
A.大数据=“海量数据”+“复杂类型的数据”B.大数据是指在一定时间对内容抓取、管理和处理的数据集合C.大数据可以及时有效的分析海量的数据D.数据包括结构化数据、半结构化数据、结构化数据。
5.下列数据换算正确的一项为()。
A.1YB=1024EBB.1TB=1024MBC.1PB==1024EBD.1024ZB=1EB6.结构化数据的表现形式为______。
A.文本B.视图C.二维表D.查询7.结构化的数据,先有________,再有_________.A.数据结构B.结构数据C.内容结构D.结构内容8.结构化的数据,先有________,再有_________.A.数据结构B.结构数据C.内容结构D.结构内容9.软件是大数据的_________。
A.核心B.部件C.引擎D.集合10.大数据技术不包括( )。
A.数据计算B.数据存储C.数据冗余D.数据采集11.大数据的特点不包括()。
A.数量大B.类型少C.速度快D.价值高第二章Hadoop简介1.下列对云栈架构层数不正确的一项为________。
A.三层云栈架构B.四层云栈架构C.五层云栈架构D.六层云栈架构2.下列______不是云计算三层架构的概括。
A.IaaSB.PaaSC.SaaPD.SaaS3.IaaS基础设施及服务可以称为______。
A.弹性计算B.效用计算C.有效计算D.随需应用4.四层云栈模式,是将三层模式中的_________进行分解,分为两层,一层为硬件层,一层为虚拟资源层。
A.硬件部分B.虚拟化部分C.基础设施D.平台5.五层云栈模式,第五层为______。
A.固件/硬件层B.云基本资源层C.云应用程序层D.云软件环境层6.大数据是_____的应用。
A.人工智能B.云计算C.物联网D.互联网7.hadoop______中第一阶段的输出可以作为下一阶段的输入。
A.应用场景B.分布式计算C.分阶段计算D.高效处理8. .hadoop______中将海量数据分割于多个节点,由每个节点并行计算,将得到的结果归并到输出。
A.应用场景B.分布式计算C.分阶段计算D.高效处理9.下列选项中不是hadoop特点的是_____。
A.可靠性B.扩容能力C.高效率D.成本高10.hadoop能可靠地存储和处理_____字节数据。
A.TBB.PBC.YBD.ZB11.hadoop集群可以用___种模式进行。
A.四B.三C.五D.二12.hadoop集群不可以在_____________进行。
A.联机模式B.单机模式C.虚拟分布模式D.完全分布模式13.________模式:hadoop安装时的默认模式,不对配置文件进行修改。
A.联机B.单机C.虚拟分布D.完全分布14.________模式:在一台机器上用软件模拟多节点集群。
A.联机B.单机C.虚拟分布D.完全分布15.________模式:Hadoop安装运行在多台主机上,构成一个真实的hadoop集群,在所有的节点上都安装JDK和hadoop,相互通过高速局域网连接。
A.联机B.单机C.虚拟分布D.完全分布16.完全分布式,各节点之间设置________,将各个从节点生成的公钥添加到主节点的信任列表。
A.SSHB.JDKC.hadoopD.HDFS17.完全分布式,不需要修改的配置文件为_______。
A.core-site.xmlB.hdfs-site.xmlC.hadoop-env.shD.mapred-site.xml18.HDFS架构中有两个_________。
A.DataNodesB. JobTrackeNodeD.SecondayNameNode19.下列不是hadoop核心组件的是________。
A.JobTrackerB.TaskTrackerC.HDFSD.Hbase20._______存储Hadoop集群中所有存储节点上的文件,为海量提供存储。
A.JobTrackerB.TaskTrackerC.HDFSD.HBase第四章HDFS文件系统1.___________是指跨多台计算或服务器的文件或文件夹,数据存储在多台机器而不是单台机器上。
A.分布式存储B.分页式存储C.链式存储D.顺序存储2.下列关于hadoop系统架构叙述不正确的一项为________。
A.由一台Intel x86处理器的服务器或PC机组成。
B.部署在低成本Intel/linux硬件平台上。
C.通过高速局域网构成一个计算集群。
D.各个节点上运行Linux操作系统。
3.主节点程序__________。
NodeB.DataNodeC.SecondaryNameNodeD.Jobtracker4. 从节点程序__________。
NodeB.DataNodeC.SecondaryNameNodeD.Jobtracker5.HDFS结构不包括________。
A.Master体系结构B.主从服务器C.元数据服务器D.存储服务器6.HDFS分布式文件系统的特点为____________。
A.半透明性B.低可用性C.可扩展性D.支持一个应用程序并发访问7.HDFS中的block默认保存____份。
A.3B.2C.1D.不确定8.下列_______通常与NameNode在一个节点启动。
A.SecondaryNameNodeB.DataNodeC.TaskTrackerD.Jobtracker9.HDFS每个文件被划分成______大小的多个block,属于同一个文件的blocks分散存储在不同DataNode上。
A.32MBB.64MBC.128MBD.无法确定10.下面哪个程序负责HDFS 数据存储?()NodeB.JobTrackerC.DataNodeD.SecondaryNameNodeE.tasktrackerNode是HDFS系统中的管理局节点,它管理文件系统的命名空间,记录每个文件数据块在DataNode上的位置和副本信息、协调客户端对文件的访问、记录命名空间内的改动和空间本身属性的改动。
A.错误B.正确12.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠行、高扩展性、高吞吐率等特征,适合的读写任务是________。
A.一次写入,少次读取B.多次写入,少次读取C.多次写入,多次读取D.一次写入,多次读取13.关于HDFS的文件写入,正确的是_________。
A.支持多用户对同一文件的写操作B.用户可以在文件任意位置进行修改C.默认将文件复制成三份存放D.复制的文件块默认存在同一机架上14.Client在HDFS上进行文件写入时,namenode根据文件大小和配置情况,返回部分datanode信息,谁负责将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块A.ClientnodeC.DatanodeD.Secondary namenode15.HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括A.利用SequenceFile、MapFile、Har等方式归档小文件B.多Master设计C.Block大小适当调小D.调大namenode内存或将文件系统元数据存到硬盘里16. 在HDFS的数据读取过程中,客服端首先调用________的实例的open()方法打开一个文件。
A.DistributedFileSystemB.FileSystemC.FSDataOutputSystemD.OutputSystem17.在HDFS的数据读取过程中,DistributedFileSystem获取这些信息后,生成一个__________对象实例返回给客户端。
A.DistributedFileSystemB.FSDataInputSystemC.FSDataOutputSystemD.InputSystem18.在HDFS的数据读取过程中,客户端读取完所有数据块后,调用___________的close()接口关闭这个文件。
A.DistributedFileSystemB.FSDataInputSystemC.FSDataOutputSystemD.InputSystem19.在HDFS的数据写入过程中,客服端首先调用________的实例的create()方法打开一个文件。
A.DistributedFileSystemB.FileSystemC.FSDataOutputSystemD.OutputSystem20. 在HDFS的数据写入过程中,客户端写完所有数据块后,调用___________的close()方法结束这次文件写入操作。
A.DistributedFileSystemB.FSDataInputSystemC.FSDataOutputSystemD.InputSystem21.HDFS的错误检测不包括_________。
Node检测B.DataNode检测C.数据错误检测D.冗余检测第五章MapReduce原理与编程1.MapReduce应用于__________的数据处理。
A.小规模B.中小规模C.大规模D.超大规模2.MapReduce能处理的海量数据大于______。
A.1TBB.10GBC.10TBD.1PB3.下列关于MapReduce说法不正确的是________。
A.MapReduce是一种计算框架B.MapReduce的核心思想是“分而治之”C.MapReduce是一个串行的编程模型D.MapReduce来源于Google的学术论文4.下列关于MapReduce的特性叙述正确的一项是_________。
A.自动实现分布式串行计算B.自动实现分页式并行计算C.容错,提供状态监控工具D.不容错,提供状态监控工具5.在分布式并行计算体系中,________采用一个指令流处理单个数据流。
A.SISDB.SIMDC.MISDD.MIMD6. 在分布式并行计算体系中,________采用多个指令流同时处理多个数据流。
A.SISDB.SIMDC.MISDD.MIMD7.关于集群的特点下列叙述正确的一项是_________。
A.系统吞吐量小B.可靠性高C.扩展性弱D.性价比低8.下列关于MapReduce的基本思想叙述不正确的一项是_________。