(完整版)hadoop常见笔试题答案
Hadoop试题试题库
1. 以下哪一项不属于Hadoop可以运行的模式___C___。
A. 单机(本地)模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位__B____。
A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与NameNode 在同一个节点启动__D___。
A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认Block Size的大小是___B___。
A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。
A. CPUB. 网络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。
A. MapReduce是一种计算框架B. MapReduce来源于google的学术论文C. MapReduce程序只能用java语言编写D. MapReduce隐藏了并行计算的细节,方便使用8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是__D____。
A.一次写入,少次读B.多次写入,少次读C.多次写入,多次读D.一次写入,多次读9. HBase依靠__A____存储底层数据。
A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强大的计算能力。
A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下面与HDFS类似的框架是___C____?A. NTFSB. FAT32C. GFSD. EXT313. 关于SecondaryNameNode 下面哪项是正确的___C___。
Hadoop笔试题
原创Hadoop基础题库1.//Hadoop基础2.Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是3.A. Hadoop4.B. Nutch5.C. Lucene6.D. Solr7.答案:D8.9.配置Hadoop时,JAVA_HOME包含在哪一个配置文件中10.A. hadoop-default.xml11.B. hadoop-env.sh12.C. hadoop-site.xml13.D. configuration.xsl14.答案:B15.知识点:hadoop配置16.17.Hadoop配置文件中,hadoop-site.xml显示覆盖hadoop-default.xml里的内容。
在版本0.20中,hadoop-site.xml被分离成三个XML文件,不包括18.A. conf-site.xml19.B. mapred-site.xml20.C. core-site.xml21.D. hdfs-site.xml22.答案:A23.知识点:hadoop配置24.25.HDFS默认的当前工作目录是/user/$USER,的值需要在哪个配置文件内说明26. A. mapred-site.xml27. B. core-site.xml28. C. hdfs-site.xml29. D. 以上均不是30.答案:B31.知识点:hadoop配置32.33.关于Hadoop单机模式和伪分布式模式的说法,正确的是34.A.两者都起守护进程,且守护进程运行在一台机器上35.B.单机模式不使用HDFS,但加载守护进程36.C.两者都不与守护进程交互,避免复杂性37.D.后者比前者增加了HDFS输入输出以及可检查内存使用情况38.答案:D39.知识点:hadoop配置40.41.下列关于Hadoop API的说法错误的是42.A. Hadoop的文件API不是通用的,只用于HDFS文件系统43.B. Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的44.C. FileStatus对象存储文件和目录的元数据45.D. FSDataInputStream是java.io.DataInputStream的子类46.答案:A47.48.//HDFS49.HDFS的NameNode负责管理文件系统的命名空间,将所有的文件和文件夹的元数据保存在一个文件系统树中,这些信息也会在硬盘上保存成以下文件:50.A.日志51.B.命名空间镜像52.C.两者都是53.答案:C54.知识点:55.56.HDFS的namenode保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息也存储在硬盘上。
大数据hadoop云平台日常运维知识考试
大数据hadoop云平台日常运维知识考试1. IT公司所有()应系统为单位配备二线运维现场值班、备班(非现场)人员,确保系统出现故障后第一时间处理。
[单选题] *A.业务系统B.核心系统(正确答案)C.重要系统D.一般系统答案解析:《中移(动)信息技术有限公司IT系统运维质量管理办法》第六章第二十八条核心系统二线运维值班备班管理要求。
IT公司所有核心系统应以系统为单位配备二线运维现场值班、备班(非现场)人员,确保系统出现故障后第一时间处理。
2. 二线运维备班人员应保持7×24小时实时待命状态,确保系统出现故障后()分钟内可接入生产系统开展运维处置工作。
[单选题] *A.30分钟B.20分钟C.15分钟D.10分钟(正确答案)答案解析:《中移(动)信息技术有限公司IT系统运维质量管理办法》第六章第二十八条二线运维备班人员应保持7×24小时实时待命状态,确保系统出现故障后10分钟内可接入生产系统开展运维处置工作。
3. 根据公司割接管理要求,下列哪项不属于“四个必须”管理要求。
[单选题] *A.割接实施过程中涉及的关键步骤、关键动作,必须做到有人复核、有人验证。
B.割接方案经过评审后,方可实施。
涉及或潜在影响多部门或外单位的割接,必须通过割接工单或其它形式提前告知。
C.割接工作涉及或潜在影响其他系统的,必须请相关系统的主体运营部门参与方案评审。
D.各部门应对割接方案进行评审,项目经理作为割接工作的第一责任人,必须要对割接方案进行审核。
(正确答案)答案解析:《中移(动)信息技术有限公司IT系统运维质量管理办法》第七章割接报备管理第三十三条割接管理须遵循“四个必须”管理要求(一)各部门应对割接方案进行评审,部门领导作为割接工作的第一责任人,必须要对割接方案进行审核。
(二)割接工作涉及或潜在影响其他系统的,必须请相关系统的主体运营部门参与方案评审。
(三)割接方案经过评审后,方可实施。
Hadoop试题试题库
1. 以下哪一项不属于Hadoop可以运行的模式___C___。
A. 单机(本地)模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位__B____。
A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与 NameNode 在同一个节点启动__D___。
A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认 Block Size的大小是___B___。
A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。
A. CPUB. 网络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。
A. MapReduce是一种计算框架B. MapReduce来源于google的学术论文C. MapReduce程序只能用java语言编写D. MapReduce隐藏了并行计算的细节,方便使用8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是 __D____。
A.一次写入,少次读B.多次写入,少次读C.多次写入,多次读D.一次写入,多次读9. HBase依靠__A____存储底层数据。
A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强大的计算能力。
A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下面与HDFS类似的框架是___C____?A. NTFSB. FAT32C. GFSD. EXT313. 关于 SecondaryNameNode 下面哪项是正确的___C___。
hadoop考试试题
hadoop 考试一试题您的姓名:[填空题 ] *_________________________________1.Spark 是用一下哪一种编程语言实现的?[单项选择题 ] *()A.CB.C++;C.JAVA; (正确答案 )D.Scala2.FusionInsight Manager对服务的管理操作,下边说法错误的选项是?()[ 单项选择题 ] *A.可对服务进行启停重启操作;B.能够增添和卸载服务 ;C.可设置不常用的服务隐蔽或显示;(正确答案 )D.能够查察服务的目前状态;3.FusionInsight HD 集群升级,一下描绘正确的选项是?()*A. 升级过程中不可以够操作准备OMS 倒换 ;(正确答案 )B.集群内全部主机的root 账户密码要保持一致 ;(正确答案 )C.保持网络畅达,防止网络问题致使升级异样;(正确答案 )D.察看期不可以做扩容 ;(正确答案 )4.FusionInsight HD Loader 在创立作业时,连结器(Connector)有什么用?()[单项选择题 ] *A. 确立有哪些转变步骤 ;B.供给优化参数,提高数据导出性能;C.配置数据怎样与外面数据进行连结;(正确答案 )D.配置数据怎样与内部数据进行连结;5.以下哪个 HDFS 命令可用于检测数据块的完好性?()[ 单项选择题 ] *A.hdfs fsck /;(正确答案 )B.hdfs fsck / -delete;C.hdfs dfsadmin -report;D.hdfs balancer -threshold 1;6.YARN 中设置行列 QueueA 最大使用资源里,需要配置哪个参数?()[单项选择题 ]*A.yarn scheduler capacty root QueueA user-limit-factor;B.yarn scheduler capacty root QueueA minimum-user-limit-percent;C.yarn scheduler capacty root QueueA state;D.yarn scheduler capacty root QueueA maximum-capacity;(正确答案 )7.Flume 的数据流能够依据headers的信息发送到不一样的channel中。
Hadoop常见面试笔试题目与参考答案小结
Hadoop常见⾯试笔试题⽬与参考答案⼩结1. namenode的重要性是什么?namenode的作⽤在Hadoop中⾮常重要。
它是Hadoop的⼤脑,主要负责管理系统上的分配块,还为客户提出请求时的数据提供特定地址2. 当NameNode关闭时会发⽣什么?如果NameNode关闭,⽂件系统将脱机。
3. 是否可以在不同集群之间复制⽂件?如果是的话,怎么能做到这⼀点?是的,可以在多个Hadoop集群之间复制⽂件,这可以使⽤分布式复制来完成。
Distcp是⼀个Hadoop复制⼯具,主要⽤于执⾏MapReduce作业来复制数据。
Hadoop环境中的主要挑战是在各集群之间复制数据,distcp也将提供多个datanode来并⾏复制数据。
4. 什么是检查点?对⽂件数据的修改不是直接写回到磁盘的,很多操作是先缓存到内存的Buffer中,当遇到⼀个检查点Checkpoint时,系统会强制将内存中的数据写回磁盘,当然此时才会记录⽇志,从⽽产⽣持久的修改状态。
因此,不⽤重放⼀个编辑⽇志,NameNode可以直接从FsImage加载到最终的内存状态,这肯定会降低NameNode启动时间5. 什么是机架感知?这是⼀种决定如何根据机架定义放置块的⽅法。
Hadoop将尝试限制存在于同⼀机架中的datanode之间的⽹络流量。
为了提⾼容错能⼒,名称节点会尽可能把数据块的副本放到多个机架上。
综合考虑这两点的基础上Hadoop设计了机架感知功能。
6. 投机性执⾏如果⼀个节点正在执⾏⽐主节点慢的任务。
那么就需要在另⼀个节点上冗余地执⾏同⼀个任务的⼀个实例。
所以⾸先完成的任务会被接受,另⼀个可能会被杀死。
这个过程被称为“投机执⾏”。
7. 是否可以在Windows上运⾏Hadoop?可以,但是最好不要这么做,Red Hat Linux或者是Ubuntu才是Hadoop的最佳操作系统。
在Hadoop安装中,Windows通常不会被使⽤,因为会出现各种各样的问题。
Hadoop基础(习题卷18)
Hadoop基础(习题卷18)第1部分:单项选择题,共53题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]下列不属于Python中Flask框架特点的是?A)内置开发服务器和调试器B)与Python单元测试功能无缝衔接C)使用Jinja2模板D)端口号固定为5000,且无法修改答案:D解析:2.[单选题]在Java中,方法resume( )负责重新开始▁▁线程的执行A)被stop( )方法停止B)被sleep( )方法停止C)被wait( )方法停止D)被suspend( )方法停止答案:D解析:3.[单选题]在Java中,假如电脑上E盘没有xxx目录,则下面程序功能描述正确是_x000D_File file1=new File("e:\\xxx\\yyy"); file1.mkdir()A)在当前目录下生成子目录:\xxx\yyyB)在E盘自动创建xxx/yyy目录C)在当前目录下生成文件xxx.yyyD)代码执行后E盘不会产生任何目录答案:D解析:4.[单选题]在Hadoop上提交Job时不涉及哪个实体()A)客户端B)HDFSC)SecondaryNodeD)JobTracker答案:C解析:5.[单选题]下面哪些不是引起 Spark 负载不均的原因?( )A)Spark 读入的数据源是倾斜的B)Shuffle 阶段 Key 值过于集中C)在数据过滤阶段需要处理的数据量差异D)Spark 的运行方式差异答案:D解析:6.[单选题]配置Hadoop时,JAVA_HOME包含在哪一个配置文件中?A)hadoop-default.xmlC)hadoop-site.xmlD)configuration.xml答案:B解析:7.[单选题]在 hadoop 配置中 yarn-site.xml 作用是( )A)用于定义系统级别的参数B)用于名称节点和数据节点的存放位置C)用于配置 JobHistory Server 和应用程序参数D)配置 ResourceManager,NodeManager 的通信端口答案:D解析:8.[单选题]HDFS中的block默认保存____份。
Hadoop试题试题库完整
Hadoop试题试题库完整1. 以下哪⼀项不属于Hadoop可以运⾏的模式___C___。
A. 单机(本地)模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下⾯哪⼀位__B____。
A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与 NameNode 在同⼀个节点启动__D___。
A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认 Block Size的⼤⼩是___B___。
A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。
A. CPUB. ⽹络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。
A. MapReduce是⼀种计算框架B. MapReduce来源于google的学术论⽂C. MapReduce程序只能⽤java语⾔编写D. MapReduce隐藏了并⾏计算的细节,⽅便使⽤8. HDFS是基于流数据模式访问和处理超⼤⽂件的需求⽽开发的,具有⾼容错、⾼可靠性、⾼可扩展性、⾼吞吐率等特征,适合的读写任务是 __D____。
A.⼀次写⼊,少次读C.多次写⼊,多次读D.⼀次写⼊,多次读9. HBase依靠__A____存储底层数据。
A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强⼤的计算能⼒。
A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下⾯与HDFS类似的框架是___C____?A. NTFSB. FAT32C. GFSD. EXT313. 关于 SecondaryNameNode 下⾯哪项是正确的___C___。
Hadoop基础(习题卷3)
Hadoop基础(习题卷3)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]大数据的简单算法与小数据的复杂算法相比()A)更有效B)相当C)不具备可比性D)无效答案:A解析:2.[单选题]下列选项中,不是CouchDB的复制中的特点是:A)使用优先列表B)复制过程是逐步进行C)允许分区复制D)支持智能文档模式答案:A解析:3.[单选题]从HDFS下载文件,正确的shell命令是()。
A)-getB)-appendToFileC)-putD)-copyFromLocal答案:A解析:4.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)存储客户端上传的数据的数据块B)一个DataNode上存储的所有数据块可以有相同的C)DataNode之间可以互相通信D)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:B解析:5.[单选题]在Java中,一个线程如果调用了sleep()方法,能唤醒它的方法是A)notify()B)resume()C)run()D)以上都不是,时间到了会自动继续执行答案:D解析:6.[单选题]软件是大数据的_________。
A)核心解析:7.[单选题]_______模式,只适合于Hive简单试用及单元测试。
A)单用户模式B)多用户模式C)多用户远程模式D)单用户远程模式答案:A解析:8.[单选题]下列关于Hive描述错误的是()。
A)hive学习成本低,支持标准的SQL语法B)hive运行效率低,延迟高C)HQL的表达能力有限D)Hive支持迭代计算答案:D解析:9.[单选题]下面哪个选项不是我们需要Hadoop的主要原因()A)我们需要处理PB级别的数据B)为每个应用建立一个可靠的系统是很昂贵的C)几乎每天都有结点坏掉D)把一个任务分割成多个子任务的方式是不好的答案:D解析:10.[单选题]为了让集群中的机器能够正常通信,所有集群的IP必须设置成静态IP,防止机器重启之后而找不到机器的情况,那么IP地址配置需要修改那个文件()A)ifcfg-loB)network-functionsC)ifcfg-ens33D)network-functions-ipv6答案:C解析:11.[单选题]Spark生态系统组件Spark Streaming的应用场景是?A)基于历史数据的数据挖掘B)图结构数据的处理C)基于历史数据的交互式查询D)基于实时数据流的数据处理答案:D解析:12.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)DataNode之间都是独立的,相互之间不会有通信B)存储客户端上传的数据的数据块C)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑13.[单选题]Hadoop2.x版本中的数据块大小默认是多少? ()A)64MB)128MC)256MD)512M答案:B解析:14.[单选题]HDFS分布式文件系统的特点为____________。
Hadoop基础(习题卷1)
Hadoop基础(习题卷1)说明:答案和解析在试卷最后第1部分:单项选择题,共145题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]以下哪一项不属于Hadoop可以运行的模式()A)单机模式B)伪分布式模式C)互联模式D)分布式模式2.[单选题]下列哪一个不属于Hadoop的大数据层的功能?A)数据挖掘B)离线分析C)实时计算D)BI分析3.[单选题]用于检查节点自身的健康状态的进程是( )A)ResourceManagerB)NodeManagerC)NameNodeD)DataNode4.[单选题]下面与Zookeeper类似的框架是?A)ProtobufB)JavaC)KafkaD)Chubby5.[单选题]哪个不是HDFS的特点?A)高容错B)高吞吐量C)低延迟读取D)大文件存储6.[单选题]在mapreduce任务中,下列哪一项会由hadoop系统自动排序()A)keys of mapper's outputB)values of mapper's outputC)keys of reducer's outputD)values of reducer's output7.[单选题]HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是?A)一次写入,多次读写B)一次写入,少次读写C)多次写入,少次读写D)多次写入,多次读写8.[单选题]下列哪项通常是集群的最主要的性能瓶颈? ()A)CPUB)网络C)磁盘D)内存9.[单选题]以下选项中,哪种类型间的转换是被Hive查询语言所支持的()A)Double-NumberB)BigInt-DoubleC)Int-BigIntD)String--Double10.[单选题]下面哪个选项中的Daemon总是运行在同一台主机上()A)Name Node & Job TrackerB)Secondary Name Node & Job TrackerC)Name Node & Secondary Name NodeD)Data Node & Task Tracker11.[单选题]2003年,Google公司发表了主要讲解海量数据的可靠存储方法的论文是?A)“TheGoogleFileSystem”B)“MapReduce:SimplifiedDataProcessingonLargeClusters”C)“Bigtable:ADistributedStorageSystemforStructuredData”D)“TheHadoopFileSystem”12.[单选题]下列_______通常与NameNode在一个节点启动。
hadoop大数据技术与应用考试题
1、Hadoop生态系统中的分布式存储系统是什么?A. HDFSB. HBaseC. HiveD. Mahout(答案:A,HDFS是Hadoop Distributed File System的缩写,是Hadoop的分布式存储系统)2、Hadoop集群中的NameNode主要负责什么功能?A. 数据存储B. 数据处理C. 元数据管理D. 资源调度(答案:C,NameNode负责Hadoop集群中的元数据管理)3、以下哪个工具常用于Hadoop集群的资源管理和作业调度?A. YARNB. HDFSC. ZookeeperD. Sqoop(答案:A,YARN是Yet Another Resource Negotiator的缩写,用于Hadoop集群的资源管理和作业调度)4、Hadoop中的MapReduce编程模型主要包括哪两个阶段?A. Map和ShuffleB. Map和ReduceC. Reduce和SortD. Sort和Combine(答案:B,MapReduce包括Map和Reduce两个阶段)5、HBase是Hadoop生态系统中的哪个组件?A. 分布式文件系统B. 分布式数据库C. 数据仓库D. 机器学习库(答案:B,HBase是Hadoop生态系统中的分布式数据库)6、以下哪个组件通常用于在Hadoop中进行大规模数据处理和分析?A. PigB. SqoopC. FlumeD. Zookeeper(答案:A,Pig是一个高级平台,用于在Hadoop中进行大规模数据处理和分析)7、Hadoop集群中的DataNode主要负责什么?A. 存储和管理数据块B. 处理数据计算C. 管理集群元数据D. 监控集群状态(答案:A,DataNode主要负责存储和管理数据块)8、以下哪个是Hadoop生态系统中的数据挖掘和机器学习库?A. MahoutB. HiveC. PigD. Oozie(答案:A,Mahout是Hadoop生态系统中的数据挖掘和机器学习库)。
Hadoop基础(习题卷11)
Hadoop基础(习题卷11)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]在文件属性中, 文件的权限用第( )列字符表示。
A)1-5B)2-10C)3-9D)1-8答案:B解析:2.[单选题]下列______不是云计算三层架构的概括。
A)IaaSB)PaaSC)SaaPD)SaaS答案:C解析:3.[单选题]验证java运行环境是否安装成功,使用哪个命令查看java版本,若出现版本号则表示 安装成功()A)java-versionB)java-ipconfigC)java-editionD)java-Release答案:A解析:4.[单选题]在Hadoop官方的示例程序包hadoop-maprecduceexamples-2.6.4.jar中,封装了一些常用的测试模块。
可以获得文件中单词长度的中位数的模块是(C)。
A)wordcountB)wordmeanC)wordmedianD)wordstandarddeviation答案:C解析:5.[单选题]在 MapReduce 中 Shuffle 的主要作用是( )A)将数据进行拆分B)对映射后的数据进行排序, 然后输入到 ReducerC)经过映射后的输出数据会被排序, 然后每个映射器会进 行分区D)通过实现自定义的 Partitioner 来指定哪些数据进入哪个Reducer答案:B解析:B)HTTPSC)SSHD)ClientProtocol答案:C解析:7.[单选题]关于ApplicationMaster组件描述错误的是()。
A)与资源管理器协商获取资源B)与节点管理器通信以启动或停止具体的任务C)监控应用程序所有任务的状态D)定时向资源管理器汇报资源使用情况答案:A解析:8.[单选题]SecondaryNameNode 是对主NameNode的一个补充,他会定期地执行对HDFS元数据的检查点。
当前设计仅允许每个HDFS只有()SecondaryNameNode节点。
Hadoop试题试题库
1.以下哪一项不属于 Hadoop 可以运行的模式 C 。
A.单机(本地)模式B.伪分布式模式C.互联模式D.分布式模式2.Hadoop 的作者是下面哪一位 B 。
A.Martin FowlerB.Doug cuttingC.Kent BeckD.Grace Hopper3.下列哪个程序通常与NameNode 在同一个节点启动 D 。
A.TaskTrackerB.DataNodeC.SecondaryNameNodeD.Jobtracker4.HDFS 默认Block Size 的大小是 B 。
A.32MBB.64MBC.128MBD.256M5.下列哪项通常是集群的最主要瓶颈 C 。
A.CPUB.网络C.磁盘 IOD.内存6.下列关于 MapReduce 说法不正确的是C_ 。
A.M apReduce 是一种计算框架B.MapReduce 来源于 google 的学术论文C.M apReduce 程序只能用 java 语言编写D.MapReduce 隐藏了并行计算的细节,方便使用8.HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是 D 。
A.一次写入,少次读B.多次写入,少次读C.多次写入,多次读D.一次写入,多次读9.HBase 依靠 A 存储底层数据。
A.HDFSB.HadoopC.MemoryD.MapReduce10.HBase 依赖 D 提供强大的计算能力。
A.ZookeeperB.ChubbyC.RPCD.MapReduce11.HBase 依赖 A 提供消息通信机制A.ZookeeperB.ChubbyC.RPCD.Socket12.下面与 HDFS 类似的框架是 C ?A.NTFSB.FAT32C.GFSD.EXT313.关于SecondaryNameNode 下面哪项是正确的 C 。
A.它是NameNode 的热备B.它对内存没有要求C.它的目的是帮助NameNode 合并编辑日志,减少NameNode 启动时间D.SecondaryNameNode 应与NameNode 部署到一个节点14.大数据的特点不包括下面哪一项 D 。
Hadoop试题试题库完整
1.以下哪一项不属于Hadoop 可以运行的模式 C 。
A.单机(本地)模式B.伪分布式模式C.互联模式D.分布式模式2.Hadoop 的作者是下面哪一位 B 。
A.Martin FowlerB.Doug cuttingC.Kent BeckD.Grace Hopper3.下列哪个程序通常与NameNode 在同一个节点启动 D 。
A.TaskTrackerB.DataNodeC.SecondaryNameNodeD.Jobtracker4.HDFS 默认 Block Size 的大小是 B 。
A.32MBB.64MBC.128MBD.256M5.下列哪项通常是集群的最主要瓶颈 C 。
A.CPUB.网络C.磁盘 IOD.内存6.下列关于MapReduce 说法不正确的是C_ 。
A.MapReduce 是一种计算框架B.MapReduce 来源于 google 的学术论文C.MapReduce 程序只能用 java 语言编写D.MapReduce 隐藏了并行计算的细节,方便使用8.HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、D 。
高可扩展性、高吞吐率等特征,适合的读写任务是A.一次写入,少次读B.多次写入,少次读C.多次写入,多次读D.一次写入,多次读9.HBase 依靠 A 存储底层数据。
A.HDFSB.HadoopC.MemoryD.MapReduce10.HBase 依赖 D 提供强大的计算能力。
A.ZookeeperB.ChubbyC.RPCD.MapReduce11.HBase 依赖 A 提供消息通信机制A.ZookeeperB.ChubbyC.RPCD.Socket12.下面与HDFS 类似的框架是 C ?A.NTFSB.FAT32C.GFSD.EXT313.关于 SecondaryNameNode 下面哪项是正确的 C 。
A.它是 NameNode 的热备B.它对内存没有要求C.它的目的是帮助NameNode 合并编辑日志,减少NameNode 启动时间D.SecondaryNameNode 应与 NameNode 部署到一个节点14.大数据的特点不包括下面哪一项 D 。
《Hadoop技术原理》试卷
B: HADOOP_MAP_DATATYPES环境变量
C: 随作业一起提交的mapper-specification.xml文件
D: InputFormat格式类
5.关于 SecondaryNameNode 哪项是正确的?
D: 可控性,hadoop rpc实现了自定义的rpc框架。
5.关于ZooKeeper的配置参数,下列说明正确的是()【选两项】
A: tickTime:服务器与客户端之间的心跳时间间隔。
B: initLimit:设定了所有跟随者与领导者进行连接并同步的时间范围。
C: syncLimit:允许一个跟随者与领导者进行的交换数据时间。
A: 实现Writable接口的类是值
B: 实现WritableComparable接口的类可以是值或键
C: Hadoop的基本类型Text并不实现WritableComparable接口
D: 键和值的数据类型可以超出Hadoop自身支持的基本类型
9.下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是
B: NameNode
C: DataBases
D: Secondary NameNode
3.每次格式化Hadoop的文件系统都会删除哪两个文件中的数据()【选两项】
A: .dir
B: .dir
C: dfs.datanode.data.dir
会产生多少个maptask 4个 65M这个文件只有一个切片《原因参见笔记汇总TextInputformat源码分析部分பைடு நூலகம்。
hadoop考试复习试题200道
hadoop考试复习试题200道1.Spark是用一下哪种编程语言实现的?() [单选题] *A.CB.C++;C.JAVA;(正确答案)D.Scala2.FusionInsight Manager对服务的管理操作,下面说法错误的是?() [单选题] *A.可对服务进行启停重启操作;B.可以添加和卸载服务;C.可设置不常用的服务隐藏或显示;(正确答案)D.可以查看服务的当前状态;3.FusionInsight HD集群升级,一下描述正确的是?() *A.升级过程中不可以操作准备OMS倒换;(正确答案)B.集群内所有主机的root账户密码要保持一致;(正确答案)C.保持网络通畅,避免网络问题导致升级异常;(正确答案)D.观察期不能做扩容;(正确答案)4.FusionInsight HD Loader 在创建作业时,连接器(Connector)有什么用?() [单选题] *A.确定有哪些转化步骤;B.提供优化参数,提高数据导出性能;C.配置数据如何与外部数据进行连接;(正确答案)D.配置数据如何与内部数据进行连接;5.下列哪个HDFS命令可用于检测数据块的完整性?() [单选题] *A.hdfs fsck /;(正确答案)B.hdfs fsck / -delete;C.hdfs dfsadmin -report;D.hdfs balancer -threshold 1;6.YARN中设置队列QueueA最大使用资源里,需要配置哪个参数?() [单选题] *A.yarn scheduler capacty root QueueA user-limit-factor;B.yarn scheduler capacty root QueueA minimum-user-limit-percent;C.yarn scheduler capacty root QueueA state;D.yarn scheduler capacty root QueueA maximum-capacity;(正确答案)7.Flume的数据流可以根据headers的信息发送到不同的channel中。
hadoop习题答案
hadoop习题答案Hadoop习题答案Hadoop是当前最流行的大数据处理框架之一,它提供了分布式存储和计算能力,使得处理大规模数据变得更加高效和可靠。
随着Hadoop的普及,越来越多的人开始学习和应用它。
在学习Hadoop的过程中,习题是非常重要的一部分,通过解答习题可以加深对Hadoop的理解和掌握。
本文将为大家提供一些常见的Hadoop习题答案,希望能对大家的学习有所帮助。
题目一:如何在Hadoop集群中上传文件?解答:在Hadoop集群中上传文件可以使用hadoop fs -put命令。
该命令将本地文件上传到Hadoop分布式文件系统(HDFS)中。
例如,要将本地文件example.txt上传到HDFS的/user/hadoop目录下,可以使用以下命令:hadoop fs -put example.txt /user/hadoop题目二:如何在Hadoop集群中查看文件内容?解答:在Hadoop集群中查看文件内容可以使用hadoop fs -cat命令。
该命令可以将HDFS中的文件内容输出到控制台。
例如,要查看HDFS中的example.txt文件内容,可以使用以下命令:hadoop fs -cat /user/hadoop/example.txt题目三:如何在Hadoop集群中删除文件?解答:在Hadoop集群中删除文件可以使用hadoop fs -rm命令。
该命令可以删除HDFS中的文件。
例如,要删除HDFS中的example.txt文件,可以使用以下命令:hadoop fs -rm /user/hadoop/example.txt题目四:如何在Hadoop集群中创建目录?解答:在Hadoop集群中创建目录可以使用hadoop fs -mkdir命令。
该命令可以在HDFS中创建新的目录。
例如,要在HDFS的根目录下创建一个名为data 的目录,可以使用以下命令:hadoop fs -mkdir /data题目五:如何在Hadoop集群中运行MapReduce作业?解答:在Hadoop集群中运行MapReduce作业可以使用hadoop jar命令。
Hadoop基础(习题卷2)
Hadoop基础(习题卷2)说明:答案和解析在试卷最后第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]HDFS 中的 block 默认保存几个备份。
A)1B)2C)3D)42.[单选题]HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠行、高扩展性、高吞吐率等特征,适合的读写任务是________。
A)一次写入,少次读取B)多次写入,少次读取C)多次写入,多次读取D)一次写入,多次读取3.[单选题]下面哪个选项不属于Google的三驾马车?A)HDFSB)MapReduceC)BigTableD)GFS4.[单选题]下面描述错误的是:A)Hive的功能十分强大,可以支持采用SQL方式查询Hadoop平台上的数据B)在实际应用中,Hive也暴露出不稳定的问题,在极少数情况下,甚至会出现端口不响应或者进程丢失的问题C)在Hive HA中,在Hadoop集群上构建的数据仓库是由单个Hive实例进行管理的D)在Hive HA中,客户端的查询请求首先访问HAProxy,由HAProxy对访问请求进行转发5.[单选题]下列关于配置机架感知的相关描述哪项不正确?A)如果一个机架出问题,不会影响数据读写和正确性B)MapReduce 会根据机架的拓扑获取离自己比较近的数据块C)写入数据的时候多个副本会写到不同机架的 DataNode 中D)数据块的第一个副本会优先考虑存储在客户端所在节点6.[单选题]在java网络编程中,使用TCP编程时编写服务端的套接字类是A)SocketB)DatagramSocketC)ServerSocketD)DatagramPacketA)一个map读取64MB,另外一个map读取11MBB)128MBC)75MBD)75MB8.[单选题]配置机架感知的下面哪项正确?A)都正确B)MapReduce会根据机架获取离自己比较近的网络数据C)写入数据的时候会写到不同机架的DataNodeD)如果一个机架出问题,不会影响数据读写9.[单选题]在下列压缩格式中,哪一个压缩格式压缩速度最慢。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hadoop测试题一.填空题,1分(41空),2分(42空)共125分1.(每空1分) datanode 负责HDFS数据存储。
2.(每空1分)HDFS中的block默认保存 3 份。
3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。
4.(每空1分)hadoop运行的模式有:单机模式、伪分布模式、完全分布式。
5.(每空1分)Hadoop集群搭建中常用的4个配置文件为:core-site.xml 、hdfs-site.xml、mapred-site.xml 、yarn-site.xml 。
6.(每空2分)HDFS将要存储的大文件进行分割,分割后存放在既定的存储块中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求。
7.(每空2分)一个HDFS集群包括两大部分,即namenode 与datanode 。
一般来说,一个集群中会有一个namenode 和多个datanode 共同工作。
8.(每空2分) namenode 是集群的主服务器,主要是用于对HDFS中所有的文件及内容数据进行维护,并不断读取记录集群中datanode 主机情况与工作状态,并通过读取与写入镜像日志文件的方式进行存储。
9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色,是集群的工作节点。
文件被分成若干个相同大小的数据块,分别存储在若干个datanode 上,datanode 会定期向集群内namenode 发送自己的运行状态与存储内容,并根据namnode 发送的指令进行工作。
10.(每空2分) namenode 负责接受客户端发送过来的信息,然后将文件存储位置信息发送给client ,由client 直接与datanode 进行联系,从而进行部分文件的运算与操作。
11.(每空1分) block 是HDFS的基本存储单元,默认大小是128M 。
12.(每空1分)HDFS还可以对已经存储的Block进行多副本备份,将每个Block至少复制到3 个相互独立的硬件上,这样可以快速恢复损坏的数据。
13.(每空2分)当客户端的读取操作发生错误的时候,客户端会向namenode 报告错误,并请求namenode 排除错误的datanode 后,重新根据距离排序,从而获得一个新的的读取路径。
如果所有的datanode 都报告读取失败,那么整个任务就读取失败。
14.(每空2分)对于写出操作过程中出现的问题,FSDataOutputStream 并不会立即关闭。
客户端向Namenode报告错误信息,并直接向提供备份的datanode 中写入数据。
备份datanode 被升级为首选datanode ,并在其余2个datanode 中备份复制数据。
NameNode对错误的DataNode进行标记以便后续对其进行处理。
15.(每空1分)格式化HDFS系统的命令为:hdfs namenode –format 。
16.(每空1分)启动hdfs的shell脚本为:start-dfs.sh 。
17.(每空1分)启动yarn的shell脚本为:start-yarn.sh 。
18.(每空1分)停止hdfs的shell脚本为:stop-dfs.sh 。
19.(每空1分)hadoop创建多级目录(如:/a/b/c)的命令为:hadoop fs –mkdir –p /a/b/c 。
20.(每空1分)hadoop显示根目录命令为:hadoop fs –lsr 。
21.(每空1分)hadoop包含的四大模块分别是:Hadoop common 、HDFS 、Mapreduce 、yarn 。
22.(每空1分)namenode默认的WebUI访问端口号为:50070 。
23.(每空1分)ResourceManager默认的WebUI访问端口号为:8088 。
24.(每空1分)historyServer默认的WebUI访问端口号为:19888 。
25.(每空1分)修改blocksize大小的属性是:dfs.blocksize ,在hdfs-site.xml 配置文件里。
26.(每空1分)HDFS中namenode的RPC端口号为:8021 ,其作用是:接收Client连接的RPC端口,用于获取文件系统metadata信息。
27.(每空2分)Mapper类中有 4 个函数。
28.(每空1分)默认NameNode周期性从DataNode接收心跳信号的时间间隔为:3s 。
29.(每空1分)hadoop集群默认机架感知是启用的。
是否正确:错误。
30.(每空2分)Hadoop Map/Reduce Shuffle过程:inputsplit-->map函数—>内存缓冲区→Partition→sort→combine→spill--> map端merge -->reduce端copy—>merge→reduce函数。
31.(每空2分)一个NodeManager能够同时运行最大reduce任务数(默认): 2 。
32.(每空2分)默认情况下,一个同时运行了namenode,secondarynamenode和ResourceManager的主节点,所使用的内存容量为3000 M。
33.(每空2分)Hadoop集群中有三种作业调度算法,分别为FIFO调度,计算能力调度和公平调度。
34.(每空1分)HA产生的背景是:为了解决单NN可能出现宕机导致集群不可用或数据丢失的问题。
35.(每空1分)通过Zookeeper 管理两个或者多个NameNode,使一个NameNode为active 状态,并且同步每个NN的元数据,如果active 状态的NN宕机后马上启用状态为standby 状态的备用节点。
36.(每空1分) job 是客户端需要执行的一个工作单元。
37.(每空1分)Hadoop将作业分成若干个task 来执行,其中包括:maptask 和reducetask 。
38.(每空2分)combiner是通过Reducer 类来定义的。
39.(每空2分)map任务将其输出写入到本地磁盘。
40.(每空2分)reduce的输出通常存储在HDFS 中以实现可靠存储。
41.(每空2分)HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和。
42.(每空2分)序列化用于分布式数据处理的两大领域为:进程间通信和永久存储。
43.(每空2分)hadoop使用自己的序列化格式为:Writable 。
二.简答题,3分(17题),5分(5题)共75分1.(3分)简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。
答:1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6 安装JDK7 解压hadoop安装包8 配置hadoop的核心文件hadoop-env.sh,core-site.xml , mapred-site.xml ,hdfs-site.xml9 配置hadoop环境变量10 格式化hadoop namenode -format11 启动节点start-all.sh2.(3分)请列出正常的hadoop集群中hadoop都分别需要启动哪些进程,他们的作用分别都是什么,请尽量列的详细一些。
答:namenode:管理集群,存储数据的原信息,并管理记录datanode中的文件信息。
secondarynamenode:它是namenode的一个快照,会根据configuration中设置的值来决定多少时间周期性的去cp一下namenode,记录namenode中的metadata及其它数据。
Datanode:存储数据ResourceManager:ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationManager)NodeManager:是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点(3分)请写出以下的shell命令(1)杀死一个job(2)删除hdfs上的/tmp/aaa目录(3)加入一个新的存储节点和删除一个节点需要执行的命令答:(1)mapred job -list得到job的id,然后执行mapred job –kill jobId就可以杀死一个指定jobId的job工作了。
(2)hadoop fs -rmr /tmp/aaa或者hdfs dfs –rmr /tmp/aaa(3)增加一个新的节点在新的节点上执行hadoop-daemon.sh start datanode然后在主节点中执行hdfs dfsadmin -refreshNodes删除一个节点的时候,只需要在主节点执行hdfs dfsadmin –refreshnodes3.(3分)请简述mapreduce中的combine和partition的作用答:combiner是发生在map的最后一个阶段,其原理也是一个小型的reducer,主要作用是减少输出到reduce的个数,减少reducer的输入,提高reducer的执行效率。
Partition的主要作用就是指定输出到reduce的个数的。
4.(3分)hdfs的体系结构答:HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。
其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据5.(3分)三个datanode中当有一个datanode出现错误时会怎样?答:当有一个datanode出现错误的时候,namenode会将那个datanode上的数据拷贝到其他的节点去进行存储。
6.(3分)文件大小默认为64M,改为128M 有什么影响?答:更改文件的block块大小,需要根据我们的实际生产中来更改block的大小,如果block 定义的太小,大的文件都会被切分成太多的小文件,减慢用户上传效率,如果block定义的太大,那么太多的小文件可能都会存到一个block块中,虽然不浪费硬盘资源,可是还是会增加namenode的管理内存压力。
7.(3分)NameNode与SecondaryNameNode的区别与联系?答:secondaryNameNode更像是Namenode的一个冷备份,当namenode宕机之后,可以从SecondaryNamenode上面恢复部分数据。