[南开大学]《大数据开发技术(一)》19秋期末考核(答案参考)
2020年南开《大数据导论》19秋期末考核-参考答案
F错
【答案】:T对|
25. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年增长速率至少为60%。
【选项】:
T对
F错
【答案】:F错|
26.未来考验零售企业的是如何挖掘消费者需求
【选项】:
T对
F错
【答案】:T对|
27.减少已分配但未使用的存储容量的浪费,在分配存储空间时,系统按需分配存储空间。
【选项】:
T对
F错
【答案】:T对|
28.数据存储是数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。
【选项】:
T对
F错
【答案】:T对|
29. Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。
B平台即服务
C基础设施即服务
D硬件即服务
【答案】:C基础设施即服务|
9.基础设施即服务的英文简称是
【选项】:
A IaaS
B PaaS
C SaaS
【答案】:A IaaS |
10.下列哪个工具常用来开发移动友好地交互地图()
【选项】:
A Leaflet
B Visual.ly
C BPizza Pie Charts
南开大学
《大数据导论》19秋期末考核
2020年参考答案
一页试读
1.以下不是数据仓库基本特征的是()
【选项】:
A数据仓库是面向主题的
B数据仓库是面向事务的
C数据仓库的数据是相对稳定的
D数据仓库的数据是反映历史变化的
【答案】:B数据仓库是面向事务的|
南开大学智慧树知到“物联网工程”《大数据开发技术(一)》网课测试题答案3
南开大学智慧树知到“物联网工程”《大数据开发技术(一)》网课测试题答案(图片大小可自由调整) 第1卷 一.综合考核(共15题)1.行式数据库采用()存储模型。
A.NSM B.DSM C.Hbase D.MySQL2.以下哪种属于列族数据库() A.MongoDB B.Redis C.Hbase D.Neo4j3.HDFS 在块的大小的设计上明显要小于普通文件系统,可以最小化寻址开销。
() T.对 F.错4.Hbase 中采用()保证系统出错时及时恢复 A.MemStore B.Hlog C.StoreFile D.客户端5.文件块的大小和副本个数只能由系统指定。
() A.正确 B.错误6.以下哪个是HDFS 的局限性()。
A.吞吐率 B.数据集 C.兼容性 D.延迟7.HDFS 读数据过程中读取请求获得的输入流是FSStream 。
() T.对 F.错8.R 是哪种可视化工具() A.信息图表B.地图工具C.时间线工具D.分析工具9.分布式离线分析可以实现秒级别的实时分析响应。
()A.正确B.错误10.以下哪些是云计算关键技术()。
A.虚拟化 B.分布式计算 C.分布式存储 D.物联网 E.单租户 11.优点是灵活性高,支持复杂的图形算法,可用于构建复杂的关系图谱的数据库是() A.列族数据库 B.键值数据库 C.图数据库 D.文档数据库 12.UMP 系通过()来实现实现集群成员管理、元数据存储、MySQL 实例管理、故障恢复、备份、迁移、扩容等功能 A.Controller 服务器 B.Procy 服务器 C.愚公系统 D.Agent 服务器 13.HDFS 中SecondaryNameNode 可减少()重启的时间。
Node B.SecondaryNameNode C.DataNode D.Block 14.HDFS 在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。
() A.正确 B.错误15.BigTable采用()作为底层数据存储。
南开24秋学期《大数据开发技术(一)》作业参考二
24秋学期《大数据开发技术(一)》作业参考1.以下属于Hadoop2.0的特性是()。
选项A:MapReduce选项B:HDFS选项C:YARN选项D:SPARK参考答案:C2.以下哪种属于文档数据库()选项A:MongoDB选项B:Redis选项C:Hbase选项D:Neo4j参考答案:A3.应用于涉及频繁读写、拥有简单数据模型的应用,内容缓存,比如会话的数据库是哪种()选项A:列族数据库选项B:键值数据库选项C:图数据库选项D:文档数据库参考答案:B4.在做人口调查时,采用对一个总样本为1亿人口的数据随机抽取1000人进行抽样调查体现了大数据的哪种思维方式()。
选项A:相关而非因果选项B:全样而非抽样选项C:效率而非精确选项D:全面而非特别参考答案:B5.D3是哪种可视化工具()选项A:信息图表选项B:地图工具选项C:时间线工具选项D:分析工具参考答案:A6.Amazon Redshift属于()选项A:关系数据库选项B:键值数据库选项C:NoSQL数据库选项D:数据仓库参考答案:D7.Echarts是哪种可视化工具()选项A:信息图表选项B:地图工具选项C:时间线工具选项D:分析工具参考答案:A8.以下哪种属于列族数据库()选项A:MongoDB选项B:Redis选项C:Hbase选项D:Neo4j参考答案:C9.SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流选项A:Client Layer选项B:Services Layer。
【奥鹏】[南开大学]19秋学期(1709、1803、1809、1903、1909)《大数据开发技术(一)》在线作业
F、错
正确答案:F
第43题,Storm中Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作。
T、对
F、错
正确答案:T
第44题,在Pregel中, “标志位”和输入消息队列是分开保存的
T、对
F、错
正确答案:T
第45题,Hadoop安装时要配置SSH,这是由于Hadoop数据节点需要启动集群中所有机器的Hadoop守护进程,这个过程需要通过SSH登录来实现。
A、Client
B、Job Tracker
C、Task
D、Task Tracker
正确答案:D
第6题,Modest Maps是哪种可视化工具()
A、信息图表
B、地图工具
C、时间线工具
D、分析工具
正确答案:B
第7题,Hadoop中执行MapReduce任务不含哪种方式()。
A、setOutputKeyClass
B、setOutputClass
C、setOutputValueClass
D、setKeyValueClass
正确答案:A,C
第33题,关系数据库与NoSQL数据库相比有哪些优势()
A、支持事务ACID四性
B、可以支持超大规模数据存储
C、以完善的关系代数理论作为基础
A、Maho
D、Python
正确答案:A
第8题,大数据摩尔定律体现了大数据的哪个体征()。
A、数据体量大
B、数据产生速度快
C、数据种类多
D、数据计算快
E、数据价值高
正确答案:A
第9题,UMP系统中面对中等规模用户如何进行资源调度()
【奥鹏】[南开大学]19秋学期(1709、1803、1809、1903、1909)《大数据导论》在线作业
正确A、开放云 B、数据工厂 C、大脑。 正确答案:A,B,C
第31题,轨迹数据包含空间和时间属性,并且通常规模巨大且维度高
T、对
F、错
正确答案:T
第32题,FP-growth算法需要对数据库进行三次扫描
A、并行数据处理MapReduce
B、分布式锁Chubby
C、结构化数据表BigTable
D、弹性云计算EC2
正确答案:D
第3题,用于描述数据分散情况的是()
A、分布图
B、箱式图
C、饼图
D、折线图
正确答案:B
第4题,SAN是一种()
A、存储设备
B、专为数据存储而设计构建的网络
正确答案:B
第16题,一个HDFS集群由一个##和##构成。此外,还有与这两个角色之间作为沟通桥梁的客户端(Client)。
A、一个名字节点
B、若干个名字节点
C、一个数据节点
D、若干个数据节点
正确答案:A,D
第17题,数据预处理的过程主要是
A、数据清洗
B、数据集成
C、数据变换
T、对
F、错
正确答案:T
第37题,谷歌大数据流感趋势已经可以替代当前政府在流感监测方面的工作。( )
T、对
F、错
正确答案:F
第38题,数据可根据作用方式的不同分为交互数据和交易数据
T、对
F、错
正确答案:T
第39题,HDFS为海量的数据提供了存储;
T、对
F、错
正确答案:T
A、多样化
B、数据量大
C、维数高
奥鹏南开课程考试《数据分析》19秋期末考核
奥鹏南开课程考试《数据分析》19秋期末考核并行算法包括()A.MapRedceB.关联分析C.KNND.Kmeans正确答案:A维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。
其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()A.K-meansB.Bayes NetworkC.C4.5D.Apriori正确答案:D决策树学习应用()准则选择特征A.经验条件熵B.经验熵C.互信息D.信息增益正确答案:D以下哪个会降低Apriori算法的挖掘效率()A.支持度阈值增大B.项数减少C.事务数减少D.减小硬盘读写速率正确答案:D算法中用到了外存的算法是()A.随机算法B.外存算法C.并行算法D.Anytime算法正确答案:BLDA导入先验分布是为了应对()现象A.欠拟合B.话题识别不准C.过拟合D.分词困难正确答案:C数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段()。
A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段正确答案:A皮尔森相关系数的变化分为是()A.[0, 1]B.[-1, 1]C.[-1, 0]D.[0.5, 1]正确答案:B评估模型的分类预测准确率,使用()进行评估;A.训练数据集B.验证数据集C.测试数据集D.未知数据正确答案:C向量空间模型中,用一个()表示语义A.向量B.特征C.数字D.距离正确答案:A闵式距离参数是()时代表曼哈顿距离A.0。
19秋学期(1709、1803、1809、1903、1909)大数据开发技术(一)1组
第一组1优点是性能好(高并发),灵活性高,复杂性低,数据结构灵活提供嵌入式文档功能的数据库是(A.列族数据库B.键值数据库C.图数据库D.文档数据库标准答案:D2以下哪种属于图数据库(A MongoDBB RedisC HbaseD Neo4j标准答案:D3Storm中如果要让每一个Task都会收到所有的Tuple,应该采用哪种StreamGroupings o。
A. ShufflegroupingB. AllGroupingC. GlobalgroupingD. FiedlsGrouping标准答案:B4以下哪个是HDFS的局限性()。
A.吞吐率B.数据集C.兼容性D.延迟标准答案:D5.Storm中如果要随机分发Stream中的Tuple,保证每个Bolt的Task接收Tuple数量大致一致,应该采用哪种Streamgroupings(。
A. ShufflegroupingB. AllGroupingC Global groupingD. Fiedlsgrouping标准答案:A6.以下说法不正确的是A. Zookeeper提供分布式锁之类的基本服务B. Mahout提供了分布式存储服务C. Flume提供了日志管理服务D.Sqop主要被用于数据交互操作7.MapReduce将输入文件切分成M个分片,Master将其中个分片分给处于空闲状态的N个Worker来处理。
A MB. NC.M-1D.N-1标准答案:A8.Hbase中Zookeeper文件记录了(的位置A..MTA.表B.-R00T-表C RegionD Master标准答案:B9.Amazon SimpleDB属于A.关系数据库B.键值数据库C. NOSQL数据库D.数据仓库标准答案:B10.UMP系统的哪个功能实现了负载均衡OA.读写分离B.资源隔离C.资源调度D.可扩展标准答案:A在Storm的工作流程中,对于Supervisor说法错误的是A. Supervisor会去Zookeeper集群上认领自己的TaskB. Supervisor节点首先将提交的Topology进行分片,分成一个个Task,分配给相应的NimbusC. Supervisor会将Task和相关的信息提交到Zookeeper集群上D. Supervisor会通知自己的Worker进程进行Task的处理标准答案:BHDFS中FSDataInputStream封装了OA. HDFSInputStreamB. DFSInputStreamC DataInputStreamD. FSInputStreamStorm中如果要保证相同字段的Tuple分配到同一个Task中,应该采用哪种StreamGroupings oA. ShufflegroupingB AllGroutingC. GlobalgroupingD. FiedlsGrouping标准答案:D关于Hadoop集群网络拓扑,以下说法错误的是O。
【奥鹏】[南开大学]19秋学期(1709、1803、1809、1903、1909)《大数据导论》在线作业-1
第26题,大数据时代预测人类移动行为的数据特点是
A、多样化
B、数据量大
C、维数高
D、变化快
正确答案:B,C,D
第27题,常见的分类方法有
A、决策树
B、贝叶斯网络
C、遗传算法
D、FP算法
正确答案:A,B,C
第28题,数据归约(Data Reduction)主要有()
T、对
F、错
正确答案:T
第46题,数据挖掘主要是为了发现隐藏在数据中的有用信息和规律
T、对
F、错
正确答案:T
第47题,美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”
T、对
F、错
正确答案:T
第48题,在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。
C、一致性检查
D、重复数据记录处理
正确答案:D
第5题,数据仓库是随着时间变化的,下列不正确的是()
A、数据仓库随时间变化不断增加新内容
B、捕捉到的新数据会覆盖原来的快照
C、数据仓库随事件变化不断删去旧的数据内容
D、数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合
A、支撑层
B、大数据分析层
C、网络层
D、应用层
正确答案:A,B,D
第18题,可视化工具包括()
A、Excel
B、Google Chart
C、Gephi
D、ppt
正确答案:A,B,C
第19题,大数据存储的特点与挑战有()
南开《大数据开发技术(一)》20春期末考核答案
《大数据开发技术(一)》20春期末考核-00001试卷总分:100 得分:70一、单选题(共15 道试题,共30 分)1.使用Amazon云环境部署Hadoop的说法中错误的是()。
A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务答案:D2.Xtimeline是哪种可视化工具()A.信息图表B.地图工具C.时间线工具D.分析工具答案:C3.Amazon Redshift属于()A.关系数据库B.键值数据库C.NoSQL数据库D.数据仓库答案:D4.SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流A.Client LayerB.Services LayerC.Platform LayerD.Infrastructure Layer答案:A5.UMP系通过()来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Procy服务器C.愚公系统D.Agent服务器答案:C6.Hbase采用()作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统答案:A7.关于MapReduce工作流程,说法错误的是()。
A.不同的Map任务之间不会进行通信B.不同的Reduce任务之间不会发生任何信息交换C.用户可以显式地从一台机器向另一台机器发送消息D.所有的数据交换都是通过MapReduce框架自身去实现的答案:C8.针对流数据,“量子恒道”开发了海量数据实时流计算框架()。
A.Time TunnelB.SparkC.Super MarioD.Storm答案:C9.关于Hadoop集群,以下说法错误的是()。
A.SecondaryNameNode可以和NameNode共用一台机器B.JobTracker指派的任务由TaskTracker执行C.SecondaryNameNode可以和DataNode共用一台机器Node可以和JobTracker共用一台机器答案:C10.关于Strom中Bolt说法错误的是()。
南开大学2022年9月《大数据开发技术》作业考核试题及答案参考4
南开大学2022 年9 月《大数据开辟技术》作业考核试题及答案参考1. 如果 numPartitions 是分区个数,那末 Spark 每一个 RDD 的分区 ID 范围是( )A.[0,numPartitions]B.[0,numPartitions-1]C.[1,numPartitions-1]D.[1,numPartitions]参考答案: B2. MapReduce 设计的一个理念就是( ),因为挪移数据需要大量的网络传输开销。
A.数据向计算靠拢B.计算向数据靠拢C.计算向网络靠拢D.计算与数据并行参考答案: B3. Scala 函数组合器中 flatmap 结合了map 和 flatten 的功能,接收一个可以处理嵌套列表的函数,然后把返回结果连接起来。
( )A.正确B.错误参考答案: A4. Spark 中 DataFrame 的( )方法是进行分组查询A.order byB.group byC.select byD.sort by参考答案: B5. 实现大整数的乘法是利用 ( )的算法。
A.贪心法B.动态规划法C.分治策略D.回溯法参考答案: C6. Scala 中数组的第一个元素索引为 1。
( )A.正确B.错误参考答案: B7. 回溯法搜索解空间树时,常用的两种剪枝函数为约束函数和限界函数。
( )A.错误B.正确参考答案: B8. 以深度优先方式系统搜索问题解的算法称为回溯法。
( )A.错误B.正确参考答案: B9. 以下哪种数据库适合于批量数据处理和即席查询( )A.MySQLB.OracleC.HbaseD.NosSQL参考答案: C10. 以下哪个不是 Scala 的数据类型( )A.IntB.Short IntC.LongD.Any参考答案: B11. 以下哪个方法可以创建 RDD( )A.parallelizeB.makeRDDC.textFileD. loadFile参考答案: ABC12. Scala 列表中 last 返回一个列表,包含除了第一个元素之外的其他元素。
南开大学2019年9月大数据导论期末考试答案
《大数据导论》一、单选三、名词解释1.数据变换在对数据进行统计分析时,要求数据必须满足一定的条件,如在方差分析时,要求试验误差具有独立性、无偏性、方差齐性和正态性二但在实际分析中,独立性、无偏性比较容易满足,方差齐性在大多数情况下能满足。
正态性有时不能满足。
有时若将数据经过适当的转换,如平方根转换、对数转换、平方根反正弦转换,则可以使数据满足方差分析的要求。
所进行的此种数据转换,称为数据变换。
2.数据仓库William H. Inmon在1992年出版Building the Data Warehouse一书,第一次给出了数据仓库的清晰定义和操作性极强的指导意见,真正拉开了数据仓库得到大规模应用的序幕。
在该书中,将数据仓库定义为:“一个面向主题的(subject oriented)、集成的(integrate),相对稳定的(non-volatile)、反映历史变化(time variant)的数据集合,用于支持管理决策。
3.大数据分析大数据分析是大数据理念与方法的核心,是指对海量增长快速、内容真实、类型多样的数据进行分析,从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程。
4.RDD弹性分布式数据集RDD弹性分布式数据集,简单来说,是一种自定义的可并行数据容器,可以存放任意类型的数据。
弹性是指有容错的机制,若一个RDD分片去失,Spark可以根据粗粒度的日志数据更新记录的信息(Spark中称为“血统”)重构它:分布式指的是能对其进行并行的操作。
除了这两点,它还能通过persist或者cache函数被缓存在内存里或磁盘中,共享给其他计算机,可以避免Hadoop那样存取带来的开销。
四、简答题1. 大数据处理的关键技术都有哪些?并做简要描述。
大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算处理、数据分析和挖掘、数据可视化展示等。
1).数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
南开大学20秋学期《大数据开发技术(一)》在线作业(参考答案)
单选题1.名称节点和数据节点之间则使用()协议进行交互。
A.名称节点B.第二名称节点C.数据节点D.TCP答案:C2.UMP系通过()来实现实现管理每台物理机上的MySQL实例。
A.Controller服务器B.Procy服务器C.愚公系统D.Agent服务器答案:D3.以下针对Hive的说法不正确的是()。
A.Hive是一个基于Hadoop的数据仓库工具B.Hive是关系数据库C.Hive QL是一种查询语言D.Hive可以提供查询分析存储等功能答案:B4.MapReduce中最优的Reduce任务个数取决于集群中可用的()的数目。
A.SplitB.SlotC.MapD.Shuffle答案:B5.Pregel计算模型以()作为输入。
A.有向图B.无向图C.矢量图D.树答案:A6.HBase的目标是处理非常庞大的表,可以通过()方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。
A.垂直扩展B.水平扩展C.拓扑扩展D.叠加答案:B7.Xtimeline是哪种可视化工具?()A.信息图表B.地图工具C.时间线工具D.分析工具答案:C8.HDFS中SecondaryNameNode可减少()重启的时间。
NodeB.SecondaryNameNodeC.DataNodeD.Block答案:A9.BigTable采用()作为底层数据存储。
A.HDFSB.GFSC.HbaseD.传统文件系统答案:B10.应用于专门用于处理具有高度相互关联关系的数据,比较适合于社交网络的数据库是哪种?()A.列族数据库B.键值数据库C.图数据库D.文档数据库答案:C11.Hbase中Zookeeper文件记录了()的位置。
A..META.表B.-ROOT-表C.RegionD.Master答案:B12.以下哪层不属于物联网体系架构?()A.应用层B.采集层C.网络层D.感知层答案:B13.UMP系通过()来实现实现在不停机的情况下动态扩容、缩容和迁移。
南开大学2022年9月《大数据开发技术》作业考核试题及答案参考10
南开大学2022 年9 月《大数据开辟技术》作业考核试题及答案参考1. 数据归约(Data Reduction)主要有( )。
A.维度规约B.样本规约C.数据会萃D.离散化概念分层参考答案: ABCD2. 以下哪个方法可以创建 RDD( )A.parallelizeB.makeRDDC.textFileD. loadFile参考答案: ABC3. SparkContext 类中 makeRDD 方法不可将单机数据创建为分布式 RDD。
( )A.正确B.错误参考答案: B4. RDD 的( )操作通常用来划分单词A.filterB.unionC.flatmapD.mapPartitions参考答案: C5. 矩阵连乘问题的算法可由动态规划设计实现。
( )A.错误B.正确参考答案: B6. 快速排序算法的性能取决于划分的对称性。
( )A.错误B.正确参考答案: B7. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案: AD8. Scala 中使用 ( )方法来查看两个集合的交集元素A.Set.concatB.Set.&C.Set.&&D.Set. intersect参考答案: BD9. Scala 通过( )来定义变量A.valB.valC.defineD.def参考答案: A10. RDD 中的 collect 函数是一个行动操作,把 RDD 所有元素转换成数组并返回到 Driver 端,合用于大数据处理后的返回。
( )T.对F.错参考答案: F11. 按照数据量的大小,可将数据分析分为内存级数据分析、 Bl 级数据分析和海量级数据分析。
( )A.对B.错参考答案: A12. 哪些属于数据可视化的重要作用 ( )A.分析数据B.采集数据C.辅助理解数据D.观测跟踪数据参考答案: ACD13. 大型图计算通常是由一个集群完成的,集群环境中执行远程数据读取会有较高的延迟。
东大《大数据开发技术(一)》19秋期末考核
东大《大数据开辟技术(一)》19秋期末考核《大数据开辟技术(一)》19秋期末考核-0001一、单选题(共15 道试题,共30 分)1.UMP系通过()来实现实现数据路由的基本功能A.愚公系统B.Procy服务器C.Controller服务器D.Agent服务器2.Amazon Redshift属于()A.键值数据库B.数据仓库C.关系数据库D.NoSQL数据库3.应用于涉及频繁读写、拥有简单数据模型的应用,内容缓存,比如会话的数据库是哪种()A.键值数据库B.文档数据库C.图数据库D.列族数据库4.HBase的客户端并不依赖Master,而是通过()来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小A.ZookeeperB.RegionC.MasterD.Chubby5.UMP系统中面对中等规模用户如何进行资源调度()A.随机分配MySQL实例B.每一个用户独占一个MySQL实例C.可以共享同一个MySQL实例D.会占用多个独立的MySQL实例6.以下亚马逊的产品中哪个是数据仓库A.RedshiftB.RDSC.ElastiCacheD.DynamoDB7.UMP系统中面对多个小规模用户如何进行资源调度()A.随机分配MySQL实例B.每一个用户独占一个MySQL实例C.可以共享同一个MySQL实例D.会占用多个独立的MySQL实例8.关于Strom中Bolt说法错误的是()。
A.Bolt是一个被动的角色,Spout是一个主动的角色B.Bolt是Streams的状态转换过程的抽象含义C.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作D.Bolt不仅可以处理Tuple还可以创建新的Tuple9.优点是查找速度快,可扩展性强,容易进行分布式扩展,复杂性低的数据库是()A.键值数据库B.文档数据库C.图数据库D.列族数据库10.应用于分布式数据存储与管理数据在地理上分布于多个数据中心的应用程序的数据库是哪种()A.键值数据库B.文档数据库C.图数据库D.列族数据库11.Hbase中客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的()位置信息,用来加快后续数据访问过程A.客户端B.SlaverC.RegionD.Master12.以下亚马逊的产品中哪个是分布式内存缓存A.RedshiftB.RDSC.ElastiCacheD.DynamoDB13.Hbase采用()作为底层数据存储A.传统文件系统B.HbaseC.HDFSD.GFS14.关于Hadoop集群,以下说法错误的是()。
南开大学22春“物联网工程”《大数据开发技术(一)》期末考试高频考点版(带答案)试卷号:5
南开大学22春“物联网工程”《大数据开发技术(一)》期末考试高频考点版(带答案)一.综合考核(共50题)1.UMP系统借助于()来实现高效和可靠的协同工作A.MnesiaB.LVSC.RabbitMQD.Zookeeper参考答案:D2.HDFS中当一些数据节点不可用时,会导致一些数据块的副本数量()冗余因子A.大于B.小于C.等于D.大于等于参考答案:B3.UMP系通过()来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:C4.Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑,还要解决实时数据获取、传输、存储。
()A.正确B.错误5.Pregel的消息模式采用异步和批量的方式传递消息,却无法缓解远程读取的延迟。
()A.正确B.错误参考答案:B6.MapReduce中Client会跟踪任务的执行进度、资源使用量等信息。
()A.正确B.错误参考答案:B7.“hadoop dfs”和“hadoop fs”两条命令适用于任何不同的文件系统。
()T.对F.错参考答案:F8.文件块的大小和副本个数只能由系统指定。
()A.正确B.错误参考答案:B9.以下哪些是数据可视化分析工具()A.RB.WekaC.GephiD.Tableau10.SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流()A.Client LayerB.Services LayerC.Plat LayerD.Infrastructure Layer参考答案:A11.关于MapReduce工作流程,说法错误的是()。
A.不同的Map任务之间不会进行通信B.不同的Reduce任务之间不会发生任何信息交换C.用户可以显式地从一台机器向另一台机器发送消息D.所有的数据交换都是通过MapReduce框架自身去实现的参考答案:C12.Amazon SimpleDB属于()。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【奥鹏】-[南开大学]《大数据开发技术(一)》19秋期末考核
试卷总分:100 得分:100
第1题,UMP系通过()来实现实现数据路由的基本功能
A、Controller服务器
B、Procy服务器
C、愚公系统
D、Agent服务器
正确答案:B
第2题,Amazon Redshift属于()
A、关系数据库
B、键值数据库
C、NoSQL数据库
D、数据仓库
正确答案:D
第3题,应用于涉及频繁读写、拥有简单数据模型的应用,内容缓存,比如会话的数据库是哪种()
A、列族数据库
B、键值数据库
C、图数据库
D、文档数据库
正确答案:B
第4题,HBase的客户端并不依赖Master,而是通过()来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小
A、Master
B、Region
C、Zookeeper
D、Chubby
正确答案:C
第5题,UMP系统中面对中等规模用户如何进行资源调度()
A、可以共享同一个MySQL实例
B、每个用户独占一个MySQL实例
C、会占用多个独立的MySQL实例
D、随机分配MySQL实例
正确答案:B
第6题,以下亚马逊的产品中哪个是数据仓库
A、ElastiCache
B、RDS
C、DynamoDB
D、Redshift
正确答案:D
第7题,UMP系统中面对多个小规模用户如何进行资源调度()
A、可以共享同一个MySQL实例
B、每个用户独占一个MySQL实例
C、会占用多个独立的MySQL实例
D、随机分配MySQL实例
正确答案:A
第8题,关于Strom中Bolt说法错误的是()。
A、Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作
B、Bolt是一个被动的角色,Spout是一个主动的角色
C、Bolt不仅可以处理Tuple还可以创建新的Tuple
D、Bolt是Streams的状态转换过程的抽象含义
正确答案:C
第9题,优点是查找速度快,可扩展性强,容易进行分布式扩展,复杂性低的数据库是()
A、列族数据库
B、键值数据库
C、图数据库
D、文档数据库
正确答案:A
第10题,应用于分布式数据存储与管理
数据在地理上分布于多个数据中心的应用程序的数据库是哪种()
A、列族数据库
B、键值数据库
C、图数据库
D、文档数据库
正确答案:A
第11题,Hbase中客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的()位置信息,用来加快后续数据访问过程
A、Master
B、Slaver
C、Region
D、客户端
正确答案:C
第12题,以下亚马逊的产品中哪个是分布式内存缓存
A、ElastiCache
B、RDS
C、DynamoDB
D、Redshift
正确答案:A
第13题,Hbase采用()作为底层数据存储
A、HDFS
B、GFS
C、Hbase
D、传统文件系统
正确答案:A
第14题,关于Hadoop集群,以下说法错误的是()。
A、SecondaryNameNode可以和NameNode共用一台机器
B、JobTracker指派的任务由TaskTracker执行
C、SecondaryNameNode可以和DataNode共用一台机器
D、NameNode可以和JobTracker共用一台机器
正确答案:C
第15题,Map Task和Reduce Task均由()启动。
A、Client
B、Job Tracker
C、Task
D、Task Tracker
正确答案:D
第16题,HDFS中对名称节点设置了备份机制,会将名称节点中的()文件同步复制到备份服务器上。
A、FsImage
B、DataNode
C、Block
D、EditLog
正确答案:A,D
第17题,以下图计算软件哪种属于以图顶点为中心的、基于消息传递批处理的并行引擎
A、Giraph
B、Pregel
C、Hama
D、DEX
正确答案:A,B,C
第18题,以下哪种数据库属于NoSQL数据库()
A、MySQL
B、DynamoDB
C、InfiniteGraph
D、MongoDB
正确答案:B,C,D
第19题,关系数据库与NoSQL数据库相比适用于哪些领域()
A、电信
B、银行
C、互联网企业大数据处理
D、传统企业的数据分析
正确答案:A,B
第20题,以下哪种数据库是针对在线业务的,并且抛弃了关系模型()
A、MongoDB
B、MySQL
C、Oracle
D、Redis
正确答案:A,D
第21题,分布式文件系统的设计目的包括()。
A、并发控制
B、可伸缩性
C、容错
D、速度
正确答案:A,B,C
第22题,MapReduce的main函数中设置输出类型的方法有()。
A、setOutputKeyClass
B、setOutputClass
C、setOutputValueClass
D、setKeyValueClass
正确答案:A,C
第23题,以下哪些是云计算关键技术()。
A、虚拟化
B、分布式计算
C、分布式存储
D、物联网
E、单租户
正确答案:A,B,C
第24题,Pregel作为分布式图计算的计算框架,主要用于()
A、图遍历
B、最短路径
C、PageRank计算
D、MapReduce
正确答案:A,B,C
第25题,以下哪个应用适合用Pregel来解决()
A、数据库的笛卡尔积
B、单元最短路径
C、二分匹配
D、求极值
正确答案:B,C
第26题,分布式离线分析可以实现秒级别的实时分析响应。
T、对
F、错
正确答案:F
第27题,Hadoop平台在大数据发展的成熟期时开始大行其道T、对
F、错
正确答案:T
第28题,Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑,还要解决实时数据获取、传输、存储
T、对
F、错
正确答案:F
第29题,在HBase 的概念视图中, 一个表可以视为一个稀疏、多维的映射关系。
T、对
F、错
正确答案:T
第30题,HBase中包含一个Region服务器和许多个Master服务器
T、对
F、错
正确答案:F
第31题,HDFS读数据过程中读取请求获得的输入流是FSInputStream
T、对
F、错
正确答案:F
第32题,Linux系统中只有Ubuntu可以安装Hadoop。
T、对
F、错
正确答案:F
第33题,MapReduce处理分组聚合操作时,在Map过程中,选择关系的某一宇段的值作为键,其他字段的值作为与键相关联的值;Reduce过程,输出为键,聚合运算结果〉。
T、对
F、错
正确答案:T
第34题,Hbase和传统数据库一样都是列式数据库
T、对
F、错
正确答案:F
第35题,在HBase中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在
T、对
F、错
正确答案:F
第36题,MapReduce的main函数中添加MyMapper类的方法为job.##(MyMapper.class); 正确答案:
第37题,Storm运行任务的方式与Hadoop类似:Hadoop运行的是MapReduce作业,而Storm 运行的是##
正确答案:
第38题,HDFS中SecondaryNameNode通过HTTP的##请求方式从NameNode上获取到FsImage 和EditLog文件,并下载到本地的相应目录下;
正确答案:
第39题,SQL中的table对应与MongoDB中的##
正确答案:
第40题,所有的HDFS通信协议都是构建在##协议基础之上的
正确答案:
第41题,Hbase中Master的主要工作
正确答案:
第42题,试说明一个MapReduce程序在运行期间,所启动的Map任务数量和Reduce任务数量各是由什么因素决定的。
正确答案:
第43题,Twitter Storm
正确答案:
第44题,Hbase中.META.表
正确答案:
第45题,数据库事务的原子性正确答案:
第46题,Hadoop项目中的Pig 正确答案:。