大数据CDA考试(习题卷3)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据CDA考试(习题卷3)
第1部分：单项选择题，共47题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]QQ图可以用来检验( )
A)正态性
B)共线性
C)同方差
D)过拟合
答案:A
解析:QQ图是用于直观验证一组数据是否来自某个分布，或者验证某两组数据是否来自同一（族）分布。

在应用中常用的是检验数据是否来自于正态分布。

2.[单选题]Flink 的数据转换操作在以下哪些环节中完成()?
A)channel
B)Transformation
C)sink
D)source
答案:B
解析:
3.[单选题]以下命令组成错误的是()
A)vim /etc/profile
B)source/etc/profile
C)hadoop namenode-format
D)bin/hadoop fs- cat/hadoopdata/y/txt
答案:D
解析:
4.[单选题]在MapReduce中,()组件是用户不指定也不会有默认的。

A)Combiner
B)OutputFormat
C)Partitioner
D)InputFormat
答案:A
解析:
5.[单选题]以下关于Zookeeper 关键特性中的原子说法正确的是?
A)客户端发送的更新会按照他们被发送的顺序进行应用
B)更新只能全部完成或失败,不会部分完成
C)一条消息被一个server 接收,将被所有server 接收
D)集群中无论哪台服务器,对外示均是同
答案:B
解析:
6.[单选题]Spark是用以下哪种编程语言实现的()?
C)JAVA
D)Scala
答案:D
解析:
7.[单选题]某专业毕业的研究生年薪的标准差大约为2000美元，现在想要估计这个专业毕业研究生年薪95%的置信区间，并要求误差为100美元，应抽取多大的样本量？( ) z/2=1.96
A)182
B)98
C)1537
D)634
答案:C
解析:
8.[单选题]使用Hbase 客户端批量写入10条数据,某个Hregionserver 节点上包含该表的 2 个Region,分别为A 和
B,10条数据中有6条属于A,4条属于B,请问写入这10条数据需要向该Hregion Server 发送几次RPC 请求?
A)10
B)6
C)2
D)1
答案:D
解析:
9.[单选题]以下哪个关键字可以用来为对象加互斥锁?
A)transient
B)static
C)serialize
D)synchronized
答案:D
解析:
10.[单选题]以下关于Hive操作描述不正确的是()。

A)Hive是一个建立在hadoop文件系统上的数据仓库架构,可以用其对HDFS上
B)Hive依赖于MapReduce 处理数据
C)Hive的加载数据时候,可以用 local进行修饰,表示从某个本地目录下加载数据
D)Hive一般可以用于实时的查询分析
答案:D
解析:
11.[单选题]以下不属于对应分析的优点的选项有( )
A)结果直观
B)图形化
C)没有复杂的中间过程
D)信息保留完整
答案:D
解析:在进行对应分析时，由于进行了降维展示，因此原来的信息会受到一定程度的损失。

12.[单选题]在Webhcat架构中,用户能够通过安全的HTTPS 协议执行以下哪些操作?
A)执行Hive DDL 操作
D)以上全都正确
答案:D
解析:
13.[单选题]Hbase 中数据存储的文件格式是什么?
A)Hlog
B)Textfile
C)HFlle
D)sequencerlle
答案:C
解析:
14.[单选题]关于MapReduce框架中一个作业的reduce任务数,下列说法正确的是()。

A)由自定义的Partitioner来确定
B)是分块总数目的一半
C)可以由用户来自定义,通过 JobConf.setNumReducetTask (int)来设定一个作业中reduce的任务数目
D)由MapReduce随机确定其数目
答案:C
解析:
15.[单选题]Hbase 的Region是由个服务进程来管理的?()
A)HRegionserver
B)Zookeeper
C)HMaster
D)DataNode
答案:A
解析:
16.[单选题]整型数据类型中,需要内存空间最少的是
A)short
B)long
C)int
D)byte
答案:D
解析:
17.[单选题]HFile数据格式中的Data字段用于()。

A)存储实际的KeyValue数据
B)存储数据的起点
C)指定字段的长度
D)存储数据块的起点
答案:A
解析:
18.[单选题]针对聚类分析,下面说法错误的是()。

A)一定存在一个最优的分类
B)聚类分析是无监督学习
C)聚类分析可以用于判断异常值
D)聚类分析即:物以类聚,人以群分
19.[单选题]关于Dataset,下列说法不正确的是?
A)Dataset 不需要反序列化就可执行大部分操作
B)Dataset 是一个由特定域的对象组成的强类型集合
C)Dataset 与RDD 高度类似性能比RDD 好
D)Dataset 执行sort,filter, shuffle登操作需要进行反序列化
答案:D
解析:
20.[单选题]以下哪种不是Hive支持的数据类型?
A)Struct
B)Int
C)Map
D)Long
答案:D
解析:
21.[单选题]在使用 SQLAIchemy 模型从数据库中查询数据时,可以使用模型提供的()属性调用各种过滤方法和查询方法。

A)query
B)order
C)filter
D)select
答案:A
解析:
22.[单选题]在对某个多元线性回归模型的分析中，如果某自变量的VIF=1，这说明( )
A)此自变量与因变量不存在线性相关性
B)此自变量与其他自变量不存在线性相关性
C)此模型存在非常严重的共线性
D)此多元回归模型的R2=0
答案:B
解析:VIF是共线性检验指标，最小为1。

注意此题的D选项为干扰选项，VIF值的计算公式中的R2不是指模型本身的R2。

23.[单选题]声明成员变量时,如果不使用任何访问控制符(public,protected,private),则以下哪种类型的类不能对该成员进行直接访问()
A)同一类
B)同一包中的子类
C)同一包中的非子类
D)不同包中的子类
答案:D
解析:
24.[单选题]如果希望某个变量只可以被类本身访问和调用, 则应该使用下列那一种访问控制修饰符
A)private
B)protected
C)private protected
D)public
答案:A
25.[单选题]以下哪项不是描述数据离散趋势的常见指标。

)
A)极差
B)都是
C)四分位数间距
D)变异系数
答案:B
解析:
26.[单选题]定义问题时通常使用以下哪种方法。

()
A)波特五力竞争分析
B)5W2H分析法
C)描述性统计分析
D)决策树
答案:B
解析:
27.[单选题]以下一项不属手创建Loader 作业时必选项?
A)优先级
B)名称
C)连接
D)类型
答案:A
解析:
28.[单选题]在Flask 框架中设置路由的请求方法,可以使用参数()。

A)request
B)requests
C)method
D)methods
答案:D
解析:
29.[单选题]查看kafka 某Topic 的partition详细信息时,使用如下那个命令?
A)bin/kakfa-topics sh--create
B)bin/kakfa-topics sh --delete
C)bin/kakfa-topics.sh-list
D)bin/kakfa-topics sh-- describe
答案:D
解析:
30.[单选题]下面声明数组的写法错误()。

A)int a[];
B)int[]a;
C)int[3][]a;
D)int[][3]a;
答案:D
解析:
31.[单选题]在Hadoop生态组件中,个产品可用于复杂的批量数据处理。

()
C)Storm
D)Mahout
答案:A
解析:
32.[单选题]Spark组件中哪个选项不属于 transformation 操作?
A)Join
B)distinct
C)reduceByKey
D)reduce
答案:D
解析:
33.[单选题]以下关于DBSCAN算法说法错误的是()。

A)如果样本集的密度不均匀、聚类间距差相差很大时,聚类质量较差;
B)如果样本集较大时, 聚类收敛时间较长;
C)调参相对复杂,不同的参数组合对最后的聚类效果有较大影响。

D)聚类结果可能有偏倚。

答案:D
解析:
34.[单选题]HFile数据格式中的Metalndex字段用于()。

A)Meta块的长度
B)Meta块的结束点
C)Meta块数据内容
D)Meta块的起始点
答案:D
解析:
35.[单选题]已知表student，字段如下：
取出course1，course2，course3三门成绩均超过60分的记录，可以使用如下查询语句( )
A)select
B)select
C)select
D)select
答案:D
解析:where后不可以跟如max，min，sum之类的聚合函数。

36.[单选题]以下哪种说法不是K-Means算法的优点。

()
A)收敛较快
B)选代次数一般为几次,较神经网络简单
C)中心点的个数,通常值是在3-5 个之间
D)算法可能收敛到局部最优点
答案:D
解析:
37.[单选题]一家电商抽取了36个消费者年龄作为随机样本，得到样本均值为40，样本标准差为6。

该电商客户年龄90%的置信区间为( ) z0、05=1、65
A)（34，46）
D)（39、15，40、95）
答案:B
解析:
>
38.[单选题]分类算法就是按照某种标准给对象贴标签,再根据标签来归类,以下属于分类算法的是【)。

A)DBSCAN
B)C4.5
C)K-Mean
D)EM
答案:B
解析:
39.[单选题]以下关于fusioninsight CTbase的描述不正确的是?
A)CThase的读写数据接口,统一封装了行定义的接口,自动进行冷字段的合并和解析,不需要在应用程序中进行合并和
C)CTHbase提供了一套Webui 进行元数据定义,提供了只管医用的表设计工具,降低表设
D)CTHbase 的java API提供一套 Hbase连接池管理的接口,内部进行连接共享,减少客户端应用开发难度。

答案:B
解析:
40.[单选题]下列关于for 循环和 while 循环的说法中哪个是正确的?()
A)while 循环能实现的操作,for 循环也都能实现
B)while 循环判断条件一般是程序结果,for循环判断条件一般是非程序结果
C)两种循环任何时候都可替换
D)两种循环结构中都必须有循环体,循环体不能为空
答案:B
解析:
41.[单选题]偏自相关函数ACF呈现缓慢的趋近于零，我们称ACF具有( )
A)长尾性
B)短尾性
C)收敛性
D)拖尾性
答案:D
解析:如果偏自相关函数ACF在n阶之后迅速趋近于零，我们称ACF具有n阶截尾性；呈现缓慢的趋近于零，称为拖尾性。

42.[单选题]下面关于Zookeeper特性的描述错误的是?
A)消息更新只能成功或者失败,没有中间状态
B)Zookeeper 节点数必须为奇数个
C)一条消息要被超过半数的Server 接收,它将可以成功写入磁盘
D)客户端所发送的更新会按照它们被发送的顺序进行应用
答案:B
解析:
43.[单选题]在Zookeeper 和Yarn的协同工作中,当Active Resourcemanager 产生故障时, Standby Resourcemanager 会从以下哪些目录中获取Application相关信息?()
A)metastore
B)Statestore
C)Statestore
D)Warehouse
答案:B
解析:
44.[单选题]有序集的中间值或者中间两个值平均是( )。

A)平均值
B)中位数
C)众数
D)以上都不是
答案:B
解析:
45.[单选题]日常数据通报型报告的特点错误的是()。

A)进度性
B)规范性
46.[单选题]以下哪些选项属于Hive的数据存储模型?
A)桶
B)数据库
C)分区
D)表
答案:D
解析:
47.[单选题]以下选项中主节点和从节点配置的端口都是()。

A)9000
B)1000
C)7000
D)8000
答案:A
解析:
第2部分：多项选择题，共29题，每题至少两个正确答案,多选或少选均不得分。

48.[多选题]Flink 的兼容性体现在以下哪些方面?
A)YARN 能够作为F1ink 集群的资諒调度管理器
B)能够与Hadoop 原有的 Mappers 和Reducers 混合使
C)能够使用Hadoop的格式化输入和输出口
D)能够从本地获取数据
答案:ACD
解析:
49.[多选题]下列哪些选项是安装HBase前所必须安装的?
A)操作系统
B)JDK
C)Shell Script
D)Java Code
答案:AB
解析:
50.[多选题]执行Hbase 读数据业务,需要读取哪几部分数据?
A)HLog
B)HMaster
C)Hfile
D)Memstore
答案:CD
解析:
51.[多选题]Hadoop 通过 ResourceManager 对集群资源进行管理,它的主要功能有?
A)集群资源调度
B)应用程序管理
C)集群资源管理
52.[多选题]以下关于Hadoop 的HDFS 描述正确的有?
A)HDFS 由 NameNode, DataNode,client 组成
B)HDFS 备NameNode 上的元数据是主NameNode同步过去的
C)HDFS 采用就近的机架节点进行数据的第一副本存储
D)HDFS 适适合写一次,多次读取的读写
答案:ACD
解析:
53.[多选题]下列选项中,哪些是Spark 的重要角色()
A)Nodemanager
B)Resourcemanager
C)Datanode
D)Driver
答案:ABD
解析:
54.[多选题]HBase构建二级索引的实现方式有哪些?
A)MapReduce
B)Coprocessor
C)BloomFilter
D)Filter
答案:AB
解析:
55.[多选题]nodemaager 的内存和CPU的数量,是通过下列哪些选项进行配置?
A)Yam sceduler.capacity.root.Queuea maximum-capacity
B)Yarn nodemanager.resource cpu-vcore
C)arn nodemanager.vmem- pmom-ratio
D)Yarn.modemanager. resource.memory-mb
答案:BCD
解析:
56.[多选题]fusioninstght hd 集群包含多种服务,每种服务又有若干个角色组成,下面那些是角色?
A)namenode
B)hbase
C)datanode
D)以上全都正确
答案:AC
解析:
57.[多选题]在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是()
A)将负样本重复10次,生成10w样本量,打乱顺序参与分类
B)直接进行分类,可以最大限度利用数据
C)从10w正样本中随机抽取1w参与分类
D)将负样本每个权重设置为10,正样本权重为1,参与训练过程
答案:AB
58.[多选题]以下关于灵敏度和特异度的说法，正确的是( )
A)灵敏度越高，逻辑回归模型越有效
B)灵敏度越低，逻辑回归模型越有效
C)特异度越高，逻辑回归模型越有效
D)特异度越低，逻辑回归模型越有效
答案:AC
解析:不管是灵敏度还是特异度，都是越高，说明逻辑回归模型越有效。

59.[多选题]以下选项哪些对聚类分析影响很大?()
A)聚类分析
B)回归分析
C)神经网络
D)决策树算法
答案:ABCD
解析:
60.[多选题]分类测试集的选取方法可以有以下哪些。

()
A)均分法
B)保持法
C)随机二次抽样法
D)交叉验证
答案:BCD
解析:
61.[多选题]数据再利用的意义在于()。

A)挖掘数据的潜在价值
B)实现数据重组的创新价值
C)利用数据可扩展性拓宽业务领域
D)优化存储设备,降低设备成本
答案:ABC
解析:
62.[多选题]大数据4V特征包括( )。

A)数据规模大,数据量巨大 (Volume)
B)数据种类繁多,包括半结构化数据和非结构化数据(Variety)
C)价值密度低,如同沙里淘金 (Value)
D)数据处理速度快,能实时获取信息(Velocity)
答案:ABCD
解析:
63.[多选题]下面哪些选项正确描述了HBase的特性?
A)4 高可靠性
B)高性能
C)面向列
D)可伸缩
答案:ABCD
解析:
64.[多选题]数据离散化的方法有哪些()。

C)数值规约
D)等频离散法
答案:BD
解析:
65.[多选题]以下哪些是典型的关联规则应用场景。

()
A)穿衣搭配推荐
B)依据用户轨迹的商户精准营销
C)实时新闻推荐
D)金融客户交叉销售
答案:ABCD
解析:
66.[多选题]常用的数据挖掘编程工具有( )。

A)SAS
B)Stata
C)MatLaB
D)R
答案:ABCD
解析:
67.[多选题]下面对Streaming说法正确的是()?
A)事件驱动
B)连续查询
C)数据不存储,先计算
D)实时响应,低延迟
答案:ABCD
解析:
68.[多选题]分析消费者购买行为模型的特征变量有()。

A)自然社会因素
B)文化因素
C)产品因素
D)个人因素
答案:ABCD
解析:
69.[多选题]Master 的 ElectedLeader 事件后不做哪些操作()
A)通知 driver
B)通知 worker
C)注册 application
D)直接 ALIVE
答案:ABC
解析:
70.[多选题]关于大数据的主要特征理解和描述正确的有?
A)来源多,格式多
B)增长速度快处理速度快
C)存储量大,计算里大
解析:
71.[多选题]HFile数据格式中的KeyValue数据格式, 下列选项描述正确的是()。

A)是byte[]数组
B)没有固定的结构
C)数据的大小是定长的
D)有固定的结构
答案:AD
解析:
72.[多选题]Hive 中的这条命令"" SELECT a. salary,b. address FROM employee a JOIN( SELECT address FROI employee info where province=zhe jiang) b ON a :“"是个什么类型的操作?
A)导入数据
B)join 查询
C)创建表
D)子查询
答案:BD
解析:
73.[多选题]Spark 适用于以下哪些场景?
A)交互式查询
B)实时流处理
C)批处理
D)图计算
答案:ABCD
解析:
74.[多选题]Spark 有哪些特点?
A)快
B)灵
C)轻
D)1巧
答案:ABCD
解析:
75.[多选题]数据清理中,处理缺失值的方法是?
A)估算
B)整例删除
C)变量删除
D)成对删除
答案:ABC
解析:
76.[多选题]下列()可以作为集群的管理工具。

A)Puppet
B)Rsync+ssh+scp
C)Pdsh
D)Cloudera Manager
答案:ABCD
第3部分：判断题，共24题，请判断题目是否正确。

77.[判断题]Nagios 不可以监控 Hadoop 集群,因为它不提供Hadoop支持。

A)正确
B)错误
答案:错
解析:
78.[判断题]channels 支持事提供较弱的顺序保证,可以连接任何数量的Source 和Sink。

A)正确
B)错误
答案:对
解析:
79.[判断题]解决汉诺塔的问题使用的思想是函数的递归。

()
A)正确
B)错误
答案:对
解析:
80.[判断题]HDFS中当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自一些数据节点的心跳信息,这时,这些数据节点就会被标记为“宕机”,节点上面的所有数据都会被标记为“不可读”,名称节点不会再给它们发送任何I/O请求
A)正确
B)错误
答案:对
解析:
81.[判断题]逻辑回归算法只能用于二分类问题,即输出只有两种,分别代表两个类别。

A)正确
B)错误
答案:错
解析:
82.[判断题]Kafka 是一个分布式的消息发布订阅系统,它只是进行消息的转发,并不会保存消息。

A)正确
B)错误
答案:错
解析:
83.[判断题]折线图主要用于显示在相等时间间隔下数据的趋势。

A)正确
B)错误
答案:对
解析:
84.[判断题]神经网络对未经过训练的数据具有分类功能,但其需要很长时间进行训练。

A)正确
B)错误
85.[判断题]NameNode 负责管理元数据信息metadata,client 端每次读写请求,它都会从磁盘中读取或会写入metadata 信息并反馈给cliént端。

A)正确
B)错误
答案:错
解析:
86.[判断题]聚类问题是一种无监督的学习任务,即训练样本的标记信息是未知的,通过对无标记训练样本的学习,来揭示数据的内在性质,就可以为进一步数据分析提供基础。

A)正确
B)错误
答案:对
解析:
87.[判断题]在Flink中,checkpoint 机制能够保证应用在运行过程中出现失效时,从某一个检查点恢复,在此过程中,流快照是根据数据流入建立的()
A)正确
B)错误
答案:对
解析:
88.[判断题]无论是低维数据还是高维数据,DBSCAN的空间复杂度始终都是O(m)。

A)正确
B)错误
答案:对
解析:
89.[判断题]在分类的过程中,用训练集训练数据,再用训练集评估模型的性能,得出模型性能很好的结果,则分类模型构建成功。

A)正确
B)错误
答案:错
解析:
90.[判断题]Java 应用程序编译后生成二进制可执行文件
A)正确
B)错误
答案:错
解析:
91.[判断题]建立回归模型之前,必须先进行主成分分析。

A)正确
B)错误
答案:错
解析:
92.[判断题]“词云”就是对网络文本中出现频率较高的“关键词”给予视觉上的突出,形成 “关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使访问者只要一眼扫过文本就可以领路文本的主旨。

解析:
93.[判断题]分类是按照某种指定的属性特征将数据归类,需要确定类别的概念描述,并找出类判别准则。

A)正确
B)错误
答案:对
解析:
94.[判断题]聚类分析中,各变量的取值范围在数量级若差异过大,则会影响输出结果。

A)正确
B)错误
答案:对
解析:
95.[判断题]scala中基本数据类型和java完全一致
A)正确
B)错误
答案:错
解析:
96.[判断题]在噪声数据中,波动数据比离群点数据偏离整体水平更大。

A)正确
B)错误
答案:错
解析:
97.[判断题]8种基本数据类型的类型名全为小写
A)正确
B)错误
答案:对
解析:
98.[判断题]符号常量名必须全部大写
A)正确
B)错误
答案:错
解析:
99.[判断题]变量赋初值不能使用连续“=”
A)正确
B)错误
答案:对
解析:
100.[判断题]命令行编译java 应用程序必须包含扩展名(java)
A)正确
B)错误
答案:对。