大数据CDA考试(习题卷1)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据CDA考试(习题卷1)
说明：答案和解析在试卷最后
第1部分：单项选择题，共118题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]下列不属于非平稳时间序列的确定性因素是(
A)规则变动
B)长期趋势
C)季节变动
D)循环变动
2.[单选题]一个6面骰子连掷4次，得到至少一次六点的概率约为( )。

A)≈51.77%
B)≈66.67%
C)≈48.22%
D)≈16.67%
3.[单选题]spark 的核心模块是
A)spark streaming
B)spark core
C)mapreduce
D)spark sql
4.[单选题]以下哪个不是HDFS的守护进程
A)SecondaryNameNode
B)NameNode
C)MrappMaster/YarnChild
D)DataNode
5.[单选题]在Jinjia2 模板引擎中实现模板的继承,使用的关键词是()。

A)extend
B)extends
C)from
D)import
6.[单选题]采用Flume 传输数据过程中,为了防止因Flume 进程重启而丢失数据,推荐使用以下哪种 channel类型?
A)Memory Channels
B)File Channel
C)JDBC Channel
D)HDFS Channel
7.[单选题]在Spark生态组件中,那个产品可用于复杂的批量数据处理。

()
A)Spark Core
B)Spark Sql
C)Spark Streaming
D)MLlib
8.[单选题]某公司的总会计师决定用决策模型应对不确定性问题。

目前,公司有两种方案可供选择,与另一跨国公司联合投资或不联合投资。

总会计师提供了以下信息:方案1:联合投资的结果和概率:成功概率为 60%,投资成本为1200万元,投资成功的现金流为 2000万元,投资不成功的现金流为200万元,其他成本为0元, 至此时已发生的成本为120万元。

方案2:不联合投资的结果和概率;至此时已发生的成本为120万元,其他成本为500000元。

下列哪项分别正确地反映了联合投资与不联合投资的期望值?0
A)800000元和-1700000元
B)-700000元和-500000元
C)800000元和-500000元
D)-700000元和-1700000元
9.[单选题]如果对HBase表的添加数据记录,可以使用()命令进行操作。

A)create
B)get
C)put
D)scan
10.[单选题]Java的字符类型采用的是Unicode编码方案,每个Unicode 码占用()个比特位。

A)8
B)16
C)32
D)64
11.[单选题]下面声明数组的写法错误()。

A)int a[];
B)int[]a;
C)int[3][]a;
D)int[][3]a;
12.[单选题]如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)
A)200
B)40000
C)400
D)1200
13.[单选题]下面不属于简单随机抽样的局限性的是( )
A)当总体数量很大时，不易构造抽样框
B)抽出的单位很分散，给实施调查增加了困难
C)没有利用其它辅助信息以提高估计的效率
D)不能用于推断总体
14.[单选题]教育水平作为定序型变量，若要描述其离散程度，可选用以下哪种方法( )
A)平均差
B)四分位差
C)方差
D)标准差
15.[单选题]关于相关性rA,B说法错误的是()。

A)rA,B>0,正相关。

A随B的值得增大而增大
B)rA,B=0,不相关。

AB无关
C)rA,B<0,负相关。

A随B的值得增大而减少
D)不能单纯依据rA,B<=0确定AB的相关性
16.[单选题]假设每个用户最低资源保障设置为yarn,scheduler, capacity,root,QueueAminimum-user-limit-percent=24,则以下说法错误的是?()
A)第3个用户提交任务时,每个用户最多获得33.33%的资源
B)第2个用户提交住务时,每个用户最多获得50%的资源
C)第4个用户提交任务时,每个用户最多获得25%的资源
D)第5个用户提交任务时,每个用户最多获得20%的资源
17.[单选题]Kafka 集群在运行期间,直接依赖于下面哪些组件?
A)spark
B)zookeeper
C)hdfs
D)hbase
18.[单选题]在评价多元线性回归模型拟合程度的时候，我们主要查看( )的数值
A)修正R2
B)R2
C)SSE
D)SSR
19.[单选题]在Hadoop生态组件中,个产品可用于复杂的批量数据处理。

()
A)MapReduce、Hive
B)Impala
C)Storm
D)Mahout
20.[单选题]关于Dataset,下列说法不正确的是?
A)Dataset 不需要反序列化就可执行大部分操作
B)Dataset 是一个由特定域的对象组成的强类型集合
C)Dataset 与RDD 高度类似性能比RDD 好
D)Dataset 执行sort,filter, shuffle登操作需要进行反序列化
21.[单选题]下列属于推断性统计分析的方法是()。

A)大数定律
B)中心极限定理
C)相关分析
D)回归分析
22.[单选题]以下哪个语句不能查询出结果
A)select
B)select
C)select
D)select
23.[单选题]main 方法是Java应用程序执行的入口点,关于main方法的方法头以下哪项是合法的?
A)public static void main()
B)public static void main( String[] args)
C)public static int main (String arg
D)public void main (String arg)
24.[单选题]字段“户籍所在省份”，下列方法最适宜的是( )
A)需要编码为数值变量
B)需要编码为字符变量
C)需要编码为二分变量
D)需要编码为分类变量
25.[单选题]关于fusion Insight HD Streaming 的Supervisor 描述正确的是?
A)Supervisor 是在Topology 中接受数据然后执行处理的组件
B)Supervisor 负责接受Nimbus 分配的任务,启动和停止属于自己管理的Worker 进程
C)Supervisor 负责资源分配和任务调度
D)supervisor 是运行具体处理逻辑的过程
26.[单选题]为什么DBSCAN 算法难以有效处理高维数据。

()
A)数据的形状太复杂
B)簇的大小未知
C)噪声点过多
D)开销过大
27.[单选题]下面与Zookeeper类似的框架是?
A)Protobuf
B)Java
C)Kafka
D)Chubby
28.[单选题]17、19、22、24、25、28、34这组数的四分位差是( )。

A)24
B)12
C)9
D)D 17
29.[单选题]Hbase中以下对于LSM的描述正确的是()。

A)LSM的读操作和写操作是独立
B)LSM的读操作和写操作不是独立
C)LSM井不区分读和写
D)LSM中读写是同一种操作
30.[单选题]LSM含义是?
A)日志结构合并树
B)二叉树
C)平衡二叉树
D)长平衡二叉树
31.[单选题]以下关于Hive操作描述不正确的是()。

A)Hive是一个建立在hadoop文件系统上的数据仓库架构,可以用其对HDFS上
B)Hive依赖于MapReduce 处理数据
C)Hive的加载数据时候,可以用 local进行修饰,表示从某个本地目录下加载数据
D)Hive一般可以用于实时的查询分析
32.[单选题]HBase依靠()存储底层数据
A)HDFS
B)Hadoop
C)Memory
D)MapReduce
33.[单选题]下列选项中,哪个是对分类器效果验证指标中准确率的正确表述。

)
A)预测为正的数据在总数据中的比例
B)预测正确的数据在总数据中的比例
C)预测为正的数据中实际为正的数据所占比例
D)实际为正的数据中被预测为正的数据所占比例
34.[单选题]Kafka 集群中,Kafka 服务端的角色是?
A)Broker
B)Consumer
C)Zookeeper
D)Producer
35.[单选题]Flink 的数据转换操作在以下哪些环节中完成()?
A)channel
B)Transformation
C)sink
D)source
36.[单选题]下列哪一项方法对于发现异常值有帮助( )
A)减去均值，并除以标准差
B)梯度下降法
C)相关性分析
D)归一化处理
37.[单选题]如果需要对HBase表中的数据进行列表查看,可以使用()命令进行操作。

A)count
B)scan
C)put
D)get
38.[单选题]随机抽取一家企业的25个产品样品，测得样品长度为60厘米。

已知产品长度分布服从正态分布，且总体标准差为5厘米。

那么该批产品平均长度的置信区间为( )注:置信水平为95%，z0.025=1.96
A)（58.04，
B)（55，
C)（54.45，
D)（54.46，
39.[单选题]以下针对缺失值的处理方法中,当一个连续变量缺失值超过85%,则哪种最合理?()
A)直接使用该变量
B)根据是否缺失,生成指示变量,仅使用指示变量作为解释变量
C)使用多重插补的方法进行缺失值填补
D)直接删除该变量
40.[单选题]分析师小A想要对多元线性回归y=b0+b1x1+b2x2+…+bnxn+ε进行线性关系检验时，他设定的原假设可以是( )
A)b0=b1=……=bn=0
B)b1=……=bn=0
C)b0,b1,……,bn中存在任意一个不为0
D)b1,……,bn中存在任意一个不为0
41.[单选题]在ID3算法中信息增益是指()。

A)信息的溢出程度
B)信息的增加效益
C)熵增加的程度最大
D)熵减少的程度最大
42.[单选题]关于逻辑回归(Logistic regrssion)因变量和自变量的说法中,正确的是()。

A)逻辑回归的因变量为数值变量
B)逻辑回归的因变量为定性变量
C)逻辑回归的自变量是定性变量
D)逻辑回归的因变量只能有两种取值
43.[单选题]SOL 语言中,删除一个表中所有数据,但保留表结构的命令是()。

A)DELETE
B)DROP
C)CLEAR
D)REMORE
44.[单选题]Hbase 中的Region 是由哪个服务进程来管理的?
A)Hregionserver
B)Zookeeper
C)Master
D)Datanode
45.[单选题]以下关于fusioninsight CTbase的描述不正确的是?
A)CThase的读写数据接口,统一封装了行定义的接口,自动进行冷字段的合并和解析,不需要在应用程序中进行合并和解释
B)CT HBase 是基于Hbase的聚簇表开发框架
C)CTHbase提供了一套Webui 进行元数据定义,提供了只管医用的表设计工具,降低表设
D)CTHbase 的java API提供一套 Hbase连接池管理的接口,内部进行连接共享,减少客户端应用开发难度。

46.[单选题]Java编程所必须的默认引用包为()
A)java.sys包
B)ng 包
C)java.util 包
D)以上都不是
47.[单选题]银行根据客户以往贷款记录情况,将客户分为低风险客户和高风险客户。

对一个新来的申请者,银行计算风险,决定接受或拒绝该申请。

这属于( )算法的应用。

A)分类
B)聚类
C)关联
D)回归
48.[单选题]满足最小支持度阈值(minsup)的所有项集称为()。

A)项
C)频繁项集
D)频繁K项集
49.[单选题]希望将不同数据表中的数据进行关联的时候，我们可以采用表连接。

以下不是sql表连接方式的一个是( )
A)right
B)left
C)union
D)all
50.[单选题]三个逻辑回归模型A、B、C，AUC分别为0.53，0.72，0.8。

那么我们一般认为这三个模型哪个的预测能力更强( )
A)A
B)B
C)C
D)无法判断
51.[单选题]现在通过参数估计得到一个一元线性回归模型为y=3x+4。

那么在回归系数检验中下列说法错误的是( )
A)检验统计量是t统计量
B)原假设是
C)如果拒绝原假设，就认为自变量与因变量存在显著的线性关系
D)判断是否拒绝原假设，可以用P值与显著性水平进行比较
52.[单选题]下列关于Flink barrier描述错误的是?
A)一个barrier 将本周期快照的数据与下一个周期快照的数据分隔开
B)barrier是F1ink快照的核心
C)在插入barrier 的时候,会暂时阻断数据流
D)barrier 周期性插入到数据流中, 并作为数湉流的一部分随之流动
53.[单选题]分析师小A发现某产品销量数据有明显的长期趋势变动，则小A可以考虑采用( )
A)移动平均值法
B)向量自回归法
C)差分法
D)固定效应法
54.[单选题]下列关于Hadoop API的说法错误的是( )。

A)Hadoop的API只适用于HDFS文件系统
B)Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的
C)FileStatus对象存储文件和目录的元数据
D)FSDatalnputStream是 java.io.DatalnputStream的子类
55.[单选题]下列关于逻辑回归介绍错误的是( )
A)逻辑回归是无监督学习
B)逻辑回归是有监督学习
C)逻辑回归是非线性回归
D)逻辑回归的输出是介于0到1之间的值
56.[单选题]Hadoop组件在企业应用中,能用于数据挖掘的产品有( )。

A)Hive
B)Pig
C)Mahout
57.[单选题]以下哪个是分布式计算框架？
A)HDFS
B)Spark
C)HBase
D)MLlib
58.[单选题]HFile数据格式中的Data字段用于()。

A)存储实际的KeyValue数据
B)存储数据的起点
C)指定字段的长度
D)存储数据块的起点
59.[单选题]关于被私有访问控制符 private修饰的成员变量,以下说法正确的是()
A)可以被三种类所引用:该类自身、与它在同一个包中的其他类在其他包中的该类的子类
B)可以被两种类访问和引用:该类本身、该类的所有子类
C)只能被该类自身所访问和修改
D)只能被同一个包中的类访问
60.[单选题]显著性检验中的P值小于多少时,可以认定为绝对显著相关。

()
A)1
B)0.05
C)0.01
D)0.001
61.[单选题]Flume支持多级级联的sink类型是()?
A)hdfs sink
B)avro sink
C)file roll sink
D)hbase sink
62.[单选题]Fusion insight 产品中,关乎Kafka说法不正确的是?
A)Kafka 强依赖Zookeeper
B)Kafka的服务端可以产生消息
C)Kafka的部署的实例个数不得小于2
D)Consumer作为Kafka 的客户端角色专门进行消息的消费
63.[单选题]在进行模板渲染时,需要从flask 中导入()
A)flask
B)templates
C)url_for
D)render_templates
64.[单选题]盒须图( )中，Q1到Q3的距离被称为( )。

A)IQR
B)极差
C)内差
D)SSA
65.[单选题]开始将N个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一
个新类,计算新类与其他类的距离,重复进行两个最近类的合并,每次少一类,直至所有的样品合并为一类,此种聚类方法是 ()。

A)K-means
B)SOM聚类
C)系统聚类
D)有序聚类
66.[单选题]Hbase的主Master 是如何选举的?
A)由Regionserver 进行裁决
B)Master为双模式,不需要进行裁决
C)通过Zookeeper 进行裁决
D)随机选举
67.[单选题]数据挖掘算法中,下列关于聚类的说法中,错误的是( )
A)不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
B)要求同类数据的内容相似度尽可能小
C)要求不同类数据的内容相似度尽可能小
D)与分类挖掘技术相似的是,都是要对数据进行分类处理
68.[单选题]Hive 是基于Hadoop 的数据仓库软件,可以查询和管理PB级别的分布式数据。

以下关于hive特性的描述不正确的是?
A)灵活方便的ETL
B)易用易编程
C)可直接访可HDFS文件以及 Hbase
D)仅支持mapreduce 计算引擎
69.[单选题]分析师小A想要在数据表中查询名称里包含“新款”的产品。

那么在进行查询时，可以选择以下哪种方式用来进行模糊匹配( )
A)like
B)<>
C)distinct
D)between
70.[单选题]在数据安全及处理效率方面,不适宜大数据分析的软件是( )。

A)SAS
B)Stata
C)MatLab
D)SPSS
71.[单选题]某数据分析员希望展示某网站10年来月度访问量数据，采用以下哪个图形比较合适？
A)散点图
B)饼图
C)盒须图
D)折线图
72.[单选题]结构化程序设计所规定的三种基本控制结构是()
A)输入、处理、输出
B)树形、同形、环形
C)顺序、选择、循环
D)主程序、子程序、函数
73.[单选题]在MapReduce中,()组件是用户不指定也不会有默认的。

A)Combiner
B)OutputFormat
C)Partitioner
D)InputFormat
74.[单选题]下选项不属于原始数据来源的是(。

A)犯罪记录
B)抽样调查
C)统计年鉴
D)模拟实验
75.[单选题]某班级同学在一个月后的期末考试成绩前50%将参加某项学科竞赛，现组织同学进行测验，小郑考了84分，他希望评估自己是否有希望参加学科竞赛，因此将他的成绩与班级成绩( )进行比较是最合理的。

A)平均数
B)中位数
C)众数
D)四分位差
76.[单选题]倒传递神经网络(BP 神经网络)的训练顾序是什么(1:调整权重;2:计算误差值 ;3:利用随机的权重产生输出的结果)()。

A)231
B)312
C)213
D)321
77.[单选题]实际应用中，如果想要研究单个指标的方差对结果的影响，在做主成分分析的时候应该选择使用( )
A)协方差矩阵
B)相关系数矩阵
C)关联矩阵
D)三者皆可
78.[单选题]对于HDFS的组成描述正确的是()。

A)HDFS的文件系统主分为管理节点和工作节点。

B)NameNode管理元数据信息
C)DataNode保存真正的数据。

D)DataNode保存真正的数据。

79.[单选题]以下对众数的说法中,不对的是()。

A)众数是出现的次数
B)众数是一组数据中出现次数最多的数据数
C)一组数据中的众数可能不存在
D)D一组数据中可能存在多个众数
80.[单选题]下列哪一个关键字用于实现接口来定义类?
A)extends
B)implements
C)abstract
D)interface
81.[单选题]下面说法错误的是()。

A)Hadoop集群采用的是 Master/Slave工作模式
B)DataNode上保存着的是元数据,真正的数据是存放在 NameNode上的
C)HDFS采用了口种对文件切割后分别存放的存储方式。

D)HDFS是为高数据吞吐量应用优化的。

82.[单选题]分析师小A在对他的模型进行评估时，更倾向选用调整R作为指标。

因为相比较R，调整R对拟合度的估计更加( )
A)高估
B)低估
C)一样
D)不确定
83.[单选题]如果一组数据不是对称分布，按照切比雪夫不等式，至少约有( )的观测值落在距均值4个标准差的区间范围内。

A)75%
B)89%
C)94%
D)98%
84.[单选题]下列选项中适合Mapreduce的场景()
A)实时交互计算
B)迭代计算
C)流式计算
D)离线计算
85.[单选题]逻辑回归模型中计算得到的发生概率p，一般作为( )
A)绝对概率
B)相对概率
C)绝对概率的自然对数
D)相对概率的自然对数
86.[单选题]关联规则的评价指标是()。

A)均方误差、均方根误差
B)Kappa统计、显著性检验
C)支持度、置信度
D)平均绝对误差、相对误差
87.[单选题]设计分布式数仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。

A)分桶
B)分区
C)索引
D)分表
88.[单选题]YARN 的基于标准调度,是对下列选项中的哪个进行标签化?
A)Appmaster
B)Resourcemanager
C)Nodemanager
D)Container
A)Kafka 针对Partition 的制需要选出一个Leader。

由该Leader 负责Partition的读写操作。

其他的副本节点只是负责数据同步
B)由于Leader Server 承載了全部的请求压力。

因此从集群的整体考虑,Kafka会将Leader,均衡的分散在每个实例上,来确保数据均衡
C)一个Kafka 集群各个节点间不可能互为Leader 和Flower
D)如果Leader 失效。

那么将会有其他follower 来接管(成为新的 Leader)
90.[单选题]Hbase的某张表的Rowkey 划分splitkey为9.E.a.2.请问表里面有几个Region?
A)6
B)3
C)5
D)4
91.[单选题]参照以下信息选择能够正确创建orderinfo表的语句
A)create
B)create
C)create
D)create
92.[单选题]以下哪个不是DataStream的组成部件()?
A)Data source
B)Transformations
C)Channel
D)Data sink
93.[单选题]如果一组数据不是对称分布，按照切比雪夫不等式，至少约有75%的观测值落在距均值( )个标准差的区间范围内。

A)1
B)2
94.[单选题]编译 Java 源程序文件将产生相应的字节码文件,这些字节码文件的扩展名为
A)byte
B)class
C)html
D)exe
95.[单选题]下列论据中,能够支撑“大数据无所不能”的观点的是()。

A)互联网金融打破了传统的观念和行为
B)大数据存在泡沫
C)大数据具有非常高的成本
D)个人隐私泄露与信息安全担忧
96.[单选题]HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为 64MB。

当运行mapreduce任务读取该文件时input split大小为?
A)一个map读取64MB,另外一个 map读取11MB
B)64MB
C)75MB
D)128MB
97.[单选题]以下方法可以改变数据量纲的是
A)对数据做归一化处理
B)对数据做z-score标准化
C)对数据取对数
D)以上都是
98.[单选题]以下哪个不是Spark的分布式部署方式?(
A)standalone
B)spark on mesos
C)spark on YARN
D)Spark on local
99.[单选题]已知表student，字段如下：
取出course1，course2，course3三门成绩均超过60分的记录，可以使用如下查询语句( )
A)select
B)select
C)select
D)select
100.[单选题]分析师小A在建立了多元线性回归模型后，发现残差出现了异方差，那么小A可以考虑( )
A)对因变量取自然对数
B)对自变量取自然对数
C)将模型的常数项强制为0
D)对因变量乘以某一个系数A进行放大或者缩小
101.[单选题]假设一组数据的取值从923到899。

数据中最大绝对值为923。

因此，我们用1000除每个值。

因此，923被规范化为0、923，而899被规范化为0、899，这种数据规范化被称为( )。

A)小数定标规范化
B)z-score规范化
102.[单选题]字段cost的最大最小值分别是1200元和9800元。

利用最大-最小规范化的方法将属性的值映射到0至1的范围内。

则cost值为7360元将被转化为()。

A)0.751
B)0.163
C)0.457
D)0.716
103.[单选题]关于HBase下面说法正确的是( )。

A)HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列
B)每个值是一个未经解释的字符串,没有数据类型,程序员要自己去对它进
C)用户在表中存储数据,每一行都有一个可排序的行键和任意多的列
D)以上说法都正确
104.[单选题]偏自相关函数ACF呈现缓慢的趋近于零，我们称ACF具有( )
A)长尾性
B)短尾性
C)收敛性
D)拖尾性
105.[单选题]有一段 java应用程序,它的主类名是a1,那么保存它的源文件名可以是
A)a1.java
B)a1.class
C)a1
D)都对
C)结论与建议
D)附录
107.[单选题]( )盒须图( )中，Q1到其最近的内限距离为( )。

A)IQR
B)1、5IQR
C)0、5
D)0、75
108.[单选题]下列关于网络用户行为的说法中,错误的是()。

A)网络公司能够捕捉到用户在其网站上的所有行为
B)用户离散的交互痕迹能够为企业提升服务质量提供参考
C)数字轨迹用完即自动删除
D)用户的隐私安全很难得以规范保护
109.[单选题]找出这组数据:23、29、20、32、24、21、33、25的中位数。

()
A)23
B)24
C)27
D)29
110.[单选题]以下不属于分类模型评估中基于比率维度的指标是()。

A)KS值
B)特异性
C)Kappa统计量
D)Lift值
111.[单选题]识别垃圾邮件属于。

A)预测建模
B)聚类分析
C)关联分析
D)异常检测
112.[单选题]Kafka集群中,Kafka 服务端部署的角色是
A)Producer
B)Consumer
C)ZooKeeper
D)Broke
113.[单选题]Spark是用以下哪种编程语言实现的()?
A)C
B)C++
C)JAVA
D)Scala
114.[单选题]下面不属于面访式问卷调查优势的是( )
A)可提高调查的回答率
B)可提高调查数据的质量
115.[单选题]WTForms 中用来验证数据是否有效使用的是
A)DataRequired()
B)Required
C)InputRequired()
D)Optional()
116.[单选题]缺失数据(Null Value)的具体处理方法有很多种,下列哪种方法可得到较准确的结果?()
A)填入一个通用的常数值,例如填入未知/Unknown
B)把填补遗缺值的问题当作是分类或预测的问题
C)填入该属性的整体平均值
D)填入该属性的整体中位数
117.[单选题]在方差分析中，我们如下输出
B)33
C)64
D)66
118.[单选题]若需要定义一个类域或类方法,应使用哪种修饰符?
A)static
B)package
C)private
D)public
第2部分：多项选择题，共74题，每题至少两个正确答案,多选或少选均不得分。

119.[多选题]逻辑回归是数据挖掘算法中常用的模型算法,以下关于逻辑回归的说法正确的是 ()。

A)异常值不会对模型造成很大的干扰。

B)逻辑回归的自变量必须是分类变量,因此要对连续型变量进行离散化处理。

C)逻辑回归属于分类算法。

D)逻辑回归对模型中自变量的多重共线性较为敏感。

120.[多选题]关于HBase的特性,哪些是正确的()?
A)高可靠性
B)高性能
C)面向列
D)可伸缩
121.[多选题]下列关于基于大数据的营销模式和传统营销模式的说法中错误的是()。

A)传统营销模式比基于大数据的营销模式投入更小
B)传统营销模式比基于大数据的营销模式针对性更强
C)传统营销模式比基于大数据的营销模式转化率低
D)基于大数据的营销模式比传统营销模式实时性更强
122.[多选题]时间序列预测方法分为( )。

A)平滑法预测
B)ARIMA模型预测
C)Winter法
D)不能确定
123.[多选题]以下关于Zookeeper 的Leader 选举说法正确的是?
A)当实例n为奇数时,假定n=2x+1, 则成为leader节点需要x+1票
B)Zookeeper选举 1 eader 时,需要半数以上票数
C)当实例数为8时则成为leader 容灾能力为4
D)当实例数n 为奇数时,假定 n=2x+1,则成为leader 节点需要 X票
124.[多选题]下列关于Worker(工作进程exector(线程)、Task(任务)说法正确的是?
A)每个Executor(线程可以运行多个 task任务
B)每个Worket运行多个 exector(线程)
C)每个Workst 只能为个拓扑运行 Executor(线程)
D)每个Executor 运行不同组件( Spout 或Bolt)的Task(任务)
125.[多选题]可通过GOOSE报文传递的应用数据包括()
C)档位信息
D)开关量
126.[多选题]逻辑回归中常用的筛选变量的方法有( )
A)Wald检验
B)似然比检验
C)F检验
D)主观判断
127.[多选题]以下数据结构属于线性数据结构的是?
A)队列
B)线性表
C)二叉树
D)栈
128.[多选题]大数据处理流程可以概括为以下哪几步?
A)挖掘
B)采集
C)统计和分析
D)导入和预处理
129.[多选题]数据清理中,处理缺失值的方法是?
A)估算
B)整例删除
C)变量删除
D)成对删除
130.[多选题]四分位数的特征值是(】。

A)最大值
B)最小值
C)中位数
D)四分位数
131.[多选题]描述数据集中趋势的常见指标是()。

A)均值
B)中位数
C)众数
D)四分位数
132.[多选题]以下关于闵可夫斯基距离和杰卡德相似系数的说法，正确的是( )
A)欧氏距离可以看成是特殊形式的闵可夫斯基距离
B)闵可夫斯基距离用于连续型数据
C)杰卡德相似系数用于分类数据
D)杰卡德相似系数用于连续型数据
133.[多选题]下列属于描述性统计中，用来度量离散程度的有( )。

A)标准差
B)协方差
C)四分位差
134.[多选题]以下哪些是集中趋势分析的指标。

()
A)均值
B)中位数
C)众数
D)四分位数
135.[多选题]下面选项中,哪些不是mysql数据库的引擎
A)Innodb
B)OLTP
C)Memory
D)OLAP
136.[多选题]下面哪些属数据库事务的ACID特性
A)唯一性
B)一致性
C)隔离性
D)持久性
137.[多选题]HBase构建二级索引的实现方式有哪些?
A)MapReduce
B)Coprocessor
C)BloomFilter
D)Filter
138.[多选题]AGNES算法可分为【 )。

A)单链算法
B)多链算法
C)全链算法
D)均链算法
139.[多选题]关于Flume,下列说法错误的是?
A)Flume级联节点之间的数据传输支持加密
B)Rlume 支持多级联和多路复用
C)Source到Channel 到Sink 等进程内部有加密的必要
D)Flume 级联节点之间的数据传输不支持压缩
140.[多选题]数据流如何Transformation 之间传输数据,数据流可以分为那些类型?
A)一对一流
B)distributing 流
C)一对多流
D)redistributing 流
141.[多选题]执行Hbase 读数据业务,需要读取哪几部分数据?
A)HLog
B)HMaster
C)Hfile
D)Memstore
142.[多选题]下面关于Hbase的特性描述正确的是( 1。

C)面向列
D)可伸缩
143.[多选题]以下算法中对缺失值不敏感的是()。

A)Logistic 回归
B)CART 决策树
C)SVM 算法
D)朴素贝叶斯
144.[多选题]以下哪些是Spark的常驻进程()?
A)JobHistory
B)SparkResource
C)NodeManager
D)JDBCServer
145.[多选题]下面哪些不是spark的机器学习库？
A)MapReduce
B)HDFS
C)HBase
D)MLlib
146.[多选题]以下是Spark中executor的作用是()
A)保存计算的RDD分区数据
B)向Driver反向注册
C)接受Driver端发送来的任务Task, 作用在RDD上进行执行
D)做资源调度任务
147.[多选题]Yarn 中,“从”节点负责以下哪些工作?
A)集群中所有资源的一管理和分配
B)监督container的生命周期管理
C)监控每个Container 的资源使用 (内存、CPU等)情况
D)管理日志和不同应用程序用到的附属服务
148.[多选题]fusininsight HD平台中,那些组件支持对列表加密?
A)HDFS
B)Flink
C)hbase
D)hive
149.[多选题]Cloudera提供哪几种安装CDH的方法?
A)Clouderamanager
B)Tarbal
C)Yum
D)Rpm
150.[多选题]以下关于Hadoop 的HDFS 描述正确的有?
A)HDFS 由 NameNode, DataNode,client 组成
B)HDFS 备NameNode 上的元数据是主NameNode同步过去的
C)HDFS 采用就近的机架节点进行数据的第一副本存储。