大数据理论考试(试卷编号162)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据理论考试(试卷编号162)
说明：答案和解析在试卷最后
1.[单选题]当构建一个神经网络进行图片的语义分割时，通常采用下面哪种顺序（）。

A)先用卷积神经网络处理输入，再用反卷积神经网络得到输出
B)先用反卷积神经网络处理输入，再用卷积神经网络得到输出
C)不能确
2.[单选题]（）是从（多条）信息中发现的共性规律、模式、模型、理论、方法。

A)信息
B)数据
C)知识
D)智慧
3.[单选题]开发Maxcompute的用户自定义标量函数，主要是实现其中的（）方法。

A)evaluate
B)main
C)iterate
D)process
4.[单选题]Spark的集群管理模式不包含（）。

A)Standalone模式
B)Message模式
C)YARN模式
D)Mesos模式
5.[单选题]大数据计算服务（MaxCompute，原ODPS ）中的用户表dim_user是一张非分区表，另外有一部分新增用户的数据存在user_delta表中，两张表的结构相同，为了在dim_user表中得到全量的用户数据，可以采用（）方式
A)select* from user_delta、into dim_user
B)insert into dim_user select* from user_delta union all select*from dim_user
C)insert overwrite table dim_user select*from user_delta
D)insert into table dim_user select* from user_delta
6.[单选题]Python使用（）符号标示注释。

A)&
B)*
C)#
7.[单选题]在选择神经网络的深度时，下面那些参数需要考虑（）1神经网络的类型(如MLP,CNN)2输入数据3计算能力(硬件和软件能力决定)4学习速率5映射的输出函数
A)1,2,4,5
B)2,3,4,5
C)都需要考虑
D)1,3,4,
8.[单选题]常用的数据归约方法可以分为（）。

A)维归约数据压缩
B)维归约参数归约
C)维归约值归约
D)数据压缩值归约
9.[单选题]对连续图像的离散化采样决定了图像的（）。

A)空间分辨率
B)时间分辨率
C)地面分辨率
D)灰度
10.[单选题]在pandas中，描述统计信息的是哪个函数（）。

A)describe()
B)desc()
C)information()
D)info()
11.[单选题]下列关于文本分类的说法不正确的是（）。

A)文本分类是指按照预先定义的主题类别，由计算机自动地为文档集合中的每个文档确定一个类别
B)文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统
C)文本的向量形式一般基于词袋模型构建，该模型考虑了文本词语的行文顺序
D)构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤
12.[单选题]假设在庞大的数据集上使用Logistic回归模型，可能遇到一个问题，Logistic回归需要很长时间才能训练，如果对相同的数据进行逻辑回归，如何花费更少的时间，并给出比较相似的精度（）。

A)降低学习率，减少迭代次数
B)降低学习率，增加迭代次数
C)提高学习率，增加迭代次数
D)增加学习率，减少迭代次
13.[单选题]python不支持的数据类型有
C)float
D)list
14.[单选题]下列哪种架构的数据库数据是分布式存储的：
A)share-everything
B)share-disk
C)share-nothing
D)share-anythin
15.[单选题]当Kafka中日志片段大小达到（）时，当前日志片段会被关闭。

A)1M
B)100M
C)1GB
D)10G
16.[单选题]读代码，请写出程序正确的答案（）。

#!/usr/bin/env python3
N = 100
Sum = 0
Counter = 1
While counter <= n:
Sum + counter
Counter += 1
Print("1 到 %d 之和为: %d" % (n,sum))
A)结果： 1到100 之和为：5000
B)结果： 1到100 之和为：０
C)结果： 1到100 之和为：2050
D)结果： 1到100 之和为：5020
17.[单选题]信息熵是度量（）最常用的一种指标。

A)样本的个数
B)样本的维度
C)样本的纯度
D)样本的冗余
18.[单选题]Adaboost的核心思想是（）。

A)给定一个弱学习算法和一个训练集，将该学习算法使用多次,得出预测函数序列,进行投票
B)针对同一个训练集训练不同的弱分类器集合起来，构成一个强分类器
C)利用多棵树对样本进行训练并预测的一种分类器
D)基于前向策略的加法模型,每阶段使用一个基模型去拟合上一阶段基模型的残差
19.[单选题]关于数据清洗，不正确的说法是（）。

A)单数据源，主键取值不能重复
B)多数据源会存在数据重复，单位不一致的问题
C)连续型数据不存在冗余问题
D)缺失值可以采用删除和填补等方法处理
20.[单选题]自然语言理解是人工智能的重要应用领域，下面列举中的（）不是它要实现的目标。

A)理解别人讲的话
B)对自然语言表示的信息进行分析概括或编辑
C)欣赏音乐
D)机器翻
21.[单选题]Hadoop常用命令中，查看指定目录下的所有文件及子目录的命令是（）
A)hdfs dfs -ls [文件目录]
B)hdfs dfs -du [文件目录]
C)hdfs dfs -ls -R [文件目录]
D)hdfs dfs -du -R [文件目录]
22.[单选题]信息增益对可取值数目（）的属性有所偏好，增益率对可取值数目（）的属性有所偏好。

A)较高，较高
B)较高，较低
C)较低，较高
D)较低，较
23.[单选题]Spark的特点不包括（）
A)速度快
B)通用性
C)易用性
D)单一操作性
24.[单选题]关于python类说法错误的是（）。

A)类的实例方法必须创建对象后才可以调用
B)类的实例方法必须创建对象前才可以调用
C)类的类方法可以用对象和类名来调用
D)类的静态属性可以用类名和对象来调用
25.[单选题]假如使用一个较复杂的回归模型来拟合样本数据，使用Ridge回归，调试正则化参数λ，来降低模型复杂度。

若λ较大时，关于偏差（bias）和方差（variance），下列说法正确的是（）
A)若λ 较大时，偏差减小，方差减小
B)若λ 较大时，偏差减小，方差增大
C)若λ 较大时，偏差增大，方差减小
D)若λ 较大时，偏差增大，方差增
26.[单选题]以下关于异常处理的描述，正确的是（）。

A)try 语句中有 except 子句就不能有 finally 子句
B)Python 中，可以用异常处理捕获程序中的所有错误
C)引发一个不存在索引的列表元素会引发 NameError 错误
D)Python 中允许利用 raise 语句由程序主动引发异常
27.[单选题]np.where([[True,False],[True,True]],[[1,2],[3,4]],[[9,8],[7,6]]),最终的输出结果是（）。

A)[[1,4],[9,7]]
B)[[1,3],[9,7]]
C)[[1,8],[3,4]]
D)[[2,9],[3,6]]
28.[单选题]大数据计算服务提供了大数据的存储和计算服务，非常适合应用于大数据分析的领域。

以下说法中错误的是:（）。

A)可以实现大型互联网企业的数据仓库和BI分析
B)提供了便捷的分析处理海量数据的手段，用户可以不必关心分布式计算细节，从而达到分析大数据的目的
C)可以支持实时OLAP分析
D)可以基于历史数据，进行用户特征和兴趣挖掘
29.[单选题]Hadoop生态系统中，（）的主要设计目的是在Hadoop与传统数据库之间进行数据的ETL操作。

A)HDFS
B)Flume
C)Hive
D)Sqoop
30.[单选题]已知数组 trans_cnt[1, 2, 3, 4]，trans_cnt[2] 获取的结果为（）
A)1
B)2
C)3
D)4
31.[单选题]以下哪项不属于图像分割的内容（）。

A)把不同类标分开
B)提取不同区域的特征
C)识别图像内容，或对图像进行分类
D)对未处理图像进行平
32.[单选题]决策树的父节点和子节点的熵的大小关系是什么（）。

A)父节点的熵更小
B)子节点的熵更小
C)两者相等
D)根据具体情况而定
33.[单选题]以下属于图像处理的常用方法有（）。

A)图像变换
B)图像编码压缩
C)图像增强和复原
D)以上答案都正
34.[单选题]matplotlib中的axvspan函数作用是什么（）。

A)在x轴标示不同图形的文本标签图例
B)绘制垂直于x的区域
C)添加x轴内容细节的指向性注释文本
D)添加x轴标题；
35.[单选题]使用SQL语句进行分组检索时，为了去掉不满足条件的分组，应当
A)使用WHERE子句
B)在GROUP BY后面使用HAVING子句
C)先使用WHERE子句，再使用HAVING子句
D)先使用HAVING 子句，再使用WHERE子
36.[单选题]在一个简单的线性回归模型中（只有一个变量），如果将输入变量改变一个单位（增加或减少），那么输出将改变多少（）
A)一个单位
B)不变
C)截距
D)回归模型的尺度因
37.[单选题]某企业的数据仓库运行在大数据计算服务上，开发人员在加工数据时发现用户表user中的用户标识字段user_id有部分脏数据，正确的格式应该是8位的字符串。

可以使用SQL语句（）将脏数据过滤出来。

A)select*
B)select*
C)select*
D)select* from user where length(userid)<>8 or userid is null
38.[单选题]在plt中通常的lw参数代表的作用是（）。

A)线条的风格
B)文字的颜色
C)线条的宽度
D)线条的透明度
39.[单选题]选择Logistic回归中的One-Vs-All方法中的哪个选项是真实的（）。

A)我们需要在n类分类问题中适合n个模型
B)我们需要适合n-1个模型来分类为n个类
C)我们需要只适合1个模型来分类为n个类
D)以上答案都不正确
40.[单选题]向量空间模型的缺陷不包括（）。

A)维度灾难
B)模型稀疏性
C)语义信息缺失
D)无法计算文本相似度
41.[单选题]安装DWS时，建议的数据盘类型为：
A)RAID1
B)RAID0
C)RAID5
D)RAID1
42.[单选题]下列不属于Statsmodels模块的主要特点的是（）。

A)线性模型
B)方差分析
C)时间序列
D)插值运算
43.[单选题]一般将原始业务数据分为多个部分，（）用于模型的构建。

A)训练集
B)测试集
C)验证集
D)全部数据
44.[单选题]HBase是一种可伸缩、高可靠、高性能、分布式和面向（）的动态模式数据库。

A)列
B)行
C)行和列
D)元组
45.[单选题]（）是以样本统计量作为未知总体参数的估计量，并通过对样本单位的实际观察取得样
本数据，计算样本统计量的取值作为被估计参数的估计值
A)参数估计
B)逻辑分析
C)方差分析
D)回归分析
46.[单选题]ElasticSearch存放所有关键词的地方是
A)字典
B)关键词
C)词典
D)索
47.[单选题]变量的不确定性越大，相对应信息熵有什么变化（）。

A)熵变小
B)熵变大
C)不变
D)以上答案都不正
48.[单选题]Numpy.array数组的简称是（）。

A)array
B)nparray
C)Ndarray
D)pyarray
49.[单选题]当训练样本近似线性可分时,通过（）,学习一个（）。

A)硬间隔最大化线性可分支持向量机
B)软间隔最大化线性支持向量机
C)硬间隔最大化线性支持向量机
D)软间隔最大化非线性支持向量机
50.[单选题]以下说法正确的是（）。

A)关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

B)寻找模式和规则主要是对数据进行干扰，使其符合某种规则以及模式
C)数据挖掘的主要任务是从数据中发现潜在的规律，从而能更好的完成描述数据、预测数据等任务。

D)在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差
51.[单选题]关于Apriori算法的原理中叙述错误的是（）。

A)riori算法通常使用先验知识或者假设
B)如果某个项集是频繁的，那么它的所有子集也是频繁的
C)如果一个项集是非频繁集，那么它的所有超集也是非频繁的Apriori算法不可以用来发现频繁
D)Apriori算法不可以用来发现频繁集
52.[单选题]以下关于数据服务API开放方使用流程，描述正确的是:（）。

A)创建api并发布api
B)获取API
C)调用API
D)创建应用并获取授
53.[单选题]（）的主要目标是提供可扩展的机器学习算法及其实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。

A)Mahout
B)Flume
C)Sqoop
D)HBase
54.[单选题]（）是表现数据分布对称性的指标。

A)斜率
B)偏斜度
C)偏度
D)偏离
55.[单选题]DNN常用的激活函数有(__)。

A)sigmoid
B)tanh
C)ReLU
D)以上答案都正
56.[单选题]下列在python3中合法的语句为（）。

A)print Hello,World!
B)print 'Hello,World!'
C)print('Hello,World!')
D)print "Hello,World!"
57.[单选题]Hbase依靠（）提供强大的计算能力
A)Zoopkeeper
B)Chubby
C)RPC
D)MapReduce
58.[单选题]在MapReduce中，为了发现Worker故障，Master周期性进行(__)操作。

A)Join
B)Ping
C)Check
59.[单选题]（）属于Spark框架中的可扩展机器学习库。

A)MLib
B)GraphX
C)Streaming
D)SparkSQL
60.[单选题]2003年,Tableau在斯坦福大学诞生,它起源于一种改变数据使用方式的新技术（）。

A)VizQL语言
B)SQL语言
C)XSQL语言
D)NewSQL语言
61.[单选题]一幅数字图像是（）。

A)一个观测系统
B)一个由许多像素排列而成的实体
C)一个2-D数组中的元素
D)一个3-间中的场
62.[单选题]为了降低MapReduce两个阶段之间的数据传递量，一般采用（）函数对map阶段的输出进行处理。

A)sort（）
B)combiner（）
C)join（）
D)gather（）
63.[单选题]支持向量回归与传统回归模型的差别（）。

A)模型输出与真实值相同
B)模型输出与真实值存在ε偏差
C)模型输出大于真实值
D)模型输出小于真实
64.[单选题]Hadoop环境下HDFS系统中NameNode实现（）功能。

A)管理文件系统的命名空间
B)管理存储空间
C)分配算力
D)调控算法
65.[单选题]RDD的特点不包括（）
A)DD之间有依赖关系，可溯源
B)DD由很多partition构成
C)对RDD的每个split或partition做计算
D)RDD可以增量更新
66.[单选题]关于混合模型聚类算法的优缺点，下面说法正确的是（）。

A)当簇只包含少量数据点，或者数据点近似协线性时，混合模型也能很好地处理
B)混合模型很难发现不同大小和椭球形状的簇
C)混合模型比K均值或模糊c均值更一般，因为它可以使用各种类型的分布
D)混合模型在有噪声和离群点时不会存在问题
67.[单选题]np.linalg.svd()函数可以实现（）功能。

A)计算协方差矩阵
B)实现奇异值分解
C)计算方差
D)计算均值；
68.[单选题]新兴数据管理技术主要包括NoSQL技术、NewSQL技术和（）。

A)数据仓库
B)关系云
C)数据库系统
D)文件系统
69.[单选题]随机试验所有可能出现的结果，称为（）
A)基本事件
B)样本
C)全部事件
D)样本空间
70.[单选题]有关数据仓库的开发特点,不正确的描述是（）。

A)数据仓库开发要从数据出发;
B)数据仓库使用的需求在开发出去就要明确;
C)数据仓库的开发是一个不断循环的过程,是启发式的开发;
D)在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式
71.[单选题]pyplot.pie()所画的图像是（）。

A)箱线图
B)折线图
C)直方图
D)饼图
72.[单选题]数据故事话的‘情景’不包括（）。

A)还原情景
B)统计情景
C)移植情景
D)虚构情
73.[单选题]基于词的n元文法模型，其最后的粗分结果集合大小（）N。

A)大于
B)大于等于
C)小于
D)小于等于
74.[单选题]下列算法中属于图像平滑处理的是（）。

A)梯度锐化
B)直方图均衡化
C)中值滤波
D)Laplacian增
75.[单选题]关于函数的可变参数，可变参数*args传入函数时存储的类型是（）。

A)dict
B)tuple
C)list
D)set
76.[单选题]关于欠拟合（under-fitting），（）是正确的。

A)训练误差较大，测试误差较小
B)训练误差较小，测试误差较大
C)训练误差较大，测试误差较大
D)训练误差较小，测试误差较
77.[单选题]二项分布的数学期望为（）。

A)n(1-n)p
B)np(1- p)
C)np
D)n(1- p
78.[单选题]关于bagging下列说法错误的是：（）。

A)各基分类器之间有较强依赖，不可以进行并行训练
B)最著名的算法之一是基于决策树基分类器的随机森林
C)当训练样本数量较少时，子集之间可能有重叠
D)为了让基分类器之间互相独立，需要将训练集分为若干子集
79.[单选题]以下聚合函数求和的是()
A)AVG
B)SUM
C)MAX
D)COUN
80.[单选题]geoplotlib 是一个用于制作（）相关数据的工具箱。

A)物理
B)地图和地理
C)生物
D)化学
81.[单选题]二值图像中的分支点的连接数为（）。

A)0
B)1
C)2
D)3
82.[单选题]生成多项式和交互特征使用preprocessing模块中的（）函数。

A)preprocessing.binarize()
B)preprocessing.Normalizer()
C)belEncoder()
D)preprocessing.PolynomialFeatures()
83.[单选题]你正在训练一个RNN网络，你发现你的权重与激活值都是NaN，下列选项中，哪一个是导致这个问题的最有可能的原因（）
A)梯度消失
B)梯度爆炸
C)ReLU函数作为激活函数g(.)，在计算g(z)时，z的数值过大了
D)Sigmoid函数作为激活函数g(.)，在计算g(z)时，z的数值过大
84.[单选题]从网络的原理上来看，结构最复杂的神经网络是（）。

A)卷积神经网络
B)长短时记忆神经网络
C)GRU
D)BP神经网
85.[单选题]Hadoop中partition（）函数描述正确的是（）。

A)分区函数
B)特征函数
C)算法函数
D)排序函数
86.[单选题]卷积神经网络(convolutional neural network，CNN)，是一种专门用来处理具有类似
(__)的数据的神经网络。

A)网格结构
B)数组结构
C)序列结构
D)表格结
87.[单选题]select * from student 该代码中的 * 号，表示的正确含义是
A)普通的字符*号
B)错误信息
C)所有的字段名
D)模糊查
88.[单选题]Maxcompute表T中某列C的数据类型为bigint，需要修改为double，以下（）方式可以实现。

A)将表T删掉重建
B)ALTER TABLE T COLUMN C RENAME TO C DOUBLE
C)ALTER TABLE T DROP COLUMN C;ALTER TABLE T ADD C DOUBLE
D)ALTER TABLE T CHANGE COLUMNS C BIGINT
89.[单选题]假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模型线性可分（）。

A)设C=1
B)设C=0
C)设无穷大
D)以上答案都不正
90.[单选题]视觉通道表现力评价指标不包括（）。

A)精确性
B)可辨认性
C)可分离性
D)可转换性
91.[单选题]在著名管理学家ThomasH.Davernport在《哈佛商业论坛》上发表的题为《第三代分析学(Analytics3.0)》的经典论文中，Analytics3.0时代是指（）。

A)商务智能时代
B)大数据时代
C)数据富足供给时代
D)数据智能时代
92.[单选题]例如Hive建表语句中stored as 的作用是指定表的格式，下列不属于Hive表的常见格式的是（）create table if not exists textfile_table( ueserid STRING, movieid STRING, rating STRING, ts STRING)row formated delimated fields terminated by '\t'stored as
A)PigTable
B)ORC
C)PARQUET
D)TEXTFIL
93.[单选题]pyplot.title()的作用是（）。

A)绘制垂直线
B)为图设置标题
C)为图添加文本
D)绘制互相关
94.[单选题]scipy库中用于物理和数学常量计算的模块是（）。

A)scipy.cluster
B)scipy.io
C)scipy.constants
D)scipy.linalg
95.[单选题]在神经网络学习中，感知机输出层中的M-P神经元通常被称为（）。

A)阈值逻辑单元
B)激活函数
C)挤压函数
D)连接函
96.[单选题]下面哪一个命令是spark运行pi的命令
A)run-example SparkPi 2
B)Spark-shell SparkPi 2
C)hadoop-daemon jar SparkPi 2
D)yarn jar Spark
97.[单选题]著名的C4.5决策树算法使用（）来选择最优划分属性。

A)信息增益
B)增益率
C)基尼指数
D)均值
98.[单选题]在多元线性回归模型中，若某个解释变量对其余解释变量的判定系数接近于1，则表明模型中存在（）。

A)异方差
B)序列相关
C)多重共线性
D)高拟合优
99.[单选题]能使图像亮度得到平缓渐变，减小突变梯度，改善图像质量的是（）。

A)图像平滑
B)图像分类
C)图像识别
D)图像分
100.[单选题]标准BP算法的目标是使训练集上的（）为最小。

A)累积方差
B)累积误差
C)累积协方差
D)累积偏
101.[单选题]Flink的Checkpoint机制绘制的流应用快照不能被保存在以下哪个位置?
A)Local
B)HDFS
C)TaskManager 的内存
D)Jobmanager 的内
102.[单选题]回归分析的任务，就是根据（）和因变量的观察值，估计这个函数，并讨论与之有关的种种统计推断的问题
A)相关变量
B)样本
C)已知数据
D)自变
103.[单选题]以下描述中不属于“规整数据(TidyData)”三个基本原则的是（）。

A)每一类观察单元构成一个关系（表）
B)每个观察占且仅占一行
C)每个变量占且仅占一列
D)每个观察占且仅占一个关系（表）
104.[单选题]以下可以应用关键词提取的是（）。

A)文献检索
B)自动文摘
C)文本聚类/分类
D)以上答案都正
105.[单选题]对于神经网络的说法,下面正确的是(__)。

A)增加神经网络层数, 可能会增加测试数据集的分类错误率
B)减少神经网络层数, 总是能减小测试数据集的分类错误率
C)增加神经网络层数, 总是能减小训练数据集的分类错误率
106.[单选题]能够直观显示出学习器在样本总体上的查全率、查准率的图是（）。

A)ROC曲线
B)误差曲线
C)方差曲线
D)P-R曲线
107.[单选题]（）技术可以将所有数据的特性通过图的方式展现出来。

A)支持向量机
B)神经网络
C)数据可视化
D)数据挖掘
108.[单选题]pynlpir是一种常用的自然语言理解工具包，其中进行分词处理的函数是（）。

A)open（）
B)segment（）
C)AddUserWord（）
D)generate（
109.[单选题]由于不同类别的关键词对排序的贡献不同，检索算法一般把查询关键词分为几类，以下哪一类不属于此关键词类型的是（）。

A)引用词
B)普通关键词
C)高频词汇
D)扩展关键
110.[单选题]如果x＝5.5，则表达式x＞0 and x==int(x)的运算结果为；表达式x＞0 or
x==int(x)的运算结果为（）。

A)TrueFalse
B)FalseTrue
C)TrueTrue
D)FalseFalse
111.[单选题]从复杂度及价值高低两个维度，可以将数据分析分为（）。

A)描述性分析、诊断性分析、预测性分析、探索性分析
B)探索性分析、诊断性分析、预测性分析、规范性分析
C)探索性分析、描述性分析、预测性分析、规范性分析
D)描述性分析、诊断性分析、预测性分析、规范性分析
112.[单选题]通常，（）主要指的是关系数据库中存储、计算和管理的数据。

A)结构化数据
C)半结构化数据
D)非结构化数据
113.[单选题]在GraphBase上，创建一个新的图，必须使用的参数是?
A)edge
B)graphName
C)label
D)verte
114.[单选题]使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（）
A)探索性数据分析
B)建模描述
C)预测建模
D)寻找模式和规则
115.[单选题]关于L1、L2正则化下列说法正确的是（）
A)L2 正则化能防止过拟合，提升模型的泛化能力，但 L1 做不到这点
B)L2 正则化技术又称为 Lasso Regularization
C)L1 正则化得到的解更加稀疏
D)L2 正则化得到的解更加稀疏
116.[单选题]Hadoop-2.6.5 集群中的 HDFS 的默认的数据块的大小是（）
A)32M
B)64M
C)128M
D)256M
117.[单选题]已知一组数据的协方差矩阵P,下面关于主分量说法错误的是（）。

A)主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小
B)在经主分量分解后,协方差矩阵成为对角矩阵
C)主分量分析就是K-L变换
D)主分量是通过求协方差矩阵的特征值得到
118.[单选题]a=np.array([1,0,0,3,4,5,0,8]),b=np.nonzero(a)
B[0]的值为（）。

A)[0,3,4,5,7]
B)[1,3,4,5,8]
C)[03457]
D)[13458]
119.[单选题]以下代码的输出结果为（）。

Arr=np.array([1，5，3])
Arr1=np.array([2，4，6])
Print(arr<arr1)
A)TRUE
B)FALSE
C)[Ture，False，Ture]
D)([Ture，Ture，Ture])
120.[单选题]图像与灰度直方图的对应关系为（）。

A)一一对应
B)一对多
C)多对一
D)以上答案都正
121.[单选题]执行以下代码段
Motorcycles = ['honda','yamaha','suzuki']
Motorcycles.append('ducati')
Motorcycles.pop(1)
Print(motorcycles)
时,输出为（）。

A)['honda','yamaha','suzuki']
B)['yamaha','suzuki','ducati']
C)['honda','yamaha','suzuki','ducati']
D)['honda','suzuki','ducati']
122.[单选题]大数据环境下的隐私担忧,主要表现为（）
A)人信息的被识别与暴露
B)户画像的生成
C)意广告的推送
D)毒入侵
123.[单选题]MapReduce的Shuffle过程中哪个操作是最后做的（）
A)溢写
B)分区
C)排序
D)合并
124.[单选题]（）是Scikit-Learn中的支持向量机模块。

A)MinBatchKMeans
B)SVC
C)LinearRegression
D)Regression
125.[单选题]如果字符串中有*需要匹配，需要输入的正则表达式为（）。

A)\*
B)\\*
C)*
D)(*)
126.[单选题]常用的灰度内插值法有（）。

A)最近邻内插法
B)三次内插法
C)双线性内插值法
D)三次样条插值
127.[单选题]Hadoop环境下MapReduce中，（）实现中间结果中的重复key做合并
A)OutputKeyClass
B)OutputValueClass
C)CombinerClass
D)ReducerClass
128.[单选题]（）算法要求基学习器能对特定的数据分布进行学习，在训练过程的每一轮中，根据样本分布为每个训练样本重新赋予一个权重。

A)Boosting
B)支持向量机
C)贝叶斯分类器
D)神经网
129.[单选题]协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度（）,并将这些用户喜欢的项推荐给有相似兴趣的用户。

A)相似
B)相同
C)推荐
D)预
130.[单选题]@app.route的作用为（）。

A)程序代码的规范，没什么作用
B)类似装饰器，返回本地网络测试地址
C)返回127005000
D)以上答案都不正确
131.[单选题]以下哪些算法,可以用神经网络去构造(__)。

1）KNN 2）线性回归 3）对数几率回归
A)1和 2
B)2 和 3
C)1, 2 和 3
D)以上答案都不正
132.[单选题]下列语句中，哪个在 Python 中是非法的?
A)x=y=z=1
B)x=(y=z+1)
C)x,y=y,x
D)x+=y
133.[单选题]在一些算法中，为了进行属性之间的比较或运算，需要把不同属性的不同变量取值范围变换成同一范围，以免使得结果发生扭曲，偏向取值范围大的变量。

这一过程称为（）。

A)合并
B)数据聚合
C)归一化
D)数据处理
134.[单选题]Spark中引入RDD概念的目的是（）。

A)数据存储
B)数据查重
C)提升容错能力
D)增强数据一致
135.[单选题]关于 HDFS 安全模式说法正确的是（）
A)在安全模式下只能写不能读
B)在安全模式下只能读不能写
C)在安全模式下读写都不允许
D)在安全模式下读写都可
136.[单选题]以下哪些算法是基于规则的分类器（）。

A)C4.5
B)KNN
C)Naive Bayes
D)AN
137.[单选题]使用pip工具查看当前已安装的Python扩展库的完整命令是（）。

A)pip update
B)pip list
C)pip install
138.[单选题]关于数据产品，以下说法错误的是（）。

A)数据产品的存在形式是数据集
B)与传统物质产品不同的是，数据产品的消费者不仅限于人类用户.还可以是计算机以及其他软硬件系统
C)数据产品不仅包括数据科学项目的最终产品，也包括其中间产品以及副产品
D)数据产品开发涉及数据科学项目流程的全部活动
139.[单选题]AGNES是一种采用（）策略的层次聚类算法。

A)自顶向下
B)自底向上
C)自左至右
D)自右至
140.[多选题]Hadoop生态系统中，核心是（）。

A)Flume
B)MapReduce
C)Pig
D)HS
141.[多选题]哪些是离线批处理的特点?
A)处理数据量巨大，PB级
B)处理时间要求高
C)容易产生资源抢占
D)多个作业调度复
142.[多选题]特征工程一般需要做哪些工作（）。

A)正则化
B)标准化
C)特征处理
D)特征选择
143.[多选题]以下哪些方法是tf-idf的变种（）。

A)TFC
B)EWC
C)ITC
D)I
144.[多选题]下列关于探索型数据分析常用图表的说法，正确的有：
A)绝大部分情况下使用饼图代替条形图能更加直观地展示数据之间的特征和对比
B)探索型数据分析常用的图表包括条形图、直方图、饼图、折线图、散点图、箱型图等。