人工智能机器学习技术练习(试卷编号221)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人工智能机器学习技术练习(试卷编号221)
1.[单选题]分类的类别标签列是()
A)类别数值
B)类别的不同
C)具有次序、大小的意义
答案:B
解析:
2.[单选题]主成分分析用于()
A)特征降维
B)特征膨胀
C)特征子集计算
答案:A
解析:
3.[单选题]分类模型在进行训练时需要()
A)训练集
B)训练集与测试集
C)训练集、验证集、测试集
答案:C
解析:
4.[单选题]如果我们说“线性回归”模型完美地拟合了训练样本(训练样本误差为零),则下面哪个说法是正确的?
A)测试样本误差始终为零
B)测试样本误差不可能为零
C)以上答案都不对
答案:C
解析:根据训练样本误差为零,无法推断测试样本误差是否为零。
值得一提是,如果测试样本样本很大,则很可能发生过拟合,模型不具备很好的泛化能力!
5.[单选题]Task 运行在下来哪里个选项中 Executor 上的工作单元 ()。
A)Driver program
B)spark master
C)worker node
D)Cluster manager
答案:C
解析:
A)基因数据
B)影评数据
C)股票市场价格
D)以上所有
答案:D
解析:本题考查的是隐马尔可夫模型适用于解决哪类问题。
隐马尔可夫模型(Hidden Markov Model,HMM)是关于时序的概率模型,描述一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观察而产生观测随机序列的过程。
因此,隐马尔可夫模型适用于解决时间序列问题。
7.[单选题]以下对大数据“涌现”描述不正确的是( )。
A)安全涌现是大数据涌现现象
B)小数据可能没价值,但是小数据组成的大数据却很有价值,这叫做价值涌现
C)小数据可能质量没问题,但是大数据质量会出现问题这叫质量涌现
D)小数据可能不涉及隐私,但是大数据可能严重威胁个人隐私,这叫隐私涌现
答案:C
解析:
8.[单选题]使用什么函数接收用输入的数据()。
A)accept()
B)input()
C)readline()
D)login()
答案:B
解析:
9.[单选题](__)的学习目的是生成一颗泛化能力强,即处理未见示例能力强的决策树。
A)线性回归
B)贝叶斯分类器
C)神经网络
D)决策树
答案:D
解析:
10.[单选题]()算法是通过智能体不断与环境进行交互,通过试错的方式来获得最佳策略
A)有监督学习
B)半监督学习
C)无监督学习
D)强化学习
答案:D
11.[单选题]TF-IDF模型中IDF是指(__)。
A)词频数
B)逆文档频率
C)词频率
D)逆文档频数
答案:B
解析:
12.[单选题]K-Means(聚类)算法基于距离来度量实例间的相似程度(与kNN算法一样),然后把较为相似的实例划分到同一簇。
下列说法中,不正确的是:
A)聚类属于有监督式学习
B)聚类属于无监督式学习
C)K-Means算法基于距离来度量实例间的相似程度,通过对无标记样本的学习来揭示蕴含于数据中的性质及规律
D)聚类算法的任务是根据数据特征将数据集相似的数据划分到同一簇
答案:A
解析:
13.[单选题]关于异常值的说法,下列选项中描述错误的是()。
A)异常值是指样本中明显偏离其余观测值的个别值
B)可以使用3σ原则检测异常值
C)可以使用Pandas中的箱线图检测异常值
D)异常值可以使用其它的值来替换
答案:A
解析:异常数据并不一定是数据错误,所以会根据实际情况下选择删除或保留。
14.[单选题]假定你现在训练了一个线性 SVM并推断出这个模型出现了欠拟合现象,在下一次训练时,应该采取的措施是()。
A)增加数据点
B)减少数据点
C)增加特征
D)减少特征
答案:C
解析:欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。
可通过增加特征解决。
15.[单选题](__)是神经网络的基本单位。
A)神经系统
B)神经网络
C)神经元
16.[单选题]如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?
A)200
B)40000
C)400
D)1200
答案:D
解析:
17.[单选题]以下哪些选项为真?
A)线性回归误差值必须正态分布,但是在Logistic回归的情况下,情况并非如此
B)逻辑回归误差值必须正态分布,但是在线性回归的情况下,情况并非如此
C)线性回归和逻辑回归误差值都必须正态分布
D)线性回归和逻辑回归误差值都不能正态分布
答案:A
解析:
18.[单选题]有如下数据集,则频繁3-项集为:
class="fr-fic fr-dib cursor-hover"
A){O,K,E}
B){M,U,E}
C){N,K,O}
D){Y,U,E}
答案:A
解析:
19.[单选题]下面哪个操作是窄依赖 ()。
A)join
20.[单选题]高斯核也称为(__)。
A)多项式核
B)拉普拉斯核
C)RBF核
D)Sigmoid核
答案:C
解析:
21.[单选题]对OpenCV中绘制线段的line()方法中描述不正确的是()。
A)line()方法中的img参数表示画布
B)line()方法中的pt1参数表示线段的起点坐标
C)line()方法中的pt2参数表示线段的终点坐标
D)line()方法中的color参数表示画布的颜色
答案:D
解析:
22.[单选题]随机森林相比Bagging,进一步在决策树的训练过程中引入了()选择
A)随机属性
B)重点属性
C)最优属性
D)集成属性
答案:A
解析:
23.[单选题]以下哪个不是常见的属性类型? ( )
A)标称属性
B)数值属性
C)高维属性
D)序数属性
答案:C
解析:
24.[单选题]在留出法、交叉验证法和自助法三种评估方法中,()更适用于数据集较小、难以划分训练集和测试集的情况。
A)留出法
B)交叉验证法
C)自助法
25.[单选题]有如下两组数据 {(-1,0),(-1,2),(1,2)}
{(0,0),(1,0),(1,1)}
我们在该数据集上训练一个线性SVM模型,该模型中的支持向量是哪些?
A)(1,2),(1,1),(1,0)
B)(1,0),(1,2),(1,1),(1,0)
C)(1,0),(1,2),(0,0),(1,1)
D)(1,0),(-1,2),(0,0),(1,0)
答案:C
解析:
26.[单选题]有如下数据集,分别使用1-最近邻,3-最近邻,对数据点x=5.0分类,则:
class="fr-fic fr-dib cursor-hover"
A)最近邻:+ ;3-最近邻:-
B)最近邻:+ ;3-最近邻:+
C)最近邻:- ;3-最近邻:-
D)最近邻:- ;3-最近邻:+
答案:A
解析:
27.[单选题]关于OLAP和OLTP的区别描述,不正确的是:
A)OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.
B)与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.
C)OLAP的特点在于事务量大,但事务内容比较简单且重复率高.
D)OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.
答案:D
解析:
28.[单选题]假如我们使用Lasso回归来拟合数据集,该数据集输入特征有100个(X1,X2,…,X100)。
现在,我们把其中一个特征值扩大10倍(如特征X1),然后用相同的正则化参数对 Lasso 回归进行修正。
那么,下列说法正确的是()。
A)特征X1很可能被排除在模型之外
B)特征X1很可能还包含在模型之中
解析:将特征X1数值扩大10倍,它对应的回归系数将相应会减小,但不为0,仍然满足β的正则化约束,因此可能还包含在模型之中。
29.[单选题]层次聚类试图在不同层次上对数据集进行划分,从而形成(__)形结构。
A)图
B)环
C)网
D)树
答案:D
解析:
30.[单选题]自然语言处理包括语言识别、语音合成和()
A)语言翻译
B)语言理解
C)语言交流
D)语言训练
答案:B
解析:
31.[单选题]下列哪项关于模型能力(model capacity)的描述是正确的?(指神经网络模型能拟合复杂函数的能力)
A)隐藏层层数增加,模型能力一定增加
B)Dropout的比例增加,模型能力增加
C)学习率增加,模型能力增加
D)都不正确
答案:D
解析:
32.[单选题]Fisher 线性判别函数的求解过程是将N维特征矢量投影在( )中进行求解?
A)一维空间
B)N-1维空间
C)三维空间
D)二维空间
答案:A
解析:
33.[单选题]3.以下哪些是无序属性()
A){1,2,3}
B){飞机,火车、轮船}
解析:
34.[单选题]对于在原空间中线性不可分问题,支持向量机()。
A)无法处理
B)将数据映射到核空间中
C)在原空间中寻找非线性函数的划分数据
D)在原空间中寻找线性函数划分数据
答案:B
解析:
35.[单选题]sparks 中默认的存储级别 ( )。
A)MEMO RY_ONLY
B)MEMO RY_ONLY_SER
C)MEMO RY_AND_DISK
D)MEMO RY_AND_DIS K_SER
答案:A
解析:
36.[单选题]假定你使用了一个很大γ值的RBF核,这意味着:
A)模型将考虑使用远离超平面的点建模
B)模型仅使用接近超平面的点来建模
C)模型不会被点到超平面的距离所影响
D)以上都不正确
答案:B
解析:SVM调参中的γ衡量距离超平面远近的点的影响。
对于较小的γ,模型受到严格约束,会考虑训练集中的所有点,而没有真正获取到数据的模式、对于较大的γ,模型能很好地学习到模型。
37.[单选题]如果某系统12*5=61成立,则系统采用的是()进制
A)7
B)8
C)9
D)10
答案:C
解析:
38.[单选题]已知表test(name)的记录如下,
Tom
Tom_green
代码select * from test where name rlike 'tom.*'的结果有几条记录
A)1
B)2
C)3
D)0
答案:C
解析:
39.[单选题]假设我们使用原始的非线性可分版本的 Soft-SVM 优化目标函数。
我们需要做什么来保证得到的模型是线性可分离的?
A)C = 0
B)C = 1
C)C 正无穷大
D)C 负无穷大
答案:C
解析:
40.[单选题]Relief是为()问题设计的。
A)二分类
B)多分类
C)回归
D)降维
答案:A
解析:
41.[单选题]一个分布式应用程序协调服务,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等的工具有 ( )
A)Flume
B)Zookeeper
C)Storm
D)Sparkstreaming
答案:B
解析:
42.[单选题]定义域为{飞机,火车,轮船}的离散属性也可称为称为(__)。
A)无序属性
B)有序属性
C)连续属性
D)离散属性
答案:A
43.[单选题]从给定的句子、段落中识别人名、组织名的过程称为?
A)词干提取(Stemming)
B)词形还原(Lemmatization)
C)停用词消除(Stop Word Removal)
D)命名实体识别(Named Entity Recognition)
答案:D
解析:
44.[单选题]在一个神经网络中,确定每个神经元的权重和偏差很重要。
用()方法可以确定神经元的权重和偏差,从而对函数进行拟合。
A)随机赋值,祈祷它们是正确的
B)搜索所有权重和偏差的组合,直到得到最佳值
C)赋予一个初始值,通过检杳与真值的误差,逐步迭代更新权重
D)以上都不正确
答案:C
解析:
45.[单选题]使用什么关键字来创建Python自定义函数()。
A)function
B)func
C)procedure
D)def
答案:D
解析:
46.[单选题]下面关于贝叶斯学习相关描述正确的有(__)。
A)贝叶斯学习等价于频数概率
B)频数概率引入先验知识和逻辑推理来处理不确定问题
C)贝叶斯学习只从数据本身获得结论
D)贝叶斯学习是一种以贝叶斯法则为基础的,并通过概率手段进行学习的方法
答案:D
解析:
47.[单选题]下列代码片段>>>from sklearn.model_selection import train_test_split
>>>X_train,X_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.4,r andom_state=0) 实现的功能是:
A)加载数据
B)分割数据
C)分组数据
D)删除部分数据
48.[单选题]从加工程度看,数据产品可以包含的选项有(__);1.内容,2. 情感,3. 服务,4. 应用,5. 决策,6. 智慧。
A)1234
B)1356
C)1345
D)3456
答案:B
解析:
49.[单选题]如果问题存在最优解,则下面几种搜索算法中,( )必然可以得到该最优解
A)广度优先搜索
B)深度优先搜索
C)有界深度优先搜索
D)启发式搜索
答案:A
解析:
50.[单选题]下列关于数据预处理的说法中,描述不正确的是( )。
A)数据清洗的目的是为了提高数据质量
B)异常值不一定要删除
C)通过drop_duplicates()方法可以删除重复数据
D)concat()函数可以根据一个或多个键将不同的DataFrame进行合并
答案:D
解析:concat()函数可以沿着一条轴将多个对象进行堆叠。
51.[单选题]聚类算法的性能度量可称为(__)。
A)密度估计
B)异常检测
C)有效性指标
D)分布结构
答案:C
解析:
52.[单选题]专家系统的发展趋势不包括()。
A)知识库变大
B)推理引擎更加专用
C)用户接口更多样
D)用户需求量减少
答案:D
53.[单选题]下面关于使用hive的描述中不正确的是?
A)hive中的join查询只支持等值链接,不支持非等值连接
B)hive的表一共有两种类型,内部表和外部表
C)hive默认仓库路径为/user/hive/warehouse/
D)hive支持数据删除和修改
答案:B
解析:
54.[单选题]二值图象中分支点的连接数为:
A)0
B)1
C)2
D)3
答案:D
解析:
55.[单选题]词袋模型是在自然语言处理和信息检索中的一种简单假设。
在这种模型中,文本(段落或者文档)被看作是( )的词汇集合,忽略语法甚至是单词的顺序。
A)无序
B)有序
C)无意义
D)规范
答案:A
解析:
56.[单选题]增加以下哪些超参数可能导致随机森林模型过拟合数据
(1). 决策树的数量;(2). 决策树的深度; (3). 学习率。
A)(1)
B)(2)
C)(3)
D)(2)、(3)
答案:B
解析:
57.[单选题]选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引人( )。
A)线性回归
B)线性判别分析
C)正则化项
D)偏置项
答案:C
58.[单选题]下图显示了三个逻辑回归模型的AUC-ROC曲线。
不同的颜色表示不同超参数值的曲线。
以下哪个AUC-ROC会给出最佳果?
style="width: 295px;" class="fr-fic fr-fil fr-dib cursor-hover">
A)黄色
B)粉红色
C)黑色
D)都相同
答案:A
解析:
59.[单选题]以下关于Sigmoid的特点说法错误的是 ( )。
A)Sigmoid函数计算量小
B)趋向无穷的地方,函数变化很小,容易出现梯度消失的现象
C)可以将函数值的范围压缩到[0,1]
D)函数处处连续
答案:A
解析:
A)正样本预测结果数 / 正样本实际数
B)被预测为负的正样本结果数 / 正样本实际数
C)被预测为正的负样本结果数 /负样本实际数
D)负样本预测结果数 / 负样本实际数
答案:A
解析:
61.[单选题]CNN常见的Loss函数不包括以下哪个()
A)softmax_loss
B)sigmoid_loss
C)Contrastive_Loss
D)siamese_loss
答案:D
解析:
62.[单选题]以下关于决策树的说法错误的是( )。
A)冗余属性不会对决策树的精确率造成不利的影响
B)子树可能在决策树中重复多次
C)决策树对于噪声的干扰非常敏感
D)寻找最佳决策树是 NP 完全问题
答案:C
解析:
63.[单选题]N-gram是一种简单有效的统计语言模型,通常n采用1-3之间的值,它们分别称为unigram、bigram和trigram。
现有给定训练语料合计三个文档如下:
D1: John read Moby Dick
D2: Mary read a different book,
D3: She read a book by Cher
利用bigram求出句子“John read a book”的概率大约是( )
A)1
B)0.06
C)0.09
D)0.0008
答案:B
解析:
64.[单选题]以下不属于影响聚类算法结果的主要因素有( )
A)已知类别的样本质量
B)分类准则
C)特征选取
65.[单选题]关于数据清洗,不正确的说法是()
A)单数据源,主键取值不能重复
B)多数据源会存在数据重复,单位不一致的问题
C)连续型数据不存在冗余问题
D)缺失值可以采用删除和填补等方法处理
答案:C
解析:
66.[单选题]OpenCV提供图像文件读写的模块是()。
A)core
B)imgcodecs
C)imgproc
D)highgui
答案:B
解析:
67.[单选题]在方差分析中,()反映的是样本数据与其组平均值的差异。
A)总离差
B)组间误差
C)抽样误差
D)组内误差
答案:D
解析:组内误差是来自样本内部数据之间的随机误差,它反映了样本数据自身的差异程度;组间误差由因子的不同处理造成的处理误差和抽样的随机误差组成,反映了不同样本之间数据的差异程度。
68.[单选题]下面不属于数据归约方法有(__)。
A)维归约
B)度归约
C)值归约
D)数据压缩
答案:B
解析:
69.[单选题]下列关于聚类挖掘技术的说法中,错误的是()。
A)不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
B)要求同类数据的内容相似度尽可能小
C)要求不同类数据的内容相似度尽可能小
D)与分类挖掘技术相似的是,都是要对数据进行分类处理
70.[单选题]关于特征选择,下列对 Ridge 回归和 Lasso 回归说法正确的是?
A)Ridge 回归适用于特征选择
B)Lasso 回归适用于特征选择
C)两个都适用于特征选择
D)以上说法都不对
答案:B
解析:上一题我们已经介绍过,Lasso 回归会让一部分回归系数刚好可以被约束为 0,起到特征选择的效果。
Ridge 回归又称岭回归,它是普通线性回归加上 L2 正则项,用来防止训练过程中出现的过拟合。
L2 正则化效果类似上一题左图,限定区域是圆,这样,得到的回归系数为 0 的概率很小,很大概率是非零的。
因此,比较来说,Lasso 回归更容易得到稀疏的回归系数,有利于舍弃冗余或无用特征,适用于特征选择。
71.[单选题](__)是一门以可视化交互为基础,综合运用图形学、数据挖掘和人机交互等多个领域的知识,以实现人机协同完成可视化任务为主要目的的分析推理性学科。
A)信息可视化
B)科学可视化
C)可视分析学
D)数据可视化
答案:C
解析:
72.[单选题]tensorflow中的tf.nn.max_pool()的函数,其作用是( )。
A)图像输入
B)进行卷积
C)进行池化
D)图像输出
答案:C
解析:
73.[单选题]将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?
A)频繁模式挖掘
B)分类和预测
C)数据预处理
D)数据流挖掘
答案:C
解析:
74.[单选题]假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序
B)22.6
C)26.8
D)27.9
答案:A
解析:
75.[单选题]机器学习研究如何通过计算的手段,利用经验来改善系统自身的性能,请问机器学习利用数据训练出什么()
A)模型
B)表结构
C)结果
D)报表
答案:A
解析:
76.[单选题]逻辑回归的以下模型:P(y = 1 | x,w)= g(w0 + w1x)其中g(z)是逻辑函数。
在上述等式中,通过改变参数w可以得到的P(y = 1 | x; w)被视为x的函数。
A)(0,inf)
B)(-inf,0)
C)(0,1)
D)(-inf,inf)
答案:C
解析:对于从-∞到+∞的实数范围内的x的值。
逻辑函数将给出(0,1)的输出。
77.[单选题]SVM中的代价参数C表示什么?
A)交叉验证的次数
B)以上都不对
C)用到的核函数
D)在分类准确性和模型复杂度之间的权衡
答案:D
解析:
78.[单选题]设在工业检测中工件的图像受到零均值不相关噪声的影响。
如果工件采集装置每秒可采集25幅图,要采用图像平均方法将噪声的方差减少为单幅图像的 1/10,那么工件需保持多长时间固定在采集装置前?
A)1s
B)4s
C)10s
D)25s
79.[单选题]在线性回归问题中,我们用R方来衡量拟合的好坏。
在线性回归模型中增加特征值并再训练同一模型。
下列说法正确的是()。
A)如果R方上升,则该变量是显著的
B)如果R方下降,则该变量不显著
C)单单R方不能反映变量重要性,不能就此得出正确结论
D)以上答案都不正确
答案:C
解析:单单R方不能表示变量显著性,因为每次加入一个特征值,R方都会上升或维持不变。
但在调整R 方的情况下这也有误(如果特征值显著的话,调整R方会上升)。
80.[单选题]下列关于L1正则化与L2正则化的描述,错误的是()。
A)L1范数正则化有助于降低过拟合风险
B)L2范数正则化有助于降低过拟合风险
C)L1范数正则化比 L2范数正则化更有易于获得稀疏解
D)L2范数正则化比 L1 范数正则化更有易于获得稀疏解
答案:C
解析:参考周志华著《机器学习》252页。
81.[单选题]K-Means 算法无法聚以下哪种形状的样本?
A)圆形分布
B)螺旋分布
C)带状分布
D)凸多边形分布
答案:B
解析:K-Means 算法是基于距离测量的,无法聚非凸形状的样本。
82.[单选题]已知:(1)大脑是有很多个叫做神经元的东西构成,神经网络是对大脑的简单的数学表达。
(2)每一个神经元都有输入、处理函数和输出。
(3)神经元组合起来形成了网络,可以拟合任何函数。
(4)为了得到最佳的神经网络,我们用梯度下降方法不断更新模型。
给定上述关于神经网络的描述,什么情况下神经网络模型被称为深度学习模型?
A)加入更多层,使神经网络的深度增加
B)有维度更高的数据
C)当这是一个图形识别的问题时
D)以上都不正确
答案:A
解析:
83.[单选题]以等可能性为基础的概率是()。
A)古典概率
D)主观概率
答案:A
解析:古典概率是以这样的假设为基础的,即随机现象所能发生的事件是有限的、互不相容的,而且每个基本事件发生的可能性相等。
根据大量的、重复的统计试验结果计算随机事件中各种可能发生结果的概率,称为试验概率或频率概率。
主观概率,是指建立在过去的经验与判断的基础上,根据对未来事态发展的预测和历史统计资料的研究确定的概率,反映的只是一种主观可能性。
84.[单选题]下列选项不属于专家系统底层核心部分的是()
A)知识库
B)推理机
C)规则库
D)决策树
答案:D
解析:
85.[单选题]下方法中属于无监督学习算法的是( )
A)线性回归
B)支持向量机
C)决策树
D)K-Means聚类
答案:D
解析:
86.[单选题]__是在一个数据集上对多个算法进行比较。
A)t检验
B)交叉验证t检验
C)Friedman检验
D)McNemar检验
答案:C
解析:
87.[单选题]第一个成功应用的专家系统是()
A)ELIZA
B)Dendral
C)Xcon
D)Deppepblue
答案:B
解析:
88.[单选题]假设file是文本文件对象,下列选项中,哪个用于读取一行内容()。
C)file.readline()
D)file.readlines()
答案:C
解析:
89.[单选题]关于 K-Means 和 DBSCAN 的比较,以下说法不正确的是()。
A)K-Means 丢弃被它识别为噪声的对象,而 DBSCAN 一般聚类所有对象
B)K-Means 使用簇的基于原型的概念,而 DBSCAN 使用基于密度的概念
C)K-Means 很难处理非球形的簇和不同大小的簇,而 DBSCAN 可以处理不同形状和不同大小的簇
D)K-Means 可以发现不是明显分离的簇,即使簇有重叠它也可以发现,但是 DBSCAN会合并有重叠的簇答案:A
解析:
90.[单选题]()选择成为支持向量机的最大变数。
A)核函数
B)样本空间
C)模型
D)算法
答案:A
解析:在不知道特征映射的形式时,我们并不知道什么样的核函数是合适的,而核函数也仅是隐式地定义了这个特征空间。
于是,核函数选择成为支持向量机的最大变数。
91.[单选题]下列关于ZooKeeper集群原理的介绍,不正确的是()。
A)由多个ZooKeeperSEVER组成的集群环境
B)包含一个Leader和多个Follower
C)每个sever保存一个数据副本、全局数据一致
D)不采用分布式读写机制
答案:D
解析:
92.[单选题]数据科学家经常使用多个算法进行预测,并将多个机器学习算法的输出(称为“集成学习”)结合起来,以获得比所有个体模型都更好的更健壮的输出。
则下列说法正确的是?
A)基本模型之间相关性高
B)基本模型之间相关性低
C)集成方法中,使用加权平均代替投票方法
D)基本模型都来自于同一算法
答案:B
解析:本题考查的是集成学习的基本原理。
集成学习,顾名思义,通过将多个单个学习器集成/组合在一起,使它们共同完成学习任务。
举个例子来说明,假如你有 T 个朋友,每个朋友向你预测推荐明天某支股票会涨还是会跌,那么你
误最小的模型。
第二种方法,如果每个朋友在股票预测方面都是比较厉害的,都有各自的专长,那么就同时考虑 T 个朋友的建议,将所有结果做个投票,一人一票,最终决定出对该支股票的预测。
这种方法对应的是 uniformly 思想。
第三种方法,如果每个朋友水平不一,有的比较厉害,投票比重应该更大一些,有的比较差,投票比重应该更小一些。
那么,仍然对 T 个朋友进行投票,只是每个人的投票权重不同。
这种方法对应的是 non-uniformly 的思想。
第四种方法与第三种方法类似,但是权重不是固定的,根据不同的条件,给予不同的权重。
比如如果是传统行业的股票,那么给这方面比较厉害的朋友较高的投票权重,如果是服务行业,那么就给这方面比较厉害的朋友较高的投票权重。
以上所述的这四种方法都是将不同人不同意见融合起来的方式,这就是集成思想,即把多个基本模型结合起来,得到更好的预测效果。
通常来说,基本模型之间的相关性越低越好,因为每个模型有各自的特长,集成起来才更加强大。
93.[单选题]在深度学习中,涉及到大量矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m<n<p<q,以下计算顺序效率最高的是:()
A)A(BC)
B)(AB)C
C)(AC)B
D)所有效率都相同
答案:B
解析:
94.[单选题]下列属于线性分类方法的是( )
A)决策树
B)感知机
C)最近邻
D)集成学习
答案:B
解析:
95.[单选题]在支持向量机中,可利用(__)方法将原问题转化为其对偶问题。
A)拉格朗日乘子法
B)留出法
C)比较检验
D)划分选择
答案:A
解析:
96.[单选题]信息熵是度量()最常用的一种指标。
A)样本的个数
B)样本的维度
C)样本的纯度。