机器学习测试题_深圳光环大数据培训

合集下载

机器学习和深度学习技能树、面试宝典_光环大数据培训

机器学习和深度学习技能树、面试宝典_光环大数据培训人工智能的浪潮正在席卷全球，诸多词汇时刻萦绕在我们耳边：人工智能(Artificial Intelligence)、机器学习(Machine Learning)、深度学习(Deep Learning)。

为了帮助大家更好帮助大家学习这些新技术，小遍整理了相关的学习资料，希望这些资料对刚入门的同行有所帮助。

一、人工智能、机器学习和深度学习的区别？机器学习：一种实现人工智能的方法机器学习最基本的做法，是使用算法来解析数据、从中学习，然后对真实世界中的事件做出决策和预测。

与传统的为解决特定任务、硬编码的软件程序不同，机器学习是用大量的数据来“训练”，通过各种算法从数据中学习如何完成任务。

举个简单的例子，当我们浏览网上商城时，经常会出现商品推荐的信息。

这是商城根据你往期的购物记录和冗长的收藏清单，识别出这其中哪些是你真正感兴趣，并且愿意购买的产品。

这样的决策模型，可以帮助商城为客户提供建议并鼓励产品消费。

机器学习直接来源于早期的人工智能领域，传统的算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。

从学习方法上来分，机器学习算法可以分为监督学习(如分类问题)、无监督学习(如聚类问题)、半监督学习、集成学习、深度学习和强化学习。

传统的机器学习算法在指纹识别、基于Haar的人脸检测、基于HoG特征的物体检测等领域的应用基本达到了商业化的要求或者特定场景的商业化水平，但每前进一步都异常艰难，直到深度学习算法的出现。

深度学习：一种实现机器学习的技术深度学习本来并不是一种独立的学习方法，其本身也会用到有监督和无监督的学习方法来训练深度神经网络。

但由于近几年该领域发展迅猛，一些特有的学习手段相继被提出(如残差网络)，因此越来越多的人将其单独看作一种学习的方法。

最初的深度学习是利用深度神经网络来解决特征表达的一种学习过程。

深度神经网络本身并不是一个全新的概念，可大致理解为包含多个隐含层的神经网络结构。

机器学习模拟题与参考答案

机器学习模拟题与参考答案一、单选题（共114题，每题1分，共114分）1.机器学习这个术语是由( )定义的？A、Arthur SamuelB、Guido van RossumC、James GoslingD、以上都不是正确答案：A2.在一个线性回归问题中，我们使用 R 平方（R-Squared）来判断拟合度。

此时，如果增加一个特征，模型不变，则下面说法正确的是？A、如果 R-Squared 增加，则这个特征有意义B、如果R-Squared 减小，则这个特征没有意义C、仅看 R-Squared 单一变量，无法确定这个特征是否有意义。

D、以上说法都不对正确答案：C3.在SVM中, margin的含义是()A、损失误差B、间隔C、幅度D、差额正确答案：B4.下列哪种方法可以用来缓解过拟合的产生：( )。

A、正则化B、增加更多的特征C、以上都是D、增加模型的复杂度正确答案：A5.当数据分布不平衡时，我们可采取的措施不包括( )。

A、对数据分布较少的类别过采样B、对数据分布较多的类别欠采样C、对数据分布较少的类别赋予更大的权重D、对数据分布较多的类别赋予更大的权重正确答案：D6.同质集成中的个体学习器亦称（）A、异质学习器B、同质学习器C、基学习器D、组件学习器正确答案：C7.以下哪些是无序属性（）A、｛小，中，大｝B、闵可夫斯基距离C、｛飞机，火车、轮船｝D、｛1，2，3｝正确答案：C8.下列关于过拟合的说法错误的是A、过拟合是指模型在训练集上表现很好，但是在交叉验证集和测试集上表现一般B、解决过拟合可以采用Dropout方法C、解决过拟合可以采用参数正则化方法D、数据集扩增不能用来解决过拟合问题正确答案：D9.神经网络算法有时会出现过拟合的情况，那么采取以下哪些方法解决过拟合更为可行（）。

A、减少训练数据集中数据的数量B、增大学习的步长C、为参数选取多组初始值，分别训练，再选取一组作为最优值D、设置一个正则项减小模型的复杂度正确答案：D10.下列是机器学习中降维任务的准确描述的为A、依据某个准则对项目进行排序B、将其映射到低维空间来简化输入C、预测每个项目的实际值D、对数据对象进行分组正确答案：B11.对于在原空间中线性不可分问题，支持向量机（）。

数据科学家常问的40道面试题_深圳光环大数据人工智能培训

数据科学家常问的40道面试题_深圳光环大数据人工智能培训想去机器学习初创公司做数据科学家？这些问题值得你三思！机器学习和数据科学被看作是下一次工业革命的驱动器。

这也意味着有许许多多令人激动的初创公司正在起步成长、寻找专业人士和数据科学家。

它们可能是未来的特斯拉、谷歌。

对于有职业抱负的你来说，看好一家好的创业公司团队后，如何能够脱颖而出，进入一家靠谱的创业团队呢？想得到这样的工作并不容易。

首先你要强烈认同那个公司的理念、团队和愿景。

同时你可能会遇到一些很难的技术问题。

而这些问题则取决于公司的业务。

他们是咨询公司？他们是做机器学习产品的？在准备面试之前就要了解清楚这些方面的问题。

为了帮你为今后的面试做准备，我准备了40道面试时可能碰到的棘手问题。

如果你能回答和理解这些问题，那么放心吧，你能顽强抵抗住面试。

注意：要回答这些问题的关键是对机器学习和相关统计概念有具体的实际理解。

机器学习面试题问1：给你一个有1000列和1百万行的训练数据集。

这个数据集是基于分类问题的。

经理要求你来降低该数据集的维度以减少模型计算时间。

你的机器内存有限。

你会怎么做？（你可以自由做各种实际操作假设。

）答：你的面试官应该非常了解很难在有限的内存上处理高维的数据。

以下是你可以使用的处理方法：1.由于我们的RAM很小，首先要关闭机器上正在运行的其他程序，包括网页浏览器，以确保大部分内存可以使用。

2.我们可以随机采样数据集。

这意味着，我们可以创建一个较小的数据集，比如有1000个变量和30万行，然后做计算。

3.为了降低维度，我们可以把数值变量和分类变量分开，同时删掉相关联的变量。

对于数值变量，我们将使用相关性分析。

对于分类变量，我们可以用卡方检验。

4.另外，我们还可以使用PCA（主成分分析），并挑选可以解释在数据集中有最大偏差的成分。

5.利用在线学习算法，如VowpalWabbit（在Python中可用）是一个可能的选择。

6.利用Stochastic GradientDescent（随机梯度下降）法建立线性模型也很有帮助。

2022机器学习专项测试试题及答案

2022机器学习专项测试试题及答案1.机器学习的流程包括:分析案例、数据获取、________和模型验证这四个过程。

（）A.数据清洗A、数据清洗B.数据分析C.模型训练(正确答案)D.模型搭建2.机器翻译属于下列哪个领域的应用?（） *A.自然语言系统(正确答案)A. 自然语言系统(正确答案)B.机器学习C.专家系统D.人类感官模拟3.为了解决如何模拟人类的感性思维, 例如视觉理解、直觉思维、悟性等, 研究者找到一个重要的信息处理的机制是（）。

*A.专家系统B.人工神经网络(正确答案)C.模式识别D.智能代理4.要想让机器具有智能, 必须让机器具有知识。

因此, 在人工智能中有一个研究领域, 主要研究计算机如何自动获取知识和技能, 实现自我完善, 这门研究分支学科叫（）。

*A. 专家系统A．专家系统B. 机器学习(正确答案)C. 神经网络D. 模式识别5.如下属于机器学习应用的包括（）。

*A．自动计算, 通过编程计算 456*457*458*459 的值(正确答案)A. 自动计算，通过编程计算 456*457*458*459 的值(正确答案)A．自动计算，通过编程计算 456*457*458*459 的值(正确答案)B．文字识别, 如通过 OCR 快速获得的图像中出汉字, 保存为文本C．语音输入, 通过话筒将讲话内容转成文本D．麦克风阵列, 如利用灵云该技术实现远场语音交互的电视6.对于神经网络模型, 当样本足够多时, 少量输入样本中带有较大的误差甚至个别错误对模型的输入-输出映射关系影响很小, 这属于（）。

*A. 泛化能力A．泛化能力B. 容错能力(正确答案)C. 搜索能力D. 非线性映射能力7.下列选项不属于机器学习研究内容的是（） *A. 学习机理A．学习机理B. 自动控制(正确答案)C. 学习方法D. 计算机存储系统8.机器学习的经典定义是: （） *A.利用技术进步改善系统自身性能A. 利用技术进步改善系统自身性能B.利用技术进步改善人的能力C.利用经验改善系统自身的性能(正确答案)D.利用经验改善人的能力9.研究某超市销售记录数据后发现, 买啤酒的人很大概率也会购买尿布, 这种属于数据挖掘的那类问题（）。

机器学习算法应用中常用技巧_深圳光环大数据人工智能培训

机器学习算法应用中常用技巧_深圳光环大数据人工智能培训1. 取样数据量很大的时候，想要先选取少量数据来观察一下细节。

indices = [100,200,300]# 把sample原来的序号去掉重新分配samples = pd.DataFrame(data.loc[indices], columns = data.keys()).reset_index(drop = True)print "Chosen samples:"display(samples)2. Split数据用 sklearn.cross_validation.train_test_split 将数据分为 train 和test 集。

sklearnfrom sklearn import cross_validationX = new_datay = data['Milk']X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size = 0.25, random_state = 0)print len(X_train), len(X_test), len(y_train), len(y_test)分离出 Features & Label有时候原始数据并不指出谁是label，自己判断# Store the 'Survived' feature in a new variable and remove it fromthe datasetoutcomes = full_data['Survived']data = full_data.drop('Survived', axis=1)3. 用 train 来训练模型，用 test 来检验用 Decision Tree 来做个例子sklearnfrom sklearn import treeregressor = tree.DecisionTreeRegressor()regressor = regressor.fit(X_train, y_train)score = regressor.score(X_test, y_test)4. 判断 feature 间的关联程度pd.scatter_matrix(data, alpha = 0.3, figsize = (14, 8), diagonal = 'kde');5. scaling当数据不符合正态分布的时候，需要做 scaling 的处理。

机器学习基础_深圳光环大数据人工智能培训

机器学习基础_深圳光环大数据人工智能培训本次分享主要分为以下四个部分：1.ML技术都用在哪里？2.最常用的LR是什么鬼？3.ML工程师每天都在干什么？4.DL在企业里都怎么玩？一、ML技术都用在哪里？以一次搜索引擎检索为例，在搜索框中输入关键词“承德旅游”。

可以发现，在搜索结果中既有自然搜索的结果也有sponsored search的广告结果。

在这样一次检索的背后发生了什么呢？下图是一个检索的示意图。

最前端是WEB 服务的网关，比如Nginx，Tengine这样的服务器。

输入的查询词是“承德旅游”。

首先，它会进入高级检索模块，其中包含很多步骤，比如query分析、query变换、query规约、关键词扩展等。

找到了query召回信号之后，进入基础检索进行召回，比如广告主文案的召回。

下图最下部分是检索索引部分。

众所周知，在sponsored search中，广告的排序是和广告在展示后是否会被用户点击是直接相关的。

但决定广告在一个队列里时的先后顺序时，就需要用到机器学习。

这是一个典型的二分类，即点击或不点击。

点击率预估模块可以在下图的左侧找到。

类似的机器学习的例子还有很多。

比如，打开手机淘宝，在这一块区域中，每一个人看到的结果都不一样。

右边是手机淘宝的首页下方的猜你喜欢商品推荐模块。

这个模块会根据用户的长短期兴趣来推荐不同的商品。

像这样的商品推荐应用中就大量地使用了机器学习相关的技术。

类似的系统有很多，比如Netflix，它曾是美国的一个租碟公司，现在主营网络视频和电视直播等等。

下图是它的系统架构图。

其中既有搜索也有推荐，大量的使用了机器学习的相关技术。

下图是一个简要的淘宝推荐示意图。

可以从用户的行为日志中挖掘可能的商品和商品之间的关联，以及用户的喜好。

在做出一些推荐之后，会对推荐进行排序、过滤等。

这其中，商品展示后是否会被用户点击，用户点击后是否会购买，都是典型的二分类问题，都可以转化为机器学习问题来处理。

快速选择合适的机器学习算法_深圳光环大数据人工智能培训

快速选择合适的机器学习算法_深圳光环大数据人工智能培训机器学习算法速查表机器学习算法速查表帮助你从各种机器学习算法中选择，以找到适合你的具体问题的算法。

本文将引导你完成如何使用速查表的过程。

由于该速查表是专为初学者数据科学家和分析师设计的，所以在讨论算法时，我们将作出一些简化的假设。

这里推荐的算法是来自几个数据科学家和机器学习专家和开发人员的编译反馈和提示。

有几个问题，我们还没有达成协议，对于这些问题，我们试图突出共性及调和差异。

稍后将会添加其他算法，因为我们的库增长包含一套更完整的可用方法。

如何使用速查表将图表上的路径和算法标签读为“如果 <路径标签> 则使用<算法>”。

例如：如果要进行降维，则使用主成分分析法。

如果需要快速的数值预测，请使用决策树或逻辑回归。

如果需要分层结果，请使用层次聚类。

有时多个分支适用，其他时候他们都不是绝配。

重要的是要记住，这些路径旨在作为有经验的建议，因此有些建议并不准确。

我谈到的几位数据科学家说，找到最好算法的唯一方法就是尝试所有的算法。

机器学习算法的类型本节提供最受欢迎的机器学习类型的概述。

如果你熟悉这些类型，并希望继续讨论特定的算法，则可以跳过本节并转到下面的“何时使用特定算法”。

监督学习监督学习算法基于一组示例进行预测。

例如，可以使用历史销售来估计未来价格。

通过监督学习，你有一个输入变量，由标记的训练数据和期望的输出变量组成。

你使用算法分析训练数据，来得到将输入映射到输出的函数。

这个推断函数通过从训练数据推广来预测未知情况下的结果来映射新的未知示例。

分类：当数据用于预测分类变量时，监督学习也称为分类。

当分配标签或指示符时，狗或猫分配给图像就是这种情况。

当只有两个标签时，这被称为二进制分类。

当有两类以上时，这些问题被称为多类分类。

回归：当预测连续值时，问题变成一个回归问题。

预测：这是基于过去和现在的数据来预测未来的过程。

这是最常用的分析趋势。

机器学习：集成算法(Ensemble Method)_深圳光环大数据培训

机器学习：集成算法(Ensemble Method)_深圳光环大数据培训1. 集成算法：将多个分类器集成起来而形成的新的分类算法。

这类算法又称元算法(meta-algorithm)。

最常见的集成思想有两种bagging和boosting。

2. 集成思想：boosting：基于错误提升分类器性能，通过集中关注被已有分类器分类错误的样本，构建新分类器并集成。

bagging：基于数据随机重抽样的分类器构建方法。

3. 算法示例：随机森林（Random Forest: bagging ＋决策树）：将训练集按照横（随机抽样本）、列（随机抽特征）进行有放回的随机抽取，获得n个新的训练集，训练出n个决策树，通过这n个树投票决定分类结果。

主要的parameters 有n_estimators 和 max_features。

>>> from sklearn.ensemble import RandomForestClassifier>>> X = [[0, 0], [1, 1]]>>> Y = [0, 1]>>> clf = RandomForestClassifier(n_estimators=10)>>> clf = clf.fit(X, Y)>>> # 扩展：Extremely Randomized Trees 比随机森林还牛逼的分类算法，见(/stable/modules/ensemble.html)Adaboost (adaptive boosting: boosting + 单层决策树):训练数据中的每个样本，并赋予其一个权重，这些权重构成了向量D。

一开始，这些权重都初始化成相等值。

首先在训练数据上训练出一个弱分类器并计算该分类器的错误率，然后在统一数据集上再训练分类器。

在第二次训练中，会调高那些前一个分类器分类错误的样本的权重。

2018年常见Hadoop面试题及答案_光环大数据培训

2018年常见Hadoop面试题及答案_光环大数据培训hadoop的测试题及答案解析，题目种类挺多，一共有98道题，题目难度不大，对于高手来说，90分以上才是你的追求。

1 单选题1.1 下面哪个程序负责 HDFS 数据存储。

a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker答案 C datanode1.2 HDfS 中的 block 默认保存几份?a)3 份b)2 份c)1 份d)不确定答案 A 默认 3份1.3 下列哪个程序通常与 NameNode 在一个节点启动?a)SecondaryNameNodeb)DataNodec)TaskTracker答案 D，此题分析：hadoop 的集群是基于 master/slave 模式，namenode 和 jobtracker 属于master，datanode 和 tasktracker 属于 slave ， master 只有一个，而slave 有多个SecondaryNameNode 内存需求和 NameNode 在一个数量级上，所以通常 secondary ，NameNode(运行在单独的物理机器上)和 NameNode 运行在不同的机器上。

JobTracker 和 TaskTracker，JobTracker 对应于 NameNode，TaskTracker 对应于 DataNode，DataNode 和 NameNode 是针对数据存放来而言的，JobTracker 和 TaskTracker 是对于 MapReduce 执行而言的，mapreduce 中几个主要概念，mapreduce 整体上可以分为这么几条执行线索：obclient，JobTracker 与 TaskTracker。

JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs，并把路径提交到 Jobtracker,然后由 JobTracker 创建每一个Task(即 MapTask 和ReduceTask)并将它们分发到各个 TaskTracker 服务中去执行。

机器学习算法比较_深圳光环大数据培训

机器学习算法比较_深圳光环大数据培训机器学习算法太多了，分类、回归、聚类、推荐、图像识别领域等等，要想找到一个合适算法真的不容易，所以在实际应用中，我们一般都是采用启发式学习方式来实验。

通常最开始我们都会选择大家普遍认同的算法，诸如SVM，GBDT，Adaboost，现在深度学习很火热，神经网络也是一个不错的选择。

假如你在乎精度（accuracy）的话，最好的方法就是通过交叉验证（cross-validation）对各个算法一个个地进行测试，进行比较，然后调整参数确保每个算法达到最优解，最后选择最好的一个。

但是如果你只是在寻找一个“足够好”的算法来解决你的问题，或者这里有些技巧可以参考，下面来分析下各个算法的优缺点，基于算法的优缺点，更易于我们去选择它。

偏差&方差在统计学中，一个模型好坏，是根据偏差和方差来衡量的，所以我们先来普及一下偏差和方差：偏差：描述的是预测值（估计值）的期望E’与真实值Y之间的差距。

偏差越大，越偏离真实数据。

方差：描述的是预测值P的变化范围，离散程度，是预测值的方差，也就是离其期望值E的距离。

方差越大，数据的分布越分散。

模型的真实误差是两者之和，如下图：如果是小训练集，高偏差/低方差的分类器（例如，朴素贝叶斯NB）要比低偏差/高方差大分类的优势大（例如，KNN），因为后者会过拟合。

但是，随着你训练集的增长，模型对于原数据的预测能力就越好，偏差就会降低，此时低偏差/高方差分类器就会渐渐的表现其优势（因为它们有较低的渐近误差），此时高偏差分类器此时已经不足以提供准确的模型了。

当然，你也可以认为这是生成模型（NB）与判别模型（KNN）的一个区别。

为什么说朴素贝叶斯是高偏差低方差?以下内容引自知乎：首先，假设你知道训练集和测试集的关系。

简单来讲是我们要在训练集上学习一个模型，然后拿到测试集去用，效果好不好要根据测试集的错误率来衡量。

但很多时候，我们只能假设测试集和训练集的是符合同一个数据分布的，但却拿不到真正的测试数据。

机器学习面试题及答案_深圳光环大数据培训

机器学习面试题及答案_深圳光环大数据培训1.什么是机器学习机器学习是为了应对系统程序设计，属于计算机科学类的学科，它能根据经验进行自动学习和提高。

例如：一个由程序操纵的机器人，它能根据从传感器搜集到的数据，完成一系列的任务和工作。

它能根据数据自动地学习应用程序。

2.机器学习与数据挖掘的区别机器语言是指在没有明确的程序指令的情况下，给予计算机学习能力，使它能自主的学习、设计和扩展相关算法。

数据挖掘则是一种从非结构化数据里面提取知识或者未知的、人们感兴趣的图片。

在这个过程中应用了机器学习算法。

3.什么是机器学习的过度拟合现象在机器学习中，当一个统计模型首先描述随机误差或噪声，而不是自身的基本关系时，过度拟合就会出现。

当一个模型是过于复杂，过拟合通常容易被发现，因为相对于训练数据类型的数量，参数的数量过于五花八门。

那么这个模型由于过度拟合而效果不佳。

4.过度拟合产生的原因由于用于训练模型的标准并不等同于判断模型效率的标准，这导致了产生过度拟合的可能性。

5.如何避免过度拟合当你使用较小的数据集进行机器学习时，容易产生过度拟合，因此使用较大的数据量能避免过度拟合现象。

但是，当你不得不使用小型数据集进行建模时，可以使用被称为交叉验证的技术。

在这种方法中数据集被分成两节，测试和训练数据集，测试数据集只测试模型，而在训练数据集中，数据点被用来建模。

在该技术中，一个模型通常是被给定有先验知识的数据集（训练数据集）进行训练，没有先验知识的数据集进行测试。

交叉验证的思想是：在训练阶段，定义一个数据集用来测试模型。

6.什么是感应式的机器学习？感应机器学习涉及由实践进行学习的过程，能从一组可观测到的例子的尝试推导出普遍性规则。

7.什么是机器学习的五个流行的算法？决策树2. 神经网络（反向传播）3. 概率网络4.最邻近法5. 支持向量机8.机器学习有哪些不同的算法技术？在机器学习不同类型的算法技术是：监督学习2.非监督学习3. 半监督学习4. 转导推理（Transduction）5.学习推理（Learning to Learn）。

机器学习考试试题

机器学习考试试题一、选择题（每题 3 分，共 30 分）1、以下哪种情况不属于机器学习的应用场景？（）A 图像识别B 自然语言处理C 传统的数值计算D 预测股票价格2、在监督学习中，如果预测值与真实值之间的差异较大，通常使用以下哪种方法来衡量模型的性能？（）A 准确率B 召回率C 均方误差D F1 值3、下列哪种算法不是聚类算法？（）A KMeansB 决策树C 层次聚类D 密度聚类4、对于一个过拟合的模型，以下哪种方法可以缓解？（）A 增加训练数据量B 减少模型的复杂度C 增加正则化项D 以上都是5、以下关于特征工程的描述，错误的是？（）A 特征工程是将原始数据转换为更有意义和有用的特征的过程B 特征选择是特征工程的一部分C 特征工程对于机器学习模型的性能影响不大D 特征缩放可以提高模型的训练效率6、在深度学习中，以下哪个不是常见的激活函数？（）A Sigmoid 函数B ReLU 函数C Tanh 函数D Logistic 函数7、支持向量机（SVM）主要用于解决什么问题？（）A 回归问题B 分类问题C 聚类问题D 降维问题8、以下哪种优化算法常用于神经网络的训练？（）A 随机梯度下降（SGD）B 牛顿法C 共轭梯度法D 以上都是9、下面关于集成学习的说法，错误的是？（）A 随机森林是一种集成学习算法B 集成学习可以提高模型的稳定性和泛化能力C 集成学习中的个体学习器必须是同一种类型的模型D 集成学习通过组合多个弱学习器来构建一个强学习器10、对于一个二分类问题，若混淆矩阵如下：｜｜预测正例｜预测反例｜｜｜｜｜｜实际正例｜ 80 ｜ 20 ｜｜实际反例｜ 10 ｜ 90 ｜则该模型的准确率是多少？（）A 80%B 90%C 70%D 85%二、填空题（每题 3 分，共 30 分）1、机器学习中的有监督学习包括________、＿_______和________等任务。

2、常见的无监督学习算法有________、＿_______和________。

光环大数据云计算培训云计算面试题汇总

光环大数据云计算培训云计算面试题汇总云计算培训，云计算面试题汇总。

光环大数据了解到，云计算连接技术最重要的优势就是是令人难以置信的速度，敏捷性而且能够实现业务转型。

云计算会继续延续自己的辉煌，而绝对不仅仅是一个技术流行语，只是一个外行人对自动化连接的称谓而已。

云计算培训光环大数据通过总结参加云计算培训毕业后的学员的面试经验，给大家分享下云计算面试题：1)使用云计算有哪些优点?使用云计算有下列优点：a)备份数据和存储数据b)强大的服务器功能c)SaaS(软件即服务)d)信息技术沙盒功能e)提高生产力f)具有成本效益，并节省时间2)可否列举哪些平台用于大规模云计算?用于大规模云计算的平台包括：a)ApacheHadoopb)MapReduce3)可否解释用于云计算部署的不同模式?不同的云计算部署模式包括：a)私有云b)公共云c)社区云d)混合云云计算培训4)云计算与移动计算有何区别?移动计算使用与云计算同样的概念。

借助互联网而不是借助单个设备，云计算因数据而变得活跃。

它为用户提供了需要按需获取的数据。

在移动计算中，应用程序在远程服务器上运行，为用户提供了访问所存储数据的权限。

5)用户如何得益于公用计算(utilitycomputing)?公用计算让用户可以只需要为使用的资源付费。

它是由决定从云端部署哪种类型的服务的企业组织管理的一种插件。

大多数企业组织青睐混合策略。

6)由于数据在云端传输，你如何确保数据安全?数据从一个地方传输到另一地方的过程中想确保数据安全，就要确保针对你发送的数据所使用的加密密钥没有泄露。

7)云在安全方面的措施有哪些?a)身份管理：授权应用程序服务。

b)访问控制：将权限授予用户，那样用户可以控制进入到云环境的另一个用户的访问。

c)验证和授权：只允许用授权和验证的用户访问数据和应用程序。

8)可否列出定义云架构的不同层?云计算培训云架构使用的不同层包括：a)CLC即云控制器b)Walrusc)集群控制器d)SC即存储控制器e)NC即节点控制器大数据+云计算时代，云计算培训，就选光环大数据！为什么大家选择光环大数据！大数据培训、人工智能培训、培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训，就选光环大数据！光环大数据，聘请大数据领域具有多年经验的讲师，提高教学的整体质量与教学水准。

机器学习算法集锦_深圳光环大数据培训

机器学习算法集锦_深圳光环大数据培训机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

严格的定义：机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问。

这里所说的“机器”，指的就是计算机，电子计算机，中子计算机、光子计算机或神经计算机等等。

机器学习概论由上图所示：机器学习分为四大块： classification (分类)， clustering (聚类), regression (回归), dimensionality reduction (降维)。

classification & regression举一个简单的例子：给定一个样本特征 x, 我们希望预测其对应的属性值 y, 如果 y 是离散的, 那么这就是一个分类问题，反之，如果 y 是连续的实数, 这就是一个回归问题。

如果给定一组样本特征 S={x∈RD}, 我们没有对应的 y, 而是想发掘这组样本在 D 维空间的分布, 比如分析哪些样本靠的更近，哪些样本之间离得很远, 这就是属于聚类问题。

如果我们想用维数更低的子空间来表示原来高维的特征空间, 那么这就是降维问题。

无论是分类还是回归，都是想建立一个预测模型 H，给定一个输入 x, 可以得到一个输出 y:y=H(x)不同的只是在分类问题中, y 是离散的; 而在回归问题中 y 是连续的。

所以总得来说，两种问题的学习算法都很类似。

所以在这个图谱上，我们看到在分类问题中用到的学习算法，在回归问题中也能使用。

分类问题最常用的学习算法包括 SVM (支持向量机) , SGD (随机梯度下降算法), Bayes (贝叶斯估计), Ensemble, KNN 等。

而回归问题也能使用 SVR, SGD, Ensemble 等算法，以及其它线性回归算法。

大数据测试题

光环国际大数据测试题姓名_______ 成绩________一、单选题（每题2分，共15题）1、当前大数据技术的基础是由（）首先提出的A. 微软B. 百度C. 谷歌D. 阿里巴巴2、大数据的起源是（）A. 金融B. 电信C. 互联网D. 公共管理3、（）反映数据的精细化程度，越细化的数据，价值越高。

A. 规模B. 活性C. 关联度D. 颗粒度4、数据清洗的方法不包括（）A. 缺失值处理B. 噪声数据清除C. 一致性检查D. 重复数据记录处理5、当程序经过编译或者汇编以后，形成了一种由机器指令组成的集合，被称为（）A. 源程序B. 目标程序C. 可执行程序D. 非执行程序6、大数据的核心就是（）A. 告知与许可B. 预测C. 匿名化D. 规模化7、大数据不是要教机器像人一样思考。

相反，它是（）A.把数学算法运用到海量的数据上来预测事情发生的可能性。

B.被视为人工智能的一部分C.被视为一种机器学习D.预测与惩罚8、当前社会中，最为突出的大数据环境是（）A.互联网B.物联网C.综合国力D.自然资源9、以下哪些技术为大数据常用框架或技术（多选）（）。

A.HadoopB.SparkC.HbaseD.Linux10、云计算按照服务类型大致可分为以下类（多选）（）A.IaaSB.PaaSC.SaaSD.效用计算11、下列哪个语句在Python中是非法的？（）A.x=y=z=1B.x=(y=z+1)C.x,y=y,xD.x+=y12、关于数据的潜在价值，说法正确的是（多选）（）A. 数据的真实价值就像漂浮在海洋中的冰山，第一眼只能看到冰山一角，而绝大部分则隐藏在表面之下。

B. 判断数据的价值需要考虑到未来它可能被使用的各种方式，而非仅仅考虑其目前的用途。

C. 在基本用途完成后，数据的价值仍然存在，只是处于休眠状态D. 数据的价值是其所有可能用途的总和13、下列不是Java语言面向对象的特点（）A.封装B.继承C.跨平台D.多态14、大数据人才整体上需要具备（多选）（）等核心知识A.数学与统计知识B.计算机相关知识C.马克思主义哲学知识D.市场运营管理知识15、观察下图，其中问号选择（）16、在Python中，下列哪种说法是错误的 ( D )A、除字典类型外，所有标准对象均可以用于布尔测试B、空字符串的布尔值是FalseC、空列表对象的布尔值是FalseD、值为0的任何数字对象的布尔值是False17、ArrayList类的底层数据结构是( A )A、数组结构B、链表结构C、哈希表结构D、红黑树结构18、Java中覆盖与重载的关系是：（ A ）。

光环大数据 12道 Python面试题汇总分享

光环大数据 12道 Python面试题汇总分享1、Python是如何进行内存管理的？Python的内存管理主要有三种机制：引用计数机制、垃圾回收机制和内存池机制。

a.引用计数当给一个对象分配一个新名称或者将一个对象放入一个容器（列表、元组或字典）时，该对象的引用计数都会增加。

当使用del对对象显示销毁或者引用超出作用于或者被重新赋值时，该对象的引用计数就会减少。

可以使用sys.getrefcount()函数来获取对象的当前引用计数。

多数情况下，引用计数要比我们猜测的大的多。

对于不可变数据（数字和字符串），解释器会在程序的不同部分共享内存，以便节约内存。

b.垃圾回收当一个对象的引用计数归零时，它将被垃圾收集机制处理掉。

当两个对象a和b相互引用时，del语句可以减少a和b的引用计数，并销毁用于引用底层对象的名称。

然而由于每个对象都包含一个对其他对象的应用，因此引用计数不会归零，对象也不会销毁。

（从而导致内存泄露）。

为解决这一问题，解释器会定期执行一个循环检测器，搜索不可访问对象的循环并删除它们。

c.内存池机制Python提供了对内存的垃圾收集机制，但是它将不用的内存放到内存池而不是返回给操作系统。

1）Pymalloc机制。

为了加速Python的执行效率，Python引入了一个内存池机制，用于管理对小块内存的申请和释放。

2）Python中所有小于256个字节的对象都使用pymalloc实现的分配器，而大的对象则使用系统的malloc。

3）对于Python对象，如整数，浮点数和List，都有其独立的私有内存池，对象间不共享他们的内存池。

也就是说如果你分配又释放了大量的整数，用于缓存这些整数的内存就不能再分配给浮点数。

2、什么是lambda函数？它有什么好处？lambda表达式，通常是在需要一个函数，但是又不想费神去命名一个函数的场合下使用，也就是指匿名函数lambda函数：首要用途是指点短小的回调函数lambda[arguments]：expression>>>a=lambdax，y：x+y>>>a(3，11)3、Python里面如何实现tuple和list的转换？直接使用tuple和list函数就行了，type()可以判断对象的类型。

十道海量数据处理面试题_光环大数据推出AI智客计划送2000助学金

十道海量数据处理面试题_光环大数据推出AI智客计划送2000助学金1、海量日志数据，提取出某日访问百度次数最多的那个IP。

首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。

注意到IP是32位的，最多有个2^32个IP。

同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计，然后再找出频率最大的几个)及相应的频率。

然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。

或者如下阐述(雪域之鹰)：算法思想：分而治之+Hash1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理;2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)%1024值，把海量IP日志分别存储到1024个小文件中。

这样，每个小文件最多包含4MB个IP地址;3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址;4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP;2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。

假设目前有一千万个记录(这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。

一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。

)，请你统计最热门的10个查询串，要求使用的内存不能超过1G。

典型的Top K算法，还是在这篇文章里头有所阐述，详情请参见：十一、从头到尾彻底解析Hash表算法。

文中，给出的最终算法是：第一步、先对这批海量数据预处理，在O(N)的时间内用Hash表完成统计(之前写成了排序，特此订正。

July、2011.04.27);第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。

大数据机器学习

大数据机器学习一:单选题（每小题5分）1:概率图推断方法可以被分为__________ 类 A 2 B 3 C 4 D 5 A B C D 答案：A 2:EM 算法的引入是因为概率模型中包含__________ A观测变量B隐变量C随机变量D固定值 A B C D 答案：B3:模型复杂度越大，训练误差__________ ，测试误差__________ A增大减小B增大增大C 减小增大D 减小减小 A B C D 答案：C4:决策树具有________ 种特点 A 3 B 4 C 5 D 6 A B C D 答案：C5:随机森林引入了________种随机性 A 1 B 2 C 3 D 4 A B C D 答案：B6:_______年，在CMU召开的第一次ICML会议，标志机器学习的诞生。

A 1970 B 1979 C 1980 D1983 A B C D 答案：C7:条件随机场采用__________ 计算方法A递归B一次迭代C二次迭代D递进 A B C D 答案：A8:神经网络作为一个计算模型的理论是在__________ 年提出的 A 1941 B 1942 C 1943 D 1944 A B C D 答案：C9:机器学习的理论基础是__________ A统计论B概率论C计算学习理论D推断论 A B C D 答案：C10:支持向量机的学习策略是__________ A间隔最小化B间隔最大化C间隔平均化D间隔随机化 A B C D 答案：B 二:判断题（每小题5分）11:序列最小最优化算法在1998年由Platt提出。

A:对B:错答案：A12:二分类问题总误差与学习算法有关A:对B:错答案：B13:Adaboost算法的学习算法是前向分布算法的三分类学习算法A:对B:错答案：B14:计算图是反向传播算法梯度计算的重要工具A:对B:错答案：A15:EM算法的一次迭代可由极大算法实现A:对B:错答案：A三:多选题（每小题5分）16:精确推断法主要包括__________ A变量消去法B信念传播法C MCMC采样D变分推断法 A B C D 答案：AB17:神经网络的优化方法__________ A随机梯度下降法B动量算法Cnesterov动量法D定量梯度法 A B C D 答案：ABCD18:主成分分析的两种思路为__________ A最近重构性B最大重构性C最近可分性D最大可分性 A B C D 答案：AD19:半监督学习的正则化方法有__________ A 多任务学习B对抗训练C参数绑定和参数共享D 稀疏表示 A B C D 答案：ABCD20:机器学习是近20年兴起的多领域交叉学科，涉及__________等多门学科。

机器学习应用考试选择题40题附答案

1. 机器学习的主要目标是：A. 通过数据自动发现规律和模式B. 手动编写所有程序逻辑C. 优化硬件性能D. 提高网络速度答案：A2. 以下哪项不是机器学习的类型？A. 监督学习B. 无监督学习C. 半监督学习D. 全监督学习答案：D3. 监督学习的主要任务是：A. 分类和回归B. 聚类C. 关联规则学习D. 降维答案：A4. 无监督学习的主要任务是：A. 分类和回归B. 聚类C. 关联规则学习D. 降维答案：B5. 以下哪项是监督学习的典型应用？A. 图像识别B. 市场细分C. 异常检测D. 推荐系统答案：A6. 以下哪项是无监督学习的典型应用？A. 图像识别B. 市场细分C. 异常检测D. 推荐系统答案：B7. 以下哪项是半监督学习的典型应用？A. 图像识别B. 市场细分C. 异常检测D. 推荐系统答案：C8. 以下哪项是强化学习的典型应用？A. 图像识别B. 市场细分C. 异常检测D. 游戏AI答案：D9. 以下哪项是深度学习的典型应用？A. 图像识别B. 市场细分C. 异常检测D. 推荐系统答案：A10. 以下哪项是机器学习模型的评估指标？A. 准确率B. 召回率C. F1分数D. 以上都是答案：D11. 以下哪项是机器学习模型的过拟合现象？A. 模型在训练数据上表现良好，但在新数据上表现不佳B. 模型在训练数据上表现不佳，但在新数据上表现良好C. 模型在训练数据和新数据上表现都良好D. 模型在训练数据和新数据上表现都不佳答案：A12. 以下哪项是机器学习模型的欠拟合现象？A. 模型在训练数据上表现良好，但在新数据上表现不佳B. 模型在训练数据上表现不佳，但在新数据上表现良好C. 模型在训练数据和新数据上表现都良好D. 模型在训练数据和新数据上表现都不佳答案：D13. 以下哪项是机器学习模型的正则化方法？A. L1正则化B. L2正则化C. dropoutD. 以上都是答案：D14. 以下哪项是机器学习模型的特征选择方法？A. 过滤法B. 包装法C. 嵌入法D. 以上都是答案：D15. 以下哪项是机器学习模型的特征提取方法？A. PCAB. LDAC. t-SNED. 以上都是答案：D16. 以下哪项是机器学习模型的集成学习方法？A. 随机森林B. 梯度提升机C. 堆叠法D. 以上都是答案：D17. 以下哪项是机器学习模型的交叉验证方法？A. K折交叉验证B. 留一法交叉验证C. 随机划分交叉验证D. 以上都是答案：D18. 以下哪项是机器学习模型的超参数调优方法？A. 网格搜索B. 随机搜索C. 贝叶斯优化D. 以上都是答案：D19. 以下哪项是机器学习模型的数据预处理方法？A. 缺失值处理B. 异常值处理C. 数据标准化D. 以上都是答案：D20. 以下哪项是机器学习模型的特征工程方法？A. 特征选择B. 特征提取C. 特征构建D. 以上都是答案：D21. 以下哪项是机器学习模型的模型选择方法？A. 交叉验证B. 超参数调优C. 模型集成D. 以上都是答案：D22. 以下哪项是机器学习模型的模型解释方法？A. 特征重要性分析B. 局部解释方法C. 全局解释方法D. 以上都是答案：D23. 以下哪项是机器学习模型的模型部署方法？A. 模型打包B. 模型服务C. 模型监控D. 以上都是答案：D24. 以下哪项是机器学习模型的模型维护方法？A. 模型更新B. 模型回滚C. 模型备份D. 以上都是答案：D25. 以下哪项是机器学习模型的模型评估方法？A. 准确率B. 召回率C. F1分数D. 以上都是答案：D26. 以下哪项是机器学习模型的模型优化方法？A. 正则化B. 特征选择C. 超参数调优D. 以上都是答案：D27. 以下哪项是机器学习模型的模型解释方法？A. 特征重要性分析B. 局部解释方法C. 全局解释方法D. 以上都是答案：D28. 以下哪项是机器学习模型的模型部署方法？A. 模型打包B. 模型服务C. 模型监控D. 以上都是答案：D29. 以下哪项是机器学习模型的模型维护方法？A. 模型更新B. 模型回滚C. 模型备份D. 以上都是答案：D30. 以下哪项是机器学习模型的模型评估方法？A. 准确率B. 召回率C. F1分数D. 以上都是答案：D31. 以下哪项是机器学习模型的模型优化方法？A. 正则化B. 特征选择C. 超参数调优D. 以上都是答案：D32. 以下哪项是机器学习模型的模型解释方法？A. 特征重要性分析B. 局部解释方法C. 全局解释方法D. 以上都是答案：D33. 以下哪项是机器学习模型的模型部署方法？A. 模型打包B. 模型服务C. 模型监控D. 以上都是答案：D34. 以下哪项是机器学习模型的模型维护方法？A. 模型更新B. 模型回滚C. 模型备份D. 以上都是答案：D35. 以下哪项是机器学习模型的模型评估方法？A. 准确率B. 召回率C. F1分数D. 以上都是答案：D36. 以下哪项是机器学习模型的模型优化方法？A. 正则化B. 特征选择C. 超参数调优D. 以上都是答案：D37. 以下哪项是机器学习模型的模型解释方法？A. 特征重要性分析B. 局部解释方法C. 全局解释方法D. 以上都是答案：D38. 以下哪项是机器学习模型的模型部署方法？A. 模型打包B. 模型服务C. 模型监控D. 以上都是答案：D39. 以下哪项是机器学习模型的模型维护方法？A. 模型更新B. 模型回滚C. 模型备份D. 以上都是答案：D40. 以下哪项是机器学习模型的模型评估方法？A. 准确率B. 召回率C. F1分数D. 以上都是答案：D答案：1. A2. D3. A4. B5. A6. B7. C8. D9. A10. D11. A12. D13. D14. D15. D16. D17. D18. D19. D20. D21. D22. D23. D24. D25. D26. D27. D28. D29. D30. D31. D32. D33. D34. D35. D36. D37. D38. D39. D40. D。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

gamma 值（图 1,2,3 从左向右，gamma 值分别为 g1、g2、g3）？
g1 > g2 > g3 g1 = g2 = g3 g1 < g2 < g3 g1 >= g2 >= g3 g1 <= g2 <= g3
答案: C
随着 gamma 的增大，存在对于测试集分类效果差而对训练分类效果好的情况，并且容易泛化误差出现过拟合，因此 C 选项正确。
光环大数据
Hale Waihona Puke 光环大数据--大数据培训&人工智能培训
领域具有多年经验的讲师，提高教学的整体质量与教学水准。讲师团及时掌握时
在构建一个基于决策树模型时，使用信息增益 information gain 作为决策树节点属性选择的标准，以下图片中哪一个属性具信息增益最大：
A. Outlook B. Humidity C. Windy D. Temperature 答案：A 信息增益是划分前样本数据集的不纯程度(熵)和划分后数据集的不纯程度(熵)的差值，计算各信息增益即可。
逻辑回归与多元回归分析有哪些不同？逻辑回归预测某事件发生的概率 B. 逻辑回归有较高的拟合效果 C. 逻辑回归回归系数的评估
光环大数据
D. 以上全选
光环大数据--大数据培训&人工智能培训
答案：D
逻辑回归是用于分类问题，我们能计算出一个事件/样本的概率；一般
17.解决线性不可分情况下的支持向量分类机的最优化模型问题时，以下可以保证结果模型线性可分的是
C=1 C=0 C 无限制
D.以上均不正确
答案: C
训练一个支持向量机，除去不支持的向量后仍能分类真的假的答案: A 只有支持向量会影响边界下列哪种算法可以用神经网络构建?
光环大数据
D. 以上都正确
答案：D
较大的 K 意味着更小的偏差（因为训练 folds 的大小接近整个 dataset）和更多的运行时间（极限情况是：留一交叉验证）。当选取 K 值的时候，我们需要考虑到 k-folds 准确度的方差。
一个回归模型存在多重共线问题。在不损失过多信息的情况下，你该怎么做：
A. 移除共线的两个变量 B. 移除共线的两个变量其中一个 C. 我们可以计算方差膨胀因子（variance inflation factor)来检查存在的多重共线性并采取相应的措施 D. 移除相关变量可能会导致信息的丢失，为了保留这些变量，我们可以使用岭回归(ridge)或 lasso 等回归方法对模型进行惩罚答案：B C D 为了检查多重共线性，我们可以创建相关系数矩阵来辨别和移除相关系数大于 75%的变量(阈值根据情况设定),除此之外，我们可以使用 VIF 方法来检查当前存在的共线变量。VIF<=4 表明没有多种共线，VIF>=10 表明有着严重的多重共线性。当然，我们也可以使用公差(tolerance)作为评估指标。
下列可以用隐马尔可夫模型来分析的是？基因序列数据电影评论数据股价数据以上三种
答案: D
三种都是时间序列数据，可以应用隐马尔可夫模型
为什么大家选择光环大数据！大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训，就选光环大数据！光环大数据，聘请大数据
一个 SVM 存在欠拟合问题，下面怎么做能提高模型的性能: A. 增大惩罚参数 C B. 减小惩罚参数 C C. 减小核函数系数(gamma 值) 答案： A C >0 称为惩罚参数，是调和二者的系数，C 值大时对误差分类的惩罚增大，C 值小时对误差分类的惩罚减小。当 C 越大，趋近无穷的时候，表示不允许分类误差的存在，margin 越小，容易过拟合；当 C 趋于 0 时，表示我们不再关注分类是否正确，只要求 margin 越大，容易欠拟合
光环大数据

光环大数据--大数据培训&人工智能培训
在决策树中，用作分裂节点的 information gain 说法正确的是 A. 较小不纯度的节点需要更多的信息来区分总体 B. 信息增益可以使用熵得到 C. 信息增益更加倾向于选择有较多取值的属性答案 B C 使用信息增益作为决策树节点属性选择的标准，由于信息增益在类别值多的属性上计算结果大于类别值少的属性上计算结果，这将导致决策树算法偏向选择具有较多分枝的属性。
1.以下哪一种方法最适合在 n（n>1）维空间中做异常点检测。
A 正态分布图 B 盒图 C 马氏距离 D 散点图答案：C 马氏距离是是一种有效的计算两个未知样本集的相似度的多元计量方法，以卡方分布为基础，表示数据的协方差距离。与欧氏距离不同的是它考虑到各种特性之间的联系(例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是关联的)。因此马氏距离常用于多元异常值检测。
光环大数据

光环大数据--大数据培训&人工智能培训
但是,移除相关变量可能导致信息的丢失，为了保留这些变量，我们可
以使用带惩罚的回归方法。我们也可以在相关变量之间随机加入噪音，使得变量
之间存在差异。但增加噪音可能影响准确度，因此这种方法应该小心使用。
1 2 1 and 3 2 and 4
光环大数据
None of the above
光环大数据--大数据培训&人工智能培训
答案: C 实际为“正”实际为“反”预测为“正”TPFP 预测为“反”FNTN
召回率=TP/TP+FN
1 1 and 3 1 and 2 2
光环大数据
答案: A
光环大数据--大数据培训&人工智能培训
一般情况增加层数能让模型在训练集和测试集中都表现出更好的效果，但有研究表明层数多的神经网络相对于层数较少的神经网络可能呈现更大的训练误差，所以问题不能下定论，答案应该选择 A
光环大数据--大数据培训&人工智能培训
答案: C
如果决策树的其他参数固定不变，那么：增加树的深度使得所有节点将延伸直到所有叶节点都是纯的，因此会消耗更多时间；学习率在此问题中不是有效参数；决策树模型只建立一个树
下列有关神经网络的问题正确的有？
1..增加层数可能扩大测试误差 2. 减少层数一定缩小测试误差 3..增加层数一定减少训练误差
11.支持向量机模型，选择 RBF 函数作为 kernel 后，对 gamma（函数自带参数）画散点图，如果忘记在图上标记 gamma 值，以下哪一个选项可以解释下图的
光环大数据

光环大数据--大数据培训&人工智能培训
图片是训练数据集（样本非常少）的快照（属性 x、y 分别用“+”和“o” 表示），设定 kNN 的 k=1，那么留一法交叉验证的误差是
0% 100% 0 到 100% 以上均不正确
答案: B
留一交叉验证法中，如果有 N 个样本数据。将每个样本单独作为测试集，其余 N-1 个样本作为训练集，这样得到了 N 个模型，用这 N 个模型的分类准确率的平均数作为此分类器的性能指标。因此每一个模型都是用几乎所有的样本来训练得到最接近样本，这样评估所得的结果没有随机因素，所以答案选择 B
查准率=TP/TP+FP
所以当概率阈值增加时，TP、FP 减少或者持平， TP+FN 不变，所以召回率不会增加，一般情况，用不同的阀值，统计出一组不同阀值下的精确率和召回率，如右图，所以答案选择 C。
13.点击率的预测是一个数据比例不平衡问题（比如训练集中样本呈阴性的比例为 99%，阳性的比例是 1%），如果我们用这种数据建立模型并使得训练集的准确率高达 99%。我们可以得出结论是：
下面哪一项用决策树法训练大量数据集最节约时间? 增加树的深度
光环大数据
2. 增加学习率 3. 减少数的深度 4..减少树的个数 2 1 and 2 3 3 and 4 2 and 3 2, 3 and 4
7.评估模型之后，得出模型存在偏差，下列哪种方法可能解决这一问题： A. 减少模型中特征的数量 B. 向模型中增加更多的特征 C. 增加更多的数据 D. B 和 C E. 以上全是答案：B 高偏差意味这模型不够复杂(欠拟合)，为了模型更加的强大，我们需要向特征空间中增加特征。增加样本能够降低方差
4.”过拟合是有监督学习的挑战，而不是无监督学习”以上说法是否正确： A. 正确 B. 错误答案：B 我们可以评估无监督学习方法通过无监督学习的指标，如：我们可以评估聚类模型通过调整兰德系数
光环大数据

做一个二分类预测问题，先设定阈值为 0.5，概率大于等于 0.5 的样本归入正例类（即 1），小于 0.5 的样本归入反例类（即 0）。然后，用阈值 n（n>0.5）重新划分样本到正例类和反例类，下面哪一种说法正确是（）
1.增加阈值不会提高召回率 2..增加阈值会提高召回率 3..增加阈值不会降低查准率 4.增加阈值会降低查准率
A.模型的准确率非常高，我们不需要进一步探索 B.模型不好，我们应建一个更好的模型 C.无法评价模型 D.以上都不正确
光环大数据
答案: B
光环大数据--大数据培训&人工智能培训
对于失衡数据，模型的准确率不能作为衡量模型效果的标准。因为我们需要探索的是少数 1%的数据，为更好的评估模型效果，可以用灵敏度、特异度、F measure 来判断，如果样本数少的类别表现非常弱，我们会采取更多措施。所以答案选 B。
光环大数据--大数据培训&人工智能培训
5.下列表述中，在 k-fold 交叉验证中关于选择 K 说法正确的是：
A. 较大的 K 并不总是好的，选择较大的 K 可能需要较长的时间来评估你的
结果
B. 相对于期望误差来说，选择较大的 K 会导致低偏差（因为训练 folds 会