机器学习练习题与答案
人工智能机器学习技术练习(试卷编号141)
人工智能机器学习技术练习(试卷编号141)1.[单选题]分类模型在进行训练时需要()A)训练集B)训练集与测试集C)训练集、验证集、测试集答案:C解析:2.[单选题]基于划分的聚类,说法正确的是()A)对分区个数敏感B)无法区分互斥的簇C)有利于寻找非球形簇答案:A解析:3.[单选题]现在有一份数据,你随机的将数据分成了n份,然后同时训练n个子模型,再将模型最后相结合得到一个强学习器,这属于boosting方法吗A)是B)不是C)不确定答案:B解析:4.[单选题]如果SVM模型欠拟合, 以下方法哪些可以改进模型 :A)增大惩罚参数C的值B)减小惩罚参数C的值C)减小核系数(gamma参数)答案:A解析:5.[单选题]假设下图是K-means算法的聚类结果,那么K的值为()A)1B)2C)3D)4答案:C解析:6.[单选题]下列关于DataFrame说法正确的是( )。
A)DataFrame结构是由索引和数据组成B)DataFrame的行索引位于最右侧C)创建一个DataFrame对象时需要指定索引D)DataFrame每列的数据类型必须是相同的答案:C解析:7.[单选题]某单位运用随机森林算法思想建立抢修热点模型。
该模型主要预测下期台区工单数量,构建抢修热点。
模型构建步骤如下:①将历史数据进行随机自助法重抽样,生成N个训练样本集;②将N个训练样本集分别做决策树,生成N棵决策树;③将N棵决策树随机构成随机森林;④未来根据预测样本气候环境、设备属性、设备工况进行随机森林决策投票,得出针对该预测样本最优的决策树进行运算,并计算出最终结果。
模型算法构建步骤合理的顺序是()。
A)①②③④B)①③②④C)④①②③D)④②①③答案:A解析:8.[单选题]AGNES是一种采用(__)策略的层次聚类算法。
A)自顶向下B)自底向上C)自左至右D)自右至左答案:B解析:9.[单选题]下面关于 Random Forest 和 Gradient Boosting Trees 说法正确的是?A)Random Forest 的中间树不是相互独立的,而 Gradient Boosting Trees 的中间树是相互独立的B)两者都使用随机特征子集来创建中间树C)在 Gradient Boosting Trees 中可以生成并行树,因为它们是相互独立的D)无论任何数据,Gradient Boosting Trees 总是优于 Random Forest答案:B解析:本题考查的是随机森林和梯度提升树(GBDT)的基本概率和区别。
机器学习考试题目及答案
机器学习考试题目答案1.简描述机器学习概念?TomMitCheI1:"对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习J 我们遇到的大部分事情一般包括分类问题与回归问题。
如房价的预测,股价的预测等属于分类问题。
一般的处理过程是:首先,1)获取数据;2)提取最能体现数据的特征;3)利用算法建模;4)将建立的模型用于预测。
如人脸识别系统,首先我们获取到一堆人脸照片,首先,对数据进行预处理,然后提取人脸特征,最后用算法如SVM或者NN等。
这样,我们就建立了一个人脸识别系统,当输入一张人脸,我们就知道这张面孔是否在系统中。
这就是机器学习的整个流程,其次还包括寻找最优参数等。
机器学习主要分为:监督学习:数据集是有标签的,大部分机器学习模型都属于这一类别,包括线性分类器、支持向量机等等;无监督学习:跟监督学习相反,数据集是完全没有标签的,主要的依据是相似的样本在数据空间中一般距离是相近的,这样就能通过距离的计算把样本分类,这样就完全不需要IabeI,比如著名的kmeans算法就是无监督学习应用最广泛的算法;半监督学习:半监督学习一般针对的问题是数据量超级大但是有标签数据很少或者说标签数据的获取很难很贵的情况,训练的时候有一部分是有标签的而有一部分是没有的;强化学习:一直激励学习的方式,通过激励函数来让模型不断根据遇到的情况做出调整;2.循环神经网络的基本原理?RNNS的目的是用来处理序列数据。
在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。
但是这种普通的神经网络对于很多问题却无能无力。
例如,你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。
RNNS之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。
具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
2022机器学习专项测试试题及答案
2022机器学习专项测试试题及答案1.机器学习的流程包括:分析案例、数据获取、________和模型验证这四个过程。
()A.数据清洗A、数据清洗B.数据分析C.模型训练(正确答案)D.模型搭建2.机器翻译属于下列哪个领域的应用?() *A.自然语言系统(正确答案)A. 自然语言系统(正确答案)B.机器学习C.专家系统D.人类感官模拟3.为了解决如何模拟人类的感性思维, 例如视觉理解、直觉思维、悟性等, 研究者找到一个重要的信息处理的机制是()。
*A.专家系统B.人工神经网络(正确答案)C.模式识别D.智能代理4.要想让机器具有智能, 必须让机器具有知识。
因此, 在人工智能中有一个研究领域, 主要研究计算机如何自动获取知识和技能, 实现自我完善, 这门研究分支学科叫()。
*A. 专家系统A.专家系统B. 机器学习(正确答案)C. 神经网络D. 模式识别5.如下属于机器学习应用的包括()。
*A.自动计算, 通过编程计算 456*457*458*459 的值(正确答案)A. 自动计算,通过编程计算 456*457*458*459 的值(正确答案)A.自动计算,通过编程计算 456*457*458*459 的值(正确答案)B.文字识别, 如通过 OCR 快速获得的图像中出汉字, 保存为文本C.语音输入, 通过话筒将讲话内容转成文本D.麦克风阵列, 如利用灵云该技术实现远场语音交互的电视6.对于神经网络模型, 当样本足够多时, 少量输入样本中带有较大的误差甚至个别错误对模型的输入-输出映射关系影响很小, 这属于()。
*A. 泛化能力A.泛化能力B. 容错能力(正确答案)C. 搜索能力D. 非线性映射能力7.下列选项不属于机器学习研究内容的是() *A. 学习机理A.学习机理B. 自动控制(正确答案)C. 学习方法D. 计算机存储系统8.机器学习的经典定义是: () *A.利用技术进步改善系统自身性能A. 利用技术进步改善系统自身性能B.利用技术进步改善人的能力C.利用经验改善系统自身的性能(正确答案)D.利用经验改善人的能力9.研究某超市销售记录数据后发现, 买啤酒的人很大概率也会购买尿布, 这种属于数据挖掘的那类问题()。
机器学习原理及应用练习题答案
第一章机器学习概述1.机器学习研究什么问题,构建一个完整的机器学习算法需要哪些要素?机器学习主要研究如何选择统计学习模型,从大量已有数据中学习特定经验。
构建一个完整的机器学习算法需要三个方面的要素,分别是数据,模型,性能度量准则。
2.可以生成新数据的模型是什么,请举出几个例子可以生成新数据的模型是生成模型,典型的生成模型有朴素贝叶斯分类器、高斯混合模型、隐马尔可夫模型、生成对抗网络等。
3.监督学习、半监督学习和无监督学习是什么,降维和聚类属于哪一种?监督学习是指样本集合中包含标签的机器学习,无监督学习是无标签的机器学习,而半监督学习介于二者之间。
降维和聚类是无监督学习。
4.过拟合和欠拟合会导致什么后果,应该怎样避免?过拟合导致模型泛化能力弱,发生明显的预测错误,往往是由于数据量太少或模型太复杂导致,通过增加训练数据量,对模型进行裁剪,正则化的方式来缓解。
而欠拟合则会导致模型不能对数据进行很好地拟合,通常是由于模型本身不能对训练集进行拟合或者训练迭代次数太少,解决方法是对模型进行改进,设计新的模型重新训练,增加训练过程的迭代次数。
5.什么是正则化,L1正则化与L2正则化有什么区别?正则化是一种抑制模型复杂度的方法。
L1正则化能够以较大概率获得稀疏解,起到特征选择的作用,并且可能得到不止一个最优解。
L2正则化相比前者获得稀疏解的概率小的多,但得到的解更加平滑。
第二章逻辑回归与最大熵模型1.逻辑回归模型解决(B )A.回归问题B.分类问题C.聚类问题D.推理问题2.逻辑回归属于(B )回归A.概率性线性B.概率性非线性C.非概率性线性D.非概率性非线性3.逻辑回归不能实现(D )A.二分类B.多分类C.分类预测D.非线性回归4.下列关于最大熵模型的表述错误的是(B )A.最大熵模型是基于熵值越大模型越稳定的假设B.最大熵模型使用最大熵原理中一般意义上的熵建模以此缩小模型假设空间C.通过定义最大熵模型的参数可以实现与多分类逻辑回归相同的作用D.最大熵模型是一种分类算法5.下列关于模型评价指标的表述错误的是(C )A.准确率、精确率、召回率以及AUC均是建立在混淆矩阵的基础上B.在样本不平衡的条件下准确率并不能作为很好的指标来衡量结果C.准确率表示所有被预测为正的样本中实际为正的样本的概率D.一般来说,置信度阈值越高,召回率越低,而精确率越高6.简述逻辑回归的原理。
机器学习口算练习题及答案2023
机器学习口算练习题及答案2023一、选择题1. 下面哪个不是机器学习常见的算法分类?A. 监督学习B. 非监督学习C. 强化学习D. 自然语言处理答案:D2. 机器学习中的回归任务是指:A. 分类问题B. 预测数值问题C. 聚类问题D. 强化学习问题答案:B3. 以下哪个算法适用于文本分类任务?A. K均值算法B. 支持向量机算法C. 决策树算法D. 随机森林算法答案:B4. 在机器学习中,过拟合问题可以通过以下方法解决:A. 增加训练数据B. 减少模型复杂度C. 使用正则化技术D. 所有选项都适用答案:D5. 以下哪个评估指标适用于非平衡数据集的分类任务?A. 准确率B. 精确率C. 召回率D. F1-score答案:D二、填空题1. 在机器学习中,模型的训练数据被称为________。
答案:训练集2. 机器学习中常用的特征选择方法有________和________。
答案:过滤法,包装法3. 机器学习中,用于评估模型性能的常用方法是________。
答案:交叉验证4. 以下是监督学习算法的例子:________和________。
答案:决策树,随机森林5. 机器学习中常用的集成学习方法有________和________。
答案:Bagging,Boosting三、解答题1. 请简要说明机器学习中的监督学习和非监督学习的区别。
答:监督学习是指通过已有的标记数据集来训练模型,从而能够根据输入数据进行预测或分类。
而非监督学习则是指在没有标记的数据集中寻找数据的结构和模式,通过聚类和降维等技术进行数据分析。
监督学习需要有标签的数据作为输入和输出的对应关系,而非监督学习则不需要。
2. 请解释机器学习中的过拟合问题,并提供解决方法。
答:过拟合是指机器学习模型在训练集上表现良好,但在新的数据上表现较差的问题。
过拟合的原因是模型过于复杂,过度拟合了训练集中的噪音或细节。
解决过拟合问题的方法包括增加训练数据以减少过拟合的可能性、减少模型复杂度以避免过度拟合、使用正则化技术对模型参数进行约束等。
机器学习期末试题及答案
机器学习期末试题及答案一、选择题1. 机器学习是一种:A. 人工智能子领域B. 数据分析工具C. 算法库D. 编程语言答案:A. 人工智能子领域2. 以下哪种算法是无监督学习算法?A. 决策树B. 支持向量机C. K均值聚类D. 朴素贝叶斯答案:C. K均值聚类3. 在机器学习中,过拟合是指:A. 模型无法适应新数据B. 模型过于简单C. 模型过于复杂D. 模型的精度较低答案:C. 模型过于复杂4. 机器学习任务中的训练集通常包括:A. 特征和标签B. 标签和模型参数C. 特征和模型参数D. 特征、标签和模型参数答案:A. 特征和标签5. 在机器学习中,用于评估模型性能的常见指标是:A. 准确率B. 回归系数C. 损失函数D. 梯度下降答案:A. 准确率二、填空题1. 监督学习中,分类问题的输出是离散值,而回归问题的输出是________________。
答案:连续值/实数值2. 机器学习中的特征工程是指对原始数据进行________________。
答案:预处理3. ________________是一种常见的集成学习算法,通过构建多个弱分类器来提高整体模型的性能。
答案:随机森林4. K折交叉验证是一种常用的评估模型性能和调参的方法,其中K 代表______________。
答案:折数/交叉验证的次数5. 在机器学习中,优化算法的目标是最小化或最大化一个称为______________的函数。
答案:目标函数/损失函数三、简答题1. 请简要解释什么是过拟合,并提出至少三种防止过拟合的方法。
答:过拟合是指在训练数据上表现很好,但在新数据上表现较差的现象。
防止过拟合的方法包括:- 数据集扩充:增加更多的训练样本,从而减少模型对特定数据的过度拟合。
- 正则化:通过在损失函数中引入正则化项,约束模型的复杂度,防止模型过分拟合训练数据。
- 交叉验证:使用交叉验证方法对模型进行评估,通过评估模型在不同数据集上的性能,选择性能较好的模型。
人工智能初级认证(机器学习)试题及答案
人工智能初级认证(机器学习)试题及答案
1. 介绍
本文档为人工智能初级认证(机器研究)试题及答案,旨在帮助考生准备和复相关内容。
以下是试题及答案的详细内容。
2. 试题及答案
2.1 选择题
1. 什么是机器研究?
- (A) 一种人工智能的分支领域
- (B) 一种计算机编程语言
- (C) 一种图像处理技术
- (D) 一种机械设计原理
正确答案:(A)
2. 在机器研究中,监督研究是指什么?
- (A) 通过观察输入和输出样本对模型进行训练- (B) 通过自主发现模式对模型进行训练
- (C) 通过基于规则的推理对模型进行训练
- (D) 通过随机试错对模型进行训练
正确答案:(A)
3. 机器研究的主要任务之一是什么?
- (A) 数据处理和可视化
- (B) 模型选择和优化
- (C) 特征提取和选择
- (D) 性能评估和验证
正确答案:(B)
2.2 简答题
1. 请简要解释什么是过拟合?
过拟合指的是模型在训练集上表现良好,但在未知数据集上表现不佳的情况。
过拟合通常是因为模型过于复杂,过度适应了训练集中的噪声和异常值,导致泛化能力下降。
2. 请列举至少两种常见的机器研究算法。
- (1) 线性回归:用于建立线性关系模型,预测一个连续变量。
- (2) 决策树:通过不断划分特征空间,构建一个树形模型。
3. 总结
本文档提供了人工智能初级认证(机器学习)试题及答案,包括选择题和简答题。
考生可以通过复习这些内容来更好地准备考试。
祝您成功!。
机器学习与人工智能(深度学习)习题与答案
一、填空题1.卷积层的输出通常由3个量来控制,它们分别是深度、步幅和()。
正确答案:补零2.深度神经网络和浅度神经网络模型具有相似的结构,由输入层、输出层和( )构成。
正确答案:隐层3.我们将在深度网络学习的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃的方法称作()。
正确答案:Dropout二、判断题1.池化层可以非常有效地缩小参数矩阵的尺寸,从而减少后面的卷积层或者全连接层中的参数数量。
正确答案:√2.多伦多大学的Geoffrey Hinton教授利用预训练的方式来缓解局部最优解的问题,提出了真正意义上的深度神经网络,从而掀起了第二次机器学习热潮——“深度学习”。
正确答案:√3.正则化方法是一种通过引入额外的新信息来解决机器学习中过拟合问题的方法。
正确答案:√4.全连接的神经网络应用于图像处理时可能会导致一个严重的参数数量的膨胀的问题。
正确答案:√三、多选题1.以下能够避免过拟合的方法有?( )A.数据增强,从数据源头获取更多数据B.增加训练次数C.增加网络的深度D.正则化正确答案:A、D2.以下能够避免梯度消失和梯度爆炸的方法有?( )A.梯度裁剪,给定梯度的上下阈值B.批规范化C.使用残差网络结构D.采用带记忆的网络结构,如LSTM正确答案:A、B、C、D3.以下哪些属于深层网络模型?( )A.AlexNetB.VGGC.GoogleNetD.ResNet正确答案:A、B、C、D4.卷积层具有以下哪些特点?( )A.稀疏交互B.参数共享C.等变表示D.稠密交互正确答案:A、B、C。
人工智能机器学习技术练习(习题卷9)
人工智能机器学习技术练习(习题卷9)第1部分:单项选择题,共62题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]下面哪个/些超参数的增加可能会造成随机森林数据过拟合?A)树的数量B)树的深度C)学习速率答案:B解析:通常情况下,我们增加树的深度有可能会造成模型过拟合。
学习速率并不是随机森林的超参数。
增加树的数量可能会造成欠拟合。
2.[单选题]属于常见问题解答模块的主要技术的是( )。
[] *A问句相似度计算A)语料库的构建B)查询扩展C)模式匹配答案:A解析:3.[单选题]采样分析的精确性随着采样随机性的增加而(),但与样本数量的增加关系不大。
A)降低B)不变C)提高D)无关答案:C解析:采样分析的精确性随着采样随机性的增加而提高,但与样本数量的增加关系不大。
当样本数量达到某个值后,我们从新个体上得到的信息会越来越少。
4.[单选题]以下表达式书写错误的是A)year('2015-12-31 12:21')B)month(2015-10-31)C)day('2015-12-11')D)date_sub('2015-12-01',3)答案:B解析:5.[单选题]下列分类方法中不会用到梯度下降法的是( )A)感知机B)最小二乘分类器C)最小距离分类器D)Logistic回归答案:C解析:C)松弛变量可用来解决线性不可分问题D)支持向量机可用来进行数据的分类答案:B解析:7.[单选题]关于Logistic回归和SVM,以下说法错误的是?A)Logistic回归可用于预测事件发生概率的大小B)Logistic回归的目标函数是最小化后验概率C)SVM的目标的结构风险最小化D)SVM可以有效避免模型过拟合答案:B解析:Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。
logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。
人工智能工程师(机器学习)试题及答案
人工智能工程师(机器学习)试题及答案1. 请解释机器研究是什么以及它在人工智能领域中的作用。
机器研究是一种人工智能分支,旨在使计算机系统能够通过从数据中研究和自动推断来改善性能。
它通过训练模型来识别和理解模式,并基于这些模式做出预测或做出决策。
在人工智能领域中,机器研究为解决复杂的问题提供了一种有效的方式,例如图像和语音识别、自然语言处理、推荐系统等。
2. 请简述监督研究和无监督研究的区别。
3. 请列举几个常用的机器研究算法,并简要描述它们的应用领域。
- 线性回归:应用于预测数值型结果的问题,如房价预测。
- 逻辑回归:常用于分类问题,如垃圾邮件过滤。
- 决策树:用于处理分类和回归问题,如客户信用评级。
- 支持向量机:适用于二元分类问题,例如图像分类和文本分类。
- 随机森林:可用于分类和回归问题,如医学诊断和股票市场预测。
- 集成研究:通过结合多个研究器来提高性能,如AdaBoost、Bagging等。
- 深度研究:用于复杂的模式识别和自然语言处理问题,如图像和语音识别。
4. 请解释过拟合和欠拟合,并提供避免过拟合的方法。
避免过拟合的方法包括:- 使用正则化技术,如L1或L2正则化,以减小模型复杂度。
- 使用交叉验证来选择合适的超参数和模型结构。
5. 请解释ROC曲线和AUC的含义,并说明它们在评估分类模型性能时的作用。
ROC曲线是一种用于评估二元分类模型的性能的可视化工具。
它以真阳性率(True Positive Rate,TPR)为纵轴,假阳性率(False Positive Rate,FPR)为横轴,绘制了分类模型在不同阈值下的表现。
ROC曲线越接近左上角,模型的性能越好。
AUC(Area Under the Curve)是ROC曲线下的面积,用于衡量二元分类模型的整体性能。
AUC值越接近1,模型的性能越好;而AUC值越接近0.5,模型的性能越差。
6. 请解释交叉验证是什么,以及其在机器研究中的作用。
《机器学习》期末考试试卷附答案
《机器学习》期末考试试卷附答案一、选择题(每题5分,共25分)1. 机器学习的主要目的是让计算机从数据中____,以实现某些任务或预测未知数据。
A. 抽取特征B. 生成模型C. 进行推理D. 分类标签答案:B. 生成模型2. K-近邻算法(K-NN)是一种____算法。
A. 监督学习B. 无监督学习C. 半监督学习D. 强化学习答案:A. 监督学习3. 在决策树算法中,节点的分裂是基于____进行的。
A. 信息增益B. 基尼不纯度C. 均方误差D. 交叉验证答案:A. 信息增益4. 支持向量机(SVM)的主要目的是找到一个超平面,将不同类别的数据点____。
A. 完全分开B. 尽量分开C. 部分分开D. 不分开答案:B. 尽量分开5. 哪种优化算法通常用于训练深度学习模型?A. 梯度下降B. 牛顿法C. 拟牛顿法D. 以上都对答案:D. 以上都对二、填空题(每题5分,共25分)1. 机器学习可以分为监督学习、无监督学习和____学习。
A. 半监督B. 强化C. 主动学习D. 深度答案:A. 半监督2. 线性回归模型是一种____模型。
A. 线性B. 非线性C. 混合型D. 不确定型答案:A. 线性3. 在进行特征选择时,常用的评估指标有____、____和____。
A. 准确率B. 召回率C. F1 分数D. AUC 值答案:B. 召回率C. F1 分数D. AUC 值4. 神经网络中的激活函数通常用于引入____。
A. 非线性B. 线性C. 噪声D. 约束答案:A. 非线性5. 当我们说一个模型具有很好的泛化能力时,意味着该模型在____上表现良好。
A. 训练集B. 验证集C. 测试集D. 所有集答案:C. 测试集三、简答题(每题10分,共30分)1. 请简要解释什么是过拟合和欠拟合,并给出解决方法。
2. 请解释什么是交叉验证,并说明它的作用。
答案:交叉验证是一种评估模型泛化能力的方法,通过将数据集分成若干个互斥的子集,轮流用其中若干个子集作为训练集,其余子集作为验证集,对模型进行评估。
(完整word版)机器学习练习题与答案
(完整word版)机器学习练习题与答案《机器学习》练习题与解答1.⼩刚去应聘某互联⽹公司的算法⼯程师,⾯试官问他“回归和分类有什么相同点和不同点”,他说了以下⾔论,请逐条判断是否准确。
1)回归和分类都是有监督学习问题[单选题] [必答题]○对○错参考答案:对。
解析:这道题只有⼀个同学做错。
本题考察有监督学习的概念。
有监督学习是从标签化训练数据集中推断出函数的机器学习任务。
有监督学习和⽆监督学习的区别是:机器学习算法的图谱如下:在回归问题中,标签是连续值;在分类问题中,标签是离散值。
具体差别请看周志华《机器学习》书中的例⼦,⼀看便懂:2.背景同上题。
请判断2)回归问题和分类问题都有可能发⽣过拟合 [单选题] [必答题]○对○错答案:对解析:这题有两个同学做错。
过拟合的英⽂名称是 Over-fitting(过拟合)。
为了说清楚“过”拟合,⾸先说⼀下“拟合”【拟合的⼏何意义】:从⼏何意义上讲,拟合是给定了空间中的⼀些点,找到⼀个已知形式未知参数的连续曲线或曲⾯来最⼤限度地逼近这些点。
⼀个直观的例⼦,是下⾯的电阻和温度的例⼦。
我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b。
现在我们有⼀系列关于“温度”和“电阻”的测量值。
⼀个最简单的思路,取两组测量值,解⼀个线性⽅程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提⾼测量精度,我们会测量多次,得到多组的值,这样就相当于得到⼆维平⾯上的多个点,我们的⽬标是寻找⼀条直线,让这条直线尽可能地接近各个测量得到的点。
拟合的数学意义:在数学的意义上,所谓拟合(fit)是指已知某函数的若⼲离散函数值{f1,f2,…,fn}(未必都是准确值,有个别可能是近似甚⾄错误值),通过调整该函数中若⼲待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最⼩⼆乘意义)最⼩。
机器学习期末测试练习题3
、单选题1、以下关于感知器算法与支持向量机算法说法有误的是A.由于支持向量机是基于所有训练数据寻找最大化间隔的超平面,而感知器算法却是相对随意的找一个分开两类的超平面,因此大多数时候,支持向量机画出的分类面往往比感知器算法好一些。
B.支持向量机是把所有训练数据都输入进计算机,让计算机解全局优化问题C.感知器算法相比于支持向量机算法消耗的计算资源和内存资源更少,但是耗费的计算资源更多D.以上选项都正确正确答案:C2、假设你在训练一个线性回归模型,有下面两句话:如果数据量较少,容易发生过拟合。
如果假设空间较小,容易发生过拟合。
关于这两句话,下列说法正确的是?A.1正确,2错误B.1和2都错误C.1和2都正确D.1错误,2正确正确答案:A3、下面哪一项不是比较好的学习率衰减方法?t表示为epoch数。
A.a=1%12*t0C.a=0.95方。
0正确答案:D4、你正在构建一个识别足球(y二1)与篮球(y=0)的二元分类器。
你会使用哪一种激活函数用于输出层?A.ReLUB.tanhC.sigmoidD.LeakyReLU正确答案:C5、假设你建立一个神经网络。
你决定将权重和偏差初始化为零。
以下哪项陈述是正确的?A.第一个隐藏层中的每个神经元将在第一次迭代中执行相同的计算。
但经过一次梯度下降迭代后,他们将会计算出不同的结果。
B.第一个隐藏层中的每个神经元节点将执行相同的计算。
所以即使经过多次梯度下降迭代后,层中的每个神经元节点都会计算出与其他神经元节点相同的结果。
C.第一个隐藏层中的每一个神经元都会计算出相同的结果,但是不同层的神经元会计算不同的结果。
D.即使在第一次迭代中,第一个隐藏层的神经元也会执行不同的计算,他们的参数将以各自方式进行更新。
正确答案:B6、某个神经网络中所有隐藏层神经元使用tanh激活函数。
那么如果使用np.random.randn(…,…)*1000将权重初始化为相对较大的值。
会发生什么?A.这不会对训练产生影响。
机器学习期末复习题及答案
一、单选题1、在条件随机场(CRF)中,参数的学习通常使用哪种优化算法?()A.K-Means聚类B.梯度提升机(GBM)C.支持向量机(SVM)D.随机梯度下降(SGD)正确答案:D2、在概率无向图模型中,什么是团分解(Cluster Decomposition)?()A.一种通过节点之间的边传播信息,以更新节点的边缘概率的方法B.一种用于计算图的分割的算法C.一种将联合概率分布分解为多个局部概率分布的方法D.一种用于表示联合概率分布的无向树正确答案:C3、在数据不完备时,下列哪一种方法不是贝叶斯网络的参数学习方法()A.拉普拉斯近似B.最大似然估计方法C.蒙特卡洛方法D.高斯逼近正确答案:B4、在有向图模型中,什么是条件独立性?()A.给定父节点的条件下,子节点之间独立B.所有节点之间都独立C.所有节点的状态相互独立D.任意两个节点都是独立的正确答案:A5、在概率有向图模型中,节点表示什么?()A.变量B.参数C.条件概率D.边正确答案:A6、下列哪一项表示簇中样本点的紧密程度?()A.簇个数B.簇大小C.簇描述D.簇密度正确答案:D7、闵可夫斯基距离表示为曼哈顿距离时p为:()A.1B.2C.3D.4正确答案:A8、谱聚类与K均值聚类相比,对于什么样的数据表现更好?()A.低维数据B.高维数据C.线性可分数据D.高密度数据正确答案:B9、SVM适用于什么类型的问题?()A.既可用于线性问题也可用于非线性问题B.仅适用于回归问题C.仅适用于非线性问题D.仅适用于线性问题正确答案:A10、对于在原空间中线性不可分的问题,支持向量机()A.在原空间中寻找非线性函数划分数据B.无法处理C.利用核函数把数据映射到高维空间D.在原空间中寻找线性函数划分数据正确答案:C11、LDA主题模型中的alpha参数控制着什么?()A.单词分布的稀疏性B.文档-主题分布的稀疏性C.模型大小D.模型收敛速度正确答案:B12、LDA的全称是什么?()tent Dirichlet AllocationB.Linear Discriminant Analysistent Data AnalysisD.Lin Latent Dirichlet Allocation ear Data Algorithm正确答案:A13、以下对于梯度下降法中学习率lr的阐述,正确的是()A.lr小,收敛速度较快B.lr大,收敛速度较慢C.lr小,收敛速度较慢且较不易收敛D.lr大,收敛速度较快但可能导致不收敛正确答案:D14、在EM算法中,E代表期望,M代表()A.均值B.最大化C.最小化D.均方误差正确答案:B15、梯度下降中如何有效地捕捉到目标函数的全局最优?()A.调整学习速率B.增加模型复杂度C.使用梯度下降的变种算法D.增加训练样本量正确答案:C二、多选题1、下列机器学习常用算法中哪个属于分类算法?()A.K-meansB.最小距离分类器C.KNN(K近邻)D.逻辑回归正确答案:B、C、D2、下列关于决策树的说法正确的是?()A.CART使用的是二叉树B.其可作为分类算法,也可用于回归模型C.不能处理连续型特征D.它易于理解、可解释性强正确答案:A、B、D3、下列属于k近邻算法中常用的距离度量方法的是?()A.余弦相似度B.欧式距离C.曼哈顿距离D.闵可夫斯基距离正确答案:A、B、C、D4、下列属于深度模型的是?()A.DNNB.LightgbmC.LSTMD.Seq2Seq正确答案:A、C、D5、sklearn中RFECV方法分成哪两个部分?()A.RFEB.CVC.NLPD.MM正确答案:A、B6、以下关于蒙特卡洛方法描述正确的是()A.蒙特卡洛方法计算值函数可以采用First-visit方法B.蒙特卡洛方法方差很大C.蒙特卡洛方法计算值函数可以采用Every-visit方法D.蒙特卡洛方法偏差很大正确答案:A、B、C7、为什么循环神经网络可以用来实现自动问答,比如对一句自然语言问句给出自然语言回答()A.因为自动问答可以看成是一种序列到序列的转换B.因为循环神经网络能够处理变长输入C.因为循环神经网要比卷积神经网更强大D.因为卷积神经网络不能处理字符输入正确答案:A、B8、通常有哪几种训练神经网络的优化方法()A.梯度下降法B.随机梯度下降法C.小批量随机梯度下降法D.集成法正确答案:A、B、C9、隐马尔可夫模型的三个基本问题是()A.估值问题B.寻找状态序列C.学习模型参数D.状态更新正确答案:A、B、C10、在数据不完备时,贝叶斯网络的参数学习方法有()A.高斯逼近B.蒙特卡洛方法C.拉普拉斯近似D.最大似然估计方法正确答案:A、B、C11、基于约束的方法通过统计独立性测试来学习结点间的()A.独立性B.相关性C.依赖性D.完备性正确答案:A、B12、基于搜索评分的方法,关键点在于()A.确定合适的搜索策略B.确定评分函数C.确定搜索优先级D.确定选择策略正确答案:A、B13、条件随机场需要解决的关键问题有()A.特征函数的选择B.参数估计C.模型推断D.约束条件正确答案:A、B、C14、以下关于逻辑斯蒂回归模型的描述正确的是()A.针对分类的可能性进行建模,不仅能预测出类别,还可以得到属于该类别的概率B.直接对分类的可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题C.模型本质仍然是一个线性模型,实现相对简单D.逻辑斯蒂回归模型是线性回归模型正确答案:A、B、C、D15、LDA模型在做参数估计时,最常用的方法是()A.Gibbs采样方法B.变分推断C.梯度下降D.Beam search正确答案:A、B三、判断题1、关于EM算法的收敛性,EM算法理论上不能够保证收敛()正确答案:×2、多次运行,随机化初始点是对存在局部最优点的函数求解的一种方案()正确答案:√3、训练算法的目的就是要让模型拟合训练数据()正确答案:×4、循环神经网络按时间展开后就可以通过反向传播算法训练了()正确答案:√5、GIS算法的收敛速度由计算更新值的步长确定。
人工智能机器学习技术练习(习题卷2)
人工智能机器学习技术练习(习题卷2)第1部分:单项选择题,共62题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]我们常用 ( ) 版。
A)apache 版B)cdh 版C)Hortonworks版本答案:B解析:2.[单选题]现在有一份数据,你随机的将数据分成了n份,然后同时训练n个子模型,再将模型最后相结合得到一个强学习器,这属于boosting方法吗A)是B)不是C)不确定答案:B解析:3.[单选题]对于非概率模型而言,可按照判别函数线性与否分成线性模型与非线性模型。
下面哪个模型不属于线性模型A)感知机B)AdaBoostC)K-meansD)k近邻答案:B解析:4.[单选题]下列选项中,()是基于Web的交互式计算环境,可以编辑易于人们阅读的文档,用于展示数据分析的过程。
A)Jupyter NotebookB)Anconda NavigatorC)Anconda PromptD)Spyder答案:A解析:5.[单选题]为了观察测试 Y 与 X 之间的线性关系,X 是连续变量,使用下列哪种图形比较适合?A)散点图B)柱形图C)直方图D)以上都不对答案:A解析:散点图反映了两个变量之间的相互关系,在测试 Y 与 X 之间的线性关系时,使用散点图最为直观。
6.[单选题]()是指数据减去一个总括统计量或模型拟合值时的残余部分A)极值C)平均值D)残值答案:D解析:残值在数理统计中是指实际观察值与估计值(拟合值)之间的差。
7.[单选题]在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:A)有放回的简单随机抽样B)无放回的简单随机抽样C)分层抽样D)渐进抽样答案:D解析:8.[单选题]在留出法、交叉验证法和自助法三种评估方法中,()更适用于数据集较小、难以划分训练集和测试集的情况。
A)留出法B)交叉验证法C)自助法D)留一法答案:C解析:9.[单选题](__)先将数据集中的每个样本看做一个初始聚类簇,然后在算法运行的每一步找到距离最近的两个聚类簇进行合并,该过程不端重复,直至达到预设的聚类簇个数。
机器学习试卷试题及答案
机器学习试题(一共30题,标有下划线的,如34,3_2,只用选择其中一题)1 .在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(C)Ver-fitting)中影响最大?A.多项式阶数B.更新权重W时,使用的是矩阵求逆还是梯度下降C,使用常数项2 .假设你有以下数据:输入和输出都只有一个变量。
使用线性回归模型(y=wx+b)来拟合数据。
那么使用留一法(1eave-OneOut)交叉验证得到的均方误差是多少?A. 10/27B. 39/27C. 49/27D. 55/273_1.下列关于极大似然估计(MaXimUm1ike1ihoodEstimate,M1E),说法正确的是(多选)?A. M1E可能并不存在B. M1E总是存在C.如果M1E存在,那么它的解可能不是唯一的D.如果M1E存在,那么它的解一定是唯一的3_2.下列哪些假设是我们推导线性回归参数时遵循的(多选)?AX与Y有线性关系(多项式关系)B.模型误差在统计学上是独立的C,误差一般服从O均值和固定标准差的正态分布D.X是非随机且测量没有误差的4_1.为了观察测试Y与X之间的线性关系,X是连续变量,使用下列哪种图形比较适合?A.散点图B.柱形图C.直方图D,以上都不对4_2,一般来说,下列哪种方法常用来预测连续独立变量?A.线性回归B.逻辑回顾C,线性回归和逻辑回归都行D.以上说法都不对5.个人健康和年龄的相关系数是-1.09o根据这个你可以告诉医生哪个结论?A.年龄是健康程度很好的预测器B.年龄是健康程度很糟的预测器C.以上说法都不对6.下列哪一种偏移,是我们在最小二乘直线拟合的情况下使用的?图中横坐标是输入X,纵坐标是输出Y overtica1offsetsperpendicu1aroffsetsA,垂直偏移(vertica1offsets)B.垂向偏移(perpendicu1aroffsets)C,两种偏移都可以D.以上说法都不对7 .假如我们利用Y是X的3阶多项式产生一些数据(3阶多项式能很好地拟合数据)。
机器学习复习题及答案
一、单选题1、下列哪位是人工智能之父?( )A.Marniv Lee MinskyB.HerbertA.SimonC.Allen NewellD.John Clifford Shaw正确答案:A2、根据王珏的理解,下列不属于对问题空间W的统计描述是( )。
A.一致性假设B.划分C.泛化能力D.学习能力正确答案:D3、下列描述无监督学习错误的是( )。
A.无标签B.核心是聚类C.不需要降维D.具有很好的解释性正确答案:C4、下列描述有监督学习错误的是( )。
A.有标签B.核心是分类C.所有数据都相互独立分布D.分类原因不透明正确答案:C5、下列哪种归纳学习采用符号表示方式?( )A. 经验归纳学习B.遗传算法C.联接学习D.强化学习正确答案:A6、混淆矩阵的假正是指( )。
A.模型预测为正的正样本B.模型预测为正的负样本C.模型预测为负的正样本D.模型预测为负的负样本正确答案:B7、混淆矩阵的真负率公式是为( )。
A.TP/(TP+FN)B.FP/(FP+TN)C.FN/(TP+FN)D.TN/(TN+FP)正确答案:D8、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,准确率是( )。
A.1/4B.1/2C.4/7D.4/6正确答案:B9、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,精确率是( )。
A.1/4B.1/2C.4/7D.2/3正确答案:C10、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,召回率是( )。
A.1/4B.1/2C.4/7D.2/3正确答案:D11、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,F1-score是( )。
A.4/13B.8/13C.4/7D.2/30.00/2.00正确答案:B12、EM算法的E和M指什么?( )A.Expectation-MaximumB.Expect-MaximumC.Extra-MaximumD.Extra-Max正确答案:A13、EM算法的核心思想是?( )A.通过不断地求取目标函数的下界的最优值,从而实现最优化的目标。
机器学习应用考试 选择题40题 附答案
1. 机器学习的主要目标是:A. 通过数据自动发现规律和模式B. 手动编写所有程序逻辑C. 优化硬件性能D. 提高网络速度答案:A2. 以下哪项不是机器学习的类型?A. 监督学习B. 无监督学习C. 半监督学习D. 全监督学习答案:D3. 监督学习的主要任务是:A. 分类和回归B. 聚类C. 关联规则学习D. 降维答案:A4. 无监督学习的主要任务是:A. 分类和回归B. 聚类C. 关联规则学习D. 降维答案:B5. 以下哪项是监督学习的典型应用?A. 图像识别B. 市场细分C. 异常检测D. 推荐系统答案:A6. 以下哪项是无监督学习的典型应用?A. 图像识别B. 市场细分C. 异常检测D. 推荐系统答案:B7. 以下哪项是半监督学习的典型应用?A. 图像识别B. 市场细分C. 异常检测D. 推荐系统答案:C8. 以下哪项是强化学习的典型应用?A. 图像识别B. 市场细分C. 异常检测D. 游戏AI答案:D9. 以下哪项是深度学习的典型应用?A. 图像识别B. 市场细分C. 异常检测D. 推荐系统答案:A10. 以下哪项是机器学习模型的评估指标?A. 准确率B. 召回率C. F1分数D. 以上都是答案:D11. 以下哪项是机器学习模型的过拟合现象?A. 模型在训练数据上表现良好,但在新数据上表现不佳B. 模型在训练数据上表现不佳,但在新数据上表现良好C. 模型在训练数据和新数据上表现都良好D. 模型在训练数据和新数据上表现都不佳答案:A12. 以下哪项是机器学习模型的欠拟合现象?A. 模型在训练数据上表现良好,但在新数据上表现不佳B. 模型在训练数据上表现不佳,但在新数据上表现良好C. 模型在训练数据和新数据上表现都良好D. 模型在训练数据和新数据上表现都不佳答案:D13. 以下哪项是机器学习模型的正则化方法?A. L1正则化B. L2正则化C. dropoutD. 以上都是答案:D14. 以下哪项是机器学习模型的特征选择方法?A. 过滤法B. 包装法C. 嵌入法D. 以上都是答案:D15. 以下哪项是机器学习模型的特征提取方法?A. PCAB. LDAC. t-SNED. 以上都是答案:D16. 以下哪项是机器学习模型的集成学习方法?A. 随机森林B. 梯度提升机C. 堆叠法D. 以上都是答案:D17. 以下哪项是机器学习模型的交叉验证方法?A. K折交叉验证B. 留一法交叉验证C. 随机划分交叉验证D. 以上都是答案:D18. 以下哪项是机器学习模型的超参数调优方法?A. 网格搜索B. 随机搜索C. 贝叶斯优化D. 以上都是答案:D19. 以下哪项是机器学习模型的数据预处理方法?A. 缺失值处理B. 异常值处理C. 数据标准化D. 以上都是答案:D20. 以下哪项是机器学习模型的特征工程方法?A. 特征选择B. 特征提取C. 特征构建D. 以上都是答案:D21. 以下哪项是机器学习模型的模型选择方法?A. 交叉验证B. 超参数调优C. 模型集成D. 以上都是答案:D22. 以下哪项是机器学习模型的模型解释方法?A. 特征重要性分析B. 局部解释方法C. 全局解释方法D. 以上都是答案:D23. 以下哪项是机器学习模型的模型部署方法?A. 模型打包B. 模型服务C. 模型监控D. 以上都是答案:D24. 以下哪项是机器学习模型的模型维护方法?A. 模型更新B. 模型回滚C. 模型备份D. 以上都是答案:D25. 以下哪项是机器学习模型的模型评估方法?A. 准确率B. 召回率C. F1分数D. 以上都是答案:D26. 以下哪项是机器学习模型的模型优化方法?A. 正则化B. 特征选择C. 超参数调优D. 以上都是答案:D27. 以下哪项是机器学习模型的模型解释方法?A. 特征重要性分析B. 局部解释方法C. 全局解释方法D. 以上都是答案:D28. 以下哪项是机器学习模型的模型部署方法?A. 模型打包B. 模型服务C. 模型监控D. 以上都是答案:D29. 以下哪项是机器学习模型的模型维护方法?A. 模型更新B. 模型回滚C. 模型备份D. 以上都是答案:D30. 以下哪项是机器学习模型的模型评估方法?A. 准确率B. 召回率C. F1分数D. 以上都是答案:D31. 以下哪项是机器学习模型的模型优化方法?A. 正则化B. 特征选择C. 超参数调优D. 以上都是答案:D32. 以下哪项是机器学习模型的模型解释方法?A. 特征重要性分析B. 局部解释方法C. 全局解释方法D. 以上都是答案:D33. 以下哪项是机器学习模型的模型部署方法?A. 模型打包B. 模型服务C. 模型监控D. 以上都是答案:D34. 以下哪项是机器学习模型的模型维护方法?A. 模型更新B. 模型回滚C. 模型备份D. 以上都是答案:D35. 以下哪项是机器学习模型的模型评估方法?A. 准确率B. 召回率C. F1分数D. 以上都是答案:D36. 以下哪项是机器学习模型的模型优化方法?A. 正则化B. 特征选择C. 超参数调优D. 以上都是答案:D37. 以下哪项是机器学习模型的模型解释方法?A. 特征重要性分析B. 局部解释方法C. 全局解释方法D. 以上都是答案:D38. 以下哪项是机器学习模型的模型部署方法?A. 模型打包B. 模型服务C. 模型监控D. 以上都是答案:D39. 以下哪项是机器学习模型的模型维护方法?A. 模型更新B. 模型回滚C. 模型备份D. 以上都是答案:D40. 以下哪项是机器学习模型的模型评估方法?A. 准确率B. 召回率C. F1分数D. 以上都是答案:D答案:1. A2. D3. A4. B5. A6. B7. C8. D9. A10. D11. A12. D13. D14. D15. D16. D17. D18. D19. D20. D21. D22. D23. D24. D25. D26. D27. D28. D29. D30. D31. D32. D33. D34. D35. D36. D37. D38. D39. D40. D。
机器学习模拟试题含答案
机器学习模拟试题含答案一、单选题(共50题,每题1分,共50分)1、同质集成中的个体学习器亦称()A、组件学习器B、基学习器C、异质学习器D、同质学习器正确答案:B2、假设我们使用原始的非线性可分版本的 Soft-SVM 优化目标函数。
我们需要做什么来保证得到的模型是线性可分离的?A、C = 0B、C = 1C、C 正无穷大D、C 负无穷大正确答案:C3、关于logistic回归和SVM不正确的是()A、Logistic 回归目标函数是最小化后验概率B、Logistic回归可以用于预测事件发生概率的大小C、SVM可以有效避免模型过拟合D、SVM目标是结构风险最小化正确答案:A4、构建一个最简单的线性回归模型需要几个系数(只有一个特征)?A、1 个B、2 个C、4 个D、3 个正确答案:B5、假如我们使用 Lasso 回归来拟合数据集,该数据集输入特征有 100 个(X1,X2,…,X100)。
现在,我们把其中一个特征值扩大 10 倍(例如是特征 X1),然后用相同的正则化参数对 Lasso 回归进行修正。
那么,下列说法正确的是?A、特征 X1 很可能被排除在模型之外B、特征 X1 很可能还包含在模型之中C、无法确定特征 X1 是否被舍弃D、以上说法都不对正确答案:B6、下面关于SVM算法叙述不正确的是()A、SVM是一种基于经验风险最小化准则的算法B、SVM求得的解为全局唯一最优解C、SVM在解决小样本、非线性及高维模式识别问题中具有优势D、SVM最终分类结果只与少数支持向量有关正确答案:A7、KNN算法属于一种典型的()算法A、无监督学习B、半监督学习C、弱监督学习D、监督学习正确答案:D8、关于BP算法特点描述错误的是 ( )A、输入信号顺着输入层、隐层、输出层依次传播B、计算之前不需要对训练数据进行归一化C、预测误差需逆向传播,顺序是输出层、隐层、输入层D、各个神经元根据预测误差对权值进行调整正确答案:B9、关于维数灾难说法错误的是?A、高维度数据可使得算法泛华能力变得越来越弱B、高维度数据增加了运算难度C、降低高维度数据会对数据有所损伤D、高维度数据难以可视化正确答案:A10、做一个二分类预测问题,先设定阈值为0.5,概率大于等于0.5的样本归入正例类(即1),小于0.5的样本归入反例类(即0)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《机器学习》练习题与解答
1.小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点”,他说了以下言论,请逐条判断是否准确。
1)回归和分类都是有监督学习问题
[单选题] [必答题]
○对
○错
参考答案:对。
解析:这道题只有一个同学做错。
本题考察有监督学习的概念。
有监督学习是从标签化训练数据集中推断出函数的机器学习任务。
有监督学习和无监督学习的区别是:
机器学习算法的图谱如下:
在回归问题中,标签是连续值;在分类问题中,标签是离散值。
具体差别请看周志华《机器学习》书中的例子,一看便懂:
2.背景同上题。
请判断
2)回归问题和分类问题都有可能发生过拟合 [单选题] [必答题]
○对
○错
答案:对
解析:这题有两个同学做错。
过拟合的英文名称是 Over-fitting(过拟合)。
为了说清楚“过”
拟合,首先说一下“拟合”
【拟合的几何意义】:
从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲面来最大限度地逼近这些点。
一个直观的例子,是下面的电阻和温度的例子。
我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b。
现在我们有一系列关于“温度”和“电阻”的测量值。
一个最简单的思路,取两组测量值,解一个线性方程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多次,得到多组的值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线,让这条直线尽可能地接近各个测量得到的点。
拟合的数学意义:
在数学的意义上,所谓拟合(fit)是指已知某函数的若干离散函数值{f1,f2,…,fn}(未必都是准确值,有个别可能是近似甚至错误值),通过调整该函数中若干待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小。
【说说过拟合】
古人云“过犹不及”。
所谓“过”拟合,顾名思义,就是在学习的集合(也就是训练集)上拟
合的很不错,但是有点过头了,什么意思?他能够在学过的数据上判断的很准,但是如果再扔给它一系列新的没学习过的数据,它判断的非常差!比如古时候有个教书先生教小明写数字,“一”字是一横,“二”字是两横,“三”字是三横。
然后,小明说,老师你不用教我写数字了,我都会写。
老师很惊讶,那你说“万”字怎么写,结果小明在纸上写下了无数个“横”。
用台湾大学林轩田老师的话说,过拟合是“书呆子”,“钻牛角尖”。
如果用过于复杂的模型来刻画简单的问题,就有可能得到“聪明过头”的结果。
比如下面预测房子的价格(price)和size之间关系的问题(来源于andrew ng的ppt)
通过五组数据,我们通过肉眼直观地看,可以初步判断房屋的价格和size之间是二次函数的关系,也就是中间这幅图所拟合的情况。
而右边这幅图中,自作聪明地用了一个四次函数来拟和这五组数据,虽然在已知的五个数据上都是100%准确,却得出了“当房子的size大于某个值时房子的价格会随着房屋面积增大而越来越低”这样的荒谬结论!这样的是过拟合。
左边这个用一条直线来拟合但是拟合的误差很大也不置信,这叫“欠拟合”。
在周志华老师的书中,举的例子是这样的:
发现了没有?周志华老师用的是“是不是树叶”这样的分类问题举例,andrew ng用的是“房价和房屋面积的关系”这样的回归问题举例。
这说明,分类和回归都有可能过拟合。
3.背景同上题。
请判断
3)一般来说,回归不用在分类问题上,但是也有特殊情况,比如logistic 回归可以用来解决0/1分类问题 [单选题] [必答题]
○对
○错
答案:对
解析:Logistic回归是一种非常高效的分类器。
它不仅可以预测样本的类别,还可以计算出分类的概率信息,在一线互联网公司中广泛的使用,比如应用于CTR预估这样的问题中。
这里我们不详细说明其原理,后续课程会讲到。
很多人对它的名字会产生疑问,挂着“回归”的头,卖的是“分类”的肉,别扭的慌。
其实我们不用纠结它到底是“回归”,还是“分类”,非得二选一。
可以参考一下百度百科关于“logistic回归”的词条
其中举了一个富士康员工“自杀的日期”与“累计自杀人数”之间关系的例子,并通过logistic 回归分析来拟合出一条曲线。
这说明logistic回归本身也有一定的解决“回归”问题的能力,
只是工业界都用它来解决分类问题。
4.背景同上题。
请判断
4)对回归问题和分类问题的评价最常用的指标都是准确率和召回率 [单选题] [必答题]○对
○错
答案:错
解析:本题有四个同学选错。
这道题的用意是提醒大家注意,对回归问题的评价指标通常并不是准确率和召回率,从“房价与房屋面积之间关系预测”这个例子来说,一个已知数据点离预测的曲线之间的距离是多少时能够判定为“准确”,距离为多少时判定为“不准确”?没办法区别。
准确率对于度量回归问题的效果其实并不适用。
回归问题的误差一般通过“误差”来评估,比如RMSE等。
在滴滴大数据竞赛中用的是这样的一个指标
很显然不是用的“准确率”来评定。
5.背景同上题。
请判断
5)输出变量为有限个离散变量的预测问题是回归问题;
输出变量为连续变量的预测问题是分类问题; [单选题] [必答题]
○对
○错
答案:错
解析:说反了
6.向量x=[1,2,3,4,-9,0]的L1范数是多少 [单选题] [必答题]
○ 1
○19
○ 6
○sqrt(111)
答案:19
解析:这题错了三个同学,其实很简单。
请记住:
L0范数是指向量中非0的元素的个数。
L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。
L2范数是指向量各元素的平方和然后求平方根。
7.小明参加某公司的大数据竞赛,他的成绩在大赛排行榜上原本居于前二十,后来他保持特征不变,对原来的模型做了1天的调参,将自己的模型在自己本地测试集上的准确率提升了5%,然后他信心满满地将新模型的预测结果更新到了大赛官网上,结果懊恼地发现自己的新模型在大赛官方的测试集上准确率反而下降了。
对此,他的朋友们展开了讨论,请将说法正确的选项打勾(不定项选择题) [多选题] [必答题]
□小芳:从机器学习理论的角度,这样的情况不应该发生,快去找大赛组委会反应
□小刚:你这个有可能是由于过拟合导致的
□小月:早就和你说过了,乖乖使用默认的参数就好了,调参是不可能有收益的
□小平:你可以考虑一下,使用交叉验证来验证一下是否发生了过拟合
答案:选择第二项、第四项
解析:大家都同意第二项,是过拟合导致的。
设置第四项的目的,是提醒大家,交叉验证可以用于防止模型过于复杂而引起的过拟合。
具体什么是交叉验证,请期待后续课程。
8.关于L1正则和L2正则下面的说法正确的是 [多选题] [必答题]
□L2范数可以防止过拟合,提升模型的泛化能力。
但L1正则做不到这一点
□L2正则化标识各个参数的平方的和的开方值。
□L2正则化有个名称叫“Lasso regularization”
□L1范数会使权值稀疏
答案:第二项、第四项
解析:同第6题
9.判断这个说法对不对:给定 n 个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着 n的增加而减小 [单选题] [必答题]
○对
○错
答案:对
解析:训练数据越多,拟合度越好,训练误差和测试误差距离自然越小
八卦:亲们,这道题曾经出现在《百度2016研发工程师笔试题》。
咱们有四个同学做错。
10.Consider a problem of building an online image advertisement system that shows
the users the most relevant images. What features can you choose to use? [单选题] [必答题]
○concrete, abstract
○concrete, raw, abstract
○concrete, raw
○concrete
答案:B
解析:本题源于林轩田《机器学习基石》课件,给在线图片广告系统挑选特征。
concrete user features,
raw image features,and maybe abstract user/image IDs
大致理解一下特征的几种类型,请做错的同学去看一下林轩田老师的视频
11.【附加题】考虑回归一个正则化回归问题。
在下图中给出了惩罚函数为二次正则函数,当正则化参数C取不同值时,在训练集和测试集上的log似然(mean log-probability)。
请判
断这个说法是否正确:随着C的增加,图中训练集上的log似然永远不会增加 [单选题] [必答题]
○对
○错
答案:对。