第二版机器学习答案

合集下载

机器学习 模拟题与参考答案

机器学习 模拟题与参考答案

机器学习模拟题与参考答案一、单选题(共114题,每题1分,共114分)1.机器学习这个术语是由( )定义的?A、Arthur SamuelB、Guido van RossumC、James GoslingD、以上都不是正确答案:A2.在一个线性回归问题中,我们使用 R 平方(R-Squared)来判断拟合度。

此时,如果增加一个特征,模型不变,则下面说法正确的是?A、如果 R-Squared 增加,则这个特征有意义B、如果R-Squared 减小,则这个特征没有意义C、仅看 R-Squared 单一变量,无法确定这个特征是否有意义。

D、以上说法都不对正确答案:C3.在SVM中, margin的含义是()A、损失误差B、间隔C、幅度D、差额正确答案:B4.下列哪种方法可以用来缓解过拟合的产生:( )。

A、正则化B、增加更多的特征C、以上都是D、增加模型的复杂度正确答案:A5.当数据分布不平衡时,我们可采取的措施不包括( )。

A、对数据分布较少的类别过采样B、对数据分布较多的类别欠采样C、对数据分布较少的类别赋予更大的权重D、对数据分布较多的类别赋予更大的权重正确答案:D6.同质集成中的个体学习器亦称()A、异质学习器B、同质学习器C、基学习器D、组件学习器正确答案:C7.以下哪些是无序属性()A、{小,中,大}B、闵可夫斯基距离C、{飞机,火车、轮船}D、{1,2,3}正确答案:C8.下列关于过拟合的说法错误的是A、过拟合是指模型在训练集上表现很好,但是在交叉验证集和测试集上表现一般B、解决过拟合可以采用Dropout方法C、解决过拟合可以采用参数正则化方法D、数据集扩增不能用来解决过拟合问题正确答案:D9.神经网络算法有时会出现过拟合的情况,那么采取以下哪些方法解决过拟合更为可行()。

A、减少训练数据集中数据的数量B、增大学习的步长C、为参数选取多组初始值,分别训练,再选取一组作为最优值D、设置一个正则项减小模型的复杂度正确答案:D10.下列是机器学习中降维任务的准确描述的为A、依据某个准则对项目进行排序B、将其映射到低维空间来简化输入C、预测每个项目的实际值D、对数据对象进行分组正确答案:B11.对于在原空间中线性不可分问题,支持向量机()。

第八章 机器学习习题解答

第八章 机器学习习题解答

第八章机器学习8.2答:(1)学习是一项复杂的智能活动,学习过程与推理过程是紧密相连的学习中所用的推理越多,系统的能力越强(2)机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问“机器”——计算机(电子,以后还可能是中子计算机、光子计算机或神经计算机等)8.3答:机器学习系统的结构及基本功能当监督环节为示教人时,为示教式学习系统;当监督环节为监督器时,为自学式学习系统。

①知识库存储(记忆)、积累知识·长期记忆(LTM)先验知识背景如事物的基本概念和定义、定律和公理,博弈的基本规则等·中期记忆(MTM)环境事物的各种具体知识·短期记忆(STM)环境变化的信息和数据事实库或“黑板②学习元学习系统的核心环节·采集环境信息息选例环节或直接采集·接受监督指导监督环节的示教、指导信息或评价准则·进行学习推理获得有关问题的解答和结论·修改知识库将推理结果输入知识库,对知识增删改③执行元识别、论证、决策、判定模式分类器、专家咨询解释系统、智能控制机构、机械手/人等如执行元行动结果直接引起环境的变化 “在线”学习系统机器人规划、生产过程控制、机器博弈等④监督环节人:示教者;监督器:评价准则或检验标准·工作执行效果评价——接受来自执行元环节的反馈信息,对系统的工作执行效果进行评价和检验·制定评价标准——接受来自环境变化的信息,制定和修订评价标准和检验标准·监督学习环节——根据评价和检验的结果,对学习环节进行示教、训练或指导·控制选例环节——根据环境变化信息及工作执行效果的反馈,控制选例环节,选取其它事例或样本⑤选例环节作用是从环境中选取有典型意义的事例或样本,作为系统的训练集或学习对象。

如挑选典型病历,以便提高学习效率,加速学习过程。

选例环节可以由人或机器来实现⑥环境系统获取知识和信息的来源,执行的对象和人物等。

机器学习课后习题答案

机器学习课后习题答案

机器学习(周志华)参考答案第一章 绪论(略)第二章模型评估与选择1.数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。

一个组合问题,从500500正反例中分别选出150150正反例用于留出法评估,所以可能取150)2。

法应该是(C5002.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

10折交叉检验:由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也是一样的,所以错误率的期望是5050%。

留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是100%。

3.若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。

Array4.试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。

查全率: 真实正例被预测为正例的比例真正例率: 真实正例被预测为正例的比例显然查全率与真正例率是相等的。

查准率:预测为正例的实例中真实正例的比例假正例率: 真实反例被预测为正例的比例两者并没有直接的数值关系。

9.试述卡方检验过程。

第三章线性模型2.试证明,对于参数w,对率回归(logistics回归)的目标函数(式1)是非凸的,但其对数似然函数(式2)是凸的。

如果一个多元函数是凸的,那么它的Hessian矩阵是半正定的。

3.编程实现对率回归,并给出西瓜数据集3.0α上的结果/icefire_tyh/article/details/520688444.选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率。

/icefire_tyh/article/details/520689005.编程实现线性判别分析,并给出西瓜数据集3.0α上的结果。

第二版机器学习答案

第二版机器学习答案

一、判断题(共30分,每题2分,打诚X)1、如果问题本身就是非线性问题,使用支持向量机(SVM )是难以取得好的预测效果的。

(X)2、只要使用的半监督学习方法合适,利用100个标记样本和1000个无标记样本的预测效果,同样可以达到利用1100个标记样本使用监督学习方法的预测效果。

(X)3、深度学习中应该尽量避免过拟合。

(X)4、在随机森林Bagging过程中,每次选取的特征个数为m, m的值过大会降低树之间的关联性和单棵树的分类能力。

(X)5、决策树学习的结果,是得到一组规则集,且其中的规则是可以解释的。

(V)6、在FCM聚类算法中交替迭代优化目标函数的方法不一定得到最优解。

(V)7、在流形学习ISOMAP中,测地距离即是欧氏距离。

(X)8、贝叶斯决策实质上是按后验概率进行决策的。

(V)9、非参数估计需要较大数量的样本才能取得较好的估计结果。

(V)10、不需要显示定义特征是深度学习的优势之一。

(V)判断题为反扣分题目;答对得2分,不答得0分,答错得-2分;尹老师没有给出问答题的参考答案是怕限制大家的思路,我简要给出答题思路,仅供大家参考。

我发现好几个问题直接百度就可以找到答案,大家不妨自己搜一下。

也可以看一下机器学习十大算法那个PDF文件。

Co-training和ensemble learning两个文件大家有时间可以看一下了解了解。

二、问答题(共60分)1、从样本集推断总体概率分布的方法可以归结为哪几种类型?请分别简要解释之。

3种方法:监督参数估计、非监督参数估计、非参数估计这个可以参照第三章概率密度函数估计-1.ppt,写的不能再详细了。

监督参数估计:样本所属类别及类条件总体概率密度的形式已知,而表征概率密度函数的某些参数未知,需要根据样本集对总体分布中的某些参数进行估计。

非监督参数估计:已知总体概率密度函数形式,但未知样本所属类别,需要根据样本集对总体分布中的某些参数进行估计。

非参数估计:已知样本所属类别,未知总体概率密度的形式,需要依据样本集直接推断概率密度函数2、什么是k-近邻算法?K近邻算法,即给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K 个实例(也就是K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。

机器学习考试题目及答案

机器学习考试题目及答案

机器学习考试题目答案1.简描述机器学习概念?TomMitCheI1:"对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习J 我们遇到的大部分事情一般包括分类问题与回归问题。

如房价的预测,股价的预测等属于分类问题。

一般的处理过程是:首先,1)获取数据;2)提取最能体现数据的特征;3)利用算法建模;4)将建立的模型用于预测。

如人脸识别系统,首先我们获取到一堆人脸照片,首先,对数据进行预处理,然后提取人脸特征,最后用算法如SVM或者NN等。

这样,我们就建立了一个人脸识别系统,当输入一张人脸,我们就知道这张面孔是否在系统中。

这就是机器学习的整个流程,其次还包括寻找最优参数等。

机器学习主要分为:监督学习:数据集是有标签的,大部分机器学习模型都属于这一类别,包括线性分类器、支持向量机等等;无监督学习:跟监督学习相反,数据集是完全没有标签的,主要的依据是相似的样本在数据空间中一般距离是相近的,这样就能通过距离的计算把样本分类,这样就完全不需要IabeI,比如著名的kmeans算法就是无监督学习应用最广泛的算法;半监督学习:半监督学习一般针对的问题是数据量超级大但是有标签数据很少或者说标签数据的获取很难很贵的情况,训练的时候有一部分是有标签的而有一部分是没有的;强化学习:一直激励学习的方式,通过激励函数来让模型不断根据遇到的情况做出调整;2.循环神经网络的基本原理?RNNS的目的是用来处理序列数据。

在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。

但是这种普通的神经网络对于很多问题却无能无力。

例如,你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。

RNNS之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。

具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

机器学习课后习题答案

机器学习课后习题答案

第二章 模型评估与选择1.数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。

一个组合问题,从500500正反例中分别选出150150正反例用于留出法评估,所以可能取法应该是(C 500150)2。

2.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

10折交叉检验:由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也是一样的,所以错误率的期望是5050%。

留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是100%。

3.若学习器A 的F1值比学习器B 高,试析A 的BEP 值是否也比B 高。

4.试述真正例率(TPR )、假正例率(FPR )与查准率(P )、查全率(R )之间的联系。

查全率: 真实正例被预测为正例的比例真正例率: 真实正例被预测为正例的比例显然查全率与真正例率是相等的。

查准率:预测为正例的实例中真实正例的比例假正例率: 真实反例被预测为正例的比例两者并没有直接的数值关系。

第一章 绪论(略)机器学习(周志华)参考答案9.试述卡方检验过程。

第三章线性模型2.试证明,对于参数w,对率回归(logistics回归)的目标函数(式1)是非凸的,但其对数似然函数(式2)是凸的。

如果一个多元函数是凸的,那么它的Hessian矩阵是半正定的。

3.编程实现对率回归,并给出西瓜数据集3.0α上的结果/icefire_tyh/article/details/520688444.选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率。

/icefire_tyh/article/details/520689005.编程实现线性判别分析,并给出西瓜数据集3.0α上的结果。

机器学习第二章答案2

机器学习第二章答案2

1.1. Give three computer applications for which machine learning approaches seem appropriate and three for which they seem inappropriate. Pick applications that are not already mentioned in this chapter, and include a one-sentence justification for each.Ans.Machine learning: Face recognition, handwritten recognition, credit card approval.Not machine learning: calculate payroll, execute a query to database, use WORD.2.1. Explain why the size of the hypothesis space in the EnjoySport learning task is 973. How would the number of possible instances and possible hypotheses increase with the addition of the attribute WaterCurrent, which can take on the values Light, Moderate, or Strong? More generally, how does the number of possible instances and hypotheses grow with the addition of a new attribute A that takes on k possible values?Ans.Since all occurrence of “φ” for an attribute of the hypothesis results in a hypothesis which does not accept any instance, all these hypotheses are equal to that one where attribute is “φ”. So the number of hypothesis is 4*3*3*3*3*3 +1 = 973.With the addition attribute Watercurrent, the number of instances = 3*2*2*2*2*2*3 = 288, the number of hypothesis = 4*3*3*3*3*3*4 +1 = 3889.Generally, the number of hypothesis = 4*3*3*3*3*3*(k+1)+1.2.3. Consider again the EnjoySport learning task and the hypothesis space H described in Section 2.2. Let us define a new hypothesis space H' that consists of all pairwise disjunctions of the hypotheses in H. For example, a typical hypothesis in H' is (?, Cold, High, ?, ?, ?) v (Sunny, ?, High, ?, ?, Same) Trace the CANDIDATE-ELIMINATATION algorithm for the hypothesis space H' given the sequence of training examples from Table 2.1 (i.e., show the sequence of S and G boundary sets.)Ans.S0= (φ,φ,φ,φ,φ,φ) v (φ,φ,φ,φ,φ,φ)G0 = (?, ?, ?, ?, ?, ?) v (?, ?, ?, ?, ?, ?)Example 1: <Sunny, Warm, Normal, Strong, Warm, Same, Yes>S1=(Sunny, Warm, Normal, Strong, Warm, Same)v (φ,φ,φ,φ,φ,φ)G1 = (?, ?, ?, ?, ?, ?) v (?, ?, ?, ?, ?, ?)Example 2: <Sunny, Warm, High, Strong, Warm, Same, Yes>S2= {(Sunny, Warm, Normal, Strong, Warm, Same)v (Sunny, Warm, High, Strong, Warm, Same),(Sunny, Warm, ?, Strong, Warm, Same) v (φ,φ,φ,φ,φ,φ)}G2 = (?, ?, ?, ?, ?, ?) v (?, ?, ?, ?, ?, ?)Example 3: <Rainy, Cold, High, Strong, Warm, Change, No>S3={(Sunny, Warm, Normal, Strong, Warm, Same)v (Sunny, Warm, High, Strong, Warm, Same),(Sunny, Warm, ?, Strong, Warm, Same) v (φ,φ,φ,φ,φ,φ)}G3 = {(Sunny, ?, ?, ?, ?, ?) v (?, Warm, ?, ?, ?, ?),(Sunny, ?, ?, ?, ?, ?) v (?, ?, ?, ?, ?, Same),(?, Warm, ?, ?, ?, ?) v (?, ?, ?, ?, ?, Same)}Example 4: <Sunny, Warm, High, Strong, Cool, Change, Yes>S4= {(Sunny, Warm, ?, Strong, ?, ?) v (Sunny, Warm, High, Strong, Warm, Same),(Sunny, Warm, Normal, Strong, Warm, Same) v (Sunny, Warm, High, Strong, ?, ?),(Sunny, Warm, ?, Strong, ?, ?)v (φ,φ,φ,φ,φ,φ),(Sunny, Warm, ?, Strong, Warm, Same)v (Sunny, Warm, High, Strong, Cool, Change)}G4 = {(Sunny, ?, ?, ?, ?, ?) v (?, Warm, ?, ?, ?, ?),(Sunny, ?, ?, ?, ?, ?) v (?, ?, ?, ?, ?, Same),(?, Warm, ?, ?, ?, ?) v (?, ?, ?, ?, ?, Same)}2.4. Consider the instance space consisting of integer points in the x, y plane and the set of hypotheses H consisting of rectangles. More precisely, hypotheses are of the form a ≤x ≤ b, c ≤ y≤d, where a, b, c, and d can be any integers.(a) Consider the version space with respect to the set of positive (+) and negative (-) training examples shown below. What is the S boundary of the version space in this case? Write out the hypotheses and draw them in on the diagram.(b) What is the G boundary of this version space? Write out the hypotheses and draw them in.(c) Suppose the learner may now suggest a new x, y instance and ask the trainer for its classification. Suggest a query guaranteed to reduce the size of the version space, regardless of how the trainer classifies it. Suggest one that will not.(d) Now assume you are a teacher, attempting to teach a particular target concept (e.g., 3 ≤ x ≤ 5,2 ≤ y ≤ 9). What is the smallest number of training examples you can provide so that the CANDIDATE-ELIMINATION algorithm will perfectly learn the target concept?Ans. (a) S= (4,6,3,5) (b) G=(3,8,2,7) (c) e.g., (7,6), (5,4) (d) 4 points: (3,2,+), (5,9,+),(2,1,-),(6,10,-)2.6. Complete the proof of the version space representation theorem (Theorem 2.1).Proof: Every member of VS H,D satisfies the right-hand side of expression.Let h be an arbitrary member of VS H,D, then h is consistent with all training examples in D. Assuming h does not satisfy the right-hand side of the expression, it means ¬(∃s∈S)∃(g∈G)(g ≥ h ≥ s) = ¬(∃s∈S)∃(g∈G) (g ≥ h) ∧ (h ≥ s). Hence, there does not exist g from G so that g is more general or equal to h or there does not exist s from S so that h is more general or equal to s.If the former holds, it leads to an inconsistence according to the definition of G. If the later holds, itleads to an inconsistence according to the definition of S. Therefore, h satisfies the right-hand side of the expression. (Notes: since we assume the expression is not fulfilled, this can be only be if S or G is empty, which can only be in the case of any inconsistent training examples, such as noise or the concept target is not member of H.)。

机器学习复习题及答案

机器学习复习题及答案

一、单选题1、下列哪位是人工智能之父?()A.MarnivLeeMinskyB.HerbertA.SimonC.AllenNewellD.JohnCliffordShaw正确答案:A2、根据王珏的理解,下列不属于对问题空间W的统计描述是()。

A.-致性假设B•划分C■泛化能力D•学习能力正确答案:D3、下列描述无监督学习错误的是()。

A.无标签B•核心是聚类C•不需要降维D•具有很好的解释性正确答案:C4、下列描述有监督学习错误的是()。

A.有标签B•核心是分类C•所有数据都相互独立分布D•分类原因不透明正确答案:C5、下列哪种归纳学习采用符号表示方式?()A.经验归纳学习B■遗传算法C•联接学习D•强化学习正确答案:A6、混淆矩阵的假正是指()。

A.模型预测为正的正样本B•模型预测为正的负样本C•模型预测为负的正样本D•模型预测为负的负样本正确答案:B7、混淆矩阵的真负率公式是为()。

A.TP/(TP+FN)B.FP/(FP+TN)C.FN/(TP+FN)D.TN/(TN+FP)正确答案:D8、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,准确率是()。

A.1/4B.1/2C.4/7D.4/6正确答案:B9、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,精确率是()。

A.1/4B.1/2C.4/7D.2/3正确答案:C10、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,召回率是()。

A.1/4B.1/2C.4/7D.2/3正确答案:D11、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,F1-score是()。

A.4/13B.8/13C.4/7D.2/30.00/2.00正确答案:B12、EM算法的E和M指什么?()A.Expectation-MaximumB.Expect-MaximumC.Extra-MaximumD.Extra-Max正确答案:A13、EM算法的核心思想是?()A.通过不断地求取目标函数的下界的最优值,从而实现最优化的目标。

机器学习练习题与答案

机器学习练习题与答案

单变量函数的梯度下降我们假设有一个单变量的函数函数的微分初始化,起点为学习率为根据梯度下降的计算公式我们开始进行梯度下降的迭代计算过程:如图,经过四次的运算,也就是走了四步,基本就抵达了函数的最低点,也就是山底多变量函数的梯度下降我们假设有一个目标函数:现在要通过梯度下降法计算这个函数的最小值。

我们通过观察就能发现最小值其实就是 (0,0)点。

但是接下来,我们会从梯度下降算法开始一步步计算到这个最小值!我们假设初始的起点为:初始的学习率为:函数的梯度为:进行多次迭代:我们发现,已经基本靠近函数的最小值点1.小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点”,他说了以下言论,请逐条判断是否准确。

1)回归和分类都是有监督学习问题[单选题] [必答题]○对○错参考答案:对。

解析:这道题只有一个同学做错。

本题考察有监督学习的概念。

有监督学习是从标签化训练数据集中推断出函数的机器学习任务。

有监督学习和无监督学习的区别是:机器学习算法的图谱如下:在回归问题中,标签是连续值;在分类问题中,标签是离散值。

具体差别请看周志华《机器学习》书中的例子,一看便懂:2.背景同上题。

请判断2)回归问题和分类问题都有可能发生过拟合 [单选题] [必答题]○对○错答案:对解析:这题有两个同学做错。

过拟合的英文名称是 Over-fitting(过拟合)。

为了说清楚“过”拟合,首先说一下“拟合”【拟合的几何意义】:从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲面来最大限度地逼近这些点。

一个直观的例子,是下面的电阻和温度的例子。

我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b。

现在我们有一系列关于“温度”和“电阻”的测量值。

一个最简单的思路,取两组测量值,解一个线性方程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多次,得到多组的值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线,让这条直线尽可能地接近各个测量得到的点。

机器学习原理及应用练习题答案

机器学习原理及应用练习题答案

机器学习原理及应用练习题答案第一章机器研究概述1.机器研究研究什么问题,构建一个完整的机器研究算法需要哪些要素?机器研究主要研究如何选择统计研究模型,从大量已有数据中研究特定经验。

构建一个完整的机器研究算法需要三个方面的要素,分别是数据,模型,性能度量准则。

2.可以生成新数据的模型是什么,请举出几个例子可以生成新数据的模型是生成模型,典型的生成模型有朴素贝叶斯分类器、高斯混合模型、隐马尔可夫模型、生成对抗网络等。

3.监督研究、半监督研究和无监督研究是什么,降维和聚类属于哪一种?监督研究是指样本集合中包含标签的机器研究,无监督研究是无标签的机器研究,而半监督研究介于二者之间。

降维和聚类是无监督研究。

4.过拟合和欠拟合会导致什么后果,应该怎样避免?过拟合导致模型泛化能力弱,发生明显的预测错误,往往是由于数据量太少或模型太复杂导致,通过增加训练数据量,对模型进行裁剪,正则化的方式来缓解。

而欠拟合则会导致模型不能对数据进行很好地拟合,通常是由于模型本身不能对训练集进行拟合或者训练迭代次数太少,解决方法是对模型进行改进,设计新的模型重新训练,增加训练过程的迭代次数。

5.什么是正则化,L1正则化与L2正则化有什么区别?正则化是一种抑制模型复杂度的方法。

L1正则化能够以较大概率获得稀疏解,起到特征选择的作用,并且可能得到不止一个最优解。

L2正则化相比前者获得稀疏解的概率小的多,但得到的解更加平滑。

第二章逻辑回归与最大熵模型1.逻辑回归模型解决(B)A.回归问题B.分类问题C.聚类问题D.推理问题2.逻辑回归属于(B)回归A.概率性线性B.概率性非线性C.非概率性线性D.非概率性非线性3.逻辑回归不能实现(D)A.二分类B.多分类C.分类展望D.非线性回归4.以下关于最大熵模型的表述毛病的是(B)A.最大熵模型是基于熵值越大模型越稳定的假设B.最大熵模型使用最大熵原理中一般意义上的熵建模以此缩小模型假设空间C.通过定义最大熵模型的参数可以实现与多分类逻辑回归相同的作用D.最大熵模型是一种分类算法5.下列关于模型评价指标的表述错误的是(C)A.正确率、精确率、召回率以及AUC均是建立在殽杂矩阵的基础上B.在样本不平衡的条件下正确率并不能作为很好的指标来权衡结果C.正确率表示所有被展望为正的样本中实际为正的样本的概率D.普通来说,置信度阈值越高,召回率越低,而精确率越高6.简述逻辑回归的道理。

第二版习题参考答案

第二版习题参考答案

武汉科学与技术学院计算机技术系大学计算机基础实验与习题第二版参考答案供教师参考第1~3、5、7章张葵;第4、9章吴志芳;第6章丁胜;第8章王思鹏张葵整理若有建议及意见,请发邮件至zhangkui@,谢谢您!2015年11月目录第1章概述习题 (1)第2章计算机系统习题 (2)第3章信息在计算机中的表示习题 (7)第4章操作系统基础习题 (10)第5章计算机网络基础习题 (13)第6章程序设计基础习题 (17)第7章数据结构与常用算法习题 (26)第8章数据库技术基础习题 (32)第9章信息安全基础习题 (39)第1章概述习题一、单项选择题1~5 DBCCD 6~10 DCCBB 11~12 AA答案解析:3.除C选项外,其余的关于ENIAC的描述都是正确的。

冯•诺依曼提出的计算机实现的基本思想在ENIAC 计算机之后,所以ENIAC计算机那时还没有采用“程序存储”的思想。

4. 计算机的“存储程序控制”的思想是计算机区别于其他计算机器的主要特征。

A、B、D选项都是计算机的特征,但不是计算机自动工作的主要原因。

5. 早期的计算机都是用于数值计算,随着计算机的普及和发展,才逐渐应用到人工智能、过程控制、信息处理等领域。

6. MIPS表示每秒兆个指令,是表示计算机的运算速度的指标。

8.性价比低和体积小不是所有计算机的特征。

9.计算机的发展历程用第几代来表示,主要以所用的电子元器件来划分的。

12.对计算机的一种分类是依据计算机的CPU的型号来划分的。

B、C、D都不是划分的依据。

二、简答题1. 计算机的定义是什么?答:计算机定义:计算机是一种能按照事先存储的程序,自动、高速地进行大量数值计算和各种信息处理的现代化智能电子装置。

2. 计算机的特点有哪些?答:计算机的特点是:(1)运算速度快;(2)计算精度高;(3)记忆力强;(4)具有逻辑判断能力;(5)可靠性高、通用性强。

3. 计算机有哪些发展趋势?答:计算机的发展趋势:(1)高性能计算;(2)普适计算;(3)云计算;(4)生物计算;(5)智能计算;(6)未来互联网技术。

机器学习题集

机器学习题集

机器学习题集一、选择题1.机器学习的主要目标是什么?A. 使机器具备人类的智能B. 使机器能够自动学习和改进C. 使机器能够模拟人类的思维过程D. 使机器能够按照给定的规则执行任务答案:B2.下列哪项不是机器学习算法的分类?A. 监督学习B. 无监督学习C. 半监督学习D. 完全手动学习答案:D3.在机器学习中,以下哪项是指学习算法在给定训练集上的表现能力?A. 泛化能力B. 训练误差C. 过拟合D. 欠拟合答案:B4.哪种机器学习算法通常用于处理回归问题?A. 支持向量机(SVM)B. K-近邻(K-NN)C. 线性回归D. 决策树答案:C5.深度学习是机器学习的哪个子领域?A. 弱学习B. 表示学习C. 概率学习D. 规则学习答案:B6.在监督学习中,算法尝试从训练数据中学习什么?A. 数据的分布B. 数据的模式C. 输入到输出的映射D. 数据的统计特性答案:C7.以下哪项是机器学习模型评估中常用的交叉验证方法?A. 留出法B. 梯度下降C. 决策树剪枝D. K-均值聚类答案:A8.在机器学习中,正则化通常用于解决什么问题?A. 数据不足B. 过拟合C. 欠拟合D. 维度灾难答案:B9.以下哪项是深度学习中常用的激活函数?A. 线性函数B. Sigmoid函数C. 逻辑回归D. 梯度提升答案:B10.在机器学习中,特征工程主要关注什么?A. 数据的收集B. 数据的清洗C. 从原始数据中提取有意义的特征D. 模型的部署答案:C11.下列哪个算法通常用于分类问题中的特征选择?A. 决策树B. PCA(主成分分析)C. K-均值聚类D. 线性回归答案:A12.集成学习通过结合多个学习器的预测结果来提高整体性能,这种方法属于哪种策略?A. 监督学习B. 弱学习C. 规则学习D. 模型融合答案:D13.在深度学习中,卷积神经网络(CNN)主要用于处理哪种类型的数据?A. 文本数据B. 图像数据C. 时间序列数据D. 语音数据答案:B14.以下哪个指标用于评估分类模型的性能时,考虑到了类别不平衡的问题?A. 准确率B. 精确率C. 召回率D. F1分数答案:D15.在强化学习中,智能体通过什么来优化其行为?A. 奖励函数B. 损失函数C. 梯度下降D. 决策树答案:A16.以下哪项是机器学习中的无监督学习任务?A. 图像分类B. 聚类分析C. 情感分析D. 回归分析答案:B17.在机器学习中,梯度下降算法主要用于什么?A. 数据的收集B. 模型的训练C. 数据的清洗D. 模型的评估答案:B18.以下哪项是机器学习中常用的正则化技术之一?A. L1正则化B. 决策边界C. 梯度提升D. 逻辑回归答案:A19.在机器学习中,过拟合通常发生在什么情况?A. 模型太复杂,训练数据太少B. 模型太简单,训练数据太多C. 数据集完全随机D. 使用了不合适的激活函数答案:A20.以下哪个算法是基于树的集成学习算法之一?A. 随机森林B. 线性回归C. K-近邻D. 神经网络答案:A21.在机器学习中,确保数据质量的关键步骤之一是:A. 初始化模型参数B. 提取新特征C. 数据清洗D. 损失函数最小化答案:C22.监督学习中,数据通常被分为哪两部分?A. 训练集和验证集B. 输入特征和输出标签C. 验证集和测试集D. 数据集和标签集答案:B23.数据标注在机器学习的哪个阶段尤为重要?A. 模型评估B. 特征工程C. 数据预处理D. 模型训练答案:C24.下列哪项不是数据清洗的常用方法?A. 处理缺失值B. 转换数据类型C. 去除异常值D. 初始化模型参数答案:D25.数据分割时,以下哪个集合通常用于评估模型的最终性能?A. 训练集B. 验证集C. 测试集D. 验证集和测试集答案:C26.在数据标注过程中,为每个样本分配的输出值被称为:A. 特征B. 权重C. 损失D. 标签答案:D27.数据代表性不足可能导致的问题是:A. 过拟合B. 欠拟合C. 收敛速度过慢D. 模型复杂度过高答案:B28.下列哪项不是数据收集时应考虑的因素?A. 数据源的可靠性B. 数据的隐私保护C. 模型的复杂度D. 数据的完整性答案:C29.数据清洗中,处理缺失值的一种常用方法是:A. 删除包含缺失值的行或列B. 使用均值、中位数或众数填充C. 将缺失值视为新特征D. 停止模型训练答案:A, B(多选,但此处只选一个最直接的答案)A30.数据的泛化能力主要取决于:A. 模型的复杂度B. 数据的多样性C. 算法的先进性D. 损失函数的选择答案:B31.监督学习中,输入特征与输出标签之间的关系是通过什么来学习的?A. 损失函数B. 决策树C. 神经网络D. 训练过程答案:D32.数据标注的准确性对模型的什么能力影响最大?A. 泛化能力B. 收敛速度C. 预测精度D. 特征提取答案:C33.在数据预处理阶段,处理噪声数据的主要目的是:A. 提高模型训练速度B. 降低模型的复杂度C. 提高模型的预测准确性D. 减少数据存储空间答案:C34.下列哪项不属于数据清洗的范畴?A. 缺失值处理B. 异常值检测C. 特征选择D. 噪声处理答案:C35.数据标注的自动化程度受什么因素影响最大?A. 数据集的大小B. 数据的复杂性C. 标注工具的效率D. 模型的训练时间答案:B36.在数据分割时,为什么需要设置验证集?A. 仅用于训练模型B. 评估模型在未见过的数据上的表现C. 替代测试集进行最终评估D. 加速模型训练过程答案:B37.数据的标签化在哪些类型的机器学习任务中尤为重要?A. 无监督学习B. 半监督学习C. 监督学习D. 强化学习答案:C38.数据质量对模型性能的影响主要体现在哪些方面?A. 模型的收敛速度B. 模型的复杂度C. 模型的预测精度D. 模型的泛化能力答案:C, D(多选,但此处只选一个最直接的答案)D39.下列哪项不是数据清洗和预处理阶段需要完成的任务?A. 数据标注B. 缺失值处理C. 噪声处理D. 模型评估答案:D40.数据多样性对防止哪种问题有重要作用?A. 欠拟合B. 过拟合C. 收敛速度过慢D. 损失函数波动答案:B41.机器学习的基本要素不包括以下哪一项?A. 模型B. 特征C. 规则D. 算法答案:C42.哪种机器学习算法常用于分类任务,并可以输出样本属于各类的概率?A. 线性回归B. 支持向量机C. 逻辑回归D. 决策树答案:C43.模型的假设空间是指什么?A. 模型能够表示的所有可能函数的集合B. 数据的特征向量集合C. 算法的复杂度D. 损失函数的种类答案:A44.下列哪个是评估模型好坏的常用准则?A. 准确率B. 损失函数C. 数据集大小D. 算法执行时间答案:B45.哪种算法特别适合于处理非线性关系和高维数据?A. 朴素贝叶斯B. 神经网络C. 决策树D. 线性回归答案:B46.在机器学习中,特征选择的主要目的是什么?A. 减少计算量B. 提高模型的可解释性C. 提高模型的泛化能力D. 以上都是答案:D47.结构风险最小化是通过什么方式实现的?A. 增加训练数据量B. 引入正则化项C. 减小模型复杂度D. 改进损失函数答案:B48.哪种算法常用于处理时间序列数据并预测未来值?A. 朴素贝叶斯B. 随机森林C. ARIMAD. 逻辑回归答案:C49.在决策树算法中,分割数据集的标准通常基于什么?A. 损失函数B. 信息增益C. 数据的分布D. 模型的复杂度答案:B50.哪种策略常用于处理类别不平衡的数据集?A. 采样B. 特征缩放C. 交叉验证D. 正则化答案:A51.监督学习的主要任务是什么?A. 从无标签数据中学习规律B. 预测新数据的标签C. 自动发现数据中的模式D. 生成新的数据样本答案:B52.下列哪个是监督学习算法?A. K-means聚类B. 线性回归C. PCA(主成分分析)D. Apriori算法(关联规则学习)答案:B53.在监督学习中,标签(label)通常指的是什么?A. 数据的索引B. 数据的特征C. 数据的类别或目标值D. 数据的分布答案:C54.监督学习中的损失函数主要用于什么?A. 评估模型的复杂度B. 衡量模型预测值与真实值之间的差异C. 生成新的数据样本D. 划分数据集为训练集和测试集答案:B55.下列哪种方法常用于处理分类问题中的多类分类?A. 二元逻辑回归B. 一对多(One-vs-All)策略C. 层次聚类D. PCA降维答案:B56.在监督学习中,过拟合通常指的是什么?A. 模型在训练集上表现很好,但在测试集上表现不佳B. 模型在训练集和测试集上表现都很好C. 模型在训练集上表现很差D. 模型无法学习到任何有用的信息答案:A57.下列哪个技术常用于防止过拟合?A. 增加数据集的大小B. 引入正则化项C. 减少模型的特征数量D. 以上都是答案:D58.交叉验证的主要目的是什么?A. 评估模型的性能B. 划分数据集C. 选择最优的模型参数D. 以上都是答案:D59.在监督学习中,准确率(Accuracy)的计算公式是什么?A. 正确预测的样本数 / 总样本数B. 误分类的样本数 / 总样本数C. 真正例(TP)的数量D. 真正例(TP)与假负例(FN)之和答案:A60.下列哪个指标在分类问题中考虑了类别的不平衡性?A. 准确率(Accuracy)B. 精确率(Precision)C. 召回率(Recall)D. F1分数(F1 Score)(注意:虽然F1分数不完全等同于解决类别不平衡,但在此选项中,它相比其他三个更全面地考虑了精确率和召回率)答案:D(但请注意,严格来说,没有一个指标是专为解决类别不平衡设计的,F1分数是精确率和召回率的调和平均,对两者都给予了重视)61.监督学习中的训练集包含什么?A. 无标签数据B. 有标签数据C. 噪声数据D. 无关数据答案:B62.下列哪个不是监督学习的步骤?A. 数据预处理B. 模型训练C. 模型评估D. 数据聚类答案:D63.逻辑回归适用于哪种类型的问题?A. 回归问题B. 分类问题C. 聚类问题D. 降维问题答案:B64.监督学习中的泛化能力指的是什么?A. 模型在训练集上的表现B. 模型在测试集上的表现C. 模型的复杂度D. 模型的训练时间答案:B65.梯度下降算法在监督学习中常用于什么?A. 特征选择B. 损失函数最小化C. 数据划分D. 类别预测答案:B66.在处理多标签分类问题时,每个样本可能属于多少个类别?A. 0个B. 1个C. 1个或多个D. 唯一确定的1个答案:C67.下列哪个不是监督学习常用的评估指标?A. 准确率B. 精确率C. 召回率D. 信息增益答案:D68.监督学习中的偏差(Bias)和方差(Variance)分别指的是什么?A. 模型的复杂度B. 模型在训练集上的表现C. 模型预测值的平均误差D. 模型预测值的变化程度答案:C(偏差),D(方差)69.ROC曲线和AUC值主要用于评估什么?A. 回归模型的性能B. 分类模型的性能C. 聚类模型的性能D. 降维模型的性能答案:B70.在处理不平衡数据集时,哪种策略可能不是首选?A. 重采样技术B. 引入代价敏感学习C. 使用集成学习方法D. 忽略不平衡性直接训练模型答案:D二、简答题1.问题:什么是无监督学习?答案:无监督学习是一种机器学习方法,它使用没有标签的数据集进行训练,目标是发现数据中的内在结构或模式,如聚类、降维等。

周志华《机器学习》课后答案——第4章.决策树

周志华《机器学习》课后答案——第4章.决策树

周志华《机器学习》课后答案——第4章.决策树
周志华⽼师的《机器学习》是⼀本⾮常难得的国内学者的好教材。

为了好好学习,博主决定啃⼀啃周⽼师书中的课后习题。

本⼈答案仅供参考,若有错误,请⼤神们不吝指教。

(本系列⽂章实时更新)
1.试证明对于不含冲突数据(即特征向量完全相同但标记不同)的训练集,必存在与训练集⼀致(即训练误差为0)的决策树。

答:不含冲突数据;决策树是按照特征来进⾏划分->可以得到每个叶节点中的样本的所有特征及标记完全相同的决策树->与训练集⼀致。

试析使⽤"最⼩训练误差"作为决策树划分选择准则的缺陷
答:使⽤"最⼩训练误差"作为决策树划分选择准则,由于使⽤的是训练集数据,可能会将训练特征中的⼀些异常或者偶然作为模型的⼀部分,导致过度拟合的问题。

试编程实现基于信息熵进⾏划分选择的决策树算法,并为表4.3中数据⽣成⼀棵决策树。

机器学习知到章节答案智慧树2023年同济大学

机器学习知到章节答案智慧树2023年同济大学

机器学习知到章节测试答案智慧树2023年最新同济大学第一章测试1.回归和分类都是有监督学习问题。

()参考答案:对2.输出变量为有限个离散变量的预测问题是回归问题;输出变量为连续变量的预测问题是分类问题。

()参考答案:错3.关于“回归(Regression)”和“相关(Correlation)”,下列说法正确的是?注意:x 是自变量,y 是因变量。

()参考答案:回归在 x 和 y 之间是非对称的,相关在 x 和 y 之间是互为对称的4.如果一个经过训练的机器学习模型在测试集上达到 100% 的准确率,这就意味着该模型将在另外一个新的测试集上也能得到 100% 的准确率。

()参考答案:错5.机器学习学得的模型适用于新样本的能力,称为"泛化"能力,这是针对分类和回归等监督学习任务而言的,与聚类这样的无监督学习任务无关。

()参考答案:错6.机器学习时,我们通常假设样本空间中的全体样本都服从某个未知"分布",并且我们获得的每个样本都是独立地从这个分布上采样获得的。

()参考答案:对7.从归纳偏好一般性原则的角度看,"奥卡姆剃刀" (Occam's razor)准则与“大道至简”说的是相同的道理。

()参考答案:对8.以下方法或系统属于"符号主义" (symbolism)学习技术的是()参考答案:"概念学习系统";"基于逻辑的归纳学习系统“;"结构学习系统"9.以下方法或技术属于统计学习范畴的是()参考答案:支持向量机;核方法10.归纳学习相当于"从样例中学习",即从训练样例中归纳出学习结果。

()参考答案:对第二章测试1.回归问题和分类问题都有可能发生过拟合。

()参考答案:对2.对于k折交叉验证, 以下对k的说法正确的是()参考答案:k越大, 不一定越好, 选择大的k会加大评估时间;选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集);在选择k时, 要最小化数据集之间的方差3.小明参加Kaggle某项大数据竞赛,他的成绩在大赛排行榜上原本居于前20,后来他保持特征不变,对原来的模型做了1天的调参,将自己的模型在自己本地测试集上的准确率提升了3%,然后他信心满满地将新模型的预测结果更新到了大赛官网上,结果懊恼地发现自己的新模型在大赛官方的测试集上准确率反而下降了。

机器学习算法及答案

机器学习算法及答案

机器学习算法及答案
机器研究算法是一种通过构建数学模型和使用大量数据来让机器自动研究和改进的方法。

以下是一些常见的机器研究算法和它们的应用领域:
1. 线性回归算法:
- 描述:线性回归算法用于建立一个线性关系模型,通过拟合数据点来预测连续数值型的输出。

- 应用:在房价预测、销售预测等问题中可以使用线性回归算法。

2. 决策树算法:
- 描述:决策树算法使用树形结构来做出决策,通过对输入数据的特征进行分类和分割。

- 应用:在医疗诊断、风险评估等问题中,决策树算法可以帮助做出决策。

3. 支持向量机算法:
- 描述:支持向量机算法通过寻找一个最优的超平面,将不同类别的样本分开。

- 应用:在图像分类、文本分类等问题中,支持向量机算法被广泛应用。

4. 朴素贝叶斯算法:
- 描述:朴素贝叶斯算法基于贝叶斯定理和特征独立性假设,用于处理分类问题。

- 应用:在垃圾邮件过滤、情感分析等问题中,朴素贝叶斯算法可以帮助分类。

5. k-近邻算法:
- 描述:k-近邻算法根据离目标样本最近的k个邻居来进行分类。

- 应用:在推荐系统、异常检测等问题中,k-近邻算法可以进行相似性匹配。

以上仅是一些常见的机器学习算法,每个算法有其特定的优缺点和适用场景。

在应用机器学习算法时,要根据具体问题选择合适的算法,并进行模型训练和评估。

机器学习练习题与答案

机器学习练习题与答案

机器学习练习题与答案《机器学习》练习题与解答1.小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点”,他说了以下言论,请逐条判断是否准确。

1)回归和分类都是有监督学习问题[单选题] [必答题]○对○错参考答案:对。

解析:这道题只有一个同学做错。

本题考察有监督学习的概念。

有监督学习是从标签化训练数据集中推断出函数的机器学习任务。

有监督学习和无监督学习的区别是:机器学习算法的图谱如下:在回归问题中,标签是连续值;在分类问题中,标签是离散值。

具体差别请看周志华《机器学习》书中的例子,一看便懂:2.背景同上题。

请判断2)回归问题和分类问题都有可能发生过拟合 [单选题] [必答题] ○对○错答案:对解析:这题有两个同学做错。

过拟合的英文名称是Over-fitting(过拟合)。

为了说清楚“过”拟合,首先说一下“拟合”【拟合的几何意义】:从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲面来最大限度地逼近这些点。

一个直观的例子,是下面的电阻和温度的例子。

我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b。

现在我们有一系列关于“温度”和“电阻”的测量值。

一个最简单的思路,取两组测量值,解一个线性方程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多次,得到多组的值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线,让这条直线尽可能地接近各个测量得到的点。

拟合的数学意义:在数学的意义上,所谓拟合(fit)是指已知某函数的若干离散函数值{f1,f2,…,fn}(未必都是准确值,有个别可能是近似甚至错误值),通过调整该函数中若干待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小。

【说说过拟合】古人云“过犹不及”。

机器学习课后习题答案

机器学习课后习题答案

机器学习课后习题答案一、回归问题1. 什么是回归问题?回归问题是指预测一个或多个连续值的问题。

在机器学习中,回归算法通过对已有的输入数据进行学习,建立一个数学模型,用于预测连续型输出变量的取值。

2. 回归问题有哪些常用的评价指标?常用的回归问题评价指标包括:•均方误差(Mean Squared Error,MSE):计算预测值与真实值之间的差异的均方值。

公式如下:MSE = (1/n) * Σ(y_pred - y_true)^2其中,y_pred是预测值,y_true是真实值,n是样本数量。

MSE越小,表示预测值与真实值的拟合程度越好。

•均方根误差(Root Mean Squared Error,RMSE):MSE的平方根。

公式如下:RMSE = √MSERMSE与MSE类似,用于评估预测值与真实值之间的差异,但RMSE更为直观。

•平均绝对误差(Mean Absolute Error,MAE):计算预测值与真实值之间的绝对差异的均值。

公式如下:MAE = (1/n) * Σ|y_pred - y_true|MAE越小,表示预测值与真实值的差异越小。

3. 请简要介绍线性回归算法的原理。

线性回归是一种基本的回归算法,它通过建立一个线性模型来描述自变量与因变量之间的关系。

线性回归的目标是找到最佳拟合直线来最小化预测值与真实值之间的误差。

线性回归算法的原理可以概括如下:1.假设自变量与因变量之间存在线性关系:y = β0 + β1*x1 + β2*x2 + ... + βn*xn + ε其中,y是因变量,x1, x2, …, xn是自变量,β0, β1, β2, …,βn是模型的参数,ε是误差项。

2.最小化误差:通过最小二乘法来确定最优的参数值,使预测值与真实值之间的误差最小化。

3.模型训练和预测:使用已知的训练数据集来训练模型,得到最优的参数值。

然后,可以使用该模型对新的输入数据进行预测。

4. 请简要介绍逻辑回归算法的原理。

2023年智慧树知道网课《机器学习》课后章节测试满分答案

2023年智慧树知道网课《机器学习》课后章节测试满分答案

2023年智慧树知道网课《机器学习》课后章节测试满分答案第一章简介1. 机器研究是一门研究如何使计算机模仿人类研究能力的学科。

2. 机器研究算法可以分为监督研究、无监督研究和强化研究三种类型。

3. 监督研究的目标是根据已经标记的数据来进行预测或分类。

4. 无监督研究的目标是从未标记的数据中发现模式或结构。

5. 强化研究是通过试错来研究,通过与环境进行交互来优化决策策略。

第二章监督研究2. 常用的监督研究算法有线性回归、逻辑回归和决策树等。

3. 线性回归用于建立输入特征与输出标签之间的线性关系。

4. 逻辑回归用于进行二分类或多分类任务。

5. 决策树是一种通过一系列特征判断来进行分类的算法。

第三章无监督研究1. 无监督研究是一种从未标记的数据中发现模式或结构的研究方法。

2. 常见的无监督研究算法有聚类和降维。

3. 聚类算法根据样本的相似性将其分为不同的类别。

4. 降维算法可以将高维数据映射到低维空间,减少数据的维度。

第四章强化研究1. 强化研究是一种通过与环境进行交互来研究的方法。

2. 在强化研究中,智能体通过观察环境的状态、采取行动和获得奖励来研究最优策略。

3. 常用的强化研究算法有Q-learning和深度强化研究等。

4. Q-learning是一种经典的强化研究算法,用于解决马尔可夫决策问题。

5. 深度强化研究结合了深度研究和强化研究的技术,可以在复杂环境中研究最优策略。

以上为《机器学习》课后章节测试满分答案,希望能对大家的学习有所帮助。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、判断题(共30分,每题2分,打√或×)1、如果问题本身就是非线性问题,使用支持向量机(SVM)是难以取得好的预测效果的。

(×)2、只要使用的半监督学习方法合适,利用100个标记样本和1000个无标记样本的预测效果,同样可以达到利用1100个标记样本使用监督学习方法的预测效果。

(×)3、深度学习中应该尽量避免过拟合。

(×)4、在随机森林Bagging过程中,每次选取的特征个数为m,m的值过大会降低树之间的关联性和单棵树的分类能力。

(×)5、决策树学习的结果,是得到一组规则集,且其中的规则是可以解释的。

(√)6、在FCM聚类算法中交替迭代优化目标函数的方法不一定得到最优解。

(√)7、在流形学习ISOMAP中,测地距离即是欧氏距离。

(×)8、贝叶斯决策实质上是按后验概率进行决策的。

(√)9、非参数估计需要较大数量的样本才能取得较好的估计结果。

(√)10、不需要显示定义特征是深度学习的优势之一。

(√)判断题为反扣分题目;答对得2分,不答得0分,答错得-2分;尹老师没有给出问答题的参考答案是怕限制大家的思路,我简要给出答题思路,仅供大家参考。

我发现好几个问题直接百度就可以找到答案,大家不妨自己搜一下。

也可以看一下机器学习十大算法那个PDF文件。

Co-training 和ensemble learning两个文件大家有时间可以看一下了解了解。

二、问答题(共60分)1、从样本集推断总体概率分布的方法可以归结为哪几种类型?请分别简要解释之。

3种方法:监督参数估计、非监督参数估计、非参数估计这个可以参照第三章概率密度函数估计-1.ppt,写的不能再详细了。

监督参数估计:样本所属类别及类条件总体概率密度的形式已知,而表征概率密度函数的某些参数未知,需要根据样本集对总体分布中的某些参数进行估计。

非监督参数估计:已知总体概率密度函数形式,但未知样本所属类别,需要根据样本集对总体分布中的某些参数进行估计。

非参数估计:已知样本所属类别,未知总体概率密度的形式,需要依据样本集直接推断概率密度函数2、什么是k-近邻算法?K近邻算法,即给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。

该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。

当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。

3、决策树的C4.5算法与ID3算法相比主要有哪些方面的改进?From ID3 to C4.5:1、用信息增益比来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2、增加了后剪枝操作。

3、能够完成对连续属性的离散化处理;4、能够处理属性存在不同损失的情况;5、能够对不完整数据进行处理。

4、就您的理解,谈谈什么是集成学习?集成学习要想取得好的效果,应该满足的两个条件是什么?集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。

集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。

如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。

必要条件:被集成的各个基学习器(分类器)性能越高(分类正确率越高)越好。

各个基学习器(分类器)具有互补性,或者说互补性越大越好。

5、就您的理解,谈谈什么是半监督学习?请简要介绍Co-training的基本思想半监督学习是监督学习与无监督学习相结合的一种学习方法。

它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。

Co-training是将特征x分为互相独立的两个部分,分别训练两个分类器,用learner1分类未标记的数据,选取置信度高的结果放入标记的数据中,对新生成的数据集再训练learner2,同样将learner2产生的结果放入数据集中形成新的数据集,训练learner1,重复这个过程,最终两个分类器趋于相同的分类结果。

Co-training算法假设数据属性拥有两个充分冗余的视图,称之为view1 和view2。

算法基本流程是:首先在标记数据集L 的view1 和view2,分别上训练出两个分类器C1 和C2;然后从未标记数据集U 上随机的选取u 个示例放入集合U’中;分别用C1 和C2 对U’中的所有元素进行标记;接着从两个分类器标记结果中各取可信度最高的p 个正标记和n 个负标记放入L 中;最后从U 中选取2p+2n 个数据补充到U’中;重复上述过程直到满足截止条件。

6、就您的理解,请分别概述何谓代价敏感性学习、何谓类别不平衡学习。

(1)不同错误的代价或者是后果是不一样的,甚至差别很大。

(2)不追求总的错误率最小,而是尽量避免代价大的分类错误,是代价敏感性学习的基本思想。

(3)在代价敏感性学习的思想下,要使分界面远离分类错误代价大的那一类,或者说尽量减少犯分类代价大的那类错误。

代价敏感的学习方法是机器学习领域中的一种新方法,它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。

不同的分类错误有不同的代价(cost),代价敏感学习的目标就是最小化总分类代价。

现实生活中,经常会存在这样的数据,即某一类别所包含的样本的数量远远小于其他类别所包含的样本数量,我们称这样的数据为类别不平衡数据。

在这些数据集中,人们主要关注的是小类样本的信息(少数类),但是传统的分类方法由于追求总体的准确率,很容易将全部样本判别为多数类,使得分类器在少数类样本上的效果变得很差。

这样误分的代价是巨大的。

类别不平衡数据的研究主要集中在两个个层面:对数据集的处理和对分类算法的改进。

对数据集的处理主要是用重采样的方法对数据集重构,改变原始数据集的分布,缩减其不平衡程度,主要方法有欠取样和过取样;对分类算法的改进主要是修改传统分类算法,使之适应类别不平衡数据分类,如代价敏感学习及基于Boosting的方法等。

7、试简述流型学习方法ISOMAP的基本思想及其优缺点。

ISOMAP就是把任意两点的测地距离作为流形的几何描述,用MDS理论框架理论上保持这个点与点之间的最短距离。

算法的关键在于利用样本向量之间的欧氏距离dx(i,j)计算出样本之间的测地距离dG(i,j),从而真实再现高维数据内在的非线性几何结构。

然后使用经典MDS 算法构造一个新的d维欧氏空间Y(d是降维空间的维数),最大限度地保持样本之间的欧式距离dY(i,j)与dG(i,j)误差最小,从而达到降维的目的。

ISOMAP的优点:可以最大限度的保留原始数据的信息;依赖于线性代数的特征值和特征向量问题,保证了结果的稳健性和全局最优性缺点:适用范围有限,流形必须是内部平坦的;计算每两个点的距离,时间复杂度较大。

Isomap优点:(1)能处理非线性流形之类的高维数据;(2)全局优化;(3)不管输入空间是高度折叠的,还是扭曲的,或者弯曲的,Isomap仍然能全局优化低维的欧式表示;(4)Isomap能保证渐进地恢复到真实的维度。

Isomap缺点:(1)可能在数据拓扑空间是不稳定的,依赖的;(2)保证渐进恢复到非线性流形的几何结构的时候:当N增加的时候,点对距离提供更加接近于测地的距离,但是花更多计算时间;假如N是小的,测地距离将会非常不精确。

8、就您的理解,请概述何谓多标记学习。

多标记学习关注于如何对具有多个不同概念标记的对象进行有效地建模,在该框架下,学习系统通过对具有一组概念标记(label set)的训练例进行学习,以尽可能正确地对训练集之外示例的概念集合进行预测。

形式化地说,多标记学习的任务是从数据集{(x1,Y1), (x2,Y2),…,(xm,Ym)}中学得函数f:x→2y,其中xi∈x为一个示例而Yi y为示例xi所属的一组概念标记。

9、就您的理解,谈谈什么是聚类?请简要介绍您所熟悉的一种聚类方法。

聚类是将多个对象按照某种相似度的度量方式分成不同的组(簇)。

是一种无监督的学习方法,聚类的样本中没有类别y只有特征x,聚类的目的是找到每个样本x潜在的类别y,并将同类别y 的样本x 放在一起。

k-means 算法是一种很常见的聚类算法,它的基本思想是:通过迭代寻找k 个聚类的一种划分方案,使得用这k 个聚类的均值来代表相应各类样本时所得的总体误差最小。

其算法描述如下:选择K 个点作为初始质心Repeat将每个点指派到离它最近的质心,形成K 个簇重新计算每个簇的质心Until 簇不再发生变化或者达到最大迭代次数三、计算题(共10分)1、有如图所示的神经网络。

Squash function 为:,1()1,1x x f x x ≥⎧=⎨<⎩ ,输入样本121,0x x ==,输出节点为z ,第k 次学习得到的权值为:1112212212()0,()2,()2,()1,()1,()1w k w k w k w k T k T k ======。

试求第k 次前向传播学习得到的输出节点值()z k ,请给出求解过程和结果。

计算如下:第k 次训练的正向过程如下:隐藏层结点的值21111()()(0120)(0)1j j j y f w x f net f f ====⨯+⨯==∑2)2()0112()()(22122==⨯+⨯==∑==f f net f x w f y j j j输出层结点的值。

相关文档
最新文档