中科院研究生院机器学习课程习题
机器学习课后习题答案
机器学习(周志华)参考答案第一章 绪论(略)第二章模型评估与选择1.数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
一个组合问题,从500500正反例中分别选出150150正反例用于留出法评估,所以可能取150)2。
法应该是(C5002.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
10折交叉检验:由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也是一样的,所以错误率的期望是5050%。
留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是100%。
3.若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。
Array4.试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。
查全率: 真实正例被预测为正例的比例真正例率: 真实正例被预测为正例的比例显然查全率与真正例率是相等的。
查准率:预测为正例的实例中真实正例的比例假正例率: 真实反例被预测为正例的比例两者并没有直接的数值关系。
9.试述卡方检验过程。
第三章线性模型2.试证明,对于参数w,对率回归(logistics回归)的目标函数(式1)是非凸的,但其对数似然函数(式2)是凸的。
如果一个多元函数是凸的,那么它的Hessian矩阵是半正定的。
3.编程实现对率回归,并给出西瓜数据集3.0α上的结果/icefire_tyh/article/details/520688444.选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率。
/icefire_tyh/article/details/520689005.编程实现线性判别分析,并给出西瓜数据集3.0α上的结果。
中科院机器学习题库
机器学习题库一、极大似然1、ML estimation of exponential model (10)A Gaussian distribution is often used to model data on the real line, but is sometimes inappropriate when the data are often close to zero but constrained to be nonnegative. In such cases one can fit an exponential distribution, whose probability density function is given by1x bp xeb Given N observations x i drawn from such a distribution:(a)Write down the likelihood as a function of the scale parameter b. (b) Write down the derivative of the log likelihood. (c) Give a simple expression for the ML estimate for b.2、换成Poisson 分布:|,0,1,2,...!xep x y x 1111log |loglog !loglog !NNi i i i NNi i i i lp x x x x Nx 3、二、贝叶斯假设在考试的多项选择中,考生知道正确答案的概率为p ,猜测答案的概率为1-p ,并且假设考生知道正确答案答对题的概率为1,猜中正确答案的概率为1m ,其中m 为多选项的数目。
那么已知考生答对题目,求他知道正确答案的概率。
1、,|11p known correctp p known correctp knownpp mConjugate priorsThe readings for this week include discussion of conjugate priors. Given a likelihood|p x for a class models with parameters θ, a conjugate prior is a distribution|p withhyperparametersγ, such that the posterior distribution|,|||pX p X pp与先验的分布族相同(a)Suppose that the likelihood is given by the exponential distribution with rate parameterλ:|xp x eShow that the gamma distribution1|,Gammae_is a conjugate prior for the exponential. Derive the parameter update given observations 1,,Nx x K and the prediction distribution11|,,N N p x x x K .(b)Show that the beta distribution is a conjugate prior for the geometric distribution1|1k p xk which describes the number of time a coin is tossed until the first heads appears, when the probability of heads on each toss is θ. Derive the parameter update rule and predictiondistribution.(c)Suppose |pis a conjugate prior for the likelihood|p x ; show that the mixture prior11|,...,|MMm mm pw p is also conjugate for the same likelihood, assuming the mixture weights w m sum to 1.(d) Repeat part (c) for the case where the prior is a single distribution and the likelihood is a mixture, and the prior is conjugate for each mixture component of the likelihood.。
整理中科院机器学习题库-new
中科院机器学习题库new整理表姓名:职业工种:申请级别:受理机构:填报日期:A4打印/ 修订/ 内容可编辑信息技术会考复习(十五)【学习目标】让学生复习数据管理技术上机内容。
【任务导航】通过让学生自主学习来复习这部分内容。
【学习过程】一、教师点评上周数据管理技术上机系统操作的内容。
二.学生自主运行练习上机系统。
针对上次考试系统考得不好的学生进行分层次辅导,指出其经常出错的地方,如数据库的名字打错、保存路径出错、数据表名打错等问题。
三、分析部分上机选择题第 1题:(分值: 2)如图所示为某学校行政管理结构,该图描述的数据模型是A.面向对象模型B.关系模型C.网状模型D.层次模型第 2题:(分值: 2)在“参赛选手”数据表中,有关参赛选手的信息如下:“选手编号、姓名、性别、出生年月、学校名称、比赛成绩”其中“姓名”和“出生年月”的数据类型可以分别定义为A.日期型和文本型B.文本型和日期型C.数字型和数字型D.数字型和日期型第 3题:(分值: 2)如图所示的“读者信息”表中,可以选作关键字字段是A.读者身份B.姓名C.性别D.借书证号第 4题:(分值: 2)在信息世界中,实体集之间的联系有三种:一对一联系、一对多联系和A.多对多联系B.单对单联系C.逻辑联系D.数据联系第 5题:(分值: 2)下列关于数据库系统主要特点的叙述,错误的是A.数据具有较高的独立性B.数据共享C.实现数据冗余D.数据结构化第 6题:(分值: 2)关系数据库的二维表(关系)必须满足的条件是①表中每一列的数据类型必须相同②表中不允许有重复的字段③表中不应有内容完全相同的行④行和列排列顺序是无关紧要的⑤表中每一个字段可以是简单的数据项, 也可以是组合的数据项A.①②③⑤B.①②③④C.②③④⑤D.①③④⑤第 7题:(分值: 2)下列属于现实世界术语的是A.字段B.对象C.关键字D.记录第 8题:(分值: 2)下列关于数据库管理系统的叙述,正确的是A.数据库管理系统具有对数据库中数据资源进行统一管理和控制的功能B.数据库管理系统是数据库的统称C.数据库管理系统具有对任何信息资源管理和控制的能力D.数据库管理系统对普通用户来说具有不可操作性第 9题:(分值: 2)如图所示的“厦门至上海南”表中,属于字段名是A.厦门、福州南B.福州南、12:47C.站名、动车组车次D.D3204、宁德第 10题:(分值: 2)如图所示的E-R图,对应的二维表是A.B.C.D.第 11题:(分值: 2)在数据库技术发展过程中,最常用的数据模型有层次模型、网状模型和A.分支模型B.关系模型C.独立模型D.系统模型第 12题:(分值: 2)下列关于数据管理技术的叙述,正确的是A.数据管理技术是指图书管理技术B.数据管理技术是指对存储在计算机中的文件进行管理的专门技术C.数据管理技术是指保存批量数据的技术D.数据管理技术是指对数据的收集、分类、组织、存储等与数据管理活动有关的技术第 13题:(分值: 2)在信息世界,实体集之间的联系有三种。
机器学习练习题
机器学习练习题考试练习题单项选择题1.在中创建⼀个元素均为0的数组可以使⽤( )函数。
[A]A.zeros( )B.arange( )C.linspace( )D.logspace( )2.通常( )误差作为误差的近似。
[A]A.测试B.训练C.经验D.以上都可以3.梯度为( )的点,就是的最⼩值点,⼀般认为此时模型达到了收敛。
[B]A.-1B.0C.1D.4.创建⼀个3*3的,下列代码中错误的是( )。
[C]A.np.arange(0,9).reshape(3,3)B.np.eye(3)C.np.random.random([3,3,3])D.np.mat(“1,2,3;4,5,6;7,8,9”)5.关于数据集的标准化,正确的描述是:( )。
[A]A.标准化有助于加快模型的收敛速度B.标准化⼀定是归⼀化,即数据集的取值分布在[0,1]区间上C.数据集的标准化⼀定是让标准差变为1D.所有的模型建模之前,必须进⾏数据集标准化6.Python安装第三⽅库的命令是( )。
[C]A.pip –hB.pyinstaller <拟安装库名>C.pip install <拟安装库名>D.pip download <拟安装库名>7.如果发现模型在验证集上的准确性整体⾼于训练集,在验证集上的损失整体低于训练集,则最可能的情况是:( )。
[B]A.验证集的数据样本与训练集相⽐,数量过少和过于简单B.模型没有采⽤正则化⽅法C.以上都对8.DL是下⾯哪个术语的简称( )。
[D]A.⼈⼯智能B.机器学习C.神经⽹络D.深度学习9.验证集和测试集,应该:( )。
[A]A.样本来⾃同⼀分布B.样本来⾃不同分布C.样本之间有⼀⼀对应关系D.拥有相同数量的样本10.⼀般使⽤以下哪种⽅法求解线性回归问题:( )。
[A]A.最⼩⼆乘法B.最⼤似然估计C.对数变换D.A和B11.以下哪个函数可以实现画布的创建?( )。
2023年6月机器学习考试题及答案
2023年6月机器学习考试题及答案考试题目1. 什么是机器研究?2. 请简要说明监督研究和无监督研究的区别。
3. 什么是过拟合?如何避免过拟合?4. 请解释什么是决策树,并列举一些常用的决策树算法。
5. 什么是集成研究?列举两种常见的集成研究方法。
6. 请解释支持向量机(SVM)的工作原理。
7. 什么是深度研究?列举两个常用的深度研究模型。
8. 请简要介绍一下主成分分析(PCA)的原理和应用领域。
9. 什么是聚类分析?请列举一个常用的聚类算法。
10. 请说明机器研究中的特征选择方法。
答案1. 机器研究是一种人工智能的分支,旨在通过使用算法和统计模型,使计算机能够从数据中研究和改进,而无需明确编程。
它涉及让计算机从经验中自动研究,并利用研究到的知识来进行决策和预测。
3. 过拟合指模型在训练集上表现很好,但在新数据上表现较差的现象。
为了避免过拟合,可以采用以下方法:- 使用正则化技术,如L1正则化和L2正则化,限制模型的复杂度。
- 进行特征选择,排除一些对模型泛化能力影响较大的特征。
4. 决策树是一种基于树结构的分类和回归模型,它代表了对数据进行决策的过程。
常见的决策树算法包括ID3、C4.5和CART。
5. 集成研究是一种使用多个研究器进行组合预测的方法。
常见的集成研究方法包括随机森林和梯度提升树。
6. 支持向量机(SVM)是一种二分类模型,其工作原理是将数据映射到高维空间,在高维空间中找到一个最优超平面来分割不同类别的数据点。
7. 深度研究是一种基于神经网络的机器研究方法,它通过多层次的非线性变换来研究和表示数据。
常见的深度研究模型包括卷积神经网络(CNN)和循环神经网络(RNN)。
8. 主成分分析(PCA)是一种常用的降维技术,它通过线性变换将原始数据映射到低维空间,保留数据集中的主要特征。
主成分分析在数据预处理、图像处理和模式识别等领域有广泛的应用。
9. 聚类分析是一种将数据点划分为不同组别或类别的无监督研究方法。
机器学习考试试题
机器学习考试试题一、选择题(每题 3 分,共 30 分)1、以下哪种情况不属于机器学习的应用场景?()A 图像识别B 自然语言处理C 传统的数值计算D 预测股票价格2、在监督学习中,如果预测值与真实值之间的差异较大,通常使用以下哪种方法来衡量模型的性能?()A 准确率B 召回率C 均方误差D F1 值3、下列哪种算法不是聚类算法?()A KMeansB 决策树C 层次聚类D 密度聚类4、对于一个过拟合的模型,以下哪种方法可以缓解?()A 增加训练数据量B 减少模型的复杂度C 增加正则化项D 以上都是5、以下关于特征工程的描述,错误的是?()A 特征工程是将原始数据转换为更有意义和有用的特征的过程B 特征选择是特征工程的一部分C 特征工程对于机器学习模型的性能影响不大D 特征缩放可以提高模型的训练效率6、在深度学习中,以下哪个不是常见的激活函数?()A Sigmoid 函数B ReLU 函数C Tanh 函数D Logistic 函数7、支持向量机(SVM)主要用于解决什么问题?()A 回归问题B 分类问题C 聚类问题D 降维问题8、以下哪种优化算法常用于神经网络的训练?()A 随机梯度下降(SGD)B 牛顿法C 共轭梯度法D 以上都是9、下面关于集成学习的说法,错误的是?()A 随机森林是一种集成学习算法B 集成学习可以提高模型的稳定性和泛化能力C 集成学习中的个体学习器必须是同一种类型的模型D 集成学习通过组合多个弱学习器来构建一个强学习器10、对于一个二分类问题,若混淆矩阵如下:||预测正例|预测反例||||||实际正例| 80 | 20 ||实际反例| 10 | 90 |则该模型的准确率是多少?()A 80%B 90%C 70%D 85%二、填空题(每题 3 分,共 30 分)1、机器学习中的有监督学习包括________、________和________等任务。
2、常见的无监督学习算法有________、________和________。
中科院研究生院机器学习试卷 含答案
中国科学院研究生院课程编号:712008Z 试 题 专 用 纸 课程名称:机器学习任课教师:卿来云———————————————————————————————————————————————姓名学号 成绩1. 判断题(20分,每小题2分)(1)给定n 个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n 的增加而减小。
(T )(2)当训练数据较少时更容易发生过拟合。
(T ) (3)回归函数A 和B ,如果A 比B 更简单,则A 几乎一定会比B 在测试集上表现更好。
(F ) (4)在核回归中,最影响回归的过拟合性和欠拟合之间平衡的参数为核函数的宽度。
(T ) (5)在AdaBoost 算法中,所有被错分的样本的权重更新比例相同。
(T ) (6)Boosting 的一个优点是不会过拟合。
(F )(7)梯度下降有时会陷于局部极小值,但EM 算法不会。
(F ) (8)SVM 对噪声(如来自其他分布的噪声样本)鲁棒。
(F )(9)Boosting 和Bagging 都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重。
(F ) (10)在回归分析中,最佳子集选择可以做特征选择,当特征数目较多时计算量大;岭回归和Lasso 模型计算量小,且Lasso 也可以实现特征选择。
(T )2、logistic 回归模型。
(20分,每小题10分)我们对如图1(a)所示的数据采用简化的线性logistic 回归模型进行两类分类,即()()()121122112211|,,1exp Y w w g w x w x w x w x ==+=+−−x P 。
(为了简化,我们不采用偏差0w 。
) 训练数据可以被完全分开(训练误差为0,如图1(b)所示的L 1)。
共 3 页 第1页图1(a) 2维训练数据。
图1(b) 数据点可以被L 1(实线)。
L 2、L 3和L 4是另外几个可能的决策(1) 考虑一个正则化的方法,即最大化()21221log |,,2Ni i i C y w w w =−∑x P 。
(完整word版)机器学习练习题与答案
(完整word版)机器学习练习题与答案《机器学习》练习题与解答1.⼩刚去应聘某互联⽹公司的算法⼯程师,⾯试官问他“回归和分类有什么相同点和不同点”,他说了以下⾔论,请逐条判断是否准确。
1)回归和分类都是有监督学习问题[单选题] [必答题]○对○错参考答案:对。
解析:这道题只有⼀个同学做错。
本题考察有监督学习的概念。
有监督学习是从标签化训练数据集中推断出函数的机器学习任务。
有监督学习和⽆监督学习的区别是:机器学习算法的图谱如下:在回归问题中,标签是连续值;在分类问题中,标签是离散值。
具体差别请看周志华《机器学习》书中的例⼦,⼀看便懂:2.背景同上题。
请判断2)回归问题和分类问题都有可能发⽣过拟合 [单选题] [必答题]○对○错答案:对解析:这题有两个同学做错。
过拟合的英⽂名称是 Over-fitting(过拟合)。
为了说清楚“过”拟合,⾸先说⼀下“拟合”【拟合的⼏何意义】:从⼏何意义上讲,拟合是给定了空间中的⼀些点,找到⼀个已知形式未知参数的连续曲线或曲⾯来最⼤限度地逼近这些点。
⼀个直观的例⼦,是下⾯的电阻和温度的例⼦。
我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b。
现在我们有⼀系列关于“温度”和“电阻”的测量值。
⼀个最简单的思路,取两组测量值,解⼀个线性⽅程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提⾼测量精度,我们会测量多次,得到多组的值,这样就相当于得到⼆维平⾯上的多个点,我们的⽬标是寻找⼀条直线,让这条直线尽可能地接近各个测量得到的点。
拟合的数学意义:在数学的意义上,所谓拟合(fit)是指已知某函数的若⼲离散函数值{f1,f2,…,fn}(未必都是准确值,有个别可能是近似甚⾄错误值),通过调整该函数中若⼲待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最⼩⼆乘意义)最⼩。
机器学习题集
机器学习题集一、选择题1.机器学习的主要目标是什么?A. 使机器具备人类的智能B. 使机器能够自动学习和改进C. 使机器能够模拟人类的思维过程D. 使机器能够按照给定的规则执行任务答案:B2.下列哪项不是机器学习算法的分类?A. 监督学习B. 无监督学习C. 半监督学习D. 完全手动学习答案:D3.在机器学习中,以下哪项是指学习算法在给定训练集上的表现能力?A. 泛化能力B. 训练误差C. 过拟合D. 欠拟合答案:B4.哪种机器学习算法通常用于处理回归问题?A. 支持向量机(SVM)B. K-近邻(K-NN)C. 线性回归D. 决策树答案:C5.深度学习是机器学习的哪个子领域?A. 弱学习B. 表示学习C. 概率学习D. 规则学习答案:B6.在监督学习中,算法尝试从训练数据中学习什么?A. 数据的分布B. 数据的模式C. 输入到输出的映射D. 数据的统计特性答案:C7.以下哪项是机器学习模型评估中常用的交叉验证方法?A. 留出法B. 梯度下降C. 决策树剪枝D. K-均值聚类答案:A8.在机器学习中,正则化通常用于解决什么问题?A. 数据不足B. 过拟合C. 欠拟合D. 维度灾难答案:B9.以下哪项是深度学习中常用的激活函数?A. 线性函数B. Sigmoid函数C. 逻辑回归D. 梯度提升答案:B10.在机器学习中,特征工程主要关注什么?A. 数据的收集B. 数据的清洗C. 从原始数据中提取有意义的特征D. 模型的部署答案:C11.下列哪个算法通常用于分类问题中的特征选择?A. 决策树B. PCA(主成分分析)C. K-均值聚类D. 线性回归答案:A12.集成学习通过结合多个学习器的预测结果来提高整体性能,这种方法属于哪种策略?A. 监督学习B. 弱学习C. 规则学习D. 模型融合答案:D13.在深度学习中,卷积神经网络(CNN)主要用于处理哪种类型的数据?A. 文本数据B. 图像数据C. 时间序列数据D. 语音数据答案:B14.以下哪个指标用于评估分类模型的性能时,考虑到了类别不平衡的问题?A. 准确率B. 精确率C. 召回率D. F1分数答案:D15.在强化学习中,智能体通过什么来优化其行为?A. 奖励函数B. 损失函数C. 梯度下降D. 决策树答案:A16.以下哪项是机器学习中的无监督学习任务?A. 图像分类B. 聚类分析C. 情感分析D. 回归分析答案:B17.在机器学习中,梯度下降算法主要用于什么?A. 数据的收集B. 模型的训练C. 数据的清洗D. 模型的评估答案:B18.以下哪项是机器学习中常用的正则化技术之一?A. L1正则化B. 决策边界C. 梯度提升D. 逻辑回归答案:A19.在机器学习中,过拟合通常发生在什么情况?A. 模型太复杂,训练数据太少B. 模型太简单,训练数据太多C. 数据集完全随机D. 使用了不合适的激活函数答案:A20.以下哪个算法是基于树的集成学习算法之一?A. 随机森林B. 线性回归C. K-近邻D. 神经网络答案:A21.在机器学习中,确保数据质量的关键步骤之一是:A. 初始化模型参数B. 提取新特征C. 数据清洗D. 损失函数最小化答案:C22.监督学习中,数据通常被分为哪两部分?A. 训练集和验证集B. 输入特征和输出标签C. 验证集和测试集D. 数据集和标签集答案:B23.数据标注在机器学习的哪个阶段尤为重要?A. 模型评估B. 特征工程C. 数据预处理D. 模型训练答案:C24.下列哪项不是数据清洗的常用方法?A. 处理缺失值B. 转换数据类型C. 去除异常值D. 初始化模型参数答案:D25.数据分割时,以下哪个集合通常用于评估模型的最终性能?A. 训练集B. 验证集C. 测试集D. 验证集和测试集答案:C26.在数据标注过程中,为每个样本分配的输出值被称为:A. 特征B. 权重C. 损失D. 标签答案:D27.数据代表性不足可能导致的问题是:A. 过拟合B. 欠拟合C. 收敛速度过慢D. 模型复杂度过高答案:B28.下列哪项不是数据收集时应考虑的因素?A. 数据源的可靠性B. 数据的隐私保护C. 模型的复杂度D. 数据的完整性答案:C29.数据清洗中,处理缺失值的一种常用方法是:A. 删除包含缺失值的行或列B. 使用均值、中位数或众数填充C. 将缺失值视为新特征D. 停止模型训练答案:A, B(多选,但此处只选一个最直接的答案)A30.数据的泛化能力主要取决于:A. 模型的复杂度B. 数据的多样性C. 算法的先进性D. 损失函数的选择答案:B31.监督学习中,输入特征与输出标签之间的关系是通过什么来学习的?A. 损失函数B. 决策树C. 神经网络D. 训练过程答案:D32.数据标注的准确性对模型的什么能力影响最大?A. 泛化能力B. 收敛速度C. 预测精度D. 特征提取答案:C33.在数据预处理阶段,处理噪声数据的主要目的是:A. 提高模型训练速度B. 降低模型的复杂度C. 提高模型的预测准确性D. 减少数据存储空间答案:C34.下列哪项不属于数据清洗的范畴?A. 缺失值处理B. 异常值检测C. 特征选择D. 噪声处理答案:C35.数据标注的自动化程度受什么因素影响最大?A. 数据集的大小B. 数据的复杂性C. 标注工具的效率D. 模型的训练时间答案:B36.在数据分割时,为什么需要设置验证集?A. 仅用于训练模型B. 评估模型在未见过的数据上的表现C. 替代测试集进行最终评估D. 加速模型训练过程答案:B37.数据的标签化在哪些类型的机器学习任务中尤为重要?A. 无监督学习B. 半监督学习C. 监督学习D. 强化学习答案:C38.数据质量对模型性能的影响主要体现在哪些方面?A. 模型的收敛速度B. 模型的复杂度C. 模型的预测精度D. 模型的泛化能力答案:C, D(多选,但此处只选一个最直接的答案)D39.下列哪项不是数据清洗和预处理阶段需要完成的任务?A. 数据标注B. 缺失值处理C. 噪声处理D. 模型评估答案:D40.数据多样性对防止哪种问题有重要作用?A. 欠拟合B. 过拟合C. 收敛速度过慢D. 损失函数波动答案:B41.机器学习的基本要素不包括以下哪一项?A. 模型B. 特征C. 规则D. 算法答案:C42.哪种机器学习算法常用于分类任务,并可以输出样本属于各类的概率?A. 线性回归B. 支持向量机C. 逻辑回归D. 决策树答案:C43.模型的假设空间是指什么?A. 模型能够表示的所有可能函数的集合B. 数据的特征向量集合C. 算法的复杂度D. 损失函数的种类答案:A44.下列哪个是评估模型好坏的常用准则?A. 准确率B. 损失函数C. 数据集大小D. 算法执行时间答案:B45.哪种算法特别适合于处理非线性关系和高维数据?A. 朴素贝叶斯B. 神经网络C. 决策树D. 线性回归答案:B46.在机器学习中,特征选择的主要目的是什么?A. 减少计算量B. 提高模型的可解释性C. 提高模型的泛化能力D. 以上都是答案:D47.结构风险最小化是通过什么方式实现的?A. 增加训练数据量B. 引入正则化项C. 减小模型复杂度D. 改进损失函数答案:B48.哪种算法常用于处理时间序列数据并预测未来值?A. 朴素贝叶斯B. 随机森林C. ARIMAD. 逻辑回归答案:C49.在决策树算法中,分割数据集的标准通常基于什么?A. 损失函数B. 信息增益C. 数据的分布D. 模型的复杂度答案:B50.哪种策略常用于处理类别不平衡的数据集?A. 采样B. 特征缩放C. 交叉验证D. 正则化答案:A51.监督学习的主要任务是什么?A. 从无标签数据中学习规律B. 预测新数据的标签C. 自动发现数据中的模式D. 生成新的数据样本答案:B52.下列哪个是监督学习算法?A. K-means聚类B. 线性回归C. PCA(主成分分析)D. Apriori算法(关联规则学习)答案:B53.在监督学习中,标签(label)通常指的是什么?A. 数据的索引B. 数据的特征C. 数据的类别或目标值D. 数据的分布答案:C54.监督学习中的损失函数主要用于什么?A. 评估模型的复杂度B. 衡量模型预测值与真实值之间的差异C. 生成新的数据样本D. 划分数据集为训练集和测试集答案:B55.下列哪种方法常用于处理分类问题中的多类分类?A. 二元逻辑回归B. 一对多(One-vs-All)策略C. 层次聚类D. PCA降维答案:B56.在监督学习中,过拟合通常指的是什么?A. 模型在训练集上表现很好,但在测试集上表现不佳B. 模型在训练集和测试集上表现都很好C. 模型在训练集上表现很差D. 模型无法学习到任何有用的信息答案:A57.下列哪个技术常用于防止过拟合?A. 增加数据集的大小B. 引入正则化项C. 减少模型的特征数量D. 以上都是答案:D58.交叉验证的主要目的是什么?A. 评估模型的性能B. 划分数据集C. 选择最优的模型参数D. 以上都是答案:D59.在监督学习中,准确率(Accuracy)的计算公式是什么?A. 正确预测的样本数 / 总样本数B. 误分类的样本数 / 总样本数C. 真正例(TP)的数量D. 真正例(TP)与假负例(FN)之和答案:A60.下列哪个指标在分类问题中考虑了类别的不平衡性?A. 准确率(Accuracy)B. 精确率(Precision)C. 召回率(Recall)D. F1分数(F1 Score)(注意:虽然F1分数不完全等同于解决类别不平衡,但在此选项中,它相比其他三个更全面地考虑了精确率和召回率)答案:D(但请注意,严格来说,没有一个指标是专为解决类别不平衡设计的,F1分数是精确率和召回率的调和平均,对两者都给予了重视)61.监督学习中的训练集包含什么?A. 无标签数据B. 有标签数据C. 噪声数据D. 无关数据答案:B62.下列哪个不是监督学习的步骤?A. 数据预处理B. 模型训练C. 模型评估D. 数据聚类答案:D63.逻辑回归适用于哪种类型的问题?A. 回归问题B. 分类问题C. 聚类问题D. 降维问题答案:B64.监督学习中的泛化能力指的是什么?A. 模型在训练集上的表现B. 模型在测试集上的表现C. 模型的复杂度D. 模型的训练时间答案:B65.梯度下降算法在监督学习中常用于什么?A. 特征选择B. 损失函数最小化C. 数据划分D. 类别预测答案:B66.在处理多标签分类问题时,每个样本可能属于多少个类别?A. 0个B. 1个C. 1个或多个D. 唯一确定的1个答案:C67.下列哪个不是监督学习常用的评估指标?A. 准确率B. 精确率C. 召回率D. 信息增益答案:D68.监督学习中的偏差(Bias)和方差(Variance)分别指的是什么?A. 模型的复杂度B. 模型在训练集上的表现C. 模型预测值的平均误差D. 模型预测值的变化程度答案:C(偏差),D(方差)69.ROC曲线和AUC值主要用于评估什么?A. 回归模型的性能B. 分类模型的性能C. 聚类模型的性能D. 降维模型的性能答案:B70.在处理不平衡数据集时,哪种策略可能不是首选?A. 重采样技术B. 引入代价敏感学习C. 使用集成学习方法D. 忽略不平衡性直接训练模型答案:D二、简答题1.问题:什么是无监督学习?答案:无监督学习是一种机器学习方法,它使用没有标签的数据集进行训练,目标是发现数据中的内在结构或模式,如聚类、降维等。
(含答案)机器学习第一阶段练习题
机器学习第一阶段练习题一、选择题1. 以下三阶泰勒展开式错误的一项是(B )A. 3231211x !x !x e x+++= B. 3231211x x x )x ln(++=+ C. 331x !x x sin -= D. 321x x x x-11+++= 分析:3231211x x -x )x ln(+=+ 2. 以下不属于凸函数一项的是(D )A. y=-log xB. y=x log xC. y=||x||pD. y=e ax分析:a 应该限定取值范围:a ≥1或a ≤03. 以下说法错误的一项是(C )A. 负梯度方向是使函数值下降最快的方向B. 当目标函数是凸函数时,梯度下降法的解是全局最优解C. 梯度下降法比牛顿法收敛速度快D. 拟牛顿法不需要计算Hesse 矩阵分析:牛顿法需要二阶求导,梯度下降法只需一阶,因此牛顿法比梯度下降法更快收敛4. 一般,k-NN 最近邻方法在(B )的情况下效果较好A. 样本较多但典型性不好B. 样本较少但典型性好C. 样本呈团状分布D. 样本呈链状分布分析:k 近邻算法对较多且典型不好的,团状,链状的样本不具有太大的优势5. 机器学习中L1正则化和L2正则化的区别是?(A )A. 使用L1可以得到稀疏的权值,使用L2可以得到平滑的权值B. 使用L1可以得到平滑的权值,使用L2可以得到平滑的权值C 使用L1可以得到平滑的权值,使用L2可以得到稀疏的权值D.使用L1可以得到稀疏的权值,使用L2可以得到稀疏的权值分析:L1正则化偏向于稀疏,它会自动进行特征选择,去掉一些没用的特征,也就是将这些特征对应的权重置为0。
L2主要功能是为了防止过拟合,当要求参数越小时,说明模型越简单,而模型越简单则,越趋向于平滑,从而防止过拟合。
二、公式推理题1. 请写出通过条件概率公式和全概率公式推出贝叶斯公式的过程 分析:条件概率:)A (P )AB (P )A |B (P )B (P )AB (P )B |A (P ==, 全概率:∑=ii i)B (P )B |A (P )A (P 贝叶斯公式:∑=jjj i i i )B (P )B |A (P )B (P )B |A (P )A |B (P 2. 请写出正态分布的概率密度函数、期望、以及方差分析:概率密度函数:021222>=--σ,e σπ)x (f σ)μx (;期望:μ)x (E =;方差:2σ)x (D =三、简答题1. 求函数R x ,x )x (f x∈=的最小值 分析:令,x t x =两边取对数:,x ln x lnt =两边对t 求导:,x *x x ln 't *t 11+= 令t ’=0:10-==+e x ,1 lnx 那么:,则e e t 1-=即为f(x)最小值。
机器学习复习题集及答案
机器学习复习题集及答案机器学习是一门研究如何让计算机从数据中自动学习并改进性能的学科。
它在人工智能领域扮演着重要的角色,被广泛应用于图像识别、自然语言处理、推荐系统等领域。
为了帮助大家复习机器学习知识,下面整理了一些常见的复习题及答案。
1. 什么是监督学习?举个例子说明其应用。
监督学习是指通过输入数据和对应的标签,训练一个模型来预测未知数据的标签。
例如,给定一组患者的医疗数据和对应的是否患有某种疾病的标签,可以使用监督学习算法训练一个模型来预测其他患者是否患有该疾病。
2. 请解释欠拟合和过拟合的概念。
欠拟合指模型无法很好地拟合训练数据,即无法捕捉到数据中的关键特征和模式。
过拟合则表示模型过于复杂,过度拟合了训练数据,导致在新数据上的表现不佳。
3. 请描述逻辑回归算法的原理。
逻辑回归算法是一种用于解决二分类问题的机器学习算法。
它通过将输入特征加权求和,并经过一个称为“sigmoid函数”的激活函数,将输出转化为0到1之间的概率值。
最终,根据预测的概率值,将样本划分为两个类别。
4. 解释决策树算法的工作原理。
决策树算法基于一系列的规则和决策节点构建一棵树状结构。
每个节点代表一个特征,并根据该特征进行数据划分。
构建过程会根据某个准则(如信息增益)选择最优的特征进行划分,直到满足某个条件,如节点纯度达到一定阈值或树的深度达到限制。
5. 什么是K均值聚类算法?它的优缺点是什么?K均值聚类是一种常用的无监督学习算法,用于将样本划分为K个簇。
算法首先随机选择K个中心点,然后迭代地将每个样本分配给距离最近的簇,再计算每个簇的新中心点。
重复这个过程,直到聚类结果收敛。
优点是简单易用,缺点是对初始中心点的选择敏感,且对噪声和异常值较为敏感。
6. 解释支持向量机算法的工作原理。
支持向量机(SVM)是一种用于分类和回归的监督学习算法。
其核心思想是找到一个最优的超平面,可将不同类别的样本分开,并使得两个类别样本距离超平面的最小间隔最大化。
机器学习练习题
机器学习练习题一、选择题1. 机器学习中的监督学习主要关注于:A. 特征工程B. 模型选择C. 预测结果D. 数据清洗2. 在机器学习中,以下哪个算法属于非监督学习算法?A. 决策树B. 随机森林C. K-meansD. 支持向量机3. 以下哪个是深度学习中常用的激活函数?A. 阈值函数B. Sigmoid函数C. ReLU函数D. 线性函数4. 交叉验证的主要目的是:A. 减少过拟合B. 增加训练数据C. 减少训练时间D. 提高模型的泛化能力5. 在机器学习中,模型的偏差是指:A. 模型预测值与真实值之间的差异B. 模型预测值与平均预测值之间的差异C. 模型预测值与训练数据之间的差异D. 模型预测值与测试数据之间的差异二、填空题6. 在机器学习中,_______ 用于评估模型在新数据上的表现。
7. 线性回归模型试图找到数据的最佳拟合线,其目标函数通常是_______。
8. 神经网络中的隐藏层可以增加模型的_______能力。
9. 决策树模型通过_______来构建模型。
10. 特征选择是_______过程中的一个重要步骤。
三、简答题11. 描述机器学习中的过拟合现象,并给出避免过拟合的几种方法。
12. 解释什么是集成学习,并举例说明几种常见的集成学习方法。
13. 描述在机器学习中使用交叉验证的原因,并简述其基本过程。
14. 什么是正则化?它在机器学习中的作用是什么?15. 描述深度学习与机器学习之间的关系,并解释深度学习为何在某些任务上表现更好。
四、计算题16. 给定一组数据点:(1,2), (2,3), (3,5), (4,7), (5,9)。
使用最小二乘法计算线性回归模型的参数a和b,使得预测值与实际值的平方差之和最小。
17. 假设有一个简单的神经网络,输入层有3个神经元,隐藏层有2个神经元,输出层有1个神经元。
如果使用ReLU作为激活函数,给出前向传播过程中的计算步骤。
五、编程题18. 编写一个Python函数,实现K-means算法的基本步骤,输入为数据点集和K值,输出为每个数据点的聚类结果和聚类中心。
机器学习-习题答案
机器学习-习题答案(总9页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--(题目略)(a). 第一步:S0 {<(Q Q Q Q ), (Q Q Q Q)>}G0 {<( ), ( )>}第二步:S1 {<(male brown tall US), (female black short US)> G1 {<( ), ( )>}第三步:S2 {<(male brown ), (female black short US)>G2 {<( ), ( )>}第四步:S3 {<(male brown ), (female black short US)>G3 {<(male ), ( )>,< >,< US>}第五步:S4 {<(male brown ), (female short )>G4 {<(male ), ( )>}(b).假设中的每个属性可以取两个值,所以与题目例题一致的假设数目为: (2*2*2*2)*(2*2*2*2) = 256(c). 这个最短序列应该为8,25628=如果只有一个训练样例,则假设空间有25628=个假设,我们针对每一个属性来设置训练样例,使每次的假设空间减半。
则经过8次训练后,可收敛到单个正确的假设。
<female,blanck,short,Portuguese>,<female,blonde,tall,Indian> <male,brown,short,Portuguese>,<female,blonde,tall,Indian><male,blanck,tall,Portuguese>,<female,blonde,tall,Indian><male,blanck,short,US>,<female,blonde,tall,Indian><male,blanck,short,Portuguese>,<male,blonde,tall,Indian><male,blanck,short,Portuguese>,<female,black,tall,Indian><male,blanck,short,Portuguese>,<female,blonde,short,Indian> <male,blanck,short,Portuguese>,<female,blonde,tall,US>(d). 若要表达该实例语言上的所有概念,那么我们需要扩大假设空间,使得每个可能的假设都包括在内,这样假设空间就远远大于256,而且这样没法得到最终的没法收敛,因为对每一个未见过的训练样例,投票没有任何效果,因此也就没有办法对未见样例分类。
机器学习复习题及答案
一、单选题1、下列哪位是人工智能之父?( )A.Marniv Lee MinskyB.HerbertA.SimonC.Allen NewellD.John Clifford Shaw正确答案:A2、根据王珏的理解,下列不属于对问题空间W的统计描述是( )。
A.一致性假设B.划分C.泛化能力D.学习能力正确答案:D3、下列描述无监督学习错误的是( )。
A.无标签B.核心是聚类C.不需要降维D.具有很好的解释性正确答案:C4、下列描述有监督学习错误的是( )。
A.有标签B.核心是分类C.所有数据都相互独立分布D.分类原因不透明正确答案:C5、下列哪种归纳学习采用符号表示方式?( )A. 经验归纳学习B.遗传算法C.联接学习D.强化学习正确答案:A6、混淆矩阵的假正是指( )。
A.模型预测为正的正样本B.模型预测为正的负样本C.模型预测为负的正样本D.模型预测为负的负样本正确答案:B7、混淆矩阵的真负率公式是为( )。
A.TP/(TP+FN)B.FP/(FP+TN)C.FN/(TP+FN)D.TN/(TN+FP)正确答案:D8、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,准确率是( )。
A.1/4B.1/2C.4/7D.4/6正确答案:B9、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,精确率是( )。
A.1/4B.1/2C.4/7D.2/3正确答案:C10、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,召回率是( )。
A.1/4B.1/2C.4/7D.2/3正确答案:D11、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,F1-score是( )。
A.4/13B.8/13C.4/7D.2/30.00/2.00正确答案:B12、EM算法的E和M指什么?( )A.Expectation-MaximumB.Expect-MaximumC.Extra-MaximumD.Extra-Max正确答案:A13、EM算法的核心思想是?( )A.通过不断地求取目标函数的下界的最优值,从而实现最优化的目标。
机器学习练习题(打印版)
机器学习练习题(打印版)# 机器学习练习题## 一、选择题1. 在机器学习中,模型的泛化能力通常是指:- A. 模型在训练数据上的表现- B. 模型在新数据上的表现- C. 模型的复杂度- D. 模型的运行时间2. 下列哪个不是监督学习算法?- A. 线性回归- B. 逻辑回归- C. 决策树- D. K-均值聚类3. 梯度下降算法的主要目的是:- A. 找到数据的均值- B. 找到数据的中位数- C. 最小化损失函数- D. 标准化特征4. 在神经网络中,激活函数的作用是:- A. 增加模型的非线性- B. 减少模型的复杂度- C. 计算模型的损失- D. 优化模型的参数5. 下列哪个是过拟合的特征?- A. 模型在训练集上表现良好,在测试集上表现一般- B. 模型在训练集和测试集上表现都很好- C. 模型在训练集上表现一般,在测试集上表现良好- D. 模型在训练集上表现很好,在测试集上表现很差## 二、简答题1. 解释什么是交叉验证,并说明它在机器学习中的重要性。
2. 描述支持向量机(SVM)的基本原理,并举例说明其应用场景。
3. 什么是正则化?在机器学习中,为什么正则化是重要的?## 三、计算题1. 假设你有一个线性回归模型,其损失函数为均方误差(MSE)。
给定以下数据点:| x | y ||--|--|| 1 | 2 || 2 | 3 || 3 | 5 || 4 | 4 |计算模型的损失函数值,假设模型预测值为 \( \hat{y} = 1.5x \)。
2. 假设你正在使用梯度下降法来优化一个二次函数 \( f(x) = x^2 + 3x + 2 \)。
初始点为 \( x_0 = 2 \),学习率为 0.1。
请计算前3次迭代的 \( x \) 值。
## 四、编程题1. 编写一个Python函数,使用逻辑回归算法对二维数据进行分类。
数据点由特征向量 \( (x_1, x_2) \) 和标签 \( y \) 组成。
机器学习试卷试题及答案
机器学习试题(一共30题,标有下划线的,如34,3_2,只用选择其中一题)1 .在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(C)Ver-fitting)中影响最大?A.多项式阶数B.更新权重W时,使用的是矩阵求逆还是梯度下降C,使用常数项2 .假设你有以下数据:输入和输出都只有一个变量。
使用线性回归模型(y=wx+b)来拟合数据。
那么使用留一法(1eave-OneOut)交叉验证得到的均方误差是多少?A. 10/27B. 39/27C. 49/27D. 55/273_1.下列关于极大似然估计(MaXimUm1ike1ihoodEstimate,M1E),说法正确的是(多选)?A. M1E可能并不存在B. M1E总是存在C.如果M1E存在,那么它的解可能不是唯一的D.如果M1E存在,那么它的解一定是唯一的3_2.下列哪些假设是我们推导线性回归参数时遵循的(多选)?AX与Y有线性关系(多项式关系)B.模型误差在统计学上是独立的C,误差一般服从O均值和固定标准差的正态分布D.X是非随机且测量没有误差的4_1.为了观察测试Y与X之间的线性关系,X是连续变量,使用下列哪种图形比较适合?A.散点图B.柱形图C.直方图D,以上都不对4_2,一般来说,下列哪种方法常用来预测连续独立变量?A.线性回归B.逻辑回顾C,线性回归和逻辑回归都行D.以上说法都不对5.个人健康和年龄的相关系数是-1.09o根据这个你可以告诉医生哪个结论?A.年龄是健康程度很好的预测器B.年龄是健康程度很糟的预测器C.以上说法都不对6.下列哪一种偏移,是我们在最小二乘直线拟合的情况下使用的?图中横坐标是输入X,纵坐标是输出Y overtica1offsetsperpendicu1aroffsetsA,垂直偏移(vertica1offsets)B.垂向偏移(perpendicu1aroffsets)C,两种偏移都可以D.以上说法都不对7 .假如我们利用Y是X的3阶多项式产生一些数据(3阶多项式能很好地拟合数据)。
机器学习练习题
机器学习练习题1. 请解释机器学习中的监督学习与非监督学习的区别。
2. 描述决策树的基本概念,并举例说明其在分类问题中的应用。
3. 给出支持向量机(SVM)的基本原理,并解释其在解决二分类问题中的作用。
4. 解释什么是过拟合,并讨论如何通过正则化来减少过拟合。
5. 描述随机森林算法的工作原理,并说明它如何提高模型的准确性。
6. 请解释交叉验证的概念,并讨论它在机器学习模型评估中的重要性。
7. 给出朴素贝叶斯分类器的基本原理,并讨论其在文本分类中的应用。
8. 解释梯度下降算法的工作原理,并说明它在优化机器学习模型参数中的作用。
9. 描述K-最近邻(KNN)算法的基本原理,并讨论其在回归和分类问题中的应用。
10. 请解释深度学习与机器学习的关系,并举例说明深度学习在图像识别中的应用。
11. 描述特征工程在机器学习中的重要性,并给出一些常见的特征工程方法。
12. 请解释模型的泛化能力,并讨论如何评估一个机器学习模型的泛化能力。
13. 给出一个例子,说明如何使用机器学习来解决一个实际问题,并描述所采用的算法和评估方法。
14. 请解释什么是降维,并讨论主成分分析(PCA)在降维中的作用。
15. 描述卷积神经网络(CNN)的结构,并解释它在处理图像数据时的优势。
16. 请解释什么是强化学习,并讨论其在游戏或机器人控制中的应用。
17. 给出一个例子,说明如何使用聚类算法来发现数据中的模式或群体。
18. 解释协同过滤在推荐系统中的作用,并讨论其在电子商务中的应用。
19. 描述深度学习中的卷积层、池化层和全连接层的作用及其在图像识别中的重要性。
20. 请解释什么是迁移学习,并讨论它在机器学习领域中的应用和优势。
中科院研究生院机器学习试卷(含答案)
中国科学院研究生院课程编号:712008Z 试 题 专 用 纸 课程名称:机器学习任课教师:卿来云———————————————————————————————————————————————姓名学号 成绩1. 判断题(20分,每小题2分)(1)给定n 个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n 的增加而减小。
(T )(2)当训练数据较少时更容易发生过拟合。
(T ) (3)回归函数A 和B ,如果A 比B 更简单,则A 几乎一定会比B 在测试集上表现更好。
(F ) (4)在核回归中,最影响回归的过拟合性和欠拟合之间平衡的参数为核函数的宽度。
(T ) (5)在AdaBoost 算法中,所有被错分的样本的权重更新比例相同。
(T ) (6)Boosting 的一个优点是不会过拟合。
(F )(7)梯度下降有时会陷于局部极小值,但EM 算法不会。
(F ) (8)SVM 对噪声(如来自其他分布的噪声样本)鲁棒。
(F )(9)Boosting 和Bagging 都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重。
(F ) (10)在回归分析中,最佳子集选择可以做特征选择,当特征数目较多时计算量大;岭回归和Lasso 模型计算量小,且Lasso 也可以实现特征选择。
(T )2、logistic 回归模型。
(20分,每小题10分)我们对如图1(a)所示的数据采用简化的线性logistic 回归模型进行两类分类,即()()()121122112211|,,1exp Y w w g w x w x w x w x ==+=+−−x P 。
(为了简化,我们不采用偏差0w 。
) 训练数据可以被完全分开(训练误差为0,如图1(b)所示的L 1)。
共 3 页 第1页图1(a) 2维训练数据。
图1(b) 数据点可以被L 1(实线)。
L 2、L 3和L 4是另外几个可能的决策(1) 考虑一个正则化的方法,即最大化()21221log |,,2Ni i i C y w w w =−∑x P 。
中科院研究生院机器学习课程习题
1、考虑回归一个正则化回归问题。
在下图中给出了惩罚函数为二次正则函数,当正则化参数C 取不同值时,在训练集和测试集上的log 似然(mean log-probability )。
(10分)(1)说法“随着C 的增加,图2中训练集上的log 似然永远不会增加”是否正确,并说明理由。
(2)解释当C 取较大值时,图2中测试集上的log 似然下降的原因。
2、考虑线性回归模型:()201~, y N w w x σ+,训练数据如下图所示。
(10分) (1)用极大似然估计参数,并在图(a )中画出模型。
(3分)(2)用正则化的极大似然估计参数,即在log 似然目标函数中加入正则惩罚函数()212C w -, 并在图(b )中画出当参数C 取很大值时的模型。
(3分)(3)在正则化后,高斯分布的方差2σ是变大了、变小了还是不变?(4分)图(a) 图(b)2. 考虑二维输入空间点()12,T x x =x 上的回归问题,其中[]1,1,1,2j x j ∈-=在单位正方形内。
训练样本和测试样本在单位正方形中均匀分布,输出模型为()352121212~10753, 1y N x x x x x x -++-,我们用1-10阶多项式特征,采用线性回归模型来学习x 与y 之间的关系(高阶特征模型包含所有低阶特征),损失函数取平方误差损失。
(1) 现在20N =个样本上,训练1阶、2阶、8阶和10阶特征的模型,然后在一个大规模的独立的测试集上测试,则在下3列中选择合适的模型(可能有多个选项),并解释第3列中你选择的模型为什么测试误差小。
(10分)(2) 现在610N =个样本上,训练1阶、2阶、8阶和10阶特征的模型,然后在一个大规模的独立的测试集上测试,则在下3列中选择合适的模型(可能有多个选项),并解释第3列中你选择的模型为什么测试误差小。
(10分)(3)多项式回归模型的预测误差与训练样本的数目有关。
(T)3、我们对下图(a)所示的数据采用简化的线性logistic 回归模型进行两类分类,即()()()121122112211|,,1exp Y w w g w x w x w x w x ==+=+--x 。
机器学习期末试题
中国科学院大学课程编号:712008Z 试 题 专 用 纸 课程名称:机器学习任课教师:卿来云———-—-————-————-—————---———-—--————-——————--—-—姓名学号 成绩一、基础题(共36分)1、请描述极大似然估计MLE 和最大后验估计MAP 之间的区别。
请解释为什么MLE 比MAP 更容易过拟合。
(10分)2、在年度百花奖评奖揭晓之前,一位教授问80个电影系的学生,谁将分别获得8个奖项(如最佳导演、最佳男女主角等)。
评奖结果揭晓后,该教授计算每个学生的猜中率,同时也计算了所有80个学生投票的结果。
他发现所有人投票结果几乎比任何一个学生的结果正确率都高。
这种提高是偶然的吗?请解释原因。
(10分)3、假设给定如右数据集,其中A 、B 、C 为二值随机变量,y 为待预测的二值变量。
(a) 对一个新的输入A =0, B =0, C =1,朴素贝叶斯分类器将会怎样预测y ?(10分)(b) 假设你知道在给定类别的情况下A 、B 、C 是独立的随机变量,那么其他分类器(如Logstic回归、SVM 分类器等)会比朴素贝叶斯分类器表现更好吗?为什么?(注意:与上面给的数据集没有关系。
)(6分) 二、回归问题。
(共24分) 现有N 个训练样本的数据集(){}1,Ni i i x y ==,其中,i i x y 为实数.1. 我们首先用线性回归拟合数据。
为了测试我们的线性回归模型,我们随机选择一些样本作为训练样本,剩余样本作为测试样本。
现在我们慢慢增加训练样本的数目,那么随着训练样本数目的增加,平均训练误差和平均测试误差将会如何变化?为什么?(6分) 平均训练误差:A 、增加 B 、减小 平均测试误差:A 、增加 B 、减小2. 给定如下图(a)所示数据。
粗略看来这些数据不适合用线性回归模型表示。
因此我们采用如下模型:()exp i i i y wx ε=+,其中()~0,1i N ε。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、考虑回归一个正则化回归问题。
在下图中给出了惩罚函数为二次正则函数,当正则化参数C 取不同值时,在训练集和测试集上的log 似然(mean log-probability )。
(10分)
(1)说法“随着C 的增加,图2中训练集上的log 似然永远不会增加”是否正确,并说明理由。
(2)解释当C 取较大值时,图2中测试集上的log 似然下降的原因。
2、考虑线性回归模型:()201~, y N w w x σ+,训练数据如下图所示。
(10分) (1)用极大似然估计参数,并在图(a )中画出模型。
(3分)
(2)用正则化的极大似然估计参数,即在log 似然目标函数中加入正则惩罚函数()212
C w -
, 并在图(b )中画出当参数C 取很大值时的模型。
(3分)
(3)在正则化后,高斯分布的方差2σ是变大了、变小了还是不变?(4分)
图(a) 图(b)
2. 考虑二维输入空间点()12,T x x =x 上的回归问题,其中[]1,1,1,2j x j ∈-=在单位正方形内。
训练样本和测试样本在单位正方形中均匀分布,输出模型为
()352121212~10753, 1y N x x x x x x -++-,我们用1-10阶多项式特征,采用线性回归模型来
学习x 与y 之间的关系(高阶特征模型包含所有低阶特征),损失函数取平方误差损失。
(1) 现在20N =个样本上,训练1阶、2阶、8阶和10阶特征的模型,然后在一个大规模的独立的测试集上测试,则在下3列中选择合适的模型(可能有多个选项),并解释第3列中你选择的模型为什么测试误差小。
(10分)
(2) 现在610N =个样本上,训练1阶、2阶、8阶和10阶特征的模型,然后在一个大规模的独
立的测试集上测试,则在下3列中选择合适的模型(可能有多个选项),并解释第3列中你选择的模型为什么测试误差小。
(10分)
(3)
多项式回归模型的预测误差与训练样本的数目有关。
(T)
3、我们对下图(a)所示的数据采用简化的线性logistic 回归模型进行两类分类,即
()()()
121122112211|,,1exp Y w w g w x w x w x w x ==+=
+--x 。
(为了简化,我们不采用偏差0w 。
) 训练数据可以被完全分开(训练误差为0,如图1(b)所示的L 1)。
(1) 考虑一个正则化的方法,即最大化
()21221log
|,,2
N i i i C y w w w =-∑x 。
注意只有2w 被惩罚。
则当C 很大时,如图1(b)所示的4个决策边界中, L 2、L 3和L 4 可以
(a) 2维训练数据。
(b) 数据点可以被L 1(实线)完全分开。
L 2、L 3和L 4是另外几个可能的决策边界。
通过正则2w 得到吗?
答:L2不可以。
当正则w2时,决策边界对x2的依赖越少,因此决策边界变得更垂直。
而图中的L2看起来不正则的结果更水平,因此不可能为惩罚w2得到;
L3可以。
w2^2相对w1^2更小(表现为斜率更大),虽然该决策对训练数据的log 概率变小(有被错分的样本);
L4不可以。
当C 足够大时,我们会得到完成垂直的决策边界(线 x 1 = 0 或x 2轴)。
L4跑到了x 2轴的另一边使得其结果比其对边的结果更差。
当中等程度的正则时,我们会得到最佳结果(w2较小)。
图中的L4不是最佳结果因此不可能为惩罚w2得到;
(2)如果正则项为L1范式,即最大化
()()12121log
|,,2
N i i i C y w w w w =-+∑x 。
则随着C 增大,下面哪种情形可能出现(单选)?
(a) 1w 将变成0,然后2w 也将变成0。
(T)
(b) 1w 和2w 将同时变成0。
(c) 2w 将变成0,然后1w 也将变成0。
(d) 两个权重都不会变成0,只是随着C 的增大而减小0。
该数据可以被完全正确分类(训练误差为0),且仅看x 2的值(w 1 = 0)就可以得到。
虽然最佳分类器w 1可能非0,但随着正则量增大w1会很快接近0。
L1正则会使得w 1完全为0。
随着C 的增大,最终w 2 会变成0。
4、LDA
现有100个标注好的训练样本(共有两个类),我们训练以下模型:
GaussI : 每类一个高斯分布,两个类的方差矩阵均设为单位矩阵I ;
GaussX : 每类一个高斯分布,但协方差矩阵不做任何约束;
LinLog : 线性logistic 回归模型(特征的线性组合);
QuadLog : 二次logistic 回归模型(所以特征的一次和二次组合)。
训练后,我们用训练集上的平均log 似然作为模型性能的度量,并用等式或不等式表示模型间的性能关系,如“model 1 <= model 2” 或 “model 1 = model 2”
GaussI <= LinLog (both have logistic postiriors, and LinLog is the logistic model maximizing the average log probabilities)
GaussX <= QuadLog (both have logistic postiriors with quadratic features, and QuadLog is the model of this class maximizing the average log probabilities)
LinLog <= QuadLog (logistic regression models with linear features are a subclass of logistic regression models with quadratic functions— the maximum from the superclass is at least as high as the maximum from the subclass)
GaussI <= QuadLog (follows from above inequalities)
(GaussX will have higher average log joint probabilities of examples and labels, then will GaussI. But have higher average log joint probabilities does not necessarily translate to higher average log conditional probabilities)
一、交叉验证
1、4. 给定如下数据集,其中X为输入变量,Y为输出变量。
假设考虑采用k-NN算法
对x对应的y进行预测,其中距离度量采用不加权的欧氏距离。
(12分)
(1)算法1-NN的训练误差的是多少?(用分类错误的样本数目表示即可,下同)
(2)算法3-NN的训练误差是多少?
(3)算法1-NN的LOOCV(留一交叉验证)估计误差是多少?
(4)算法3-NN的LOOCV(留一交叉验证)估计误差是多少?。