斯坦福大学机器学习所有问题及答案合集
最新最全的机器学习面试题及答案汇总
最新最全的机器学习⾯试题及答案汇总⼈⼯智能的出现,将机器学习推向了顶峰,机器学习成为⼀门过硬的技术,从事⼈⼯智能职业,要过⼀⼤⾯试关就是机器学习,掌握了机器学习才能更好的发挥出潜能,作为⼈⼯智能⼯程师,如何快速通关呢?下⾯IT培训⽹盘点机器学习⾯试题,并附上答案。
机器学习⾯试题有答案汇总Q1. 在回归模型中,下列哪⼀项在权衡⽋拟合(under-fitting)和过拟合(over-fitting)中影响最⼤?A. 多项式阶数B. 更新权重 w 时,使⽤的是矩阵求逆还是梯度下降C. 使⽤常数项答案:A解析:选择合适的多项式阶数⾮常重要。
如果阶数过⼤,模型就会更加复杂,容易发⽣过拟合;如果阶数较⼩,模型就会过于简单,容易发⽣⽋拟合。
如果有对过拟合和⽋拟合概念不清楚的,见下图所⽰:Q2. 假设你有以下数据:输⼊和输出都只有⼀个变量。
使⽤线性回归模型(y=wx+b)来拟合数据。
那么使⽤留⼀法(Leave-One Out)交叉验证得到的均⽅误差是多少?A. 10/27B. 39/27C. 49/27D. 55/27答案:C解析:留⼀法,简单来说就是假设有 N 个样本,将每⼀个样本作为测试样本,其它 N-1 个样本作为训练样本。
这样得到 N 个分类器,N 个测试结果。
⽤这 N个结果的平均值来衡量模型的性能。
对于该题,我们先画出 3 个样本点的坐标:使⽤两个点进⾏线性拟合,分成三种情况,如下图所⽰:第⼀种情况下,回归模型是 y = 2,误差 E1 = 1。
第⼆种情况下,回归模型是 y = -x + 4,误差 E2 = 2。
第三种情况下,回归模型是 y = -1/3x + 2,误差 E3 = 2/3。
则总的均⽅误差为:Q3. 下列关于极⼤似然估计(Maximum Likelihood Estimate,MLE),说法正确的是(多选)?A. MLE 可能并不存在B. MLE 总是存在C. 如果 MLE 存在,那么它的解可能不是唯⼀的D. 如果 MLE 存在,那么它的解⼀定是唯⼀的答案:AC解析:如果极⼤似然函数 L(θ) 在极⼤值处不连续,⼀阶导数不存在,则 MLE 不存在,如下图所⽰:另⼀种情况是 MLE 并不唯⼀,极⼤值对应两个θ。
机器学习考试题目及答案
机器学习考试题目答案1.简描述机器学习概念?TomMitCheI1:"对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习J 我们遇到的大部分事情一般包括分类问题与回归问题。
如房价的预测,股价的预测等属于分类问题。
一般的处理过程是:首先,1)获取数据;2)提取最能体现数据的特征;3)利用算法建模;4)将建立的模型用于预测。
如人脸识别系统,首先我们获取到一堆人脸照片,首先,对数据进行预处理,然后提取人脸特征,最后用算法如SVM或者NN等。
这样,我们就建立了一个人脸识别系统,当输入一张人脸,我们就知道这张面孔是否在系统中。
这就是机器学习的整个流程,其次还包括寻找最优参数等。
机器学习主要分为:监督学习:数据集是有标签的,大部分机器学习模型都属于这一类别,包括线性分类器、支持向量机等等;无监督学习:跟监督学习相反,数据集是完全没有标签的,主要的依据是相似的样本在数据空间中一般距离是相近的,这样就能通过距离的计算把样本分类,这样就完全不需要IabeI,比如著名的kmeans算法就是无监督学习应用最广泛的算法;半监督学习:半监督学习一般针对的问题是数据量超级大但是有标签数据很少或者说标签数据的获取很难很贵的情况,训练的时候有一部分是有标签的而有一部分是没有的;强化学习:一直激励学习的方式,通过激励函数来让模型不断根据遇到的情况做出调整;2.循环神经网络的基本原理?RNNS的目的是用来处理序列数据。
在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。
但是这种普通的神经网络对于很多问题却无能无力。
例如,你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。
RNNS之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。
具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
史上最全的机器学习面试题-机器学习爱好者必看
1.什么是机器学习机器学习是为了应对系统程序设计,属于计算机科学类的学科,它能根据经验进行自动学习和提高。
例如:一个由程序操纵的机器人,它能根据从传感器搜集到的数据,完成一系列的任务和工作。
它能根据数据自动地学习应用程序。
2.机器学习与数据挖掘的区别机器语言是指在没有明确的程序指令的情况下,给予计算机学习能力,使它能自主的学习、设计和扩展相关算法。
数据挖掘则是一种从非结构化数据里面提取知识或者未知的、人们感兴趣的图片。
在这个过程中应用了机器学习算法。
3.什么是机器学习的过度拟合现象在机器学习中,当一个统计模型首先描述随机误差或噪声,而不是自身的基本关系时,过度拟合就会出现。
当一个模型是过于复杂,过拟合通常容易被发现,因为相对于训练数据类型的数量,参数的数量过于五花八门。
那么这个模型由于过度拟合而效果不佳。
4.过度拟合产生的原因由于用于训练模型的标准并不等同于判断模型效率的标准,这导致了产生过度拟合的可能性。
5.如何避免过度拟合当你使用较小的数据集进行机器学习时,容易产生过度拟合,因此使用较大的数据量能避免过度拟合现象。
但是,当你不得不使用小型数据集进行建模时,可以使用被称为交叉验证的技术。
在这种方法中数据集被分成两节,测试和训练数据集,测试数据集只测试模型,而在训练数据集中,数据点被用来建模。
在该技术中,一个模型通常是被给定有先验知识的数据集(训练数据集)进行训练,没有先验知识的数据集进行测试。
交叉验证的思想是:在训练阶段,定义一个数据集用来测试模型。
6.什么是感应式的机器学习?感应机器学习涉及由实践进行学习的过程,能从一组可观测到的例子的尝试推导出普遍性规则。
7.什么是机器学习的五个流行的算法?1.决策树2. 神经网络(反向传播)3. 概率网络4.最邻近法5. 支持向量机8.机器学习有哪些不同的算法技术?在机器学习不同类型的算法技术是:1.监督学习2.非监督学习3. 半监督学习4. 转导推理(Transduction)5.学习推理(Learning to Learn)。
斯坦福大学机器学习所有问题及答案合集
CS 229机器学习(问题及答案)斯坦福大学目录(1) 作业1(Supervised Learning) 1(2) 作业1解答(Supervised Learning) 5(3) 作业2(Kernels, SVMs, and Theory)15(4) 作业2解答(Kernels, SVMs, and Theory)19(5) 作业3(Learning Theory and UnsupervisedLearning)27 (6) 作业3解答(Learning Theory and Unsupervised Learning)31 (7) 作业4(Unsupervised Learning and Reinforcement Learning)39 (8) 作业4解答(Unsupervised Learning and Reinforcement Learning)44(9) Problem Set #1: Supervised Learning 56(10) Problem Set #1 Answer 62(11) Problem Set #2: Problem Set #2: Naive Bayes, SVMs, and Theory 78 (12) Problem Set #2 Answer 85CS229Problem Set#11 CS229,Public CourseProblem Set#1:Supervised Learning1.Newton’s method for computing least squaresIn this problem,we will prove that if we use Newton’s method solve the least squares optimization problem,then we only need one iteration to converge toθ∗.(a)Find the Hessian of the cost function J(θ)=1T x(i)−y(i))2.2P i=1(θm(b)Show that thefirst iteration of Newton’s method gives usθ⋆=(X T X)−1X T~y,thesolution to our least squares problem.2.Locally-weighted logistic regressionIn this problem you will implement a locally-weighted version of logistic regression,wherewe weight different training examples differently according to the query point.The locally-weighted logistic regression problem is to maximizeλℓ(θ)=−θTθ+Tθ+2mw(i)hy(i)log hθ(x(i))+(1−y(i))log(1−hθ(x(i)))i. Xi=1The−λTθhere is what is known as a regularization parameter,which will be discussed2θin a future lecture,but which we include here because it is needed for Newton’s method to perform well on this task.For the entirety of this problem you can use the valueλ=0.0001.Using this definition,the gradient ofℓ(θ)is given by∇θℓ(θ)=XT z−λθwhere z∈R m is defined byz i=w(i)(y(i)−hθ(x(i)))and the Hessian is given byH=XT DX−λIwhere D∈R m×m is a diagonal matrix withD ii=−w(i)hθ(x(i))(1−hθ(x(i)))For the sake of this problem you can just use the above formulas,but you should try toderive these results for yourself as well.Given a query point x,we choose compute the weightsw(i)=exp2τ2CS229Problem Set#12(a)Implement the Newton-Raphson algorithm for optimizingℓ(θ)for a new query pointx,and use this to predict the class of x.T he q2/directory contains data and code for this problem.You should implementt he y=lwlr(X train,y train,x,tau)function in the lwlr.mfile.This func-t ion takes as input the training set(the X train and y train matrices,in the formdescribed in the class notes),a new query point x and the weight bandwitdh tau.G iven this input the function should1)compute weights w(i)for each training exam-p le,using the formula above,2)maximizeℓ(θ)using Newton’s method,andfinally3)o utput y=1{hθ(x)>0.5}as the prediction.W e provide two additional functions that might help.The[X train,y train]=load data;function will load the matrices fromfiles in the data/folder.The func-t ion plot lwlr(X train,y train,tau,resolution)will plot the resulting clas-s ifier(assuming you have properly implemented lwlr.m).This function evaluates thel ocally weighted logistic regression classifier over a large grid of points and plots ther esulting prediction as blue(predicting y=0)or red(predicting y=1).Dependingo n how fast your lwlr function is,creating the plot might take some time,so wer ecommend debugging your code with resolution=50;and later increase it to atl east200to get a better idea of the decision boundary.(b)Evaluate the system with a variety of different bandwidth parametersτ.In particular,tryτ=0.01,0.050.1,0.51.0,5.0.How does the classification boundary change whenvarying this parameter?Can you predict what the decision boundary of ordinary(unweighted)logistic regression would look like?3.Multivariate least squaresSo far in class,we have only considered cases where our target variable y is a scalar value.S uppose that instead of trying to predict a single output,we have a training set withm ultiple outputs for each example:{(x(i),y(i)),i=1,...,m},x(i)∈R n,y(i)∈R p.Thus for each training example,y(i)is vector-valued,with p entries.We wish to use a linearmodel to predict the outputs,as in least squares,by specifying the parameter matrixΘiny=ΘT x,whereΘ∈R n×p.(a)The cost function for this case isJ(Θ)=12m p2(Θi=1j=1T x(i))j−y(ji)X X(Θ.W rite J(Θ)in matrix-vector notation(i.e.,without using any summations).[Hint: Start with the m×n design matrixX=—(x(1))T——(x(2))T—...—(x(m))T—2CS229Problem Set#13 and the m×p target matrixY=—(y(1))T——(y(2))T—...—(y(m))T—and then work out how to express J(Θ)in terms of these matrices.](b)Find the closed form solution forΘwhich minimizes J(Θ).This is the equivalent tothe normal equations for the multivariate case.(c)Suppose instead of considering the multivariate vectors y(i)all at once,we instead(i)compute each variable yj separately for each j=1,...,p.In this case,we have a p individual linear models,of the form(i)T(i),j=1,...,p. yj=θj x(So here,eachθj∈R n).How do the parameters from these p independent least squares problems compare to the multivariate solution?4.Naive BayesI n this problem,we look at maximum likelihood parameter estimation using the naiveB ayes assumption.Here,the input features x j,j=1,...,n to our model are discrete,b inary-valued variables,so x j∈{0,1}.We call x=[x1x2···x n]T to be the input vector.For each training example,our output targets are a single binary-value y∈{0,1}.Our model is then parameterized by φj|y=0=p(x j=1|y=0),φj|y=1=p(x j=1|y=1),andφy=p(y=1).We model the joint distribution of(x,y)according top(y)=(φy)y(1−φy)1−yp(x|y=0)=nYp(x j|y=0)j=1=nYx j(1−φj|y=0)1−x(φj|y=0)j j=1p(x|y=1)=nYp(x j|y=1)j=1=nYx j(1−φj|y=1)1−x(φj|y=1)j j=1(i),y(i);ϕ)in terms of the(a)Find the joint likelihood functionℓ(ϕ)=log Q i=1p(xmodel parameters given above.Here,ϕrepresents the entire set of parameters {φy,φj|y=0,φj|y=1,j=1,...,n}.(b)Show that the parameters which maximize the likelihood function are the same as3CS229Problem Set#14those given in the lecture notes;i.e.,thatm(i)φj|y=0=P j=1∧yi=11{x(i)=0}mP i=11{y(i)=0} m(i)φj|y=1=P j=1∧yi=11{x(i)=1}mP i=11{y(i)=1}φy=P(i)=1}mi=11{y.m(c)Consider making a prediction on some new data point x using the most likely classestimate generated by the naive Bayes algorithm.Show that the hypothesis returnedby naive Bayes is a linear classifier—i.e.,if p(y=0|x)and p(y=1|x)are the classp robabilities returned by naive Bayes,show that there exists someθ∈R n+1sucht hatT x1p(y=1|x)≥p(y=0|x)if and only ifθ≥0.(Assumeθ0is an intercept term.)5.Exponential family and the geometric distribution(a)Consider the geometric distribution parameterized byφ:p(y;φ)=(1−φ)y−1φ,y=1,2,3,....Show that the geometric distribution is in the exponential family,and give b(y),η,T(y),and a(η).(b)Consider performing regression using a GLM model with a geometric response vari-able.What is the canonical response function for the family?You may use the factthat the mean of a geometric distribution is given by1/φ.(c)For a training set{(x(i),y(i));i=1,...,m},let the log-likelihood of an examplebe log p(y(i)|x(i);θ).By taking the derivative of the log-likelihood with respect toθj,derive the stochastic gradient ascent rule for learning using a GLM model withgoemetric responses y and the canonical response function.4CS229Problem Set#1Solutions1CS229,Public CourseProblem Set#1Solutions:Supervised Learning1.Newton’s method for computing least squaresIn this problem,we will prove that if we use Newton’s method solve the least squares optimization problem,then we only need one iteration to converge toθ∗.(a)Find the Hessian of the cost function J(θ)=1T x(i)−y(i))2.2P i=1(θmAnswer:As shown in the class notes∂J(θ)∂θj=mXT x(i)−y(i))x(i)(θj. i=1So∂2J(θ)∂θj∂θk==m∂X T x(i)−y(i))x(i)(θ∂θkj i=1mX(i)(i)T X)jkx j x k=(Xi=1Therefore,the Hessian of J(θ)is H=X T X.This can also be derived by simply applyingrules from the lecture notes on Linear Algebra.(b)Show that thefirst iteration of Newton’s method gives usθ⋆=(X T X)−1X T~y,thesolution to our least squares problem.Answer:Given anyθ(0),Newton’s methodfindsθ(1)according toθ(1)=θ(0)−H−1∇θJ(θ(0))=θ(0)−(X T X)−1(X T Xθ(0)−X T~y)=θ(0)−θ(0)+(X T X)−1X T~y=(XT X)−1X T~y.Therefore,no matter whatθ(0)we pick,Newton’s method alwaysfindsθ⋆after oneiteration.2.Locally-weighted logistic regressionIn this problem you will implement a locally-weighted version of logistic regression,where we weight different training examples differently according to the query point.The locally- weighted logistic regression problem is to maximizeλℓ(θ)=−θTθ+Tθ+2mw(i)hy(i)log hθ(x(i))+(1−y(i))log(1−hθ(x(i)))i. Xi=15CS229Problem Set#1Solutions2 The−λTθhere is what is known as a regularization parameter,which will be discussedθ2in a future lecture,but which we include here because it is needed for Newton’s method to perform well on this task.For the entirety of this problem you can use the valueλ=0.0001.Using this definition,the gradient ofℓ(θ)is given by∇θℓ(θ)=XT z−λθwhere z∈R m is defined byz i=w(i)(y(i)−hθ(x(i)))and the Hessian is given byH=XT DX−λIwhere D∈R m×m is a diagonal matrix withD ii=−w(i)hθ(x(i))(1−hθ(x(i)))For the sake of this problem you can just use the above formulas,but you should try toderive these results for yourself as well.Given a query point x,we choose compute the weightsw(i)=exp2τ2CS229Problem Set#1Solutions3theta=zeros(n,1);%compute weightsw=exp(-sum((X_train-repmat(x’,m,1)).^2,2)/(2*tau));%perform Newton’s methodg=ones(n,1);while(norm(g)>1e-6)h=1./(1+exp(-X_train*theta));g=X_train’*(w.*(y_train-h))-1e-4*theta;H=-X_train’*diag(w.*h.*(1-h))*X_train-1e-4*eye(n);theta=theta-H\g;end%return predicted yy=double(x’*theta>0);(b)Evaluate the system with a variety of different bandwidth parametersτ.In particular,tryτ=0.01,0.050.1,0.51.0,5.0.How does the classification boundary change whenv arying this parameter?Can you predict what the decision boundary of ordinary(unweighted)logistic regression would look like?Answer:These are the resulting decision boundaries,for the different values ofτ.tau = 0.01 tau = 0.05 tau = 0.1tau = 0.5 tau = 0.5 tau = 5For smallerτ,the classifier appears to overfit the data set,obtaining zero training error,but outputting a sporadic looking decision boundary.Asτgrows,the resulting deci-sion boundary becomes smoother,eventually converging(in the limit asτ→∞to theunweighted linear regression solution).3.Multivariate least squaresSo far in class,we have only considered cases where our target variable y is a scalar value. Suppose that instead of tryingto predict a single output,we have a training set with7CS229Problem Set#1Solutions4multiple outputs for each example:{(x(i),y(i)),i=1,...,m},x(i)∈R n,y(i)∈R p.Thus for each training example,y(i)is vector-valued,with p entries.We wish to use a linearmodel to predict the outputs,as in least squares,by specifying the parameter matrixΘiny=ΘT x,whereΘ∈R n×p.(a)The cost function for this case isJ(Θ)=12m p2 X X T x(i))j−y(j=1ji)(Θi=1.W rite J(Θ)in matrix-vector notation(i.e.,without using any summations).[Hint: Start with the m×n design matrixX=—(x(1))T——(x(2))T—...—(x(m))T—and the m×p target matrixY=—(y(1))T——(y(2))T—...—(y(m))T—and then work out how to express J(Θ)in terms of these matrices.] Answer:The objective function can be expressed asJ(Θ)=12tr T(XΘ−Y)(XΘ−Y).To see this,note thatJ(Θ)===1tr T(XΘ−Y)(XΘ−Y)212X i T(XΘ−Y)XΘ−Y)ii12X i X(XΘ−Y)2ijj=12m p2i)(Θi=1j=1T x(i))j−y j(X X(Θ8CS229Problem Set#1Solutions5(b)Find the closed form solution forΘwhich minimizes J(Θ).This is the equivalent tothe normal equations for the multivariate case.Answer:First we take the gradient of J(Θ)with respect toΘ.∇ΘJ(Θ)=∇Θ1tr(XΘ−Y)T(XΘ−Y)2=∇ΘT X T XΘ−ΘT X T Y−Y T XΘ−Y T T1trΘ21=∇ΘT X T XΘ)−tr(ΘT X T Y)−tr(Y T XΘ)+tr(Y T Y)tr(Θ21=tr(Θ2∇ΘT X T XΘ)−2tr(Y T XΘ)+tr(Y T Y)12T XΘ+X T XΘ−2X T Y=X=XT XΘ−X T YSetting this expression to zero we obtainΘ=(XT X)−1X T Y.This looks very similar to the closed form solution in the univariate case,except now Yis a m×p matrix,so thenΘis also a matrix,of size n×p.(c)Suppose instead of considering the multivariate vectors y(i)all at once,we instead(i)compute each variable y j separately for each j=1,...,p.In this case,we have a p individual linear models,of theform(i)T(i),j=1,...,p. y j=θxj(So here,eachθj∈R n).How do the parameters from these p independent least squares problems compareto the multivariate solution?Answer:This time,we construct a set of vectors~y j=(1)jyy(2)j...(m)yj,j=1,...,p.Then our j-th linear model can be solved by the least squares solutionθj=(XT X)−1X T~y j.If we line up ourθj,we see that we have the following equation:[θ1θ2···θp]=(X T X)−1X T~y1(X T X)−1X T~y2···(X T X)−1X T~y p=(XT X)−1X T[~y1~y2···~y p]=(XT X)−1X T Y=Θ.Thus,our p individual least squares problems give the exact same solution as the multi- variate least squares. 9CS229Problem Set#1Solutions64.Naive BayesI n this problem,we look at maximum likelihood parameter estimation using the naiveB ayes assumption.Here,the input features x j,j=1,...,n to our model are discrete,b inary-valued variables,so x j∈{0,1}.We call x=[x1x2···x n]T to be the input vector.For each training example,our output targets are a single binary-value y∈{0,1}.Our model is then parameterized by φj|y=0=p(x j=1|y=0),φj|y=1=p(x j=1|y=1),andφy=p(y=1).We model the joint distribution of(x,y)according top(y)=(φy)y(1−φy)1−yp(x|y=0)=nYp(x j|y=0)j=1=nYx j(1−φj|y=0)1−x(φj|y=0)j j=1p(x|y=1)=nYp(x j|y=1)j=1=nY x j(1−φj|y=1)1−x(φj|y=1)jj=1m(i),y(i);ϕ)in terms of the(a)Find the joint likelihood functionℓ(ϕ)=log Qi=1p(xmodel parameters given above.Here,ϕrepresents the entire set of parameters {φy,φj|y=0,φj|y=1,j= 1,...,n}.Answer:mY p(x(i),y(i);ϕ) ℓ(ϕ)=logi=1mYp(x(i)|y(i);ϕ)p(y(i);ϕ) =logi=1(i);ϕ)m nY Y(i)p(y(i);ϕ) =log j|yp(xi=1j=1(i);ϕ)m nX Xlog p(y(i);ϕ)+(i)=j|ylog p(xi=1j=1m"Xy(i)logφy+(1−y(i))log(1−φy) =i=1nX j=1(i)(i)+xlogφj|y(i)+(1−x j)log(1−φj|yj(i))(b)Show that the parameters which maximize the likelihood function are the same as10CS229Problem Set#1Solutions7those given in the lecture notes;i.e.,thatm(i)φj|y=0=P(i)=0}i=11{x j=1∧ymP i=11{y(i)=0} m(i)φj|y=1=P(i)=1}i=11{x j=1∧ymPi=11{y(i)=1} m(i)=1}φy=Pi=11{y.mA nswer:The only terms inℓ(ϕ)which have non-zero gradient with respect toφj|y=0 are those which includeφj|y(i).Therefore,∇φj|y=0ℓ(ϕ)=∇φj|y=0mX i=1(i)(i)(i))x j)log(1−φj|yjlogφj|y(i)+(1−xj)log(1−φj|y=∇φj|y=0mi=1(i)X(i)=0} xjlog(φj|y=0)1{y=(i)(i)=0}+(1−xj)log(1−φj|y=0)1{ym111{y(i)=0}CS229Problem Set#1Solutions8To solve forφy,mi=1y(i)logφy+(1−y(i))log(1−φy) X∇φyℓ(ϕ)=∇φym1−φy1p(y=1|x)≥p(y=0|x)if and only ifθ≥0.(Assumeθ0is an intercept term.)Answer:p(y=1|x)≥p(y=0|x)≥1⇐⇒p(y=1|x)p(y=0|x)⇐⇒Qj=1p(x j|y=1)≥1np(y=1)p(y=0)Q j=1p(x j|y=0)n⇐⇒Qj≥1 nx j(1−φj|y=0)1−xφyj=1(φj|y=0)Qjn j=1(φj|y=1)x j(1−φj|y=1)1−x(1−φy)n+(1−x j)log1−φj|y=0x j logφj|y=0≥0,12CS229Problem Set#1Solutions9 whereθ0=nlog1−φj|y=01y log(1−φ)−log1−φThenb(y)=1η=log(1−φ)T(y)=ya(η)=log1−φφCS229Problem Set#1Solutions10ℓi(θ)=log"exp T x(i)·y(i)−log T x(i)!!#θT x(i)eθ1−eθ=log exp T x(i)·y(i)−log T x(i)−1θ1e−θ∂∂θj=θT x(i)·y(i)+log T x(i)−1e−θT x(i)e−θ(i)(i)jy(−x(i)+ℓi(θ)=x j)e−θT x(i)−1(i)(i)−=x j y1(i)T x(i)xj1−e−θ=y(i)−1T x(i)CS229Problem Set#21 CS229,Public CourseProblem Set#2:Kernels,SVMs,and Theory1.Kernel ridge regressionIn contrast to ordinary least squares which has a cost functionJ(θ)=12mXT x(i)−y(i))2,(θi=1we can also add a term that penalizes large weights inθ.In ridge regression,our least s quares cost is regularized by adding a termλkθk2,whereλ>0is afixed(known)constant (regularization will be discussed at greater length in an upcoming course lecutre).The ridger egression cost function is thenJ(θ)=12mXT x(i)−y(i))2+(θi=1λkθk2.2(a)Use the vector notation described in class tofind a closed-form expreesion for thevalue ofθwhich minimizes the ridge regression cost function.(b)Suppose that we want to use kernels to implicitly represent our feature vectors in ahigh-dimensional(possibly infinite dimensional)ing a feature mappingφ, the ridge regression cost function becomesJ(θ)=12mXTφ(x(i))−y(i))2+(θi=1λkθk2.2Making a prediction on a new input x new would now be done by computingθTφ(x new).S how how we can use the“kernel trick”to obtain a closed form for the predictiono n the new input without ever explicitly computingφ(x new).You may assume thatt he parameter vectorθcan be expressed as a linear combination of the input feature vectors;i.e.,θ=P (i))for some set of parametersαi.mi=1αiφ(x[Hint:You mayfind the following identity useful:(λI+BA)−1B=B(λI+AB)−1.If you want,you can try to prove this as well,though this is not required for theproblem.]2.ℓ2norm soft margin SVMsIn class,we saw that if our data is not linearly separable,then we need to modify our support vector machine algorithm by introducing an error margin that must be minimized.Specifically,the formulation we have looked at is known as theℓ1norm soft margin SVM.In this problem we will consider an alternative method,known as theℓ2norm soft margin SVM.This new algorithm is given by the following optimization problem(notice that theslack penalties are now squared):.min w,b,ξ12+Ck wk2P i=1ξ2m2is.t.y(i)(w T x(i)+b)≥1−ξi,i=1,...,m15CS229Problem Set#22(a)Notice that we have dropped theξi≥0constraint in theℓ2problem.Show that thesenon-negativity constraints can be removed.That is,show that the optimal value ofthe objective will be the same whether or not these constraints are present.(b)What is the Lagrangian of theℓ2soft margin SVM optimization problem?(c)Minimize the Lagrangian with respect to w,b,andξby taking the following gradients:∇w L,∂L∂b,and∇ξL,and then setting them equal to0.Here,ξ=[ξ1,ξ2,...,ξm]T.(d)What is the dual of theℓ2soft margin SVM optimization problem?3.SVM with Gaussian kernelC onsider the task of training a support vector machine using the Gaussian kernel K(x,z)=exp(−kx−zk2/τ2).We will show that as long as there are no two identical points in thet raining set,we can alwaysfind a value for the bandwidth parameterτsuch that the SVMa chieves zero training error.(a)Recall from class that the decision function learned by the support vector machinecan be written asf(x)=mXαi y(i)K(x(i),x)+b. i=1A ssume that the training data{(x(1),y(1)),...,(x(m),y(m))}consists of points whicha re separated by at least a distance ofǫ;that is,||x(j)−x(i)||≥ǫfor any i=j.F ind values for the set of parameters{α1,...,αm,b}and Gaussian kernel widthτs uch that x(i)is correctly classified,for all i=1,...,m.[Hint:Letαi=1for all ia nd b=0.Now notice that for y∈{−1,+1}the prediction on x(i)will be correct if|f(x(i))−y(i)|<1,sofind a value ofτthat satisfies this inequality for all i.](b)Suppose we run a SVM with slack variables using the parameterτyou found in part(a).Will the resulting classifier necessarily obtain zero training error?Why or whynot?A short explanation(without proof)will suffice.(c)Suppose we run the SMO algorithm to train an SVM with slack variables,underthe conditions stated above,using the value ofτyou picked in the previous part,and using some arbitrary value of C(which you do not know beforehand).Will thisnecessarily result in a classifier that achieve zero training error?Why or why not?Again,a short explanation is sufficient.4.Naive Bayes and SVMs for Spam ClassificationI n this question you’ll look into the Naive Bayes and Support Vector Machine algorithmsf or a spam classification problem.However,instead of implementing the algorithms your-s elf,you’ll use a freely available machine learning library.There are many such librariesa vailable,with different strengths and weaknesses,but for this problem you’ll use theW EKA machine learning package,available at /ml/weka/.WEKA implements many standard machine learning algorithms,is written in Java,andhas both a GUI and a command line interface.It is not the best library for very large-scaledata sets,but it is very nice for playing around with many different algorithms on mediumsize problems.You can download and install WEKA by following the instructions given on the websiteabove.To use it from the command line,youfirst need to install a java runtime environ-ment,then add the weka.jarfile to your CLASSPATH environment variable.Finally,you16CS229Problem Set#23 can call WEKA using the command:java<classifier>-t<training file>-T<test file>For example,to run the Naive Bayes classifier(using the multinomial event model)on ourprovided spam data set by running the command:java weka.classifiers.bayes.NaiveBayesMultinomial-t spam train1000.arff-T spam test.arffT he spam classification dataset in the q4/directory was provided courtesy of ChristianS helton(cshelton@).Each example corresponds to a particular email,and eachf eature correspondes to a particular word.For privacy reasons we have removed the actualw ords themselves from the data set,and instead label the features generically as f1,f2,etc.H owever,the data set is from a real spam classification task,so the results demonstrate thep erformance of these algorithms on a real-world problem.The q4/directory actually con-t ains several different trainingfiles,named spam train50.arff,spam train100.arff,etc(the“.arff”format is the default format by WEKA),each containing the correspondingn umber of training examples.There is also a single test set spam test.arff,which is ah old out set used for evaluating the classifier’s performance.(a)Run the weka.classifiers.bayes.NaiveBayesMultinomial classifier on the datasetand report the resulting error rates.Evaluate the performance of the classifier usingeach of the different trainingfiles(but each time using the same testfile,spam test.arff).Plot the error rate of the classifier versus the number of training examples.(b)Repeat the previous part,but using the weka.classifiers.functions.SMO classifier,which implements the SMO algorithm to train an SVM.How does the performanceof the SVM compare to that of Naive Bayes?5.Uniform convergenceIn class we proved that for anyfinite set of hypotheses H={h1,...,h k},if we pick the hypothesis hˆthat minimizes the training error on a set of m examples,then with probabilityat least(1−δ),12kε(hˆ)≤ε(h i)min log,+2r2mδiwhereε(h i)is the generalization error of hypothesis h i.Now consider a special case(oftenc alled the realizable case)where we know,a priori,that there is some hypothesis in ourc lass H that achieves zero error on the distribution from which the data is drawn.Thenw e could obviously just use the above bound with min iε(h i)=0;however,we can prove ab etter bound than this.(a)Consider a learning algorithm which,after looking at m training examples,choosessome hypothesis hˆ∈H that makes zero mistakes on this training data.(By ourassumption,there is at least one such hypothesis,possibly more.)Show that withprobability1−δε(hˆ)≤1m logkδ.N otice that since we do not have a square root here,this bound is much tighter.[Hint: C onsider the probability that a hypothesis with generalization error greater thanγmakes no mistakes on the training data.Instead of the Hoeffding bound,you might alsofind the following inequality useful:(1−γ)m≤e−γm.]17CS229Problem Set#24(b)Rewrite the above bound as a sample complexity bound,i.e.,in the form:forfixedδandγ,forε(hˆ)≤γto hold with probability at least(1−δ),it suffices that m≥f(k,γ,δ)(i.e.,f(·)is some function of k,γ,andδ).18CS229Problem Set#2Solutions1 CS229,Public CourseProblem Set#2Solutions:Kernels,SVMs,and Theory1.Kernel ridge regressionIn contrast to ordinary least squares which has a cost functionJ(θ)=12mXT x(i)−y(i))2,(θi=1we can also add a term that penalizes large weights inθ.In ridge regression,our least s quares cost is regularized by adding a termλkθk2,whereλ>0is afixed(known)constant (regularization will be discussed at greater length in an upcoming course lecutre).The ridger egression cost function is thenJ(θ)=12mX T x(i)−y(i))2+(θi=1λkθk2.2(a)Use the vector notation described in class tofind a closed-form expreesion for thevalue ofθwhich minimizes the ridge regression cost function.Answer:Using the design matrix notation,we can rewrite J(θ)asJ(θ)=12(Xθ−~y)T(Xθ−~y)+T(Xθ−~y)+λθTθ.Tθ.2Then the gradient is∇θJ(θ)=XT Xθ−X T~y+λθ.Setting the gradient to0gives us0=XT Xθ−X T~y+λθθ=(XT X+λI)−1X T~y.(b)Suppose that we want to use kernels to implicitly represent our feature vectors in ahigh-dimensional(possibly infinite dimensional)ing a feature mappingφ, the ridge regression cost function becomesJ(θ)=12mX Tφ(x(i))−y(i))2+(θi=1λkθk2.2Making a prediction on a new input x new would now be done by computingθTφ(x new).S how how we can use the“kernel trick”to obtain a closed form for the predictiono n the new input without ever explicitly computingφ(x new).You may assume that the parameter vectorθcan beexpressed as a linear combination of the input featurem(i))for some set of parametersαi.vectors;i.e.,θ=P i=1αiφ(x19。
面试必过——50个最受欢迎的机器学习面试问题
50个最受欢迎的机器学习面试问题机器学习是近年来强大的技术进步之一。
机器学习的普及为组织改变以数据驱动的决策为重点提供了主要支持。
因此,您会发现对精通机器学习的专业人员的突出需求。
因此,您还可以通过简单的Google搜索找到正在寻找机器学习面试问题的候选人!由于机器学习的技术观点正在逐渐发展,面试过程也涉及某些变化。
几年前,有关设计卷积网络的知识可能使您获得了机器学习中有希望的工作。
但是,时代已经改变。
如今,机器学习对算法,概率,统计数据,数据结构等抱有更大的期望。
因此,候选人需要全面准备顶级机器学习面试题。
众所周知,机器学习和数据科学是紧密相关的学科。
机器学习工程师是机器学习和数据科学领域的最高职位之一。
因此,我们对顶级机器学习面试问题的关注并非徒劳。
在2019年,机器学习工程师每年平均可赚146,085美元,年增长率高达344%。
因此,薪水的快速增长和有希望的工作岗位的机会意味着需要更好地准备机器学习面试。
顶级机器学习面试问答到目前为止,我们已经讨论了机器学习面试对您的IT事业的重要性。
那么,您想在首次尝试机器学习面试时取得成功吗?如果是,那么您来对地方了!该讨论将提出一些最佳的机器学习面试问题。
讨论的主要目的是为您的机器学习面试准备提供一个可靠的工具。
通常,您会认为针对新生的问题非常容易,并且基本的ML知识将有所帮助。
确实如此!面试官会询问机器学习面试问题,以寻找有经验的候选人作为后续问题。
为什么?当您证明您的机器学习基础知识时,访问员可以尝试更深入地研究您的能力。
因此,全面准备最新的机器学习面试问题可以帮助您成功通过面试。
以下讨论将针对五个不同类别的机器学习面试提出问题。
机器学习面试问题的每个类别将包含10个条目,可以帮助您理解问题的类型。
如果您很高兴找到机器学习的工作,那么为什么要等待呢?开始吧!数据工程师的机器学习面试问题最受欢迎的面试问题中的第一类是针对数据工程师的机器学习面试问题。
(完整word版)机器学习练习题与答案
(完整word版)机器学习练习题与答案《机器学习》练习题与解答1.⼩刚去应聘某互联⽹公司的算法⼯程师,⾯试官问他“回归和分类有什么相同点和不同点”,他说了以下⾔论,请逐条判断是否准确。
1)回归和分类都是有监督学习问题[单选题] [必答题]○对○错参考答案:对。
解析:这道题只有⼀个同学做错。
本题考察有监督学习的概念。
有监督学习是从标签化训练数据集中推断出函数的机器学习任务。
有监督学习和⽆监督学习的区别是:机器学习算法的图谱如下:在回归问题中,标签是连续值;在分类问题中,标签是离散值。
具体差别请看周志华《机器学习》书中的例⼦,⼀看便懂:2.背景同上题。
请判断2)回归问题和分类问题都有可能发⽣过拟合 [单选题] [必答题]○对○错答案:对解析:这题有两个同学做错。
过拟合的英⽂名称是 Over-fitting(过拟合)。
为了说清楚“过”拟合,⾸先说⼀下“拟合”【拟合的⼏何意义】:从⼏何意义上讲,拟合是给定了空间中的⼀些点,找到⼀个已知形式未知参数的连续曲线或曲⾯来最⼤限度地逼近这些点。
⼀个直观的例⼦,是下⾯的电阻和温度的例⼦。
我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b。
现在我们有⼀系列关于“温度”和“电阻”的测量值。
⼀个最简单的思路,取两组测量值,解⼀个线性⽅程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提⾼测量精度,我们会测量多次,得到多组的值,这样就相当于得到⼆维平⾯上的多个点,我们的⽬标是寻找⼀条直线,让这条直线尽可能地接近各个测量得到的点。
拟合的数学意义:在数学的意义上,所谓拟合(fit)是指已知某函数的若⼲离散函数值{f1,f2,…,fn}(未必都是准确值,有个别可能是近似甚⾄错误值),通过调整该函数中若⼲待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最⼩⼆乘意义)最⼩。
机器学习期末复习题及答案
一、单选题1、在条件随机场(CRF)中,参数的学习通常使用哪种优化算法?()A.K-Means聚类B.梯度提升机(GBM)C.支持向量机(SVM)D.随机梯度下降(SGD)正确答案:D2、在概率无向图模型中,什么是团分解(Cluster Decomposition)?()A.一种通过节点之间的边传播信息,以更新节点的边缘概率的方法B.一种用于计算图的分割的算法C.一种将联合概率分布分解为多个局部概率分布的方法D.一种用于表示联合概率分布的无向树正确答案:C3、在数据不完备时,下列哪一种方法不是贝叶斯网络的参数学习方法()A.拉普拉斯近似B.最大似然估计方法C.蒙特卡洛方法D.高斯逼近正确答案:B4、在有向图模型中,什么是条件独立性?()A.给定父节点的条件下,子节点之间独立B.所有节点之间都独立C.所有节点的状态相互独立D.任意两个节点都是独立的正确答案:A5、在概率有向图模型中,节点表示什么?()A.变量B.参数C.条件概率D.边正确答案:A6、下列哪一项表示簇中样本点的紧密程度?()A.簇个数B.簇大小C.簇描述D.簇密度正确答案:D7、闵可夫斯基距离表示为曼哈顿距离时p为:()A.1B.2C.3D.4正确答案:A8、谱聚类与K均值聚类相比,对于什么样的数据表现更好?()A.低维数据B.高维数据C.线性可分数据D.高密度数据正确答案:B9、SVM适用于什么类型的问题?()A.既可用于线性问题也可用于非线性问题B.仅适用于回归问题C.仅适用于非线性问题D.仅适用于线性问题正确答案:A10、对于在原空间中线性不可分的问题,支持向量机()A.在原空间中寻找非线性函数划分数据B.无法处理C.利用核函数把数据映射到高维空间D.在原空间中寻找线性函数划分数据正确答案:C11、LDA主题模型中的alpha参数控制着什么?()A.单词分布的稀疏性B.文档-主题分布的稀疏性C.模型大小D.模型收敛速度正确答案:B12、LDA的全称是什么?()tent Dirichlet AllocationB.Linear Discriminant Analysistent Data AnalysisD.Lin Latent Dirichlet Allocation ear Data Algorithm正确答案:A13、以下对于梯度下降法中学习率lr的阐述,正确的是()A.lr小,收敛速度较快B.lr大,收敛速度较慢C.lr小,收敛速度较慢且较不易收敛D.lr大,收敛速度较快但可能导致不收敛正确答案:D14、在EM算法中,E代表期望,M代表()A.均值B.最大化C.最小化D.均方误差正确答案:B15、梯度下降中如何有效地捕捉到目标函数的全局最优?()A.调整学习速率B.增加模型复杂度C.使用梯度下降的变种算法D.增加训练样本量正确答案:C二、多选题1、下列机器学习常用算法中哪个属于分类算法?()A.K-meansB.最小距离分类器C.KNN(K近邻)D.逻辑回归正确答案:B、C、D2、下列关于决策树的说法正确的是?()A.CART使用的是二叉树B.其可作为分类算法,也可用于回归模型C.不能处理连续型特征D.它易于理解、可解释性强正确答案:A、B、D3、下列属于k近邻算法中常用的距离度量方法的是?()A.余弦相似度B.欧式距离C.曼哈顿距离D.闵可夫斯基距离正确答案:A、B、C、D4、下列属于深度模型的是?()A.DNNB.LightgbmC.LSTMD.Seq2Seq正确答案:A、C、D5、sklearn中RFECV方法分成哪两个部分?()A.RFEB.CVC.NLPD.MM正确答案:A、B6、以下关于蒙特卡洛方法描述正确的是()A.蒙特卡洛方法计算值函数可以采用First-visit方法B.蒙特卡洛方法方差很大C.蒙特卡洛方法计算值函数可以采用Every-visit方法D.蒙特卡洛方法偏差很大正确答案:A、B、C7、为什么循环神经网络可以用来实现自动问答,比如对一句自然语言问句给出自然语言回答()A.因为自动问答可以看成是一种序列到序列的转换B.因为循环神经网络能够处理变长输入C.因为循环神经网要比卷积神经网更强大D.因为卷积神经网络不能处理字符输入正确答案:A、B8、通常有哪几种训练神经网络的优化方法()A.梯度下降法B.随机梯度下降法C.小批量随机梯度下降法D.集成法正确答案:A、B、C9、隐马尔可夫模型的三个基本问题是()A.估值问题B.寻找状态序列C.学习模型参数D.状态更新正确答案:A、B、C10、在数据不完备时,贝叶斯网络的参数学习方法有()A.高斯逼近B.蒙特卡洛方法C.拉普拉斯近似D.最大似然估计方法正确答案:A、B、C11、基于约束的方法通过统计独立性测试来学习结点间的()A.独立性B.相关性C.依赖性D.完备性正确答案:A、B12、基于搜索评分的方法,关键点在于()A.确定合适的搜索策略B.确定评分函数C.确定搜索优先级D.确定选择策略正确答案:A、B13、条件随机场需要解决的关键问题有()A.特征函数的选择B.参数估计C.模型推断D.约束条件正确答案:A、B、C14、以下关于逻辑斯蒂回归模型的描述正确的是()A.针对分类的可能性进行建模,不仅能预测出类别,还可以得到属于该类别的概率B.直接对分类的可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题C.模型本质仍然是一个线性模型,实现相对简单D.逻辑斯蒂回归模型是线性回归模型正确答案:A、B、C、D15、LDA模型在做参数估计时,最常用的方法是()A.Gibbs采样方法B.变分推断C.梯度下降D.Beam search正确答案:A、B三、判断题1、关于EM算法的收敛性,EM算法理论上不能够保证收敛()正确答案:×2、多次运行,随机化初始点是对存在局部最优点的函数求解的一种方案()正确答案:√3、训练算法的目的就是要让模型拟合训练数据()正确答案:×4、循环神经网络按时间展开后就可以通过反向传播算法训练了()正确答案:√5、GIS算法的收敛速度由计算更新值的步长确定。
机器学习面试问题总结和回答
1、为什么引入非线性激活函数如果不用激励函数,在这种情况下你每一层输出都是上层输入的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机(Perceptron)了。
正因为上面的原因,我们决定引入非线性函数作为激励函数,这样深层神经网络就有意义了(不再是输入的线性组合,可以逼近任意函数)。
2、为什么使用ReLU激活函数第一,采用sigmoid等函数,算激活函数时(指数运算),计算量大,反向传播求误差梯度时,求导涉及除法,计算量相对大,而采用Relu激活函数,整个过程的计算量节省很多。
第二,对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度消失的情况(在sigmoid接近饱和区时,变换太缓慢,导数趋于0,这种情况会造成信息丢失),从而无法完成深层网络的训练。
第三,Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生。
3、权重初始化错误:全零初始化:因为如果网络中的每个神经元都计算出同样的输出,然后它们就会在反向传播中计算出同样的梯度,从而进行同样的参数更新。
换句话说,如果权重被初始化为同样的值,神经元之间就失去了不对称性的源头。
小随机数初始化:因此,权重初始值要非常接近0又不能等于0。
解决方法就是将权重初始化为很小的数值,以此来打破对称性。
其思路是:如果神经元刚开始的时候是随机且不相等的,那么它们将计算出不同的更新,并将自身变成整个网络的不同部分。
小随机数权重初始化的实现方法是:W = 0.01 * np.random.randn(D,H)。
其中randn函数是基于零均值和标准差的一个高斯分布来生成随机数的。
根据这个式子,每个神经元的权重向量都被初始化为一个随机向量,而这些随机向量又服从一个多变量高斯分布,这样在输入空间中,所有的神经元的指向是随机的。
也可以使用均匀分布生成的随机数,但是从实践结果来看,对于算法的结果影响极小。
机器学习练习题与答案
单变量函数的梯度下降我们假设有一个单变量的函数函数的微分初始化,起点为学习率为根据梯度下降的计算公式我们开始进行梯度下降的迭代计算过程:如图,经过四次的运算,也就是走了四步,基本就抵达了函数的最低点,也就是山底多变量函数的梯度下降我们假设有一个目标函数:现在要通过梯度下降法计算这个函数的最小值。
我们通过观察就能发现最小值其实就是 (0,0)点。
但是接下来,我们会从梯度下降算法开始一步步计算到这个最小值!我们假设初始的起点为:初始的学习率为:函数的梯度为:进行多次迭代:我们发现,已经基本靠近函数的最小值点1.小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点”,他说了以下言论,请逐条判断是否准确。
1)回归和分类都是有监督学习问题[单选题] [必答题]○对○错参考答案:对。
解析:这道题只有一个同学做错。
本题考察有监督学习的概念。
有监督学习是从标签化训练数据集中推断出函数的机器学习任务。
有监督学习和无监督学习的区别是:机器学习算法的图谱如下:在回归问题中,标签是连续值;在分类问题中,标签是离散值。
具体差别请看周志华《机器学习》书中的例子,一看便懂:2.背景同上题。
请判断2)回归问题和分类问题都有可能发生过拟合 [单选题] [必答题]○对○错答案:对解析:这题有两个同学做错。
过拟合的英文名称是 Over-fitting(过拟合)。
为了说清楚“过”拟合,首先说一下“拟合”【拟合的几何意义】:从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲面来最大限度地逼近这些点。
一个直观的例子,是下面的电阻和温度的例子。
我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b。
现在我们有一系列关于“温度”和“电阻”的测量值。
一个最简单的思路,取两组测量值,解一个线性方程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多次,得到多组的值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线,让这条直线尽可能地接近各个测量得到的点。
机器学习题集
机器学习题集一、选择题1.机器学习的主要目标是什么?A. 使机器具备人类的智能B. 使机器能够自动学习和改进C. 使机器能够模拟人类的思维过程D. 使机器能够按照给定的规则执行任务答案:B2.下列哪项不是机器学习算法的分类?A. 监督学习B. 无监督学习C. 半监督学习D. 完全手动学习答案:D3.在机器学习中,以下哪项是指学习算法在给定训练集上的表现能力?A. 泛化能力B. 训练误差C. 过拟合D. 欠拟合答案:B4.哪种机器学习算法通常用于处理回归问题?A. 支持向量机(SVM)B. K-近邻(K-NN)C. 线性回归D. 决策树答案:C5.深度学习是机器学习的哪个子领域?A. 弱学习B. 表示学习C. 概率学习D. 规则学习答案:B6.在监督学习中,算法尝试从训练数据中学习什么?A. 数据的分布B. 数据的模式C. 输入到输出的映射D. 数据的统计特性答案:C7.以下哪项是机器学习模型评估中常用的交叉验证方法?A. 留出法B. 梯度下降C. 决策树剪枝D. K-均值聚类答案:A8.在机器学习中,正则化通常用于解决什么问题?A. 数据不足B. 过拟合C. 欠拟合D. 维度灾难答案:B9.以下哪项是深度学习中常用的激活函数?A. 线性函数B. Sigmoid函数C. 逻辑回归D. 梯度提升答案:B10.在机器学习中,特征工程主要关注什么?A. 数据的收集B. 数据的清洗C. 从原始数据中提取有意义的特征D. 模型的部署答案:C11.下列哪个算法通常用于分类问题中的特征选择?A. 决策树B. PCA(主成分分析)C. K-均值聚类D. 线性回归答案:A12.集成学习通过结合多个学习器的预测结果来提高整体性能,这种方法属于哪种策略?A. 监督学习B. 弱学习C. 规则学习D. 模型融合答案:D13.在深度学习中,卷积神经网络(CNN)主要用于处理哪种类型的数据?A. 文本数据B. 图像数据C. 时间序列数据D. 语音数据答案:B14.以下哪个指标用于评估分类模型的性能时,考虑到了类别不平衡的问题?A. 准确率B. 精确率C. 召回率D. F1分数答案:D15.在强化学习中,智能体通过什么来优化其行为?A. 奖励函数B. 损失函数C. 梯度下降D. 决策树答案:A16.以下哪项是机器学习中的无监督学习任务?A. 图像分类B. 聚类分析C. 情感分析D. 回归分析答案:B17.在机器学习中,梯度下降算法主要用于什么?A. 数据的收集B. 模型的训练C. 数据的清洗D. 模型的评估答案:B18.以下哪项是机器学习中常用的正则化技术之一?A. L1正则化B. 决策边界C. 梯度提升D. 逻辑回归答案:A19.在机器学习中,过拟合通常发生在什么情况?A. 模型太复杂,训练数据太少B. 模型太简单,训练数据太多C. 数据集完全随机D. 使用了不合适的激活函数答案:A20.以下哪个算法是基于树的集成学习算法之一?A. 随机森林B. 线性回归C. K-近邻D. 神经网络答案:A21.在机器学习中,确保数据质量的关键步骤之一是:A. 初始化模型参数B. 提取新特征C. 数据清洗D. 损失函数最小化答案:C22.监督学习中,数据通常被分为哪两部分?A. 训练集和验证集B. 输入特征和输出标签C. 验证集和测试集D. 数据集和标签集答案:B23.数据标注在机器学习的哪个阶段尤为重要?A. 模型评估B. 特征工程C. 数据预处理D. 模型训练答案:C24.下列哪项不是数据清洗的常用方法?A. 处理缺失值B. 转换数据类型C. 去除异常值D. 初始化模型参数答案:D25.数据分割时,以下哪个集合通常用于评估模型的最终性能?A. 训练集B. 验证集C. 测试集D. 验证集和测试集答案:C26.在数据标注过程中,为每个样本分配的输出值被称为:A. 特征B. 权重C. 损失D. 标签答案:D27.数据代表性不足可能导致的问题是:A. 过拟合B. 欠拟合C. 收敛速度过慢D. 模型复杂度过高答案:B28.下列哪项不是数据收集时应考虑的因素?A. 数据源的可靠性B. 数据的隐私保护C. 模型的复杂度D. 数据的完整性答案:C29.数据清洗中,处理缺失值的一种常用方法是:A. 删除包含缺失值的行或列B. 使用均值、中位数或众数填充C. 将缺失值视为新特征D. 停止模型训练答案:A, B(多选,但此处只选一个最直接的答案)A30.数据的泛化能力主要取决于:A. 模型的复杂度B. 数据的多样性C. 算法的先进性D. 损失函数的选择答案:B31.监督学习中,输入特征与输出标签之间的关系是通过什么来学习的?A. 损失函数B. 决策树C. 神经网络D. 训练过程答案:D32.数据标注的准确性对模型的什么能力影响最大?A. 泛化能力B. 收敛速度C. 预测精度D. 特征提取答案:C33.在数据预处理阶段,处理噪声数据的主要目的是:A. 提高模型训练速度B. 降低模型的复杂度C. 提高模型的预测准确性D. 减少数据存储空间答案:C34.下列哪项不属于数据清洗的范畴?A. 缺失值处理B. 异常值检测C. 特征选择D. 噪声处理答案:C35.数据标注的自动化程度受什么因素影响最大?A. 数据集的大小B. 数据的复杂性C. 标注工具的效率D. 模型的训练时间答案:B36.在数据分割时,为什么需要设置验证集?A. 仅用于训练模型B. 评估模型在未见过的数据上的表现C. 替代测试集进行最终评估D. 加速模型训练过程答案:B37.数据的标签化在哪些类型的机器学习任务中尤为重要?A. 无监督学习B. 半监督学习C. 监督学习D. 强化学习答案:C38.数据质量对模型性能的影响主要体现在哪些方面?A. 模型的收敛速度B. 模型的复杂度C. 模型的预测精度D. 模型的泛化能力答案:C, D(多选,但此处只选一个最直接的答案)D39.下列哪项不是数据清洗和预处理阶段需要完成的任务?A. 数据标注B. 缺失值处理C. 噪声处理D. 模型评估答案:D40.数据多样性对防止哪种问题有重要作用?A. 欠拟合B. 过拟合C. 收敛速度过慢D. 损失函数波动答案:B41.机器学习的基本要素不包括以下哪一项?A. 模型B. 特征C. 规则D. 算法答案:C42.哪种机器学习算法常用于分类任务,并可以输出样本属于各类的概率?A. 线性回归B. 支持向量机C. 逻辑回归D. 决策树答案:C43.模型的假设空间是指什么?A. 模型能够表示的所有可能函数的集合B. 数据的特征向量集合C. 算法的复杂度D. 损失函数的种类答案:A44.下列哪个是评估模型好坏的常用准则?A. 准确率B. 损失函数C. 数据集大小D. 算法执行时间答案:B45.哪种算法特别适合于处理非线性关系和高维数据?A. 朴素贝叶斯B. 神经网络C. 决策树D. 线性回归答案:B46.在机器学习中,特征选择的主要目的是什么?A. 减少计算量B. 提高模型的可解释性C. 提高模型的泛化能力D. 以上都是答案:D47.结构风险最小化是通过什么方式实现的?A. 增加训练数据量B. 引入正则化项C. 减小模型复杂度D. 改进损失函数答案:B48.哪种算法常用于处理时间序列数据并预测未来值?A. 朴素贝叶斯B. 随机森林C. ARIMAD. 逻辑回归答案:C49.在决策树算法中,分割数据集的标准通常基于什么?A. 损失函数B. 信息增益C. 数据的分布D. 模型的复杂度答案:B50.哪种策略常用于处理类别不平衡的数据集?A. 采样B. 特征缩放C. 交叉验证D. 正则化答案:A51.监督学习的主要任务是什么?A. 从无标签数据中学习规律B. 预测新数据的标签C. 自动发现数据中的模式D. 生成新的数据样本答案:B52.下列哪个是监督学习算法?A. K-means聚类B. 线性回归C. PCA(主成分分析)D. Apriori算法(关联规则学习)答案:B53.在监督学习中,标签(label)通常指的是什么?A. 数据的索引B. 数据的特征C. 数据的类别或目标值D. 数据的分布答案:C54.监督学习中的损失函数主要用于什么?A. 评估模型的复杂度B. 衡量模型预测值与真实值之间的差异C. 生成新的数据样本D. 划分数据集为训练集和测试集答案:B55.下列哪种方法常用于处理分类问题中的多类分类?A. 二元逻辑回归B. 一对多(One-vs-All)策略C. 层次聚类D. PCA降维答案:B56.在监督学习中,过拟合通常指的是什么?A. 模型在训练集上表现很好,但在测试集上表现不佳B. 模型在训练集和测试集上表现都很好C. 模型在训练集上表现很差D. 模型无法学习到任何有用的信息答案:A57.下列哪个技术常用于防止过拟合?A. 增加数据集的大小B. 引入正则化项C. 减少模型的特征数量D. 以上都是答案:D58.交叉验证的主要目的是什么?A. 评估模型的性能B. 划分数据集C. 选择最优的模型参数D. 以上都是答案:D59.在监督学习中,准确率(Accuracy)的计算公式是什么?A. 正确预测的样本数 / 总样本数B. 误分类的样本数 / 总样本数C. 真正例(TP)的数量D. 真正例(TP)与假负例(FN)之和答案:A60.下列哪个指标在分类问题中考虑了类别的不平衡性?A. 准确率(Accuracy)B. 精确率(Precision)C. 召回率(Recall)D. F1分数(F1 Score)(注意:虽然F1分数不完全等同于解决类别不平衡,但在此选项中,它相比其他三个更全面地考虑了精确率和召回率)答案:D(但请注意,严格来说,没有一个指标是专为解决类别不平衡设计的,F1分数是精确率和召回率的调和平均,对两者都给予了重视)61.监督学习中的训练集包含什么?A. 无标签数据B. 有标签数据C. 噪声数据D. 无关数据答案:B62.下列哪个不是监督学习的步骤?A. 数据预处理B. 模型训练C. 模型评估D. 数据聚类答案:D63.逻辑回归适用于哪种类型的问题?A. 回归问题B. 分类问题C. 聚类问题D. 降维问题答案:B64.监督学习中的泛化能力指的是什么?A. 模型在训练集上的表现B. 模型在测试集上的表现C. 模型的复杂度D. 模型的训练时间答案:B65.梯度下降算法在监督学习中常用于什么?A. 特征选择B. 损失函数最小化C. 数据划分D. 类别预测答案:B66.在处理多标签分类问题时,每个样本可能属于多少个类别?A. 0个B. 1个C. 1个或多个D. 唯一确定的1个答案:C67.下列哪个不是监督学习常用的评估指标?A. 准确率B. 精确率C. 召回率D. 信息增益答案:D68.监督学习中的偏差(Bias)和方差(Variance)分别指的是什么?A. 模型的复杂度B. 模型在训练集上的表现C. 模型预测值的平均误差D. 模型预测值的变化程度答案:C(偏差),D(方差)69.ROC曲线和AUC值主要用于评估什么?A. 回归模型的性能B. 分类模型的性能C. 聚类模型的性能D. 降维模型的性能答案:B70.在处理不平衡数据集时,哪种策略可能不是首选?A. 重采样技术B. 引入代价敏感学习C. 使用集成学习方法D. 忽略不平衡性直接训练模型答案:D二、简答题1.问题:什么是无监督学习?答案:无监督学习是一种机器学习方法,它使用没有标签的数据集进行训练,目标是发现数据中的内在结构或模式,如聚类、降维等。
《机器学习导论》题集
《机器学习导论》题集一、选择题(每题2分,共20分)1.以下哪个选项不是机器学习的基本类型?A. 监督学习B. 无监督学习C. 强化学习D. 深度学习2.在监督学习中,以下哪个选项是标签(label)的正确描述?A. 数据的特征B. 数据的输出结果C. 数据的输入D. 数据的预处理过程3.以下哪个算法属于无监督学习?A. 线性回归B. 逻辑回归C. K-均值聚类D. 支持向量机4.在机器学习中,过拟合(overfitting)是指什么?A. 模型在训练集上表现很好,但在新数据上表现差B. 模型在训练集上表现差,但在新数据上表现好C. 模型在训练集和新数据上表现都很好D. 模型在训练集和新数据上表现都差5.以下哪个选项不是交叉验证(cross-validation)的用途?A. 评估模型的泛化能力B. 选择模型的超参数C. 减少模型的训练时间D. 提高模型的准确性6.在梯度下降算法中,学习率(learning rate)的作用是什么?A. 控制模型训练的迭代次数B. 控制模型参数的更新速度C. 控制模型的复杂度D. 控制模型的训练数据量7.以下哪个激活函数常用于神经网络中的隐藏层?A. Sigmoid函数B. Softmax函数C. ReLU函数D. 线性函数8.以下哪个选项不是决策树算法的优点?A. 易于理解和解释B. 能够处理非线性数据C. 对数据预处理的要求不高D. 计算复杂度低,适合大规模数据集9.以下哪个评价指标适用于二分类问题?A. 准确率(Accuracy)B. 召回率(Recall)C. F1分数(F1 Score)D. 以上都是10.以下哪个算法属于集成学习(ensemble learning)?A. 随机森林B. K-近邻算法C. 朴素贝叶斯D. 感知机二、填空题(每空2分,共20分)1.在机器学习中,数据通常被分为训练集、_______和测试集。
2._______是一种常用的数据预处理技术,用于将数值特征缩放到一个指定的范围。
斯坦福大学机器学习课件--作业3解答
i=1,...,k
δ ˆi, (a) Prove that with probability at least 1 − 2 , for all h
ˆ i )| ≤ ˆ i) − ε |ε(h ˆScv (h
1 4k log . 2βm δ
ˆ i , the empirical error on the cross-validation set, ε ˆ i ) represents Answer: For each h ˆ(h ˆ the average of βm random variables with mean ε(hi ), so by the Hoeffding inequality for ˆ i, any h ˆ i )| ≥ γ ) ≤ 2 exp(−2γ 2 βm). ˆi) − ε P (|ε(h ˆScv (h ˆ i , we need to take the union over As in the class notes, to insure that this holds for all h ˆ all k of the hi ’s. ˆ i )| ≥ γ ) ≤ 2k exp(−2γ 2 βm). ˆi) − ε P (∃i, s.t.|ε(h ˆScv (h
CS229 Problem Set #3 Solutions
1
CS 229, Public Course Problem Set #3 Solutions: Learning Theory and Unsupervised Learning
1. Uniform convergence and Model Selection In this problem, we will prove a bound on the error of a simple model selection procedure. Let there be a binary classification problem with labels y ∈ {0, 1}, and let H1 ⊆ H2 ⊆ . . . ⊆ Hk be k different finite hypothesis classes (|Hi | < ∞). Given a dataset S of m iid training examples, we will divide it into a training set Strain consisting of the first (1 − β )m examples, and a hold-out cross validation set Scv consisting of the remaining βm examples. Here, β ∈ (0, 1). ˆ i = arg minh∈H ε (h) be the hypothesis in Hi with the lowest training error ˆ Let h i Strain ˆ (on Strain ). Thus, hi would be the hypothesis returned by training (with empirical risk minimization) using hypothesis class Hi and dataset Strain . Also let h⋆ i = arg minh∈Hi ε(h) be the hypothesis in Hi with the lowest generalization error. ˆ i ’s using empirical risk minimization then Suppose that our algorithm first finds all the h ˆ 1, . . . , h ˆ k } with uses the hold-out cross validation set to select a hypothesis from this the {h minimum training error. That is, the algorithm will output ˆ = arg h
机器学习试卷试题及答案
机器学习试题(一共30题,标有下划线的,如34,3_2,只用选择其中一题)1 .在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(C)Ver-fitting)中影响最大?A.多项式阶数B.更新权重W时,使用的是矩阵求逆还是梯度下降C,使用常数项2 .假设你有以下数据:输入和输出都只有一个变量。
使用线性回归模型(y=wx+b)来拟合数据。
那么使用留一法(1eave-OneOut)交叉验证得到的均方误差是多少?A. 10/27B. 39/27C. 49/27D. 55/273_1.下列关于极大似然估计(MaXimUm1ike1ihoodEstimate,M1E),说法正确的是(多选)?A. M1E可能并不存在B. M1E总是存在C.如果M1E存在,那么它的解可能不是唯一的D.如果M1E存在,那么它的解一定是唯一的3_2.下列哪些假设是我们推导线性回归参数时遵循的(多选)?AX与Y有线性关系(多项式关系)B.模型误差在统计学上是独立的C,误差一般服从O均值和固定标准差的正态分布D.X是非随机且测量没有误差的4_1.为了观察测试Y与X之间的线性关系,X是连续变量,使用下列哪种图形比较适合?A.散点图B.柱形图C.直方图D,以上都不对4_2,一般来说,下列哪种方法常用来预测连续独立变量?A.线性回归B.逻辑回顾C,线性回归和逻辑回归都行D.以上说法都不对5.个人健康和年龄的相关系数是-1.09o根据这个你可以告诉医生哪个结论?A.年龄是健康程度很好的预测器B.年龄是健康程度很糟的预测器C.以上说法都不对6.下列哪一种偏移,是我们在最小二乘直线拟合的情况下使用的?图中横坐标是输入X,纵坐标是输出Y overtica1offsetsperpendicu1aroffsetsA,垂直偏移(vertica1offsets)B.垂向偏移(perpendicu1aroffsets)C,两种偏移都可以D.以上说法都不对7 .假如我们利用Y是X的3阶多项式产生一些数据(3阶多项式能很好地拟合数据)。
机器学习模拟试题含答案
机器学习模拟试题含答案一、单选题(共50题,每题1分,共50分)1、同质集成中的个体学习器亦称()A、组件学习器B、基学习器C、异质学习器D、同质学习器正确答案:B2、假设我们使用原始的非线性可分版本的 Soft-SVM 优化目标函数。
我们需要做什么来保证得到的模型是线性可分离的?A、C = 0B、C = 1C、C 正无穷大D、C 负无穷大正确答案:C3、关于logistic回归和SVM不正确的是()A、Logistic 回归目标函数是最小化后验概率B、Logistic回归可以用于预测事件发生概率的大小C、SVM可以有效避免模型过拟合D、SVM目标是结构风险最小化正确答案:A4、构建一个最简单的线性回归模型需要几个系数(只有一个特征)?A、1 个B、2 个C、4 个D、3 个正确答案:B5、假如我们使用 Lasso 回归来拟合数据集,该数据集输入特征有 100 个(X1,X2,…,X100)。
现在,我们把其中一个特征值扩大 10 倍(例如是特征 X1),然后用相同的正则化参数对 Lasso 回归进行修正。
那么,下列说法正确的是?A、特征 X1 很可能被排除在模型之外B、特征 X1 很可能还包含在模型之中C、无法确定特征 X1 是否被舍弃D、以上说法都不对正确答案:B6、下面关于SVM算法叙述不正确的是()A、SVM是一种基于经验风险最小化准则的算法B、SVM求得的解为全局唯一最优解C、SVM在解决小样本、非线性及高维模式识别问题中具有优势D、SVM最终分类结果只与少数支持向量有关正确答案:A7、KNN算法属于一种典型的()算法A、无监督学习B、半监督学习C、弱监督学习D、监督学习正确答案:D8、关于BP算法特点描述错误的是 ( )A、输入信号顺着输入层、隐层、输出层依次传播B、计算之前不需要对训练数据进行归一化C、预测误差需逆向传播,顺序是输出层、隐层、输入层D、各个神经元根据预测误差对权值进行调整正确答案:B9、关于维数灾难说法错误的是?A、高维度数据可使得算法泛华能力变得越来越弱B、高维度数据增加了运算难度C、降低高维度数据会对数据有所损伤D、高维度数据难以可视化正确答案:A10、做一个二分类预测问题,先设定阈值为0.5,概率大于等于0.5的样本归入正例类(即1),小于0.5的样本归入反例类(即0)。
机器学习课后习题答案
机器学习课后习题答案一、回归问题1. 什么是回归问题?回归问题是指预测一个或多个连续值的问题。
在机器学习中,回归算法通过对已有的输入数据进行学习,建立一个数学模型,用于预测连续型输出变量的取值。
2. 回归问题有哪些常用的评价指标?常用的回归问题评价指标包括:•均方误差(Mean Squared Error,MSE):计算预测值与真实值之间的差异的均方值。
公式如下:MSE = (1/n) * Σ(y_pred - y_true)^2其中,y_pred是预测值,y_true是真实值,n是样本数量。
MSE越小,表示预测值与真实值的拟合程度越好。
•均方根误差(Root Mean Squared Error,RMSE):MSE的平方根。
公式如下:RMSE = √MSERMSE与MSE类似,用于评估预测值与真实值之间的差异,但RMSE更为直观。
•平均绝对误差(Mean Absolute Error,MAE):计算预测值与真实值之间的绝对差异的均值。
公式如下:MAE = (1/n) * Σ|y_pred - y_true|MAE越小,表示预测值与真实值的差异越小。
3. 请简要介绍线性回归算法的原理。
线性回归是一种基本的回归算法,它通过建立一个线性模型来描述自变量与因变量之间的关系。
线性回归的目标是找到最佳拟合直线来最小化预测值与真实值之间的误差。
线性回归算法的原理可以概括如下:1.假设自变量与因变量之间存在线性关系:y = β0 + β1*x1 + β2*x2 + ... + βn*xn + ε其中,y是因变量,x1, x2, …, xn是自变量,β0, β1, β2, …,βn是模型的参数,ε是误差项。
2.最小化误差:通过最小二乘法来确定最优的参数值,使预测值与真实值之间的误差最小化。
3.模型训练和预测:使用已知的训练数据集来训练模型,得到最优的参数值。
然后,可以使用该模型对新的输入数据进行预测。
4. 请简要介绍逻辑回归算法的原理。
机器学习(慕课版)习题答案全集
机器学习(慕课版)习题答案全集机器学习(慕课版)习题答案目录第一章机器学习概述 (2)第二章机器学习基本方法 (5)第三章决策树与分类算法 (9)第四章聚类分析 (13)第五章文本分析 (17)第六章神经网络 (22)第七章贝叶斯网络 (26)第八章支持向量机 (31)第九章进化计算 (32)第十章分布式机器学习 (34)第十一章深度学习 (35)第十二章高级深度学习 (37)第十三章推荐系统 (39)第一章机器学习概述1.机器学习的发展历史上有哪些主要事件?机器学习发展分为知识推理期、知识工程期、浅层知识期和深度学习几个阶段,可从几个阶段选择主要历史事件作答。
2.机器学习有哪些主要的流派?它们分别有什么贡献?符号主义:专家系统、知识工程贝叶斯派:情感分类、自动驾驶、垃圾邮件过滤联结主义:神经网络进化主义:遗传算法行为类推主义3.讨论机器学习与人工智能的关系机器学习是人工智能的一个分支,作为人工智能核心技术和实现手段,通过机器学习的方法解决人工智能面对的问题4.讨论机器学习与数据挖掘的关系数据挖掘是从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的执行。
数据挖掘的很多算法都来自于机器学习,并在实际应用中进行优化。
机器学习最近几年也逐渐跳出实验室,解决从实际的数据中学习模式,解决实际问题。
数据挖掘和机器学习的交集越来越大,机器学习成为数据挖掘的重要支撑技术5.讨论机器学习与数据科学、大数据分析等概念的关系数据科学主要包括两个方面:用数据的方法研究科学和用科学的方法研究数据。
前者包括生物信息学、天体信息学、数字地球等领域;后者包括统计学、机器学习、数据挖掘、数据库等领域。
大数据分析即是后者的一个部分。
一般使用机器学习这个工具做大数据的分析工作,也就是说机器学习是我们做大数据分析的一个比较好用的工具,但是大数据分析的工具并不止机器学习,机器学习也并不只能做大数据分析。
2022机器学习专项测试试题及答案
2022机器学习专项测试试题及答案1.机器学习的流程包括:分析案例、数据获取、________和模型验证这四个过程。
()A.数据清洗A、数据清洗B.数据分析C.模型训练(正确答案)D.模型搭建2.机器翻译属于下列哪个领域的应用?() *A.自然语言系统(正确答案)A. 自然语言系统(正确答案)B.机器学习C.专家系统D.人类感官模拟3.为了解决如何模拟人类的感性思维, 例如视觉理解、直觉思维、悟性等, 研究者找到一个重要的信息处理的机制是()。
*A.专家系统B.人工神经网络(正确答案)C.模式识别D.智能代理4.要想让机器具有智能, 必须让机器具有知识。
因此, 在人工智能中有一个研究领域, 主要研究计算机如何自动获取知识和技能, 实现自我完善, 这门研究分支学科叫()。
*A. 专家系统A.专家系统B. 机器学习(正确答案)C. 神经网络D. 模式识别5.如下属于机器学习应用的包括()。
*A.自动计算, 通过编程计算 456*457*458*459 的值(正确答案)A. 自动计算,通过编程计算 456*457*458*459 的值(正确答案)A.自动计算,通过编程计算 456*457*458*459 的值(正确答案)B.文字识别, 如通过 OCR 快速获得的图像中出汉字, 保存为文本C.语音输入, 通过话筒将讲话内容转成文本D.麦克风阵列, 如利用灵云该技术实现远场语音交互的电视6.对于神经网络模型, 当样本足够多时, 少量输入样本中带有较大的误差甚至个别错误对模型的输入-输出映射关系影响很小, 这属于()。
*A. 泛化能力A.泛化能力B. 容错能力(正确答案)C. 搜索能力D. 非线性映射能力7.下列选项不属于机器学习研究内容的是() *A. 学习机理A.学习机理B. 自动控制(正确答案)C. 学习方法D. 计算机存储系统8.机器学习的经典定义是: () *A.利用技术进步改善系统自身性能A. 利用技术进步改善系统自身性能B.利用技术进步改善人的能力C.利用经验改善系统自身的性能(正确答案)D.利用经验改善人的能力9.研究某超市销售记录数据后发现, 买啤酒的人很大概率也会购买尿布, 这种属于数据挖掘的那类问题()。
2022机器学习专项测试试题及答案
2022机器学习专项测试试题及答案1.机器学习的流程包括:分析案例、数据获取、和模型验证这四个过程。
()A、数据清洗B、数据分析C、模型训练(正确答案)D、模型搭建2.机器翻译属于下列哪个领域的应用?()*A.自然语言系统(正确答案)B.机器学习C.专家系统D.人类感官模拟3.为了解决如何模拟人类的感性思维,例如视觉理解、直觉思维、悟性等,研究者找到一个重要的信息处理的机制是()。
*A.专家系统B.人工神经网络(正确答案)C•模式识别D.智能代理4.要想让机器具有智能,必须让机器具有知识。
因此,在人工智能中有一个研究领域,主要研究计算机如何自动获取知识和技能,实现自我完善,这门研究分支学科叫()。
*A•专家系统B•机器学习(正确答案)C•神经网络D•模式识别5.如下属于机器学习应用的包括()。
*A•自动计算,通过编程计算456*457*458*459的值(正确答案)B.文字识别,如通过OCR快速获得的图像中出汉字,保存为文本C•语音输入,通过话筒将讲话内容转成文本D•麦克风阵列,如利用灵云该技术实现远场语音交互的电视6.对于神经网络模型,当样本足够多时,少量输入样本中带有较大的误差甚至个别错误对模型的输入-输出映射关系影响很小,这属于()。
*A•泛化能力B•容错能力(正确答案)C•搜索能力D•非线性映射能力7.下列选项不属于机器学习研究内容的是()*A•学习机理B•自动控制(正确答案)C•学习方法D•计算机存储系统8.机器学习的经典定义是:()*A.利用技术进步改善系统自身性能B.利用技术进步改善人的能力C.利用经验改善系统自身的性能(正确答案)D.利用经验改善人的能力9.研究某超市销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的那类问题()。
*A.关联规则发现(正确答案)B.聚类C.分类D.自然语言处理10.传統的机器学习方法包括监督学习、无监督学习和半监督学习,其中监督学习是学习给定标签的数据集。
机器学习应用考试 选择题40题 附答案
1. 机器学习的主要目标是:A. 通过数据自动发现规律和模式B. 手动编写所有程序逻辑C. 优化硬件性能D. 提高网络速度答案:A2. 以下哪项不是机器学习的类型?A. 监督学习B. 无监督学习C. 半监督学习D. 全监督学习答案:D3. 监督学习的主要任务是:A. 分类和回归B. 聚类C. 关联规则学习D. 降维答案:A4. 无监督学习的主要任务是:A. 分类和回归B. 聚类C. 关联规则学习D. 降维答案:B5. 以下哪项是监督学习的典型应用?A. 图像识别B. 市场细分C. 异常检测D. 推荐系统答案:A6. 以下哪项是无监督学习的典型应用?A. 图像识别B. 市场细分C. 异常检测D. 推荐系统答案:B7. 以下哪项是半监督学习的典型应用?A. 图像识别B. 市场细分C. 异常检测D. 推荐系统答案:C8. 以下哪项是强化学习的典型应用?A. 图像识别B. 市场细分C. 异常检测D. 游戏AI答案:D9. 以下哪项是深度学习的典型应用?A. 图像识别B. 市场细分C. 异常检测D. 推荐系统答案:A10. 以下哪项是机器学习模型的评估指标?A. 准确率B. 召回率C. F1分数D. 以上都是答案:D11. 以下哪项是机器学习模型的过拟合现象?A. 模型在训练数据上表现良好,但在新数据上表现不佳B. 模型在训练数据上表现不佳,但在新数据上表现良好C. 模型在训练数据和新数据上表现都良好D. 模型在训练数据和新数据上表现都不佳答案:A12. 以下哪项是机器学习模型的欠拟合现象?A. 模型在训练数据上表现良好,但在新数据上表现不佳B. 模型在训练数据上表现不佳,但在新数据上表现良好C. 模型在训练数据和新数据上表现都良好D. 模型在训练数据和新数据上表现都不佳答案:D13. 以下哪项是机器学习模型的正则化方法?A. L1正则化B. L2正则化C. dropoutD. 以上都是答案:D14. 以下哪项是机器学习模型的特征选择方法?A. 过滤法B. 包装法C. 嵌入法D. 以上都是答案:D15. 以下哪项是机器学习模型的特征提取方法?A. PCAB. LDAC. t-SNED. 以上都是答案:D16. 以下哪项是机器学习模型的集成学习方法?A. 随机森林B. 梯度提升机C. 堆叠法D. 以上都是答案:D17. 以下哪项是机器学习模型的交叉验证方法?A. K折交叉验证B. 留一法交叉验证C. 随机划分交叉验证D. 以上都是答案:D18. 以下哪项是机器学习模型的超参数调优方法?A. 网格搜索B. 随机搜索C. 贝叶斯优化D. 以上都是答案:D19. 以下哪项是机器学习模型的数据预处理方法?A. 缺失值处理B. 异常值处理C. 数据标准化D. 以上都是答案:D20. 以下哪项是机器学习模型的特征工程方法?A. 特征选择B. 特征提取C. 特征构建D. 以上都是答案:D21. 以下哪项是机器学习模型的模型选择方法?A. 交叉验证B. 超参数调优C. 模型集成D. 以上都是答案:D22. 以下哪项是机器学习模型的模型解释方法?A. 特征重要性分析B. 局部解释方法C. 全局解释方法D. 以上都是答案:D23. 以下哪项是机器学习模型的模型部署方法?A. 模型打包B. 模型服务C. 模型监控D. 以上都是答案:D24. 以下哪项是机器学习模型的模型维护方法?A. 模型更新B. 模型回滚C. 模型备份D. 以上都是答案:D25. 以下哪项是机器学习模型的模型评估方法?A. 准确率B. 召回率C. F1分数D. 以上都是答案:D26. 以下哪项是机器学习模型的模型优化方法?A. 正则化B. 特征选择C. 超参数调优D. 以上都是答案:D27. 以下哪项是机器学习模型的模型解释方法?A. 特征重要性分析B. 局部解释方法C. 全局解释方法D. 以上都是答案:D28. 以下哪项是机器学习模型的模型部署方法?A. 模型打包B. 模型服务C. 模型监控D. 以上都是答案:D29. 以下哪项是机器学习模型的模型维护方法?A. 模型更新B. 模型回滚C. 模型备份D. 以上都是答案:D30. 以下哪项是机器学习模型的模型评估方法?A. 准确率B. 召回率C. F1分数D. 以上都是答案:D31. 以下哪项是机器学习模型的模型优化方法?A. 正则化B. 特征选择C. 超参数调优D. 以上都是答案:D32. 以下哪项是机器学习模型的模型解释方法?A. 特征重要性分析B. 局部解释方法C. 全局解释方法D. 以上都是答案:D33. 以下哪项是机器学习模型的模型部署方法?A. 模型打包B. 模型服务C. 模型监控D. 以上都是答案:D34. 以下哪项是机器学习模型的模型维护方法?A. 模型更新B. 模型回滚C. 模型备份D. 以上都是答案:D35. 以下哪项是机器学习模型的模型评估方法?A. 准确率B. 召回率C. F1分数D. 以上都是答案:D36. 以下哪项是机器学习模型的模型优化方法?A. 正则化B. 特征选择C. 超参数调优D. 以上都是答案:D37. 以下哪项是机器学习模型的模型解释方法?A. 特征重要性分析B. 局部解释方法C. 全局解释方法D. 以上都是答案:D38. 以下哪项是机器学习模型的模型部署方法?A. 模型打包B. 模型服务C. 模型监控D. 以上都是答案:D39. 以下哪项是机器学习模型的模型维护方法?A. 模型更新B. 模型回滚C. 模型备份D. 以上都是答案:D40. 以下哪项是机器学习模型的模型评估方法?A. 准确率B. 召回率C. F1分数D. 以上都是答案:D答案:1. A2. D3. A4. B5. A6. B7. C8. D9. A10. D11. A12. D13. D14. D15. D16. D17. D18. D19. D20. D21. D22. D23. D24. D25. D26. D27. D28. D29. D30. D31. D32. D33. D34. D35. D36. D37. D38. D39. D40. D。
机器学习复习题及答案
一、单选题1、下列哪位是人工智能之父?()A.MarnivLeeMinskyB.HerbertA.SimonC.AllenNewellD.JohnCliffordShaw正确答案:A2、根据王珏的理解,下列不属于对问题空间W的统计描述是()。
A.-致性假设B•划分C■泛化能力D•学习能力正确答案:D3、下列描述无监督学习错误的是()。
A.无标签B•核心是聚类C•不需要降维D•具有很好的解释性正确答案:C4、下列描述有监督学习错误的是()。
A.有标签B•核心是分类C•所有数据都相互独立分布D•分类原因不透明正确答案:C5、下列哪种归纳学习采用符号表示方式?()A.经验归纳学习B■遗传算法C•联接学习D•强化学习正确答案:A6、混淆矩阵的假正是指()。
A.模型预测为正的正样本B•模型预测为正的负样本C•模型预测为负的正样本D•模型预测为负的负样本正确答案:B7、混淆矩阵的真负率公式是为()。
A.TP/(TP+FN)B.FP/(FP+TN)C.FN/(TP+FN)D.TN/(TN+FP)正确答案:D8、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,准确率是()。
A.1/4B.1/2C.4/7D.4/6正确答案:B9、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,精确率是()。
A.1/4B.1/2C.4/7D.2/3正确答案:C10、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,召回率是()。
A.1/4B.1/2C.4/7D.2/3正确答案:D11、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,F1-score是()。
A.4/13B.8/13C.4/7D.2/30.00/2.00正确答案:B12、EM算法的E和M指什么?()A.Expectation-MaximumB.Expect-MaximumC.Extra-MaximumD.Extra-Max正确答案:A13、EM算法的核心思想是?()A.通过不断地求取目标函数的下界的最优值,从而实现最优化的目标。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Using this definition, the gradient of ℓ(θ) is given by ∇θ ℓ(θ) = X T z − λθ where z ∈ Rm is defined by and the Hessian is given by H = X T DX − λI where D ∈ Rm×m is a diagonal matrix with Dii = −w(i) hθ (x(i) )(1 − hθ (x(i) )) For the sake of this problem you can just use the above formulas, but you should try to derive these results for yourself as well. Given a query point x, we choose compute the weights w(i) = exp − ||x − x(i) ||2 2τ 2 . zi = w(i) (y (i) − hθ (x(i) ))
CS 229
机器学习
(问题及答案)
斯坦福大学
目录
(1) 作业1(Supervised Learning) (2) 作业1解答(Supervised Learning) (3) 作业2(Kernels, SVMs, and Theory) (4) 作业2解答(Kernels, SVMs, and Theory) (5) 作业3(Learning Theory and Unsupervised Learning) (6) 作业3解答(Learning Theory and Unsupervised Learning) 1 5 15 19
m p
(ΘT x(i) )j − yj
i=1 j =1
(i)
2
.
Write J (Θ) in matrix-vector notation (i.e., without using any summations). [Hint: Start with the m × n design matrix — (x(1) )T — — (x(2) )T — X= . . . — (x(m) )T —
T The − λ 2 θ θ here is what is known as a regularization parameter, which will be discussed in a future lecture, but which we include here because it is needed for Newton’s method to perform well on this task. For the entirety of this problem you can use the value λ = 0.0001. m
27
31
(7) 作业4(Unsupervised Learning and Reinforcement Learning) 39 (8) 作业4解答(Unsupervised Learning and Reinforcement Learning) (9) Problem Set #1: Supervised Learning (10) Problem Set #1 Answer
1
CS229 Probleme Newton-Raphson algorithm for optimizing ℓ(θ) for a new query point x, and use this to predict the class of x. The q2/ directory contains data and code for this problem. You should implement the y = lwlr(X train, y train, x, tau) function in the lwlr.m file. This function takes as input the training set (the X train and y train matrices, in the form described in the class notes), a new query point x and the weight bandwitdh tau. Given this input the function should 1) compute weights w(i) for each training example, using the formula above, 2) maximize ℓ(θ) using Newton’s method, and finally 3) output y = 1{hθ (x) > 0.5} as the prediction. We provide two additional functions that might help. The [X train, y train] = load data; function will load the matrices from files in the data/ folder. The function plot lwlr(X train, y train, tau, resolution) will plot the resulting classifier (assuming you have properly implemented lwlr.m). This function evaluates the locally weighted logistic regression classifier over a large grid of points and plots the resulting prediction as blue (predicting y = 0) or red (predicting y = 1). Depending on how fast your lwlr function is, creating the plot might take some time, so we recommend debugging your code with resolution = 50; and later increase it to at least 200 to get a better idea of the decision boundary. (b) Evaluate the system with a variety of different bandwidth parameters τ . In particular, try τ = 0.01, 0.050.1, 0.51.0, 5.0. How does the classification boundary change when varying this parameter? Can you predict what the decision boundary of ordinary (unweighted) logistic regression would look like? 3. Multivariate least squares So far in class, we have only considered cases where our target variable y is a scalar value. Suppose that instead of trying to predict a single output, we have a training set with multiple outputs for each example: {(x(i) , y (i) ), i = 1, . . . , m}, x(i) ∈ Rn , y (i) ∈ Rp . Thus for each training example, y (i) is vector-valued, with p entries. We wish to use a linear model to predict the outputs, as in least squares, by specifying the parameter matrix Θ in y = ΘT x, where Θ ∈ Rn×p . (a) The cost function for this case is J (Θ) = 1 2
Much like the locally weighted linear regression that was discussed in class, this weighting scheme gives more when the “nearby” points when predicting the class of a new example.
1 2 m T (i) i=1 (θ x
− y (i) )2 .
(b) Show that the first iteration of Newton’s method gives us θ⋆ = (X T X )−1 X T y , the solution to our least squares problem. 2. Locally-weighted logistic regression In this problem you will implement a locally-weighted version of logistic regression, where we weight different training examples differently according to the query point. The locallyweighted logistic regression problem is to maximize λ w(i) y (i) log hθ (x(i) ) + (1 − y (i) ) log(1 − hθ (x(i) )) . ℓ(θ) = − θT θ + 2 i=1