厦门大学机器学习考试题

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

厦门大学机器学习考试

题

集团档案编码：[YTTR-YTPT28-YTNTL98-UYTYNN08]

第一题判断题（10分，每小题1 分）

[1]逻辑斯蒂回归模型可以用来做分类，但是SVM不能用来做回归。（）

[2]训练数据较少时更容易发生过拟合。（）

[3]如果回归函数A比B简单，则A一定会比B在测试集上表现更好。（）

[4]在核回归中，最影响回归的过拟合性和欠拟合之间平衡的参数为核函数的宽度。（）

[5]在AdaBoost算法中，所有被错分的样本的权重更新比例相同。（）

[6]Boosting的一个优点是不会过拟合。（）

[7]梯度下降有时会陷于局部极小值，但EM 算法不会。（）

[8]SVM对噪声（如来自其他分布的噪声样本）鲁棒。（）

[9]经验风险最小化在一定条件下与极大似然估计是等价的。（）

[10]在回归分析中，最佳子集选择可以做特征选择；Lasso模型也可以实现特征选择。

（）

第二题统计学习方法的三要素（10分）

和SVM的损失函数。

第三题产生式模型和判别式模型（10分）

[1]（5分）解释产生式模型和判别式模型，并分析二者的不同点；

[2]列出三种判别式模型（3分）和两种产生式模型（2分）

第四题 EM and Naive Bayes （15分）

[1]（5分）概述EM算法的用途及其主要思想；

[2]（10分）EM算法可以用到朴素贝叶斯法的非监督学习，写出其算法。

第五题 HMM （10分）

={1,2,3}，观测集合V={红,白}，

=(0.2,0.4,0.4)T

设T=3，(O|λ).

第六题 SVM（15分）

考虑利用线性支持向量机对如下两类可分数据进行分类：

+1：(1,1), (2,2), (2,0)

-1：(0,0), (1,0), (0,1)

[1] （4分）在图中做出这6个训练点，构造具有最优超平面和最优间隔的权重向量； [2] （3分）哪些是支撑向量

[3] （8

[1]中的结果比

较。第七题 Logistic 回归模型（15分）

如图1(a)所示，数据采用简化的线性logistic 回归模型进行两类分类，即，

为了简化，不采用偏差w 0,训练数据可以被完全分开（训练误差为0，如图1(b)所示的L 1）。

[1] （8

注意只有T 2被惩罚。则当得到的L 2、L 3 和L 4 可以通过正则T 2[2] （7分）如果我们将正则项给出L 1 则随着 C 增大，下面哪种情形可能出现（单选）注：简要说明理由 (A) T 1将变成0，然后T 2 也将变成0。 (B)T 2将变成0，然后T 1也将变成0。

(C) T 1和T 2将同时变成0。 (D)两个权重都不会变成0，只是随着C 的增大而减小为0。

第八题 AdaBoost （15分）

考虑如下图2所示的训练样本，其中’X’和’O’分别表示正样本和负样本。采用AdaBoost 算法对上述样本进行分类。在Boosting 的每次迭代中，选择加权错误率最小的弱分类器。假设采用的弱分类器为平行两个坐标轴的线性分类器。

[1]（4分）在图2中标出第一次迭代选择的弱分类器（L1），并给出决策面的‘+’和‘-

’面。

[2]（4分）在图2中用圆圈标出在第一次迭代后权重最大的样本，其权重是多少

[3]（4分）第一次迭代后权重最大的样本在经过第二次迭代后权重变为多少

[4]（3分）强分类器为弱分类器的加权组合。则在这些点中，存在被经过第二次迭代后

的强分类器错分的样本吗给出简短理由。