中科院研究生院机器学习试卷 含答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中国科学院研究生院

课程编号:712008Z 试 题 专 用 纸 课程名称:机器学习

任课教师:卿来云

———————————————————————————————————————————————

姓名

学号 成绩

1. 判断题(20分,每小题2分)

(1)给定n 个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n 的增加而减小。 (T )

(2)当训练数据较少时更容易发生过拟合。

(T ) (3)回归函数A 和B ,如果A 比B 更简单,则A 几乎一定会比B 在测试集上表现更好。(F ) (4)在核回归中,最影响回归的过拟合性和欠拟合之间平衡的参数为核函数的宽度。(T ) (5)在AdaBoost 算法中,所有被错分的样本的权重更新比例相同。(T ) (6)Boosting 的一个优点是不会过拟合。(F )

(7)梯度下降有时会陷于局部极小值,但EM 算法不会。(F ) (8)SVM 对噪声(如来自其他分布的噪声样本)鲁棒。(F )

(9)Boosting 和Bagging 都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重。(F ) (10)在回归分析中,最佳子集选择可以做特征选择,当特征数目较多时计算量大;岭回归和Lasso 模型计算量小,且Lasso 也可以实现特征选择。(T )

2、logistic 回归模型。(20分,每小题10分)

我们对如图1(a)所示的数据采用简化的线性logistic 回归模型进行两类分类,即

()()()

12112211221

1|,,1exp Y w w g w x w x w x w x ==+=

+−−x P 。

(为了简化,我们不采用偏差0w 。

) 训练数据可以被完全分开(训练误差为0,如图1(b)所示的L 1)。

共 3 页 第1页

图1(a) 2维训练数据。

图1(b) 数据点可以被L 1(实线)。L 2、L 3和L 4是另外几个可能的决策

(1) 考虑一个正则化的方法,即最大化

()2

1221

log |,,2

N

i i i C y w w w =−

∑x P 。 注意只有2w 被惩罚。则当C 很大时,如图1(b)所示的4个决策边界中,哪条线可能是有该正则方法得到的?L 2、L 3和L 4 可以通过正则2w 得到吗?

答:L2不可以。当正则w2时,决策边界对x2的依赖越少,因此决策边界变得更垂直。而图中的L2看起来不正则的结果更水平,因此不可能为惩罚w2得到;

L3可以。w2^2相对w1^2更小(表现为斜率更大),虽然该决策对训练数据的log 概率变小(有被错分的样本); L4不可以。当C 足够大时,我们会得到完成垂直的决策边界(线 x 1 = 0 或x 2轴)

。L4跑到了x 2轴的另一边使得其结果比其对边的结果更差。当中等程度的正则时,我们会得到最佳结果(w2较小)。图中的L4不是最佳结果

因此不可能为惩罚w2得到;

(2) 如果我们将正则项给出L1范式,即最大化

()()12121

log |,,2

N

i i i C

y w w w w =−

+∑x P 。 则随着C 增大,下面哪种情形可能出现(单选)? (a) 1w 将变成0,然后2w 也将变成0。(T) (b) 1w 和2w 将同时变成0。

(c) 2w 将变成0,然后1w 也将变成0。

(d) 两个权重都不会变成0,只是随着C 的增大而减小0。

该数据可以被完全正确分类(训练误差为0),且仅看x 2的值(w 1 = 0)就可以得到。虽然最佳分类器w 1可能非0,但

随着正则量增大w1会很快接近0。L1正则会使得w 1完全为0。随着C 的增大,最终w 2 会变成0。

3、产生式模型和判别式模型。(16分,每小题8分)

考虑两个分类器:1) 核函数取二次多项式的SVM 分类器 和 2)没有约束的高斯混合模型(每个类别为一个高斯模型)。我们对2

R 空间上的点进行两类分类。假设数据完全可分,SVM 分类器中不加松弛惩罚项,并且假设

有足够多的训练数据来训练高斯模型的协方差。

(1) 这两个分类器的VC 维相同。(判断正误,并给出简短理由)(T ) 因此两个分类器的决策边界都为二次函数,复杂度相同。

(2) 假设我们估计两个分类器的结构风险值,该值为预测误差的上界。则这连个分类器中哪个的结构风险值

更小一些?给出简短理由。

SVM 可能会得到更好的结果。虽然两个分类器的复杂度相同,但SVM 对训练误差做优化从而得到更低(或相同)的

值。

4、SVM 。(16分,每小题8分)

我们采用两个SVM 分类器对2

R 空间上的点进行两类分类,这两个分类器的不同在于核函数不同。其中分类器

1采用的核函数为()1,T

K ′′=x x x x ,分类器2采用的核函数为()()()2,K p p ′′=x x x x ,其中()p x 为根据其

他方法估计得到的概率密度函数。

(1) 采用核函数2K 的分类器2的VC 维是多少?

特征空间为1维(将任意点x 映射成非负数p(x)),因此VC 维是2。.

(2) 如果两个分类器都嫩对N 个训练数据得到0训练误差,则哪个分类器会有较好的推广性能?给出简短

理由。

分类器1的VC 维为3,而分类器2的VC 维为2,因此分类器1更复杂。当训练误差相同时,分类器2得到的预测误差的界更小,从而其推广性更好。

共 3 页 第2页

5、Boosting 。(28分,每小题7分)

考虑如下图2所示的训练样本,其中’X’和’O’分别表示正样本和负样本。我们采用AdaBoost 算法对上述样本进行分类。在Boosting 的每次迭代中,我们选择加权错误率最小的弱分类器。假设采用的弱分类器为平行两个坐标 轴的线性分类器。

图2:训练样本

(1) 在图2中标出第一次迭代选择的弱分类器(L 1)

,并给出决策面的‘+’和‘-’面。 (2) 在图2中用圆圈标出在第一次迭代后权重最大的样本,其权重是多少? (3) 第一次迭代后权重最大的样本在经过第二次迭代后权重变为多少?

相关文档
最新文档