机器学习练习题与答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《机器学习》练习题与解答
1.小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点” 他说了以下言论,请逐条判断是否准确。
1)回归和分类都是有监督学习问题
[单选题][ 解析:这道题只有一个同学做错。本题考察有监督学习的概念。有监督学习是从标签化训练数 据集中推断出函数的机器学习任务。
有监督学习和无监督学习的区别是:
监督学习
-给定数据(X/JjX 諾』…和(X 屛)
-对新的知预测其t
-分类,回tn
非监督学习
-给定数据X]*—凡
-f{xx f[x,xp
-概率佔计,降维,聚类
机器学习算法的图谱如下:
必答题]
参考答案: 对。
机黑学习分类
.监督学习:例如用户盍击/购矣预测.房价预测
*无监督学习;便]如由P件/新闻聚类
*强化学习:例如动态糸统以及机器人桂制
在回归问题中,标签是连续值;在分类问题中,标签是离散值。具体差别请看周志华《机器学习》书中的例子,一看便懂:
若我们欲预测的处离故flu例如"好瓜"“坏瓜”,此类学习任务称为
“分类”似映曲怦tbiO;若欲预W的巫连级值、例血函瓜成熟度0卫乩0.37, 此类学习任务称为"
冋!RM (regrGflwionX
2.背景同上题。请判断
2)回归问题和分类问题都有可能发生过拟合[单选题][必答题]
答案:对
解析:这题有两个同学做错。过拟合的英文名称是Over-fitting(过拟合)。为了说清楚“过”
拟合,首先说一下“拟合”
【拟合的几何意义】:
从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲 面来最大限度地逼近这些点。一个直观的例子,是下面的电阻和温度的例子。
求6『C 时的电阻&
我们知道 在物理学中,电阻和温度是线性的关系,也就是R=at+b 。现在我们有一系列关于“温 度”和“电阻”的测量值。一个最简单的思路,取两组测量值,解一个线性方程组,就可以求 出系数a 、b 了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得 到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多次,得到多组的 值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线,让这条直线尽可能 地接近各个测量得到的点。
拟合的数学意义: 在数学的意义上,所谓拟合(fit )是指已知某函数的若干离散函数值{f1,f2,…,fn }(未必都是 准确值,有个别可能是近似甚至错误值),通过调整该函数中若干待定系数 f (入1,入2,…,入n ), 使得该函数与已知点集的差别(最小二乘意义)最小。
【说说过拟合】 古人云“过犹不及”。所谓“过”拟合,顾名思义,就是在学习的集合(也就是训练集)上拟已知热敏屯阻数据: 温度: 2(L5 32-7 imn)! 765 826
51』73.0 95.7 873 942 1032 设 R=aah
^|上为待定系数
合的很不错,但是有点过头了,什么意思?他能够在学过的数据上判断的很准,但是如果再扔给它一系列新的没学习过的数据,它判断的非常差!比如古时候有个教书先生教小明写数字,
“一”字是一横,“二”字是两横,“三”字是三横。然后,小明说,老师你不用教我写数字了,我都会写。老师很惊讶,那你说“万”字怎么写,结果小明在纸上写下了无数个“横”。。
用台湾大学林轩田老师的话说,过拟合是“书呆子”,“钻牛角尖”。如果用过于复杂的模型来刻画简
单的问题,就有可能得到“聪明过头”的结果。比如下面预测房子的价格size (p rice)和之间关系的问题(来源于andrew ng 的ppt)
fOn+ "iJT + 弘工乂
通过五组数据,我们通过肉眼直观地看,可以初步判断房屋的价格和size之间是二次函数的关系,也就是中间这幅图所拟合的情况。而右边这幅图中,自作聪明地用了一个四次函数来拟和这五组数据,虽然在已知的五个数据上都是100%准确,却得出了“当房子的size 大于某个
值时房子的价格会随着房屋面积增大而越来越低”这样的荒谬结论!这样的是过拟合。左边这个用一条直线来拟合但是拟合的误差很大也不置信,这叫“欠拟合”。
在周志华老师的书中,举的例子是这样的:
发现了没有?周志华老师用的是“是不是树叶”这样的分类问题举例,
andrew ng 用的 “房价和房屋面积的关系”这样的回归问题举例。这说明,分类和回归都有可能过拟合。
背景同上题。请判断
一般来说,回归不用在分类问题上,但是也有特殊情况,比如logistic
回归可以用来解决
分类问题[单选题][必答题] 答案:对
解析:Logistic 回归是一种非常高效的分类器。它不仅可以预测样本的类别,还可以计算出分 类的概率信息,在一线互联网公司中广泛的使用,比如应用于 CTR 预估这样的问题中。这里我
们不详细说明其原理,后续课程会讲到。很多人对它的名字会产生疑问,挂着“回归”的头, 卖的是“分类”的肉,别扭的慌。
其实我们不用纠结它到底是“回归”,还是“分类”,非得二选一。可以参考一下百度 百科关于
“logistic 回归”的词条
其中举了一个富士康员工“自杀的日期”与“累计自杀人数”之间关系的例子,并通过logistic 回归分析来拟合出一条曲线。这说明logistic
回归本身也有一定的解决“回归”问题的能力, 只是工业界都用它来解决分类问题。
it 轨合舷分类结更:
1S 为祐7渔有n 古J d
iN * T 爰邂廿 F (篠以为养色的枫定热畔> 1
3. 3) 0/1 W
卄训咼
「坤
过拟合r 纵含妁直观类比