机器学习导论第2章

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.7 模型的选择与泛化
• 实例学习布尔函数中,输入输出均为2元的。 • d个2元值有2d个写法,因此对于d个输入有 2d个样本实例,将有22d个可能的布尔函数。
2.7 模型的选择与泛化
• 学习一个样本的过程是去掉猜测出错的假 设。
– X1=0, x2=1 输出为0。 去掉了假设h5 h6 h7 h8 h 13 h14 h15. – 随着更多的实验样本,逐步去掉与训练数据不 一致的假设。
2.7 模型的选择与泛化
• 如何度量假设的泛化能力?
– 训练集划分为两部分,一部分用于训练,一部分用于 确定,称为确定集(validation set)。 – 例如,找出多项式回归的正确的阶,给定不同阶的候 选多项式,在训练集上得到他们的系数,在确定集上 计算它们的误差,取确定误差最小的多项式为最佳多 项式。
2.7 模型的选择与泛化
• 如果训练集只包含所有可能实例的一个小子集, 那么解不是唯一的。 • 看到了N个样本,还有22d -N个可能的函数。 • 不适定问题(ill-posed problem),仅仅靠数据本 身不足以找到唯一解。
• 在其他学习应用中,在分类,回归中也存在同样 的问题,我们对潜在的函数了解越多,我们从假 设类去掉更多不一致的解,我们还剩下很多一致 的解。
• 第三个数据集(检验集test set)来反映最佳模型 的期望误差,不能使用确认集。
– 例题, 习题 – 考试题 – 实际工作解决的问题
2.8 监督机器学习算法的维
• 学习使用的模型 • 损失函数
• 最优化过程求解最小化近似误差的参数
2.9 偏倚与方差
• 估计d的均方误差(MSE): • 估计d的偏倚: • 无偏估计:对所有的 值, 则d是 的无 偏估计。 • 以高斯分布为例,对于 是从均值为 的 密度中抽出,则样本平均值m是 的一个无偏估计。
• 则偏倚和方差的估计为
偏倚/方差 trade-off
• 看以下模型
• 随着模型复杂度的增加,数据集较小的变化会导 致拟合结果的较大变化,因此增加方差。但是复 杂模型可以更好的拟合潜在的函数,因此偏倚减 少,
习题
• 为什么使用S和G的平均值作为最终假设比 较好? • 假定我们的假设类不是矩形而是圆,那么 参数是什么? • 假设椭圆类是否比假设圆类要有意义?为 什么? • 如果我们拥有能够给任何实例x提供标记的 指导者,那么我们应当在哪里选择x,以便用 较少的询问来进行学习?
• 好的泛化?
– 假设的复杂性与潜在的数据的函数的复杂性相匹配。 – Case1 :假设没有函数复杂
• 用直线拟合三次多项式抽取的数据,欠拟合(underfitting)
– Case2: 假设过于复杂,数据不足以约束该假设
• 两个矩形拟合从一个矩形抽取的数据时。 • 存在噪声时,复杂模型也学习了数据中的噪声。过分拟合 (overfitting) • 因此,拥有更多的训练数据是有帮助的,但是只能达到一定程 度。
2.7 模型的选择与泛化
• 做特别的假设,使得利用已有数据得到唯 一解。 • 将使学习成为可能所做的假设集称为学习 算法的归纳偏倚(inductive bias)。 • 引入归纳偏倚的途径就是假定一个假设类。
– 学习家用汽车时,有无数将正负例分开的方法。 假定矩形是一种归纳偏倚。 – 线性回归中,假定线性函数也是一种归纳偏倚。
2.7 模型的选择与泛化
• 如何选择正确的偏倚?称为模型选择。
– 两个互不重叠的矩形的并 – 高阶多项式解决回归
• 学习的目标是预测,即训练集之外的输入 能够产生正确的输出,因此,训练集上训 练的模型在多大程度上能够对新的实例预 测出正确输出称为泛化(generalization)。
Hale Waihona Puke Baidu
2.7 模型的选择与泛化
• 噪声来源?
– 记录输入属性可能不准确。 – 标记点可能有错。(指导噪声) – 可能存在我们没有考虑到的附加属性。这些属性可能 是隐藏的或潜在的,是不可以预测的。是一种随机成 分
• 当有噪声时,正负实例之间没有简单的边界。
– 利用复杂模型,更好地拟合数据,得到零误差。 – 保持模型的简单性并允许一定误差的存在。
过拟合
2.7 模型的选择与泛化
• 三元权衡(triple trade-off)
– 拟合数据的假设的复杂性,假设类的能力。 – 训练数据的总量。 – 在新的实例上的泛化误差。
• 随着训练数据量的增加,泛化误差降低。 • 随着模型复杂性增加,泛化误差先降低,后增加。
• 过于复杂的假设的泛化误差可以通过增加训练数 据数量来控制,但是只能达到一定程度。
• 这说明尽管对于特定样本,m与 不同,但是如 果我们取很多这样的样本的话,随着样本的增加, 它的平均值会趋近于 。
偏倚与方差
• m也是一个一致估计
• 这说明随着N的增加,m对 的偏离越来越小。
偏倚与方差
• 对于 的最大似然估计
• 因为
,可得
• 综上
• 即

的一个有偏估计
偏倚与方差
• 估计d的均方误差
2.5 学习多类
• 前面的例子是两类问题,扩展到K个类,记 为Ci, i= 1,……,K,并且每个输入严格地属于 其中一个类,训练集形如:
2.6 回归
2.6 回归
• 训练集 • 多项式差值得到函数f,由于噪声 • 训练集上的经验误差
• 二手车的例子中
• 求关于w0和w1的偏导数,令偏导数为0得到:
假正 假负
最特殊假设S 和 最一般假设G 介于S和G之间的假设被称为无误差的有效假设。构 成假设解空间。
VC维
• 可以被H散列的点的最大数量成为H的VC维。 • 当H为二维空间中轴平行的矩形的假设类时, VC(H)=4.
• 思考1:为什么等于4?而不是5? • 思考2:当假设H为二维空间中的直线时, VC(H)=?
概率逼近正确学习(PAC)
• 我们希望我们的假设是近似正确的,即误 差概率不超过某个值。 • 在具有概率分布p(x)的样本中卡,找出N 个样本,使得对于任意的 和 , 假设误差至多为 的概率至少为1- 。
(1)N个独立样本不在误差带的概率最多为 (2)因为 (3)如果满足 (4)则有 (5)
2.4 噪声
第二章 监督学习 Chapter 2. Supervised Learning
• • • • • • 2.1 由实例学习类 2.2 VC维(Vapnik-Chervonenkis Dimension) 2.3 概率逼近正确学习 2.4 噪声 2.5 学习多类 2.6 回归
2.1 由实例学习类
• 学习“家用汽车”类C
– 现有一组汽车实例和一组被测人,展示汽车, 被测人对汽车标记:
• 正例:标记为家用汽车 • 负例:其他类型汽车
– 机器学习后预测未见过的汽车是否为家用 – 汽车特征包括 价格、发动机功率、座位数量、 车身颜色等。
2.1 由实例学习类
• 仅考虑价格(x1)和发动机功率(x2)
• 对于每一辆观测的汽车,可以表示为 • 所有观测的汽车样本表示为
• 我们发现价格和发动机功率在某个确定范 围内的是家用汽车。
– (P1<=价格<=p2) AND (e1<= 发动机功率<=e2)
• 我们的目标是找出假设类H 尽可能的与C接近---找出定义H 的四个参数。
• 假设h
经验风险(误差)
• 经验风险(误差)是h的预测值与x中给定的预期 值不同的训练实例所占的比例:
偏倚与方差
方差
偏倚
2.10 回归
• 数值输出写成输入的函数。假定数值输出 是输入的确定性函数与随机噪音的和:
• 其中 是未知函数,我们用定义在参数 上的估计 来近似它。如果
与估计无关, 可省略
等价于最小化
线性回归
关于w0求导 关于w1求导
可以解得
偏倚/方差 trade-off
• 由某个带噪声的 产生一组数据集 • 根据每个数据集形成一个估计 • 现实中 的估计为
相关文档
最新文档