最新机器学习研究:综述 - Read ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
划分
n 将被观测的对象集合放到一个n维欧氏空间, 寻找一个超平面,使得问题决定的不同对 象分在不相交的区域。
n 机器学习主要研究的是这部分内容,即, 寻找划分对象集合的超平面(等价关系)。
超平面类型
n 光滑且连续的超平面。 n 有限不光滑点,甚至有限不连续
点的超平面。
光滑连续超平面作为研究基础
集成机器学习。
n 遗传机器学习。
统计机器学习。
n 分析机器学习。
增强机器学习。
机器学习计算的说明
n 令W是这个给定世界的有限或无限所有对 象的集合,由于我们观察能力的限制,我 们只能获得这个世界的一个有限的子集 QW。
n 机器学习的任务就是根据这个世界的对象 子集Q,计算这个世界的统计分布。这样, 在统计意义下,这个分布对这个世界的绝 大多数对象是正确的。这就是这个世界的 一个模型。
泛化能力的几何解释(示意图)
线性可分问题
n 定理: n 如果一个样本集合是线性可分的,它们一
定可以构成两个不相交的闭凸集。 n 这样,线性可分问题变为计算两个闭凸集
的最大边缘问题。
线性不可分问题
n 划分问题:怎样获得两个不相交 的闭凸集。
n 泛化问题:怎样使两个闭凸集之 间的距离最大。
核技术
n Perceptron,人工神经网络是典型例子。 n 困难: n 对线性不可分的对象集合,如果限制算法
是P的,则存在本质性困难。
泛化
n 机器学习的首要任务是划分。只有找到一 个等价关系(模型),将不同类的样本划分 为不同的类,才能考虑其他问题。
n 泛化是一个确定的划分对世界的分类能力。 n 由于可能存在不同的划分样本集合方法,
Vapnik的统计观点
n Vapnik希望改变Duda的统计观点。 n 泛化描述“从样本数趋于无穷大”变为
“在给定样本集”基础上判定。 n 由此,建立基于样本集合结构的VC维来描
述的理论。 n 这样,机器学习的目标函数就可以建立在
样本集合的结构之上。 n 这是统计机器学习理论的精髓。
泛化能力
n 以下不等式依概率1-成立:
n 在感知机时代,基于Duda泛化理论无法指 导机器学习算法的设计,这样,评价机器 学习算法只能以划分能力作为指标。
n Vapnik对这个问题做出重要贡献。 n 这样,注重从划分变为泛化。
以划分能力为目标的研究
n 这类研究的指导思想,一直延续到上个世 纪的九十年代。
n 直到今天,还有大量的学者以此作为机器 学习的指导思想。以BP算法为核心的神经 网络研究是典型例子。
n 没有一种算法可以解决复杂的实际问题。需要各
种算法集成。
算法驱动
n 海量数据(108-10)。 n 算法的泛化能力,或算法可解释。 n 不同类型数据的学习方法。
机器学习研究热点的变迁
n 1989年(Carbonell), 1997年(Dietterich)
n 符号机器学习。
符号机器学习。
n 连接机器学习。
RQRemQ p* c lM R22lolg log
n R: 包含所有样本的球半径 n M: 边缘 n l: 样本个数
泛化不等式的解释
n M>0,边缘不能等于零。这意味着,样本 集合必须是可划分的。
n 边缘最大,泛化能力最强。泛化能力可以 使用样本集合的边缘来刻画。
n 泛化能力的描述无需使用世界W来刻画, 而只需样本集合Q来刻画。
三个要求
n 一致性假设:机器学习任务的本质。 n 对样本空间的划分:决定对样本的有
效性。 n 泛化能力:决定对世界的有效性。
一致性假设
n 假设世界W与被观察的对象集合Q具 有某种相同的性质。
n 称为一致性假设。
基于统计的假设
n 原则上说,存在各种各样的一致性假 设。
n 在统计意义下,一般假设: n W与Q具有同分布。或, n 给定世界W的所有对象独立同分布。
n 但是,如果研究者忘记SVM所基于的统计 基础,就与Vapnik的本意相悖了。
n 事实上,Vapnik的统计理论才是其精华, 而基于这个理论的算法只是从这个统计理 论派生的自然结果。
机器学习的统计假设
n 机器学习的统计基础是基于经验风险最小 假设,以此,对机器学习算法所建模型的 泛化能力估计(经验风险)。
n 可以证明,一定存在一个映射,称为核函 数,将在欧式空间定义的样本映射到特征 空间(一个更高维的空间),使得在特征空 间上,样本构成两个不相交的闭凸集。
n 研究核函数选择的技术称为核技术。
SVM
n 给定核函数,如果它可以保证将样本集合 在特征空间变换为两个不相交的闭凸集, 则对这个样本集合的最大边缘可以通过二 次规划、计算几何等方法获得。由此,可 以获得支持向量。
机器学习研究:综述 - Read
反思
n 网络经济的泡沫破灭之后,哪些 是值得我们在研究方向上反思的 问题呢?
n 我们的研究应注意哪些课题呢?
需求---NII计划
n 不分地域地、有效地获得与传输信息。 n 不分地域地、有效地共享硬软资源。 n 有效地利用信息,以提高生产率。 n 保证信息安全。
信息安全 n 信息的安全还没有保证。
n 划分是机器学习的一个目标,但是,不是 预测任务的主要研究目标。
神经网络---BP算法
n 使用了一种非线性的基函数。 n 这项研究的意义是为研究者回归感知机做
好了舆论的准备。 n 其在科学上的意义,远不如提示人们再次
注意感知机的作用更大。
统计机器学习理论与SVM
n 对机器学习的研究者来说,统计机器学习 理论所派生的算法SVM似乎更有吸引力。
提高信息使用率
n 以机器学习为理论基础的各种方 法,是提高信息使用率的有效途 径之一。
n 机器学习 n 复杂数据分析(符号机器学习)
机器学习
n 机器学习的一般说明 n 统计机器学习 n 集成机器学习
机器学习的研究动力
n 领域应用驱动。 n 算法驱动。
领域应用驱动
n 自然语言数据分析。 n DNA数据分析。 n 网络与电信数据分析。 n 图像数据分析。 n 金融与经济数据分析。 n 零售业数据分析。 n 情报分析。
其泛化能力不同,泛化能力最强的划分就 是我们希望的分类器。
Dudwk.baidu.com的泛化能力描述
n 以样本个数趋近无穷大来描述模型的 泛化能力。
n 泛化能力需要使用世界W来刻画,是 无法构造的判据。
n 均方差可作为目标函数。
评述
n 由于人们没有找到基于样本集合Q的描述 泛化能力的数学工具。另外,线性不可分 问题是一个困难。