机器学习研究(王珏)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
边缘最大,泛化能力最强。泛化能力可以
使用样本集合的边缘来刻画。
泛化能力的描述无需使用世界W来刻画,
而只需样本集合Q来刻画。
泛化能力的几何解释(示意图)
线性可分问题
定理:
如果一个样本集合是线性可分的,它们一 定可以构成两个不相交的闭凸集。
这样,线性可分问题变为计算两个闭凸集 的最大边缘问题。
由于技术发展的滞后,在网络上获得
的信息和与提高生产率有关的信息的 有效使用率甚至低于1%。
占用大量硬软资源的信息正在大量地
被浪费。
信息安全
信息的安全还没有保证。
提高信息使用率
以机器学习为理论基础的各种方
法,是提高信息使用率的有效途
径之一。
机器学习
复杂数据分析(符号机器学习)
困难:
对线性不可分的对象集合,如果限制算法
是P的,则存在本质性困难。
泛化
机器学习的首要任务是划分。只有找到一 个等价关系(模型),将不同类的样本划分 为不同的类,才能考虑其他问题。 泛化是一个确定的划分对世界的分类能力。 由于可能存在不同的划分样本集合方法, 其泛化能力不同,泛化能力最强的划分就 是我们希望的分类器。
机器学习计算的说明
令W是这个给定世界的有限或无限所有对 象的集合,由于我们观察能力的限制,我 们只能获得这个世界的一个有限的子集 QW。 机器学习的任务就是根据这个世界的对象 子集Q,计算这个世界的统计分布。这样, 在统计意义下,这个分布对这个世界的绝 大多数对象是正确的。这就是这个世界的 一个模型。
集成
在分类时,采用投票的方式决定新样本属
于哪一类。
由于每个分类器的分类能力不同,在集成
时,需要对所有分类器加权平均,以决定 分哪类。
为什么吸引人
弱分类器比强分类器设计简单
以统计学习理论为基础
Vapnik的贡献
给出了可以指导机器学习算法设计的泛化理论。
成为一种机器学习的规范。
建立了从数据到分布的基本方法。
以后机器学习的研究必须考虑从数据到分布的归
纳机理问题。
R
复杂数据分析
复杂数据分析的一般性说明
符号机器学习
复杂数据分析---一类需求
机器学习研究方兴未艾,还有大量的理论与技术 问题未解决。 由于获得数据的手段的改善,在各行各业人们可 以方便地获得越来越多的数据。但是,这些数据 的积累也带来副作用,一方面,消耗大量资源, 另一方面,无法使用的数据,就是垃圾。 另一个任务悄悄兴起,这就是复杂数据分析。
机器学习的统计基础是基于经验风险最小
假设,以此,对机器学习算法所建模型的
泛化能力估计(经验风险)。
Vapnik的统计观点
Vapnik希望改变Duda的统计观点。 泛化描述“从样本数趋于无穷大”变为 “在给定样本集”基础上判定。 由此,建立基于样本集合结构的VC维来描 述的理论。 这样,机器学习的目标函数就可以建立在 样本集合的结构之上。 这是统计机器学习理论的精髓。
在过去的十年中,做了什么?
以浏览器为核心技术的“有效获得信
息”的研究取得了预期效果。
人们已可以从不同地域有效地获得信
息。
但是,,,
硬软资源的使用
在网络上的硬软资源的利用率只有3-5%。
大量计算资源没有由于网络设施的支持而 被充分利用。 硬软件的快速更新,导致对环境的污染。
信息的有效使用
假设每页A4有1000字符,这大约103-5页。 假设人一分钟可以阅读一页,大约需要103-5分钟,161600小时,0.7-70天。
对一定的需求,在保持需求信息不丢失的条件下, 减少数据长度是阅读数据的必要条件。
未来十年关键性的研究课题
对大多数情况,一致性假设完全不能满足, 甚至不能假设其近似满足。 随着获得数据越来越容易,这个问题将越 来越突出。 目前计算机90%的处理量是符号性的,只 有10%是数值性的,未来的情况将可能与 这类似。
泛化能力
以下不等式依概率1-成立:
RQ Remp
R: 包含所有样本的球半径 M: 边缘 l: 样本个数
c R2 * 2 log l log Q l M
泛化不等式的解释
M>0,边缘不能等于零。这意味着,样本
集合必须是可划分的。
统计机器学习理论与SVM
对机器学习的研究者来说,统计机器学习 理论所派生的算法SVM似乎更有吸引力。 但是,如果研究者忘记SVM所基于的统计 基础,就与Vapnik的本意相悖了。 事实上,Vapnik的统计理论才是其精华, 而基于这个理论的算法只是从这个统计理 论派生的自然结果。
机器学习的统计假设
人们不相信模型
由于大多数数据集合不能满足一致性假设,
使得人们可能不一定相信来自观测数据所
建立的模型。
医疗诊断、零售业的各种问题、经济分析 等专家系统所面临的问题就于此有关。
阅读数据的需求
“一致性假设”不满足,导致人们阅读数据的需 求。 人类阅读数据能力是有限的,需要计算机帮助。 例如,在电信业、数据服务业、零售业、股票证 券业,每天的数据量在106-8。
线性不可分问题
划分问题:怎样获得两个不相交
的闭凸集。
泛化问题:怎样使两个闭凸集之
间的距离最大。
核技术
可以证明,一定存在一个映射,称为核函
数,将在欧式空间定义的样本映射到特征
空间(一个更高维的空间),使得在特征空
间上,样本构成两个不相交的闭凸集。
研究核函数选择的技术称为核技术。
SVM
种算法集成。
算法驱动
海量数据(108-10)。
算法的泛化能力,或算法可解释。 不同类型数据的学习方法。
机器学习研究热点的变迁
1989年(Carbonell), 1997年(Dietterich) 符号机器学习。 符号机器学习。 连接机器学习。 集成机器学习。 遗传机器学习。 统计机器学习。 分析机器学习。 增强机器学习。
Duda的泛化能力描述
以样本个数趋近无穷大来描述模型的
泛化能力。
泛化能力需要使用世界W来刻画,是
无法构造的判据。
均方差可作为目标函数。
评述
由于人们没有找到基于样本集合Q的描述 泛化能力的数学工具。另外,线性不可分 问题是一个困难。 在感知机时代,基于Duda泛化理论无法指 导机器学习算法的设计,这样,评价机器 学习算法只能以划分能力作为指标。 Vapnik对这个问题做出重要贡献。 这样,注重从划分变为泛化。
以划分能力为目标的研究
这类研究的指导思想,一直延续到上个世 纪的九十年代。 直到今天,还有大量的学者以此作为机器 学习的指导思想。以BP算法为核心的神经 网络研究是典型例子。 划分是机器学习的一个目标,但是,不是 预测任务的主要研究目标。
神经网络---BP算法
使用了一种非线性的基函数。 这项研究的意义是为研究者回归感知机做 好了舆论的准备。 其在科学上的意义,远不如提示人们再次 注意感知机的作用更大。
复杂数据分析的要求
需要考虑每个被观测(积累)数据在这个领 域中所扮演的角色。 需要考虑不同用户在共享同一个数据集合 的不同需求(包括解与解的长度)。 传统的统计分析方法不能满足这些要求, 需要研究观测数据的内在结构。 这类研究也可以称为数据描述。
用户需求
对同一个数据集合,可能有不同的用户共 享,而不同用户需要不同的解答。 这与机器学习具有不同的目标。 一般地说,机器学习以一个统计函数为目 标,而数据描述则必须根据不同需求的前 提下建立不同的目标。
三个要求
一致性假设:机器学习任务的本质。
对样本空间的划分:决定对样本的有
效性。
泛化能力:决定对世界的有效性。
一致性假设
假设世界W与被观察的对象集合Q具
有某种相同的性质。
称为一致性假设。
基于统计的假设
原则上说,存在各种各样的一致性假
设。
在统计意义下,一般假设: W与Q具有同分布。或, 给定世界W的所有对象独立同分布。
解决线性不可分问题的方法
核函数选择的困难可能是根本性的。
技术措施:同时考虑不满足一致性假设的 情况。
软边缘。 集成机器学习。
两类技术措施的统计解释
目的是解决样本集合不满足一致性假设, 采用不确定性来补充,以使得模型与实际 世界的统计分布一致。 措施: 软边缘:将边缘改为软性(有个范围),以 适应需要。 集成机器学习:多个分类器集成,以使用 不同模型补充一个模型的不足。
基于统计的数据分析不能满足需求
在某些行业,仅仅依赖积累的数据所建立 的模型不能准确地预测未来。 原因是:对大多数情况, 积累的数据与未来将发生的事件不满足一 致性假设,而是可能相差甚远。 个别事件可能比统计显现的事件更为重要。
例如
零售业:积累的数据只能部分指导未来的 进货策略与销售策略,特别是变化快的行 业,例如,音像制品。 电信业:对长久大户的特殊服务,对电信 业至关重要。从海量数据中发现这些用户 仅仅使用统计方法是不够的。 情报分析:寻找不同常规行为的事件。
人类思考的语言倾向
事实上,在大多数情况下,人类
的思考借助于语言或图像,而不 是数值。
技术方法之一---符号机器学习
根据不同数据类型与不同需求,数据描述
需要多种方法。
来源于机器学习的方法是符号机器学习, 它只能解决其中一部分问题。
基于符号机器学习的数据描述
可以分为三个步骤的过程: 根据领域知识,从被直接观测的数值归纳 (聚类)为符号(概念)。 将这些符号构成的数据集合,约简为人可 阅读的规则集合(其长度必须满足特定用户 的要求)。 构成特定语言或图形文本,或添加不确定 性描述。
机器学习
机器学习的一般说明
统计机器学习 集成机器学习
机器学习的研究动力
领域应用驱动。
算法驱动。
领域应用驱动
自然语言数据分析。 DNA数据分析。 网络与电信数据分析。 图像数据分析。 金融与经济数据分析。 零售业数据分析。 情报分析。
没有一种算法可以解决复杂的实际问题。需要各
给定核函数,如果它可以保证将样本集合 在特征空间变换为两个不相交的闭凸集, 则对这个样本集合的最大边缘可以通过二 次规划、计算几何等方法获得。由此,可 以获得支持向量。 这就是SVM。
未解决的问题
在特征空间样本集合是否可以划分为不相 交的闭凸集,决定于核函数的选择。 最大边缘尽量大,也决定于核函数的选择。 核函数的选择没有一般的方法。 准确地说,加大特征空间维数是一个方法, 确定最小维数没有P算法。
集成机器学习动机
弱分类器设计简单。
在理论上似乎与Madaline类似。
集成机器学习
1990年Shapire证明,如果将多个弱分类 器集成在一起,它将具有强分类器的泛化 能力。 进而,又说明,这类集成后的强分类器具 有统计学习理论的基础。
弱分类器
如果一个分类器的分类能力(泛化)
稍大于50%,这个分类器称为弱 分类器。 这意味着,比掷硬币猜正面的概 率稍好,就是弱分类器。
应用领域
DNA功能分析。 电信数据客户分析。 金融、经济数据分析。 图像数据分析。 文本分析。 情报分析。等等。
wk.baidu.com
符号与数值
对实际世界中某个事务,人们往往采用两 种方式来描述:数值与语言(符号或概念)。 颜色:赤橙黄绿青蓝紫,或光的波长。前 者是语言性的,后者是数值性的。 体温:发烧,或37度以上。
机器学习研究
王 珏
中国科学院自动化研究所
2003年3月,北京,自动化所
反思
网络经济的泡沫破灭之后,哪些
是值得我们在研究方向上反思的 问题呢? 我们的研究应注意哪些课题呢?
需求---NII计划
不分地域地、有效地获得与传输信息。
不分地域地、有效地共享硬软资源。 有效地利用信息,以提高生产率。 保证信息安全。
划分
将被观测的对象集合放到一个n维欧氏空间,
寻找一个超平面,使得问题决定的不同对
象分在不相交的区域。
机器学习主要研究的是这部分内容,即,
寻找划分对象集合的超平面(等价关系)。
超平面类型
光滑且连续的超平面。
有限不光滑点,甚至有限不连续
点的超平面。
光滑连续超平面作为研究基础
Perceptron,人工神经网络是典型例子。