机器学习的发展现状及其相关研究概要

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器学习的发展现状及其相关研究

摘要: 阐述了机器学习的概念及其研究现状, 讨论了其中的关键技术、难点及应用与发展前景, 并对机器学习研究中的有关问题提出一些看法.

关键词: 人工智能; 机器学习; 泛化

1 机器学习的发展现状

机器学习(machine learning是继专家系统之后人工智能应用的又一重要研究领域, 也是人工智能和神经计算的核心研究课题之一. 机器学习是人工智能领域中较为年轻的分支, 其发展过程可分为4 个时期: 120 世纪50 年代中期到60 年代中期, 属于热烈时期; 260 年代中期至70 年代中期,被称为机器学习的冷静时期; 370 年代中期至80 年代中期, 称为复兴时41986 年开始是机器学习的最新阶段. 这个时期的机器学习具有如下特点: 机器学习已成为新的边缘学科并在高校成为一门独立课程; 融合了各种学习方法且形式多样的集成学习系统研究正在兴起; 机器学习与人工智能各种基础问题的统一性观点正在形成; 各种学习方法的应用范围不断扩大, 一部分应用研究成果已转化为商品; 与机器学习有关的学术活动空前活跃.

2 机器学习的概念、类型及特点

2.1 机器学习的基本概念

机器学习的研究主旨是使用计算机模拟人类的学习活动, 它是研究计算机识别现有知识、获取新知识、不断改善性能和实现自身完善的方法.机器学习的研究目标有3 个: 1人类学习过程的认知模型; 2通用学习算法; 3构造面向任务的专用学习系统的方法.在图1 所示的学习系统基本模型中, 包含了4 个基本组成环节. 环境和知识库是以某种知识表示形式表达的信息的集合, 分别代表外界信息来源和系统所具有的知识; 环境向系统的学习环节提供某些信息, 而学习环节则利用这些信息对系统的知识库进行改进, 以提高系统执

行环节完成任务的效能. “执行环节”根据知识库中的知识完成某种任务, 同时将获得的信息反馈给学习环节.

2.2 基于符号的机器学习

基于符号的机器学习, 是基于代表问题域中实体和关系的符号集合. 符号学习算法就是利用这些符号推出新颖、有效的一般规则, 规则同时也用这些符号进行表述.

1变型空间搜索. 候选解排除算法依赖于变量空间这个概念, 是与训练实例一致的所有概念描述的集合. 这些算法有更多实例可用于缩减变型空间的大小.

2ID3 决策树归纳算法. ID3 与候选解排除算法一样, 由实例中归纳概念. 该算法在如下几方面具有优势: 对学到知识的表示; 控制计算复杂性的方法; 选择候选概念的启发式信息; 具处理有噪声数据的潜力.

3归纳偏置和学习能力. 归纳偏置指学习程序用来限制概念空间或在这个空间中选择概念.

4知识和学习. 传统的知识学习方法主要有机械式学习、指导式学习、归纳学习、类比学习和基于解释的学习.

5无监督学习. 聚类问题是比较1 组未分类的物体和度量物体的相似性, 目标是将物体分成符

合某些质量标准的类别.

6强化学习. 强化学习即设计算法将外界环境转化为最大化报酬量的方式.

2.3 连接主义的机器学习

连接主义方法是将知识表示为由小的个体处理单元组成的网络激

活或者抑制状态模式. 受动物大脑结构的启发, 连接主义网络学

习是通过训练数据修改网络结构和连接权值来实现的.

在连接系统中, 处理都是并行和分布式的, 没有符号系统中的符

号处理. 领域中的模式被编码

成数字向量; 神经元之间的连接也被数字值所代替; 模式的转换

也是数字操作的结果———通常用矩阵乘法. 设计者对于连接系

统结构的选择就构成系统的归纳偏置. 应用这些技术的算法和系

统结构, 一般都使用训练的方法而不是直接的程序设计. 这也是

这种方法最具优势之处.连接主义的机器学习方法主要有以下几种: 连接网络的基础, 感知学习, 反传学习, 竞争学习,Hebbian 一致

性学习, 吸引子网络或记忆.

2.4 机器学习: 社会性和涌现性

涌现模型是受遗传和进化的启发而形成的. 遗传算法开始时有一

组问题的候选解, 候选解根据它们解决问题的能力来进化: 只有

适者生存, 并相互交换产生下一代解. 这样, 解得以不断地增强,

就像达尔文所描述的现实世界的进化.涌现学习模型模仿了大自然

中最优美和强大的植物与动物的生命演化形式. 它主要应用在遗

传算法、分类器系统和遗传程序设计、人工生命与基于社会的学

习等方面.

3 国内关于机器学习的研究现状

近年来, 国内对有关机器学习的研究发展较快, 主要表现在以下

几个方面.

1泛化能力的研究. 机器学习所关注的一个根本问题是如何提高学习系统的泛化能力, 或者说是机器在数据中发现的模式怎样才能具有良好的推广能力. 集成学习可以显著提高学习系统的泛化能力, 它因此曾被权威学者Dietterich 列为机器学习四大研究方向之首. 南京大学周志华教授长期从事人工智能中机器学习、数据挖掘、模式识别等方面的研究, 他的研究组在集成学习领域进行了深入研究, 获得了具有国际影响的成果.由于利用多个学习器可以获得比单一学习器更好的性能, 因而很多学者试图通过增加学习器的数目提高泛化能力. 周志华等人提出选择性集成理论, 证明了从1 组学习器中选择部分学习器比用所有学习器构建集成学习系统更优越, 并设计出有效的选择性集成算法[2]. 该研究结果在业界获得高度评价. 其完整研究结果发表在Artificial Intelligence 上, 并被ISI 列入2000— 2004 年被引用最多的“Top 1%”论文.

理想的学习方法不仅要有强的泛化能力, 还要有好的可理解性. 周志华等人提出了二次学习的思想, 将集成学习用作预处理, 设计出泛化能力强、可理解性好的新型规则学习方法C4.5 Rule -PANE[2] , 引起著名学者Sharkey 的重视;

2监督学习算法向多示例学习算法转化的一般准则.1997 年, Dietterich 在提出多示例学习这一新型机器学习框架的同时, 还提出一个公开问题, 即如何为常用的机器学习算法设计多示例版本[2].目前, 很多常用算法都有了多示例版本, 但其转化过程均是针对具体算法进行的, 缺乏普遍适用性.周志华等人提出了监督学习算法向多示例学习算法转化的一般准则, 还给出了基于集成学习的多示例问题的求解方法[2] , 该算法在基准测试上取得了目前国际上最好的结果, 专家给予了高度评价.

3机器学习技术在工作流模型设定中的应用. 目前所实现的工作流管理系统(WFMS, 多是为

了支持严格结构化的业务过程而进行的建模、分析以及设定, 即以业务过程的形式化模型为基础.获取工作流模型是应用中的一个瓶

相关文档
最新文档