机器学习文献阅读

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文献阅读报告

————机器学习(1)机器学习的定义

机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

机器学习的核心是学习。学习是系统中的任何改进,这种改进使得系统在重复同样的工作或进行类似的工作时,能完成得更好。

机器学习就是要使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现自我完善。

(2)机器学习的研究内容

如何使机器通过识别和利用现有知识来获取新知识和新技能。作为人工智能的一个重要的研究领域,机器学习的研究工作主要围绕学习机理、学习方法、面向任务这三个基本方面的研究。

(3)学习系统

为了使计算机系统具有某种程度的学习能力,使它能通过学习增长知识,改善性能,提高智能水平,需要为它建立相应的学习系统。

一个学习系统一般应该由环境、学习、知识库、执行与评价四个基本部分组成。

(4)机器学习的分类

基于学习策略的分类,依从简单到复杂,从少到多的次序分为以下六种基本类型:

1)机械学习(Rote learning)

学习者无需任何推理或其它的知识转换,直接吸取环境所提供的信息。如塞缪尔的跳棋程序,纽厄尔和西蒙的LT系统。这类学习系统主要考虑的是如何索引存贮的知识并加以利用。系统的学习方法是直接通过事先编好、构造好的程序来学习,学习者不作任何工作,或者是通过直接接收既定的事实和数据进行学习,对输入信息不作任何的推理。

2)示教学习(Learning from instruction或Learning by being told) 学生从环境(教师或其它信息源如教科书等)获取信息,把知识转换成内部可使用的表示形式,并将新的知识和原有知识有机地结合为一体。所以要求学生有一定程度的推理能力,但环境仍要做大量的工作。教师以某种形式提出和组织知识,以使学生拥有的知识可以不断地增加。这种学习方法和人类社会的学校教学方式相似,学习的任务就是建立一个系统,使它能接受教导和建议,并有效地存贮和应用学到的知识。目前,不少专家系统在建立知识库时使用这种方法去实现知识获取。示教学习的一个典型应用例是FOO程序。

3)演绎学习(Learning by deduction)

学生所用的推理形式为演绎推理。推理从公理出发,经过逻辑变换推导出结论。这种推理是"保真"变换和特化(specialization)的过程,使学生在推理过程中可以获取有用的知识。这种学习方法包含宏操作(macro-operation)学习、知识编辑和组块(Chunking)技术。演绎推理的逆过程是归纳推理。

4)类比学习(Learning by analogy)

利用二个不同领域(源域、目标域)中的知识相似性,可以通过类比,从源域的知识(包括相似的特征和其它性质)推导出目标域的相应知识,从而实现学习。类比学习系统可以使一个已有的计算机应用系统转变为适应于新的领域,来完成原先没有设计的相类似的功能。类比学习需要比上述三种学习方式更多的推理。它一般要求先从知识源(源域)中检索出可用的知识,再将其转换成新的形式,用到新的状况(目标域)中去。类比学习在人类科学技术发展史上起着重要作用,许多科学发现就是通过类比得到的。例如著名的卢瑟福类比就是通过将原子结构(目标域)同太阳系(源域)作类比,揭示了原子结构的奥秘。

5)基于解释的学习(Explanation-based learning, EBL)

学生根据教师提供的目标概念、该概念的一个例子、领域理论及可操作准则,首先构造一个解释来说明为什该例子满足目标概念,然后将解释推广为目标概念的一个满足可操作准则的充分条件。EBL 已被广泛应用于知识库求精和改善系统的性能。著名的EBL系统有迪乔恩(G.DeJong)的GENESIS, 米切尔(T.Mitchell)的LEXII和

LEAP, 以及明顿(S.Minton)等的PRODIGY。

6)归纳学习(Learning from induction)

归纳学习是由教师或环境提供某概念的一些实例或反例,让学生通过归纳推理得出该概念的一般描述。这种学习的推理工作量远多于示教学习和演绎学习,因为环境并不提供一般性概念描述(如公理)。从某种程度上说,归纳学习的推理量也比类比学习大,因为没有一个类似的概念可以作为"源概念"加以取用。归纳学习是最基本的,发展也较为成熟的学习方法,在人工智能领域中已经得到广泛的研究和应用。

按应用领域分:

专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图象识别、故障诊断、自然语言理解、机器人和博弈等领域。 综合分类:

经验性归纳学习、分析学习、类比学习、遗传算法、连接学习、加强学习

(5)目前的研究领域

1)面向任务的研究研究和分析改进一组预定任务的执行性能的学习系统。

2)认知模型研究人类学习过程并进行计算机模拟。

3)理论分析从理论上探索各种可能的学习方法和独立于应用领域的算法

(6)国内关于机器学习的现状

近年来,国内对有关机器学习的研究发展较快,主要表现在以下几个方面:

1)泛化能力的研究:机器学习所关注的一个根本问题是如何提高学习系统的泛化能力,或者说是机器在数据中发现的模式怎样才能具有良好的推广能力。集成学习可以显著提高学习系统的泛化能力,它因此曾被权威学者Dietterich列为机器学习四大研究方向之首。南京大学周志华教授长期从事人工智能中机器学习、数据挖掘、模式识别等方面的研究,他的研究组在集成学习领域进行了深入研究,获得了具有国际影响的成果。

2)监督学习算法向多示例学习算法转化的一般准则。

3)机器学习技术在工作流模型设定中的应用。

4)机器学习技术在数据挖掘中的商业应用。

5)基于机器学习的入侵检测技术。

6)人工智能原理在人类学习中的应用。

(7)国外的研究情况

1)搜索引擎:Google的成功,使得Internet搜索引擎成为新兴产业。除了现有的众多专营搜索引擎的公司(如专门针对中文搜索的就有慧聪、百度等),Microsoft等巨头也开始投入巨资进行搜索引擎的研发。Google掘到的第一桶金,来源于其创始人Larry Page和Sergey Brin 提出的PageRank算法。机器学习技术正在支撑着各类搜索引擎(尤其是贝叶斯学习技术)。

2)PAL计划:2003年,DARPA开始启动5年期PAL计划(perceptive

相关文档
最新文档