989426-人工智能基础-第五章

合集下载

人工智能基础 第5章 自然语言处理

人工智能基础 第5章 自然语言处理

5.2 机器翻译
5.2.1 基于规则的机器翻译
1. 直接机器翻译
这是最直接的机器翻译类型。英语—德语的 直接翻译示意图如图 5-1所示。
5.2 机器翻译
5.2.1 基于规则的机器翻译 2. 基于转换的机器翻译
基于转换的方法首先通过确定句子的语法结 构来进行翻译,就像我们在学校学习的那 样,然后修正整个结构,而不是单词。这有 助于在翻译中对词序进行正确的转换。如图 5-2 所示。
重点在词典的发展上 改进机添器翻加译标的题工作持
续了 40 年之久,但没 有取得显著的成果。 1966 年,美国 ALPAC 委员会在其著名的报告 中称,机器翻译昂贵、 不准确、没有前途。
5.2 机器翻译
5.2.1 基于规则的机器翻译
01
(1)双语词典(俄语—英语)。
02
(2)每种语言的一套语言规则(例如,以某些后缀结尾的名词,如 -heit,-keit,-ung 是阴性 的)。
1956 年发现了专 利
操作员从文本中取出第一
个单词,添找加一标张题对应的卡
片,拍摄照片,然后在打 字机上键入单词的形态特 征(名词、复数、属格)。 打字机的按键编码了其中 一个特 征。磁带和相机的胶卷同 时使用,制作了一组带有 单词及其形态的框架。
机器翻译
1954添年加1 月标7题日,在
纽约的 IBM 总部开始 了 Georgetown–IBM 实验。IBM 701 计算机在历史上首次将 60 个俄语句子自动翻 译成英语。
10 人工智能应用 Application of artificial intelligenc处理(NLP)是一种基于理论的计算技术,用于人类语言的自 动分析和表达。自然语言处理的目的是使计算机处理、理解并能够生成人 类的语言,它涉及计算机科学、人工智能和语言学等多个学科。

人工智能第五章(1)

人工智能第五章(1)
20
平稳发展阶段(二十世纪九十年代以后)
19
人工神经元模型
人工神经元模型
神经元单元由多个输入xi,i=1,2,...,n 和一个输出y 组成。中间状态由输入信号的权和表示,而输出 为 n y j (t ) = a (∑ ω ji xi − θ j )
i =1
式中,θj为神经元单元的偏置或阈值,wji为连 接权系数。n为输入信号数目,yj为神经元输 出,t为时间,a(⋅)为输出变换函数,也叫激励函 数,特性函数。
13
生物神经特性
(5)能接受和处理模糊的、 能接受和处理模糊的、模拟的、 模拟的、随机的信息。 随机的信息。 (6) 求满意解而不是精确解. 求满意解而不是精确解.人类处理日常行为时, 人类处理日常行为时, 往往都不是一定要按最优或最精确的方式去求解, 往往都不是一定要按最优或最精确的方式去求解 , 而是以能解决问题为原则, 而是以能解决问题为原则 , 即求得满意解就行了。 即求得满意解就行了 。 (7)系统的恰当退化和冗余备份( 系统的恰当退化和冗余备份(鲁棒性和容错性) 鲁棒性和容错性)
12
2
生物神经特性
(4)信息处理的系统性 大脑是一个复杂的大规模信息处理系统, 大脑是一个复杂的大规模信息处理系统,单个的 元“神经元” 神经元”不能体现全体宏观系统的功能。 不能体现全体宏观系统的功能。实际 上,可以将大脑的各个部位看成是一个大系统中的 许多子系统。 许多子系统。各个子系统之间具有很强的相互联系, 各个子系统之间具有很强的相互联系, 一些子系统可以调节另一些子系统的行为。 一些子系统可以调节另一些子系统的行为。例如, 例如, 视觉系统和运动系统就存在很强的系统联系, 视觉系统和运动系统就存在很强的系统联系,可以 相互协调各种信息处理功能

人工智能课件第5章

人工智能课件第5章

循环神经网络原理
循环神经网络(RNN)是一种具有循 环结构的神经网络,能够处理序列数据。 它通过在网络中引入循环连接,使得网 络可以记住先前的信息,并将其应用于
当前的任务。
RNN的基本结构包括输入层、隐藏层 和输出层。隐藏层的状态会在每个时间 步长中更新,从而捕捉序列中的动态信
息。
RNN的训练过程采用反向传播算法 (BPTT),通过计算损失函数对模型 参数的梯度来更新模型参数,以最小化
通过不断地试错和学习,使得智能体能够找到一 种最优的行为策略,以最大化获得的累计奖励。
马尔可夫决策过程
马尔可夫决策过程的定义
马尔可夫决策过程(Markov Decision Process,MDP)是一种 用于描述强化学习问题的数学模型,具有马尔可夫性质。
马尔可夫决策过程的组成
包括状态集合、动作集合、转移概率、奖励函数和折扣因子等。
Q-Learning算法的应用
可用于解决各种离散状态和动作空间的强化 学习问题,如迷宫寻路、倒立摆控制等。
Policy Gradient算法
Policy Gradient算法的原理
Policy Gradient是一种基于策略迭代的强化学习算法,通过梯度上升法来优化策略参数,使得期 望回报最大化。
Policy Gradient算法的流程
人工智能课件第5章
目录
• 深度学习基础 • 卷积神经网络 • 循环神经网络 • 生成对抗网络 • 强化学习基础 • 人工智能伦理与安全性问题
01 深度学习基础
神经网络概述
神经网络的定义
神经网络的工作原理
一种模拟人脑神经元连接方式的计算 模型,通过多层神经元的组合和连接 实现复杂的功能。
通过前向传播计算输出结果,再根据 误差反向传播调整权重,不断迭代优 化网络参数。

人工智能ArtificialIntelligence第五章-PPT精选

人工智能ArtificialIntelligence第五章-PPT精选

神经网络学习在消沉了一段时期后又重新蓬勃发展起来了,同时 计算机硬件技术的高速发展也为开展大规模和高性能的人工神经 网络提供了保障,使得基于神经网络的连接学习从低谷走出,发 展迅猛。其中Rumelhart等人提出的BP模型,提供了一个训练多层 网络的实际可行的方法,克服了Perceptron的大部分局限性。
3
机器学习概述
为什么要研究机器学习?
必要性:
–理解学习的本质和建立学习系统是AI研究的目标之 一
–现有的大多数AI系统都是演绎的,没有归纳推理, 因而不能自动获取和生成知识
可行性:
–学习的过程是信息处理的过程,这包括直接记忆和 经过推理
–已有工作说明可以实现一定程度的机器学习
2019/9/1
史忠植 人工智能: 机器学习
2、归纳学习 :环境或教师提供一系列正例和反例,通过归纳推理 ,机器将这些例子进行推广,产生一个或一组一般的概念描述。
3、类比学习 :利用两个不同领域(目标域和源域)知识的相似性 ,从源域的知识(包括相似的特征和其他特征)推断出目标域的 相应知识的推理方法。
4、统计学习 :基于数据构建概率统计模型并运用模型对数据进行 预测与分析。
2019/9/1
史忠植 人工智能: 机器学习
5
机器学习模型
• 学习的一种模型
环境 学习环节
知识库 执行环节
• 环境:外部信息的来源,它将为系统的学习提供有关信息 • 知识库:代表系统已经具有的知识 • 学习环节:系统的学习机构,它通过对环境的感知取得外部信息
,然后经分析、综合、类比、归纳等思维过程获得知识,生成新 的知识或改进知识库的组织结构。 • 执行环节:基于学习后得到的新的知识库,执行一系列任务,并 将运行结果报告学习环节,以完成对新知识库的评价,指导进一 步的学习工作,是该模型的核心。

《人工智能基础》第五章课件

《人工智能基础》第五章课件
在可行域内没有比 ∗ 更好的点
• 局部最优解
∃ > 0: ∗ ≤ ,
∀: ∈ and − ∗ ≤
Page .
人工智能与优化
• 很多人工智能任务可以建模为优化问题:
Page .
离散优化与连续优化
• 根据优化变量的取值,优化问题可以分为连续优化(变量是
实数)和离散优化(如布尔变量、整数变量)
• 目标函数: 表示希望进行优化的指标。
• 优化变量:min 表示我们希望对 进行极小化,其下标
表示优化变量
• 约束:s.t. 是 subject to 的缩写,表示其后的式子是对变量
的“约束”,即要求 满足的条件。 ℎ ≤ 0 被称为“不等式
约束”; = 0 被称为“等式约束
1. 随机生成包含足够数量的染色体的生物种群;
2. 计算种群中每个个体的“适应度”(fitness);
3. 根据适应度随机选择竞争中胜出的个体,适应度越高,相应个体被选
中的概率越高;
4. 胜出的个体进行杂交(交换染色体),并以一定概率进行变异,生成
子代个体;
5. 转到第2步,进行下一代的繁衍。
Page .
5.3 智能优化方法
Page .
凸集与凸函数
定义 集合 是凸集(convex set), 当且仅当
1 + 1 − 2 ∈ , ∀ ∈ 0,1 , ∀2 , 2 ∈
定义在凸集上的函数 是凸函数(convex function),当且仅当
1 + 1 − 2 ≤ 1 + 1 − 2 ,
• 一般而言,连续优化易于求解
从当前解出发,可以根据梯度等信息感知不同方向上的

人工智能ArtificialIntelligence第五章ppt课件

人工智能ArtificialIntelligence第五章ppt课件

理论研究和应用研究也有了新的突破,机器学习的研究进入了全 面的、系统化的时期。
主要成果有:
一方面传统的符号学习的各种方法已日臻完善。Michalski等 将AQ11扩充为一个多功能学习系统AQ15,ID3算法中使用了熵,从 而使决策树归纳得到了很大的改进。
科学发现系统BACON开辟了无导师学习的两个重要研究领域。
神经网络学习在消沉了一段时期后又重新蓬勃发展起来了,同时 计算机硬件技术的高速发展也为开展大规模和高性能的人工神经 网络提供了保障,使得基于神经网络的连接学习从低谷走出,发 展迅猛。其中Rumelhart等人提出的BP模型,提供了一个训练多层 网络的实际可行的方法,克服了Perceptron的大部分局限性。
史忠植 人工智能: 机器学习
13
归纳学习
• 归纳学习的分类和研究领域:
–符号学习
• 监督学习: –实例学习:系统事先将训练例子(经验数据)分类:正 、负例子。由于它产生规则,所以也称为概念学习
• 无监督学习:事先不知道训练例子的分类 –概念聚类: –机器发现
• 神经网络:本质上是实例学习,为区别起见,称为联结学习
2020/12/18
史忠植 人工智能: 机器学习
7
机器学习发展阶段
七十年代的发展阶段:
由于当时专家系统的蓬勃发展,知识获取成为当务之 急,这给机器学习带来了契机,主要侧重于符号学习 的研究。机器学习的研究脱离了基于统计的以优化理 论为基础的研究方法,提出了基于符号运算为基础的 机器学习方法,并产生了许多相关的学习系统,
–环境提供给学习环境的例子是低水平的信息,这是 在特殊情况下执行环节的行为。学习环节归纳出的 规则是高水平的信息,可以在一般情况下用这些规 则指导执行环节的工作

人工智能第5章

人工智能第5章

123 8 4 765
估价值相同时 需展开下层比较
全局择优-最好优先法
开始 S0open表 Open=nil N Open表头Nclosed表 所有节点排序/展开open表 后继节点=目标节点 N Y 成功
全局择优 – 对所有节 点排序、展开、择优 f(n)=d(n)+w(n)+p(n) d(n)表示重排九宫过 程中节点n的层数. w(n)表示重排九宫过 程中节点n的错位数 P(n)表示各个错位离 “家”最短距离之和
6 283 164 7 5
3
4 2 4
1 123 84 765
8 123 8 4 765 最好优先搜索
全局择优-搜索的效率
全局择优(最好优先)—对所有节点用f(n) 进行排序,并择优考察/扩展。估价值相 同时,以下层节点的估价值决定最优者。 随着启发性知识的增加,搜索的效率也 将不断地提高。 216 f(n) = d(n) + w(n) + p(n) + 3s(n) 4 8


特点 *瞎子爬山法 *在后继节点中择优 估价函数: *f(n) = W(n) * w(n)表示重排九宫 过程中节点n的错位数
283 局部择优 123 164 8 4 7 5 f(n) = W(n) 765 7 6 2 4 5 283 3 283 5 5 283 3 813 4 164 1 4 164 24 75 765 75 765 4 8 1 8 7 2 13 4 4 283 3 283 3 2 3 14 14 184 824 765 765 765 765 7 2 1 283 1 3 3 83 4 1 824 214 714 765 65 765 8 2 8 3 3 123 214 8 4 765 765 3 1 4 83 3 813 214 2 4 765 765

人工智能基础教程 第5章 机器学习

人工智能基础教程 第5章 机器学习

与传统的为解决特定 任务而硬编码的软件 程序不同,机器学习 是用大量的数据来 “训练”,通过各种 算法从数据中学习如 何完成任务。
人类通过经验归纳来 解决新的问题,而机 器通过历史数据(经 验)不断训练模型来 处理新的数据。
第一阶段从20世纪50年代中叶到60年代中叶。这个阶段主要研究系统的执行能力。
(1)监督学习。 (2)无监督学习。 (3)半监督学习。 (4)强化学习。
(1)结构化学习
(2)非结构化学习
监督学习的训练集要求包括输入与输出,也可以说是特征和目标,训练集中的目标是由人标 注的。
监督学习是训练神经网络和决策树的常见技术,这种技术高度依赖事先确定的分类系统给 出的信息。对于神经网络,分类系统使用信息判断网络的错误,然后不断调整网络参数。对 于决策树,分类系统用它来判断哪些属性提供了最多的信息。所有的回归算法和分类算法都 属于监督学习。
1.收集、准备数据 2.数据预处理 3.特征提取与选择 4.训练模型 5.评估本的特征空间中的K个最相似(即特 征空间中最邻近)的样本中的大多数属于某 一个类别,则该样本也属于这个类别。。
决策树是一种常见的分类方法,其思想和 “人类逐步分析、比较然后做出结论”的过 程十分相似。
半监督学习是一种介于监督学习和无监督学习之间的学习方法。在半监督学习中,通常存 在只拥有少量有标注数据的情况,这些有标注数据并不足以训练出好的模型,但同时拥有大 量未标注数据可供使用,可以通过充分地利用少量的有标注数据和大量的无标注数据来改善 算法性能。因此,半监督学习可以最大限度地发挥数据的价值,使机器学习模型从体量巨大、 结构繁多的数据中挖掘出隐藏在其背后的规律,半监督学习也因此成为近年来机器学习领域 比较活跃的研究方向,被广泛应用于社交网络分析、文本分类、计算机视觉和生物医学信息 处理等诸多领域。

人工智能ArtificialIntelligence第五章-PPT精选

人工智能ArtificialIntelligence第五章-PPT精选
• 变型空间方法: –初始:G是最上面一个点,S是最下面的直线(示教 正例),H为整个规则空间 –搜索过程:G下移,S上移,H逐步缩小。 –结果:H收敛为只含一个要求的概念
2019/11/19
史忠植 人工智能: 机器学习
20
变型空间方法
• 消除侯选元素算法
(1)正规的初始H集是整个规则空间,这时S包含所有可 能的示教正例(最特殊的概念)。
2019/11/19
史忠植 人工智能: 机器学习
12
归纳学习
• 归纳学习(Inductive Learning)
– 就是从个别到一般,根据某个概念的一系列已知的正例和反例 ,从中归纳出一个一般的概念描述
– 旨在从大量的经验数据中归纳抽取出一般的判定规则和模式。
– 是机器学习中最核心、最成熟的分支。
史忠植 人工智能: 机器学习
18
变型空间方法
• 基本思想:以整个规则空间为初始的假设规则集合H, 根据示教例子中的信息,对集合H进行一般化或特殊化 处理,逐步缩小集合H,最后使H收敛为只含要求的规 则。
• 规则空间中的偏序关系:它是按一般性和特殊性来建立 的一种概念之间的关系
• 排序后的变形空间:
–模型驱动方法:
• 产生和测试方法:针对示教例子反复产生和测试假 设的规则。利用基于模型的知识产生假设的规则, 便于只产生可能合理的假设
• 方案示例方法:使用规则方案的集合来限制可能合
理的规则形式,最符合示教例子的规则被认为是最
合理的规则
2019/11/19
史忠植 人工智能: 机器学习
17
实例学习
–环境提供给学习环境的例子是低水平的信息,这是 在特殊情况下执行环节的行为。学习环节归纳出的 规则是高水平的信息,可以在一般情况下用这些规 则指导执行环节的工作

人工智能ArtificialIntelligence第五章-PPT精选

人工智能ArtificialIntelligence第五章-PPT精选
2019年,Vapnik出版了“统计学习理论”一书。
对PAC的研究是一种理论性,存在性的;Vapnik的 研究却是构造性的,他将这类研究模型称为支持向量 机SVM(Support Vector Machine)。
2019/12/7
史忠植 人工智能: 机器学习
10
机器学习概述
机器学习的研究方法
1、演绎学习 :是一种常规的逻辑推理方法。其推理的过程就是从 公理出发,经过逻辑变换,推导出结论。
5、强化学习:又称激励学习,是从环境到行为映射的学习,以使奖 励信号函数值最大。
6、进化学习:是研究利用自然进化和适应思想的计算系统。
2019/12/7
史忠植 人工智能: 机器学习
11
内容提要
5.1 机器学习概述 5.2 归纳学习 5.3 类比学习 5.4 统计学习 5.5 强化学习 5.6 进化计算 5.7 群体智能 5.8 知识发现 5.9 小结
– 经验学习:归纳学习依赖于经验数据
– 基于相似性的学习:归纳学习依赖于数据间的相似形
• 归纳的操作:
– 泛化(Generalization):扩展某假设的语义信息,使其能够包 含更多的正例
– 特化(Specialization):泛化的相反操作,用于限制概念描述 的应用范围
2019/12/7
史忠植 人工智能: 机器学习
–学习单个概念:由系统提供的某个概念的正例和反 例,只要求系统归纳出一个概念的描述规则
–学习多个概念:要求归纳出多个相互独立的概念 –学习执行多步任务:执行环节使用一个操作序列去
完成任务,即执行环节进行任务规划。因此,归纳 出的规则应该是进行任务规划的规则
2019/12/7
史忠植 人工智能: 机器学习

人工智能ArtificialIntelligence第五章-PPT精选

人工智能ArtificialIntelligence第五章-PPT精选

5、强化学习:又称激励学习,是从环境到行为映射的学习,以使奖 励信号函数值最大。
6、进化学习:是研究利用自然进化和适应思想的计算系统。
2、学习是对一个系统而言。这个系统可能是一个计算机系统 ,或一个人机系统;
3、学习能够改变系统的性能。这只说明对系统性能的改进, 但是并未限制改进的方法。
– 从人工智能的角度看,机器学习是一门研究使用计算机获取新的知
识和技能,忠植 人工智能: 机器学习
3
机器学习概述
为什么要研究机器学习?
必要性:
–理解学习的本质和建立学习系统是AI研究的目标之 一
–现有的大多数AI系统都是演绎的,没有归纳推理, 因而不能自动获取和生成知识
可行性:
–学习的过程是信息处理的过程,这包括直接记忆和 经过推理
–已有工作说明可以实现一定程度的机器学习
2019/12/1
人工智能 Artificial Intelligence
第五章
机器学习
Machine Learning
史忠植
中国科学院计算技术研究所 intsci.ac/
内容提要
5.1 机器学习概述 5.2 归纳学习 5.3 类比学习 5.4 统计学习 5.5 强化学习 5.6 进化计算 5.7 群体智能 5.8 知识发现 5.9 小结
主要系统和算法包括:
Winston的积木世界学习系统;
Michalski基于逻辑的归纳学习系统AQVAL;
Michalski和Chilausky的AQ11;
Quinlan的ID3程序
Mitchell的版本空间方法。
2019/12/1
史忠植 人工智能: 机器学习
8
机器学习发展阶段
八九十年代至今的鼎盛阶段。

人工智能ArtificialIntelligence第五章-资料

人工智能ArtificialIntelligence第五章-资料
• 传统的算法复杂性分析 • 概率近似正确性学习研究(计算学习理论)
2020/8/21
史忠植 人工智能: 机器学习
14
实例学习
• 基本思想: –环境提供给系统一些特殊的实例,这些例子事先由 施教者划分为正例和反例。 实例学习由此进行归纳 推理,产生适用于更大范围的一般性知识,得到一 般的规则 ,它将覆盖所有的正例并排除所有的反例 。
2019年,Vapnik出版了“统计学习理论”一书。
对PAC的研究是一种理论性,存在性的;Vapnik的 研究却是构造性的,他将这类研究模型称为支持向量 机SVM(Support Vector Machine)。
2020/8/21
史忠植 人工智能: 机器学习
10
机器学习概述
机器学习的研究方法
1、演绎学习 :是一种常规的逻辑推理方法。其推理的过程就是从 公理出发,经过逻辑变换,推导出结论。
– 最下面一行的各点:是示教正例对应的概念,每个 点的概念只符合一个正例
2020/8/21
史忠植 人工智能: 机器学习
19
变型空间方法
• 假设规则的集合H: –H是规则空间的子集 –H中最一般的元素组成的子集称为G集合 –H中最特殊的元素组成的子集称为S集合 –在规则空间中,H是G和S中间的一段。 –可以用G和S来表示H
(2)接收一个新的示教例子。
如果是正例:去掉G中不覆盖新正例的概念,然后 修改S为由新正例和S原有的元素共同归纳出的最特 殊的结果
如果是反例:从S中去掉覆盖该反例的概念;然后 修改G为由新反例和G原有元素共同特殊化为最一般 的结果
(3)若G=S,且是单元集合,则转(4),否则转(2)
(4)输出H中的概念(即G和S)
18

人工智能ArtificialIntelligence第五章-PPT精选

人工智能ArtificialIntelligence第五章-PPT精选
–学习的计算理论
• 传统的算法复杂性分析 • 概率近似正确性学习研究(计算学习理论)
2019/11/24
史忠植 人工智能: 机器学习
14
实例学习
• 基本思想:
–环境提供给系统一些特殊的实例,这些例子事先由 施教者划分为正例和反例。 实例学习由此进行归纳 推理,产生适用于更大范围的一般性知识,得到一 般的规则 ,它将覆盖所有的正例并排除所有的反例 。
2019/11/24
史忠植 人工智能: 机器学习
21
变型空间方法
• 变型空间法的缺点
(1)抗干扰能力差
–变形空间法是数据驱动的方法,所有数据驱 动的方法都难以处理有干扰的训练例子
–算法得到的概念应满足每个示教例子的要求 ,所以一个错误的例子会造成很大的影响
(2)无法发现析取概念
2019/11/24
神经网络学习在消沉了一段时期后又重新蓬勃发展起来了,同时 计算机硬件技术的高速发展也为开展大规模和高性能的人工神经 网络提供了保障,使得基于神经网络的连接学习从低谷走出,发 展迅猛。其中Rumelhart等人提出的BP模型,提供了一个训练多层 网络的实际可行的方法,克服了Perceptron的大部分局限性。
史忠植 人工智能: 机器学习
18
变型空间方法
• 基本思想:以整个规则空间为初始的假设规则集合H, 根据示教例子中的信息,对集合H进行一般化或特殊化 处理,逐步缩小集合H,最后使H收敛为只含要求的规 则。
• 规则空间中的偏序关系:它是按一般性和特殊性来建立 的一种概念之间的关系
• 排序后的变形空间:
3
机器学习概述
为什么要研究机器学习?
必要性:
–理解学习的本质和建立学习系统是AI研究的目标之 一
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 自动规划
规划是人类生产和社会活动的重要形式。 规划旨在为活动实体(人、组织、机器)设计合理的行为——按时间顺序
的活动序列。 从知识工程的角度,自动规划是综合和构造型问题求解任务。 规划问题处理的对象是动作,而约束动作的主线是时间顺序。 经典的自动规划技术:
经典规划技术的发展, 规划的基本概念, 早期的自动规划技术, 部分排序规划技术;
积木块世界中有三个积木块:A、B、C, 机器人只有一个机器手,且每次只能拿起一个积木块。
1 状态
在一个给定的时间点对于世界的一个快照。 二元约束T——描述某个状态S下关于世界的特性, 特性用谓词公式加以表示——On、Clear和Table。 积木块世界的某个状态S1(见图5.2):
{T(On(A,B), S1), T(On(B,C), S1), T(Clear(A), S1), T(Table(C), S1)} 目标状态的非唯一性。
T(On(x, y), s) ∨ T(Clear(x), s) ∨ T(Clear(y), Do(U(x, y), s))}
而相应于 U(x, y)的一条框架公理的子句则表示为:
T(On(u, v), s) ∨ (u ≠ x) ∨ T(On(u, v), Do(U(x, y), s))
若将 u ≠ x 视为作一个附加检查,则该子句简化为:
指出动作(操作符实例)执行的条件,
指出执行后新成立的事实(状态特性描述),
未指出操作前后保持不变的事实(事物间的关系)。
图5.3例,规划结果的执行,事实Clear(A)和
Table(C)始终不变。 [U(A, C), S(B, C), S(A, B)]
框架公理:
刻画一个状态描述中不由动作改变的方面;
T(On(u, v), s) ∨ T(On(u, v), Do(U(x, y), s))
Green 方法的应用:
1) 例 1(图 5.4(a))
初始状态 So:{ T(Clear(A), So),
T(On(A, B), So),
T(On(B, C), So),
T(Table(C), So)}
目标状态ρ: {T(Table(A),ρ)} Goal(ρ)
Do: A X S S, A和S分别指示动作集和状态集; Do(a. s)指示下一状态。
2 动作
关于操作符的规则——形式地描述操作符的激活条件和其执行对于世界的 影响:
U: T(On(x, y), s) ∧ T(Clear(x), s)
T(Table(x), Do(U(x, y), s))∧T(Clear(y), Do(U(x, y), s));
NOAH系统和目标回归方法——开拓了基于部分计划集的搜索技术, 能解决所有的经典规划问题——通过层次规划和非线性规划, 未得到广泛的应用——大量实际规划问题并不遵从经典规划问题的假设。
开拓非经典的实际规划问题(八十年代中期后):
为消除规划理论和实际应用间存在的差距, 部分排序规划技术仍是开发规划新技术的基础。
(x)(s){T(Table(x), s) (y)T(On(x, y), s)}
例子:
检查规划过程中的中间状 态是否为不合法状态,支 持搜索路径的修剪。
(y)(s){T(Clear(y), s) (x)T(On(x, y),s)}
(x)(y)(z)(s){T(On(x, y), s) ∧ y ≠ z T(On(x, z), s)}
1 GPS
U(x,y) S(x,y) M(x,y,z)
基本方法——针对规划的目标状态与初始状
Clear( y ) √
态间的差别来寻找能直接消除差别的动作:
Table( x ) √
建立领域相关的程序去检查状态差别,
On(x, y)
设计操作符-差别表去记载各操作符能消除的差别。
积木块世界动作规划例(自己看)。
研究新的方法——不求助于显式表示的框架公理,也能解决框架问题。 5 计划
规划的结果,表示为动作序列γ; γ∈Γ, Ω|= Do(γ, σ), 使得ρ= Do(γ, σ)。
图5.3规划问题推导出的动作序列: γ= [U(A, C), S(B, C), S(A, B)]。
5.1.3.早期的自动规划技术
“框架”的取名——来自对动画片制作的比拟:
动画片往往若干个画面具有相同的背景,只需
制作不同的前景;
关于操作符的规则定义——制作动画片的前景,
背景用所谓的框架公理加以表示。
Unstack操作符的框架公理,参见书上
指示积木块世界的相应属性在U操作执行的前后保持不变。
4 框架问题
利用框架公理的优缺点: 使规划系统仅用简单的推理机制(例如归结反演),就能实现自动规 划; 大量框架公理的引入将使规划效率大幅度下降; 所需框架公理的数目是状态特性描述谓词的个数与操作符个数的乘积。
Do(S(A, B), Do(S(B, C), Do(U(A, C), s)))
把单一动作从动作序列中分离出来加以处理, 应用于Green方法
3 数据库(也称知识库)
规划的初始状态 目标状态 操作符 逻辑操作公理:
逻辑操作公理: (P)(s){T(P, s) T(P, s)} (P)(Q)(s){T(P ∨ Q, s) (T(P, s) ∨ T(Q, s))}
证明过程(其中 Ans(a)用于指示动作序列 a 的提取):
(γ)Goal(Do(γσ))
1、{Goal(Do(a, So)), Ans(a)}; (a)Goal(Do(a, So))
2、{T(Table(A), Do(a, So)), Ans(a)};与“T(Table(A), ρ)∨Goal(ρ)”
On(x, z)
√√ √
缺点——难以解决子问题具有交互作用的复杂问题: 要消除的各个差别往往并非独立,具有一定的交互作用;
依赖大量启发式知识的引入。
2 Green方法
基于状态演算的规划器,格林(Green),1969年,为仿真机器人构造动作计划。
基本方法:
从计划存在语句(γ)Goal(Do(γσ))出发,证明存在一个正确的计划γ,
差别的消除只有通过执行适当的动作来实现。 启发式知识:
预测动作序列的长度, 抑制框架公理的应用(优先使用相应于操作符规则的子句), 及时实现状态同一(框架公理的主要用处), 及时发现和修剪不可达状态。
积木块世界动作规划例: 参见书上
规划过程用花括号收集归结式, 谓词公式间的逗号隐含着“析取”。
T(Clear(u), s) T(Clear(u), Do(U(x, y), s))
4 框架问题
T(Table(u), s) T(Table(u), Do(U(x, y), s)) T(On(u, v), s) ∧ u ≠ x
操作符的规则定义具有不完备性:
T(On(u, v), Do(U(x, y), s))
S: T(Table(x), s)∧T(Clear(x), s)∧T(Clear(y), s)∧x ≠ y
T(On(x, y), Do(S(x, y), s));
关于操作符M的规则留给读者自行建立。
[U(A, C), S(B, C), S(A, B)]
动作序列——规划的结果,以方括号括起,称为动作块(图5.3)。
5、{Ans(U(A, B))}; 与初始状态描述 T(Clear(A), So)归结
规划的结果是由单一动作构成的动作块[U(A, B)]。注意,规划过程用花括号收集
归结式,谓词公式间的逗号隐含着“析取”。
1) 例 2(图 5.4(b)) 证明过程: 1、{Goal(Do(a, So), Ans(a)}; 2、{T(Table(B), Do(a, So)), Ans(a)}; 3、{T(Table(B), Do(c, Do(b, So))), Ans([b, c])}; 令 a = b.c(或[b, c]), 应用 5.1.2 节中的动作块公理 4、{T(On(B, y), Do(b, So)), T(Clear(B), Do(b, So), Ans([b, U(B, y)])); 与相应于 U(x, y)规则的前一子句归结,且有 B/x, U(B, y)/c, Do(b, So)/s 5、{T(On(B, y), Do(U(x, B), So)), T(On(x, B), So), T(Clear(x), So), Ans([U(x, B), U(B, y)])}; 与相应于 U(x, y)规则的后一子句归结, 且有 B/y, U(x, B)/b, So/s 6、{T(On(B, y), So), T(On(x, B), So), T(Clear(x), So), Ans([U(x, B), U(B,y)])}; 应用相应于 U(x, y)框架公理的子句作归结,实现状态同一(使花括弧中的状态描 述相应于同一状态,Do(U(x, B), So)指示了 So 的下一状态)。 7、{T(On(x, B), So), T(Clear(x, So), Ans([U(x, B), U(B, C)]); 与初始状态描述 T(On(B, C),So)归结,且有 C/y 8、{T(Clear(A, So), Ans([U(A, B), U(B, C)]); 与初始状态描述 T(On(A, B), So)归结, 且有 A/x 9、{Ans([U(A, B), U(B, C)])}; 与初始状态描述 T(Clear(A), So)归结
5.1.2. 规划的基本概念
总体描述:
用状态空间表示法来描述规划: 设计一个动作序列(也称为动作块),使得通过执行该动作序列,可以将 系统从初始状态转变为目标状态。
自动规划系统由规划器和执行器二个部分构成(图5.1)。 引入五个方面的基本概念:状态、动作、数据库、框架问题和计划。 玩具世界——积木块世界中的机器人动作规划:
将二元约束T中的状态特性 描述化简为仅是原子谓词
相关文档
最新文档