智能机器人行为能力的
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
智能机器人行为能力的获得
Chenghwn(chenghw)
Chenghwn@
1前言
如何让智能机器人具有像人一样的行为能力,正是本文努力讨论的目的,这里讨论的不是技术性的细节问题,而是策略方向,并从理论上证明了这种策略的可行性。本文先讨论了如何设置智能机器人的运动中枢、运动调节中枢、感觉中枢的结构与功能及相互关系(同时也讨论了为什么要这样设置。),然后在此基础上以智能机器人的运动结构在直线与空间中的运动学习为例,讨论了智能机器人是如何通过这些设置的结构与功能来获得像人一样的运动能力的。
2运动中枢、运动调节中枢、感觉中枢
就如人一样,智能机器人的行为应由专门的中枢来控制。
本文对智能机器人控制运动的中枢的结构与功能的设置参考了人的运动皮质及小脑等的结构与功能。这里将控制运动的中枢分为:1、运动中枢(类似于人脑的运动皮质及前运动区。)2、运动调节中枢(类似于小脑及基底节等。)
智能机器人的运动中枢的特定记忆柱群的兴奋使智能机器人的某一运动结构具有某一基本运动。而这时一基本运动调节中枢的同时兴奋能使这一运动结构的这一基本运动具有某一运动特点。编程时我们可以适当的设置运动调节中枢的联系与兴奋特点(调节基本运动中枢的记忆柱的兴奋,或直接调节运动结构的运动),使某一运动结构的基本运动,在调节中枢的兴奋下获得我们所需要的运动特点。
智能机器人应具有什么运动结构及这一结构应具有什么样的基本运动,这一基本运动在什么样的调节中枢的调节下具有我们所需要的什么运动特点……,这些都是具体的技术问题,在现有的科技水平下应不难解决。本文所要讨论的是,智能机器人是如何通过学习获得:要进行某项运动时是如何达到目的地,也就是说当智能机器人需要某一特点的运动时,智能机器人是如何选择相应的运动中枢的记忆柱群及相应调节中枢的记忆柱群兴奋而使这一特点的运动得于实现。解决了这个问题,也就从战略上解决了智能机器人的运动问题,剩下的其它的技术性问题都好说。
打个简单的比方:这里的运动中枢就象程序的主体,调节中枢就象程序的补丁插件,当一基本运动在哪一方面我们不满意的时候,我们都可给它打个补丁插件来使这一基本运动的运动特点让我们满意,而新打上的“补丁”,都能通过下面所论述的奖惩学习过程来获得正确的调节能力。
每个运动结构(比如一个手指)都有其基本的运动动作(如伸或屈),每个基本的运动动作都对应运动中枢(就如人脑的皮质运动中枢、前运动皮质)中相应的记忆柱群。这个中枢有联络区能与其它中枢产生兴奋性记忆联系。同时存在多个运动调节中枢,它们能分别调节每个基本运动的某一运动特点。运动中枢中一群记忆柱的兴奋使对应的一运动结构具有某一运动,而相应调节中枢的兴奋使这一运动结构所进行的这一运动具有某一我们所需要的特点(比如伸或屈的速度及稳定性等。)。所有的基本运动都存在众多的基本调节方式(如减慢运动的调节—通过力的改变进行调节),每类基本调节方式都对应相应的中枢(比如小脑的模块化兴奋)。这样,每个运动的某类基本调节都由相应的中枢控制,而且每个运动结构的基本运动在运动的基本调节中枢都应存在相应的结构。它们也存在联络区,它们的联络区
主要是接受传入,它们的传出主要是控制与调节运动,运动调节中枢和运动中枢的联络区分别与各种感觉中枢的联络区存在广泛的联系,这是运动调节的基础。
感觉中枢、运动中枢、运动调节中枢的记忆柱兴奋到一定强度后都会是中介奖赏刺激,特别是感觉中枢的记忆柱的兴奋(因为它能成为主注意对象)。
每个运动结构的每类特异的运动都会有特异的感受器兴奋,而每类特异的运动的产生都应是在运动的过程中相应的基本调节方式调节的结果。这样特异的感觉所兴奋的记忆柱便会与基本调节方式所对应的记忆柱建立记忆联系。它的兴奋便会受到感觉的影响(如平衡觉等等)。
这些联络区又能与其它感觉中枢的联络区建立相互兴奋的记忆联系(比如与视觉中枢的联系)。
一般情况下,一个运动结构的某一运动状态(比如上文所述伸胳膊运动)对应某些基本调节方式所调节的基本运动(当然引起这一运动状态的原因除了调节方式外还有其它方式,比如这一运动状态的起始运动状态),这一运动状态也会对应一群特异的感觉,在共同兴奋的情况下,这些感觉就会与基本调节方式及基本运动建立记忆联系。也会与目的、奖惩建立记忆联系。有了这样的记忆联系,智能机器人就会通过感觉进行奖惩预期,并能通过对记忆的回忆,兴奋相应的基本运动及基本调节方式,而获得预期的运动状态。这样通过与我在下文的论述进行对比会发现,运动结构的运动状态对应在左或在右的状态下,基本运动与基本调节方式都能使运动结构向那个能获得奖赏的目标运动。
那么,既然A 通过奖惩学习能获得,根据目的向左或中间或向右的能力(见下文),智能机器人也就能通过奖惩学习获得,实现某一运动结构的某一运动状态的能力,并最终习惯化。再通过并行的习惯性兴奋,将多个运动结构的运动状态组合起来就会实现复杂的运动。
各个感觉中枢 奖惩中枢、目的
中枢、状态中枢
运动中
枢
运动调节中枢
运动结构A
Fig.1 The relationship of relevanting nerve centre
图1 各中枢的关系
3 行为的奖惩学习。
智能机器人的的行为学习就如婴儿的行为学习一样,是逐步发展的,它先获得基本的简单的动作及简单的调节行为的能力,然后在此基础上再获得复杂的有目的的动作行为。在智能机器人早期的动作学习过程中,由于其与环境相适应的一些后天奖惩预期能力还没有形成,因而中介奖惩刺激及相应的奖惩预期发挥着重要的作用。
一、中介奖惩刺激与智能机器人的行为发展
中介奖赏刺激是一种特殊的先天奖惩刺激,它通过编程成为奖惩刺激,感觉中枢的某一原始记忆柱群的兴奋强度在某一范围内便能直接或间接轻微兴奋奖赏中枢,它是中介奖赏刺激。这对智能软件早期的学习非常重要,可以说它是智能机器人早期运动能力学习的主要动力来源。
中介奖赏刺激是智能机器人的追求新奇刺激的最早动力来源,在早期的行为学习过程中起着重要的作用。中介奖赏刺激使智能机器人像婴儿一样不断的重复一些新动作。
智能机器人的行为发展。
a)才造出的智能机器人不知如何行动,它的行为是通过学习获得的。中介奖
赏刺激及其它的奖惩刺激使行为的获得与发展能通过学习自然获得,而不需要
专门编程获得。
b)中介奖赏刺激在基础行为(指抬腿、手等)学习的过程起主要作用。比如,
当智能机器人还完全不知如何去控制自己的动作及这一动作可能带来的影响
时,其肢体偶然(应与我们的设计有关)进行了某一动作,这个动作在感觉中
枢能带来神经的兴奋,兴奋到一定强度便是中介奖惩刺激,它便会不断去追求
这一刺激。
c)随连续的行为发生,一方面与其它兴奋的记忆联系增加(包含视觉感觉等
等,通过学习,各种动作逐渐与各种类型的刺激、目的建立了记忆联系。比如
在抬腿时,这一动作就与这时所看到的腿的空间位置、抬腿引起的感觉等等多
种刺激建立了一定的记忆联系。这便是我后面所述的经验获得的方式之一。),
另一方面随熟练度的增加,中介刺激的综合动力急剧下降,从而使实现这一行
为不成为主注意目的。这样多次发生后,当动作熟练了,动作刺激相应感觉中
枢能带来的记忆柱的兴奋减弱,同时产生的综合动力预期会下降(多次兴奋后
与惩罚中枢的记忆联系增强)。
d)而通过长期的奖惩学习,它能通过行为获得多种新的目的,而这些目的的
动力通过学习,比中介奖惩刺激的动力高(比如饮食时对食物的抓取),这时
智能机器人对行为的学习都在各种类型的目的下来实现,使行为进一步复杂
化,同时也更能与环境相适应。
总结中介奖惩刺激的意义,主要在早期的基本动作及基本动作的基本调节能力的学习及相关经验的获得中发挥主要作用。
2、下面分步应用理想模型具体讨论。
2.1 在一条直线上的运动。
如图8,假设,智能机器人的某一结构(用A表示)始终在一条直线上运动(也可换为上下或前后直线),这条直线分左、右、中间三个部分,控制A运动的运动中枢的几个记忆柱群,根据其功能我们将它们分别有右记忆柱群及左记忆柱群来标记。右记忆柱群兴奋,A 向右运动,左记忆柱群兴奋,A向左运动,A在相应位置时能兴奋相应的感觉记忆柱群,A 处于中间时获得的奖赏最强或最能逃避某一惩罚。
(智能机器人还没有相应的经验时,当A在左边时智能机器人能感知到A的空间位置,