22基于智力探索的认知地图建模_朱青
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于智力探索的认知地图建模
朱青1,王如彬2
1华东理工大学信息科学与工程学院自动化系,上海200237
2华东理工大学理学院数学系,上海200237
摘要
摘要::啮齿类动物被认为可以形成代表空间环境的认知地图,这种认知地图中代表不同空间区域的位置细胞和环境以一种发放率编码的模式联系起来。
本文首先介绍了神经计算模型和认知地图的构建,这种基于发放率编码的模型也被广泛应用于联想记忆中。
然后本文阐释了两种认知地图的形成方式和功能,第一种模型是一种空间向量地图,用来将动物所处的空间位置进行自我定位,同时,也可以更新地图信息。
另一种认知地图是一个基于目标的向量图,用来进行路径重述。
将这两种认知地图结合起来,就能形成一个高效快捷的寻路方式。
本文重点解决了这种寻路方式只能针对单一目标的缺点,将这种寻路方法应用于智力探索模型中去,依靠适应性驱动力,利用第一种认知地图中所存地点之间关系的基本知识,对第二种认知地图进行构建和重置。
这样通过智力来解决一系列的新路径问题,能够针对不同目标的需求找到合适的路径。
这篇文章的这个新思路能为寻路问题找到更加简便和安全的答案,也能够为以后应用于机器人系统的编程提供更好的基础。
关键词:认知地图;智力探索;寻路;位置细胞;
A Model of Cognitive Map Based on Mental Exploration
Qing Zhu1,Rubin Wang2
1Department of Automation,School of Information Science and Engineering,East China University of Science and Technology,Shanghai200237,
China;
2Department of Mathematics,School of Science,East China University of Science and Technology,Shanghai200237,China;
Abstract:The rodent hippocampus has been thought to represent the spatial environment as a cognitive map.In the classical theory,the cognitive map has been explained as a consequence of the fact that different spatial regions are assigned to different cell populations in the framework of rate coding.This paper first introduces the construction of a neural computation model and the cognitive map based on the firing rate coding,which is also is widely used in the associative memory.Then the article explains the formation and function of the two kinds of cognitive maps.The first one is the spatial vector map,it can perform self localization.At the same time,it can update the new detail information of the map.The other one is the goal-oriented vector map,it play an important role in route replay.As intermediate between the two types,we proposed a combination between the spatial vector map and the goal-orientation map and
作者简介:朱青(1990-),女,本科,学生,从事认知神经动力学研究,E-mail:zhuqing99@
王如彬(1951-),男,博士,博士生导师,从事认知神经动力学研究,E-mail:rbwang@
form an effective and efficient way of path finding.This paper focused on solving the shortcomings of this path finding way,which can only find its way for a single target.We apply this kind of cognitive map-based path-finding methods to mental exploration model.Rely on the driving force of adaptation,We use the basic knowledge of the relationship between the locations stored in the first cognitive map,and form and reset the second cognitive map,finally solve a series of problems finding new path with the help of mental exploration,which is able to find a suitable path for the needs of different target.The fresh idea of this paper can find its way to seek a simpler and safer answer,and also provide a better basis for later to apply it to the programming of the robot system.
Key words:cognitive map;mental exploration;path finding;place cell
1引言
认知地图概念的出现最初开始于Tolman的一篇论文[1],他认为老鼠具有在大脑中形成代表他们周围环境的地图的能力,并且可以利用这个认知地图来解决空间问题。
之后,O’Keefe和Dostrovsky[2]采用电生理方法最早发现了海马体中的位置细胞,这些位置细胞也就是构建认知地图的基础。
什么是位置细胞呢?当动物处在相对狭小的范围时,如果海马内某些锥体细胞在某处呈现最大频率发放,而在其他地方很少或者没有发放,则该细胞成为位置细胞(place cell,place unit),其发放所对应的动物在环境中的活动范围称为该细胞的位置野(place field)。
位置编码对于解决空间学习任务问题起着至关重要的作用,由于海马机能障碍危害到老鼠在空间任务中的表现,这也证明了海马在啮齿动物中对空间导航的功能[3]。
在上几个世纪,这些研究的主流方向都集中于解释基于空间位置的海马细胞活动方式以及这些活动的特点。
另外,近期研究还表明,存在着头朝向细胞(head direction cell)[4],它们是指在动物头部指向特定方向时,发生最大放电的神经元;以及网格细胞(grid cell)[5],它也对于老鼠在迷宫平面上的导向也起着重要的作用。
为了模拟各种细胞在空间中的相互协调作用,模拟动物在空间任务中进行路径搜寻,研究者们大多采用了Darvin提出的路径整合(path integration,PI)的方法,并进行不断地深化改进。
综上所述,虽然已经有大量学者证实了空间学习和记忆的确是与海马有着极其重要的联系,但是这个学习机制的细节仍然是未知的,待解决的问题丝毫不少于已经取得的成果,还有这一系列问题,比如如何整合来源不同的空间信息,如何将其应用于机器人领域等等。
北美和欧洲的一些科研机构已经在空间认知的研究上投入大量的科研资金,而且已经将这方面的研究结果应用于自动机器人系统中,这种机器人可以在无人为帮助的情况下,同时进行定位,制图并且导航等功能,绘制所需区域一个精确稳定的地图,来完成规定的路径任务。
2神经网络结构
经典的神经网络理论认为信息通过神经元的发放率来编码,这种海马记忆的神经基础由Marr[6]提出,同时这也作为联想记忆的框架。
众所周知,在海马体的CA3区域有着很多突触连接,这就使得神经网络可以编码动物所体验的外部的刺激,这个网络具有可以追溯发放模式的能力,也就是所谓的学习后的记忆能力。
许多相关的理论模型和问题被提出和讨论,例如记忆能力,记忆追溯的鲁棒性以及相似记忆的干扰。
接下来我们就简单介绍一下这种发放率编码模式的神经电路基础。
我们知道,位置细胞可以通过发放活动来表示所在的位置,并通过突触加强进行路径学习。
如在路径AB上,从代表A的细胞增加一个突触连接至代表B的细胞就表示A细胞可以导致B细胞的发放。
下图是一个简单的神经电路图,神经系统是一个连续的动态系统,而神经元模型可以用来描述神经系统的输入输出特性[7]。
图1一个简单神经电路模型的解剖图
Fig.1“Anatomy”of a simple model neural circuit
图中,输入轴突Q有兴奋性突触输出到P0到P3每个主神经元上。
每个主神经元都有与其他神经元之间的抑制性突触,这种抑制性突触用阴影表示。
IN1到IN3表示内部输入神经元。
在这个模型中,我们用简单的两值状态(on-off)来表示一个神经元,并且设定它可以从一小部分其他神经元的突触接受信息。
总的来说,这种模型总结了生物神经电路的两种特性:模拟输入数字输出和高互联性。
但是这样的神经模型还是非常复杂的,需要进一步简化。
所做的第一个简化就是将所有突触输入神经元的信号进行简单的加和,这就忽略了其复杂的输入叠加过程;第二个简化是将突触活动定义在很短的时间内,这就忽略了神经元的膜时间常数。
在进行了这两个简化之后,当神经元i的细胞体发生电位变化时,它就立即产生了一个作用于突触后神经元j的效应,这个效
应的强度就取决于细胞j和i之间的突触连接强度。
把神经元i的发放率设为函数,这样神经
元i的状态可以表示为有效输入电位和输出发放率。
突触后神经元j的输入电位就与突触前细胞的输出和i、j之间的突触连接强度之积成正比。
如果我们将i与j之间的突触连接强度表示为,那么i的突触后电位为。
3两种认知地图
在传统的编码理论的基础上,我们进一步提出了两种认知地图的神经网络模型。
第一种模型是一种空间向量地图,在这个地图中,动物所处的空间位置在网络中进行编码,并由位置细胞的群向量来表示此时动物在环境中的所在地。
另一种认知地图是一个基于目标的向量图,在这个图中编码的是从每个位置到目标位置的方向向量,这些位置细胞的群向量的指向则表示了动物为了到达目的地接下来要去的位置。
我们假设海马体在啮齿类动物探索空间环境时起到两种作用:自我定位和路径重述。
首先,当一个动物探索环境时,位置野与和Hebbian长时程突触加强可以在CA3区产生一个权值矩阵,具有重叠位置野的位置细胞之间的连接要比没有重叠位置野的位置细胞之前的连接强。
当结合全局抑制性因素后,就形成了一个具有位置代表性的稳定状态。
当动物具有输入视觉信号之后,动物再回到环境中就可以确定它和目标之间的相对位置,这就叫做自我定位。
当动物在一个环境中追踪一个特定的路径,CA3中并行的权值矩阵就成为了非对称性的了。
这就能将这些学到
的路径存在CA3中,当没有感官输入并且由噪声或者是我们后来要提到的适应性等刺激的驱动下,
就可以在CA3细胞群中形成相应的虚拟位置,这个虚拟位置可以代表重述路径。
在两种认知地图中,突触连接分别为对称性和非对称性的,把这两种方法有机的结合起来应用到智力路径探索中,就可以高效的得到我们需要的路径。
在之后的Morris Water Maze试验[16]中,这个理论也被很好的应用进去。
但是,这些研究都具有一个共同的缺点:只能对单一目标进行寻路,如果更换目标之后,就需要动物重新进行学习和探索,确定新的路径。
3.1第一种认知地图
每当模拟动物到达一个新位置时,就会触发与此位置对应的位置细胞,如图2所示,可以将我们所已知的环境与位置细胞一一对应[8]。
图中不同的位置细胞在动物处于环境中的不同区域时发放,正如图中对应的不同颜色。
图2位置细胞与位置野介绍简图。
Fig.2Schematic illustration of place cells and their place fields
当我们的实验对象对所有环境进行学习之后,就可以在一个虚拟的位置细胞平面上形成一个可以整个环境的代表。
图3学习后的CA1(CA3)位置细胞群,每个点表示一个位置细胞的位置野的中心。
点越黑表示对应的位置细胞发放率越高。
整个集群的活动代表了目标在环境中的位置。
白色的十字符号就代表了群活动的中心位置。
Fig.3The learned population of CA3-CA1place cells.Each dot denotes the center of a place field.The darker a dot, the higher the firing rate of the corresponding place cell.The ensemble activity corresponds to the objects’location in the environment.The write cross represents the center of mass of the population activity.
在图中我们可以看出来学习之后位置细胞的分布情况,这些点的位置也就代表了位置野的中心。
这样的一个图可以表示动物在空间中所处的位置,这也就是一种群向量编码[9]。
这个过程被成功用于理解海马中的神经活动。
我们将这些群活动进行平均来编码动物的空间位置,我们先假设动物处于一个未知的位置S,如果用表示神经元i的发放活动而用表示它的位置细胞中心,那么用向量p来表示整个神经网络活动的话:
在这个计算公式中,每个位置细胞i都有其对应的,经过这样的平均计算之后,所编码的位置p很接近实际位置s,但并不完全与真实的位置s重合。
针对大型的神经群计算中,我们可以近似认为p≈s,这个编码位置p也就是图3中可以看到的白色十字符号所代表的位置[10]。
以上这就是我们提出的第一种认知地图模型的形成,它描述了在没有感官输入的情况下,动物的所在地于地图中的表示。
这种地图的基本理念是,环境位置相近的位置细胞之间的互联可以使得它们同时发放。
在现在的实验研究中,已经可以做到在动物进行空间探索的时候,同时记录下来海马位置细胞的活动记录[11],这样一来,便可以在二维平面上清楚地呈现位置细胞表示位置所在的群编码。
在这种编码体制下,同时发放的位置细胞就可以构成一个网络,网络中的位置细胞与附近的位置野有着很强的突触互联,这样一来,就可以用一个位置细胞的二维图来代表整个环境平面了[12]。
正如下图所示:
图4多重网络阐释图
Fig.4Schematic illustration of a multiple chart network
图中,红色和蓝色的圆圈分别代表A和B中的位置细胞,最上方的图表示这些位置细胞的结构位置,而下面的两幅图表示根据它们分别在环境A(蓝色)和环境B(红色)中的位置排列出的虚拟细胞平面图。
在上面图中的扭曲的连接在下图中可以被改画成直线,这些连线可以作为临近细胞之间的互联。
从图中可以看出,临近的细胞可以互相合作激活,这就产生了通过群编码的位置细胞活动图[9]。
每两个细胞之间的连接其实就代表了他们之间在环境中的距离,因此,这样的连接被认为是对称的。
这样的连接在动物对空间进行探索的时候就形成了,这种连接就完全可以表示出动物的所在,甚至当环境发生变化时,它们也可以随之进行断开和重连,产生新的连接。
3.2第二种认知地图
第二种地图是基于目标向量的地图,在这种地图中编码的时,会产生一个指向一个单一目标的向量。
因此,这种地图的功能就是:从不同的空间位置,它都可以引导动物达到最终的单一目标。
在这种位置细胞假设中,它们之间的突触互联与上一种地图不同,是一种非对称的连接。
这种认知地图的模型,最开始由Burgess等人[13]提出,来代表指向环境中单一目标的方向。
这个模型可以通过群向量的引导,指向动物下一步要去的地方,学习到达目标地点的捷径。
这种向量其实是在位置细胞和目标细胞之间形成非对称连接而进行编码,而不是在位置细胞之间形成连接,因此具有一定的缺陷。
这个概念后来发展成为使用Hebbian突触可塑性进行非对称连接的神经模型,这种模型揭示了非对称性Hebbian突触可塑在形成认知地图上起到了重要的作用。
我们在海马认知地图中存储了那些信息?这些信息是以什么样的方式存储的?又是如何将其读取出来进行导航的?90年代,科学家们提出这些信息存在这样的位移向量中,也就是刚才说的第二种认知地图,这些位移向量由突触加强,通过海马位置细胞的活动进行编码。
他们认为先前的代表动物位置所在的第一种认知地图并不能真正起到地图的功能,只有能根据所在位置,告诉动物下一步的方向的地图,才能真正起到导航的作用[14]。
在过去探索地图的经验中,动物能够用形成向量地图来表示在环境中经历过的路径,于是,当再次进入这个环境中时,这种向量地图就可以将当前的路径与这些向量进行比对,为动物下一步的行动提供参考提示。
海马体位置细胞的活动可以反映出动物的空间位置,而位置细胞就可以随着动物在空间中的运动,以时间序列依次发放,这样的发放就会形成位置细胞之间突触的加强。
于是LTP会影响接下来位置细胞的发放,这样我们就可以对每个位置细胞进行位移编码。
当目标从一个细胞向前运动激活另一个细胞时,这个前向通道会被加强,于是,当它再次位于这个已经学过的路径时,活跃的位置细胞会通过突触加强激活它们前向通道上的位置细胞。
当动物通过一条路径时发成LTP现象时,那么位移向量会指向路径的前方,如果有过许多条发生过LTP的路径,那么这些位移向量就反映出了整个空间探索的历史,并且提供了对以后导航的一个有用的地图。
在这种认知地图的模型中,以点来代表动物,这个点的运动包括两方面:一是有一个恒定速度以随机角度不停运动的状态,二是与LTP编码产生的位移向量成正比的增量。
结果如下图所示,起始点任选,目标会一直运动直到找到目标或者超过了限定的时间,若最终没有找到目标,该次活动无效。
图中的小箭头就代表了编码位置和实际位置的导航向量。
图5第二次活动的路径与导航图
Fig.5The2nd path and navigational map of a typical run.
图6第二十次活动的路径与导航图
Fig.6The20th path and navigational map of the same run
在探索的开始,所有的箭头的值都为零,没有任何LTP产生的位移向量,在几次实验活动之后,这些小箭头指向平台中的终点,也就是我们所期望的目标。
在这个模型中突触之间的互联是非对称性的,因为位置野随着时间序列在运动中依次激活,产生了非对称的LTP加强。
这个模型的数学基础如下所述,设函数代表当突触前神经元比突触后神经元提前t’时,LTP 感应的强度。
当通过路径时产生LTP现象,那么就得到位置细胞j和i之间的突触强度的增强公式为:
为处于位置时j的发放率,在LTP发生之后,位置细胞i于x处的发放率为:
这样,编码的位置为:
是位置细胞i的位置野中心,于是将公式(3)带入(4)中,即可得到编码的向量:
这些位移向量就说明动物可以根据以往的经验,通过位置细胞的位置编码来从现在的位置进行目标导向。
这就解释了空间地图的形成以及它是怎样用于运动导向的。
但是,由于这种认知地图是针对单一目标的,如果出现了多重目标的情况,就很难应用这种认知地图了。
而且,真正的位置细胞活动并不只是根据目标地点和当前地点的差别而进行的,因此,这种基于目标的向量地图并不能体现位置细胞的本质特性,这种缺陷也使得它的理论基础的缺乏。
但是这种认知地图在应用位置细胞和认知地图的基本知识进行路径搜寻时无疑起到了很大的作用,不失为一种简便可行的方法。
4智力探索的神经动力学
什么是智力探索?概括地说,对有多种可能性的未来的所有想象,对达到一个新目标的行为序列的所有计划,以及关于思考的一切都和智力探索有关。
这个理论是由Hopfield提出的。
在寻找路径上来说,也就是我们并没有事先了解针对这些路径问题的答案,相反,我只是有一些关于地点之间关系的基本知识,然后利用这些知识用智力来解决这样的新路径问题[15]。
智力探索任务发生在一分钟,甚至一秒钟这样的很短暂的一部分时间里。
它包括一个延伸的神经元活动的进展,通常那时动物是处于静止状态的,然后就会产生一个由智力探索活动引导的合适的行为活动。
当情况允许时,解决同一个问题,智力探索将会比物理探索更加迅速,更加节能,而且更安全。
我们要求的智力探索需要以下两个因素:
第一,在智力探索中,我们形成认知地图需要分为两步,第一步是学习阶段,这个阶段我们需要掌握整个地图的环境信息,这就用到了第一种认知地图,通过对称性的互联将已知的环境信息收集起来,存储在权值矩阵中。
在这个阶段形成的对称性的突出互联我们认为它是永久性的,并且可以通过再次学习环境进行更新,它可以适应新线索的形成和就线索的消失,成为一个稳定的知识库。
因此,当环境发生了变化时,我们的系统依旧可以进行新的任务,而不会因为结构不同而过时。
第二步是探索阶段,这个阶段可以通过不断地对模拟环境平面进行虚拟探索,找到一条最优路径。
这个探索的动力就需要神经系统内部来提供,在一个只拥有简单神经元的网络中,行为动力可以用吸引子平面来表征,在这种情况下,适应性会产生对这个表面的不断探索。
由于在第三部分提到的第二种认知地图,具有只能针对单一的目标的缺陷,我们可以将这种探索形成的非对称性突触互联设定为非永久性互联,只有在执行此次任务时,才会持续这种互联,直到我们找到了目标,并驱动物理机构执行了我们所需要的路径,达到目的,这时候,这种非对称互联即可消失,只剩下在第一阶段形成的对称性互联,也就是空间知识,并且在执行路径阶段,对这种空间知识进行补充更新。
这样一来,就解决了第二种认知地图只能针对单一目标的缺点,当重新开始下一个任务的时候,便可以开始新的第二种认知地图的形成,迅速找寻下一个目标。
这也是本文的重点所在。
第二,在我们的探索之后,就需要真正地执行这个轨道。
当一个能够到达期望目标的行动轨道被经历过后,突触学习会产生可以通过智力重复目标轨道的能力。
这个重复能力可以控制动力系统根据智力行为产生的轨道来改变物理路径。
这就需要几个关键结构的协同合作了。
4.1神经电路结构
整个智力探索的模型结构如下图所示:
图7模型的电路图和突触连接通道
Fig.7Circuit diagram and synaptic connection pathway(arrows)of the model
区域A和E都有一些刺激性的位置细胞,正如海马的位置细胞,这些细胞可以有选择性地响应空间位置。
它们的高斯接受区域大小为环境区域大小的3%。
由于我们不知道一个位置细胞是怎样达到选择性的,因此简单地假设一个位置细胞有一个从感觉中心产生的输入电流,也就是这个电流提供了位置选择性。
每个位置细胞模型在每个环境下都有一个接受区域,这些接受区域之间是独立
的,互不相关的。
区域E负责通过智力探索进行寻找,是展现一个合适路径的活动序列的重要部分。
神经电路的其他部分是用来在物理环境中产生动作的。
这个结构图说明了一个描述动物希望(目的)的智力轨道是怎样和动物实际中控制动力系统进行的活动(间接感官信号)进行比较的,这样的一个对比,是由A区来完成的,它对任何的实际系统来说都是非常重要的,因为另一个实现方案,也就是通过智力轨道直接引导运动控制序列,由于噪声和系统缺陷的影响,在一段时间后被证实失败了。
动力控制系统区域有一个可以通过区域MLS(动力&学习和选择)从不同的资源(区域A,区域E,嗅觉神经元)中选择单输入信号的选择器。
此外,在区域E以及区域A到E的刺激性细胞之间,是由突触连接实现互联的,这两组连接是通过体验环境习得的。
MLS同时还拥有一个神经元S,当一个目标通过智力或者物理探索被找到时(成功),它就会发出信号。
它是由一个真正的奖励(如水)和具有Hebbian学习能力的E区突触驱动的。
尽管S的输出对于一个完整的系统是一个不可或缺的辅助,但S的输出只有简单的控制特性(如“当前进行学习”“智力探索找到目标”),因此,它的建模并没有体现出细节。
而在输入的不同的可能资源之间的选择转换,也并没有在建模中详细体现出来。
我们接下来需要具备学习一个活动轨迹并且通过智力进行重复的能力。
当E区的突起活动在时间t1和t2之间呈一个平滑的轨迹时,这个活动可以被用作突触变更的基础。
一个平滑移动的位置细胞活动产生于当动物在一个已知的环境中移动时的感官信号。
开始,E区的吸引子地带接近于一个平的二维薄板(没有适应性时)。
接下来的过程在后来的经历轨道中嵌入了一个褶皱。
在时间间
隔t1到t2之间积累,对于E区所有的非零突触都改变了其参数。
增加了所有在轨道中很重要的
存在突触(即非零突触)的突触力度,被定义为增加了,使其远远超过阈值。
合适的阈值取决于
在轨道上运行的速度,这会被随机决定的。
最小的增加值必须取决于先前地带的平整度,在这些试验中处于25%到100%之间。
在生物学中,这种突触的改变由部分局部神经控制。
4.2两种认知地图结合的寻路方式
在我们的模型中,要将这两种模型结合起来,并且还需要解决其只能针对单一目标的缺陷。
我们将在整个空间的运动过程分为两个阶段,第一个阶段是学习,这个阶段主要利用第一种认知地图,它是我们获得整个环境布局,将位置细胞架构成为一个完整虚拟平面图的基础,第二个阶段就是主要的探索阶段了,这一阶段就可以充分利用第二种认知地图的便捷性和快速性,在最短的时间内,对我们所需要的目标进行加强。
首先,我们的模型需要认识,也就是学习整个地图,形成位置细胞图,只需要简单的覆盖所有的环境即可。
在随机探索下,位置野与和Hebbian长时程突触加强可以在CA3区产生一个权值矩阵,具有重叠位置野的位置细胞之间的连接要比没有重叠位置野的位置细胞之前的连接强度强。
当结合全局抑制性因素之后,就形成了一个具有位置代表性的稳定状态。
当动物具有输入视觉信号之后,动物再回到环境中就可以确定它和目标之间的相对位置,这就叫做自我定位。
因此,在动物充分游荡整个环境之后,海马体中的位置细胞连接矩阵就可以代表了这些细胞位置野距离之间的关系。
在探索阶段,当动物在虚拟环境平面上进行探索时,当经过一个特定的路径并达到目标点时,CA3中并行的权值矩阵就变成了非对称性的了。
这就能将这些学到的路径存在CA3中,当没有感官输入并且由噪声或者是我们后来要提到的适应性等刺激的驱动下,就可以在CA3细胞群中形成相应的虚拟位置,这个虚拟位置可以代表动物的路径。