动物行为学讲座之动物如何学习

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

动物行为学讲座之动物如何学习（1）：基本学习理论

日期: 2006-12-16 分类：狗狗百科点击：250 来源：中国犬业网作者：admin

导言

与动物打交道的关键是从动物的角度来看世界，这就需要理解学习理论。虽然这在训练过程中非常有用，它在试图纠正有问题的动物行为时更是基本的知识。

基本学习理论：

虽然驯化物种都有五种基本的官能，即看（视觉）、听（听觉）、闻（嗅觉）、尝（味觉）和触摸（触觉），但它们的感官能力并不相同，更不用说与人类的感官能力相同了。因此，动物对世界的感知是不同的，这将会显著地影响动物交流的方式，不仅是它们彼此间（同种）的交流，而且也包括与其他物种的交流（非同种）。在每个情况下你都应该仔细考虑此点，并认识到动物是不会说话的交流者。

学习理论的原理是来自对行为所进行的实验研究。学习，也叫作制约，可以定义为“任何反应方面出现的相对永久的变化，产生该变化的原因是经历”（McGreevy, 2001）。但是，并非所有行为变化都是由于学习而发生的。有些行为变化，比如渴时饮水，就是由于动机的变化。

行为是由其结果控制的。如果结果是“好的”，那该行为就更有可能被重复，与此相反，如果结果是“坏的”，该行为就不太可能被重复。这也称为“效果律”，即行为是由其结果而修订的。当动物接受训练时，我们实际上是在操作其经历。

学习种类

人们认知和研究过的学习方法有许多种。不过，用以纠正狗和猫的行为的普遍使用的两条原理是古典制约和操作制约。经典制约，也称为巴甫洛夫制约，最初是由巴甫洛夫在上个世纪初研究的。据说，当某个中性刺激物（条件刺激物，CS）与一个具有生物意义的事件（非条件刺激物，UCS）反复同时出现时，就会发生制约，结果，当CS单独出现时，就会产生一个反应（条件反应，CR）（Atkinson, Atkinson and Hilgard, 1983,McFarland, 1985）。

比如，“好狗”这个词本来是中性的，这个词对狗毫无意义。但是，当这个词与具有生物意义的事件（如给一点吃食或拍拍狗的头）一起出现时，通过巴甫洛夫制约，这个词就可能成为一个CS。举例中所说的条件反应可能会是摇尾巴。

操作制约是完成狗的训练的主要方法。操作制约教给动物做出一个自动反应，以便获得鼓励或奖励。给予积极的奖励，比如食物，能增加某一特定反应被重复的机会（Skinner, 1974）。这样狗就学会了行为是由其结果控制的。同样的，动物会做出某一行为以获得第二次奖励，或刺激，而这个鼓励或刺激总是与主强化刺激物同时出现（比如说，“好狗”这个词，总是伴随着食物奖励）。

某一行为是否会被重复要看结果的本质而定。因此，如果结果是令人愉快的，比如一点食物，那么该行为就更可能被重复（Skinner, 1974）。应用这一方法论就可以让动物形成新的行为，比如用口头或视觉命令

狗“坐下”或“别动”。

我们研究了各种参数，看这些参数对通过操作制约来获得或保持一个反应的能力的影响。比如，做出反应后必须立即给予奖励，这样才有效果。还可以通过部分强化时间表来维持某种行为，即按照时间表对特定反应给予间歇性的奖励（Mazur, 1994）。

因此，要教会一种新的行为，比如“坐下”，需要通过一个影响过程来训练小狗。开始的时候，对小狗的任何接近“坐下”的行为都要给予奖励，逐渐地过渡到只强化与期望的反应非常接近的行为反应。一旦小狗看到食物，就能可靠地作出反应，命令就与需要的反应伴随发生了。当小狗学会该行为后，就可以使用一个可变的强化日程，对小狗的反应每隔三至四次才给予奖品，但应该总是表扬它，这样学会的行为才可能坚持（Atkinson, Atkinson and Hilgard, 1983; McFarland, 1985）。奖品，或者正强化，可以是任何动物想要的东西，比如食品、出去散步、游戏，或者与主人玩耍。

强化有两种，主强化和次强化。动物已经进化到了能够本能地意识到，主强化要么是“好”或“坏”，就是说动物不需要学习就知道食物和交配之类的主强化是“好的”，因为这些是生存要素，它们也知道缺水是“坏的”。而象拍拍头或“好孩子”等词之类的次强化的价值，动物就必须通过学习才知道。

主强化刺激下的学习比较快。但是，次强化能够加强训练。因此，在许多情况下，我们使用食物作为奖品，因为大多数狗都喜欢食物。但是如果我们再给一个轻拍，或给予口头鼓励如“好狗”等，其效果会得到增强，因为能够加强反应（Voith, 1979; Owren, 1987; Weston, 1990）。

概要地说，学习可以分成两大类型：

操作制约：

培训时，教给动物作出某个反应以获得一个奖品。例如，如果最后结果是令人期待的，“坐下”之类的反应就可能会重复，因此结果决定反应。

经典制约：

指不自觉反应，比如流口水，与一个中性刺激物伴随发生，而与奖品不相联系。

概要

正强化

就是一个奖品（某种令人期待的东西），在做出反应后立即给予，能够增加同样行为反应再次出现的可能性。比如说，如果发出“坐下”的命令，狗能够坐下，我们给它一点美味的食物作为奖励，那下次发出同样命令后，这只狗就很可能再次坐下。

如果希望达到更好的效果，奖品应该：

1. 迅速给予

2. 连贯

3. 有吸引力

负强化

负强化常常与惩罚混为一谈。这是某种不愉快或令人讨厌的东西，当作出反应后马上拿开时，就会增加那种回应再次出现的可能性。比如，当狗停止拉脖链时松开绳，就会告诉狗，跟着走不象拉着脖链走路那么痛苦。

主强化

主强化是指动物逐渐发育而寻求的任何刺激物（奖品），即本能地知道那是“好的”，或缺少那个可能是“坏的”。比如说食物、水和交配。

次强化

动物必须学习知道次强化是与主强化相连的。因此，“好狗”等词或拍拍头就成了正强化。

正惩罚

正强化或负强化能增加前述的反应再次出现的可能性，而惩罚的目的是为了达到相反的效果。惩罚会减少前述反应再次出现的可能性。

正惩罚是一个令人厌恶的刺激物或事件的补充，比如，朝狗大喊大叫或拿掌掴它可以被认为是一个惩罚，如果这能导致行为的减少。

要想达到最好的效果，惩罚必须是：

1. 迅速

2. 连贯

3. 足够令人厌恶

负惩罚

收回一个令人愉快的刺激物或事件从而导致某种行为的减少，这就是一个负惩罚。比如，在狗做出一个不可接受的行为后，立即把它关进一个处罚室，如果这样能导致那种行为的减少，那这就是一个负惩罚。

无论是强化还是惩罚，时机掌握都是至关重要的。反应和惩罚或强化相隔的时间必须极短，少于半秒才能让动物把二者联系起来。反应做出5秒种后才进行强化，事实上就会使学习时间增加一倍。

概要：

强化（正、负）能增加一个反应再次出现的可能性；