行动的结果在决策和强化学习过程中起着至关重要的作用。事实上,人类和动物的行为研究都表明,不同的预期奖励值,无论是在数量上还是在质量上,都会调节受试者的行为动机,从而影响他们的行为表现。在这里,我们研究了不同奖励量对猕猴学习的影响。这项任务提供了基于一组外部刺激来塑造快速学习的机会,这些外部刺激可以提高动物在解决问题方面的准确性。我们比较了三只猕猴在三种不同奖励条件下的学习情况。我们的结果表明,奖励越大,猕猴从第二个问题开始学习联想的能力越强。此外,我们将目前的结果与之前的研究结果进行了比较,我们在相同的任务中使用了相同的猕猴,但是有一个独特的奖励条件,即中间奖励条件。有趣的是,在我们之前的研究中,我们的动物的表现与他们在本研究中最大而非中间奖励条件下的表现相匹配。这些结果表明,学习主要受奖励环境的影响,而不是其绝对值的影响。
关键词:猴 学习 奖励 环境
强化学习被定义为学习为了最大化的报酬而执行的行为。非人类灵长类动物的神经科学研究通常使用这种范式来训练猕猴执行行为任务,以研究特定认知过程的神经机制。动物学会将特定动作和行为的执行与积极的强化相匹配,并避免导致没有奖励的行为。.奖励发放时间表的调整是一个强大的工具,它可以加速培训,并提供对奖励处理的神经基础的洞察。有几项证据证实奖励的大小与动机水平的提高有关,动机水平的提高可以提高任务的准确性。在这里,我们研究了奖励的大小是否以及如何影响猕猴的学习速度。为了探讨奖励情境在学习过程中的重要性,我们还将这些结果与之前使用相同动物、相同任务但奖励大小不同的研究结果进行了比较。该研究的三只雄性猕猴::猕猴M(五岁零十个月,7.5公斤),猕猴S(六岁零两个月,8.0公斤)和猕猴D(六岁零八个月,约7.5公斤)。实验是在用固定器将猕猴的头部固定的情况下进行的,并通过外科手术植入,以记录电生理记录。用氯胺酮(10mg/kg,i.m.)预麻醉动物,通过异氟烷/空气混合物的恒定流量(1-3%)麻醉动物。术后使用抗生素和止痛药。在实验中,猕猴坐在灵长类动物的猴椅上,头部固定在监视器触摸屏前。用非商业软件包CORTEX对刺激物在触摸屏上的出现、奖赏发放和猕猴的行为反应进行监控。每次正确的试验后,动物们都会得到苹果酱的奖励。
在就地奖励对象任务(OIPR)中,我们想评估一次学习过程的第一阶段是否受预期奖励的数量影响,以及在何种程度上进行一次尝试性学习。在OIPR歧视学习过程中,始终在独特的背景,场景下,将两个物体(一个有奖赏,另一个没有奖励)始终显示在相同的位置,从而形成了猕猴必须解决的问题。场景由一个随机的彩色背景和三个随机选取的几何图形组成。由两个伪随机生成的叠加彩色ASCII字符组成的对象。随机化使我们能够在屏幕上显示场景中对象的独特模式,并创建需要解决的独特问题。 审判始于在屏幕上显示中心目标(CT),并以白色圆圈表示。猕猴必须触摸CT并保持接触0.5或0.8秒,才能让场景和物体出现。延时0.8或1.2?s后,CT消失,显示猕猴触摸场景中显示的两个物体之一的go信号。然后,在猕猴保持触摸一段时间(0.4或0.6s)后,呈现围绕所选对象的视觉反馈。反馈的出现表明了一个额外的保持期(保持目标期,0.4或0.6s)的开始,在此期间,猕猴需要将手一直握在目标上,直到在做出正确响应的情况下发放奖励。正确响应后,系统将提供奖励,然后屏幕变黑,而错误响应后,系统将不提供任何奖励,并且将关闭所有对象。如果猕猴在反馈出现之前中止了试验,同样的问题再次出现。任何已完成的试验,无论是正确的还是错误的,都会接着出现顺序中的下一个问题,而不会在出现错误之后进行纠正试验。连续向动物提出五个不同的问题,重复6次,共30次试验。在每节过程中,根据奖励的数量,将这五个问题任意分为三类:小奖励(SR)、中奖励(MR)和大奖励(LR)。在每一组五个问题中,奖励大小是伪随机分配的,以便始终代表三个奖励,而不是同一个奖励的三倍。因此,在一个特定的日子里,猕猴们会经历12次左右的锻炼,他们经历了与每个奖励大小相关的类似数量问题。 反馈的形状表示正确或不正确的响应,以及收到或错过的奖励的大小。白色正方形或红色六边形表示正确响应,白色圆圈或蓝色六边形表示错误响应。如果收到或错过一个小奖励(0.15ml),则对象被一个形状包围;如果收到或错过一个中等奖励(是小奖励的两倍,0.3ml),则对象被两个形状包围;如果收到或错过一个大奖励(是小奖励的四倍,0.6ml),则对象被三个形状包围。在第一次运行中,没有指示猕猴两个对象中的哪个是奖励对象,他们不得不使用试错法进行猜测。此外,在首次选择两个目标之一之前,没有迹象表明猕猴要解决的问题有关的奖励金额。在第五个问题出现之后,第一次运行结束,第二次运行以相同的五个问题相同的顺序开始。 在六个运行中,针对每个问题提供的奖励金额是固定的。猕猴完成六次程序运行后,试验结束。 我们仅分析完整的会话,即执行了所有30个试验的会话。 每只猕猴进行了180次训练,总共进行了5400次试验,在每种奖励条件下进行了大约1800次试验。
从这个数据集中,我们计算了三种实验条件下,每只猕猴的学习曲线,小,中,大奖励(图2左)。如所料,在任何奖励水平条件下(猕猴M:50%,49.3%,52.3%;猕猴S:50%,51.3%,51.7%;猕猴D:49.3%,47.5%,46.5%;小奖励,中奖励和大奖励;p>0.05精确二项检验),第一轮的表现与机会水平没有差异。在第二轮中,三只猕猴中有两只表现出与所有三种奖励条件下的机会显著不同的学习效果,而第三只猕猴只表现出MR和LR条件。在第二轮测试中,三种情况下正确测试的比例之间的比较显示了对所有猕猴奖励大小的显著影响。我们还评估了学习情况,计算了从第二轮到第六轮的每个奖励级别的正确试验的比例。三种情况的比较显示三只猕猴的情况都有显著差异。成对比较显示,在所有猕猴的三个学习曲线中,每个奖励对(SR-MR,SR-LR和MR-LR)之间存在显著差异。
在这里,我们比较了每只猕猴,在本研究中获得的学习曲线(SR,MR和LR条件)和在我们之前的研究(UMR)中获得的学习曲线,在之前的研究中,测试是在个体学习条件下进行的。对于所有三只猕猴(图2左,红色曲线),在我们之前的研究中,在UMR条件下的学习曲线对应于本研究中在LR条件下的学习曲线。对于猴S和猴 D,我们没有发现UMR和LR条件下的性能有显著差异,尽管UMR和MR条件下的性能以及UMR和SR条件下的性能有显著差异。对于猕猴M,我们发现了同样的趋势。
在当前的研究中,我们使用了一个改进版的原地目标任务来测试在一个学习任务中,不同数量的奖励是否会影响学习速度和速度。从学习曲线来看,奖励大小影响了表现(即,奖励水平越高,在这些试验中表现越高)。此外,早在每个会话的第二次运行中,奖励大小就对影响学习率起着至关重要的作用。 有趣的是,这种效果在整个六次运行中都是恒定的,而不仅限于第二次运行,这导致三个奖励条件之间的总体绩效存在显著差异。这些结果表明了两个结论。 一方面,单次运行足以引起人们对高度奖励的问题的更深刻的记忆。 另一方面,至少在六个运行期间,这种效果会一直保持下去,与低奖励问题相比,猕猴在高奖励问题中的表现更好。在第一轮中,直到做出反馈后,即做出选择后,才向动物提供任何有关奖励大小的指示,但是,从第二轮开始,奖励曲线在学习曲线中就已经很明显了。这项任务功能使我们有机会抓住转折点,在这个转折点上,奖励大小可能会影响学习过程,也就是猕猴在第一次运行中的选择,反馈的出现和奖励发放期间的选择。反馈和奖励/缺少奖励与特定场景的结合导致快速学习的发生。我们的结果表明,奖励的大小可以直接影响猕猴选择后的稍后试验阶段对特定场景的注意力,从而获得更好的表现。动物学习速度的差异可以为电生理研究提供工具,以研究快速学习过程的神经基础。
我们研究的另一个重要结果是,猕猴在高奖励条件下的表现与它们在同一任务中的表现相似,在同一任务中只提供一个奖励,相当于当前任务的中等奖励,事实上,我们期望观察到当期望得到更大的奖励时猕猴的表现会增加,当期望得到更低的奖励时猕猴的表现会降低。相反,我们观察到猕猴的行为有了重新调整。他们在大奖励条件下执行任务,就像以前在中等奖励条件下执行任务一样,而在其他条件下,他们的准确性降低。该结果可能表明执行选择的上下文的重要性。 实际上,当仅存在一个奖励金额时,每个试验都会为个体带来一个最大值,并且在使用不同金额的情况下,此值会更新,相对而言,中等奖励的价值会降低。在这些试验中,猕猴的最大价值成为了最大的回报,他们的注意力得到了最大化。 确实,奖励的激励价值可以是相对的,通常观察到负面和正面的对比效应,也称为下冲和过冲效应。在大奖励条件下,当从小奖励条件转换为大奖励条件时,与转换前的大奖励条件相比,绩效提高时,观察到正的对比效应。相反,当绩效从较大的报酬转移到较小的报酬时,与转移前相同的较小报酬相比,会出现负对比效应。在我们的例子中,范式是不同的,因为我们没有从一个奖励大小转换到另一个奖励大小,而是我们向猕猴提出了三个奖励条件,而不是一个。然而,比较动物在中等奖励条件下的表现,我们发现准确性降低,这可以解释为由于存在较大奖励而产生的负对比效应。更普遍地说,我们观察到猕猴根据所处的奖励环境对行动的益处进行了重新评估。
总之,我们的结果表明,由其他可能的奖励规模的存在确定的相对奖励价值可以影响对行为与结果之间关联的学习,并显示相对项目与学习之间的紧密联系。