Nature neuroscience
间隔时长而非经验次数决定行为与多巴胺学习速率

2026-04-01

研究领域分类

免疫（414）肿瘤（531）代谢及心血管（403）神经及肌肉（534）眼科（36）其他（530）

加入邮件订阅!

您将获得赛业生物最新资讯

摘要速览

Nature neuroscience | 间隔时长而非经验次数决定行为与多巴胺学习速率

小赛推荐：

该研究揭示了奖励间隔时长（IRI）而非试验次数是学习速率的核心调控因素，提出了一种新的回顾性学习模型（ANCCR），颠覆了传统强化学习框架中‘试次驱动学习’的假设。

文献概述

本文《Duration between rewards controls the rate of behavioral and dopaminergic learning》，发表于《Nature neuroscience》杂志，回顾并总结了奖励之间的时间间隔如何控制小鼠在经典条件反射任务中的行为与多巴胺学习速率。研究发现，学习速率与奖励间隔（IRI）呈正比，因此在固定训练时长内，无论经历多少次奖赏配对，总体学习量保持恒定。这一规律适用于奖赏和惩罚学习，并被一种基于贝叶斯推理的回顾性学习模型——ANCCR所解释。该研究挑战了传统时序差分强化学习（TDRL）模型的基本假设，提出了学习速率由真实时间动态而非试次数决定的新原则。

背景知识

多巴胺系统长期以来被认为是强化学习的核心神经基质，其活动模式常被描述为奖励预测误差（RPE），即实际奖赏与预期之间的差异。基于此，时序差分强化学习（TDRL）模型广泛用于解释行为和多巴胺信号。然而，这类模型通常将学习率视为自由参数，未考虑其可能受时间结构调控。已有研究表明“间隔效应”（spacing effect）在记忆形成中起重要作用，即分散学习比集中学习更有效，但其在奖赏学习中的具体机制尚不明确。此外，动物模型如C57BL/6J小鼠广泛用于神经科学与行为研究，因其遗传背景清晰、行为可塑性强。近年来，光纤光度法结合dLight1.3b等新型多巴胺传感器，使得在体实时监测伏隔核等脑区的多巴胺释放成为可能，极大推动了因果学习神经机制的研究。然而，如何整合时间、经验频率与学习效率仍缺乏统一理论。本研究正是在此背景下，系统探索了试次间隔对学习速率的定量影响，提出了ANCCR模型作为更普适的学习机制框架，填补了现有理论的空白。

针对阿尔茨海默病、脊髓性肌萎缩、视网膜色素变性等罕见病，可提供HUGO-GT®全基因组人源化模型，搭载了更高效的大片段载体融合技术，可以作为万能模板进行针对性的突变定制服务，是更贴近真实世界生物机制的药物临床前研究模型，我们期待与你共同开发新型全基因组人源化小鼠，加速基因治疗研究

研究方法与实验

研究采用头固定小鼠进行听觉线索-蔗糖奖赏的痕迹条件反射训练，通过设置不同长度的试次间间隔（ITI：30s、60s、300s、600s、3600s），控制每日训练总时长相近但奖赏配对次数差异显著。行为学习通过线索诱发的预期舔嘴反应评估，多巴胺信号则通过在伏隔核核心表达dLight1.3b传感器并进行光纤记录获取。为验证学习速率是否真正由IRI而非其他混杂因素（如每日奖赏数、背景刺激频率、上下文消退等）驱动，研究设计了多组对照实验，包括低频训练组（60s ITI-few）、添加干扰音（CS-）组、背景巧克力奶奖赏组等。此外，研究还考察了部分强化（50%、10%奖赏概率）对学习速率的影响，以区分IRI与线索间隔（ICI）的作用。最后，通过计算建模比较TDRL、SOP与ANCCR三种模型对行为数据的拟合优度，评估ANCCR的解释力。

关键结论与观点

学习速率与奖励间隔（IRI）呈严格正比关系：当IRI增加10倍（如从60s到600s），学习所需试次数减少约10倍，导致总学习时间保持恒定
多巴胺信号的形成也遵循相同的比例缩放规律：线索诱发的多巴胺响应在高IRI组出现得更早（以试次计），且其发展速率与IRI成正比
该规律在奖赏与惩罚学习中均成立，且在部分强化条件下得到验证：降低奖赏概率（从而延长IRI）反而加快每奖赏试次的学习速率
ANCCR模型（基于贝叶斯回顾性因果推理）自然解释了IRI对学习速率的调控，因其更新机制仅在奖赏发生时触发，学习率与上次奖赏以来的时间成正比
传统TDRL与SOP模型无法解释该比例缩放现象，即使引入ITI状态价值或上下文消退机制也无法复现实验结果
控制实验排除了每日奖赏数、上下文消退、背景刺激频率或总体奖赏率等潜在混杂因素，确认IRI是学习速率的关键决定因素

研究意义与展望

该研究从根本上改变了我们对“经验”在学习中作用的理解：并非试次数越多学习越快，而是时间间隔越长，每单位经验的学习效率越高。这为优化行为训练协议提供了新原则——在一定范围内，延长训练间隔可能比增加训练频率更高效。

ANCCR模型为多巴胺功能提供了新的解释框架，即多巴胺不直接编码RPE，而是调控回顾性学习的速率。这与近期质疑多巴胺仅编码RPE的研究趋势一致，提示其更广泛的角色在调节学习可塑性。

未来研究可进一步探索该规则在复杂任务、社交学习或人类中的普适性。同时，ANCCR的计算原理可能启发更高效的机器学习算法，尤其是在稀疏奖励环境下。此外，该发现可能对理解成瘾、强迫症等涉及奖赏学习异常的精神疾病提供新视角。

专业的眼科药效学分析平台可提供从眼部注射给药、眼部活体检测、眼部组织取材、病理学分析和基因与蛋白表达分子检测等全流程的眼科药效学分析服务

结语

本研究通过系统行为与多巴胺记录实验，揭示了奖励间隔时长（IRI）是决定行为与多巴胺学习速率的核心变量，学习速率与IRI成正比，导致在固定训练时间内总学习量独立于试次数量。这一发现挑战了传统强化学习模型中以“试次”为基本单位的假设，支持了一种基于真实时间的回顾性学习机制。作者提出的ANCCR模型通过贝叶斯推理自然解释了该比例缩放规律，强调学习更新发生在奖赏时刻，且更新幅度与间隔时间成正比。研究不仅提供了新的学习原则，也重新定义了多巴胺在学习中的角色——作为学习速率的调节者而非单纯的RPE信号。这一成果对神经科学、心理学及人工智能领域均有深远影响，提示我们应从“经历多少次”转向“间隔多长时间”的视角理解学习过程。未来工作需进一步验证该规则在更广泛行为范式和物种中的适用性，并探索其在疾病模型中的潜在应用价值。

文献来源：

Dennis A Burke, Annie Taylor, Huijeong Jeong, Ritchie Chen, and Vijay Mohan K Namboodiri. Duration between rewards controls the rate of behavioral and dopaminergic learning. Nature neuroscience.

更多热门文章推荐

Arthritis & rheumatology (Hoboken, N.J.)
免疫检查点抑制剂相关炎症性关节炎的机制与临床特征研究

Annual review of clinical psychology
可穿戴酒精生物传感器推动临床心理科学的客观行为评估