下载客户端

Cell Rep丨“超级雷达”次级运动皮层精准捕捉决策价值

2025-01-13 16:39

来源：澎湃新闻·澎湃号·湃客

2025年1月6日，法国波尔多大学跨学科神经科学研究所Fre´de´ric Gambino团队在Cell Reports发表“Secondary motor cortex tracks decision value during the learning of a non-instructed task”，揭示了次级运动皮层在非指导任务学习期间追踪决策价值。

最佳决策取决于相互连接的额叶脑区，这使动物能够根据自身内部状态、过往经历和环境背景来调整决策。次级运动皮层（M2）在熟练啮齿动物的适应性行为中起着关键作用，尤其是在编码指导复杂概率任务的决策价值方面。然而，在初始学习阶段的确定性任务中，它所扮演的角色仍不明确。在此，作者设计了一项自主发起的确定性任务，要求小鼠在没有引导线索的情况下用前爪做出选择。研究结果表明，自发决策遵循行动之间的 “竞争” 模型，这揭示了潜在的决策价值。作者通过活体显微镜技术和建模研究发现，雄性小鼠的M2神经元会表现出持续的活动，编码能够预测行动选择概率的决策价值。对M2进行光遗传学抑制会降低决策反转表现，并改变决策价值。此外，决策价值的更新决定了学习反转的速度。结果表明，在无指导线索的初始学习过程中，M2利用决策价值来调整选择。

图一依赖于次级运动皮层的逆向学习任务

作者采用了一种自主发起的二选一杠杆按压任务，并设定确定性的奖励机制，来测试头部固定的小鼠学习及反转选择行为的能力。此任务无需在记忆中主动存储外部指示性刺激，共包含三个阶段：训练、学习和反转。初次实验的小鼠经过水限制后被训练用相应的前爪按压两个杠杆来获得奖励。每次试验中，小鼠通过按压其中一个杠杆（左或右）发起一个独特的选择。一旦按压了某个杠杆，两个杠杆都会收回，并给予小鼠奖励。在此阶段，小鼠学会将奖励与杠杆按压关联起来，研究人员也能够识别出它们偏好的杠杆（命名为“动作1”）。当小鼠达到每会话约100次按压（约1小时）时，进入学习阶段。在这个阶段，之前偏好按压的动作1不再得到奖励（未命中试验），只有按压相反的杠杆（动作2，左或右）才会得到奖励（命中试验）。结果是选择动作2的概率增加，而选择动作1的概率减少，随着时间推移，奖励概率逐渐提高。一旦小鼠学会了新规则（连续三会话中超过75%的选择得到了奖励），奖励条件就会在没有任何指示的情况下反转。小鼠需要再次适应新的奖励规则，即之前的非奖励动作现在会得到奖励，反之亦然。总体而言，固定头部的小鼠通过一种认知要求较高的机制缓慢调整其杠杆按压行为，从先前的本能或习得规则脱离，转而选择新强化的选项。这一过程依赖于试错方法来应对奖励规则的变化，并且展示了小鼠如何克服内部偏差以适应新的奖励条件。此外，实验还揭示了小鼠在饱足状态下能迅速退出任务，以及在杠杆偏好转换期间表现出特定的行为模式。

图二 M2神经元活动在杠杆按压前解码规则策略

为了探究小鼠如何计算决策值ΔQ以完成任务，作者在小鼠学习并调整其行为策略时，通过颅窗利用双光子显微镜对M2神经元活动进行成像。单个神经元反应在试验内、试验间以及学习和反转学习之间均表现出变异性。首先对学习和反转阶段所有成功与失败试验的ΔF/F₀信号进行平均。该分析表明，单个锥体神经元呈现出异质的活动模式，试验平均峰值反应分布在整个试验周期内。M2神经元的活动受奖励调节。作者发现任务或试验阶段结构对结果或规则分类器的解码性能没有影响。解码准确率随着神经元数量的增加而提高，但很快达到平稳状态，这表明性能更多地由特定神经元传递的信息驱动，而非神经元数量。任务规则策略的平稳准确率显著高于结果的解码准确率。在按下杠杆且结果揭晓后，从整个神经元群体中解码结果和任务规则策略的准确率均显著高于随机水平。相比之下，在杠杆呈现期（时期2）和试验间期（时期1），虽然结果解码效果不佳或根本无法解码，但任务规则策略却能以较高准确率解码。按压杠杆前出现舔舐行为时，M2中无神经元活动，且M2抑制对按压杠杆前的舔舐频率和延迟没有影响。综上所述，M2的2/3层锥体神经元在按压杠杆前，通过优先编码给定的行为策略而非即将进行的行动，参与决定选择何种行动。

图三 M2 神经元活动与决策价值的关系

为了使大脑能够使用决策价值（ΔQ）选择最高价值的动作，必须在每次试验中持续在线更新并保持ΔQ。研究通过量化次级运动皮层神经元在杠杆按压前的活动来测试这两个特性，即持续性和单调更新性。ΔQ编码神经元在决策期间逐渐改变其放电率，与模型推导出的ΔQ值高度相关。这些神经元的活动在学习过程中单调增加，反映了与奖励动作的选择相关的ΔQ的逐步增加。在反转阶段，随着不再被奖励的动作的价值下降，这些神经元的活动也随之减少。ΣQ编码神经元与ΣQ变化的相关性较低，导致其回归权重的t值显著低于ΔQ编码神经元。这表明ΔQ编码神经元在整个决策期间与ΔQ更密切相关。通过将所有从学习和反转周期收集的试验分为三等分，并平均每个ΔQ或ΣQ编码神经元的活动，结果显示ΔQ在区分不同试验的神经活动方面优于ΣQ。描述神经元群体时间稳定性的持久性指数对于ΔQ编码神经元显著高于ΣQ编码神经元，表明M2神经元携带的决策价值信号比其他模型估计更为持久和稳定。这些发现揭示了M2神经元如何通过持续和稳定的决策价值编码来支持认知灵活性和行为调整，从而增强小鼠的学习表现。简而言之，M2神经元不仅能够持续在线更新决策价值，还能在每次试验中保持这种信息的稳定性，这对于高效的行为决策至关重要。

综上所述，次级运动皮层在小鼠通过强化学习选择能获得奖励的杠杆的过程中起到了至关重要的作用，尤其是在促进认知灵活性方面。这揭示了大脑如何通过编码和更新决策值来支持学习和适应能力。