下载客户端

安迪·克拉克：预测算法与心智理论的大一统

2020-11-12 09:44

来源：澎湃新闻·澎湃号·湃客

本文经授权摘自《预测算法》引言

作者：安迪·克拉克

猜谜游戏

本书致力于对我们（以及像我们一样的生物）认识世界并在其中行动的能力进行分析。此类认识与行动的核心是一个简单而有效的策略或技巧，也就是使用所拥有的关于世界的知识，在外界刺激传入以前，对其进行某种猜测。错误的猜测会导致“预测误差” （prediction error），这些误差能让我们对后续的预测行为进行调整，或提醒我们在学习时放慢步调，建构具有可塑性的知识体系。上述基于动态自组织过程的“预测加工模型” （predictive processing models）能够有力地解释知觉、行动和想象，为研究人类主观经验的性质和结构提供了新的视角。

根据预测加工模型，自我驱动的循环因果流程（self-fuelling cycle of circular causal commerce）位于认知舞台的中央，认知主体凭借行动，主动选择感知刺激进行加工，在此过程中不断内化环境结构和机遇。预测加工模型从计算神经科学的角度，为新近的具身心智（embodied mind）相关研究（强调认知主体通过感知运动循环与世界持续互动）提供了完美的补充。如果这个理论是正确的，那么预测性的大脑就不是一个孤立的推理引擎，而是一台行动导向的对接机器，这台对接机器的主要功能就是使用简单的、基于行动的例行程序即“路径”（routines）降低神经系统在认知加工任务中的负荷，让认知主体得以表现出高效而流畅的适应性行为。

“预测”在日常生活中表现为不同的形式，它们彼此间的差异又殊为微妙（尽管确实存在区别），这使得对其进行概念上的处理颇为棘手，即使在这短短几页文字里也展现无疑。人们最为熟悉的预测发生在个体层面，这种预测是前瞻性的主体对尚未发生的事件有意识的猜想，有助于计划的制订和项目的执行。但这种预测——这种有意识的猜想，并不是本书将要论述的核心。我们关注的预测是一种不同类型（当然并非毫无关联）的“猜谜游戏”，它从属于支持知觉与行为的复杂神经加工过程。这个过程是高度自动化的，具有浓厚的概率色彩，且通常在无意识的情况下进行。正是因为大脑能够实施这种预测，我们作为具身的、情景化的行动主体才能对不同的任务游刃有余。

- James Firnhaber -

实际上，对预测的强调在心智科学领域源远流长。但直到大概十多年前，才有学者整合关键要素，致力于首次（或至少可能是首次）对知觉、认知和行动进行统一的解释。这些关键要素不仅包括关于预测驱动学习潜力和可行性的实用计算演示，还包括一整套新的神经科学框架，以补充现有的计算神经科学理论，更包括大量实验数据，以证实预测、误差以及对感知不确定性的评估具有人们未曾意识到的重大意义。认知科学此前被生硬地划分为两大派系，一派鼓吹内部过程和模型建构的关键意义，另一派则信奉大脑、身体和世界对认知工作的分布式处理，最新的研究成果已让这两派观点间不再泾渭分明。

我认为，Spratling（2013）对预测加工模型的定位是准确的——他将其描述为“中层理论”。换言之，该模型不关心神经系统实现特定功能的重要底层细节，而致力于“识别在不同结构中运作的通用计算原则（并）为与神经科学高度相关的经验资料提供功能性解释”。因此，它意味着一套特别的工具与概念，描绘了神经架构中观水平的蓝图，有助于我们对知觉、认知、情感和行动进行整合与梳理。其最为独特的魅力在于，在预测加工范式下，神经加工过程嵌套在一个宏大的、错综复杂的行动网络之中，这些行动是具身的，并且与现实世界紧密关联。在分析各类常态性与病理性现象时，预测加工模型能为我们理解人类经验的形式与结构提供更多启迪，并能与自组织、系统动力学和具身认知领域的相关研究建立起横向的联系。

预测加工模型主张，我们的大脑是一台预测引擎，它的日常工作就是针对即将传入的感知信号阵列，猜测其结构和形式特点。大脑的预测积极主动、连绵不绝，它兢兢业业地自行生成感知数据，而与传统观念相悖的是，多数情况下，真正的传入刺激只用于对自上而下的最佳猜测进行核实与修正。关键在于，我们会评估传入信号各方面的相对不确定性（即置信度），评估结果灵活地调节着一切内部猜测的形态与流动。最终，我们得到了一个动态的自组织系统，与其相关的一切内外部信息流都在根据不同任务的要求和内外部情境的细节差异持续地重构。

对认知过程的这种解释与人类经验的形式和结构间有着诱人的联系。这种联系显而易见，比如说，它能轻易地说明为什么一些意料之外的刺激知觉起来那么奇怪，比如说当你以为自己正要呷一口茶，喝到嘴里却发现端在手中的是一杯咖啡；它也能解释为什么一些刺激的缺失在感知上尤其明显，比如说一段熟悉的乐章中少了一个片段，在演奏进行到那部分时你会恍然觉得自己听到了那个片段，却又很快被一种强烈的缺失感占领。预测加工模型还能阐明一系列病理性现象和心理障碍，包括精神分裂症、自闭症以及“功能性运动综合征”，后者指期望和置信度（精度）的变更提供了不可靠的证据，导致患者错误地感知到疾病或伤痛。

概括地说，预测加工框架提供了一个令人信服的、关于人类经验的统一解释，有助于说明我们为什么能够产生心理意象、对未来可能的选择和行动进行“离线”推理，以及理解其他行动主体的意图和目的。我们将看到，所有这些能力都源于使用了自上而下的“生成模型” （generative model，稍后将详细介绍），它让人们能够跨越多时空尺度，对感知数据的呈现方式进行智能化的猜想或预测。与此同时，“生成模型”还能让我们确定而直观地理解意义（meaning）本身的性质及其存在的可能性，这是因为要想跨时空尺度预见感知刺激，认知主体就必须将世界视为意义所在之地（locus of meaning）。主体借助知觉、行动和想象与世界接触，而世界则倾向于以特定方式演变，它充斥着与认知主体利害攸关的远因，并为这些远因所形塑。如果预测加工理论是正确的，知觉、理解、行动和想象便是由我们预测感知信号的不懈努力所共同构建起来的。

简而言之，我们无论如何都不会夸大这种“猜谜游戏”的重要性——预测扮演了流通货币的角色，将知觉、行动、情绪感受和对环境结构的开发与利用统合为功能上的整体。套用当代认知科学术语，这种能力取决于认知主体能否获得和应用“多层概率生成模型” （multilayer probabilistic generative model）。

- James Firnhaber -

乍看上去，这个短语有些唬人，但它的基本理念还是简单直接的。借用我在科学哲学领域真正的偶像——Daniel Dennett讲过的一个故事，我可以立刻对它进行一番解释——Dennett与我曾在2011年拜飓风“艾琳”所赐，被困在他位于缅因州的农舍里。那番遭遇现在回想起来还是精彩至极。

故事的主人公是Dennett在20世纪80年代时的一位同事。作为一位知名的古生物学家，这位先生要求学生们理解一系列地层图并将它们绘制出来。但他十分担心学生们会在家庭作业中作弊，比如说，他们可能会照猫画虎，或干脆临摹一气。所谓地层图描绘了岩层结构的地质剖面，它们能够揭示复杂构造怎样随岁月流逝逐渐成型。单纯将这样一幅图临摹下来很容易，但这几乎不可能反映学生对相关地质学知识的掌握水平。

为了解决这个问题，Dennett构想了一个装置——后来，还真有人造出了原型机，并将其称为SLICE。软件工程师Steve Barney建造并命名了SLICE，它能在一台IBM个人计算机上运行，本质上就是一个绘图软件，看上去和我们小时候玩过的“神奇画板”（Etch-a-Sketch）没有什么不同。但是，这个装置控制绘图过程的方式要更加复杂，也更为有趣：SLICE的操作面板上有不少“虚拟”旋钮，每个旋钮都控制着一种特定地质学诱因的展开过程。比如说，其中一个旋钮让泥沙开始沉积，另一个会加速侵蚀，其他旋钮可能对应熔岩的渗入，或造成断裂和褶皱，凡此种种。

有了SLICE，作业就可以这样布置下去：每个学生都会得到一张地层图（目标图），他们要在计算机上画出一模一样的，但不能临摹，也不能直接复制，相反，他们要转动某些旋钮，还要按特定的顺序操作。事实上，学生们只能这样做，因为SLICE和现在的绘图软件或“神奇画板”不一样：它不支持逐像素乃至逐行控制。要画出和作业要求一模一样的地层图，学生们就必须掌握正确的“地质诱因”（比如说先有泥沙沉积，后有熔岩侵入），并且在调度它们时确定合适的强度。在操作上，这意味着只要能以正确的先后顺序、用正确的幅度（量级）转动正确的旋钮，就能保证作品与原图“差不离”。Dennett认为，如果一个学生能够做到这些，就说明他已经确凿无疑地掌握了那些隐秘的诱因（如沉积、侵蚀、熔岩流和断裂）将如何共同造就地层图所反映的不同地质结构特点——或借用我在本书中一再重复的那个术语，他掌握了“生成模型”。也就是说，他必须首先掌握哪些可能的诱因以何种方式相互作用，才能导致目标结构的出现，然后才能在此基础上自行按要求“生成”作品。在此过程中，目标图扮演着“感知证据”的角色，学生们要在SLICE上对其进行重建（re-construct），就必须使用自己所拥有的最佳地质知识模型。

我们可以走得更远一些，让学生掌握“概率生成模型”。对一幅特定的目标图，通常有很多不同的绘制方式：学生们可以选择不同的“旋钮操作组合”来生成类似的作品。但这其中有些组合对应着实际上更有可能发生的地质事件序列。因此，我们可以规定：只有选择了那些更具现实性的“旋钮操作组合”，也就是说，发现了更具有代表性的地质事件序列，学生才能获得高分。再进一步，甚至可以给学生一幅目标图，同时明确排除那些可能性最大的地质事件，强迫他们构想能够造成图示地质结构的替代性诱因（次优方案，第三方案……以此类推）。

SLICE让使用者调用自己关于地质学诱因（如沉积、侵蚀）及其交互作用的知识储备，自行生成匹配作业要求的地层图。这杜绝了作弊现象。毕竟，要以正确的方式操作旋钮，控制如侵蚀、沉积和断裂等隐藏诱因，在操作界面上以满足要求的方式排列像素点，这本身就反映了操作者的地质学知识水平。

这是一个对大脑在信息加工过程中所采用的基本策略的生动类比，即使它还不够详尽。这个模型（假设它没有错得太离谱）让我们能够理解来自现实世界的源源不绝的感知信号（说到底，它们只是感官接收到的能量）。以上论述表明，我们对现实世界的知觉取决于能否识别一系列彼此交互的现实诱因，这些现实诱因最有可能造成能量以特定模式冲击（外感觉、本体觉和内感觉）感受器，从而产生我们正在经历的刺激。在这个意义上，我们以猜测（如果你不介意这么称呼它的话）的方式感知世界，并在此过程中使用感知信号对这些猜测进行调整和改进。

- James Firnhaber -

值得注意的是，在现实生活中执行知觉匹配任务时，认知主体往往不会满足于生成单一的、静态的结果（正如SLICE所做的那样），而是要致力于适应不断变化的真实情境。一系列案例将表明，要对复杂的传入信号阵列进行匹配，我们就需要掌握相关情境因素在多时空尺度下如何演变和彼此缠结，这将在具备多层架构、擅长传播相关预测的神经系统中实现。在本书后面的章节中，我们还要详细讨论这种“多层架构”背后的逻辑。

现在，我们可以收尾了——只要从先前的故事里拿掉学生和知识结构，留下来的就是一个可称为SLICE*的装置，它是SLICE一个自给自足的版本，可以自行获得有关地质结构隐藏诱因的知识——至少在其所处的微观世界中，借助多层（深度）架构的预测驱动学习，我们就能指望SLICE*做到这些。这反映了一个在当代认知科学研究中正以不同形式得到日益重视的理念，即我们会使用为高度发达的生物大脑所特有的海量循环连接，尝试自上而下地自行生成感知数据，以满足认识世界所需。这是一个有效的策略，因为理想的模型能够做出更好的预测，而借助成熟的学习程序，我们能够逐渐调整自己所拥有的模型，以提升其对感知刺激流的预测力。

现在，针对传统上简单但缺乏现实性（见下文）的被动感知理论，我们可以对以上论述的核心思想进行一番总结：对现实世界的知觉，就是使用一连串合理的多层预测对感知信号进行匹配。这些预测旨在使用与彼此交互的远因相关的知识储备，自上而下地将感知信号建构出来。能够以这种策略应对外界刺激的认知主体需要对世界具备相当程度的了解，并学习如何精明地“消费”自行建构的感知刺激。它们对自己所处环境的认识逐渐加深，对其中的实体与事件也越来越熟悉。如此，只要听到草丛中传来细微的响动，它们就会猜测“可口的猎物”即将出现，并预见到猛扑上去以前那种肌肉紧绷的感觉。不论是动物还是机器，只要能够对周遭环境发展出这种程度的控制，就已经可以说能够在相当程度上理解世界了。本书的第1部分就将细致介绍感知与学习的基本机制。

但是，这幅有关被动知觉的详细蓝图缺少了一些关键性的东西，那就是行动。行动改变了一切。大脑中的神经集群不只在嗡嗡作响，试图预测感知刺激流，它们还通过引发身体运动及有选择性地获取相关刺激不断地生成感知信号。因此，知觉和行动在一个无止尽的循环中彼此缠绕在一起。这意味着我们必须对方才的描述作进一步的、在认知上至关重要的修正。我们的新系统是一个机器人——我们可以叫它“Robo-SLICE”，它的行动逻辑被设定为必须对其接收到的感知刺激做出反应。也就是说，它会对当下的感知信号进行评估，猜测哪些身体上和环境上的诱因最可能导致它们出现，以此作为自身行动的依据。如此，与环境交互的行动就具有了核心地位：Robo-SLICE通过“恰当的”行动与世界对接，它会将感受器暴露在那些对其生存具有重要意义的能量输入中，积极地选择相关刺激，并逐渐形成自己的“追求”和“目的”。此外，Robo-SLICE还能够利用在环境中的行动降低自身内部处理过程的复杂性，尽可能选择简单而高效的路径，用活动和环境结构取代昂贵的计算过程。

实际上，要构想Robo-SLICE是一个比较离谱的要求，因为这个小小的思想实验有一些先天不足。我们从一开始就没有为SLICE确定一套“生活方式”，也没有指定其生态位和基本关注，因此SLICE不可能知道对于特定的感知刺激而言哪些行动是“恰当”的。此外我们也没有展示为什么对刺激的持续预测能让一个认知主体做出恰当的行动，也就是说，能让它对世界进行取样，使特定预测与实际传入的感知信号间匹配得越来越好。从预测到自证预言（self-fulfilling prophecies）的转化是一个巧妙的把戏，这也是本书第2部分的主题。

- James Firnhaber -

这还没完。作为最后一块拼图，我们还要赋予Robo-SLICE一项伟大的能力，即改变自身所处的社会和物理环境的长期结构，以使世界更为“宜居”。也就是说，居住在这样的一个世界里，如果Robo-SLICE渴望某种能量输入，周遭环境就能更加可靠地满足它的需求。这种对环境的塑造一次又一次、一代又一代地重复进行下去，最终，像我们这样的生物得以建造出一个更适于思考的世界——在这样的世界里，各种能量输入能够招致越来越复杂的行为，并引导思想和理智探索那些曾标注为“禁止入内”的领域。这样一来，我们就得到了SLICE的最终版本——情境化（Situated）Robo-SLICE。这是一个自主的、活跃的学习系统，能够对世界进行改造，以优化其思维，并满足（及调整）自身各项需求。我们将在本书第3部分对此进行详细说明。

在本文行将结束之时，我想为读者圈出以上描述中的一些关键特征和有趣之处。至少我希望这将有所帮助。

第一个关键特征是认知共现（cognitive co-emergence）。多层感知预测意味着许多：它既支持揭示世界本来面目的生动知觉，又是一种学习友好型策略，还让一些生物发展出想象，以及（我们将会看到）更具指导性的心理模拟能力。如果我们自上而下地生成传入感知信号，并利用自身存储的关于世界的知识重现这些刺激模式的显著方面，以此知觉环境，则这种知觉过程本身就包含了某种形式的理解：它关乎事物本身是什么样子，及其倾向于如何因时而变。这里面也有想象成分，因为如果一个系统能够自行生成（至少是近似于生成）感知信号，它就不仅能以这种方式知觉环境，还能独立地生成离线的（off-line）类知觉心理状态。拥有生成模型的认知主体会使用其知识储备在刺激与预测间进行匹配，所谓的“想象”只是它们对同一套知识储备的另一种使用方式。

以上解释与最近一大批实验结果存在密切关联，这些实验旨在支持所谓的“贝叶斯大脑假设”。也就是说，我们的大脑进行任务处理时所采用的手段，接近于对新近证据与旧有知识进行权衡的理想方法——为当下的感知信号寻找隐藏诱因的过程与贝叶斯推理（Bayesian inference）极为类似。

当然，在某些时候，关于某些事物，大脑还是难免会出岔子。最近，我就被Henry Worsley中校的一段描述震惊到了——Worsley是一支英国陆军北极探险队的队长：

持续几日的乳白天空（whiteout）给我们带来了不小的困扰。这种极地现象是由于云层降得太低，遮蔽了地平线而造成的。Amundsen称之为“白夜”——身处其中时，你对距离和高度都失去了感觉。有一个故事说他曾自以为看见了远方地平线上的一个人影，当他向那边走去时，恍然意识到那是前边三英尺处的一坨狗屎。

总而言之，在我们所居住的世界里，以及当时的信息状态下，由于Amundsen相信自己正在眺望地平线，所以“人影”这一知觉就是所谓的贝叶斯全局最优解。也就是说，彼时Amundsen的大脑正在以最具可能性的方式糅合先前的知识储备和当下的感知证据，然而，他的知觉出了岔子。需要注意的是，不论在本书中的哪一处提到“最优”（optimal）这个令人疑虑的概念，我指的都是这个“狗屎最优”，仅此而已。

- James Firnhaber -

第二个关键特征是整合（integration）。本书将要探索这样一种观点，它不仅能将大量核心认知现象（如知觉、行动、推理、注意、情感、经验和学习）统一起来，还让我们有机会定性甚至定量地理解“具身认知科学”以及“情境认知科学”领域的许多主张。要实现后一种整合，就需要提取不同认知现象的“公分母”，其表现为“提升感知信号预测力的多种途径”。比如说，我们可以在生成模型中“转动旋钮”匹配感知刺激，也可以改变感知刺激本身，让我们“旋钮匹配”的过程更加容易一些。为此，我们可以采用直接的行动，也可以通过长期的环境结构调整实现目的。我相信，概率性的神经处理过程与具身和行动所发挥的作用在当前的语境中有望得到统一，这是本书描绘的新兴理论框架最具吸引力的特征。

同样的观点为思考人类经验的形式与本质开辟了新的空间。通过强调预测和对预测可靠性（信度）的评估，当前理论有望对某些心理疾病与障碍（含精神分裂症、自闭症和功能性感知运动症状）进行解释。此外，它还能帮助我们理解神经典型性人群的复杂经验现象，并（特别是考虑到关于自身脏器状态的内感觉预测）为情感和有意识的经验在机制上的起源提供了暗示。

需要强调的是，大脑的“认知百宝箱”中还有许多其他的工具。至少在当下论述的具体意义上，“猜谜游戏”涉及在相当短的时间内利用在线生成的预测误差，对传入的感知信号进行自上而下的拟合，或寻求某种近似（approximation）。这是一个极为有效的技巧，在一系列认知和行为过程中都有体现，但大脑显然还有别的策略可供选择，更不用说整个有机体了。积极的认知—行动主体具有强大的适应性，它们会结合多种策略应对复杂的生存环境，这个环境有时是由它们自己创造出来的。

即便在这个更为宽泛的领域中，预测也发挥着关键的作用。它有助于我们时刻协调内外部资源，实现与世界的智慧对接，这种对接表现为一系列核心形式。我们将会看到，基于不同的“精度加权” （precision-weighting）机制，预测加工过程会选择临时性的神经元集群。这类神经元集群不断被身体动作所激发，同时激发其他身体动作，而身体动作又可能以各种方式利用环境中的结构和机遇。可见，有关预测性大脑的观点与情境化具身心智理论的碰撞将迸出夺目的火花。

最后值得注意的是，有如一枚硬币的两面，本书同时包含一个总括性的观念和一个具体化的假设。前者将大脑视为一台多层概率预测引擎，后者（多层预测编码假设或预测加工模型）则关注这台引擎的具体工作原理。即使细节出现错误或不够完善，大方向仍然正确也是完全可能的。当然，具体化的假设也有其价值：一方面，它们代表总括性观念最为前沿的研究进展；另一方面，它们能够说明一系列不同的现象，且其应用范围还在扩大。这强有力地证明了我们的理论多么适合解释人类经验——从知觉、行动、推理、情绪、经验，到理解其他行为主体，再到各种病理性现象和障碍的性质和原因。

这些进展都令人兴奋。我斗胆相信，它们的最终结果不会是又一种“关于心智的新科学”——而是可能比那好得多。因为我们正在接近一个汇聚点——它将现有最好的一些思路结合起来了。这些思路包括联结主义和人工神经网络的工作要素、当代认知神经科学和计算神经科学、处理证据和不确定性的贝叶斯方法、机器人学、自组织，以及情境化的具身心智研究。活跃的大脑不知疲惫地预测或引发感知刺激，这种视角让我们得以一窥这团重约3磅的肉质器官最为核心的功能——它沉浸在人类社会与环境的旋涡中，致力于了解世界并与其紧密衔接。

《预测算法》

（Surfing Uncertainty:

Prediction, Action, and the Embodied Mind ）

作者：[英] 安迪·克拉克（Andy Clack）

译者：刘林澍

出版社：机械工业出版社

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报