下载客户端

2024年诺贝尔物理学奖为何授予机器学习领域？

2024-10-11 12:02

来源：澎湃新闻·澎湃号·湃客

原创傅渥成集智俱乐部

导语

2024年诺贝尔物理学奖为何会颁给机器学习领域的研究者？这一决定令许多人感到意外，甚至产生了疑问：机器学习与物理学之间真的有如此深刻的联系吗？难道这不应该是计算机领域的奖项吗？香港浸会大学助理教授、集智科学家唐乾元（傅渥成）从人工神经网络开始，探讨了物理学与机器学习之间的紧密联系。物理学与AI领域的双向互动不仅促进了物理学和机器学习的融合，也加速了对复杂系统的理解。

集智俱乐部联合纽约州立大学石溪分校教授汪劲、德累斯顿系统生物学中心博士后研究员梁师翎、香港浸会大学助理教授唐乾元（傅渥成），共同发起「非平衡统计物理」读书会，关注非平衡统计物理的前沿理论进展、生命和热力学、统计物理与机器学习交叉三个大的主题方向，涵盖热机优化问题、涨落相关的热力学、反常热力学现象、信息视角下的热力学、生命系统的景观和流理论、活性物质、生命系统、种群动力学、机器学习和人工智能等前沿话题。

研究领域：统计物理，机器学习，人工神经网络，能量景观，人工智能，复杂系统

傅渥成 | 作者

2024年诺贝尔物理学奖授予了John Hopfield 和 Geoffrey Hinton，以表彰他们“利用人工神经网络进行机器学习的奠基性发现和发明”，这向大家展示了物理学与机器学习之间的紧密联系。Hopfield 与 Hinton 的工作集中在将统计物理的概念与方法应用于人工神经网络的结构设计和优化上。二者荣获本次诺奖反映出诺贝尔奖委员会对于将物理学原理（如能量最小化、概率建模和优化技术）应用于人工智能算法方面的高度认可。John Hopfield 和 Geoffrey Hinton 的贡献不仅加深了物理学与机器学习之间的联系，推动了两个领域的发展，还展现了跨学科方法在理解复杂系统中的巨大潜力。

人工神经网络

Hopfield 网络

John Hopfield 在20世纪80年代初的工作开创性地引入了现在被称为 Hopfield 网络的概念——一种可以通过能量景观来分析的神经网络结构（Hopfield, 1982）。这些网络仿照许多物理系统通过稳定状态来存储一些“模式”（例如手写数字）。这种神经网络与热力学之间的联系为理解学习和记忆提供了数学框架，表明神经网络中的学习类似于物理系统朝向最低能量状态演化的过程。他的研究不仅在理论上带来了对人工神经网络如何储存和重构信息的全新视角，也为计算神经科学提供了重要的理论工具、帮助科学家探索大脑如何实现高效的计算和记忆。Hopfield 的工作还激发了后续关于关联记忆、模式识别和联想过程的大量研究，为理解大脑中的计算过程奠定了基础，也为后来出现的各种神经网络架构、类脑计算等提供了理论依据。

[1] Hopfield, John J. Neural networks and physical systems with emergent collective computational abilities. Proceedings of the national academy of sciences 79.8 (1982): 2554-2558.

https://www.pnas.org/doi/abs/10.1073/pnas.79.8.2554

玻尔兹曼机

另一位获奖者 Geoffrey Hinton 进一步扩展了这些想法，参与提出了 Boltzmann 机的概念，这也是一种借鉴了统计物理概念的神经网络（Ackley, Hinton, & Sejnowski, 1985）。在 Boltzmann 机中，学习被建模为一种概率采样和能量最小化的过程，类似于物理系统中的粒子如何相互作用并达到平衡状态。在物理中，系统总是倾向于找到能量最低的稳定状态，例如小球会滚到山谷底部，因为那里能量最低。同样，Boltzmann 机的目标是通过调整各个神经元之间的连接权重（类似于物理系统中的粒子通过调节其相互作用），最终找到一种状态，使得在这种状态下模型对训练数据的匹配度最高，而系统的能量最低，从而找到对输入数据最合适的表示。

此外，作为深度学习的奠基人之一，Hinton 的另外一项代表性的工作是由他参与发展的反向传播法。该方法基于简单的梯度计算法则，能够有效地更新网络权重，被广泛应用于多层神经网络的优化中（Rumelhart, Hinton, & Williams, 1986）。这项技术为深度神经网络赋予了从海量数据中学习的强大能力。

[2] Ackley, David H., Geoffrey E. Hinton, and Terrence J. Sejnowski. A learning algorithm for Boltzmann machines. Cognitive science 9.1 (1985): 147-169.

https://www.sciencedirect.com/science/article/abs/pii/S0364021385800124

[3] Rumelhart, David E., Geoffrey E. Hinton, and Ronald J. Williams. Learning representations by back-propagating errors. nature 323.6088 (1986): 533-536. https://www.nature.com/articles/323533a0

深度学习

Hinton 一直活跃于人工神经网络研究的第一线，并在2000年代深度学习的复兴中发挥了关键作用（Hinton, Osindero, & Teh, 2006）。深度学习基于多层叠加的人工神经网络，但它又不仅仅是简单的叠加。在一个多层的深度信念网络（Deep Belief Networks, DBNs）中，网络能够逐步提取到更为抽象和复杂的特征，从而从大量数据中提取出有意义的信息，这使得深度学习成为解决许多现实问题的关键工具。通过有效的训练和优化，一个包含天文数字参数的模型依然能够有很好的泛化表现，可以学习到高维数据中的低维特征（这其中可能还蕴含着更深刻的物理问题）。

深度神经网络具有前所未有的解决的问题的能力，从而实现了众多人工智能应用的突破。可以说，深度学习领域的革命在很大程度上是由 Hinton 等研究者的相关工作推动的，他们的研究对计算机视觉、自然语言处理以及广泛的人工智能应用产生了深远的影响。

[4] Hinton, Geoffrey E., Simon Osindero, and Yee-Whye Teh. A fast learning algorithm for deep belief nets. Neural computation 18.7 (2006): 1527-1554. https://direct.mit.edu/neco/article-abstract/18/7/1527/7065/A-Fast-Learning-Algorithm-for-Deep-Belief-Nets

[5] Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504-507.

[6] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 1097-1105.

物理学与机器学习的联系

物理学是研究物质、信息、能量等对象及其相互作用的基本规律的学科，它既包括对具体现象的探索，比如理解自由落体、天体运动、电磁波的传播、量子纠缠，也包括对描述和预测复杂行为的抽象模型的研究，如理解社会集体行为、设计优化人工神经网络等等。以物理学家的思维方式解决来源于各种不同学科中具有普适性的科学问题，使物理学的边界超越了传统领域，让物理学与越来越多的学科产生了交叉。这些交叉又带来了越来越多的新科学问题，让物理学的工具得以发挥，同时也让物理学的深度和广度都在不断拓展。

物理学与机器学习之间有许多紧密的联系，许多物理学中的概念可以直接应用于神经网络的训练和优化，以下是几个例子：

1. 能量景观与概率建模：在物理学中，系统倾向于朝向能量较低的状态演化，使用概率来描述系统状态的思想在统计物理学和机器学习中同样重要。神经网络通过最小化损失函数进行训练，这类似于物理系统最小化能量的过程。能量景观的概念用于描述物理系统，帮助我们理解神经网络在训练过程中如何优化参数，寻求最小误差状态。机器学习中的概率模型通过量化不确定性并基于不完全数据进行预测，类似于物理学家使用概率来描述粒子行为。

2. 统计物理与统计推断：机器学习模型，尤其是那些涉及大型网络的模型，可以被视为由许多相互作用的元素组成的复杂系统，类似于物理系统中的粒子。统计力学提供了理解这些系统行为的工具，包括概率采样、相变和平衡态。Boltzmann 机直接利用了热力学中的玻尔兹曼分布来建模系统处于特定状态的概率。统计推断与统计力学密切相关，是训练和评估机器学习模型的核心，对数似然函数本身就可以被视作一种“能量”。

3. 正则化与泛化：机器学习中的正则化技术类似于物理学中的自由能极小化。在训练过程中最小化损失函数可以被看作是最小化系统能量，而正则化旨在保持一定的熵水平，促进泛化。这两个目标可以看作是最小化模型的自由能，其中自由能代表了在很好地拟合数据（最小化损失）与保持足够的熵以避免过拟合之间的平衡。这种类比对于理解正则化为何能够有效提高机器学习模型的鲁棒性至关重要。

4. 临界性与Scaling Laws：在统计物理学中，临界性描述了系统在相变点附近的行为特征。当系统处于临界状态时，其对扰动异常敏感，一些微小的变化都可能引起显著的效应。同样，在机器学习中，神经网络在训练过程中也可能表现出类似临界性的行为，参数的微小调整可能导致性能的剧烈变化。Scaling Laws 描述了系统的不同性质如何随规模而变化，这在物理学和机器学习中都很重要。在现代机器学习中，Scaling Laws 已经在大型语言模型中得到了验证，随着模型规模和多样化数据规模的增加，性能也呈现出可预测的提升。这一观测也与物理学中通过缩放理解处在临界态的物理系统在不同尺度的普适行为类似。

Physics of AI, AI for Physics

除了上述具体的例子以外，物理学与机器学习之间还有更多内在的联系。更一般地来说，物理学和机器学习都在探索由众多相互作用元素组成的复杂系统，这些系统表现出涌现行为和普适性，可以用相同的模型来研究和分析。通过运用物理概念和思想，物理学家为机器学习做出了重要贡献，为解决各种跨学科科学问题提供了新的框架。这种合作超越了传统物理学的边界，推动了新领域的发展。

如今，越来越多的物理期刊关注机器学习中的物理问题，也有越来越多的物理学家积极投身于机器学习研究，不仅利用他们在统计力学、优化和复杂系统建模方面的专长推动人工智能的发展，还利用AI方法来解析物理问题，形成了“Physics of AI”和“AI for Physics/Science”的双向互动。这种双向互动不仅为物理学和机器学习的融合提供了更多机会，也加速了对复杂系统的理解。

未来，随着物理学和机器学习的进一步融合，我们可以期待更多的突破和创新。这种融合将不仅改变科学研究的方式，还可能改变我们看待世界的方式，通过构建更强大的工具来理解自然现象和复杂系统的本质。物理学家和机器学习专家之间的合作，可能将推动人工智能和基础科学同时迈向新的高度。

本文首发于作者知乎：

https://www.zhihu.com/question/777943030/answer/4502570056

作者简介

唐乾元，香港浸会大学助理教授，集智科学家，集智-凯风研读营学者。南京大学物理学博士，曾是是日本理化学研究所博士后。研究方向：数据驱动的复杂系统研究；生物医学领域的人工智能；蛋白质进化和动力学；生物系统的复杂性和临界性