下载客户端

从扩散模型到泊松流模型，生成式AI的物理基础是否有望大一统？

2023-09-28 18:12

来源：澎湃新闻·澎湃号·湃客

原创 Steve Nadis 集智俱乐部

导语

基于扩散原理的模型已经成为生成式图像AI的主流。Max Tegmark团队新提出的基于于带电粒子分布过程的模型，可能会带来更优的效果。而随着更多物理模型在生成式AI中被深度挖掘，某种隐藏的统一性正在渐渐浮现。

研究领域：人工智能，物理启发的生成模型，扩散模型，泊松流模型，Yukawa势

Steve Nadis | 作者

刘培源 | 译者

人工智能工具，特别是神经网络，对物理学家来说大有裨益。多年以来，这项技术助力研究人员重构加速器实验中的粒子轨迹、寻找新粒子的证据，以及探测引力波和系外行星。虽然AI工具对物理学家的帮助不言而喻，但麻省理工学院的物理学家Max Tegmark如今却提出了这样的问题：“物理学能回馈人工智能什么呢？”

Tegmark坚信，物理学家能对人工智能的科学理论（the science of AI）做出显著贡献，他也把这个目标定为自己的研究首要任务。Tegmark认为，物理学家可以通过用已经被深入理解的物理过程方程，替代神经网络中那些难以理解的“黑箱”算法，从而推进AI技术的发展。

这一观念并非首次出现。基于扩散过程（例如让牛奶倒入咖啡杯后均匀扩散）的生成式AI模型，在2015年首次亮相。自那时至今，它们生成的图像质量已经大幅提升。这项技术正是如DALL·E 2和Midjourney等热门图像生成软件的引擎。现在，Tegmark和同事们正在研究其他受物理启发的生成模型是否能像扩散模型那样高效，或者甚至更胜一筹。

去年年底，Tegmark团队提出了一种颇具前景的新型图像生成方法，取名为泊松流生成模型（Poisson flow generative model，PFGM）。在该模型中，数据以带电粒子的形式表示，这些“粒子”聚合形成电场，电场特性取决于任一时刻电荷的分布情况。之所以被称为泊松流模型，是因为电荷的运动受到泊松方程的约束。泊松方程源于库仑定律：两电荷间的静电力与它们之间的距离平方成反比（与牛顿引力公式类似）。

论文题目：

Poisson Flow Generative Models

论文地址：

https://arxiv.org/abs/2209.11178

许逸伦通过利用带电粒子产生电场的物理过程，为神经网络创造图像开辟了一种新方式。

物理过程是PFGM的核心。麻省理工学院研究生、论文合著者之一许逸伦表示：“我们的模型几乎可以完全由空间中每个点的电场强度和方向来描述。神经网络在训练过程中学习的是如何估计这个电场。”通过这种方式，神经网络就能学会生成图像。因为在该模型中，图像可以被一个电场简洁地描述。

相比于扩散方法，PFGM能够生成同等质量的图像，而且速度快10至20倍。塔夫茨大学计算机科学家Hananel Hazan表示：“它以我们前所未见的方式，利用了一种物理结构——电场。”“这为利用其他物理现象来提升神经网络开启了新的可能。”

除了都基于从物理学引入的方程外，扩散模型与泊松流模型还有许多共同之处。在训练过程中，为图像生成而设计的扩散模型通常从一张图片开始，例如一只狗，然后添加视觉噪声，以随机方式改变每个像素，直到其特征被彻底掩盖（虽然并未完全消除）。然后，模型试图逆转这个过程，生成一只接近原始图像的狗。一旦训练完成，该模型就能从看似空白的画布开始，顺利创造出狗和其他的图像。

泊松流模型的运作方式与之类似。在训练过程中，存在一个前向过程，即逐渐向一张清晰的图像添加噪声，以及一个逆向过程，模型试图逐步去除噪声，直到基本恢复初始版本图像。与基于扩散的生成一样，系统最终能学会如何生成在训练中从未见过的图像。

然而，泊松模型背后的物理学原理则截然不同。扩散是由热力学力驱动的，而泊松流则由静电力驱动。后者通过电荷的排列来表示一个详细的图像，可以创造出一个非常复杂的电场。然而，这个电场会使电荷随时间推移更均匀地分布，就像牛奶在咖啡中自然扩散一样。结果是，电场本身变得更为简洁和均匀。但这个充满噪声的均匀电场并非完全空白；它仍然包含着可以轻易构建图像的信息的“种子”。

2023年初，该团队升级了泊松模型，将其扩展为一个完整的模型系列。增强版的PFGM++引入了一个新参数D，让研究者们能够调整系统的维度。这可以带来显著的变化：在我们熟悉的三维空间中，电荷所产生的电场强度与电荷距离的平方成反比。然而在四维空间中，电场强度则遵循与距离的立方成反比。对于每个空间维度以及每个D值，这种关系都有所不同。

论文题目：

PFGM++: Unlocking the Potential of Physics-Inspired Generative Models

论文地址：

https://arxiv.org/abs/2302.04265

刘一鸣也作为团队一员，将PFGM扩展到包括多个可能维度，这使研究人员能够对神经网络的鲁棒性和训练的便利性进行微调。

这个独特的创新赋予了泊松流模型更大的变化性，在极端情况下能带来不同的优势。例如，当D值较低时，模型更具鲁棒性，这意味着它对于估计电场时的误差更为宽容。麻省理工学院研究生、同时也是两篇论文合著者的刘子鸣表示，“模型无法完美预测电场”。“总会有一些偏差。但鲁棒性意味着即使估计误差较大，你仍能生成优质的图像。”也许，你无法得到想象中的狗，但仍能得到一些看起来像狗的东西。

在另一种极端情况下，当D值较高时，神经网络的训练变得更为简单，习得图片艺术技巧所需的数据也相应减少。确切原因不容易解释，但主要益于当维度增多时，模型需要追踪的电场较少，因此需要吸收的数据也相应减少。

加强版模型PFGM++，“给了你在两个极端之间插值的灵活性”，加州大学圣地亚哥分校计算机科学家Rose Yu如是说。

许逸伦表示，在这个范围内，存在一个理想的D值，能够在鲁棒性和训练便利性之间取得平衡。“未来的研究目标之一就是寻找一种系统的方式来确定这个最佳点，这样我们就能在不必依赖试错的情况下，为给定的情境选择最佳D值。”

麻省理工学院研究团队的另一目标是寻找更多能为新的生成模型提供基础的物理过程。通过名为GenPhys的项目，该团队已经找到了一个有希望的候选者：与弱核力有关的Yukawa势。“它与泊松流和扩散模型不同，这些模型中粒子的数量总是保持恒定，”刘子鸣说。“而Yukawa势允许你去除粒子或将某个粒子一分为二。这样的模型有可能模拟细胞数量不必保持恒定的生物系统。”

论文题目：

GenPhys: From Physical Processes to Generative Models

论文地址：

https://arxiv.org/abs/2304.02637

这可能会成为一个高产的研究方向，Rose Yu认为，“它可能孕育新的算法和新的生成模型，其潜在应用范围可能远超图像生成。”

PFGM++本身已经超出了其创造者们最初的预期。他们起初并未意识到，当D被设定为无穷大时，增强版的泊松流模型就与扩散模型无二了。刘子鸣在今年早些时候进行的计算中发现了这一点。

斯坦福大学计算机科学家Mert Pilanci将这种“统一”视为麻省理工学院团队工作的最重要成果。他说：“PFGM++论文，揭示了这两种模型都是某个更广阔类别的一部分，这提出了一个有趣的问题：是否还有其他生成式AI的物理模型等待被发现，预示某种更大的统一性？”

翻译自 Quanta Magazine

原文链接：https://www.quantamagazine.org/new-physics-inspired-generative-ai-exceeds-expectations-20230919/