澎湃Logo
下载客户端

登录

  • +1

AI进军自然科学研究,能做哪些事?

2023-08-07 20:29
来源:澎湃新闻·澎湃号·湃客
字号

原创 前沿科技投资孵化 未来光锥 

经过几十年的人工智能研究,神经网络以深度学习的名义达到了复兴的顶峰。自AlexNet以来,经过十年的深入研究,深度学习取得了许多突破性进展,例如ResNet、基于扩散和分数的模型、注意力(attention)机制、Transformer,以及最近的大型语言模型(LLM)和 ChatGPT等。

这些发展使得深度模型的性能不断提高。再加上不断增长的计算能力和大规模数据集,深度学习方法正在成为计算机视觉和自然语言处理等各个领域的主导方法。在这些进步的推动下,人工智能开始通过改进、加速和促进我们对各种时空尺度的自然现象的理解来推动自然科学的发展,从而催生了一个新的研究领域,即人工智能驱动的科学研究 (AI for Science,AI4S)。

作为一种新兴的研究范式,AI4S的独特之处在于它是一个高度跨学科的庞大领域。因此,对该领域进行统一的技术处理是有必要的,且极具挑战性的。

由德克萨斯A&M大学的姬水旺教授领衔,联合MIT、Stanford、UIUC、NVIDIA等14个机构的63位作者,发表了关于AI4S“量子、原子和连续体系科学”子领域的一篇综述文章:Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems。文章详细阐述了AI在亚原子(波函数,电子密度),原子(分子,蛋白质,材料,相互作用),以及宏观系统(流体,气候,地下)等不同时空尺度的科学领域应用的关键挑战、学科前沿和开放问题。文章围绕对称性进行了深入而直观的讨论,同时也对可解释性、分布外泛化、大语言模型和不确定性进行了探讨。另外,提供了分类的资源列表,以促进学习和教育。

科学人工智能为科学发现的新范式打开了一扇大门,是跨学科研究和创新中最令人兴奋的领域之一。

从历史上看,“计算”在加速自然科学发现方面的重要性一直为人所关注。早在近百年前的1929年,量子物理学家保罗·狄拉克就已指出:“大部分物理学和整个化学的数学理论所必需的基本物理定律是完全已知的,困难只在于精确应用这些定律会导致方程过于复杂而无法求解。”

在量子物理学中,人们知道薛定谔方程可以精确描述量子系统的行为,但由于其指数级的复杂性,只有非常小的系统才有可能求解这样的方程。在流体力学中,Navier-Stokes方程描述了流体流动的时空动力学,但如果想要达到实际应用的程度,求解方程的要求就会很高,尤其是在对计算效率有所需求的情况下。与这两个例子类似,许多自然科学问题的基本物理原理都是已知的,可以用一组数学方程来描述。关键的困难在于如何准确、高效地求解这些方程。

最近的研究表明,深度学习方法可以加速计算这些方程的解。例如,深度学习方法已被用于计算量子物理学中薛定谔方程和流体力学中Navier-Stokes方程的解。在这些领域,研究者使用模拟器来计算数学方程的解,其结果被用作训练深度学习模型的数据;训练完成后,这些模型就能以比模拟器快得多的速度进行预测。

除了提高效率外,深度学习模型还表现出更好的分布外泛化(out-of-distribution,OOD)能力,其范围可扩展到更广泛的实际环境中,因为在这些环境中,训练数据和未见数据通常遵循不同的分布。

在生物学等其他领域,由于潜在的生物物理过程并不完全已知,最终可能无法用数学方程来描述。在这些情况下,实验生成的数据可用于训练深度学习模型,以模拟底层生物物理过程。例如,在生物学领域,AlphaFold、RoseTTAFold和ESMFold等人工智能系统根据实验获得的三维结构进行训练,能够计算预测蛋白质的三维结构,其精度与实验结果相当。

除了在技术方面的挑战之外,这些领域还需要有大量可用的实验生成数据。例如,AlphaFold、RoseTTAFold和ESMFold的成功在很大程度上依赖于通过实验生成并存入数据库(如蛋白质数据库)的大量蛋白质三维结构数据。

图1 AI4S选定研究领域的概览

本综述中,作者重点关注量子力学、DFT、小分子、蛋白质、材料、分子相互作用和PDE相关的人工智能。图1最外圈直观地描绘了这些不同的领域。这些领域按物理世界建模的空间和时间尺度排列,突出量子、原子和连续系统。值得注意的是,这些人工智能科学研究领域存在一系列共同的技术考虑因素和挑战,如对称性、可解释性和分布外泛化(图1最内圈显示了这些技术领域)。

图2 本综述的总体分类结构

本综述对研究人员在过去几年中一直从事的AI4S的几个研究领域进行技术性的统一回顾,按照物理世界建模的空间和时间尺度来组织AI4S的不同领域。在每个领域,作者都提供了精确的问题设置,并讨论了使用人工智能解决此类问题所面临的主要挑战。然后,作者对已开发的主要方法以及用于评估的数据集和基准进行了调查,随后进一步总结了剩余的挑战,并指出了每个领域的几个未来方向。

图3 科学领域的时空尺度。在空间和时间尺度的连续统一体中探索人工智能与各种科学学科的交叉。

特别值得一提的是,由于AI4S是一个新兴的研究领域,作者在文中汇编了分类资源列表,以促进学习和教育。

作者表示:“我们知道,鉴于这一领域不断发展的性质,我们的工作绝不是全面或结论性的。因此,我们希望随着该领域的发展不断纳入更多主题,并欢迎任何反馈和意见。”

致谢

感谢西湖大学工学院AI方向助理教授吴泰霖对本文的审阅与建议。

参考文献

https://arxiv.org/abs/2307.08423

作者:竹子

原标题:《未来光锥资讯 | AI进军自然科学研究,能做哪些事?》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈