下载客户端

Science封面：基因组基础模型 Evo，从分子到基因组理解生命复杂性

2024-12-02 11:17

来源：澎湃新闻·澎湃号·湃客

原创董弘禹集智俱乐部

导语

随着大语言模型时代的到来，各领域都涌现出了一批使用大数据、强算力训练出的基础模型，它们在评测中表现优异，并能泛化到各种下游任务。在 AI for Life Science 领域，单细胞基础模型 scGPT、scFoundation，蛋白大模型Alphafold3、ROSTTAFold 等相继涌现。2024年11月15日，美国 Arc 研究所（Arc Institute）和斯坦福大学的研究团队提出了一种基因组大模型 Evo，能够以无与伦比的准确性解码和设计从分子到基因组规模的 DNA、RNA 和蛋白质序列，打通“中心法则”，这一成果刊登在当期 Science 封面，为解码复杂生命系统提供了利器。

关键词：AI for Science，基因组基础模型，基因组设计

董弘禹 | 作者

论文题目：Sequence modeling and design from molecular to genome scale with Evo
论文链接：https://www.science.org/doi/10.1126/science.ado9336

在生活中，ChatGPT 可以写小说、编写计算机代码、提供出行建议，它能够阅读互联网上的所有语言文字信息，并生成问题的答案。在分子生物学中，DNA 序列是碳基生物的“语言文字”，读懂这些信息就能够掌握遗传密码。科学家已经开发了一些模型，可以像分析大语言模型中的单词一样分析 DNA 序列，如 DNABERT2 等。然而，这些模型只能解释和预测相对较短的 DNA 片段，并且训练数据也十分有限，泛化性能不高。基于此，科学家们研发了 Evo 模型。它以数十亿条基因序列为基础，可以推断出细菌和病毒基因组的运作方式，并利用这些信息设计新的蛋白质甚至整个微生物基因组。

图1. 基因组基础模型 Evo 具有70亿个参数，可以学习从单个核苷酸到整个基因组的生命复杂性。

1. 基因组基础模型 Evo：架构与训练细节

想要理解大批量的基因数据，首先就要改进模型架构。Evo 采用了基于 StripedHyena 的框架，在 270 万个进化多样的原核生物和噬菌体基因组上进行预训练，从而获得对遗传语言的基本理解，预测 DNA 的功能或生成新的 DNA 序列。

StripedHyena 架构如图1B所示，该模型混合了密集二次 Transformer 算子和次二次型 Hyena 算子用于提高计算效率。同时，该模型将上下文窗口扩增到长达13万碱基，显著提高了模型识别基因与其他基因调控元件（如启动子、增强子等）之间联系的能力。为了为了确定 Evo 的最佳架构和缩放比例，图1F、G比较了在计算最优边界上预训练的不同模型的缩放率，在数据集大小和模型大小之间进行最佳计算分配。

从训练角度来看，为了防止恶意用户设计生物武器，研究人员从 AI 的训练集中删除了任何攻击人类或其他真核生物的病毒序列，并在接近 3000 亿核苷酸序列信息上进行了4周的训练。

图2. 在原核生物中预训练基因组基础模型

2. Benchmark与性能比较

为了测试 Evo 模型的性能，研究人员首先衡量它是否能够预测突变对生物序列的影响。具体而言，在零样本功能预测的条件下使用 Evo 与其他模型，预测蛋白质突变对功能的影响、非编码 RNA 突变对功能的影响、调控 DNA 序列对基因表达的影响。图2展示其相关性的强度超过了之前从 DNA 序列数据推断突变效应的人工智能模型；其工作效果与其他依赖蛋白质序列的 AI 模型一样好。

图3. Evo 对蛋白质、非编码 RNA 和调控 DNA 进行零样本功能预测

3. 下游应用：

从分子到基因组尺度的序列设计

除了判别式任务之外，基础模型也应有生成能力。ChatGPT 能够生成文章，Evo 模型也能够生成基因序列。为此，研究团队让 Evo 设计新版本的 CRISPR 基因编辑器。如图3所示，Evo 首先研究了 70,000 多个编码 Cas 蛋白及其伴侣 RNA 的细菌 DNA 序列。然后，该模型设计了数百万个分子的潜在版本。研究人员挑选了 11 个最有可能的 Cas9 变体，并在实验室中合成了这些蛋白质。在试管实验中，设计的 Cas9 酶中最好的一种，在切割 DNA 方面与商业版本的蛋白质一样好。

图4. 在 CRISPR-Cas 序列上进行微调可实现蛋白质-RNA 复合物的生成性设计

此外，Evo 还擅长多元件系统生成任务，如图4所示，团队通过对 CRISPR-Cas 序列和IS200/IS605 序列进行微调，可以实现合成 CRISPR-Cas 分子复合物和转座系统。研究人员实验验证了 Evo 生成的 CRISPR-Cas 分子复合物以及 IS200 和 IS605 转座系统的功能活性，这是使用语言模型进行蛋白质-RNA 和蛋白质-DNA 协同设计的第一个实例。

图5. 在 IS200/IS605 序列上进行微调可实现转座生物系统的生成性设计

最后，研究人员使用 Evo 生成了长达 1MB 的 DNA 序列作为细菌的基因组，这些序列展现出真实基因组的多个特征，包括编码密度、基因组织、密码子使用偏好性、四核苷酸使用模式等（图5）。

图6. Evo 生成具有密集编码架构的基因组规模序列

总体而言，Evo 经过 270 万个原核生物和噬菌体基因组的训练，展示了跨 DNA、RNA 和蛋白质模态的零样本函数预测，其性能可与特定领域的语言模型相媲美，甚至优于特定领域的语言模型。模型首次实现了单核苷酸分辨率下的长序列 DNA 建模，实现了从分子到基因组尺度的序列设计能力。这些突破为生物工程和基因组设计开辟了新的可能性。

原标题：《Science封面：基因组基础模型 Evo，从分子到基因组理解生命复杂性》

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报