下载客户端

Science封面：华人学者开发AI模型，学会生命的语言，生成新型CRISPR系统乃至整个基因组

2024-11-17 16:30

来源：澎湃新闻·澎湃号·湃客

原创生物世界生物世界

撰文丨王聪

编辑丨王多鱼

排版丨水成文

众所周知，生命的基本指令都包含在所有生物体的DNA序列中。理解这些指令可以帮助我们更深入地了解生物学过程，并开辟新途径，将生物学转化为有用的技术。然而，即便是最简单的微生物基因组也极其复杂，例如被人类研究的最为透彻的大肠杆菌，其基因组包含数百万碱基对，用于编码DNA、RNA和蛋白质之间的相互作用，而这三者是细胞功能的关键参与者，它们之间的信息流动构成了生命的“中心法则”。基因组的这种复杂性存在于多个尺度上，从单个分子到整个基因组，代表着在进化过程中经过功能选择的庞大的遗传信息景观。

人工智能（AI）的快速发展使得大语言模型（large language model，LLM）能够在大量数据的训练下展现出越来越先进的多任务推理和生成能力。如果开发出一种能够在大基因序列上保持单核苷酸分辨率的模型，就可能提取出关于嵌入在自然进化变异模式中的复杂分子相互作用的功能信息。

2024年11月15日，Arc研究所的 Patrick D. Hsu 和 Brian L. Hie 团队在国际顶尖学术期刊 Sciencce 上发表了题为：Sequence modeling and design from molecular to genome scale with Evo 的研究论文【1】，该论文还被选为当期的封面论文。

该研究开发了从分子到基因组尺度都能进行预测和生成任务的基因组基础模型——Evo模型。这是第一个在全基因组规模上以单核苷酸分辨率预测和生成DNA序列的模型。

通过对整个基因组信息进行学习，Evo模型能够学习微小的核苷酸序列变化如何影响整个生物体的适应性，从而预测哪些基因对于生物体至关重要，还能够生成长度超过百万碱基对的具有合理基因组结构的DNA序列。研究团队还使用Evo模型生成了CRISPR-Cas分子复合物和IS200/IS605转座子，并验证了它们的功能活性，这也是首次通过语言模型实现蛋白质-RNA和蛋白质-DNA协同设计的实例。

在生物中，一切都从DNA开始，基因组携带构成完整生命体的一整套DNA（遗传密码），这是世代进化的结果，反映了生命对不断变化的环境的适应。其他复杂的生物语言则是从DNA衍生而来，包括蛋白质和RNA，蛋白质负责执行生命功能，RNA帮助DNA传递信息并帮助蛋白质执行功能。尽管这三者看起来是多层次的，但它们都被“中心法则”统一在基因组中。

人工智能基础模型的出现，为生物序列建模指明了一条有前景的道路，但尚未实现全基因组水平的建模。DNA序列非常长，例如我们人类有着30亿碱基对，简单如大肠杆菌也有这数百万碱基对。要想充分理解进化的影响，需要具有单个核苷酸分辨率的分辨率，这些问题使得大规模预训练特别具有挑战性。

到目前为止，还不清楚人工智能（AI）模型是否能够在这么长的基因组序列中有效地学习其复杂模式。因此，现有的利用AI建模生物序列的突破主要集中在短上下文、特定任务和单模态能力，例如AlphaFold、ESMFold、Nucleotide Transformer。

因此，我们需要一个基础模型（Foundation Model），该模型可以整合长基因组序列上的信息，同时保持对单核苷酸变化的敏感性。一个有效地学习基因组的模型不仅可以理解个体的DNA、RNA和蛋白质组分，还可以理解这些成分如何通过相互作用来创建复杂系统。这有助于加速我们对生物学机制的理解，以及设计生命的能力。

Brian L. Hie（左）和Patrick D. Hsu（右）

在这项研究中，研究团队开发了一个DNA基础模型——Evo模型，旨在捕捉生物的两个基本方面：中心法则的多模态性和进化的多尺度特性。中心法则（Central Dogma）将DNA、RNA和蛋白质统一在一个编码体系和可预测的信息流中，而进化（Evolution）则将分子、通路、细胞和生物体这些在功能上极为不同的尺度统一起来。

研究团队使用主流架构进行DNA预训练后发现，Transformer模型在以单核苷酸、字节级分辨率进行训练时，可扩展性不太好，这表明自然语言中的主要架构不一定能迁移到DNA语言中。为了克服与长序列和字节级分辨率的基因组序列建模相关挑战，研究团队使用了基于深度信号处理技术的最新架构——StripedHyena，相比Transformer，StripedHyena架构将Evo的参数数量扩大到了70亿，同时在131千碱基（131kb）的上下文长度中保持了单核苷酸分辨率。

Evo模型是在270万种原核生物和噬菌体的基因组上进行训练的，它能够在DNA、RNA和蛋白质模式下实现零样本功能预测，其性能与或优于特定领域的语言模型。

基于原核生物基因组预训练的长文本基因组基础模型

基于StripedHyena的Evo模型架构

通过对整个基因组的信息进行学习，Evo能够理解微小的核苷酸序列变化（基因突变）如何影响整个生物体的适应性，从而预测哪些基因对于生物体至关重要。而在实验室中进行基因必要性研究，通常需要6个月到1年时间。

由于Evo模型是在包含蛋白质编码序列的长基因组序列上训练的，因此研究团队测试了该模型是否也能很好地学习蛋白质语言，从而执行零样本（Zero-shot）蛋白质功能预测。结果显示，Evo模型优于所有其他已测试的核苷酸模型，包括仅在蛋白质编码序列上明确训练的模型，甚至可以与最先进的蛋白质语言模型竞争（例如ESM或ProGen）。值得注意的是，Evo模型能够实现非编码RNA（ncRNA）和调节性DNA的零样本功能预测，从而跨越“中心法则”的所有三种成分——DNA、RNA和蛋白质。

Evo模型的学习能力横跨蛋白质、RNA和DNA

目前，生物学的生成模型通常只关注一种模式——例如只生成蛋白质或只生成RNA。而Evo模型的一个关键突破之处在于可执行多模态生成任务，研究团队使用Evo模型生成了全新的CRISPR系统，这种由蛋白质和RNA组成的大型蛋白复合体，是现有的生成模型无法做到的。

CRISPR系统是原核生物中天然存在的免疫系统，被改造用于基因编辑。通常情况下，我们需要从自然界基因组中搜寻以发现新的CRISPR系统。而现在，Evo模型能够直接生成一个全新的CRISPR系统，让我们拥有了创造新型基因组编辑工具的能力。

设计生成新型CRISPR-Cas分子复合物

研究团队将Evo模型设计生成的EvoCas9-1与sgRNA进行重组表达和纯化，其在体外的基因编辑效率与spCas9-sgRNA相当。

Evo模型设计生成的CRISPR-Cas9系统及功能验证

此外，研究团队还使用Evo模型设计生成了IS200/IS605转座子系统，并实验验证了其功能活性。

据悉，这也是首次通过语言模型实现蛋白质-RNA和蛋白质-DNA协同设计的实例。

能够生成超长碱基对的具有合理基因组结构的DNA序列的大规模生物序列模型的进一步发展，结合DNA合成技术以及基因组工程技术的进步，将加快我们对生命进行工程化的能力。

除了在多分子（蛋白质和ncRNA）规模上生成序列，Evo模型还能够生成长度超过百万碱基对的具有合理基因组结构的DNA序列，且生成的序列中包含了数千个潜在的蛋白质编码序列，从而让我们拥有了全基因组规模序列生成的潜力。这种大规模的序列生成是由Evo模型的长上下文功能和高效的推理模式实现的。

Evo模型，能够从单个核苷酸到整个基因组学习生物复杂性

研究团队表示，Evo模型标志着我们在模拟生物序列的一个转折点，相信这项技术有潜力加速我们科学（包括生物学、化学或材料科学）的发现和理解，以及应用于现实世界的问题（包括药物发现、农业和可持续性）。基础模型将成为越来越重要的科学工具，期待训练更大的模型，提高它们的生成能力，并将Evo预训练扩展到人类基因组。通过增强这些模型学习的生物复杂性，相信我们可以在对抗复杂疾病和改善人类健康方面取得重大进展。

最后，研究团队表示即将开源更大规模的3000亿token的训练数据集——OpenGenome，由270万个公开可用的原核基因组和噬菌体基因组组成，这是公开可用的最大的DNA预训练数据集，希望它将有助于加速DNA语言模型这个令人兴奋和有影响的领域的研究。