澎湃Logo
下载客户端

登录

  • +1

专访华大生命科学研究院张勇:开启大语言模型强大能力,时空云平台加速生命科学研究突破

2023-09-28 11:47
来源:澎湃新闻·澎湃号·湃客
字号

原创 生物世界 生物世界

撰文 | 王聪

编辑 | 王多鱼

排版 | 水成文

1953年4月25日,詹姆斯·沃森(James Watson)和弗朗西斯·克里克(Francis Crick)在 Nature 期刊发表了一篇开创性论文,揭开了DNA的双螺旋结构,从此开启了分子生物学时代。

我们人类的细胞中有着30亿DNA碱基对组成的基因组,它们组成了我们生命的“天书”,决定了我们包括生老病死在内的几乎一切重要性状。2001年,人类基因组工作草图发布,人类得以全面了解自身的遗传密码。此后,基因测序技术的快速发展,为我们解码生命推开了大门。

然而,我们的身体中有着37万亿个细胞,这一数字是银河系中恒星数量的上百倍。我们对于这些细胞如何组成一个复杂的生命体一直缺乏了解。

2020年,华大自主研发了时空组学技术——Stereo-seq,该技术实现了生命在时间和空间维度上“细胞地图”的全面绘制,帮助了解组成我们身体的细胞在做什么、如何交流,甚至看到它们的过去、现在和未来,将大大推动对于生命复杂性和人类疾病的全面认知。这一技术有望带来继显微镜的发明、人类基因组框架图的绘制之后生命科学领域的第三次科技革命。

为了应对时空组学应用中面临的海量数据和数据分析的挑战,华大生命科学研究院时空组学团队开发了时空云平台——STOmics Cloud。

近日,《生物世界》专访了华大生命科学研究院主任科学家张勇,就时空云平台的特点和优势、对时空组学研究的帮助和推动作用,以及后续发展计划进行了深入交流。

时空组学助力科研突破

张勇告诉《生物世界》,现阶段时空组学最大的优势是可以在单细胞水平同时获取组织学结构信息和转录组等多组学数据。我们常说,结构决定功能,对于组成组织的细胞来说同样如此,例如,通过时空组学技术,我们可以获取癌细胞与免疫细胞的相互作用,还能在单细胞分辨率上分析细胞之间的基因表达差异,为癌症治疗、精准医学带来更多可用信息。

2022年5月,华大生命科学研究院联合多个科研团队在 Cell 出版社官网以专题形式发布了全球首批生命时空图谱。这是人类首次从时间和空间维度上对生命发育过程中的基因和细胞变化过程进行超高精度解析,为认知器官结构、生命发育、人类疾病和物种演化提供全新方向。

华大生命科学研究院联合多个科研团队机构,基于华大时空组学Stereo-seq技术,绘制了小鼠胚胎发育时空图谱,该成果作为封面文章发表于Cell期刊

2022年9月,华大生命科学研究院联合多个科研团队在 Science 期刊发表论文,绘制了首个蝾螈脑再生时空图谱,这也是全球首个脑再生时空图谱。该研究为认知脑结构和发育过程提供助力,也为神经系统的再生医学研究和治疗提供新的方向。

华大生命科学研究院联合多个科研团队,基于华大时空组学Stereo-seq技术,绘制了首个蝾螈脑再生时空图谱,该成果作为封面文章发表于Science期刊

2023年7月,华大生命科学研究院联合多个科研团队在 Cell 期刊发表论文,使用新开发大视野空间组学技术Stereo-seq和高通量单细胞核转录组测序技术DNBelab C4 snRNA-seq,成功绘制了猕猴大脑皮层的细胞类型分类树,产生了较为完整的世界首套猕猴全脑皮层的单细胞以及空间转录组数据,为进一步研究各类神经元之间的连接提供了分子细胞基础。

华大生命科学研究院联合多个科研团队,基于华大时空组学Stereo-seq技术,绘制了猕猴大脑皮层的细胞类型分类树,该成果发表于Cell期刊

除此之外,全世界有来自30个国家的500多个科研团队使用华大自主研发的时空组学技术Stereo-seq开展科学研究,并输出了大量研究成果,而这些成果都离不开海量测序数据的支持。

高性能计算加速时空组学分析

随着基因组学和时空组学等前沿技术在医疗、农业、食品等领域的普及,数据量还将呈现爆炸式增长,据悉,一张华大时空组学芯片测序产生的数据量可达TB级别,这也对数据的存储、计算和传输都提出了很高的要求。近年来,通过高性能计算(HPC)+人工智能(AI)以及异构计算的方式进行生命领域的研发,已经成为一个主要的技术趋势。

在张勇看来,这是目前业界的主流趋势,而这其实主要是因为最近几年来数据增长越来越快,尤其是生物数据的增长,每年都以超过摩尔定律的效率在提升。仅通过CPU的性能增长已经越来越难以满足巨大的数据分析需求。而华大也一直在探索通过不同的方式进行相关优化,包括异构计算的架构。

在时空组学的分析流程中,既需要借助高性能计算(HPC)算力,对产生的海量测序数据行进行处理,同时也需要借助异构算力NPU对图像特征进行识别,图像分割,细胞注释,以及聚类分析等等。

释放大模型的强大能力,时空云平台加速科研突破

深圳华大生命科学研究院联合刚组建的武汉华大生命科学研究院,在武汉正式发布了全新升级的时空云平台——STOmics Cloud。

张勇表示,在华大近期在国际顶尖学术期刊发表的几项研究中,STOmics Cloud发挥了重要作用,这些研究利用了云平台的大数据一站式分析和协同管理能力,以及云平台的并行计算软件,大大加速了对实验数据的计算和分析速度。

张勇进一步解释道,STOmics Cloud另外一个优势是整合了目前大语言模型的通用人工智能能力,可以灵活辅助研究人员进行时空组学知识问答、代码辅助生成和智能文献速览等操作,并将在未来实现智能组学分析、生物解读和文章辅助撰写等功能,为充分探索时空组学数据提供了一个领先的数据分析平台,加速科研进程、助力科研转化。

华大之所以将最前沿、最新成果时空云平台及时空组学算法工具研究放在武汉,正是看准了武汉在生物种质领域的科研优势、在疾病早筛领域的产业优势以及武汉超算中心+人工智能计算中心的基建优势。

张勇表示,对于时空组学研究,需要使用高性能计算(HPC)对产生的海量生物学数据进行分析,另外,时空云平台也一直在探索人工智能(AI)赋能,包括开发一些底层算法。因此,武汉超算中心+人工智能计算中心既在很大程度上支持了华大时空组学的大数据处理,也为时空云平台的AI模型提供了长远赋能。

早在上个世纪末,华大就代表中国参加了人类基因组计划,这一规模宏大的科学探索工程的成功让我们得以窥探生命的“天书”。而如今,华大自主开发的时空组学技术Stereo-seq和时空云平台STOmics Cloud为生命科学领域带来了新的科技革命,将助力我们解析生命的本质,认识疾病、治疗疾病,以及对抗衰老、延长寿命。

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈