澎湃Logo
下载客户端

登录

  • +1

单位测序成本以“超摩尔定律”速度下降,全球大规模队列研究恰逢其时?

澎湃新闻记者 贺梨萍
2023-09-19 17:39
来源:澎湃新闻
能见度 >
字号

上世纪末至本世纪初,美、英、日、法、德、中等6国科学家用了13年时间完成第一个人类全基因组图谱,花费近30亿美元。而近20年来,随着基因测序技术的迭代升级,单位测序成本正以“超摩尔定律”的速度飞速下降。

成本日益亲民化之后将带来何种效应?近日,来自中国、英国、美国以及新加坡等多国研究学者在于南京举行的一场论坛上由此重点讨论了队列研究中国发展路径,该论坛由南京医科大学、全球基因测序仪龙头因美纳(Illumina)等多方举办。

与会者在大会中传递出一种趋势:研究人员能够在有限的预算范围内对更多的样本进行测序,并结合生物信息学分析及解读的进步,正持续驱动着精准医学领域新见解的快速发现,尤其在肿瘤学、微生物等领域促进了许多新的诊断和预后标志物的研究进展。

实际上,自人类基因组计划完成以来,以发达国家为代表的全球主要经济体持续加大对大规模人群队列研究的投入和支持。与此同时,过去25年间基因测序技术的高速发展以及与大数据科学的交叉应用,使大规模生物信息数据分析研究成为可能。

全球启动最早的英国生物样本库(UKB)即被称为规模最大、样本最全、开放程度最高的“典型范本”。该样本库共收集了来自50万名年龄在40到69岁之间的英国人的健康数据,共有约1500万份生物样本。换言之,每1000名英国人中就有7人参与其中,且平均每名参与者对应30份样本。

英国剑桥大学Emanuele Di Angelantonio教授在大会上表示,“UKB集合了来自政府资助、科研机构和产业基金等各方的力量,真正实现了大规模公众支持、样本深度分析、数据共享、成功对接医学研发的研究目标。UKB特有的开放性,为科学家与研究人员提供了独特的价值——既能提供数据来指导实践,又能促成新的病因学见解,使得科研‘大数据’被不断刷新。因此,各种机构能够广泛加入,形成合力,使得生物样本库可持续‘运转’,从而充分发挥它的健康影响力。”

中国也是全球最早启动精准医学和队列研究的国家之一。值得一提的是,我国人口基数大,民族多样性丰富,地区差异明显,疾病谱复杂,具有开展大规模人群队列研究的独特优势。

而随着中国队列研究的发展,当前业内开始更多地关注多学科多中心协作、标准体系统一、生物样本数据共享等下一阶段问题。上述大会提到,以中国慢性病前瞻性队列(CKB)、泰州队列、江苏出生队列等为代表的大规模人群队列研究项目均取得了重要进展,这为制定符合我国国情的疾病防控对策提供了新思路与科学依据,也为全球队列研究提供了“中国样本”。

中国工程院院士、中国医学科学院肿瘤医院林东昕教授即表示,“队列研究对了解中国特有的疾病成因和防治手段的制定非常重要,以食管癌为例,全世界一半的食管癌患者在中国,我们对于食管癌的研究以及从科研成果转化而来的食道癌早筛早诊技术,其实是位居世界前列的。”其强调,中国人群基础健康数据库的建立,对于改善国民健康乃至促进世界范围内人群主要慢病危险因素及全球病因学研究具有重要意义。

此外,人口老龄化也对人类健康提出了新的挑战。中国疾病预防控制中心副主任施小明研究员是中国老年健康生物标志物队列项目的带头人,他表示,“当前,我国人口老龄化形势突出,且老年人口多种慢性病共存比例达75%,为社会和公共服务带来一系列挑战。老龄人群健康问题的研究需要深入探究遗传学机制,我们希望通过对全国代表性队列和重点地区数据的分析研究,为我国健康老龄化的推进应对提供科学证据。”

值得一提的是,单个人的全基因组序列数据约为90GB(十亿字节),一项50万人的队列研究仅基因组序列数据就高达约5.6 PB(千兆字节),约等于5亿张照片与1.5亿小时视频的数据量。美国国家卫生研究院发布的数据显示,每年生成的基因组数据量接近400亿GB。

然而,获取这些数据仅仅是解开诸多生命谜团的第一步,测序获得的海量数据如何处理则是该技术“有效应用”的关键。作为设备和技术的提供方,全球巨头因美纳(Illumina)也参与了上述大会。该公司人工智能副总裁、杰出科学家Kyle Farh在大会上提出,“基于人工智能和大模型的算法正在基因数据领域展现巨大潜力,因美纳研发团队正全力推动基于自然选择训练的AI算法在基因数据中的应用开发。”

ChatGPT等大模型点燃人工智能新一轮热潮之际,因美纳在今年6月宣布推出全新人工智能(AI)算法——PrimateAI-3D,其能够利用灵长类动物基因和先进的人工智能技术来改善遗传风险预测和药物靶点发现。

因美纳方面此前介绍,PrimateAI-3D采用了与ChatGPT和AlphaFold类似的深度神经网络架构,不同之处在于PrimateAI-3D是根据基因组序列而不是人类语言来进行训练。“你可以在维基百科和其他地方的现有文本上训练ChatGPT等生成语言模型,我们使用了类似的深度学习架构,但我们的数据来自数百万年的自然选择。”

    责任编辑:王杰
    图片编辑:蒋立冬
    校对:施鋆
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈