- +1
原子尺度上的追逐|专访张强锋:为何27岁从零开始学生物
【编者按】
大至蓝鲸,小至病毒,生物的世界,可谓千差万别。但无论形态多么丰富,生命的奥秘却藏在蛋白质之中——它们好比构筑生命大厦的砖石,决定着生命可能具有的生物功能。要探究蛋白质结构,这就进入了微观的世界,是对纳米级别世界的窥探。1纳米相当于把一根头发丝切成5万份。要看清蛋白质结构,必须有“火眼金睛”。
中国在蛋白质领域曾有杰出建树。上世纪70年代初期,中科院物理所、中科院生物物理所、上海生化所、北京大学化学系、北京大学生物系共同组成的“北京胰岛素结构研究组”测定了亚洲第一个蛋白质晶体结构——猪胰岛素三方二锌晶体结构,这是中国结构生物学历史发展的起点。
历经跌宕起伏,50年过去后,中国的结构生物学家再次站上国际科研队伍的前列,试图在近原子分辨率下探索生命的奥秘。在最近向世界级高水平之巅发起的攀登中,清华大学结构生物学高精尖创新中心(下称“高精尖中心”)无疑是最耀眼的一支队伍。
该中心于2015年在北京市高等学校高精尖创新中心建设计划下应运而生,但该中心的力量积累则需要再往前推进20年。现年75岁的中国科学院院士、中国冷冻电镜先行者隋森芳即是早期最重要的力量之一,至今依然在该中心从事科学研究,并培育出不少当下的中坚力量。
近日,澎湃新闻(www.thepaper.cn)记者来到清华大学,专访了清华大学生命科学学院院长、结构生物学高精尖创新中心执行主任王宏伟教授,清华大学医学院教授、结构生物学高精尖创新中心副主任李海涛,清华大学生命科学研究员、结构生物学高精尖创新中心PI李雪明,清华大学生命科学研究员张强锋,去年刚从清华大学生命科学学院博士毕业、新晋“世界最具潜力女科学家奖获得者”白蕊。通过这五位和高精尖中心深度交集的科学家向读者展现出:伴随着该中心的发展壮大,近几年来中国结构生物学如何再次站上世界前列。
多学科交叉已经成为大部分重磅研究的“标配”。清华大学生命科学学院研究员、结构生物学高精尖创新中心PI张强锋的实验室,则在单个实验室内将这种交叉学科的特色体现得淋漓尽致:集结构生物学、基因组学、机器学习和大数据分析等多门学科在内。
作为实验室的领头人,张强锋近日在接受澎湃新闻记者(www.thepaper.cn)采访时笑着表示,“可能像我这样拥有两个PHD的人也不多吧。”
张强锋有着备受瞩目的起点——中国科学技术大学“少年班”,在这所校园里度过了整整10年,直到博士毕业。2006年,获得中科大计算机博士学位的张强锋心思却早已不在“不需要计算机的理论计算机科学”上,27岁选择从零开始:远赴美国攻读哥伦比亚大学生物化学和分子生物物理系的博士学位。
“当时对生命科学特别感兴趣,纯粹是为了好玩。但我就想花特别多的时间真正搞清楚生命科学到底研究什么,因此我决定再去读一个博士。”张强锋再度回忆起来,一个没有生物学背景的计算机博士的“第二个博士生涯”的最初选择就是这么简单纯粹。
9年时间,张强锋辗转纽约和加州,通过5年时间获得了第二个博士学位,随后在哥伦比亚大学和斯坦福大学医学院继续进行了4年的博士后工作。
“一个好的科学家,他不应被领域所局限,应该按照自己的兴趣去追问科学问题。”张强锋过去的选择或者仅仅基于这样一份简单的信念。
中科大到哥大:11年攻读两个博士学位
张强锋起步于中国科学技术大学“少年班”,且在中科大一待就是10年。
“在国内一直学计算机,但我学的是理论计算机,也就是不需要计算机的计算机科学。基本是数学的问题,比如说证明某一个问题是不是可以计算,计算机模型是否可以去做。”对于这段已经过去14年的生涯,张强锋的总结略为简单。
接下来的常规路线是出国深造,张强锋沿着这条路线迈了并不常规的一步。27岁的张强锋远赴美国纽约曼哈顿,决定进入另一个完全崭新的领域,去哥伦比亚大学生物化学和分子生物物理系攻读博士学位。
“我出国也可以去做博后,但当时对生命科学特别感兴趣,我就想花特别多的时间沉淀下来,再去读一个博士,那时候有兴趣也有时间。”跨学科在科学领域内并不罕见,但像张强锋这样拥有两个学科背景相差甚远的博士学位的人并不多。
另外,不同的角色自然也承受不同的期望和压力。“如果你是博士后的话,导师、同事以及周边的人,对你的要求就会期待你尽快地去发表成果或者建立自己的学术影响,但对于博士,大家可能觉得他是来学习的,所以我当时选择这样一个角色 。”
2006年到2015年,张强锋在哥伦比亚大学度过了5年博士、1年博士后生涯,随后又前往斯坦福大学医学院继续3年博士后工作。张强锋回忆起来略有感慨,“我其实花了很多的时间,在哥大一开始非常的辛苦,我是纯粹的计算机科学背景,之前完全没有学过生物,然后突然切换到一个生物领域研究生的角色,其实完全不懂。别人五分钟可以回答的问题,我可能要查上三天的资料,从零开始学习。一到考试季,只能使用达芬奇睡眠法,常常几个星期几乎不眠不休。”此外,和其他出国留学生一样,初来乍到的张强锋还要适应文化和语言差异。
谈及究竟是什么吸引其从热门的计算机领域义无反顾扎进生物堆里,中科大博士时期的一次研究生夏令营原来早已埋下了火苗。“当时有两个不同的课程,一个是计算生物学,一个是计算经济学,可能觉得对生命科学比较感兴趣,然后就去上计算生物学的课,就接触到如何用计算机去解决一些生命科学中的问题。”张强锋认为他对生命科学的兴趣可谓“一发不可收拾”。
将计算和生物结合起来,这种学科交叉的研究方法在张强锋跨领域之前就有学者在采用,但张强锋追求一个更完美的结合状态。“虽然都是交叉学科,但做什么样的科研仍取决于你在什么样的环境里面。如果你是在计算机系做计算生物学,那么你可能会强调算法、强调如何是用现有的计算框架去完成;如果你是在生命科学系,那么你更强调的是科学问题。”
张强锋推崇的是,“一个好的科学家,他不应被领域所局限,应该按照自己的兴趣去追问科学问题。”他认为自己跟其他大部分计算机科学家或者生物学家有着不一样的地方,“我不会考虑做计算更好还是做实验更好,我不会有偏好,如何更有效地解决科学问题才是最重要的。”
2015年,张强锋回国任清华大学生命科学学院助理教授,2018年至今任清华大学生命科学学院副教授,同时也是清华大学结构生物学高精尖创新中心PI,曾获拜耳研究员奖、杨森研究员奖。提及回国原因,“把自己的小追求和国家的大追求结合起来”是其中之一,另一方面则是“国内的机会、清华紧张努力的工作氛围,都比国外更好。”
在接受澎湃新闻记者采访时,张强锋毫不掩饰他的自豪,“我在计算和生物实验两方面都扎根很深,不是浅表的,更不是纯计算和纯实验的,我们课题组一半做实验一半做计算,做的生物学问题是前沿的,特有的实验技术是世界领先的,这些丝毫不含糊。”
用人工智能的方法取代高性能计算
张强锋团队目前的研究重点之一,是对蛋白质冷冻电镜的图像处理和模型搭建。
目前各大采用冷冻电镜工具研究蛋白质结构的实验室普遍使用单颗粒分析技术。这一方法需要研究人员获得成千上万张高质量冷冻电镜照片,随后进行庞大的数据计算处理,仅清华的冷冻电镜平台,每天产生的数据量达到TB级(1TB=1024GB,1GB=1024MB)。
整个流程目前涉及大量的非自动化工作。张强锋介绍,“这里面的付出非常大,比较形象来理解的话,就是我投入了人力物力50万元获得样本、采集数据,但是我还要花50万元去进行高性能的计算,拍的照片需要经过非常复杂的处理才能最后搭建出结构。”目前常规的方法是采用非常复杂的数学计算,由几百台几千台机器组成的运算中心或者超级计算机去完成。
他的方案是用人工智能的方法去取代高性能计算。“这是我们实验室的重要研究方向,如果做得好,就会节省非常多的超级计算的工作,但这个需要我们对结构生物学、计算机图像、人工智能都有很好的理解。”
张强锋进一步解释,“我们最终可以把计算的东西放到一个非常复杂的神经网络里,本来可能要通过一步一步地算100万次,才能从原始的图像到三维图像,但我们可以一步映射过去,但付出的代价是要有一个复杂的模型,这个模型里面有百万甚至千万个参数。”
在其看来,包括结构生物学在内的整个大生命科学都呈现出一个特征,即计算数据量越来越大,而人工智能这样的手段越来越有用。他认为,以前在生物学领域采用的研究模型都相对简单,“但生命系统是一个非常复杂的系统,它有非常多的因素,因素之间互相影响,你没有办法把其他因素固定下来去看其中一个因素,这就导致不能用简单模型来描述它,而是需要复杂模型来解决。”
张强锋继续提到,“但如果人来设计复杂模型仍有许多局限,深度神经网络则是个非常好的能够去刻画复杂模型的途径,再加上测得的各个维度的大数据,就可以得到一个相对能够刻画复杂系统的模型。”
不过,一切仍然处于早期研究阶段。“虽然大家已经有很多成功的例子,类似IBM超级‘医生’沃森,但实际上还有更多更复杂的问题,等着更复杂的模型去解决。”
另外,张强锋认为人工智能也是未来高通量结构生物学的一个核心部分,而高通量的结构生物学则又可能会成为药物开发关键的一部分。目前可见的是,冷冻电镜已不再只活跃在基础研究的平台,也已经成为药物研发的一个重要手段,甚至被认为“可能会改变新药研发的模式”。
“全国现在有几十台冷冻电镜,未来可能有几百几千台,那时候解析结构可能类似工厂运作,和现在完全不一样。如果我对一个药物可能的靶点蛋白感兴趣,我可能很快可以采集好样品数据,按照现在的方式可能需要几个星期甚至更长的时间才能最终搭建出三维结构,这显然无法满足前端源源不断的‘生产’。
而一旦团队开发的软件可以成功,我就不需要超级计算机、也不需要专家,我全部通过人工智能完成。”张强锋认为,在他多项工作中,这部分研究可能将最快实现和实际应用的结合。
“新的结构生物学”
张强锋目前实验室团队有接近20人,作为一个结构生物学、基因组学、机器学习和大数据分析等多学科交叉的实验室,团队成员背景多元,但做上述人工智能方向的只是一小部分。
“实验室里做RNA结构的人最多,大概有一半左右。”这部分工作是张强锋团队的另外一方面的主要工作,也是延续其在斯坦福大学医学院博士后期间的工作。
在历史的很长一段时间里,RNA都被认为只是在基因与蛋白质之间传递信息的分子。然而科学家们猜想,RNA才是生命的起源分子,经过亿万年的演化,最终产生了DNA和蛋白分子。除了充当蛋白合成的信使(mRNA)外,RNA还具有非常重要的调控功能。
而RNA结构是转录后调控的基础,对于RNA的合成(即转录)、加工(包括剪切、修饰等)、转运、翻译和降解等过程都起着重要调控作用。“我们不是通过冷冻电镜,是通过测序得到结构信息,然后通过计算把它还原出来。这些基于高通量测序的技术,可以在一次实验中,解析所有RNA,也就是转录组的结构。”
相较于传统的蛋白质结构生物学,张强锋将基因组、转录组的结构生物学称之为“新的结构生物学”。
就在2019年3月,张强锋课题组和斯坦福大学Howard Chang实验室在《自然-结构和分子生物学》(Nature Structural & Molecular Biology)杂志上在线发表了题为《哺乳动物不同细胞组分RNA结构图谱》(RNA structure maps across mammalian cellular compartments)的研究论文。
这项研究通过整合亚细胞分离技术与高通量RNA探测技术icSHAPE,解析了来自于人类和老鼠的两个不同细胞系染色体上,细胞核内与细胞质内三个组分的RNA结构。研究比较了不同亚细胞定位RNA的结构,并建立了RNA结构动态变化的位点图谱。通过关联研究,系统性分析了不同类型RNA修饰对RNA结构的影响,以及RNA结构和不同RNA结合蛋白(RBP)结合之间的相互关系。
在另一项工作中,张强锋及合作者团队以一种RNA病毒——寨卡病毒为研究对象,利用基于高通量测序的RNA结构新技术解析了活体病毒的基因组RNA结构,并研究了基因组突变在RNA水平对病毒的影响。研究通过平行解析流行的亚洲株系和非流行的非洲株系的病毒基因组RNA结构,发现了一个亚洲株系特异的结构。接下来通过实验,验证了该结构对寨卡病毒感染和传播的重要性。
这项研究显示了RNA病毒机制上的复杂性,阐释了RNA二级结构的重要作用,为相关药物开发提供了重要的结构基础。论文最后发表在《细胞-宿主和微生物》(Cell Host & Microbe)上。
张强锋还有更多“兴趣点”有待展开,mRNA疫苗和靶向RNA药物都在其中。团队的RNA结构的技术,可能大大提高mRNA疫苗的有效性。另外,开发RNA靶向结构的小分子是更前沿的方向。不过,至今为止,全球范围内的RNA药物研发刚刚开始,获批上市的更是屈指可数。团队或许可以从结合RNA结构技术和人工智能入手。
“臭名昭著的病毒很多都是RNA病毒,从流感到HIV,再到最近流行的新冠,非常容易突变和难以对付。我们能不能设计一些药物,直接靶向病毒RNA?”
张强锋认为,这都是未来有无尽可能的方向。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司