- +1
专访四位复杂系统研究者:跨学科研究中的复杂科学
四位研究者(从左至右):吕琳媛、刘宇、胡脊梁、陆超超
专访四位复杂系统研究者:跨学科研究中的复杂科学
霍金在新千年来临时直言:21世纪是复杂性的世纪。但我们很少听到哪位学者声称自己是“复杂科学家”,因为对复杂性的探索深入各个学科。
本期访谈的四位受访者所在的学科领域,均与复杂科学有着千丝万缕的联系:网络方法作为抽象建模的手段,近20年在社会、经济、人工智能等领域应用广泛,成为复杂科学最亮眼的领域;生命起源问题则直指复杂系统的创造与演化过程,甚至让我们得以超越地球生命的视野,在宇宙尺度追问生命是什么;生态系统研究既是复杂科学的主要来源之一,也在复杂系统方法的帮助下不断取得突破,帮助人类认识到自己也只是系统的一部分;机器学习领域的因果革命以及向新一代人工智能的迈进,则有望破解复杂系统中的涌现之谜。
1/复杂系统的骨架:网络
专访吕琳媛
受访人 _ 吕琳媛(电子科技大学基础与前沿研究院)
采访人 _ 刘培源
请介绍一下您的研究方向。
吕琳媛:我主要从事统计物理与信息科学交叉领域的前沿研究,关注网络信息挖掘的基础理论和关键方法。网络信息挖掘是复杂系统研究的重要方向,其核心是研究如何快速、高效地从大规模网络中挖掘出有价值的信息。这方面的研究不仅为理解大脑、信息、城市等各类复杂系统的结构、功能、演化机制提供了理论框架和方法论支撑,也具有重要的应用价值。近年,我们重点关注网络高阶分析(即以一种新的高阶视角对网络进行研究)方面的理论及应用研究。
为什么复杂系统研究需要复杂网络?
吕琳媛:复杂网络是描述复杂系统的抽象模型。其中,节点表示复杂系统的组成元素,节点之间的连边表示各元素之间的相互作用。真实世界中的许多复杂系统都可以用复杂网络的形式进行描述,不同系统所具有的共性都蕴含在其所对应的网络结构中。复杂网络也为不同学科领域的复杂系统研究提供了重要的理论和方法支持,是复杂系统研究发展到21世纪,伴随着互联网、大数据、人工智能的发展涌现的一个新兴前沿方向。
请谈谈您在链路预测和节点排序两方面取得的主要研究成果。
吕琳媛:我们知道,一个网络包含两个基本要素,即连边(或链路)和节点。在网络的框架下,网络信息挖掘就可以从对连边和节点的认识出发,分别对应重要链路挖掘和重要节点挖掘问题。其中,前者又可细分为对缺失链接的预测(即链路预测问题)和对虚假链接的识别问题,而后者本质上是对节点的重要性进行排序。
链路预测,即基于已观察到的网络结构来预测网络中未连接的两个节点之间形成链路的可能性,预测对象既包括可能在观察中被忽略的链路,也包括未来可能出现的链路。链路预测本质上是从网络链路的微观层面解释网络结构生成的原因,具有广泛的应用场景。例如,其可用于在线社交网络的好友推荐、指导生物网络的结构验证实验、预测疾病和致病基因的关系。
链路预测
吕琳媛 周涛
高等教育出版社, 2013
在网络中,重要节点是指相比其他节点能够对网络的结构与功能发挥更大影响的一些特殊节点。节点排序(或称节点重要性排序、重要节点挖掘)旨在将这类特殊节点识别出来。对重要节点挖掘的研究不仅具有理论意义,也可以解决与社会经济相关的现实问题,如遏制传染病传播、控制社交媒体舆情。
近年,我们利用统计物理学的理论和方法解决了信息领域的若干重要问题,原创性地提出了以系综理论和似然分析为基础的网络信息挖掘基础理论体系,以及以扩散动力学为基础的系列网络信息挖掘方法,相关研究推动形成了一个新的物理、信息交叉研究方向,成果也获得广泛应用。
比较有代表性的是,在链路预测方面,我们首次提出网络链路可预测性的概念并给出定量刻画指标,被国际同行称为链路预测领域的一个里程碑;在重要节点挖掘方面,我们首次揭示了过去30年被认为不相关的三个重要指标——度中心性、H指数和核数——的内在联系(即网络的DHC定理),并提出有效挖掘网络中重要节点的系列算法,解决大规模演化网络的重要节点识别难题。目前已有部分研究成果被应用于网络舆情监控、致病基因预测、医保欺诈识别、电子商务服务等实际系统中。
2021年复杂系统研究者获得诺贝尔物理学奖,这对复杂科学意味着什么?
吕琳媛:这是诺贝尔物理学奖首次被授予与复杂系统相关的研究者,对复杂系统研究具有里程碑意义,对于从事相关研究的学者也是一个极大的鼓舞。这既说明复杂系统领域的研究和重要成果已经获得科学界的认可,也表明通过具体系统研究来发展复杂系统的基本理论仍然任重道远。我相信,这一事件将推动复杂系统研究进一步发展,尤其是在当今的数字化时代,复杂系统与复杂网络的理论和方法有了更广阔的用武之地,在其与人工智能、生物、社会、经济等多学科交叉融合的过程中不断涌现出更具挑战的新问题,有待进一步探索。
恭喜您获得国际网络科学学会2022年Erdős-Rényi奖,您怎样评价中国学者在复杂科学领域的贡献?
吕琳媛获2022年Erdős-Rényi奖
图源:集智俱乐部
吕琳媛:在我国,最早由钱学森先生与一批科研人员对复杂系统进行了积极的探索,知名系统科学专家方福康老师也是其中一员,他也是我的母校北京师范大学管理学院(现在的系统科学学院)的创始人。钱老等前辈早在20世纪70年代就对复杂性科学进行了研究,创造性地建立了系统科学与系统论。21世纪前夕,小世界网络、无标度网络等的提出使许多物理学家(尤其是统计物理学家)认识到,使用复杂网络作为复杂系统研究工具的重要作用。我国学者对复杂系统及复杂网络的研究主要分为三条路径:一条以理论物理、统计物理学者为代表,强调对复杂系统基础理论的研究;一条以计算机、控制领域学者为代表,关注对系统的管理、控制以及在工程领域的应用;还有一条关注复杂系统方法在社会经济领域的应用。在复杂系统研究的各个方向,中国学者的研究贡献都越来越突出。
中国复杂系统研究的发展,从相关会议的举办可见一斑:中国网络科学论坛自2004年起已举办了18届,全国复杂网络学术会议自2005年开始已举办了17届,还有中国系统科学大会、全国统计物理与复杂系统学术会议等众多相关会议在持续举办,说明复杂系统研究在我国愈发受到重视。另外,2018年,国际网络科学冬季会议(NetSci-X)首次在中国杭州举办,国际网络科学大会(NetSci)于2022年7月在上海顺利召开,标志着国内网络科学研究得到了国际同行的认可。在一些领域,我们已经和国际同行处在同一水平,甚至做出了自己的特色。当然,要想完全引领发展,还有很长的路要走。基于中国人固有的系统整体思维观、互联网在中国本土的广泛应用以及国家对科技创新的高度重视,我们坚信,未来中国一定有机会成为全球复杂系统研究的高地。
当前热门的跨学科研究对复杂科学的意义是什么?
吕琳媛:这是好事。传统的科研模式已不能适应飞速发展的社会需要。网络时代,不管是科研活动内部,还是科研与经济活动之间,除了分工,更需要合作。这里所说的合作不是像组装零件那样简单,而是一种有机的整合。应该说,在万物互联的今天,分工就是为了更好地合作。对于科研活动(特别是交叉科学的研究)而言,我们既需要在各自的学科领域进行深入持续的研究,也要看到其他学科前沿的发展及其与自身研究的关系,这样才有可能取得更有影响力的研究成果。另外,今天人类面对的问题越来越复杂,已经很难从单一学科去解决,这也为复杂科学这类交叉研究提供了大展拳脚的契机。当然,这种交叉一定是围绕关键科学问题来展开的,而不是简单地为交叉而交叉。
您怎样看复杂科学与人工智能的结合?
吕琳媛:人工智能技术为复杂系统研究提供了前沿方法,在提升解决相关问题的准确性和计算效率等方面具有显著优势。尤其是在当前海量数据的背景下,考虑到数据的高维度、强噪声、稀疏性、异质性等性质,人工智能技术可以有力赋能数据的收集、处理及提取复杂系统的特征和要素等重要环节。复杂系统研究与人工智能技术的结合是未来一个极具潜力的方向。
复杂科学的前景如何?
吕琳媛:我认为,在未来的几年里,复杂系统的研究将在脑科学、数字治理、军事科学等多个领域开花结果。随着理论和研究方法的深入发展,复杂系统研究将会为这些领域带来新的研究视角及方法。以复杂网络为例,近期我们关注的网络高阶分析在脑网络等研究领域取得了初步的成果,这些成果为我们认识人类大脑提供了新的洞见,为临床应用和开发类脑计算框架开辟了新途径。我们相信,将复杂系统的理论和方法与具体的研究背景和研究问题相结合,具有解决已有难题的巨大潜力。我们也清楚地认识到,现实世界中的真实系统具有特征多变、动态演化、不可预测的特点,且对效率、精度和成本的要求更高。在这种情况下,如何发展更符合现实的复杂性科学理论和方法,并将其有效地应用于真实系统中,还需要更进一步的研究实践工作,也需要不同领域学者的参与和合作。
2/生命起源与复杂性
专访刘宇
受访人 _ 刘宇(北京师范大学珠海校区复杂系统国际科学中心)
采访人 _ 梁金
请谈谈您的研究方向。
刘宇:我是物理学出身,博士读的是应用数学,现在的研究方向是生命起源的建模,涉及生命起源理论、自我复制、信息演化、生物信息学、神经网络模块等。目前,我的主要研究课题包括:信息是通过怎样的作用产生和积累的,这种作用如何塑造了演化,以及我们如何在真实的蛋白质和基因序列中发掘这种作用的痕迹(即重复和层次嵌套结构)以应用到实际问题的解决中。
生命起源的基本问题是什么?
刘宇:生命起源的基本问题是“自我复制”(或自复制)怎样产生。因为自我复制被公认为是生命的主要特征之一,包括我在内的部分学者甚至认为,自我复制是生命最主要的特征。生命,包括组成生命的细胞,都可以自我复制:从一个变成两个,两个变成四个。但非生命物质——大到一块石头,小到一个分子——都无法复制自身。为什么一群不能自我复制的分子放在一起形成了系统,这个系统却能够自我复制?这是一种涌现现象,也是生命起源的关键。
我们可以从不同角度去研究自我复制的问题。我主要从复杂科学,也即更偏理论的角度出发来研究自我复制的机制、能力是怎样涌现的。但也有很多其他研究角度,比如合成生物学的角度,研究如何从合成蛋白质或者合成核糖核酸(RNA)开始,逐步制造出人造细胞;再比如化学的角度,我们可以通过构造一些真实的化学反应体系并调整优化,看其能否出现自我复制的性质。
怎样理解自我复制的过程?
刘宇:关于自我复制,目前已经有相对成熟的理论解释,尤其是在微观层面,比较经典的是“自催化集”理论。虽然任何基本的化学反应都不能实现物质的自我复制,但通过某些方法能够把许多化学反应耦合在一起,变成一个系统,这个系统就有可能实现自我复制。化学反应系统要实现自我复制需要具备两个条件:第一个条件是,这个系统里的每一个方程的反应物都来自系统里其他方程的生成物,相当于一个头尾咬合的过程;第二个条件是化学反应的产出比,要求方程中某种物质的产出量比消耗量多。只要一个化学反应网络满足这两个条件,就会出现“自催化”,即能实现自我复制。如果产出不比消耗多,就只是单纯的催化反应。这里所谓的自我复制,指的都是作为系统、整体的复制。如果输入的反应物充足,那么系统里的东西的个数就会以指数形式增长。从更高层次看,系统就实现了自我复制。
At Home in the Universe
Stuart Kauffman
Oxford University Press, 1995
在生命起源的过程中,蛋白质和脱氧核糖核酸(DNA)何者先出现?
刘宇:这个问题看起来像“蛋生鸡还是鸡生蛋”的问题。生命或者组成生命的细胞要实现任何功能,都需要蛋白质的参与,即便是DNA的复制也是如此。蛋白质参与实现细胞功能的过程,被统称为代谢。DNA是储存信息的物质,蛋白质的信息被编码在DNA中,所以蛋白质的形成也离不开DNA。此前主要有两派观点,他们也代表两条研究路径:“信息为先”一派认为DNA或RNA等储存信息的遗传物质先出现,“代谢为先”一派则认为蛋白质等功能分子先出现。我们觉得这两条研究路径最终会走到一起,我们近期的工作似乎能在理论上看到这一点。这个看似悖论的问题,其实只是同一个系统在不同层次的特征而已。在低的尺度上看是自催化过程,在高的尺度上看则是自我复制。
能够演化出复杂性的系统具有什么特征?
刘宇:如果一个系统具备两个特征——能够“成核”、能够“复制”,这个系统就一定能实现从简单到复杂的演化。我们称之为梯径系统,这也是我们最近在进行的研究。所谓成核,就是系统产生新的组件,比如旧技术被改造成新技术,或现有蛋白质被改造成新蛋白质,改造的过程就是形成新组件的过程。生命显然具备这一特征。另外,一个系统中只要有部分组件能够复制,这个系统就具有了能够复制的特征。生命显然也具备这一特征。实际上语言也具备类生命的特征,发明新词就是成核,别人用了你发明的新词就是复制。
生命演化的过程是一个修修补补的过程,伴随着适应和优化,可能并不是从简单到复杂的单向演化。虽说人类从单细胞生物演化而来,比单细胞生物复杂,但这并不意味着单细胞生物消失了。甚至“人类比细菌复杂多少”这个问题也有待深入研究,二者的差异可能并没有想象中那么大。所以,如何找到合适的工具来度量复杂性也是关键问题之一,这是后续生命起源理论研究的重要议题,也是我们的一个研究方向。
生命起源研究与复杂科学的关系是什么?
刘宇:生命起源是复杂科学中的一个很重要的问题。实际上,生命起源及其背后的信息演化、自我复制问题,甚至是科学的终极问题之一。当然,生命起源问题不仅仅能够用复杂系统理论来解释,更可以从化学、物理学、合成生物学、人工智能等角度切入。
在复杂科学领域,我们主要用抽象理论而非实验来研究生命起源,这是复杂科学的优势。复杂科学更关注框架,而框架中待填充的实体是可变的。我们建立关于自我复制、生命起源的模型,可以不去关心具体依附的物质是什么,不去考虑化学约束或物理约束,纯粹将其抽象为数学上的客体。如果我们能在理论上解释生命怎样起源,我们还可以把它应用在其他天体上,去看上面有没有符合生命特点的事物,而不必考虑其是否和地球生命同源或相似。
3/生态系统的复杂性
专访胡脊梁
受访人 _ 胡脊梁(麻省理工学院生命系统物理学中心博士在读)
采访人 _ 刘培源
请介绍一下您的主要研究方向。
胡脊梁:我们团队主要结合实验和理论,研究复杂生态群落与复杂生态网络背后的动力学、稳定性、生物多样性及其随着时间演化的特征;主要以微生物群落为模型,在广泛的参数范围内观察生态系统的结构和动力学,尤其关注系统发生分叉的临界点,关注两个乃至更多物种间相互作用时网络社团结构的组装规则。
在上述基础上,我个人的研究更关注上百种细菌组成的复杂生态系统,基于统计物理和平均场论等方法建立模型,寻找复杂生态系统涌现出的控制参数,以少量可测量的群落特征预测其动力学演化和生物多样性。
怎样理解生态系统与一般复杂系统的异同?
胡脊梁:生态系统与一般复杂系统的相同点是它们的变量和单体数量都很庞大,不同的物种既和其他物种有相互作用,也和环境有很强的相互作用,从而形成一个物种和物种、物种和环境的复杂的相互作用网络。
生态系统的独特性在于,其是由不同物种和它们所在的环境(也即生物部分和非生物部分)共同组成的开放的系统。它一定会和外界有能量或物质的交换。另外,生态网络中不同物种的相互作用机制及其强度的区别极大,所以形成的复杂网络的异质性很高。生态系统的另一个特点是,环境的作用极其重要。例如,对于同一组菌群,其在不同的营养物质、温度等环境条件下可能达到完全不同的系统稳态。
生物多样性的起源是什么,是如何被破坏的?
胡脊梁:首先,生物多样性的成因不难理解,一个群落在演化的过程中会不断产生突变,经过足够长的时间,就会形成新的物种。不断产生多样性是自然进化的过程。当新物种从一个生态系统中产生,或从外界入侵一个新生态系统时,它有三种可能的命运:适应性差,于是衰落;很适应并且融入系统;很强势,但破坏了系统。统计显示,给定环境中的生物多样性会维持在某些稳态附近震荡。
从动力系统的角度来看,生物多样性主要取决于其所在的环境,尤其是某种环境下生态系统中相互作用的强度、丰富程度及韧性。在一个竞争较弱的环境里,生物多样性可能较高,而在一个竞争较为激烈的环境中,生物多样性则相对较低。这也是为什么一些入侵物种非常有害,因为它们和当地原有物种的相互作用很强,如形成激烈的捕食或竞争关系,可能导致当地物种灭绝。在现实中的大规模生态系统里,多样性与复杂性之间往往相互权衡。换言之,高度多样化的生态系统,其复杂性一定有所减弱,物种间的相互作用也更弱。
多样性-复杂性散点图:越多样的系统,复杂性越低
图源:集智俱乐部
复杂科学的哪些前沿方法已被应用于生态系统研究?
胡脊梁:复杂系统和复杂网络的粗粒化方法是我们目前重点关注并力图应用于生态系统研究的前沿方法:我们不需要用生物群落所包含的所有种群数来描述群落,而是找到少数的控制变量,用少量参数来描述生态系统,就像用温度和压强来描述大量气体分子的行为。
4/从因果到涌现:迈向新一代人工智能
专访陆超超
受访人 _ 陆超超(剑桥大学机器学习组博士在读)
采访人 _ 梁金
请谈谈您的研究方向。
陆超超:我的主要研究兴趣是因果机器学习。通常所说的机器学习,其目的在于从数据中发现模式,然后根据模式做出预测。预测之所以困难,是因为我们处在一个复杂的世界。一个极端的例子是混沌现象:即使所有的函数都是确定的,仍然会产生蝴蝶效应,微小的初始变化会导致迥然不同的结果。
我们的工作是在传统机器学习的基础上引入因果机制,用结构因果模型来建模数据生成过程。这样就可以提供一个非常通用的框架,来描述数据分布是怎么变化的,从而更好地预测和应对外部的变化。因果机器学习是处理数据变化的理想框架之一,正在成为新一代人工智能的重要基础。
请具体介绍一下因果机器学习。
陆超超:因果机器学习是一类用因果模型建模数据生成过程的机器学习方法的总称,其目的是更好地处理现实生活中大量存在的数据分布变化的场景,其两个重要的子方向是因果表征学习和因果强化学习。
为什么
朱迪·珀尔 达纳·麦肯齐
中信出版集团, 2019
因果表征学习的目标是,从低层次、高维度的数据中学习高层次、低维度的因果表征。一个好的因果表征不仅可以极大简化机器学习分类器或预测器的设计和学习,还可以有效地应对新场景中的数据分布变化。对于分类任务,例如判别某张图片是否为猫,人们会根据形状是否像猫而做出判断,所以,在该任务中,形状是因果表征。而人们不会根据背景、颜色、姿态等判断出图片是否为猫,所以这些特征不是因果表征。对于预测任务,例如场景中猫的背景等变化并不会影响分类器的性能,因为背景信息不是猫的因果表征,它不会被分类器利用。
我们知道,强化学习是让智能体(agent)在与环境交互的过程中学习的策略,因其在AlphaGo等击败人类顶尖玩家的游戏中的运用而广为人知。但是,传统的强化学习无法应对环境的变化,即在一个环境中学习到的策略很难迁移到另一个环境中。因果强化学习则是让智能体在和环境的交互过程中学习和发现其因果模型。因为因果模型是描述环境变化的理想工具之一,根据因果模型来优化自身策略,可以更好地应对环境变化,进而指导、优化下一步交互——这正是对人类行为的模仿。也因此,因果强化学习实质上是一种通用学习算法,有广泛的应用潜力,正在向计算机视觉、医药健康、推荐系统、自动驾驶等领域渗透。
因果科学的方法怎样应用于复杂系统研究?
陆超超:因果表征学习作为因果科学的前沿方法,可以用于研究复杂系统中的涌现现象。涌现是从微观到宏观的产生过程,这与因果表征学习恰好对应。因为表征学习也是一个从微观到宏观的学习过程,它从一些微观的信息(比如图像或者音频)中可以学到宏观的、可解释的因果变量。
例如对于文本,单看一篇文章中的字之间的关系很复杂,但如果把文章做抽象概括,每一段话都有一个中心意思,你可以只看每段话的中心意思,这样整篇文章的逻辑结构就变得清楚了。另一个例子是图像,图像中低层次、高维度的像素之间的关系很复杂,但如果我们能从图像中学习到视角、颜色、形状等高层次、低维度的宏观变量,就能更好地理解图像。因果表征学习,就是要从这些低层次、高维度的数据中,学习到高层次、低维度的变量。这些变量就是更宏观的概念,便于人类理解并发现复杂数据中更本质的规律。
(原载于《信睿周报》第83期)
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司