- +1
传染病监测的数据科学方法特刊:大数据怎样应对大流行
传染病监测的数据科学方法特刊:大数据怎样应对大流行 原创 自然科学会报A 集智俱乐部
导语
新冠疫情期间,数据科学发挥了前所未有的作用,成为抗击疫情的有力武器。在这段艰难时期,以跨学科与数据驱动为特征的新型传染病研究逐步成长。因此,有必要对该领域目前取得的进展做一番总结,并为利用数据科学和人工智能抗击传染病疫情的新兴领域绘制蓝图。2021年11月英国皇家学会旗下《自然科学会报A》最新发布“传染病监测的数据科学方法”特刊,收集了数据科学、计算机科学、计算社会科学、应用数学、统计学、物理学和公共卫生等领域的全球一线学者关于该主题的最新论文,介绍了他们如何利用此类研究帮助抗击新冠疫情和其他流行性传染病。该期特刊由香港城市大学数据科学学院副教授张清鹏主持编辑。入选的12篇论文涵盖了从不确定性量化和传染病学参数估算,到使用移动电话数据模拟人员移动,再到传染病疫情建模的基本问题。集智翻译了合集的综述、论文摘要、评论部分,供对传染病监测及数据科学问题感兴趣的读者参考。
研究领域:传染病,数据科学,网络科学,计算社会科学
《自然科学会报A》 | 来源
王百臻 | 译者
张澳、梁金 | 审校
邓一雪 | 编辑
特刊题目:
Data science approaches to infectious disease surveillance
特刊链接:
https://royalsocietypublishing.org/toc/rsta/2022/380/2214
目录
综述文章
传染病监测的数据科学方法
13篇论文摘要
1.新冠疫情期间时序层次移动网络的渗流
2.了解新冠疫情期间移动性的组成部分
3.模拟艾滋病毒在中国广东男男性接触者中的地理传播:考虑暴露前预防用药影响的集合种群模型
4.对不同新冠疫情严重程度的行为响应可以解释不同年龄组病例的时间变化
5.关闭学校对减少新冠疫情传播影响的全球评估
6.不均衡的影响和空间聚集扭曲了新冠疫情的增长率
7.利用时变有效接触率校正 SEIR 新冠疫情模型
8.传染病监测面临的一些基本挑战
9.基于人口水平加权社交网络的农村超级传播者特征研究
10.人群中新冠疫情测试的统计模型:抽样偏差和测试误差的影响
11.新冠疫情监测器:基于社交媒体挖掘的高效鲁棒传染病检测系统
12.中国男男性接触者艾滋病自测试剂盒二次分配中的最优资源分配:数据驱动的整数规划模型
13.应对新冠疫情的数据科学方法:叙述性回顾
传染病监测的数据科学
Data science approaches to infectious disease surveillance
作者:Qingpeng Zhang
发表时间:2020年6月12日
论文地址:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0115
我们需要新的数据科学方法来应对大规模传染病,如新型冠状病毒、人类免疫缺陷病毒、非洲猪瘟病毒和埃博拉病毒。现今,人类拥有了更丰富的数据以及更先进的数据分析方法,其中许多方法直到最近十年才得以实现。《传染病监测的数据科学方法》特刊报告了最新的跨学科研究成果,旨在开发新的数据科学方法,利用人类行为大数据来应对传染病(尤其是当前的新冠疫情)。与传统的公共卫生研究相比,本刊的文章提出了具有创新性的数据科学方法。如果没有日益增长的人类行为数据以及信息通信技术的最新进展,这些方法是不可能实现的。本刊收录了12篇研究论文和1篇评论文章,其作者来自多个学科,包括数据科学、计算机科学、计算社会科学、应用数学、统计学、物理学和公共卫生。以下简要概述传染病监测的数据科学方法,并讨论了这一新兴领域的未来。
传染病产生了大量关于人类行为的数据,包括人类移动、接触者追踪、临床记录、病毒学、药学、科学文献等数据。随着数据变得极易获得,以及数据驱动抗疫需求激增,数据科学方法现已被广泛用于了解和应对传染病监测 [1]。详见第13篇摘要。
本期《自然科学会报A》的主题性很强,邀请了世界各地的前沿学者,介绍他们用于抗击新型冠状病毒和其他传染病(包括人类免疫缺陷病毒(HIV)、腹泻病毒和呼吸系统疾病)的最新数据科学研究成果。参与学者既包括处于职业生涯早期或中期的学者,也包括业内知名学者,研究领域涉及数据科学、计算机科学、计算社会科学、应用数学、统计学、物理学和公共卫生。本期特刊共计选择了12篇研究文章,包括从不确定性量化和传染病学参数估计,到对移动电话数据的建模和传染病预测的基本问题。本刊还包含了1 篇评论文章,总结了如何采用新的数据科学方法来应对新冠疫情。本期特刊旨在促进数据科学方法在传染病监控、建模和控制方面的新研究。
相关文献概述
大多数传染病在人类密切接触时表现出传染性。因此,传染病的爆发和传播在很大程度上依赖于当地以及国际人口的移动。信息通信技术的最新进展以及智能设备的广泛采用使人们能够获得丰富的人类移动数据。本期有3篇论文聚焦于为传染病监测和防控建立人类移动模型。Jianxi Gao 和他的同事利用大规模的人类移动数据,构建了描述美国大都市统计区(Metropolitan Statistical Areas,美国人口密度较高的核心都市中,区域人口超过5万的地理区域, 由美国人口普查局和其他联邦政府机构出于统计目的而定义,无相应法律地位 )内部及之间的人类活动时序(每日的)层次网络[2]。他们研究了这些时序网络上的渗流效应(percolation effect),发现了具有高移动阈值的功能子单元的存在。这些数据驱动的见解有助于我们理解在出行限制和非药物干预(non-pharmaceutical interventions,NPIs)期间移动网络的时序社群结构。详见第1篇摘要。
在丹麦的另一项研究中[3],Laura Alessandretti 和她的同事们通过使用非负矩阵分解来描述不同的出行行为是如何导致疫情传播的。他们发现,可将丹麦人的移动模式分解为工作日、周末和假日三个不同时段的出行。他们计算了城市之间的有效距离,以检验每种类型的移动对新冠疫情传播的贡献度。这些研究结果揭示了出行限制对疫情期间人们出行的各种影响,并可能为传染病防控的有效政策提供信息。详见第2篇摘要。
人类的移动性对于艾滋病毒在高危人群(如男男性接触者,MSM)中的传播也起着至关重要的作用。Dan Wu 和他的同事们利用从男同社交网站、离线人类移动网络和男男性接触者自我报告的性行为中获得的多源大数据,研究了广东省各城市内部和城市之间艾滋病毒传播的行为动力学特征[4]。他们的研究表明,男男性接触者采用暴露前预防用药(pre-exposure prophylaxis ,PrEP)可以显著延缓所有城市艾滋病毒的发生。研究结果还表明,人类移动网络的枢纽节点面临着更高的接触早期新艾滋病毒基因型的风险。这些研究结果验证了暴露前预防用药在男男性接触者中的应用效果,并为广东省各城市控制和预防艾滋病提供了数据依据。详见第3篇摘要。
人群易感性和接触强度的异质性迫切反映了考虑新冠疫情年龄特异性严重程度的必要性。Alex Arenas 和他的同事发现,在八个国家或地区患病率较低时,老年人感染的比例非常小,而在患病率较高时,老年人感染的比例有所增加[5]。作者通过解释新冠疫情的年龄特异性严重程度,对该现象提出了一种机制解释,并通过易感-感染-清除(susceptible-infectious-removed,SIR)传播模型中的两策略博弈,对实施异质性非药物干预进行了动力学建模。他们的研究结果为理解不同年龄组之间随时间变化的病例分布提供了深刻的见解,并且对最小模型如何在实际数据中展现复杂现象有重要的启示。研究结果表明,在实践中需要考虑到由于高危人群感染率较低,导致对医疗保健系统未来压力的低估。详见第4篇摘要。
人群特定年龄的混合模式也可能影响非药物干预的效力,例如关闭学校是一种在世界范围内普遍采用的疫情防控措施。通过利用中国两个城市的监测数据,Joseph t. Wu和他的同事推断出了不同年龄组人群的易感性,并开发出传播模型来评估关闭学校对控制新冠疫情传播的影响[6]。他们发现学生的低易感性限制了关闭学校在新冠疫情控制中的有效性,并表明关闭学校可能不是控制新冠疫情理想的直接干预措施。详见第5篇摘要。
异质性还体现在地理尺度上疾病的增长率。Kristina Lerman及其同事通过分析美国多个地理尺度上确认的感染人数和死亡人数,解决了这一关键问题[7]。他们发现新冠疫情的影响在不同地区之间存在很大的差异。为此,他们提出了一种Reed-Hughes式机制*对该效应建模。研究结果强调了通过空间聚集来权衡噪音降低和偏差增加,并呼吁公共决策者注意在估计新冠疫情增长率时,考虑这种聚集扭曲的偏差。详见第6篇摘要。(*注:Reed-Hughes 机制在2002年由 William J. Reed 和 Barry D. Hughes 提出,用于解释统计分布中幂律尾的出现。)
大多数新冠疫情传播模型都基于标准SIR分区模型或其变体。在本期特刊中,有3篇论文讨论了这种分区模型的校正及其在处理实际数据时的局限性。James Gleeson和他的同事报告了以人口为基础的SEIR (E 表示 Exposed)模型,该模型为爱尔兰政府提供了疫情防控的建议[8]。为了刻画非药物干预的影响,他们在模型中引入了随时间变化的有效接触率。在文章中,他们提出了一种利用观测数据进行鲁棒校正的新型算法。他们的校正算法可应用于其他场景(例如疫苗接种)的建模,以较低的复杂性实现了良好的准确性。详见第7篇摘要。
在文章[9]中,Dirk Helbing和他的同事指出,由于忽略了随机效应、网络效应及测量过程的影响,使用SIR类型的分区模型来监测传染病的基本挑战。他们将这样的分区模型与测试过程的测量模型结合,并检查了误差和有偏采样。他们的结论是:将传统方法应用于具有非线性动力学、网络效应和不确定性的复杂系统可能会产生误导,从而影响到下游的监测和预测任务。他们认为,这些误差可以通过将传播动力学和测量过程的科学知识纳入模型来纠正。详见第8篇摘要。
SIR型分区模型另一个明显的局限性,是对社交网络均匀和完全混合的简化假设。为了描述个体间疾病传播的异质性,Nicholas A. Christakis 和同事在洪都拉斯收集了详细的纵向社交中心演变数据,并创建了一个社交网络驱动的传播模型,以识别人口中的超级传播者和易感个体[10]。通过主体建模,他们能够预测腹泻和呼吸道疾病的爆发。使用人口水平调查来验证预测和确定超级传播者和易感个体。与回溯接触者追踪不同,本研究通过模拟来主动识别超级传播者。他们的模型可以应用于其它依赖接触传播的传染病,研究结果说明有必要在疾病传播模型中考虑社交互动。详见第9篇摘要。
传染病监测的一项主要且具有挑战性的任务是通过检测准确估计患病率,因为在动态演化的人群中进行检测存在着误差和偏差。Lucas Böttcher和他的同事开发了一个统计模型来推断患病率[11]。他们的模型考虑到了抽样偏差和测试误差。新冠疫情的实证数据证明了该模型用不确定性的量化指标估计患病率的有效性。该模型框架是通用的,可以很容易地应用于其他传染病的监测。详见第10篇摘要。
社交媒体已被公认为监测传染病和公共卫生事件的主要数据源。Wei Wang和他的同事开发了新冠疫情监测系统,这是一个基于网络的新冠疫情监测系统[12]。新冠疫情监测者采用了动态图神经网络模型,通过分析推特的流数据来预测趋势,并识别新冠疫情的高风险事件。详见第11篇摘要。
资源配置是传染病控制的关键。Weiming Tang 和他的同事利用中国男男性接触者的实际数据,建立了两个数据驱动的整数线性规划模型,以优化高危人群中HIV自检(HIVST)试剂盒的二级分发[13]。结果表明,所提议的数据驱动方法在提高HIVST二级分发的卫生经济效益方面是可行的。该模型可作为指导资源匮乏的低收入和中等收入国家实施二级HIVST分发的参考。进一步的准实验性测试将比较本方法与传统公共卫生方法所产生的的实际经济效益差异。详见第12篇摘要。
本期论文许多重要的主题未涉及到,包括评估经济影响、挖掘患者数据、药物再利用和开发、科学文献等。感兴趣的读者可以参考第13篇摘要[1],它回顾了在抗击新冠疫情中解决这些问题的新型数据科学方法,并讨论了这一新兴领域的机遇和挑战。
显而易见,大数据和数据科学方法对于有效控制传染病不可或缺。传统的公共卫生研究人员和数据科学研究人员之间往往存在着鸿沟与差异,我们希望通过本期特刊介绍两个领域专家的贡献,弥合这一鸿沟。长远来看,本期特刊的研究不仅有助于抗击新冠疫情,还有助于监测和控制其他传染病。
参考文献:
[1] Zhang Q, Gao J, Wu JT, Cao Z, Dajun Zeng D. 2021 Data science approaches to confronting the COVID-19 pandemic: a narrative review. Phil. Trans. R. Soc. A 380, 20210127. (doi:10.1098/rsta.2021.0127)
[2]He H, Deng H, Wang Q, Gao J. 2021 Percolation of temporal hierarchical mobility networks during COVID-19. Phil. Trans. R. Soc. A 380, 20210116. (doi:10.1098/rsta.2021.0116)
[3] Edsberg Møllgaard P, Lehmann S, Alessandretti L. 2021 Understanding components of mobility during the COVID-19 pandemic. Phil. Trans. R. Soc. A 380, 20210118.(doi:10.1098/rsta.2021.0118)
[4]Jing F et al. 2021 Modelling the geographical spread of HIV among MSM in Guangdong,China: a metapopulation model considering the impact of pre-exposure prophylaxis. Phil.Trans. R. Soc. A 380, 20210126. (doi:10.1098/rsta.2021.0126)
[5] Steinegger B, Arola-Fernández L, Granell C, Gómez-Gardeñes J, Arenas A. 2021 Behavioural response to heterogeneous severity of COVID-19 explains temporal variation of cases among different age groups. Phil. Trans. R. Soc. A 380, 20210119. (doi:10.1098/rsta.2021.0119)
[6]Wu JT et al. 2021 A global assessment of the impact of school closure in reducing COVID-19 spread. Phil. Trans. R. Soc. A 380, 20210124. (doi:10.1098/rsta.2021.0124)
[7]Burghardt K, Guo S, Lerman K. 2021 Unequal impact and spatial aggregation distort COVID-19 growth rates. Phil. Trans. R. Soc. A 380, 20210122. (doi:10.1098/rsta.2021.0122)
[8]Gleeson JP, Brendan Murphy T, O’Brien JD, Friel N, Bargary N, O’Sullivan DJP. 2021 Calibrating COVID-19 susceptible-exposed-infected-removed models with time-varying effective contact rates. Phil. Trans. R. Soc. A 380, 20210120. (doi:10.1098/rsta.2021.0120)
[9]Vasiliauskaite V, Antulov-Fantulin N, Helbing D. 2021 On some fundamental challenges in monitoring epidemics. Phil. Trans. R. Soc. A 380, 20210117. (doi:10.1098/rsta.2021.0117)
[10]Shridhar SV, Alexander M, Christakis NA. 2021 Characterizing super-spreaders using population-level weighted social networks in rural communities. Phil. Trans. R. Soc. A 380,20210123.(doi:10.1098/rsta.2021.0123)
[11]Böttcher L, D’Orsogna MR, Chou T. 2021 A statistical model of COVID-19 testing in populations: effects of sampling bias and testing errors. Phil. Trans. R. Soc. A 380, 20210121.(doi:10.1098/rsta.2021.0121)
[12]Jiang J-Y, Zhou Y, Chen X, Jhou Y-R, Zhao L, Liu S, Yang P-C, Ahmar J, Wang W. 2021 COVID-19 Surveiller: toward a robust and effective pandemic surveillance system based on social media mining. Phil. Trans. R. Soc. A 380, 20210125. (doi:10.1098/rsta.2021.0125)
[13]Jing F, Zhang Q, Ong JJ, Xie Y, Ni Y, Cheng M, Huang S, Zhou Y, Tang W. 2021 Optimal resource allocation in HIV self-testing secondary distribution among Chinese MSM: data-driven integer programming models. Phil. Trans. R. Soc. A 380, 20210128. (doi:10.1098/rsta.2021.0128)
以下为《自然科学会报A》当期另外13篇论文(含研究论文及评论文章)的摘要:
1.新冠疫情期间时序层次移动网络的渗流
论文题目:Percolation of temporal hierarchical mobility networks during COVID-19
作者:Haoyu He,Hengfang Deng,Qi Wang,Jianxi Gao
发表时间:2021年11月22日
论文链接:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0116
渗流理论对于理解时序移动网络(temporal mobility networks)上的疾病传播模式至关重要。然而,在长时间分析大规模动态网络时,传统的渗流过程方法可能效率低下。它不仅耗时,而且很难识别连通片(connected component)。最近的研究表明,空间容器限制了由移动网络分层拓扑结构描述的移动行为。在这里,我们利用众包的大规模人类移动数据,构建由美国超过 175000 个街区组成的时序层次网络(temporal hierarchical networks)。每个每日网络都包含大城市统计区 (Metropolitan Statistical Area ,MSA) 内街区之间的移动性,以及跨大城市统计区的长途街区间的移动性。我们检查了这两个级别的渗流,并展示了在新冠疫情的影响下网络度量和连通片的变化。该研究揭示了即使网络具有高移动性阈值,也存在功能子单元。最后,我们找到一组划分连通片的重复关键链路 (recurrent critical links),它们导致核心大城市统计区的分离。我们的研究结果为理解疫情期间移动网络的动态社群结构提供了新的见解,并有助于在多个尺度上更有效地控制传染病。
2.了解新冠疫情期间移动性的组成部分
论文题目:Understanding components of mobility during the COVID-19 pandemic
作者:Peter Edsberg Møllgaard,Sune Lehmann,Laura Alessandretti
发表时间:2021年11月22日
论文链接:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0118
出行限制已被证明是控制新冠疫情传播的有效策略,部分原因是它有助于延缓疾病在各个地区的传播。然而,关于从通勤到度假相关的不同类型出行行为如何促进传染病传播的问题仍然没有答案。在这里,我们使用因式分解技术,将描述2020年全年移动流的时序网络分解为可解释的组分,以此解决这个问题。我们的研究结果基于两个移动数据集:第一个数据集来自丹麦移动网络运营商;第二个数据集来自 Facebook 的 Data-For-Good 项目。我们发现,移动模式可以描述为三个移动网络组分的集合,分别对应于工作日、周末和节假日的出行。我们发现,在严格的出行限制期间,对应于工作日出行的组分大幅减少,对应于周末出行的组分则增加了。最后,我们通过测量疾病在两个城市之间的有效传播距离,来研究每种组分类型(工作日、周末和假日)的移动性如何影响传染病的传播。
3.模拟艾滋病毒在中国广东男男性接触者中的地理传播:考虑暴露前预防用药影响的集合种群模型
论文题目:Modelling the geographical spread of HIV among MSM in Guangdong, China:a metapopulation model considering the impact of pre-exposure prophylaxis
作者:Fengshi Jing,Yang Ye,Yi Zhou,Hanchu Zhou,Zhongzhi Xu,Ying Lu,Xiaoyu Tao,Shujuan Yang,Weibin Cheng,Junzhang Tian,Weiming Tang,Dan Wu
发表时间:2021年11月22日
论文链接:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0126
在中国年轻人中,男男性行为占据艾滋病诊断中的绝大部分。因此,了解男男性接触者之间艾滋病毒的传播动力学对于控制和预防艾滋病毒感染至关重要,特别是对于一些新报道的艾滋病毒基因型。本研究提出了一个考虑暴露前预防用药影响的集合种群模型,以调查假设的HIV新基因型在中国广东省男男性接触人群中的地理传播。我们使用多个数据源(包括通过同性恋社交网络应用的在线社交网络,通过百度移动网站的离线人类移动网络,以及男男性接触者性行为自我报告)来构建该模型,描述了艾滋病毒在广东省21个地级市(即广州、深圳、佛山等)内部和之间传播的行为动力学特征。结果显示,暴露前预防用药的启动成指数量级地延迟了从最初爆发城市传播的病毒在其他城市的发生;移动网络的枢纽,如广州、深圳和佛山有更高的风险“最早”接触到新的艾滋病毒基因型;大多数城市直接从最初爆发的城市获得病毒,而其它城市则从非最初爆发地点但介数中心性(betweenness centralities)相对较高的城市(如广州、深圳和汕头)获得病毒。本研究为预测不同地区男男性接触者艾滋病新基因型的地理分布及评估地级市在广东省艾滋病防治工作中的重要性提供了理论依据。
4.对新冠疫情不同严重程度的行为响应可以解释不同年龄组病例的时间变化
论文题目:Behavioural response to heterogeneous severity of COVID-19 explains temporal variation of cases among different age groups
作者:Benjamin Steinegger,Lluís Arola-Fernández,Clara Granell,Jesús Gómez-Gardeñes,Alex Arenas
发表时间:2021年11月22日
论文链接:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0119
随着预防措施的逐渐放松,再加上诱发室外或室内活动的季节性影响,各国出现了第二波和第三波新冠疫情。有趣的是,数据表明,在低患病率时期,老年人感染的比例特别小,而随着病例数量的增加,老年人感染率不断增加。这种影响导致了高患病率期间,卫生保健系统将会面临额外的压力。此外,与年轻人相比,老年人的感染高峰期存在约一周的延迟现象。在此,我们对这种现象提供了一个机制解释,将其归因于不同年龄受疫情影响程度不同诱导的异质预防。我们通过一个双策略博弈建立了实施预防的动力学模型,并将其与SIR传播模型相结合。我们的研究结果还表明,年龄组间接触者的混合决定了其患病高峰与病例分布的时间变化之间的延迟。
5.关闭学校对减少新冠疫情传播影响的全球评估
论文题目:A global assessment of the impact of school closure in reducing COVID-19 spread
作者:Joseph T. Wu,Shujiang Mei,Sihui Luo,Kathy Leung,Di Liu,Qiuying Lv,Jian Liu,Yuan Li,Kiesha Prem,Mark Jit,Jianping Weng,Tiejian Feng,Xueying Zheng,Gabriel M. Leung
发表时间:2021年11月22日
论文链接:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0124
为了控制新冠疫情,世界各地都采取了延长学校关闭时间的做法。事实上,联合国教育、科学及文化组织的数据显示,由于学校关闭,全世界平均损失了三分之二个学年。这种先发的措施是基于这样一个前提,即学生是新冠疫情传播的核心群体。根据中国深圳和安庆的监测数据,我们推断,与60岁及以上的老年人相比,18岁及以下的儿童和19-59岁的成年人对感染的易感性分别要低75%和32%。通过综合全球177个司法辖区的接触矩阵参数化后的传播模型,我们表明,学生较低的易感性大大限制了关闭学校对降低新冠疫情传播率的有效性。我们的研究结果,连同最近指出儿童新冠疫情的临床严重程度较低的研究,表明关闭学校可能不是控制新冠疫情的理想干预措施。
6.不均衡的影响和空间聚集扭曲了新冠疫情的增长率
论文题目:Unequal impact and spatial aggregation distort COVID-19 growth rates
作者:Keith Burghardt,Siyi Guo,Kristina Lerman
发表时间:2021年11月22日
论文链接:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0122
新冠疫情疫情对全世界的公共卫生提出了前所未有的挑战。为了制定应对策略并了解疾病动力学,决策者和传染病学家必须了解疾病是如何在社群传播的。在这里,我们分析了多个地理尺度上确定的感染数和死亡数,发现新冠疫情的影响是高度不均衡的:许多地区几乎没有感染,而其它地区则是感染热点。我们把这种效应归因于一种Reed–Hughes式的机制,即疾病在不同时间到达不同地区,并以不同速度呈指数增长。增长较快的区域对应的热点在空间上占统计主导地位,从而在更大的空间尺度上扭曲增长率。最后,我们使用这些分析来表明,在不同空间尺度上,新冠疫情的增长增长率每次激增后都有所减缓。这些结果表明了在估计增长率时的一种权衡:虽然空间聚集降低了噪声,但可能增加偏差。公共政策和传染病模型应认识到这种偏差,并力求解决这种偏差。
7.利用随时间变化的有效接触率校正新冠疫情的SEIR模型
论文题目:Calibrating COVID-19 susceptible-exposed-infected-removed models with time-varying effective contact rates
作者:James P. Gleeson,Thomas Brendan Murphy,Joseph D. O’Brien,Nial Friel,Norma Bargary,David J. P. O'Sullivan
发表时间:2021年11月22日
论文链接:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0120
我们描述了由爱尔兰传染病学建模咨询小组 (Irish Epidemiological Modelling Advisory Group ,IEMAG) 开发的基于人群的易感-暴露-感染-移除 (susceptible-exposed-infected-removed ,SEIR) 模型,该小组就新冠疫情向爱尔兰政府提供建议。该模型假设一个随时间变化的有效接触率(相当于一个随时间变化的再生数)来模拟非药物干预的效果。应用此类模型的一个关键技术挑战是对观测数据(如每日确诊的新病例数)进行校正,因为疾病的历史对未来情景的预测结果具有强烈影响。我们展示了一种基于 SEIR 方程反演的方法,结合数据的统计建模和样条拟合法,以产生一种鲁棒的方法来校正这种类型的模型。
8.传染病监测面临的一些基本挑战
论文题目:On some fundamental challenges in monitoring epidemics
作者:Vaiva Vasiliauskaite,Nino Antulov-Fantulin,Dirk Helbing
发表时间:2021年11月22日
论文链接:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0117
传染病模型通常通过考虑不同健康状态(如易感、感染或康复)的耦合非线性微分方程,来反映传染病传播过程的特征。然而,这种分区建模方法提供的是对传染病动力学的不完整描述,因为它忽略了随机效应和网络效应,以及测量过程本身的影响,尤其考虑到传染病学参数和发病率的估计依赖于测量过程。为了研究相关问题,我们将建立的传染病传播模型与测试过程的测量模型相结合,考虑到假阳性和假阴性以及有偏抽样的问题。结合模拟观察过程(虚拟测量)研究模型生成的基准真值,可以让人们在评估传染病时深入了解纯数据驱动方法的基本局限性。我们的结论是,传染病监测、模拟和预测是非常棘手的问题,因为将传统的数据驱动方法应用于具有非线性动力学、网络效应和不确定性的复杂系统可能会产生误导。尽管如此,使用传播动力学和测量过程的科学知识,可以纠正一些错误。我们得出的结论是,此类修正应成为传染病监测、建模和预测工作的一部分。
9.基于农村社区人口水平加权社交网络的超级传播者特征研究
论文题目:Characterizing super-spreaders using population-level weighted social networks in rural communities
作者:Shivkumar Vishnempet Shridhar,Marcus Alexander,Nicholas A. Christakis
发表时间:2021年11月22日
论文链接:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0123
整个人口的社交中心网络地图与关于组成二元关系性质的数据相结合,能够促进我们对网络与疾病传播相关性的理解,并改进传染病的预测。在这里,我们使用 4 年来在洪都拉斯 176 个村庄的 24702人中收集的详细的社交中心数据,以及腹泻和呼吸道疾病的患病率,创建了一个社交网络驱动的传播模型,确定了超级传播节点,并使用基于主体的蒙特卡罗网络模拟,识别出最容易受到感染的节点。我们根据详细的社交互动模式预测传染病爆发的程度。来自腹泻和呼吸系统疾病的三次人群水平调查的证据表明,计算出的单个节点的超级传播能力和其相对脆弱性之间存在正相关。先前的研究已经通过回溯接触者追踪或模拟网络识别出超级传播者。相比之下,我们的模拟预测,一个节点的超级传播能力及其在真实社群中的脆弱性受到多种因素的影响,如节点的连接及连接之间交互的性质、影响个体传播病原体能力的特征(例如年龄和性别),以及病原体的内在特征(例如处于感染期和潜伏期)。
10.人群中新冠疫情测试的统计模型:抽样偏差和测试误差的影响
论文题目:A statistical model of COVID-19 testing in populations: effects of sampling bias andtesting errors
作者:Lucas Böttcher,Maria R. D'Orsogna,Tom Chou
发表时间:2021年11月22日
论文链接:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0121
我们开发了一个统计模型来测试人群中的患病率。该模型测试结果为二元值(正或负),但允许样本选择存在偏差,以及 I 型(假阳性)和 II 型(假阴性)测试误差。我们的模型还包含多种测试类型,并且能够区分重新测试和未测试的情况。我们的定量框架能够将测试结果直接解释为误差和偏差的函数。通过将我们的测试模型应用于新冠疫情测试数据和来自特定司法管辖区的实际病例数据,我们能够估计和提供在大流行中重要参数(例如患病率和死亡率)的不确定性。
11.新冠疫情监测器:基于社交媒体挖掘的高效鲁棒传染病监测系统
论文题目:COVID-19 Surveiller: toward a robust and effective pandemic surveillance system based on social media mining
作者:Jyun-Yu Jiang,Yichao Zhou,Xiusi Chen,Yan-Ru Jhou,Liqi Zhao,Sabrina Liu,Po-Chun Yang,Jule Ahmar,Wei Wang
发表时间:2021年11月22日
论文链接:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0125
新冠疫情的爆发已成为人类历史上最严重的传染病之一。在本文中,我们建议利用社交媒体用户作为社交传感器,同时预测大流行趋势,并提供潜在的风险因素,帮助公共卫生专家了解传播情况并推荐适当的干预措施。更准确地说,我们开发了新型深度学习模型来识别重要实体及其随时间的关系,从而建立动态异质图来描述社交媒体用户的观察结果。然后,动态图神经网络模型可以预测趋势(例如新诊断病例和死亡率)并从社交媒体中识别高风险事件。基于所提出的计算方法,我们还为没有任何计算机科学背景的领域专家开发了一个基于网络的系统,可以轻松地与之交互。我们对 Twitter 提供的新冠疫情相关推文的大规模数据集进行了大量实验,表明我们的方法可以准确预测新病例和死亡率。我们还展示了我们基于网络的传染病监测系统的鲁棒性及其在各种情况下检索基本知识和得出准确预测的能力。
12.中国男男性接触者艾滋病自测试剂盒二级分发中的最优资源分配:数据驱动的整数规划模型
论文题目:Optimal resource allocation in HIV self-testing secondary distribution among Chinese MSM: data-driven integer programming models
作者:Fengshi Jing,Qingpeng Zhang,Jason J. Ong,Yewei Xie,Yuxin Ni,Mengyuan Cheng,Shanzi Huang,Yi Zhou,Weiming Tang
发表时间:2021年11月22日
论文链接:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0128
人类艾滋病自我检测 (Human immunodeficiency virus self-testing ,HIVST) 是一项创新且有效的策略,对扩大 HIV 检测覆盖范围很重要。为了达到全球检测目标,多项 HIVST 已在一些 HIV 高危人群(如男男性接触者)中开发并试用。一种创新策略是 HIVST 的二级分发:向个人(定义为 index)提供多个测试套件,用于自我使用(即自我测试)以及分发给其 MSM 社交网络中的其他人(定义为 alter)。从传统公共卫生学科的角度,关于二级 HIVST分发的研究主要集中在开发新的干预方法,以进一步提高这一新策略的有效性。HIVST 二级分发有很多切入点,而数学建模可以在其中发挥重要作用。在这项研究中,我们考虑了资源受限情况下的二级 HIVST 试剂盒分发,并基于我们目前来自中国 MSM 的实施数据,提出了两种数据驱动的整数线性规划模型,以最大限度地提高二级 HIVST 试剂盒分发的整体经济效益。目标函数考虑了正常 alter 的扩展,以及阳性和新测试的“alter”的检测。基于求解器给出的方案,我们开发了贪心算法来为线性规划模型找到最终解决方案。结果表明,我们提出的数据驱动方法可以提高 HIVST 二级分发的总体健康经济效益。
13.应对新冠疫情的数据科学方法:叙述性回顾
论文题目:Data science approaches to confronting the COVID-19 pandemic: a narrative review
作者:Qingpeng Zhang,Jianxi Gao,Joseph T. W,Zhidong Cao,Daniel Dajun Zeng
发表时间:2021年11月22日
论文链接:https://royalsocietypublishing.org/doi/10.1098/rsta.2021.0127
在新冠疫情期间,数据科学比以往任何时候都更能成为抗击传染病,甚至可能是任何未来传染病的有力武器。计算机科学家、数据科学家、物理学家和数学家与公共卫生专业人员和病毒学家一起,利用为抗击新冠疫情而产生的大规模“大数据”,来应对本世纪规模最大的传染病。在本文中,我们回顾了应对新冠疫情的新兴数据科学方法,包括传染病学参数估计、数字接触者追踪、诊断、决策、资源分配、风险评估、心理健康监测、社交媒体分析、药物再利用和药物开发。我们将新方法与传统传染病学研究进行比较,讨论我们从新冠疫情中吸取的教训,并强调数据科学方法在应对未来传染病流行方面的机遇和挑战。
原标题:《传染病监测的数据科学方法特刊:大数据怎样应对大流行》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司