澎湃Logo
下载客户端

登录

  • +1

疫情中数据的作用无法忽视,但也不能盲信模型 | 专访前DHS生物监管总监

2020-03-02 11:49
来源:澎湃新闻·澎湃号·湃客
字号

原创 文摘菌 大数据文摘

大数据文摘出品

作者:刘俊寰

截至2月27日24时,据31个省(自治区、直辖市)和新疆生产建设兵团报告,现有确诊病例39919例(其中重症病例7952例),累计治愈出院病例36117例,累计死亡病例2788例,累计报告确诊病例78824例,现有疑似病例2308例。累计追踪到密切接触者656054人,尚在医学观察的密切接触者65225人。

不只是国内,日本、韩国、意大利等多个国家都出现了新冠患者,全球感染形势似乎已成定局。

在疫情全球肆虐之下,作为科技从业者,数据能在哪些方面助力疫情,哪些数据需要及时地公开和披露,如何利用这些数据,面对日趋复杂的数据和模型,应该保持怎样的态度等,都是值得我们思考的问题。

针对这些问题,文摘菌专访了两位SAS的专家,SAS联邦医疗支持经理,华盛顿大学流行病学和生物统计学教授Theresa Do,和SAS全球政府行业实践总监,美国前国土安全部国家生物监管总监Steve Bennett,站在更宏观的视角下,面对大数据和新技术,他们是如何解答这些疑问的,他们的解答对于我们而言相信也会是不小的启发。

疫情前中后期,数据作用都无法忽视

数据是不会骗人的。

在病毒爆发前,Steve Bennett认为,数据就已经在发挥作用了,数据可以清楚地显示出人类与动物接触方式和频次的明显增多,以及多地物种数量呈密集分布等,基于此,科学家不难分析出病毒有更高几率来源于动物,比如这次新型冠状肺炎。

回顾此前的SARS、MERS、新型流感病毒,还有在西非爆发的埃博拉病毒等大范围爆发的流行病,科学家估算出,约四分之三的新病毒都是源于动物,多达80万种未知动物病毒可以传染给人类。这正是数据所告诉我们的。

得到了这样的结论,我们就可以更好地再次利用数据,整合已知病毒、动物数量、人口统计等,利用AI等新技术来预测新病毒可能出现的区域,从而帮助政府和公共卫生机构提前采取措施,至少可以在疫情爆发前做好准备和预防工作。

Steve Bennett说道,美国国土安全部曾研发出一个试用方法,即通过机器学习来挖掘出社交媒体数据中指出的异于常规流感的症状,反复研究实时物流和急救车调用数据,利用机器学习查找某些病患送往医院的异常信息。再利用AI与这类数据结合,不仅可以更准确地侦测到非正常疾病,还能更快采取行动,如果从传统疾病报告中查出端倪,则需要花费数周时间。

一旦疫情爆发,数据仍然是制定应对决策的根本。科学家和学者普遍认同的观点是,掌握的关于病例数量、死亡率、传播方式和传染性的信息越多,就能越快地制定决策,以便控制、阻止并治疗疾病。

通过数据分析,结合出行、人口和疾病数据,可以预测疫情传播区域和速度。Steve Bennett指出,这不仅需要公共卫生和科学的快速研究,还需要利益相关方更快速地共享信息。

Theresa Do补充道,针对如新型冠状病毒这类传染病的爆发,若要准确辨识出诱发和潜在威胁因素,必须整合所有数据进行综合考量。如果想要检测公共卫生健康状况,需要综合利用病案报告、电子健康记录和实验数据等传统公共卫生数据资源。

随着数据全球化进程的增速,将病案数据与确诊病例的迁徙数据(例如飞行轨迹、迁入迁出国家、酒店信息等)打通,对于快速采取诊断、分诊和隔离就显得至关重要,进而能防止疫情扩散。

而在疫情被控制或者消除后,数据的作用仍然不可忽视,政府和国际卫生组织需要做出决策,如何更好地控制和阻止类似疫情的再爆发。这时,机器学习就可以用来测试政策和公共卫生举措,模拟出可能的结果。

简而言之,AI允许政府人员对各种假说展开分析,帮助他们以数据作为驱动力制定相应的政策改革并做出决策,让他们面对类似的疫情时能够高效应对。

不能盲信模型,做好预防才是上策

各种数据的综合利用,往往是以不同的预测模型作为结果呈现出来,疫情爆发至今,不只是中国,包括英美日等多国专家纷纷对疫情走势做出预测,有人认为目前形势比较乐观,疫情将在2月中下旬到达顶峰,也有人认为疫情最终将导致世界范围级别的感染。

面对众说纷纭的预测模型,Steve Bennett指出,在计算模型领域有句话“所有的模型都是错误的……其中一些是有用的”。由于新病毒可能具备未知的、可怕的传播力等因素,传染病数据建模想要达到绝对的精准是不太可能的,一般都是不确定的,任何一个传染病模型与疫情预测的绝对精准不存在必然联系。

评估一个模型是否实用,最重要的是该模型是否严谨依据历史信息。此前一些世界精英科学家采用了非常先进的计算方法进行预测,但是实际证明预测结果是错误的,而且偏差很大。

虽然对模型的准确性需要保留态度,但不可否认的是,这些模型可以帮助了解传染病,指出哪些区域最容易遭到疫情侵袭,让公共卫生机构和政府人员采取更有效、更快速的决策和行动。

举个例子,无论预测案例数量是否精确,用出行模式和人口统计数据标记出最有可能受到新传染病侵袭的区域,随后政府有关部门就需要根据预测,增强公共卫生监测并提前介入该片区域的疫情管控,进行资源的部署。

在经济方面,本次疫情带来的损失已经不容忽视。针对不同的经济预测,Steve Bennett也指出,就算没有疫情干扰,要预测2020年的全球经济,也有很多影响因素。

尽管所构建的模型表明,隔离决策确实会给经济带来重创,但是依旧需要与未实施隔离政策所带来的潜在经济损失进行对照评估,大量未经对照核查的疫情传播信息和公共卫生研究结果则会带来更大的损失,不仅仅是经济层面上,还有生命。

面对逐渐“全球化”的疫情,与其寻找绝对精确的预测方法,不如使用模型来定位可以通过介入管控有效控制疫情爆发的区域,这样可以投入更多力量和资源挽救更多人的生命。

此外,Steve Bennett也呼吁大家,不要因为模型的预测感到悲观或焦虑,采取正确的预防措施才是上策,勤洗手、保持社交距离,在实际生活中这可比模型有效多了。

社交媒体充当关键节点,数据能成为救人工具

在Steve Bennett提到美国国土安全部的试用方法中,社交媒体也可能充当着疫情检测的关键节点。

正如这次新冠疫情中,社交媒体数据可以与其他哨点监测数据、传统的公共卫生数据资源相结合,深入挖掘并识别出诱因和错误信息。

在如何高效利用社交媒体数据上,就需要AI登场了。比如,自然语言处理(NLP)能进行信息筛选,辨识来源于非传统公共卫生资源的数据,其中或许就包括可能威胁公共卫生的潜在因素和预兆。算法则能帮助从自然语言甚至是未经组织的语言中自主辨识关键词和短语。

再次回顾2003年SARS时期,当时可利用的数据资源相当匮乏,社交媒体、物联网设备和技术远不如现在发达,数据资源也不足以协助进行医疗诊断,毕竟SARS后第4年,第一台iPhone才首次问世,可以想见,用手机应用软件协助健康追踪和诊断在当时是怎样一种疯狂的想法。如今,随着智能手机的不断更新,带动移动应用和创新技术的发展,可利用的数据也丰富了许多。

SARS爆发还处于一个十分敏感的时期——互联网时代初期,患者不得不泄露个人信息,还需要每天手动测量并同步体温。相比之下,如今信息接收者可以获得更丰富的信息,物联网设备快速读取体温并上传,借助于文本信息和其他手段的分享,每个人都能提前预警身边可能存在的威胁,例如小区感染人数等。

沟通方式的多样,使得公共卫生预防信息得到了更高效的传播,虽然也不可避免地带来了一些谣言,但在技术之下也都被逐一侦破。

Steve Bennett认为,社交媒体在本次疫情中的表现值得称赞。他指出,以前只有政府和公共卫生机构手中握有数据,以此对疫情进行预测、侦测和决策;但其实,出行、人口普查、人口统计、动物迁徙相关数据都可以用来应对疫情控制,这些数据的获得则需要求助于NGO。

除此之外,民间组织所采用不同的、非传统的数据,在本次疫情中也得到极大的彰显,这对疫情控制也有着至关重要的作用,最关键是利用好这些数据。通过大数据技术、高级分析和AI,特别是机器学习,数据是能够成为救人的工具。

不过,数据越丰富越多样化,就越难以综合考量并从中挖掘出重要因素,这也是需要警觉的地方。

病毒基因序列有助于疫情控制和解决,AI功不可没

不管是对数据的利用,还是具体的通过数据构建模型,AI在其中扮演着不容忽视的角色。

在一些常见应用中赋能AI,可以帮助人们快速识别常见病症,同时,通过助力实现自动数据分析,基于威胁因素识别模式并构建模型,来协同完成病毒传播的场景分析。当AI成功识别出病毒传播路径后,便可以辨识出宿主或指示病例,甚至识别出潜在宿主。

在研制目前热切关注的病毒疫苗时,AI同样发挥着巨大的作用,其中,基因序列是关键。在生物学上,遗传信息可以清楚地揭露出,威胁公共卫生的因素是否在变化,或者病毒将如何威胁人类的健康。

通过整合基因分析过程中所获取的数据,帮助了解表层蛋白质和病毒进化,进而找到和疾病相关的遗传信息,就算不是遗传信息序列分析领域的专家,也可以通过研究基因序列和辨识序列共性,来确定数据统计的显著性。

这都得益于AI技术的参与,整个过程才能如此迅速高效地进行。在实验中,通过AI算法,可以在基因数据中采用深度学习和神经网络,帮助更快地了解序列和病毒畸变之间的关系,深入研究科学理论和基因分析之间的关系等。

新病毒的基因序列十分重要,对其地分析能重新定义病毒特性的基因序列,进而更准确地描述病毒的遗传进化过程。从新病毒出现到起基因序列被科学家破解,再到基因组首次被刊登于《新英格兰医学杂志》,随后被基因银行和全球共享禽流感数据倡议组织分享,这有助于病毒的流行病学和传播路径研究,帮助研究人员更快地制定诊断和治疗策略。

共享基因序列地重要性不言而喻,这使得研究人员能够尽早地对其他冠状病毒展开分析。新冠病毒的相关研究显示,其与SARS有很高的相似性,源头上也都与蝙蝠有牵连。后期,随着掌握病毒基因序列越来越多,研究人员就可以通过对比研究它们的共性。

短时间内从基因序列中挖掘中的信息越多样,就越能帮助我们减缓病毒的遗传适应进程。

在未来,Theresa Do希望,能开发出更先进的诊断工具,不仅能够实现更快的病毒株测试,还能识别遗传资源保护因素,特别是通过在精准医学领域的进一步研究,这将使得研究人员更加准确地识别出哪些保护因素是有效的,哪些是无用的。

另外,Theresa Do还希望技术的创新发展将更准确地辨识出个人行为模式的异常表现,基于医疗设备的多样性和数据的高度联通,针对这些可能需要医疗帮助的人提供及时预警,同时,技术创新能有效保障数据安全,这样数据才可以在高度保密之下,更快地辨识传染病的传播模式。

原标题:《疫情中数据的作用无法忽视,但也不能盲信模型 | 专访前DHS生物监管总监》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈