澎湃Logo
下载客户端

登录

  • +1

美国CDC、JHU在用的疫情数据库,来自这个武汉姑娘的华人团队

2020-06-09 18:53
来源:澎湃新闻·澎湃号·湃客
字号

原创 文摘菌 大数据文摘

大数据文摘出品

作者:刘俊寰

刚刚,根据CovidNet网站数据,新冠肺炎导致的美国确诊病例累计突破200万,全球累计确诊病例数突破700万,除了美国,巴西、俄罗斯、西班牙、英国、印度和意大利6个国家累计确诊数已经超过20万。

“身为武汉人,虽然我无法在武汉为他们做些什么,但我真的想以某种方式提供帮助。”这是现居住于美国旧金山的华人郭昱在接受采访时说的话,她和团队想要做的,就是深入疫情数据,挖掘出有那些温度的信息,帮助到全世界的人。

数字无法取代每一个鲜活的生命,但从这些看似冰冷的数字中,我们仍然可以得出一些有温度的信息,将这些信息分享给更多的人。

基于“一亩三分地”这个北美华人论坛的新型冠状病毒世界疫情动态追踪平台CovidNet,就是郭昱和团队正在着手经营的项目,这是一个实时追踪新冠疫情数据的网站,在1月初美国还没有其他实时的疫情追踪网站时,郭昱就已经开始和4位全职数据工程师着手打造这个网站了。

如今各国都建立起了实时疫情追踪网站,其中最知名的或许要属约翰霍普金斯大学(JHU)新冠追踪网站,但其实,该网站的美国数据完全引用于CovidNet的数据。3月26日,美国疾病控制与预防中心(CDC)正式采用CovidNet的数据,这也是美国官方对民间数据网站的重要肯定。

CovidNet提供了全方位的交互式数据可视化工具,以供公众参考。它有着比CDC更为细致的地理分布数据,交互式地图连通了各个省、州和郡、市的病例分布,数据表格可供读者按照不同的统计量对各个国家和地区进行筛选和排序。

读者还可以进行跨区域的疫情横向比较,比如当选中国家后可以用鼠标滑过不同地区查看相应地区的疫情数据,除此之外,CovidNet还提供了各种动态图进行展示。

在时间趋势的呈现上,CovidNet同样综合了每天的疫情数据,读者对疫情可以有更宏观的分析和掌握。

网站链接:

https://coronavirus.1point3acres.com/zh/world

不仅如此,为了让更多人从中受益,5月14日,郭昱团队将CovidNet的建立过程和技术细节以预印本形式进行了分享,并且向数据库与数据挖掘领域的相关会议进行了投递。

预印本链接:

https://arxiv.org/abs/2005.10948?from=timeline&isappinstalled=0

截止到预印本发表时刻,CovidNet已经覆盖了英语、中文、法语、日语、西班牙语5种语言,共覆盖国家或地区188个,其中有州或省份级别数据的国家有25个,覆盖州、省份974个,覆盖北美郡、市3169个,CovidNet的数据信息源总数达到了2038条,用户提交的新闻线索报告数量达到16240条。

截止至本文发表,CovidNet已经覆盖39个国家的分省/州数据,网站访问量更是超过了2.25亿。

由于数据发布的及时准确,CovidNet已经引起了海内外不少媒体的兴趣,包括《星岛日报》、CGTN、凤凰卫视在内的多家媒体都已对郭昱以及CovidNet进行了跟踪报道。

美国CDC、JHU引用的全球疫情实时数据库

4月,美国著名学术期刊,根据Gardner的说法,她和实验室6名学生共同撑起了整个网站的运作,她们的数据来源除了地方卫生局和各地媒体,美国国内3149个郡、市的实时疫情数据完全来源于CovidNet。

即使Gardner说得比较克制,但从她的介绍中,我们仍然能够想象要建立实时更新的新冠疫情追踪网站是有多么不易。相比于约翰霍普金斯新冠追踪网站,郭昱团队最初只有4位全职工程师,如今CovidNet还拥有了超过50位志愿者。他们共同面对当下最具挑战性的全球性的数据追踪问题,这不仅包括数据收集,还要进行实时的数据核实和深入调查。

最重要的是,在全世界的监督之下,这里的数据容不得一点差错。

首先,数据收集就是一个难关。郭昱表示,在公开数据上,CovidNet主要通过以下两种方式获取,一个是国家官方系统提供的开源数据,另一个是官方统计的当天最新数据。

这其中根据每个国家报道的范式不同,上述两种方式还需要细分。

对于第一种情况,有的国家以病例为单位进行报道,比如菲律宾或哥伦比亚,有的国家以行政区为单位进行报道,比如意大利或西班牙。针对此,郭昱团队采取的做法是将前者聚合成后者的数据范式,这样不仅能保持数据一致性,还能为全面准确地更新疫情数据提供良好的数据来源。

对于第二种情况,鉴于历史数据大都以各种格式保存在历史档案或新闻存档中,他们对能够从官方存档中获取到所有的历史数据进行汇总,并且仅更新当日官方报道的最新数据。

除此之外,根据全球各异的数据发布方式,郭昱团队设计了不同的数据处理机制。

很多时候,国家/地区-省/州-郡/县各级卫生机构发布数据的时间节点不同步,如果以不同级别的信息源各为参照源,就会导致数据总和出现差异,例如,在某一时刻,各个郡/市的统计数据之和与省/州总数并不相等,他们会优先选择参照更基层的数据来源,同时在网站上公开解释和高一级官方数据源不一致的原因。

除了数据上的整合之外,各国的诊断标准不同,从时间上看将出现病例汇报的渠道和方式的前后差异,比如,疫情初期通常是个例报道,每例都会提供详细信息,但随着确诊人数的增加,个例报道逐渐演变成确诊数字统计,从空间上看每个国家处于疫情的不同阶段,根据确诊定义的发展数据标准也在同步变化。

这不只表现在不同国家之间,在其他级不同区域之间同样存在类似情况,比如某些区域的数据增长过快,或者同一份报告中的数据不一致,在总趋势中出现了累计统计总数下降等,都是需要考虑的地方。

针对上述种种变化,郭昱表示,为确保质量控制和数据的准确,他们结合自动搜集和人工更改、查验的方式,同时也会按照当地卫生机构统计的方法,随时针对数据获取和统计方式进行修正,包括以人工核查的方式过滤掉媒体或者卫生部门报告中的噪声,在根据原始信息进行更新的基础上密切关注后续发展,对历史数据进行回查等。

这时候,就需要这支50多人组成的去中心化志愿者团队登场了。

根据郭昱介绍,CovidNet的工程师团队成员都属于“一亩三分地”的全职工作人员;负责数据核查的50多位志愿者们则是通过网络招募加入,主要是华人群体或北美留学生,他们中有数据科学家、工程师,也有各专业学生、学者、教授。尽管有着不同的职业或专业背景,每个人都能在团队统筹下完成数据统计和核实工作,不少志愿者还对流程的制定和迭代优化也做出了不小贡献。

团队是在并行异步地更新数据,为了保证减少时滞,同时避免数据多重更新等难题,团队设计了相应的流程和分级处理,在规范统筹数据更新模式和流程之后,对于不同地区的数据整理和校对,也设有专人对应地进行负责。

郭昱表示,团队每两个小时就会查看并检查是否有最新数据,如果有,便会把相关数据实时更新到数据库中。

“我们秉承从所能获取的最原始数据出发的原则,每次更新都对历史数据进行全面的核查校对,因此需要用户在使用我们数据库的时候需要及时更新全部的数据库而仅非当天数据。”郭昱说道。

事在人为,CovidNet的北美成长史

以北美为例,我们来看看CovidNet的成长史。

在CovidNet之前,全球范围内除了中国丁香园,绝大多数主流COVID-19追踪平台提供的是国家层级的数据,比如国际卫生组织(WHO)和欧洲疾病预防控制中心(ECDC)等国际组织,但这些数据往往滞后于快速发展的疫情,难以为身处混乱信息中的各地民众带来迫切需要的透明、及时的信息。

也正是在这个背景下,3月,北美确诊病例数直线上升,成为世界疫情中心,但想要提供实时更新的数据,除了要保证在全球层级上的更新、可靠和全面外,还面临着美国公共卫生系统的分级汇报机制带来的挑战。

事在人为。为了弥补官方公共卫生渠道在实时性和一致性方面的不足,从1月21日开始,CovidNet数据团队展开了对北美确诊、死亡、治愈(recover)三项统计数据的追踪,也逐步引入了一系列查证、核实方式,综合应对当地分级汇报系统带来的额外挑战。

同时,CovidNet团队也与COVID Tracking Project团队展开合作,将检测数量和病床占有数等统计指标纳入到数据展示中,构建了对区域疫情更为完整清晰的刻画。

比如在疫情爆发的不同阶段,用户对数据的关注点会有所变化,CovidNet在疫情爆发的不同阶段采用了不同模式的数据整合方法,同时把使用不同模式的时期划分成了疫情的三个阶段:

主动搜索模式阶段:疫情浮现初期和中期,确诊数目较低。在这一模式下,志愿者团队主动搜索相关媒体新闻和官方报道,进行多来源比对以保证不出现重复计算;

用户汇报模式阶段:疫情扩展期,确诊数目增加、地理扩散加速。在这一时期,团队利用早期建立的用户群基础,开辟用户汇报通道。主动搜索仍然发挥着重要角色,而用户汇报通道模式的开辟也在很大程度上保证了CovidNet数据平台的实时性;

自动收集模式阶段:疫情爆发期后,每日新增确诊数目激增、地理覆盖广泛。在这一模式下,工程师团队建立了一套完整的自动化更新系统,实时追踪可靠数据源的数据更新(包括各地官网和可信的主流媒体平台),并及时反馈给志愿者团队。志愿者团队则主要负责进一步查证,以确保数据历史的一致性,完成最终数据录入。

针对不同阶段,基于数据源所提供信息的详略程度,工程师团队对后端数据的存储格式也持续进行着相应调整、更新,后端数据的储存格式也会有相应的变化:

信息细化型格式:不同的案例被分别单独记录。每一条记录中包含以下信息:案例数目,确诊/死亡日期,确诊/居住地区,性别,年龄,感染原因,数据来源,病例概述等。在疫情初期和中期,此格式作为主要格式被长期使用;

信息密集型格式:数据记录只保留了时间和地点两大信息。疫情大规模爆发后,各大数据源逐渐取消了对详细案例信息的报道,这使得密集型格式成为更加合理和高效的选择。这一格式从4月底成为CovidNet数据库主要格式,一直沿用至今。

辅助统计表格:辅助统计表格不作为直接数据的记录方式,用来存储区域性数据的衍生统计信息。具体实例包括:州、郡数据的当前案例数统计。

除了在数据整合和呈现上所做的贡献外,CovidNet还开辟了美国医护人员防护物资需求整合及发布板块、疫情新闻板块,希望能给更多收到疫情影响的人提供帮助。

提供真实数据,是整个团队的初心

作为CovidNet的创建人和一亩三分地的联合创始人,郭昱曾获得哈佛大学生物统计学博士学位,目前在Uber自动驾驶机器学习平台任高级主管一职。

郭昱介绍道,目前她的主要工作是领导整个疫情地图的开发,决定收取怎样的数据,如何用不同的信息源进行查证,怎样做到真实可信,以及自动化的实现等。

“除了吃饭睡觉和上班,我其余时间每一分钟都用在这上面了。”郭昱说道。

她在领英中写道:“由于新冠疫情,我的家庭成员和很多幼年朋友仍居家隔离中,2月我的叔叔感染病毒过世。虽然我无法在武汉为他们做些什么,但我真的想以某种方式提供帮助。”

如今美国疫情依旧肆虐,这对CovidNet来说,工作量也逐渐加强,这就需要24小时有人维护和核实数据,即使有50多位志愿者的加入和分担,这依然是不小的工作量。

说到志愿者团队,郭昱介绍道,他们来自不同的地方,参加项目的原因各不相同。尽管如此,大家有一个共同的目标,就是希望通过疫情网站给用户提供最接近真实的疫情发展信息。无论是好是坏,真实数据的传达不仅可以帮助大家减少恐慌,也可以能帮助大家在疫情期间合理做决策。

这些人平时散落在各个角落,分布在街头巷尾,就像每天上班途中地铁上看到的每个普通人一样,各自为生活努力着。他们和你我一样,都会受到疫情影响,也会为疫情感到焦虑。

如今,CovidNet的网站访问量已经超过了2.25亿,就产品角度而言这可以说是一次巨大的成功,郭昱也表示,“不可避免地会进行产品层面上的关心,但更关心的是疫情得到控制。实际上,访问量下降反而是一件好事,这表示疫情过去了”。

“我们做这件事得到了很多人的认可,我们也觉得做的事情是很有价值的,希望能把更多信息的透明度带给大家,在这个基础上,群众有什么其他的需求是我们能帮助满足的,这些我们可以再想一想。如果你做的这个事情对于大多数人是有用的,那么会有很多人愿意参与进来帮助你,也可以做出更大的事情来,对更多的人有更正面的影响。”郭昱说道。

原标题:《刚刚,美国确诊超200万!美国CDC、JHU在用的疫情数据库,来自这个武汉姑娘的华人团队》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈