- +1
数据基础设施不只是技术工程
原创 开放数据小编 开放数据中国
前言
对数据基础设施有很多想说的,最后发现还不如直接搬运前人已有的完善思考。,并得到了英国前后几届政府的认可和采纳。下面的这篇文章是由时任英国开放数据研究院的项目交付总监 Leigh Dodds所写,Leigh 在数据领域总有着独特而深入的思考,在这篇原题为《The building blocks of data infrastructure 》的文章中,Leigh提出了它对数据基础设施构建的理解,并强调「数据基础设施不只与我们用来帮助管理和交换数据的技术有关」。
| 引言
数据是我们社会和经济的重要基础设施形式。当我们想到基础设施时,我们通常会想到像道路和铁路这样的实体事物。但是,基础设施的定义更广泛,包括不那么具体的事物。比如思想或互联网。重要的是要认识到“基础设施”不仅仅是道路和铁路。否则,我们作为社会可能不会投入必要的时间和精力来建设、维护和管理这些基础设施。我们对基础设施所做的决策很重要,因为基础设施有助于塑造我们的社会。
为了帮助探索「数据作为基础设施」(Data as Infrastructure) 的概念,我想看看构成特定数据基础设施的各种构建块。我希望这将有助于更清楚地表明「数据基础设施」不仅仅是技术。正如我们将看到的,我们用来管理数据的技术基础设施只是数据基础设施的一个组成部分。
我们将使用的例子是大大简化的,部分是虚构的,但它本质上是一个真实的例子:我们将研究天气数据基础设施。在这个背景下探索这个例子非常有趣,因为:
很容易理解收集天气数据的价值
它足够复杂,可以帮助我们深入一些现实世界的问题
它说明了在当地或国家收集和使用的数据如何也能成为全球数据基础设施的一部分
天气数据通常是开放数据,或者至少是公开的。但我们将在这里概述的构建块同样适用于整个数据谱系的数据。在后续的文章中,我可能会探索一个更复杂的例子,以说明不同类型的数据基础设施,例如依赖研究人员访问医疗记录的医疗研究。
在接下来的部分中,我们将看看在构建全球天气数据基础设施中重要的不同构建块。真正的基础设施要复杂得多。一些构建块有点模糊,在我们的基础设施中扮演多重角色。但这没关系。世界不是一个我们可以总是简化为更简单组成部分的整洁有序的地方。
| 数据基础设施的定义
在我们开始之前,让我们引入数据基础设施的定义:
数据基础设施包括数据资产,用于管理和提供对这些资产访问的标准和技术,用于约束资产使用和管理的指南和政策,管理数据基础设施的组织,以及参与维护基础设施的社区或受使用这些数据资产所做出的决策影响的社区。
这一定义中有很多复杂的部分。关于它们有很多可以说的。现在让我们专注于各个构建块,探索它们如何组合在一起。
标识符 (Identifier)
想象我们计划建立一个全球天气站网络。每个站点将定期记录当地的温度和降雨量。在我们的系统中,我们将收集所有这些读数到一个全球的天气观测数据集中。为了知道哪些观测是由哪个天气站报告的,我们需要为它们每一个提供一个独特的参考。
我们不能仅仅使用安装了站点的城镇或村庄的名称作为那个参考。例如,英国和美国都有伯明翰。我们也可能需要随着时间的推移移动和重新安装天气站,但可能需要跟踪有关它们的信息,比如它们是何时安装或服务的。因此,我们需要一个比仅仅一个名称更可靠的全球标识符。
通过为每个天气站分配一个独特的标识符,我们然后可以附加额外的数据给它。像它当前的位置。我们还可以将标识符与每个温度和降雨观测相关联,这样我们就知道哪个站点报告了那个数据。
标识符是我们数据基础设施的第一个构建块。标识符看似简单。它们只是一个数字或代码,对吧?但关于它们有很多可以说的,比如它们是如何分配或格式化的。创建好的标识符可能很难。当标识符是开放的,任何人都可以在他们的数据中使用时,它们的作用超出了仅仅在数据库中提供唯一参考。它们还可以帮助创造网络效应,鼓励发布额外的数据。
标准(Standard)
我们的天气站正在记录温度和降雨量。我们将以摄氏度测量温度,以毫米测量降雨量。这两种都是标准的测量单位。
标准是我们的第二个构建块。标准是文档化的、可重用的协议。它们帮助我们以一致的方式收集和组织数据,并使处理来自不同来源的数据变得更容易。一些标准,如测量单位,是全球性的,并且在许多不同的方式中使用。但有些标准可能只与特定的社区或系统相关。
在我们的天气数据基础设施中,我们需要标准化我们计划收集天气数据的其他方面。例如,让我们假设我们的天气站每半小时记录一次数据。每三十分钟一个站点将记录一个新的温度读数。但它是在记录那个特定时刻的温度,还是应该报告过去三十分钟的平均温度?这样做可能有一个或另一个的优势。如果我们不标准化我们的一些数据收集实践,那么由不同制造商创建的天气站可能会以不同的方式记录数据。这将影响我们数据的质量。
每个数据基础设施将依赖于各种不同的标准。一些标准支持一致的测量和数据收集。其他标准帮助我们更有效地交换数据。
我们的天气站需要记录它们收集的数据,并自动将其上传到一个服务中,帮助我们构建我们的全球数据库。在一个真实的系统中,我们可能希望天气站以多种方式报告数据,提供多种方式进行聚合和重用。但为了简化事情,我们假设它们只是将数据上传到一个集中的服务。
为了帮助我们定义天气站将如何上传它们的数据,我们需要选择一个标准的数据格式,该格式将定义以机器可读形式记录数据的语法。让我们假设我们决定使用一个简单的CSV(逗号分隔值)格式。每个站点将生成一个CSV文件,其中包含每半小时观测的一行。每一行将由一个站点标识符、记录的时间戳、温度读数和降雨读数组成。时间戳可以使用ISO 8601记录,这是格式化日期和时间的国际标准。有帮助的是,我们可以包括时区,这对于准确报告全球网络中的天气站的时间至关重要。
我们还需要确保报告的四个字段的顺序是一致的,或者CSV文件中的标题清楚地识别每个列包含的内容。同样,我们可能使用来自多个制造商的天气站,需要数据被一致地记录。一些站点也可能包括额外的传感器,例如记录风速。因此,我们的理想标准应该是可扩展的,以支持额外的数据。花时间设计和标准化我们的CSV格式将使数据聚合变得更容易。
每当我们在系统中定义如何收集、管理或共享数据时,我们就是在创建协议,以确保所有参与这些过程的人都能确信这些任务以一致的方式执行。当我们重用现有标准而不是创建定制版本时,我们可以从各行各业成千上万的不同专家的工作中受益。
有时,我们确实需要定义一个新标准,比如我们特定类型的CSV文件中列的顺序。但尽可能,我们应该通过尽可能多地建立在现有标准上来解决这个问题。
注册表 (Registers)
为了帮助我们管理我们的天气站网络,记录每个站点的安装位置将很有用。记录它们的安装时间也很有帮助。然后我们可以计算出它们何时需要重新校准或更换,并派人去做必要的工作。
为此,我们可以创建一个数据集,列出每个天气站的标识符、位置、型号和安装日期。这种类型的数据集是一个注册表(Registers)。注册表是重要数据的列表。它们有多种用途,但最常用于帮助我们提高数据报告的质量。
例如,我们可以使用上述注册表来确认我们是否定期从网络上的每个站点接收数据。当一个站点被安装时,它需要被添加到注册表中。我们可能会给安装站点的公司权限来这样做,以帮助我们维护注册表。
我们还可以使用注册表来确定我们是否拥有良好的地理分布的站点,以帮助我们评估和改进我们正在收集的观测的覆盖范围和质量。注册表对于任何使用我们全球数据集的人也有用,所以他们可以看到数据集是如何随时间收集的。注册表应该尽可能开放。
对于管理我们的数据基础设施,可能还有其他类型的注册表很有用。例如,我们可能会创建一个注册表,列出所有已认证符合我们首选数据标准的气象站型号。
我们可以使用该注册表来帮助我们做出关于如何在站点失败时更换站点的决策。注册表还可以帮助为天气站制造商提供激励,以符合我们选择的标准。如果他们不在列表上,那么我们可能不会购买他们的产品。
技术
技术显然是数据基础设施的一部分。用于构建天气站的传感器和组件是技术,定义我们如何组织和交换数据的数据标准也是技术,帮助我们传输数据的协议,如WiFi或电信网络,也是技术。用于将数据提交到全球观测数据库,或帮助我们从中检索观测数据的API也是技术。
不幸的是,我经常看到一些错误的假设,认为数据基础设施只与我们用来帮助管理和交换数据的技术有关。打个比方,这有点像将沥青和路缘石作为我们道路基础设施的定义特征。这些材料既重要又必要,但只是更大系统的一部分。如果我们只关注技术,很容易忽视数据基础设施的其他更重要的构建块。
当我们谈论「数据基础设施」时,应该非常清楚,它包括我们在这里讨论的所有构建块,而当我们谈论「数据基础设施」时,只关注我们用来收集和管理数据的技术。技术会演变并变得过时。随着时间的推移,我们可能会选择在数据基础设施中使用不同的技术。重要的是选择技术,以确保我们的数据基础设施尽可能可靠、可持续和开放。
组织
我们的数据基础设施正在成形。我们现在有一个系统,由世界各地安装的天气站组成,将当地的天气观测报告到一个中央数据库。该数据集是我们的数据基础设施将发布的核心数据资产。
我们已经探讨了各种技术、数据标准和其他一些数据资产(注册表),它们使得数据的收集和发布成为可能。我们还没有考虑维护和管理这些资产的组织。
天气站本身将由世界各地的许多不同组织制造和安装。其他组织可能提供服务,帮助在安装后维护和校准站点。国家气象服务可能承担起在其国家边界内维护站点网络的责任。他们的角色范围将由国家立法和政策定义。但商业组织也可能选择承担运行一系列站点的责任。
在我们的数据基础设施中,观测的中央数据库将由一个组织策划和管理:一个(虚构的)全球天气办公室。我们的全球天气办公室不仅仅是管理数据资产。它还在选择和定义支持数据收集的数据标准方面发挥作用。它还帮助认证哪些型号的天气站符合这些标准。组织是数据基础设施的关键构建块。我们选择用来管理数据基础设施的组织模型,以及对其可持续性负责的组织,是其设计的重要组成部分。
天气观测的价值来自于它们的使用。例如,作为输入到预测模型中创建天气预报和其他服务。许多组织将使用我们的数据基础设施提供的观测数据来创建一系列产品和服务。例如,国家天气预报,或通过农场管理系统向农民提供的针对性建议。数据也可能被研究人员使用。或由环境政策制定者用来通知他们的工作。
绘制操作和从我们的数据基础设施中受益的组织生态系统图将帮助我们理解每个组织的角色和责任。它还将帮助澄清价值是如何以及在哪里被创造的。
指南和政策
有这么多不同的组织在运营、管理和从我们的数据基础设施中受益,我们需要考虑如何支持它们从中创造价值。
为此,我们需要制定一系列指南和政策,例如:
为所有数据资产提供文档,帮助将它们放在上下文中,使它们能够成功地用于创建产品和服务。这可能包括我们如何收集数据的说明,使用的标准,以及我们站点的位置。
建议如何处理和解释数据,以确保使用数据的天气预报是可靠和安全的
定义数据资产如何使用的许可证
描述应用于数据资产的数据治理流程的文档
定义组织如何获得对数据基础设施的访问权限的政策,例如,开始从新站点提供数据
决定如何、何时以及在哪里向全球网络添加新站点的政策,以确保全球覆盖率得以维持
定义如何购买站点和与之相关的服务的采购政策
适用于天气站制造的国家法规,或在安装或服务时适用的安全标准
……等等
指南和政策是一个重要的构建块,它有助于塑造支持和从我们的数据基础设施中受益的生态系统。一个强大的数据基础设施将拥有支持公平访问系统的政策和治理。尽可能开放基础设施将有助于确保尽可能多的组织有机会使用它提供的资产,并有平等的机会为其运营做出贡献。
社区
我们为什么收集天气数据?我们这样做是为了帮助创建天气预报,监测气候变化以及许多其他原因。我们希望数据被用来做出决策。许多不同的人和组织可能会从我们提供的天气数据中受益。一个通勤者可能只想知道是否需要带伞去上班。一个农民可能希望在选择种植哪些作物时得到帮助。或者一个计划困难建筑任务的工程师可能需要知道预期的天气条件。
在直接与我们的数据基础设施互动的组织之外,将有一些由个人和组织组成的社区,他们将从它提供的数据资产制成的产品和服务中受益。社区是我们数据基础设施的最终构建块。这些社区将依赖我们的数据基础设施来规划他们的日常生活、活动和做出商业决策。但他们可能没有意识到。好的基础设施是无聊和可靠的。
在布雷特·弗里施曼关于《基础设施的社会价值》的书中,他将基础设施称为“共享手段,实现多种目的”。治理和维护基础设施需要我们认识到这种多样化的利益,并做出平衡各种需求的选择。
我们关于谁可以访问我们的数据基础设施以及如何使其可持续的选择,将对确保其长期创造价值至关重要。
| 回顾我们的构建块
总结来说,我们的数据基础设施的构建块是:
标识符
标准
注册表
各种类型的技术
创建、维护、治理和使用我们基础设施的组织
指导我们使用的指南和政策
参与治理或受其影响的社区
构建块有不同的大小。标识符是一个被广泛理解的技术概念。组织、政策和社区更复杂,也许定义不那么明确。
理解它们之间的关系,以及它们如何从更加开放中受益,需要我们进行一些系统思考。通过识别每个构建块,我希望我们可以开始对构建的系统进行更深入的对话。
随着时间的推移,我们可能能够梳理出更具体的构建块。我们可能能够识别出在不同类型的基础设施中作为重复模式出现的重要的组织角色。或者发现在创建可信、可持续基础设施方面被认为成功的特定组织模型。随着时间的推移,我们也可能识别出确保数据基础设施成功的关键类型的政策和指导。这些是可以帮助我们完善对数据作为基础设施的理解的研究问题。
我们还没有明确探索数据基础设施的其他方面。例如,伦理和信任。这是因为伦理不是构建块。它是一种工作方式,将使各种社区能够更公平、平等地访问数据基础设施。伦理应该指导我们设计、构建和维护数据基础设施的每一个决定和每一个活动。信任也不是构建块。信任来自于我们如何运营和维护我们的数据基础设施。信任是赢得的,而不是设计到系统中的。
原标题:《数据基础设施不只是技术工程》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2025 上海东方报业有限公司