下载客户端

大数据和数据科学为政治学带来了什么？

2022-12-09 08:15

来源：澎湃新闻·澎湃号·湃客

大数据和数据科学为政治学带来了什么？

摘要:

大数据和数据科学正在改变世界，催生社会科学家新的关注点，如互联网对公民和媒体的影响、智慧城市的影响、网络战争和网络恐怖主义的可能性、精准医疗的影响以及人工智能和自动化的后果。伴随着社会的这些变化，强大的新数据科学（data science）方法支持使用行政、互联网、文本和音频-视频数据的研究。蓬勃发展的数据和创新方法提供了从数据中形成概念、进行描述性推理、进行因果推理和产生预测的新方法，从而有助于回答以前难以解决的社会问题。它们也带来了挑战，因为社会科学家必须掌握由复杂的算法产生的概念和预测的意义，权衡预测与因果推断的相对价值，并应对道德挑战，因为社会科学家的方法，如动员选民的算法，会被政策制定者采用。

作者简介:

Henry Brady 加州大学伯克利分校政治学与公共政策教授

编译来源:

Brady, H. E. (2019). The challenge of big data and data science. Annual Review of Political Science, 22, 297-323.

本文作者：Henry Brady

引言

美国国家标准与技术研究院（NIST）在2015年关于大数据的框架报告中说：“大数据和数据科学正被当作流行语使用，是许多概念的组合”。“大数据”（big data）一词频繁出现在媒体和学术期刊上，过去五年中，“数据科学”项目在学术界如雨后春笋般出现。2012年3月29日，白宫科技政策办公室宣布了 "大数据研究与发展倡议"（Kalil 2012），该倡议建立在 "从计算机架构和网络技术到算法、数据管理、人工智能、机器学习，以及先进网络基础设施的开发和部署 "的倡议之上。从2014年到2017年，"大数据 "每年在JSTOR中出现约560次，尽管在2000年之前的一个世纪中，它每年被提及不到一次，在2001年至2010年期间，平均每年只有约8次。在过去的五年里，至少有17个数据科学项目在美国主要的研究型大学开始实施（http://msdse.org/environments/），互联网上充满了数据科学书籍和课程的广告，经常有 "成为一名数据科学家 "的广告。这些短语当然已经流行起来，但它们对不同的人意味着不同的东西，有些人甚至怀疑它们是否确定了非常新的或有用的东西（例如，Boyd & Crawford 2012，Donoho 2017，Smith 2018）。

尽管这些术语并不完美，而且经常围绕着它们的夸张，但它们指出了对政治科学很重要的真实变化。大数据、数据科学以及人工智能、网络基础设施和机器学习等相关理念有助于本文讨论的以下发展和趋势：

1.来自大数据和数据科学的社会和政治变化。政府、军队、企业、非营利组织和人民所产生和获得的数据的数量、速度、种类和真实性，与计算能力的巨大增长和数据科学方法的改进相结合，从根本上改变社会。大数据和数据科学正在创造新的现象，并提出了关于控制和操纵人民和人口、隐私的未来、信息的真实性、工作的未来以及其他许多与政治科学家有关的话题的基本问题。

2.包括政治科学家在内的所有科学家可以获得越来越多的数据。所有的科学都在受到这些变化的影响。基因组数据的数量每九个月翻一番，目前每天产生约10兆字节的数据；欧洲核子研究中心的大型强子对撞机每天产生140兆字节的数据。万维网每天产生约1,500,000兆字节，这种数据流为社会科学家提供了研究 "社会的筋骨"（Weil 2012）和 "政府的神经"（Deutsch 1963）的机会，这在过去是无法做到的。现在，政治科学家可以观察和分析（有时是实时的）人们选择消费的信息、政治行为者产生的信息、人们生活的环境以及人们生活的许多其他方面。

3.政治学家组织工作的新方式。在这种数据的冲击下，政治学家可以通过熟悉新技术来重新思考他们如何进行政治学研究，这些新技术有利于数据的获取、管理、清理、分析和存档。

4.政治学家提出的新问题。政治学家必须自问他们在概念形成、描述、因果推理、预测和预测未来方面要完成什么。在这一过程中，将发展出关于政治行为的新方法和新见解，并为政治机构提出新的设计。

5.处理有关政治科学研究的伦理问题。最后，政治科学家必须思考有关获取、使用和公布信息的复杂伦理问题，以及可能滥用其模型和结果的问题。

在考虑这五个变化及其对政治科学的影响之前，我先介绍一下数据和计算能力的指数级增长，这导致了所谓的大数据和数据科学的突出地位。

大数据的数量、密度和种类不断增加

社会科学家必须面对当前信息交流中的巨大变化，这些变化与19世纪交通的惊人变化相类似。1816年，使用马匹驱动的驿车、骡子驱动的运河船或帆船，费城和魁北克之间的旅行需要四天以上。到了1860年，随着蒸汽驱动的火车和汽船的出现，旅行的时间和费用下降了三分之二以上，同样的旅行只需要一天多一点。这些变化创造了新的贸易网络、新的移民机会、带有通勤郊区的新型城市，以及对世界的新理解，对政治、经济和社会产生了巨大影响。

信息技术每隔20年就会发生一次变化，这在19世纪末、20世纪和21世纪初的历史上是很常见的：电话（1870-1890年代）、留声机（1870-1890年代）、电影（1890-1920年代）、广播（1900-1920年代）、电视（1940-1950年代）、电脑主机（1940-1950年代）、个人电脑（1970-1980年代）、互联网和万维网（1980-2000年代）、手机（1980-2000年代）和智能电话（2000年代至今）。最根本的创新来自于从模拟设备到数字设备的转变，从20世纪50年代开始，在20世纪90年代及其后迅速发展。这些变化带来了：(a)广泛的数字数据化，其中无数的事件现在被数字记录下来；(b)广泛的连接性，其中事件和人被识别，以便他们可以相互连接；(c)普遍的网络化，这样人们被嵌入到一个互动用户的社区中，成为更大网络的节点；以及(d)无处不在的计算机编写（computer authoring），其中计算机创造新的信息，成为社会系统和文化的一部分。政治学家引领了研究这些变化的方向。拉斯韦尔（Harold Lasswell）和多伊奇（Karl Deutsch）是研究媒体传播及其对社会影响的早期学者。1983年，麻省理工学院的政治学家Ithiel de sola Pool研究了1960年至1977年美国大众媒体（如广播、电视、唱片、电影、报纸、书籍）和点对点媒体（电话、一等邮件、电报、传真和数据通信）中的词汇生产，发现这些媒体的字数每8年翻一番，每年增长约9%。他还发现，"印刷媒体每个字的成本越来越高，而电子媒体却越来越便宜。" 此外，"尽管现代社会最大的文字流动是通过大众媒体，但现在增长速度最快的是向个人提供信息的媒体，也就是点对点媒体"。最后，"从这些媒体中实际关注的文字每年仅增长2.9%"，因此，"所生产的每项信息都面临着一个竞争更激烈的市场和平均较小的受众"（Pool 1983, p. 609）。Pool预言了我们对现代传播境况的大部分了解。它们发展迅速，越来越电子化和点对点，人们经历着信息过载和信息流的碎片化。也许最有先见之明的是，Pool还说："计算机网络首次将点对点的媒介--数据通信的成本降低到大众媒介的成本范围"。

这些研究确定了四个值得注意的趋势，上面简要地提到了这些趋势，它们产生了大数据革命：广泛的数字数据化、广泛的连接、网络化和计算机编写。首先，关于社会事件的数据如海啸般涌现，数字通信正在超越模拟通信。这种广泛的数字数据化（Cukier & Mayer-Schoenberger 2013, p.29）以一种可以轻易被计算机存储和处理的格式创造数据。其次，由于点对点的传播原则上比广播更容易被追踪，所以连接性很普遍。例如，广播公司传统上需要精心设计的调查操作（如尼尔森的媒体使用日记）来跟踪他们的观众，而Netflix有关于其电影下载的即时数据。更为普遍的是，我们现在可以记录和连接关于个人发帖、购买，甚至是随意浏览的数据。数据化和连接性意味着曾经短暂的事件现在可以被识别和研究。信息环境变化的第三个特点是网络化，这对社会科学家特别重要。曾经的传播被归类为人与人之间的传播（如谈话、信件或电话）或从一个来源到许多人的大众传播（如书籍、报纸、电影、广播或电视），而现代传播涉及中介的社会网络，结合了两种模式的特征（Neumann 2016, Schroeder 2018）。推特（Twitter）涉及到使用定义自我中介的关注领域的标签，向许多追随者发送的个人通信。脸书（Facebook）涉及拥有定制档案的个人，他们拥有 "朋友 "网络，并与分享信息的共同利益的用户群有关联。在所有这些媒体中，关于人们的特征和他们的搜索行为的知识被用来建议，有时甚至强加特定的行动或关系。这些新的沟通模式的影响还不清楚，但它们可能在政治、市场和文化这三个重要领域的运作方式有所不同（Schroeder 2018）。它们也可能产生重要影响，比如通过建立对不同意见封闭的网络，增加政治极化的机会（Neumann 2016）。最后，我们现在生活在一个计算机可以编写、出版和提供新形式信息的时代。社会科学的另一项工作是改进和理解这些过程。

政治学家工作的新方法

新课程：政治学教授必须开发新课程，并熟悉数据科学家开发的新技术。新课程应该朝两个方向发展。一门课程应处理大数据的社会挑战以及它们对政治的意义。Mergel（2016）为公共事务学院开发了一门课程，其中包含一些相关的内容，包括政治、政府、公共卫生和智能城市中的大数据部分，但它没有关于媒体的部分，也没有直接关注大数据带来的数据所有权和使用、隐私和工作岗位流失等政治问题。第二门课程必须教给学生数据科学方法。对主要大学政治学系教授的方法课程的检查表明，这一点正在顺利进行。这些课程包括用R或Python编程，强调理解统计学的重采样方法，对上述数据源的概述，以及对进行预测的方法和推断因果关系的方法的仔细讨论。此外，至少有一本辑录（Alvarez 2016）总结了相关主题的良好选择。这些课程都没有涉及更深层次的理论问题，比如我们的认识论和本体论预设如何受到新方法的影响，社会中新的连接形式，以及人工智能的崛起。人们应该对这种宏大的可能性持适当的怀疑态度，但Rogers（2013）、Mayer-Schönberger & Cukier（2014）、Mosco（2014）、Boullier（2015）和Salganik（2017）对当我们"让世界自己意识和自我描述"（make the world self-aware and self-describing, Evans 2018, p. 141）时将会发生什么提供了一些思考。

新的研究管理方式：少数从事谷歌、Facebook或非常大的数据集的政治科学家可能要学习大数据架构和处理大数据集的新的分散方法，如Hadoop、Hive、NoSQL和Spark，但对大多数人来说，这将是一种浪费。相反，政治学家可能会更好地关注数据清理、数据管理、可重复科学、数据的生命周期管理和数据可视化的新软件。在此，我简要地讨论一下数据清洗和可重复性科学。一条推特（@BigDataBorat）描述了人们普遍认为的数据清理占用了研究中的大部分时间，他说："在数据科学中，80%的时间用于准备数据，20%的时间用于抱怨需要准备数据。" 当然，数据准备是繁琐而耗时的（Kandel等人，2012）。DataWrangler（Kandel等人，2011）在一个像电子表格一样的交互式界面中显示数据，并允许研究者根据程序对所需的一般转换的推断，对数据的某一行进行修改，并在所有其他行的数据中重现。随着用户与系统的互动，系统会改进其推断，甚至提出建议，从而帮助研究者进行改进。该系统会跟踪对数据所做的工作，以便研究人员能够确保它是成功的。它的免费版本是Trifacta Wrangler。另一种清理数据的方法是Tidyverse，它是一个免费的R程序集，可以用来创建一个整洁的数据集（Wickham 2014）。可复制的科学旨在使其他的研究者有可能 "重新创建项目的最终报告结果，包括关键的定量发现、表格和数字，只需给出一组文件和书面说明"（Kitzes等人，2017，第13页）。因为这些工具使我们更容易获得和重现研究成果，因为期刊越来越多地要求可重复性，因为政府一直在努力要求受资助者这样做，所以学习这些方法是非常值得的。

政治学家提出的新问题

1. 数据科学从何而来？

数据科学的方法主要来自于计算机科学、统计学、图书馆或信息科学，有些则源于生物学家为模拟人脑中神经元之间的联系所做的努力，以及认知科学家（如多才多艺的政治学家赫伯特-西蒙）为发展人工智能所作的努力。这些不同流派的研究混合产生了混乱，因为类似的方法（如神经网和逻辑回归）在这些学科领域被称为不同的名字，而使用人工智能或神经网等名字会导致人们误以为这些方法实际上是模仿人脑的工作方式。事实上，大多数方法可以直接翻译成统计学语言（Sarle 1994, Warner & Misra 1996），与人类智能的联系更多的是比喻。这种混乱也有一部分来自于这样一个事实，即不同学科背景专家的关注点不同：直到最近，计算机科学家还在试图解决模式识别问题，并以最少的错误推进预测性机器学习，而对统计模型没有太多的了解和关注，而统计学家（尤其是计量经济学家和政治方法学家）则专注于模型的无偏或一致的估计者和因果影响的假设检验，对预测或学习没有什么关注。信息科学家们也试图找到快速有效的方法来索引和访问文件和知识，强调预测，而很少关注统计方法或模型。

由于强调模式识别，计算机科学家通常说的是根据案例的特征将其归类（例如，根据体重、年龄、血清胰岛素预测某人是否可以归类为糖尿病患者），而统计学家说的是根据自变量或预测因素预测因变量的数值，尽管他们经常处理相同的问题。计算机科学家谈论的是激活函数、训练集和学习，而统计学家谈论的是函数形式、样本和估计。此外，计算机科学家谈论的是有监督和无监督的学习问题。前者指的是有相关类别信息的问题（例如，已经分类为独立物种的标本），后者指的是没有这种信息的问题。监督学习使用有因变量的方法，如判别分析或逻辑回归，而无监督学习使用聚类、因子分析或多维缩放。一旦数据科学领域的学者认识到这些术语的差异，关于模式识别（Ripley 1995）、人工智能（Russell & Norvig 2009）、机器学习（Bishop 2011）和统计学习（Hastie等人2016）的书籍就显得不那么玄乎，更容易接近。

数据科学变得如此流行的一个原因是，机器学习的一个变种，即深度学习，已经在困难的模式识别任务中取得成功，如语音和图像识别、自然语言处理和生物信息学（LeCun等人，2015）。深度学习是典型前馈神经网络的一个变种，它涉及到多层分类器，使用堆叠的逻辑或类似的回归（Sarle 1994, Schmidhuber 2015），其中输入是要分类的项目的特征。例如，对于被分类为狗或猫的动物，其特征可能是大或不大，是否发出狗叫，是否发出猫叫，温顺或不温顺，白色或非白色，以及有无尾巴。这些特征如果存在就用1来编码，如果不存在就用-1来编码。其中一些特征对于区分狗和猫比其他特征更有用。对于我们有数据的每只动物，我们计算了这些L特征的M个加权线性组合，其中的权重反映了这些特征的诊断价值。在这些组合中的每一个被一个sigmoid激活函数（如logistic）转换后，它构成了一个隐藏层变量，也被称为神经元。第一个隐藏层包含了M个这样的隐藏层变量，采用输入变量的不同加权线性组合。然后，这个第一隐藏层中的这些隐藏层变量的结果被组合成另一个加权线性组合，并根据sigmoid函数进行转换，以决定动物是狗还是猫（例如，接近1的值表示是狗，接近0的值表示是猫），或者创建一个有N个变量的第二隐藏层，对第一隐藏层中的M个隐藏层变量进行加权线性组合。这个过程可以用越来越多的隐藏层继续下去，直到达到最终的sigmoid函数，预测动物是狗还是猫。该模型的评价标准是它是否在大多数时候都能得到正确的答案。

当该模型具有正确的权重，从而正确地将狗和猫分开时，它就是成功的。例如，一个大的、温顺的、会狗叫的动物几乎肯定不是猫，所以这些特征的权重应该是较大的、正的，以便在sigmoid函数中产生一个接近1的值（表明是狗），但有尾巴或白色的权重应该接近0，因为它们不是很有诊断价值的特征。为了使模型发挥作用，必须有足够的隐藏层和隐藏变量，以提供适合所有可能的狗和猫的特征排列的灵活性，而且必须有高效的学习算法来确定正确的权重，以便对困难的情况进行正确分类。浅层机器学习模型只有几个隐藏层，那些没有隐藏层的模型被称为感知器。深层机器学习模型有许多隐藏层。模型的整体复杂性取决于隐藏层的数量和隐藏变量或神经元的数量。

同时，不管是什么原因，深度学习方法似乎对模式识别问题有明显的效果，但鉴于其神秘的复杂性，它们的解释往往是困难的。它们更擅长于产生预测，而不是解释性的见解。

2. 数据科学可以解决哪些类型的问题？

关于大数据和数据科学有很多夸张的说法，人们可能认为我们已经解决或避免了实证研究的四个最基本的问题：（a）形成概念并提供对它们的测量；（b）提供可靠的描述性推论；（c）从过去的经验中进行因果推论；以及（d）对未来进行预测。事实上，数据科学已经为解决其中的每一个问题做出了一些贡献，特别是形成概念和对未来进行预测，但它们仍然是基本和困难的问题（Smith 2018）。让我们依次考虑每个问题。人工智能研究人员已经使用了无监督的机器学习方法，以便计算机学习概念，这与政治学家在历史上使用因子或聚类分析来识别概念的方式基本相同。

对概念形成最丰富的研究之一（Thagard 1992）使用人工智能模型来理解科学中的 "概念革命"。机器学习擅长寻找模式，所以它对概念的形成很有帮助，但归纳或演绎地、现象学或本体论地、实用或理论地定义概念之间的相互作用等基本问题仍然存在。我们确实有一些更好的工具来处理这些问题，比如基于模型的聚类技术（例如Ahlquist & Breunig 2012），可以对类型学中的不确定性进行评估，但是像原子、物种、民主或主题这样的概念仍然是非常深刻的想法，这就是为什么科学中的概念革命（如量子理论、板块构造学、进化论、相对论或主题分析）是如此重要的。它们反映了我们看待世界的方式的格式塔变化。这也是为什么这些方法的使用者必须谨慎行事的原因。

数据科学方法可以帮助我们探索和描述数据，在其中找到有趣的模式，并有效地展示它们。大数据的使用有助于我们进行描述性推论，因为它经常提供一份完整的逮捕、登记选民、食品券领取者等的名单，但定义适当的总体的问题仍然存在，因为我们可能分别关心犯罪、潜在选民或有资格领取食品券的人。此外，互联网样本尤其有问题，因为很难界定它们代表什么总体，以及它们是如何从这个总体中取样的。拥有大量的数据并不能确保它们以统计学上可靠的方式（例如，随机抽样）代表一个有趣的、可定义的总体。也许最有趣的，也是最令人担忧的是，一些数据科学的倡导者忽视甚至拒绝因果推断的需要，而紧紧抓住统计预测的狭窄概念。

这种倾向有三个来源。首先是认为有大量的数据（许多案例或许多变量）就能自动解决推断问题，当然，这是错误的。推断需要我们以正确的方式选择案例（例如，随机抽样），并且可用的变量包括实际的原因，并允许我们控制正确的东西，以避免虚假的相关性（见Lazer等人，2014，Titiunik 2015）。第二个来源是机器学习，也许特别是深度学习，让其他的可能性解释变得不存在。这个想法的基础是关于深度学习是否真的提供了洞察力或者只是拟合曲线的问题。Cukier和Mayer-Schoenberger（2013）说："建立在因果关系重要性上的世界观正受到大量相关关系的挑战"，"我们可以从大量的信息中学习到我们在只使用较小数量时无法理解的东西"。第三种更有说服力的观念是，做出可靠的因果推断是非常困难的，我们应该把重点放在预测上。这个想法在40年前导致了宏观经济学中的向量自回归方法（Sims 1980, Christiano 2012），并且它是许多机器学习教科书的核心。Breiman（2001）为这种方法提出了一个优雅的早期论点；Berk（2008）提供了一个周到的长篇处理；Shmueli（2010）讨论了权衡问题。

当然也有一些实际和技术问题，对于这些问题，使用机器或统计学习实现良好的预测是一个令人满意的，也许是最佳的解决方案。Kleinberg等人（2015）举了一个例子，涉及到髋关节或膝关节手术的决策，只有当病人活得足够长，能够度过通常漫长的康复期，手术才有意义。Yarkoni和Westfall（2017）提供了来自心理学的例子，例如从Facebook页面的点赞推断 "五大 "人格特征，以及从fMRI数据推断人们对脸部记忆的准确性。Nickerson和Rogers（2014）展示了关于竞选捐款或投票率的预测分数如何被用来提高竞选的效率。在研究问题中，好的预测方法可以保证匹配方法中可接受的协变量平衡，根据某些特征对文件进行高质量的分类，对缺失值进行准确的估算，对回归不连续设计中的曲线进行良好的拟合，为工具变量估计提供强有力的工具，等等。

同时，政治学家们需要更努力地思考如何将来自强有力的研究设计（如实验或准实验）的因果机制信息与复杂的预测方法和正式建模相结合，以提高我们对未来进行预测的能力。这些预测应该考虑到行为反应、因果影响的异质性，以及当政策从小型实验中扩大规模时出现的一般平衡效应。Athey（2018）讨论了一些方法，也许她最重要的主张是，数据科学方法使我们有可能根据数据开发出更好的系统化模型选择方法，而不是通常涉及多次估计和重复解析模型的规模搜索，直到一个事实上“虚假”的模型被提出。随着样本量和可用变量数量的增加，数据科学家和统计学家也在考虑权衡模型的复杂性和解析性（Powell 2017）。现在，数据科学方法使得使用交叉验证和其他方法进行数据驱动的模型选择成为可能，对许多模型进行估计和平均，并考虑到模型的不确定性和数据的不确定性。

结论

大数据和数据科学提供了新的数据来源和研究方法。它们也在以催生新问题的方式改变着世界。它们扩大了可以完成的量化工作的种类，并通过对媒体的影响、城市的运作、恐怖主义和网络战争、投票和政治制度的设计以及许多其他领域的工作，以新的方式将政治科学家带入社会事件。随着这种情况的发生，政治学家肯定会做更多、更好的研究，但当他们发现自己或自己的工作被用来创造新的政策或社会机制时，他们也必须思考自己作为系统设计者的角色的知识和实践价值。正如工程师、律师以及越来越多的经济学家利用他们的社会知识来设计社会机构一样，政治学家现在正在开发重新设计政治系统的工具。这一角色在学术界将如何被重视？它提出了哪些伦理和知识问题？在我看来，参与制定新的政策和社会机制将是向拉斯韦尔（Harold Lasswell 1951；另见Turnbull 2008）所倡导的“政策科学”的有益回归，但政治科学家无疑会发现自己正在承担新的角色，这需要在学界更多的辩论和讨论。

编译｜范屹槟

审核｜纪雨佳

终审｜Momo

©Political理论志