下载客户端

重拾批判性：大数据时代人工智能的迷惑与反思

2019-12-20 16:34

来源：澎湃新闻·澎湃号·湃客

——读《错觉：AI如何通过数据挖掘误导我们》有感

西泽研究院特约研究员邓宇

《错觉：AI如何通过数据挖掘误导我们》

大数据时代，让我们置身于智能化与大数据时代快节奏、便利化的生活方式当中，并且通过人工智能AI技术逐步渗透到社交、购物、出行、新闻媒体、政治事件等各个领域，甚至通过人工智能这种强大的学习能力和数据分析开始左右我们的思考、诱导我们的日常选择。

美国经济学教授加里·史密斯的新著《错觉：AI如何通过数据挖掘误导我们》（以下简称《错觉》）一书提供了非常独特的视角，与大多数倡导大数据和追逐大数据产业的研究者不同，史密斯教授更多的是对计算机挖掘大数据以及应用到各个领域的现象进行批判性研究，这项研究将启迪我们思考大数据与人工智能的社会意义、伦理价值、科学内涵。如果只考虑大数据和计算机应用的优势，忽视其负面效应和局限性，那么大数据以及AI将可能失去其科学与社会价值，这也是作者对“理论先于数据”这一科学方法的有力辩护。

《错觉》列举了很多思想性实验以及案例研究，如图灵测试、汉语室思想实验、威诺格拉德模式挑战赛等等，这些实验无不揭示计算机本身的思维模仿与学习并不是完全超越人类，计算机的语言、阅读和写作缺乏灵魂、语境。而计算机模型以及数据分析结果无法替代人类的判断，仍然需要人类充分的讨论与批判，完全依赖计算机的数据结果将导致很多混乱和错误的决策。

从理论上来说，计算机技术的演进以及大数据、人工智能的应用的确已从实验室进入到人们的日常生活当中，特别是随着移动互联网、5G通信技术的进步，计算机甚至在某些领域，如计算能力、学习能力、数据分析、储存以及模型预测方面超越人类智慧。数据挖掘成为各个科技公司、高科技企业、创业公司的核心竞争力，一切产业发展都以大数据为支撑，而这的确产生了巨大的经济、社会效益和广告宣传效益。互联网产业以及数字经济的崛起为大数据与人工智能的应用提供了广泛的市场，数据库的泛滥也间接引发了诸多的争议，特别是一些购物网站、新闻媒体、社交软件大肆应用数据挖掘，跟踪用户的日常应用习性、消费特点和社交网络，企图诱导用户选择购买服务或订制某些产品。

值得注意的是，当前计算机的运算能力早已比人类更快，承载的数据资源也更为庞大，这些依据人工智能开发的应用系统已渗透进人们的生活，甚至左右人们的思维。如果缺乏对计算机语言以及数据分析结果本身的识别，将带来很多消极的结果。《错觉》这本书通过一系列数据结果质疑计算机的“坏数据”，而使用数据同样存在较大的“随机性”，作者指出，模型不可避免地是由无法解释的随机事件创建出来的，我们应该承认自己容易受到模型的诱惑。

AI大数据融入日常生活

看似无所不能的计算机技术却也存在诸多的缺陷，与人类的智慧、思维相比还有很多的局限性。其中，最重要的一点，正如作者在文章开篇表明的那样，计算机在批判性思维方面存在严重缺陷。计算机在数据处理、储存以及记忆方面的优势是人类无法匹敌的，随着计算机与人工智能的深度融合，大量的产业、产品以及思维将受制于计算机技术。有一点可以明确，现代人们的生活、生产以及创新大都依靠计算机模型和数据分析，海量的数据往往意味着创业客群与市场，而“窃取”这些个人信息和数据渐渐演变为一种产业，行走在法律的边缘。作者列举了预测总统大选、非线性模型、神经网络算法等一系列典型的案例，这些“新瓶装旧酒”的计算机数据模型看似提供了有力的技术支撑，为预测和分析验证带来了从未有过的“技术优越性”，却最终在现实面前“现形”。从现实来看，很多技术至上论者盲目地认为计算机语言和数据可以“无所不包”，迷信于大数据，陷入数据的误导与错觉，难以做出理性的决策。如作者在本书第三章总结道，计算机没有现实生活认知，这些智慧和常识来自真实生活。

《错觉》这本书的结构充满了“批判性”，作者并未采取理论说教、枯燥解读的传统模式，而是另辟蹊径，从科学实验、医疗技术、历史政治事件、经济数学模型、股市、保险等不同角度切入文章主题，以计算机数据分析的过程、结果进行批判性思考，启迪读者去正确认知计算机语言的逻辑，以及数据模型结果的随机性因素。事实上，在这本书中，作者提出了很多识别数据和验证数据真实性的方法，一方面是计算机语言缺乏时间性，线性的数据分析并不能解释非线性世界的诸多现象，反而简化了现实世界的复杂性；另一方面是数据本身的缺陷，在计算机技术尚处于开发阶段，人工智能还未成熟，距离人类的思想、批判能力存在较大差距，导致了数据的收集、整理和分析并不全面，漏洞百出的数据结果不足以支撑分析的可靠性。近年来，计算机与大数据也正在通过其广泛的民意基础对政治选举进行“干预”，网上民调、互联网民意、媒体舆论等，甚至开始进入到选举程序。

人工智能的发展没有达到预想的效果，是因为现实生活与历史事件的复杂性超越了大数据本身的分析，而且众多的数据未能考虑时间的跨度，模型以及计算机语境的符号不能完全取代人类的批判性思维。《错觉》这本书的精彩之处正在于此，如马里兰大学法学教授弗兰克·帕斯奎尔所评价的，本书从计算机的角度出发，对人工智能、大数据和机器学习在我们日常生活中愈发盛行的现状做出了强烈批判。本书的写作逻辑与加里·史密斯教授一直以来对数据分析方法的批判性研究一脉相承，其经典著作《数据科学的9个陷阱》《基本统计、回归和计量经济学》《标准偏差：有缺陷的假设，扭曲的数据，以及其他欺骗统计数据的方法》等几乎都在批判数据分析模型和方法，这种思维贯穿于《错觉：AI如何通过数据挖掘误导我们》之中。本书最后四章的案例论述聚焦于医疗、股市、日常生活的事例，详细分析AI如何通过数据挖掘误导我们。如作者在结语部分所言，统计学证据不足以辨别真知灼见和虚假信息。只有逻辑、智慧和常识才能对其加以区分。人工智能目前还无法评估事物是真正相关还是偶然相关，因为她还不理解数据的意义。

读罢此书，也让我想到了近期一本风靡的畅销书，以色列历史学家尤瓦尔·赫拉利的《今日简史》，这本跨学科的经典著作提出了富有启发性的思考，其中对人工智能和大数据提出了深刻的批判，作者认为，我们真正应该担心的，是有一小群超人类精英凭借算法带来的力量，与大量底层的手无权利之人之间发生冲突。两本书有异曲同工之妙，都对大数据、AI人工智能和算法提出了质疑，这种批判精神有助于我们对计算机科学技术的应用保持警惕。对于普罗大众来说，正确理解和判断人工智能、大数据的虚假信息、错误模型着实比较困难，需要花费时间和精力去辨别，最重要的是能够形成独立的思想判断力，尽可能不被大数据所误导。当然，本书的出发点并不是毫无根据地指责大数据和人工智能的科学进步，而是站在更接近于人性和社会学的角度理解AI，这才是真正的科学精神。加里·史密斯教授最后指出，在大数据时代，真正的危险部署计算机比我们更聪明，而是我们自己也这么认为，从而信任计算机为我们做出重要决定。《错觉：AI如何通过数据挖掘误导我们》则给予我们一次反思大数据和AI人工智能的机会。