- +1
谷歌研究员质疑“看脸识罪犯”,交大教授撰文:我被扣帽子了
去年11月,一篇“看脸识罪犯”的论文令学术界和舆论界炸开了锅。
这篇上传在预印本网站arXiv上的论文题为《基于面部图像的自动犯罪概率推断》(Automated Inference on Criminality using Face Images)。在实验中,上海交通大学教授武筱林及其博士生张熙选取了1856张中国成年男子的面部照片,其中730张是已经定罪的罪犯身份证照片(330张来自网上的通缉令,400张由一家签署过保密协议的派出所提供),其余1126张是在网络上抓取的普通人照片。经过机器学习,算法鉴别出犯罪嫌疑人的准确率达到89%。
此后,武筱林收到了雪片般飞来的邮件,有些就学术问题进行了交流,有些则直接敦促他“撤稿”。而在半年之后,三名美国作者撰写万字长文,向武筱林隔空喊话,指责其研究在搞“科学种族主义”。
上述三名作者中,Blaise Agüera y Arcas是机器学习领域的著名工程师,2013年从微软跳槽到谷歌;Margaret Mitchell同样是谷歌的人工智能研究员;Alexander Todorov则是普林斯顿大学的神经科学教授。
这篇洋洋洒洒的万字长文,从提出“天生犯罪人”理论的意大利外科医生龙勃罗梭,写到对犹太人进行面相研究的纳粹教材,暗指武筱林的研究是这些“前辈”的继任者。
在文章中,三名美国作者在技术层面提出了一些质疑,譬如实验样本数据集过小,容易造成过拟合;罪犯组照片的着装更为随意,而非罪犯组的照片很多都穿着衬衫;此外,非罪犯组照片更多地在微笑。但文章最核心的担忧是,由于人类司法系统中存在一些歧视(譬如美国司法对白人和黑人存在量刑歧视),用这些带有歧视的人类数据训练机器,机器得到的结果也会是歧视性的。而若将这些内嵌歧视的算法用作司法工具,那么就会形成一个歧视性的反馈循环,让歧视在社会中更为巩固。
“基于面部特征的深度学习绝不该应用为‘加速’司法公正的工具,如果真的这么做的话,反而会让不公正长存于世。”文章这样结尾道。
5月14日,武筱林撰文向澎湃新闻(www.thepaper.com)进行了独家回应。他指责这种隔空点名并非“我们多年来习惯的学术交流方式”,而是政治斗争上扣帽子的手法。武筱林提到,他们在论文中明确声明“我们无意也无学术资质去讨论社会偏见问题”,却“被”解读了。三位美国作者无视声明,将论文原话断章取义,凑成主观臆断强加于他们,扣上了一顶大帽子。
在文章中,武筱林还回应了许多网友提出的“把教授自己的脸放进去试试”的问题,澄清了一种常见的“基础概率谬误”,再次强调他们的研究无意也无法用于实践。
此外,武筱林也对外界的几点技术质疑作出回应。他总结道,“我们感谢所有针对论文的提问和讨论,但坚决反对歪曲我们的初衷”,“来自谷歌的作者的含沙射影既不专业,也很傲慢。”
“仅仅使用这个词(面相学)就够格贴一个科学种族主义的标签了吗?”这是武筱林的疑问。
人工智能伦理讨论无需扣帽子和歪曲事实
(原文为英文,由澎湃新闻记者翻译,并经对方修订)
2016年11月我和我的博士生张熙在arXiv上贴出了一篇题为 “Automated Inference on Criminality using Face Images”的论文。该论文在各国学术界,尤其是互联网上引起了广泛的关注和争议。近日,Arcas等三人在Medium网站上发表了《相面术的新外衣》(Physiognomy’s New Clothes)一文。我们赞同三位作者的观点,即AI研究要有益于社会,但我们发现他们对我们的工作,尤其是我们的研究动机和目标多有误读。
扣帽子
该文章的作者暗示我们有恶意的种族主义动机。这种暗示很明显,导致我们立马在网络上,尤其是中国网民那里受到了批评。我们论文里从未宣称要把我们的研究方法用作司法工具,我们对相关性的讨论也从未延伸到因果关系。任何以客观中立立场读过我们论文的人,都会明白我们只是想知道机器学习是否有潜力像人类一样,对陌生人的脸形成社会性的看法即第一印象。要知道,第一印象是一个同时取决于观察者和被观察者的函数;它在心理学上是很复杂,很微妙的。我们的研究是在挑战机器学习的上限,将自动人脸识别从生物学维度(比如种族、性别、年龄、表情等)拓展到社会心理学维度。我们只是好奇,能否教会机器复制人类对陌生人的第一印象(个性、风格、器宇等),通过这个问题的图灵测试。正如我们在论文中所述,直觉上,我们认为面部的犯罪性印象是一个测试我们大胆假想的比较容易的突破口,事后证明,这是个不幸的选择。 我们在英文原论文做了如下解释:
“要想验证我们的假想,即一个人面部的物理特征和其内在特质、社会行为间存在相关性,运用现代自动分类器去区别罪犯和非罪犯,其分类准确率是非常有说服力的。如果面部特征和社会属性真的相关,这两类人群应该是最容易区分的。因为(以我们的直觉)犯罪需要在秉性上偏离正常(离群值)。如果分类器的区别率很低,那么我们就能有把握地否定对面部进行社会性推定的做法。”
令人震惊的是,来自谷歌的作者们将上述段落断章取义,凑成了下述臆断强加给我们。
“那些上唇更弯曲,两眼间距更近的人在社会秩序上更低级,倾向于(用武和张的原话说)在秉性上偏离正常(离群值)’,最终导致在法律上更可能被判定犯罪。“
我们认同“犯罪性“(criminality)这个词有点尖锐,我们应该打上引号的。在使用这个词的字面意思,把它作为机器学习的标签(“ground truth”)时,我们忘了警告读者,训练数据的标签有可能有我们无从知道的偏差。这是我们的严重疏忽。然而,在论文中我们始终保持了一种冷静的中立性;在引言部分,我们声明道:
“在本文中,我们无意也无学术资质去讨论社会偏见问题。我们只是好奇,全自动的犯罪性推定能有多高的准确率。一开始我们的直觉是机器学习和计算机视觉会推翻相面术,但结果是相反的。”
尽管我们文中一再声明我们的纯学术,纯技术初衷,来自谷歌的作者们仍然花式政治性地解读。这不是我们多年来习惯的学术交流方式。现在我们后悔不该在文中使用“physiognomy”这个词。它最接近的中文翻译是“面相学”。我们对这个词在英语国家里固有的负面涵义不够敏感;但是,仅仅使用这个词就够格贴一个科学种族主义的标签了吗?
“基础概率谬误”(base rate fallacy)
尽管来自谷歌的作者们声称是“为广大的受众,不只是为研究者”写这篇文章的,但作为科研人员的他们却方便自己地忽视了在互联网讨论人群里(多数是非科技类型)和媒体报道里出现的明显的“基础概率谬误”迹象。
人脑往往被一个特定事件的高条件概率锁住,而忘记了该事件在大环境里发生的极低背景概率。我们文章中最强的基于深度学习的面相分类器有89%的识别率(注意:这是基于我们目前的训练数据,还有待用更大的数据核实),很多人就认为,这么高,这还不一试一个准!(国外就有文章报道我们时就惊呼“correct 9 out 10 times”)。有人在网上调侃 “教授,把你的脸放进去试试”。好吧,这倒是蛮好玩的。假设我的脸被测阳性(被认定为罪犯),我有多高概率有犯罪倾向呢?计算这个概率需要用贝叶斯定理:
P(罪|+) = P(+|罪)*P(罪) / [ P(+|罪)*P(罪) + P(+|非)*(1-P(罪)) ]
上式中P(+|罪)=0.89 是罪犯的脸被我们深度学习测试方法判阳性的概率,P(罪)=0.003是中国的犯罪率,P(+|非)=0.07是我们方法假阳性(把一个非罪犯判定为罪犯)的概率。将这些数值代入贝叶斯公式,结果是武筱林有3.68%的概率犯罪。我想,这一路从89%到3.68%走下来,原来不少骂我们的人就释怀了吧。那些叫着要纪委用我们的方法的网友也该歇歇了。不过,我这里再次郑重声明,我们坚决反对在执法司法中使用我们的方法,原因不仅仅是上面演算的结果。
基础概率谬误是媒体惯用的伎俩,夸张地描述某项大众所不熟悉的新技术或新研究,借此操纵舆论,逐步灌输对人工智能研究的不理性恐惧。
垃圾输入(Garbage in)?
尽管我们对来自谷歌的作者们的知识沙文主义态度感到不快,但我们认同他们的进步的社会价值。他们实在没必要像编年史一样列出历史上那些臭名昭著的种族主义者,接着把我们列在后面。但起码在理论上,独立于主流社会观念的研究结果的客观性是存在的。
信息科技领域有句老话“垃圾进,垃圾出”。然而,来自谷歌的作者们似乎在说,因为输入数据中人类的偏见是无法避免的,所以机器学习工具无法用于社会计算。就像大多数技术一样,机器学习是中性的。如果像他们说的,机器学习可以用来巩固社会计算问题中的人类偏见,那么机器学习也可以用于发现并矫正人类偏见。他们担心反馈循环的问题,然而,反馈本身就既可以是正向的,也可以是负向的。就算“犯罪性”是个十分复杂的问题,受过良好训练的人类专家可以努力确保训练数据的客观性,也就是说,能使用独立于嫌犯外貌的正确判决。如果机器学习用的训练数据的标签是不带人类偏见的,那么机器推测在客观性上无疑是优于人类的。
即使训练数据标签中存在噪音,无论是随机的还是系统性的,也有科学办法去洗涤,并恢复/提高结果的准确度。我们不该畏于民粹主义就在科学探索上止步。
过拟合(overfitting)的风险
不少批评者指出了我们实验中所用的样本集较小,存在数据过拟合的风险。我们痛苦地意识到这个缺点,尽管我们的数据已比之前康奈尔大学心理学系的类似研究用的大了一个数量级。由于某些显然的原因,我们难以拿到更多的中国男性罪犯身份证照片(这篇批评文章可能让我们丰富数据集的希望化为泡影)。然而,但在我们论文的3.3节,我们已尽全力验证我们的发现,这些技术细节又被来自谷歌的作者完全忽视了。
“鉴于社会上对这个话题的敏感性和反响度,以及对面相术的质疑,我们在公布结果前异常谨慎。我们故意跟自己唱反调,设计实施了以下多个实验,以挑战我们分类器的正确性……”
我们把训练集中的照片以五五开的概率随机标签为罪犯或非罪犯,看看四个分类器能否以超过50%的概率区别这两组照片。结果是四个分类器都失败了。一些类似的、更具挑战性的测试结果也是如此(详情参见论文)。这些实证结果,说明论文中分类器出色的表现并非由数据过拟合所致。否则,在样本集大小和数据类型(人脸)一样的情况下,分类器也应能够区别两组随机标签的数据。
“白领子”
批评文章也质疑道,罪犯组的身份证照片大多是不穿衬衫的,而非罪犯组的身份证照片大多穿了白领子的衬衫。在这点上,我们在原文中忘了说明在实验中,我们在训练和测试中用的身份证图片都是将其脸部抠出的,着装和背景全都去除掉了。
但不管怎样,这个“白领子”线索还牵出了另一个重要的细节,在这里我们需要向读者们道歉。这个细节是,我们无法控制那些实验对象的社会经济地位。我们不是不想控制,但由于隐私保护的原因,我们不能拿到相关数据。在实验对象的社会经济地位有控制的条件下,我们猜想,我们分类器的准确率很有可能下降。如果这个猜想被证实,那么我们发现的有可能也是一种面相和社会经济地位的相关性,随之而来的将有一个涉及社会公正和歧视的课题。
事实上,也正因为这种可能性,我们认为用机器学习发掘分析人脸潜在的社会属性的研究对社会科学来说是有意义的。
在论文中,我们还采取了一切措施,避免机器学习方法,特别是CNN,依据图像间一些浅表的差别做分类,比如压缩噪音和照相机的物理差异性等等(参见论文3.3章节)。
总之,我们感谢所有针对论文的提问和讨论,但坚决反对歪曲我们的初衷。来自谷歌的作者的含沙射影既不专业,也很傲慢,与他们不离口的公正相去甚远。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司