下载客户端

促进公平的灵丹妙药？马斯克的推特算法开源计划远比想象复杂

澎湃新闻记者邵文

2022-04-28 15:38

来源：澎湃新闻

∙ 科学湃 >

“在这个机器学习的时代，重要的不是算法，而是数据，”麻省理工学院计算机科学家David Karger接受WIRED采访时表示，“让Twitter重要的不是算法，是发推文的人。”

在Twitter接受440亿美元收购后，埃隆·马斯克已为Twitter制定了一系列宏伟构想。这其中最被热议的就是“开源算法”，一部分人认为这会创造一个更公平的世界，同时也有专业人士对其可行性表示怀疑。

马斯克在其收购出价被披露之前就提出了这个计划，在他的报价被披露的那天重申了这一计划，并在交易确认后再次提出了这个计划。

在4月14日的TED演讲中马斯克概述了这一提议，“真正重要的是，人们既有现实又有感知，即他们能够在法律范围内自由发言。所以我认为Twitter应该做的一件事就是开源算法。”马斯克认为，披露升级或降级推文的算法将降低“幕后操纵”的风险。

“它有可能将Twitter变成一个真正值得信赖的平台，用户可以理解为什么某些推文会出现在列表的顶部，并且所有关于幕后保密或偏见的担忧都将被消除，”开源数据库公司EDB首席技术官Marc Linster说。

Twitter联合创始人也是前CEO的Jack Dorsey也是明确的支持者，他提出，使用什么算法或不用什么算法的选择应该开放给每个人。

然而确定Twitter上什么主页内容时间线的机制通常极其复杂，并涉及审核和过滤、付费内容推广和用户分析等内容。推文排名背后的内容、用户资料、算法训练数据、审核规则及训练模型的代码，这些构成了一个庞大的数据池，很难搜索并且传播成本很高。

“当我们谈论‘算法’时，它实际上是数据处理和人工干预步骤的复杂组合，加上使用历史数据训练的算法模型。核心算法的开源版本可能不会告诉我们Twitter上的内容实际上如何形成，拥有代码当然也不足以真正理解平台的工作原理，因为它的实际行为取决于输入到其中的数据。我认为Twitter不太可能出于明显的商业原因披露大量此类数据，并且，对于不公开的推文，这种分享在许多情况下会违反隐私规则。”爱丁堡大学贝叶斯数据科学和人工智能中心主任Michael Rovatsos接受TECH MONITOR采访时说道。

荷兰Jheronimus数据科学学院高级研究员Daan Kolkman同意将算法开源“似乎是一个好的举措”，“但在实践中，它很可能只不过是一种象征性的姿态。这一切都取决于它将如何准确地开源。”

他解释说，“仅仅访问算法并不足以确保公平。要进行可靠的算法审计，除其他事项外，你还需要访问用于训练模型的数据并深入了解开发过程。Twitter的算法可能经常更新，那么仅仅拥有一个快照并不是那么有用。”

“一般情况下，推荐模型会经常重新训练，并且会随着时间的推移而不断变化。虽然也可以持续发布所有经过训练的模型，但除非你确切了解模型中用于预测的输入和输出，否则它也不会很有用。”人工智能初创公司Abacus.AI的首席执行官兼联合创始人Bindu Reddy接受The Next Web采访时表示。

Twitter产品副总裁 Steve Teixeira也从技术性角度发表了意见，“你不能简单地开源一个ML（机器学习）模型，就像它是一些泡泡按排序冒出一样”。