下载客户端

2023年属于Llama和开源AI

2023-11-09 15:56

来源：澎湃新闻·澎湃号·湃客

Meta打造的Llama大语言模型今年2月席卷了整个AI研究领域，随后是7月的商业版Llama 2和8月的Code Llama……而这，就是我心目中的“AI王者”。

其实想象得到，肯定有不少读者捏紧了拳头，想要替生成式AI领域真正的大明星发声：“说什么鬼话？真相只有一个，那就是ChatGPT，它才是2023年AI的绝对王者！”没错，OpenAI的ChatGPT于2022年11月30日首度亮相，到今年2月已经拥有1亿用户，并成功将生成式AI带入主流社会。这一切，都是客观事实。

但我仍然有话要说，以我这位科技编辑的拙见，ChatGPT确实是生成式AI游戏规则的改变者，正如Forrester分析师Rowan Curran所说，它代表着“点燃生成式AI燎原大势的星星之火。”但从今年2月起，随着Meta Llama的出现，首个免费“开源”大语言模型（之所以加上引号，是因为按照传统许可定义，Llama和Llama 2并不属于纯开放项目）让开源AI开始崭露头角，并掀起一股新的浪潮，由此引发的激烈讨论直到现在也没有平息。尽管其他科技巨头、大模型厂商和政策制定者纷纷对开源代码和AI模型权重等安全问题提出质疑，同时认为高昂的计算成本正在令整个生态系统陷入困境，但开源AI前进的脚步一刻也没有放慢。

根据Meta的介绍，自Llama模型发布以来，开源AI社区已经在Hugging Face平台上微调并发布了7000多个Llama衍生模型，其中包括Koala、Vicuna、Alpaca、Dolly以及RedPajama等知名成果。虽然其他开源模型也所在多有，包括Mistral、Hugging Face和Falcon等，但Llama的确是首个由Meta这家科技巨头提供数据与资源支持的开放模型。

换言之，我认为ChatGPT就像是2023年的现象级电影《芭比》，而Llama及其开源AI阵营则类似于漫威宇宙。后者明显拥有过场的衍生空间和分支体系，累积起来将对AI领域产生最巨大、最深远的长期影响。

Domino数据实验室数据科学战略与传播主管Kjell Carlsson也抱类似的观点，认为Llama将带来“更真实、更具影响力的生成式AI应用，并为未来的生成式AI奠定坚实的开源基础。”

开源AI——承载最大、最深远的长期影响

从某种意义上讲，封闭、专有的AI模型时代就是从ChatGPT开始的。OpenAI成立于2015年，当初曾是一家强调开源、开放研究的组织。但在2023年，OpenAI联合创始人兼首席科学家Ilya Sutskever在采访中已经明确表示，考虑到竞争和安全等问题，当初就不该分享自己的研究成果。

另一方面，Meta公司首席AI科学家Yann LeCun则积极推动Llama 2连同模型权重一同通过商业许可进行发布。他在今年9月的AI Native大会上表示：“我在内部一直提倡这条路线，我认为开放才是必然的道路。因为大语言模型将成为人人倚仗的基础设施，所以必须是开放的。”

公平地讲，我个人把ChatGPT跟Llama直接比较其实有点错位。Carlsson认为Llama 2是一套改变游戏规则的模型，它的特色在于开源、提供商业使用许可、允许进行微调、能够在本地运行，而且体量小巧可以大规模推广。

但ChatGPT代表的则是“一种颠覆性的体验，真正将大语言模型的力量呈现在公众面前。最重要的是，它让人们相信AI技术具备商业潜力。”不过他也坚持认为，将GPT 3.5和GPT 4两套模型作为ChatGPT底层技术确实不太明智：“就目前的情况看，除非有特殊需求，否则它们只能算是处于概念验证阶段。”

人工智能写作产品HyperWrite开发商Otherside AI的CEO Matt Shumer指出，如果当初没有ChatGPT的开拓，Llama可能无法获得如今的反响和社会影响力。但他也同意，Llama带来的深远影响将持续多年：“如果没有Llama以及之后衍生出的各种新方案，就不可能有如今兴旺发达、大量年轻力量不断涌现的生成式AI社区。”

Neeva前CEO、数据云厂商Snowfalke高级副总裁Sridhar Ramaswamy则认为：“Llama 2百分之百称得上是游戏规则改变者——它是第一套真正具备实用能力的开源AI模型。”另一方面，ChatGPT则更多是在重复云服务领域的故事，“少数行业巨头掌控强大的模型，到时候用户不管做什么都得先向他们付费。”

而Meta，却选择了公开Llama。

早期Llama泄露，衍生出一系列开源大语言模型

第一套Llama模型亮相于今年2月，它之所以能够脱颖而出，凭借的就是灵活的体量选项——从70亿参数到650亿参数。Llama开发者报告称，其中13B参数模型在大多数自然语言处理（NLP）基准测试中的性能，已经超越了体量更大的GPT-3（175B参数），而其最大模型甚至能够与PaLM和Chinchilla等最先进的方案一较高下。Meta还根据具体情况向学者和研究人员公开了Llama的模型权重，其中包括斯坦福大学的Alpaca项目。

但不久之后，Llama的权重在4chan论坛上泄露，于是世界各地的开发人员首次接触到GPT级别的大语言模型，并很快催生出一系列衍生成果。到今年7月，Meta免费向企业发布了可供商业使用的Llama 2，微软也在自家Azure云服务上提供Llama 2模型选项。

与此同时，美国国会开始激烈讨论该如何对AI发展施以监管。今年6月，两位美国参议员致信Meta公司CEO扎克伯格，对Llama泄露事件提出质疑，表示担心“AI可能被用于生成垃圾邮件、网络欺诈、恶意软件、侵犯隐私、骚扰以及其他不当行为与伤害活动。”

但Meta却始终在开源AI贡献方面立场坚定。在今年6月的一次内部全体会议上，扎克伯格表示Meta正在将生成式AI引入公司所有产品当中，并重申了Meta对于AI研究应秉持“开放科学精神”的承诺。

长期以来，Meta一直是开放研究的倡导者

与其他科技巨头相比，Meta长期以来一直是开放研究的拥护者，特别是围绕其PyTorch框架建立开源生态系统。随着2023年逐渐接近尾声，Meta也将庆祝其FAIR（基础AI研究院）成立10周年。10年之前的2013年12月9日，Facebook宣布纽约大学教授Yann LeCun将正式领导FAIR，该组织希望“通过开放研究推动AI的发展水平，进而造福全人类。”

Meta公司AI研究副总裁Joelle Pineau曾在采访中回忆道，她在2017年加入Meta，当时打动她的正是FAIR对于开放研究和技术透明的坚定承诺。

“我之所以接受了Facebook的邀请，就是看中了他们对于开放科学的承诺。像我这样被吸引来的研究人员还有很多，这种气质早已成为研究院DNA中的一部分。”

但她同时补充称，现在进行开放研究的原因已经有所转变。“2017年那会，选择开放主要是为了改善质量、设定更高的实现标准。但如今的新情况在于，开放对于整个生态系统的生产力拥有更强的推动作用，也将有很多初创企业从中获益、得到一条不同于专有方案的替代路线。”

她同时强调，Meta对于各个版本的态度也会随时调整。“我们不会承诺在任何情况下都始终开放所有内容，每个版本都需要根据优势和风险做具体分析。”

回顾Llama：做的只是一堆小事，但却做得很好

Meta FAIR研究科学家Angela Fan曾经参与过最初的Llama项目，后续也为Llama 2贡献了力量，并努力将这些模型转化为Meta在上个月Connect开发者大会上公布的面向用户产品和功能。

她在采访当中表示：“回顾整个历程，当时这项技术在行业当中仍处于萌芽阶段而且相当孱弱，但已经足够让我们构建一些真正有趣的东西。于是我们开始尝试整合，让所有应用都获得比较一致的运作效果。”

她还补充道，Meta公司也在积极从开发者社区以及用Llama开发各类程序的初创生态圈那边寻求反馈。“我们希望了解大家对Llama 2有什么看法，思考接下来该在Llama 3中加入什么新内容。”

在她看来，Llama成功的秘诀就是“在很长一段时间里只做一堆小事，但要把事做好、把事做对。”她回忆道，Llama的诞生其实是一系列具体步骤的集合，比如正确获取原始数据集、正确计算参数规模，以及按照正确的学习率对模型进行预训练。

“我们从这么多的小实验里学到了宝贵的经验。”她还提到，对于不太了解AI研究的朋友们来说，整个过程“就像一个疯狂的科学家坐在屏幕里按来按去。但是，其间确实需要付出很多努力。”

用实际行动保护开源AI

Together公司联合创始人Vipul Ved Prakash表示，建立起广泛且实用的大规模开源生态系统一直是“我们的追求”。作为一家初创公司，Together凭借今年4月建立的RedPajama数据集而备受关注。这套数据集重现了Llama数据集，并为更多初创企业和开发人员提供全栈平台和云服务支持，供其构建新的开源AI——包括在Llama 2基础之上做延伸性开发。

Prakash同样将Llama和开源AI视为2023年真正的游戏规则改变者。他解释称，这背后蕴藏着开发高质量实用模型、并以此为基础建立商业与组织网络的重大意义。

“成本将分布在整个网络当中，就是说如果你只需要微调或者推理，那就不用承担模型构建的前期成本。”

但目前，开源AI支持者也认同应该在监管机构的关注之下，逐步推动对大语言模型的访问保护。在本周于英国召开的AI安全峰会上，全球各方就共同讨论了开源AI可能引发的极端情况——先进AI系统落入坏人手中，最终被用于消灭全人类。

但由LeCun和Google Brain联合创始人吴恩达主导的开源AI团体仍签署了一份由Mozilla代为发布的联合声明，强调开放AI“是解药，而不是毒药”。

Andreessen Horowitz公司普通合伙人Sriram Krishnan也发布推文，表示支持Llama与开源AI：

“一定要意识到 @ylecun 及其团队发布Llama 2的重要意义。第一，未来可能再也没有这种合法发布开源AI模型的机会；第二，如果没有Llama 2开辟的可能性，开源AI恐怕永远无从谈起，最终大模型的力量可能被掌握在少数几家巨头企业手中。”

Llama与ChatGPT之间的争论仍在继续

关于Llama与ChatGPT，以及开源与闭源之间的争论，肯定还会继续下去。而且在联系多位专家并征求他们的意见之后，ChatGPT仍然拥有观念优势。

RelationalAI公司机器学习研究副总裁Nikolaos Vasiloglou评论道，“放心，ChatGPT，肯定选你。它改变游戏规则的原因不仅在于其出色的AI功能，更在于其背后深厚的工程技术积累和无与伦比的运营成本。”

TravelAI公司CEO John Lyotier也认为，“毫无疑问，ChatGPT就是最终赢家。它在公众心目中成为AI的代表性形象，激发那些毫无技术背景的人们也愿意接纳并使用，并通过ChatGPT向自己的亲朋好友介绍AI技术。ChatGPT，就是‘献给普通人的AI’。”

3D生成式AI平台Atlas的CEO Ben James则指出，Llama正以ChatGPT做不到的方式重新点燃了技术界的研究热情，这将带来更强大、也更深远的影响。

“ChatGPT当然是2023年最令人瞩目的游戏规则改变者，但Llama将要改变的是未来的游戏规则。”

而我始终坚持自己的观点，哪怕是着眼于2023年，赢家也仍然是Llama和开源AI，因为这会对2024年乃至更久远的未来产生影响。Forrester的Curran也抱有相同的看法，“即使没有ChatGPT，2023年的生成式AI浪潮也已经成型，只是也许没有现在这么戏剧性。但一切已经发生，而且与历史上的其他前沿技术相比，现在有机会与这些先进工具进行交互、上手体验的人数确实相当惊人。”

他还强调，开源模型，特别是像Llama 2这类已经得到企业开发者广泛采用的模型，正在为生成式AI的实地开发与进步提供源源不断的动力。

Curran表示，从长远来看，专有模型和开源模型都将在市场上拥有一席之地。但如果没有开源社区，那么生成式AI将只是个不太先进、小众化风格强烈的市场，而不足以成为具有颠覆性潜力的技术。换言之，开源让生成式AI真正能够对普通人的工作和生活产生方方面面的影响。

“开源社区已经成为诸多深远影响的真正源头，开源社区也必将决定生成式AI的未来命运。”

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

#Llama