下载客户端

大模型新史：春秋将逝，战国启阖

2024-03-21 15:35

来源：澎湃新闻·澎湃号·湃客

两千多年前，中国迎来第一次全国性大分裂，诸侯连年征战，天下格局也随之动荡不定。

但正如常言所道，“天下大势，分久必合”，经过近300年的兼并战争，数百个诸侯纷纷覆灭，最终只剩下少数几个主要国家，历史进入七国争雄的战国时期。

历史不会简单重演，但总会飞来几只似曾相识的燕子。这一次的“燕子”，名叫大模型。

从被称为AIGC的“iPhone时刻”的ChatGPT诞生以来，正如智能手机的iPhone时刻不只属于苹果公司，而是带来了一大批智能手机品牌的崛起一样，大模型也迎来了“百模大战”。

据GitHub的统计数据，到2023年底，仅国内已经发布的大语言模型数量，即已接近300个。加上海外企业，全球大模型数量已超过400个。

巧合的是，当初东周王室分封的诸侯数量，也是400多个。

尽管大模型空前广阔复杂的应用场景，以及不同厂商在细分领域优劣势的客观存在，决定了大模型不会像PC一样出现Windows一统天下的格局，也不会像智能手机一样仅由iOS、Android两个主要玩家垄断市场；但大模型本身超强的适应能力，也决定了百度李彦宏所说的“99%陪跑”，更有可能成为行业的未来景象。

新的历史正在上演，而在叙事上，大模型研发者们，似乎已经选择了当初谷歌打下Android江山的剧本。

去年12月，阿里云正式发布并开源“业界最强开源大模型”通义千问720亿参数模型Qwen-72B。

1月17日，商汤科技与上海AI实验室联合香港中文大学和复旦大学发布的新一代大语言模型书生·浦语2.0宣布开源。

1月29日，Meta发布的“Code Llama家族中体量最大、性能最好的模型版本” Code Llama70B，也选择了开源。

1月30日，科大讯飞发布首个基于全国产化算力平台”飞星一号”的开源大模型——星火开源-13B。

公开信息显示，Meta的LLama、OPT，谷歌的T5、MT5、FLAN-T5以及UU2，Big Science的BLOOM、T0、BLOOMZ等国内外主流大模型，均走上了开源道路。

艾伦人工智能研究所等5机构最近公布的开源模型OLMo，更是将模型权重、完整训练代码、数据集和训练过程全部予以公开，玩起了大模型的“真·完全开源”模式。

国内外头部厂商纷纷加入这场“开源热”，意味着“加速快跑”已成为行业共识。大家都希望跑在前面，成为李彦宏口中那剩下的1%。

而留给后来者的机会窗口也正缓缓关闭。因为在竞争再度空前激烈的大模型赛道上，所有参赛者都明白，这不是一场排位赛，而是一场淘汰赛。

大模型的“战国时代”，似乎已经遥遥在望。

推开“战国”的大门

Android的发展历程，堪称互联网行业底层操作系统开源的教科书。

作为一个开源系统，Android较之此前占据优势的塞班、黑莓、WP，以至同样出身名门的plam OS（惠普）、BADA OS（三星）、MeeGo（英特尔+诺基亚），本身并没有多大突破。但是由于开发者可以自由访问系统底层，通过其源代码进行二次开发，App的开发门槛、周期都得以大幅缩短，并且可以根据自己的需求和风格定制界面和功能，市场自然更容易接受。

手机厂商也乐得将更多的精力，投入到系统的打磨上，改善用户的使用体验。因此，我们所熟知的小米、魅族、vivo、OPPO等手机厂商，基本都是基于Android的深度定制打造的自身操作系统。

回望模型，开源大模型的出现，让 AI 应用的开发周期和成本大幅降低，加快人工智能的普及。以Meta发布的Code Llama70B为例，据称，其API调用成本大约比 GPT-4 便宜了 30 倍。在Llama2 发布两个月后，通过 Hugging Face 的 Llama 模型下载量就超过 3000 万次。国内兴起的AIGC，不少应用的基础模型就是 Llama2。

正如Meta 首席科学家、深度学习三巨头之一 Yann LeCun所说：“闭源证明了大模型路线的可行性，而开源则通过繁荣的生态，让大模型变得易用、可用。”

而这次大模型的“开源热”，除了市场推广逻辑的复刻外，还有更现实的利益考量，那就是算力资源的匮乏。

根据不同的机构测算，GPT-4 的训练需要的 A100 数量大约在10000-25000 张的区间。“百模大战”所消耗的算力规模可想而知。

更富逻辑性的说法则是，过去4年间，大模型参数量以年均400%的速度增长，AI算力需求增长超过15万倍，传统算力基础设施已无法满足大模型、生成式AI的训练需求。

正是在这一背景下，业内早就提出，AI大模型的合理发展路径，应该是“可能仅有少数企业会开发基础大模型，其他各行各业将根据自身业务需求、数据量等，接入大模型平台，开发属于自己的模型”。

国内大模型的先发者百度CEO李彦宏更是直言：“好几百个基础模型，这是对社会资源巨大的浪费。”

另一方面，“百模大战”对于技术升级的意义或许也确实不大。

尽管目前各家大模型在数据、算法等各个层面千差万别，但核心的技术路线，事实上都是6年前诞生的Transformer 架构。ChatGPT的名字中，GPT的T，指的就是Transformer。Copilot、 DALL·E 3 、 Midjourney、Runway……这一年不断刷新我们认知的 AI 产品，背后的核心技术架构都是Transformer。

这也解释了为什么ChatGPT之后，新的大模型会如此密集出现。ChatGPT的最大功绩，不是创造了新的AI工具，而是让大家看到了AI革命性突破的确定路径。这与前文提到的智能手机的iPhone时刻可谓异曲同工。

在同样的架构之下，训练出再多再好的大模型，最终意义或许就是刷个榜而已。

1月30日，上海人工智能实验室推出的大模型开源开放评测体系司南（OpenCompass2.0），发布了2023年度大模型评测榜单，榜单显示，整体技术能力居于GPT4与GPT3.5之间的大模型数量，已多达7个，其中不乏国产大模型身影。

但在实际应用上，李彦宏表示：“国内数百个大模型调用量加起来，还不如文心一个多。”

既然这样，把资源集中在几个更有实力的大模型上，的确是更优选择。

从政策上来看，开源也是行业大势所趋。早在2017年，中国发布的《新一代人工智能发展规划》就将开源、开放作为基本原则写入了规划。2023年，科技部副部长吴朝晖也表示，中国坚持开源协作，加强大模型技术持续创新，协同解决透明性、稳定性等共性问题，加快形成大模型的产业生态。

因此，当下大模型发展的“春秋时期”，是市场、企业、政策多方合力，共同用开源推开了“战国”的大门。

“分晋”？“代齐”？

开源将改变大语言模型的格局已毋庸置疑。如何应对？相信谁也给不出终极答案。

但既然“似曾相识燕归来”，我们不妨再次将眼光转向两千多年前的那个时代。

历史从春秋转入战国，有两个标志性的事件，一是三家分晋，二是田氏代齐。这两大事件，也为大模型厂商们面对开源后加快的市场洗牌，提供了两个有效的应对思路。

三家分晋的最终成行，在于赵、魏、韩三家势弱的公卿，通过联合取胜，消灭了势强的智家，从而各自分得了晋国的部分领土。对于大模型厂商来说，这意味着一种合纵抗敌，各得其利的思路。

海外比较具有代表性的案例当属Hugging Face开源社区。作为世界最大的大模型托管平台，Hugging Face近日推出了开源、可定制的AI 助手Hugging Chat Assistants。除了免费之外，其与GPTs和GPT Store另一个重要区别在于：后两者完全依赖于OpenAI的专有大模型GPT-4以及GPT-4 Vision/Turbo，而前者的用户可以自由选择多个开源LLM来驱动AI助手。

Hugging Chat Assistants推出后不久，就受到AI社区许多开发者的称赞，认为它在某些方面“超越了GPTs”，成为其追赶闭源系统竞争对手方面的不二法宝。

在国内，2023年9月5日，由重庆市大数据应用发展管理局牵头，华为、阿里、腾讯、百度、京东、科大讯飞等50多家国内头部大模型企业加入的，全国首个大模型联盟智博会正式宣告成立，极大地推动了大模型产业生态发展。这与Android系统发布当天，Google公司宣布联合摩托罗拉、高通、HTC和T-Mobile在内的30多家公司，共同组建全球性的开放手机联盟，以推动Android普及，看上去颇有几分相似。

回顾历史，田氏代齐中的田氏，则是通过“有德于民”，而使“齐之民归之如流水”，最终取代姜氏，掌握了齐国的政权。这种给与下游生态合作伙伴及客户更多实惠，从而提升其合作意愿的思路，更适合有实力的大模型厂商。

譬如2023年9月5日召开的百度云智大会上，百度即宣布，推出大模型新生态政策，为伙伴提供资金、算力、技术、营销等全方位的强力支持。百度如今能做到“国内数百个大模型调用量加起来，还不如文心一个多”的成绩，与此不无关系。

当然，从大模型长期发展的复杂性来说，需要考虑的因素远不止此。数据安全、许可协议标准、商业模式等等问题，在如今的发展阶段，仍然处于未解之中。

但，Android先例在前，无论选择“分晋”还是“代齐”路线，抑或其他，大模型厂商们通过开源加快抢占市场的用心，早已坚不可摧。“春秋时代”战事的终结，也早已由此注定。

Android的命名灵感，来自一个充满野心的科幻作品《未来夏娃》。在这部小说中，作者试图创造出一个完美的机器生命。正是出于对作者利尔·亚当科学精神的致敬，Android之父安迪·鲁宾，将本书女主角的名字，用在了自己开发的操作系统之上。大模型厂商们，谁又将造出AI时代的“未来夏娃”，我们拭目以待。

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

#大模型 #AI #开源大模型 #开源 #马斯克开源Grok-1