下载客户端

OpenAI CEO宣布转向，“大模型时代”即将结束？

2023-04-20 12:22

来源：澎湃新闻·澎湃号·湃客

原创张勇毅电厂

记者张勇毅

编辑高宇雷

4月19日，虽然在这个月几乎每周都至少有一家科技大公司入局训练大模型，但OpenAI 却突然改变了方向声称，大模型时代已经要结束了。

上周末在麻省理工学院，OpenAI 的 CEO 在演讲中警告称：我们已经处在大模型时代的尾声，并表示如今的 AIGC 发展中，将数据模型进一步做大，塞进更多数据的方式，已经是目前人工智能发展中最后一项重大进展，并且还声称目前还不清楚未来的发展方向何去何从。

消息传出，立即引发很多外界的质疑，OpenAI 本身已经是大模型技术领域最前沿的研究机构，为何会说出这种能让研究方向180度掉头的论调？

在如今的生成式 AI 背后的技术，称其为大模型甚至已经不够准确，这些模型所需的参数数量已经是天文数字，称其为「巨型模型」或许更加准确。

OpenAI 最早的语言模式是 GPT-2，于 2019 年公布，发布时就有 15 亿个参数，此后随着 OpenAI 研究人员发现扩大模型参数数量能有效提升模型完善程度，真正引爆 AI 行业浪潮的 GPT-3 发布时，参数数量已经达到了 1750 亿个。

截至目前，OpenAI 并没有公布最新迭代版本 GPT-4 所用的参数数量。但外界普遍估算其包括的参数量已经达到了 GPT-3 的二十倍 —— 3.5万亿个参数。

但人类互联网历史上被保留下来的各种高质量语料，已经在 GPT-3 以及后续发布的 GPT-4 的学习中被消耗殆尽。大模型参数数量仍然可以继续膨胀下去，但对应数量的高质量数据却越来越稀缺，因此增长参数数量带来的边际效益愈发降低。这如同 AI 行业的「摩尔定律」一般。

除了大模型本身的技术发展方向，Altman 提到的另一个问题：购买大量 GPU 以及建设数据中心的物理限制以及高昂的成本，或许才是更多 AI 大模型开发公司现在所面临的切肤之痛：运营巨型数据服务中心成本高昂已经是行业公认，但如果是用于 AI 大模型训练则更是贵上加贵，无论是对电力还是水力的消耗都极其巨大。

即使是 GPT-4 或 New Bing，也多次因为算力不足不得不公开宣布短时间内暂停访问。算力已经成为限制 AIGC 进一步拓展使用场景的关键桎梏。Altman 的说法的根据，或许也有很大一部分来源于 OpenAI 所面临的现实原因。

在今年三月，英伟达专用于大模型参数计算、采用专用 Transformer Engine 架构的英伟达 H100NVL 系列发布之后，从中嗅到商机的黄牛也开始借机炒价，售价已经飙升至四万美元。但这些在当下大模型技术巨大的风口面前似乎都不值一提，目前 H100NVL 系列仍然处于一货难求的状态。马斯克也在 Twitter 上惊呼「似乎每个人和他们的狗都在抢购 GPU」。

不过吐槽归吐槽，即便是马斯克也不得不为了自己新成立的 AI 公司而买买买：据《商业内幕》报道，马斯克已经购入了一万组英伟达最新发布的 GPU 并运至数据中心。并在 Twitter 上声称将开发 TruthGPT 来挑战 ChatGPT。

尽管 Altman 同时还在演讲中表示「OpenAI 目前没有在开发 GPT-5」。但在 AI 大模型发展狂奔的路上，没有人愿意真的成为「落后六个月」的那个。

根据分析机构 SemiAnalysis 估算，如果按照目前 ChatGPT 的运算处理效率，想要承担 Google 搜索目前在全球全部访问流量，至少需要 410 万张英伟达 A100 GPU。即使只是训练出目前 ChatGPT 能力的大模型，也需要超过 10000 个 GPU 来完成，后续运营维护还需要更多。

这也是如今几乎你能见到的每个大模型产品都需要「内测邀请码」的原因：不仅训练这些大模型烧钱，运营起来更加烧钱。

这种对于计算硬件极度迫切的需求，推动着英伟达成为这个市场最大的垄断者。如今英伟达已经占据了计算卡 88% 的市场份额，其他选项 —— 例如 Google 开发的 Tensor TPU，甚至不提供对外售卖的选项。

但正如马斯克「嘴上说暂停训练半年，实际光速成立 AI 公司」一样，在很大程度上，这也只是 Altman 的一家之言。如今很多后来者的技术发展程度都还远未到能说出「AI 发展不能靠无脑计算」的程度。但 Altman 所说的确实已经成为如今头部大模型开发公司正在/即将要面对的棘手问题。

「一味不计成本地堆砌硬件不是未来」已经成为越来越多业内人士的共识。

现在的 AI 发展阶段，甚至很多地方都有着互联网发展早期时代的即视感：AI 行业的发展也已经出现了「摩尔定律」，训练大模型所需的大量 GPU 组成的硬件训练集群，与世界上第一台计算机并没有本质上的区别。

人工智能也需要一次「半导体革命」，探索未来也需要更加高效的方式：或许对大模型参数数量的精简，以及利用多个较小的模型实现处理能力的提升，会是大模型时代结束之后，AIGC 行业的下一个发展方向。

在 ChatGPT 发布之初，针对参数量过高以及关于道德伦理方面的问题，OpenAI 曾公开过一项新的研究：使用一种通过人类反馈来强化学习 (RLHF) 的技术，对模型数据进行微调。

经过超过一年的测试，OpenAI 由此生成了 InstructGPT，其模型参数量仅有 13 亿，只不到原版 ChatGPT 的百分之一，但这个迭代款不仅表现出更准确的回答能力，甚至在回答中关于事实核查以及负面内容的表现，要好于 ChatGPT 本身。

此外，同样近期大火的 AutoGPT：使用 GPT-4 作为底层技术，加入了从网页中抽取关键信息的能力，根据返回的结果进一步执行命令，帮你自动完成任务处理。突破了只能处理文本相关内容任务的限制。

由此诞生的结果，就是用户在 AutoGPT 的实际使用中都能明显感受到，要智能的多的结果，甚至完完全全改变了原本 ChatGPT 常规的使用方式，比如 AutoGPT 能自动完成一整个网页的代码实现，甚至还有网友发现 AutoGPT 为了完成最初的任务目标，自行在招聘网站上发布了招聘广告，吸引其他人来辅助完成。