下载客户端

北京智源发布悟道3.0大模型，院长黄铁军：实现AGI有三条路线

澎湃新闻记者邵文

2023-06-10 16:21

来源：澎湃新闻

∙ 未来2% >

·要实现AGI，有三条技术路线：第一是“大数据+自监督学习+大算力”形成的信息类模型；第二是具身智能，是基于虚拟世界或真实世界、通过强化学习训练出来的具身模型；第三是脑智能，直接“抄自然进化的作业”，复制出数字版本的智能体。

·据智源初步统计，今年以来大语言模型开源的项目，全世界范围内共有42项，中国有9项。“相比之下，我认为我们的开源开放力度还远远不够。”

北京智源人工智能研究院院长黄铁军。

6月9日，北京智源人工智能研究院（以下简称智源）院长黄铁军在2023北京智源大会上作报告，发布悟道3.0大模型系列，并宣布进入全面开源的新阶段。此次悟道3.0包含悟道·天鹰（Aquila）语言大模型系列、“天秤（FlagEval）”大语言评测体系及开放平台以及悟道·视界视觉大模型系列。

黄铁军在演讲中表示，要实现通用人工智能（AGI），有三条技术路线：第一是“大数据+自监督学习+大算力”形成的信息类模型；第二是具身智能，是基于虚拟世界或真实世界、通过强化学习训练出来的具身模型；第三是脑智能，直接“抄自然进化的作业”，复制出数字版本的智能体。

OpenAI做GPT（生成式预训练Transformer模型）就遵循第一条技术路线；以谷歌DeepMind的DQN（深度Q网络，Deep Q-network)为核心取得的一系列进展即基于第二条技术路线。

“从梦想角度来说，智源期望不同于前两个技术路线，从‘第一性原理’出发。从原子到有机分子、到神经系统、到身体，构建一个完整的智能系统AGI。这是一个大概20年才可能实现的目标，所以智源作为新型研发机构平台，在三个方向都在开展工作。”黄铁军的这段描述也梳理了此次多项发布的背后逻辑，分别包括大模型方向、具身方向，以及智源自己期望方向的进展。

悟道3.0大模型系列

北京智源人工智能研究院是国内最早系统化布局大模型的科研机构，2021年3月和6月，智源在两个多月时间里先后发布悟道1.0和悟道2.0。悟道1.0是我国首个超大规模智能模型系统，悟道2.0参数规模更是达到1.75万亿，是当时中国首个、全球最大的万亿级模型。

黄铁军认为，大模型有三个特点：第一是规模大，神经网络参数达到百亿规模以上。第二是涌现性，产生预料之外的新能力。第三是通用性，不限于单类问题或专门领域，能够解决各类问题。

自悟道2.0开始，智源就不仅仅研发模型。据黄铁军介绍，智源更偏向于构建以大模型为核心的生态，包括底层数据处理和汇聚、模型能力和算法评测、开源开放，形成一套高效的大模型技术和算法体系。

黄铁军认为，现在的智能时代是开源开放的时代，一个封闭的生态很难长远发展下去。开源的生态在软件上要开源，在硬件上要开放，既要竞争又要合作，这会是一个千千万万企业共同竞争、共同合作营造出来的开源开放的生态体系。

据智源初步统计，今年以来语言大模型开源的项目，全世界范围内共有42项，中国有9项。“相比之下，我认为我们的开源开放力度还不够。开源开放也是竞争，好算法应该公开评测比较才能证明技术水平，而不是仅靠结果来说优秀与否。”黄铁军说。

在悟道3.0大模型系列中，智源发布并全面开源悟道·天鹰（Aquila）语言大模型系列和悟道·视界视觉大模型系列，与多个高校和科研院所合作构建“天秤（FlagEval）”大语言评测体系及开放平台，还有FlagOpen飞智大模型技术开源体系。

据黄铁军介绍，悟道·天鹰语言大模型是第一个中英文双语、支持商用、符合数据合规要求的大模型。通过数据质量控制和多种训练优化，悟道·天鹰（Aquila）实现了在更小数据集、更短训练时间获得比其他开源模型更优的性能。这是系列模型，这次发布了70亿参数和330亿参数的基础模型，以及AquilaChat对话模型（类ChatGPT模型），AquilaCode文本代码生成大模型（70亿参数）。

此外，对于大模型的评测是当下生成式人工智能发展中的一个难点。此次智源发布“天秤（FlagEval）”大语言评测体系及开放平台，希望协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法对主观评测进行辅助，大幅提升评测的效率和客观性。

具体而言，天秤（FlagEval）大语言评测体系构建了“能力-任务-指标”三维评测框架，测评30多种能力，5种任务以及4大类指标构成的超过600个维度，其中包括22个主观和客观评测数据集，以及84433道题目。天秤评测平台已经开放，提供在线和离线评测。目前已支持英伟达、寒武纪、昆仑、昇腾等多种芯片架构，以及PyTorch、MindSpore深度学习框架。

在视觉大模型方面，此次智源大会直接放出6项成果，包括在多模态序列中补全一切的多模态大模型Emu、最强十亿级视觉基础模型EVA、性能最强开源CLIP模型EVA-CLIP、首创了上下文图像学习技术路径的通用视觉模型Painter、分割一切的视界通用分割模型、以及首个零样本视频编辑方法vid2vid -zero。

具身多模态交互模型和类脑智能

“我们探索在虚拟世界中让智能体学习完成用各种语言描述的任务，比如告诉智能体制作一个石锤子，建造一个木质的避难所。也就是说告知它一个任务，它就可以不用鼠标控制而在游戏世界里自己完成。这是通用人工智能的一个新赛道，全世界范围内有不少机构在尝试。”黄铁军说。

目前的方法主要依赖人类的知识和提示，下一个目标是让智能体在此基础上学习策略集和在专门针对多模态交互的大模型方面进一步研究，从而让它在开放世界中自适应完成更多任务，并且具备自己的创造力。

“在类脑智能和生命模拟的方向，我们的工作也在继续，去年智源大会发布了最高精度的仿真线虫，这到现在为止仍然是精度最高的，论文正在评审过程中。”黄铁军说，有了这个工作基础，我们把仿真线虫所用的生命模拟平台“Evaluation天演”全面开源，并提供在线服务。

天演平台有四项最显著的特点：第一，是当今效率最高的精细神经系统仿真平台；第二，支持超大规模的神经网络仿真，目前已经高效地复现了领域内多个大规模的神经模型；第三，提供在线工具，只要有生物数据就可以一站式的建模、仿真、可视化，“可视化是天演独有的，可以观察神经系统在运行过程中信号发生了怎样的变化。我们最终想知道生命智能的每一步，每个细节，而不像今天的黑箱。”黄铁军说。

目前，在三条技术路线中，大模型的进展最快。为何如此？黄铁军认为，主要是语言数据，无论是论文、图书还是代码，资源都非常丰富且质量高，从海量数据中发现内在蕴含的规律正是大模型的优势。

不过，黄铁军继续说道，人脑可以看成脉冲神经网络，与今天的大模型有本质区别，想要AI产生类似人脑的能力，光靠大模型一个方向是远远不够的。从基础的神经网络结构到信号加工机理的类脑智能是一个方向，让智能体有物理身体与环境互动的具身智能是另一个方向。

作为大模型领域年度巅峰盛会，智源大会至今已经举办了五届。今年大会共同主席为智源人工智能研究院理事长张宏江，以及加州大学伯克利分校教授、智源学术顾问委员迈克尔·乔丹（Michael I. Jordan）。共同程序主席为智源人工智能研究院院长黄铁军，以及清华大学教授、智源首席科学家朱军。

本届大会邀请到了图灵奖得主杰弗里·辛顿（Geoffrey Hinton）、杨立昆（Yann LeCun）、约瑟夫·斯发基斯（Joseph Sifakis）和姚期智，OpenAI首席执行官山姆·奥特曼（Sam Altman）、加州大学伯克利分校人工智能系统中心创始人斯图尔特·罗素（Stuart Russell）、中国科学院院士张钹及中国工程院院士郑南宁、中国工程院外籍院士、美国艺术与科学院院士张亚勤、Midjourney创始人大卫·霍尔兹（David Holz）等嘉宾，共议人工智能前沿与热点话题。