- +1
面壁智能首席科学家刘知远:大模型的“摩尔定律”是模型知识密度持续增强
·从2023年下半年开始,很多国内一线大模型公司水平已经达到了GPT3.5,现在则达到了接近GPT4.0的水平,但更应该关注的是国外尚未公布的模型。
·未来高效大模型第一性原理的关键词便是知识密度。模型的知识密度增强将呈现出每8个月提升一倍的规律。
“OpenAI推出的ChatGPT拉开了通用人工智能的序幕,影响力堪比2000年左右兴起的互联网。未来5-10年里,大模型及通用人工智能技术将给整个产业和人类社会带来无限想象空间”。
7月5日上午,清华大学长聘副教授,北京面壁智能科技有限责任公司(简称面壁智能)联合创始人、首席科学家刘知远在WAIC2024分论坛上做了一场题为《大模型时代的“摩尔定律”》主题分享。
2022年,身为清华大学计算机系自然语言处理实验室的副教授刘知远带头成立面壁智能,成为国内最早研发大模型的团队之一。
清华大学长聘副教授,北京面壁智能科技有限责任公司联合创始人、首席科学家刘知远
今年6月,斯坦福学生AI团队训练出的开源多模态模型,被传“套壳”了面壁智能的MiniCPM-Llama3-V2.5后,这家清华系大模型创业公司受到了社会关注。
当前中国大模型水平到底怎么样?大模型商业化落地会面临哪些问题?澎湃科技(www.thepaper.cn)在刘知远演讲结束后对他进行了专访。
中美大模型存在一年代差
在刘知远的观察中,从全球范围看,OpenAI推出的大模型仍处于世界一级水平,但中国大模型追赶能力超强。从2023年下半年开始,很多国内一线大模型公司水平已经达到了GPT3.5,现在则达到了接近GPT4.0的水平。
“单看已发布的模型能力,基本上会认为中美大模型存在一年左右的代差。”但刘知远强调,关注模型更应该关注的是国外尚未公布的模型——比如美国一些科技公司完全具有持续不断推出模型的能力。
刘知远对中国大模型技术水平的发展保持积极乐观的态度,“我认为国内AI大模型水平已经形成了有高原但无高峰”的状态。据他透露,面壁智能将在半年或一年内把GPT3.5水平的模型能力放到端侧运行,争取未来两年内在端侧实现GPT4.0能力。
但他也向澎湃科技感慨,尽管国内大模型企业用近一年半的时间追赶美国,但国内的大模型公司整体情况基本上还是“太卷”,大家太注重短期利益,整体大的创新性仍不足,“很难做出特别前沿的产品。”
在刘知远看来,未来大模型发展主要会有三个战场:一是大模型会往更科学化的方向发展,高校会有一套推进大模型实力增强的技术路线;二是未来大模型一定会跟计算系统结合,比如会有智能操作系统、智能数据库等,各类计算系统负责各行各业;其三,未来广泛应用会在企业端、产业界。
回看过去,刘知远判断,“我们经历了符号智能、专用智能,今天还是大模型的序幕,从OpenAI提出ChatGPT的第一个版本开始,到现在不过五六年时间。目前,我们正在加速迈向更加通用的人工智能,而大模型技术就是非常重要的技术基础。”
未来大模型的竞争是知识密度的竞争
产业界似乎默认,OpenAI训练出的Sora和GPT,都是典型的“大力出奇迹”的效果,在大模型领域,当前依然是典型的暴力美学模式,大算力是造就大选手的基础门槛。
刘知远在WAIC2024“模型即服务(Mass) 加速大模型应用落地”论坛上演讲
对此,刘知远也分享了他的研究思路。他认为,大模型时代会拥有自己的“摩尔定律”,即模型知识密度的持续增强,“如果说芯片制程会带来终端算力持续增强,模型制程也将带来模型知识密度的持续增长。”知识密度即每一次的计算所需要参与的参数以及对应能力所需要消耗的算力,刘知远进一步解释说,“一个知识密度越强的模型意味着能力越强,每一次计算所需要的参数规模越小。”据刘知远观察,模型的知识密度增强将呈现出每8个月提升一倍的规律。
刘知远认为,未来高效大模型第一性原理的关键词便是知识密度。如果大模型数据驱动技术方向大致确定,那么模型的架构、算法、数据等技术方案却仍在高速迭代,持续改进模型制程、极致提升知识密度成为行业努力的方向。在这个逻辑之下,就可以打破“大模型算力越大,参数越大,准确率就会越高”的刻板印象。
WAIC2024显现的三大趋势
谈及此次世界人工智能大会,刘知远表示,可以看出三大发展趋势:
其一,具身智能是未来的趋势之一。他认为,当前产业界正快速地往具身方向靠近,尤其人形机器人的核心功能对应的是具身智能,模型需要具备越来越强大的多模态能力。不过人形机器人虽然很火,但他认为人形机器人最终是否能够实现商业化落地依然是行业难题。面向未来,在他看来,人形机器人的发展大概率会经过过渡阶段,期间会出现各种不同形态的机器人,可以把大模型变得更加智能,这样机器人会拥有更强大的大脑。
其二,未来AI将赋能各个专业垂直领域中,比如教育行业、司法领域等。“为什么法律领域的大模型落地速度快?”刘知远认为,一个原因在于借助AI技术可以帮助法官提质增效,从大量重复性的劳动中解放出来。面对案多人少的突出矛盾,法院拥抱AI的积极性非常高。另一个重要原因是信息化程度高。“它们的数据是天然的,所以大模型用起来很顺。”在刘知远看来,“现在限制大模型广泛应用的瓶颈不在于技术,而在于相关的信息化、数据化的准备上。”
其三,对于大模型的探索不应仅停留在云上运用,端上运用大模型的意义或价值更大。他认为,未来的大模型是端云协同的模式。出于隐私保护、算力等考虑,把模型放在离用户更近的地方,具有重要的价值和意义。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司