- +1
Scaling Law会失效吗?李开复、杨植麟、王小川等五家大模型企业CEO表态
大模型中的第一性原理Scaling Laws(尺度定律)会不会失效?用更多计算和数据是不是就可以让模型增加智慧?人人都在谈论AGI,但AGI的定义到底是什么?
在6月14日举行的2024北京智源大会上,五家当红大模型创业企业CEO以及清华大学智能产业研究院院长、智源学术顾问委员张亚勤发表了他们对于上述大模型热点问题的观点。
2024北京智源大会,大模型CEO纷纷亮相。
零一万物CEO李开复:Scaling Law已被验证并且尚未达到顶峰。
“大模型的智慧来自于接近无损的压缩。”北京零一万物科技有限公司(简称零一万物)CEO李开复表示,Scaling Law已被验证有效并且尚未达到顶峰,但利用尺度定律不能盲目堆GPU,仅仅依靠堆砌更多算力提升模型效果,只会导致那些拥有足够多GPU的公司或国家才能胜出。要让模型达到更好的效果,科学和工程缺一不可。只做工程,不了解第一性原理,没有数学根据,不知如何评估,即使投入大算力和高成本也做不出好模型。要有一套方法评估大模型训练效果,让大模型的炼制变得更有科学和数学依据。另一方面,李开复表示,仅在实验室里“雕花”就期望做出产品也不可行。“我们的经验是每一个做AI、做模型的研究者都要懂基础设施、懂推理、懂成本,GPU这么昂贵,如果能把一张GPU当做两张、三张来使用,任何公司都会得到好处。还要考虑系统化地做数据工程,数据筛选非常重要。”
月之暗面CEO杨植麟:Scaling Law会持续演进,方法可能会发生很大变化。
“大模型需要不断提升模型的规模,本质上是一个压缩,压缩产生智能。”北京月之暗面科技有限公司(简称月之暗面)CEO杨植麟表示,Scaling Law没有本质问题,只要有更多算力、数据,模型参数变大,模型就能持续产生更多智能。关键在于如何高效地实现Scaling Law,“如果只是沿着现在的方法预测下一个Token,用和现在完全一样的数据分布,搞一堆网页文本,上限是明显的。Scaling Law并没有定义模型是什么样的,比如要有多少模态,数据是什么样的,数据是生成出来的还是用网页文本,所以Scaling Law会持续演进,只是在这个过程中Scaling Law的方法可能会发生很大变化。”
智谱AI CEO张鹏:Scaling Law未来相当一段时间之内仍会有效,但“有效”是动态概念。
北京智谱华章科技有限公司(简称智谱AI) CEO张鹏表示,Scaling Law还在有效地向前推进,目前为止还未看到Scaling Law失效的预兆。“至于它是否能够帮助我们到达顶峰,现在找不到一个确切答案,但现阶段它是有效的,未来相当一段时间之内它仍会有效。”张鹏表示,所谓的“有效”是动态概念,对于Scaling Law,早期关注的是参数量规模,“现在扩展到参数量、数据量、数据质量,变成一种计算量。随着对规律的认知越来越深,规律的本质越来越被揭示,掌握本质就能掌握通往未来的钥匙。”
“我更愿意相信AGI是一种信念,一个符号,它的内涵外延在不断变化。把一个事情说得非常量化、清晰,内涵是什么,外延是什么,这件事也就那样了,天花板在哪儿大家都能看得到。”张鹏表示,没人能够说清楚AGI,反倒是好事,这说明仍有未知空间等待探索。“让机器像人一样思考是我们的愿景。当然机器的能力远不止人的水平,我们期待它可以出现超越人的能力,所以在AGI里,我们会提到超级智能。下一步它能否产生超过人的水平?我们会不断更新AGI的内涵和外延。”
百川智能CEO王小川:一定要找到Scaling Law之外新转化范式。
北京百川智能科技有限公司(简称百川智能)CEO王小川认为,在Scaling Law之外,一定要寻找算力、算法、数据等范式上的新转化,而不只是简单变成知识压缩,“走出这个体系才有机会走向AGI。”
AGI的定义在全球范围内难有共识。在王小川心中,与AGI等价的是AI能否造出医生,人造医生就是AGI。“AGI的第一个变化是它开始有思考能力、学习能力、沟通能力、共情能力,甚至多模态图片处理能力。拿人的职业跟它比较,医生是所有职业里智力密度最高的,既需要多模态,也需要少幻觉,需要记忆,看70万字的病历,有推理能力、查文献能力等。所以把医生跟AGI做比较时,做到医生是否就算做到AGI了?”
面壁智能CEO李大海:大模型边际成本为零就是理想中的AGI。
北京面壁智能科技有限责任公司(简称面壁智能)CEO李大海从经济学角度定义AGI,他认为边际成本为零就是理想中的AGI。“随着模型能力的提升,大模型能够把边际成本一直往下降,可能会逼近于零,低到接近于零的时候,AGI基本就到来了。”与此同时,“智能密度”也是大模型的重要因素,“当有一天达到AGI,还要把大模型小型化。如果用一个10万亿参数的模型做到AGI,能否把参数降到1万亿、1000亿,这需要持续突破。”
对于Scaling Law,他认为这是一个经验公式,是行业对大模型这样的复杂系统得出的经验总结,随着模型训练过程中实验越来越多、认知越来越清晰,会有更细颗粒度的认知。比如模型训练方法和数据质量对Scaling Law和智能的影响较为显著。
清华大学智能产业研究院院长、智源学术顾问委员张亚勤:Scaling Law还是产业的大方向。
同场参会的清华大学智能产业研究院院长、智源学术顾问委员张亚勤也就Scaling Law发表了自己的看法,“有人说,Scaling Law两三年后是不是就不成立了?我认为至少将来5年左右,Scaling Law还是产业的大方向。相比只有3斤重、能耗20瓦的大脑,当前大模型决策效率低。不管是微软、OpenAI还是当前的主流大模型,仍处于采购英伟达芯片的阶段,只有提高大模型效率才能建立真正的商业模式。”张亚勤认为,当前的大模型尚未真正理解物理世界,推理性能、幻觉、透明性等问题有待解决,未来5年会有一个全新的架构替代现在的Transformer和Diffusion架构。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司