- +1
大模型,化繁为简归文心
大模型,已经变成今天AI产业最为关注、最受期待的技术方向,甚至没有之一。
其原因在于,大模型带来了强大的泛化能力以及优异的效果,并且能够实现AI模型研发-部署-应用的标准化提升。这些价值与各界对AI工业化、大规模部署的期待不谋而合。于是,通过大模型进入AI工业大生产时代,已经在业界凝聚了高度共识。
近两年,围绕大模型的技术创新、工具创新层出不穷。在繁花似锦的整体趋势下,我们似乎也能看到隐藏的问题。比如大模型的门槛依旧偏高,与产业结合更多偏向案例性质,大范围应用还有非常多的挑战。参数繁荣、技术繁多、种类繁复的大模型,正有待迎接一次转变。
11月30日,由深度学习技术与应用国家工程研究中心主办、飞桨承办的WAVE SUMMIT+ 2022在线上举行。期间,围绕文心大模型的一系列更新、升级引发了开发者广泛关注。如果我们为文心大模型的升级进行一个简要描述,或许可以用到“化繁为简”这个词。
峰会期间,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰提出,深度学习平台加上大模型,贯通从硬件适配、模型训练、推理部署到场景应用的AI全产业链,夯实产业智能化基座,将进一步加速智能化升级。
而在构建智能化基座的过程中,大模型的产业化路径,必然是要封装复杂的模型生产过程,从而高效支撑千行百业应用。
大模型的复杂技术与研发挑战,应该是停留在产业上游的。具有算法、算力和数据综合优势的企业,应该将模型生产进行封装,在产业链上游就解决大数据、大算力、大模型的能力挑战。这样,应用场景与企业用户、开发者,将得到简单、易用、工业化的大模型能力。只有这样,大模型才能真正落下去、推广开。
两点之间,直线最短。大模型已经来到了化繁为简的临界点,而百度正在用飞桨+文心大模型,在技术与产业之间画出这条直线。
在路上的大模型,需要化繁为简
讨论大模型的新升级、新发展思路,必须建立在对大模型产业化的客观理解上。
在目前阶段,大模型正处在高速发展期。我们近乎每个月,甚至每星期都可以看到产业界、学术界公布大模型创新。并且在今天,已经很少看到大模型创新过分执着参数对比,更多是进行不同技术路线、不同应用领域的多样化创新。
与此同时,伴随着大模型种类、功能的繁复多样,辅助大模型的开发工具、软硬件基础设施、开源开放平台也丰富了起来。围绕大模型的产业生态开始壮大。
然而在这种情况下,我们依旧会发现大模型发展中有一个客观存在的核心问题:产业主要提升的,是“训大模型”的能力,而不是“用大模型”的能力。
一般来说,前者关注如何让大模型更加“繁华”;但后者却需要考虑实际场景,消弭应用门槛。在某种程度上需要反过来,化繁为简。
很多产业都在理论上、需求上适合大模型落地。但在实操过程中将面对一系列适配问题。比如说:
1.自己开发大模型难度太大,训练成本、存算成本过高。开发工具与社区支持也不足。
2.想要应用成熟的大模型,又往往缺少产业示范与行业路径。不知道自己的行业该用哪种大模型,行业知识与行业需求如何与大模型对齐。
3.即使选到想用的大模型,又会发现本地环境难以兼容适配。大模型应用的工程化能力很难让人满意。
面对这些问题,千行百业需要从基础模型、开发工具、开发社区,到行业路径的一系列帮助与加持,打通从大模型到产业的一系列关节。这种围绕行业需求与产业应用进行创新,而不是围绕大模型本身进行提升的思路,就是百度发展文心大模型,以及构建飞桨+文心产业智能化基座的独特思路。
WAVE SUMMIT+ 2022所展现的,就是这种思路的进一步完备与壮大。
为行业找路径:行业大模型已蔚为大观
行业需求与AI技术对齐,这件事本身经历了漫长的发展,在今天已经挑战重重。而当行业面向大模型这个更新、更强的技术时,需求难以对齐的矛盾就会更加明显。
面向这种困难,只有一个个行业去探索,在重点行业形成有效的大模型落地参考路径。这或许是“最重”的选择,但同时也是“最优解”。
今年5月,文心大模型面向具体的行业需求,发布了行业大模型这一全新发展路径。其通过文心大模型的基础模型能力,搭配对海量行业数据的挖掘,以及由合作机构、行业客户提供的行业特色数据和知识,加上行业特色的专家经验多方结合,进行相应的行业训练任务设计,最终形成了文心行业大模型。
在于行业结合的过程中,文心大模型知识增强与产业级两大特色得以充分发挥,形成了行业知识增强的关键路径。这一路径不仅解决了大模型的应用挑战,还凝结成了一系列面向重点行业的大模型产业落地方法。实现了大模型在行业场景中“不但能用还便捷好用”的价值。
在本次峰会上,文心行业大模型持续升级,在原有能源、金融、航天、传媒等行业的基础上,进一步升级到了11个行业大模型,将行业大模型延伸到了制造业、城市管理、汽车等关键领域。可以说,行业大模型已经从先锋、探索性质,发展到了覆盖行业众多、体系完备的新阶段。从应用效果与行业覆盖上来说,都已经实现了蔚为大观。
举个例子,智慧城市建设是数字中国的重点发展方向。在今天,中国所有地级市都已经有智慧城市项目落地。而大模型与智慧城市的结合,在目前阶段还非常新颖。
在哈尔滨,近年来冰城探索了一系列AI技术赋能城市高质量发展、东北老工业基地振兴的尝试,取得了显著成效。而就在刚刚,哈尔滨市政府携手百度,联合发布面向城市领域的行业大模型——冰城-百度·文心。
冰城-百度·文心大模型,可以将城市中跨业务、跨结构、跨部门的数据知识和多种任务算法进行融合,基于百度文心NLP大模型ERNIE 3.0,打造统一预训练模型,提供强大的语言理解、语义分析等能力,支撑城市中各领域的AI规模化效果提升。文心行业大模型,至此可以从城市治理、产业发展、公共服务等多个领域支持哈尔滨的数字化发展。从产业路径上看,这一联合发布、联合打造,将大模型与智慧城市需求有效结合在了一起。为更多城市获得大模型价值提供了参考路径。
如今,行业大模型已经在多个领域取得可信的成果。比如文心大模型与电影频道结合,可以实现每天修复28.5万帧老旧影片。即使是精修,文心大模型的修复速度也较人工效率提升了3到4倍。在能源、金融等一系列领域,行业大模型已经形成了产业智能化的发展路标。
当然,除了行业大模型之外,文心大模型还以更多方式融入更广泛的行业应用。比如从2019年3月文心ERNIE1.0发布以来,几乎百度全系列产品都在逐步使用文心大模型。在千行百业,文心大模型已通过飞桨开源开放平台、百度智能云等赋能到工业、能源、金融、通信、媒体、教育等各行各业。
行业有路径,是文心大模型持续升级的首要目标。
为应用备技术:从模型、工具到应用的全线升级
如果说,大模型通向行业,与行业需求、行业知识融合的大模型向产业的纵向打通。那么大模型对各种开发需求、应用需求的覆盖,就是大模型走向产业的横向能力打开。
在真实的应用场景中,企业和开发者需要接入大模型的方式是十分多样的。有的企业确实需要自己开发大模型;也有企业需要以最低成本完成大模型适配;还有一些企业可能需要具有特殊能力的模型;有一部分企业需要产品级、可API接入的大模型能力。
只有从模型到工具,再到产品、社区都有完善、完整的技术储备,才有能力降低大模型应用门槛,才有机会成为产业智能化的基座。
为此,百度全面升级了文心大模型的全景图,既丰富了大模型的种类。同时也在大模型开发工具、产品能力、社区建设上进行了升级。
大模型因“大”而效果好,同时在产业应用中也会因为“太大”而难以落地部署。为了解决这个问题,百度全新发布了ERNIE 3.0 Tiny模型。其通过将千亿模型作为教师模型,经过知识蒸馏等方式,可以形成一系列轻量化模型。最终实现在效果损失非常有限的情况下,模型体量变小,但较比传统模型却有数十倍、上百倍的性能提升,以此满足产业场景的真实应用需求。
同时,在跨模态领域,百度发布跨模态理解大模型ERNIE ViL 2.0、跨模态生成大模型ERNIE ViLG 2.0、文档智能大模型 ERNIE-Layout。在生物计算方面,最新发布了蛋白质预测模型HelixFold-Single。而在任务大模型方面,则发布了代码大模型ERNIE-Code。其可以通过多语言学习的形式,在语料上更加丰富多样,使得模型能力更强,并且能够支持多个语种。
在一系列新加入的模型之外,百度也在推动大模型开发工具建设、产品化升级与社区建设。在工具与平台的技术升级上,百度提供面向场景化,以及行业大模型的配套能力。比如在模型精调方面提供的技术工具更加丰富,大模型的API当中将包含更丰富的精调能力。同时,在大模型训练中也会添加一系列可信学习工具,满足开发者对大模型的安全、可控需求。
在文心大模型的产品和社区方面,百度保留了旸谷社区作为创意社区。同时增加了两款以大模型为核心驱动的产品。这些产品既可以直接赋能给有相关需求的产业用户和泛科技用户,丰富大模型的应用价值。同时也为行业起到了示范作用,展示了大模型产品化的技术路径。
在最近备受关注的AIGC方面,百度打造的文心一格,在本次峰会上进行了一系列新能力的发布。比如近期非常火爆的以图生图能力、图片通过文字进行编辑的能力,以及一键生成视频的能力。
另一项产品升级,是以大模型核心驱动的搜索产品“文心百中”。这一产品由百度搜索与文心大模型联合研制,可以满足开发者和企业用户的垂直搜索、企业搜索需求。其本身具有极简的逻辑架构,以及强大的语义理解能力,并且可以极大降低搭建垂直搜索带来的数据成本与人力成本。“文心百中”,可以说从搜索这个全新层面,向业界展现了大模型的应用价值与产业空间,并且同样也指向着清晰的应用场景。
从新的模型、新的工具,到产品与社区的升级,文心大模型可以说从多角度、全方位升级了技术储备。这些技术能力对应着不同类型开发者、企业对大模型的多样化需求。只有满足这些具体的需求,打通一个个关隘,大模型才能去向它最应该去的地方——应用。
为智能筑底座:飞桨+大模型,画出一条直线
两点之间,直线最短。但大模型与产业之间,往往会因为技术路线分歧、训练部署环境、行业知识无法对齐,而要七拐八拐,走大量弯路。这些弯路的存在,自然有大模型发展过程中的一系列客观因素的影响,但同时也确实影响着大模型的应用效率、产业效能。
为了解决这些问题,百度的思考是尽量画一条直线,让开发者与行业可以不走弯路,以最高效率直接抵达大模型的内在价值。
这条直线,需要包含工具集成性、技术丰富性、行业路径完善性等等价值。只有把这些能力合而为一,才能实现将化繁为简的目标。面向大模型的产业需求、应用场景,不仅需要做到有模型、有工具,同时需要将大模型与深度学习平台结合起来,满足企业、开发者从算力到应用的全流程需求。
为了更好帮助企业与开发者,实现从开发大模型到应用大模型的全流程实践,百度勾勒出了飞桨+文心,即深度学习平台+大模型的产业路径。二者结合,开发者可以获得从算力、框架、模型库,再到大模型调用、大模型行业化的所有能力,获得了完善、稳固的产业智能化基座。自然也就完成了从大模型到产业的最短距离直达。
为了与文心大模型一道构建产业智能化基座,飞桨也进行了一系列升级。最新发布的飞桨核心框架2.4版本,就着重对大模型开发进行了一系列功能的支持,以及面向大模型推理部署需求提供了一系列模型封装能力,并且提供简单易用的模型开发工具。飞桨企业版AI开发平台EasyDL和BML也围绕大模型的技术应用进行了全新升级,在业界首发端到端大模型开发套件PaddleFleetX。发布了提供全流程开箱即用的大模型平台能力,加速大模型的产业落地。
至此,我们可以看到百度在搭建飞桨+文心产业基座,赋能大模型开发过程中的清晰思路:大模型并不仅仅是某种技术的创新,或者一个平台的搭建。而是需要从最终用户,最开发者与企业的应用需求出发。一步步倒推需要哪些支持,每一个环节还有哪些阻碍?
只要将这些阻碍一个个解决掉,将支持一个个搭建好,将所有复杂且具有挑战的事先行完成,那么开发者和企业最终就将得到最简单、可用的大模型。大模型与产业之间,也就实现了两点之间,直线最短的连接。
这就是百度式的大模型发展思路,这就是化繁为简归文心。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司