下载客户端

IBM在“宽松的”Apache许可下发布最新Granite基础模型

2024-10-23 15:50

来源：澎湃新闻·澎湃号·湃客

为了进一步推动在企业AI领域建立独特的地位，IBM今天推出了一系列新的语言模型和工具，以确保负责任地使用它们。

IBM还推出了新一代用于应用开发和现代化的watsonx Code Assistant。所有这些新功能都捆绑在一个多模型平台中，供IBM的160000名顾问使用。

这次新推出Granite 3.0 8B和2B模型有“Instruct”和“Guardian”两种变体，分别用于训练和风险/危害检测。IBM软件高级副总裁、首席商务官Rob Thomas（如图）称，这两款产品都将在Apache 2.0许可下提供，后者是“让企业和合作伙伴在其上创造价值的最宽松的许可”。Apache开源许可允许以每台服务器100美金的低价部署模型，并提供知识产权赔偿，旨在让企业客户有信心将他们的数据与IBM模型相结合。

“我们已经从‘附加AI’——也就是客户在经营业务的同时在其基础上添加AI），转变为‘AI优先’——也就是企业基于AI构建他们的业务模式，”Thomas说道。IBM打算通过有机发展、以及收购和即将收购Turbonomic、Apptio和HashiCorp等专注于基础设施的公司，在将AI用于IT自动化方面处于领先地位。

Thomas表示：“我们在生成式AI上建立的业务，如今在技术和咨询领域的规模已经超过20亿美金，我不确定以前我们是否有过以这种速度扩展的业务。”

Granite的Instruct版本主要用于训练，有80亿个参数和20亿个参数两种版本，在12种语言和116种编程语言的超过12万亿个训练数据token上进行了训练，使其能够进行编码、文档和翻译。

IBM表示，计划在今年年底前把基础模型扩展到具有多模态性的128000个token上下文长度，指的是增强模型使其能够处理更长的输入序列和同时处理多种数据类型。上下文长度是AI模型可以处理和保留的标记数（例如单词、符号或其他输入数据单元），典型模型的上下文长度在1000个到8000个token。

theCUBE Research首席分析师Dave Vellante表示：“在我看来，IBM采取了正确的方法，它没有试图成为最大的大型语言模型，也没有试图与ChatGPT和Llama等消费者模型正面竞争，而是专注于更小型的、更高效的、更具成本效益的模型。”

企业主力

IBM表示，新的Granite模型是企业的“主力”，用于检索增强生成（RAG）、分类、摘要、代理训练、实体提取和工具使用等任务，可以使用企业数据进行训练，在削减成本近60倍的同时，提供更大模型的任务特定性能。有内部基准测试显示，Granite 8B模型的性能优于Google和Mistral AI SAS的同类模型，与Meta Platforms的同类模型相当。

有一份随附的技术报告和负责任的使用指南，提供了用于训练模型的训练数据集的详尽文档，以及应用的过滤、清理和管理步骤的详细信息和基准数据对比。

IBM今年早些时候发布了对预训练型Granite的更新版本，使用了三倍多的数据进行训练，通过支持外部变量和滚动预测提供更大的建模灵活性。

Vellante说：“IBM有机会提供特定领域的小型语言模型，在这里IBM可以找到那些尚未在整个互联网语料库上训练的99%的数据。相反，IBM还可以致力于推动具有更大客户差异化的专有用例。”

Granite Guardian 3.0模型旨在通过检查用户提示和模型响应是否存在各种风险来提供安全保护措施。IBM高级副总裁、研究总监Dario Gil表示：“你可以在进行推理查询之前就将输入和输出连接起来，以防止核心模型越狱并防止暴力、亵渎等。我们会尽一切可能让它尽可能地安全。”

这里的“越狱”是指恶意地绕过对AI系统施加的限制或安全措施，使其以非预期或潜在有害的方式操作。Guardian还执行RAG特定的检查，例如上下文相关性、答案相关性和“接地性”——指的是模型与现实世界数据、事实或上下文的联系程度和参考程度。

边缘AI

IBM有一组名为Granite Accelerators和Mixture of Experts（MoE）的小型模型，旨在用于低延迟和纯CPU的应用。MoE是一种机器学习架构，结合了多个专用模型，可以动态地选择和激活其中的子集以提高效率。

Gil表示：“Accelerator让你可以实现推测解码，这样你就可以实现核心模型两倍的吞吐量而不会牺牲质量。”MoE模型可以使用10万亿个token进行训练，但在推理过程中仅使用8亿个token来提高边缘用例的效率。

Granite 8B和2B模型的Instruct和Guardian变体很快就会在IBM watsonx平台上提供商用。精选的Granite 3.0模型也将在合作伙伴平台上提供，例如Nvidia NIM堆栈和Google Vertex。整个Granite 3.0模型套件和更新的时间序列模型可在HuggingFace的开源平台和Red Hat Enterprise Linux上进行下载。

新的基于Granite 3.0的watsonx Code Assistant支持C、C++、Go、Java和Python语言，为企业Java应用提供新的应用现代化功能。IBM表示，这个助手工具让软件开发业务中的某些任务代码文档编写速度提高了90%。代码功能可通过名为IBM Granite.Code的Visual Studio Code扩展访问。

更多、更好的代理

面向开发人员的新工具中包括了代理框架、与现有环境的集成、以及针对RAG和代理等常见用例的低代码自动化。

由于代理AI（即能够自主行为或决策的系统）将成为AI开发的下一波浪潮，IBM还表示，IBM正在为咨询部门配备一个多模式代理平台。IBM新创建的Consulting Advantage for Cloud Transformation以及Consulting Advantage for Business Operations咨询业务线将包括领域特定的AI代理、应用和方法，这些代理、应用和方法均经过IBM知识产权和最佳实践的训练，顾问可以将其应用于客户的云和AI项目中。

IBM Consulting高级副总裁Mohamad Ali表示，目前约有80000名IBM顾问正在使用Consulting Advantage，其中大多数顾问一次只部署一两个代理。然而，随着使用量的增长，IBM Consulting将需要支持超过150万个代理，这使得Granite的经济性“绝对是十分重要的，因为我们将继续扩展这个平台，而且我们需要非常具有成本效益”。

Vellante表示：“IBM正在大幅降低训练成本，并以足够高的准确度运行大型语言模型，因此想象一下，结果就是以相同或更好的性能和大致相同的准确度，以十分之一的成本实现这一目标。这是IBM的一个巨大优势，而且IBM正以开源和合作伙伴的心态来实现这一优势。”

他说，IBM现在的关键是“协调业务的所有部分并利用其强大的研究能力。例如，IBM拥有自己的大型语言模型（Granite），与其他几家大型语言模型公司建立了合作伙伴关系，而且拥有watsonx ai、用于数据的watson、用于治理的watson、Red Hat、InstructLab、数据和分析、通过咨询获得的行业知识、基础设施、硅片专业知识和软件。如果IBM能为客户整合所有这些，那么在我看来，它就会成为一股主要的力量。”

他补充说，这可能对IBM整体来说是有利的。“总的来说，IBM的发展方向让我感到非常鼓舞，几个月前我在LinkedIn上写道，十多年来我从未对IBM如此兴奋过。从那时候开始IBM的股价创下历史新高，我认为IBM是前景光明的。”

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

#IBM