下载客户端

“大模型算力需求超过半导体增长曲线，Chiplet是满足需求关键”

澎湃新闻记者邵文

2023-03-31 19:45

来源：澎湃新闻

·“从AI发展整个历史曲线来看，过去的算力需求是以倍数增加，现在是以指数的倍数增加，大模型本身就有10倍的跃迁，接下来还会继续保持这个速度增长，这超过了半导体能够提供的增长曲线。”

·“Chiplet正是满足当下对算力需求的关键技术，一方面，将更多算力单元高密度、高效率、低功耗地连接在一起，从而实现超大规模计算。另一方面，极大提高异构核之间的传输速率，降低数据访问功耗，从而实现高速预处理和数据调度。同时，降低存储访问功耗，满足大模型参数需求。”

奇异摩尔产品及解决方案副总裁祝俊东在2023国际集成电路展览会暨研讨会（IIC Shanghai）上。

“大模型所需要的参数和训练数据量和Deep Learning（深度学习）时期相比，有了数量级的提升。以GPT-3为例，1750亿的模型参数，45TB的训练数据集，是之前的10倍以上。大模型的训练，需要更大规模互联的计算平台，和更大规模的片上存储。”3月30日，奇异摩尔产品及解决方案副总裁祝俊东在接受澎湃科技（www.thepaper.cn）专访时表示。

在2023国际集成电路展览会暨研讨会（IIC Shanghai）上，祝俊东谈到，对于大模型而言，一个很大的挑战在工程方面——怎么样用更少的人工干预、更少的算力去实现，尤其是怎样获得足够高质量、足够大规模的算力。“GPT-3.5需要一万个CPU做级联，更不要说GPT-4、GPT-5，虽然我们在大力发展算力网络，但仍然很难达到。”

高性能计算三大挑战

祝俊东表示：“从AI发展整个历史曲线来看，过去的算力需求是以倍数增加，现在是以指数的倍数增加，大模型本身就有10倍的跃迁，接下来还会继续保持这个速度增长，这超过了半导体能够提供的增长曲线。”

同时，目前在高性能计算领域（与大模型密切相关），更大的挑战来自于其他三个方面。第一，在保持算力增加的同时，怎么样能提高算力功耗比？过去算力功耗比的提升落后于算力的提升，“那么五年之后，当算力中心变成zeta级（十万亿亿字节）的时候，需要的能量则会是0.5个原子弹的单量。” 祝俊东说。

其次，同样的问题发生在存储，存储访问所占的功耗比越来越高，整个互联效率也成为更大的瓶颈。特别是计算规模越来越大，不再可能用单一的芯片满足这个需求，所以大量的能量会浪费在互联的部分。

“ 因此，基于同构和板级互联的数据中心架构难以满足大模型的需求。” 祝俊东对澎湃科技表示，从顶层到软件到芯片都需要适应这样的变化，以一种新的方式满足未来的需求。

国际巨头的思路

在结束不久的2023 GTC大会上，英伟达创始人黄仁勋着重讲了两件事，第一是超大规模计算的超大规模集群。首先是用H100、A100芯片，通过NVLINK3.0把8个H100连在一起后就成为超大规模的引擎，可以以单颗满足训练需求。

“它的提升并不局限于提高了3倍单芯片的算力，以整个系统来看，因为更高速的极联，所以整个效率达到了过去的九倍。” 祝俊东向澎湃科技解释，通过这种方式，进一步用InfiniBand（高速、低延迟的计算机网络通信总线）组成超大规模的集群，可以把上万个DGX（超级计算机）连接在一起，通过这种方式满足未来越来越快的需求，按照目前的计算要满足800G（数据速率）的门槛。

另外一件事情就是异构计算，把CPU和GPU更有效组合在一起。用这样的异构架构处理数据集、推荐系统和大型语言模型的AI。

英特尔也在做同样的事情。英特尔于去年年底发布了第一款3D GPGPU，在一颗芯片里集成了47颗芯粒，有5种制程，以此获得比上一代高出三倍性能的提升。英特尔也做了8颗可以超高速互联的网络，通过这种方式能使其变成更大规模的计算集群。

同时，英特尔计划在2025年发布更快更小的3D芯片新技术，以三维空间（3D）方式堆叠“瓦片”或“小芯片”，而不是用二维空间将芯片全部打包来计算。可以是CPU+GPU，也可以是一个超大规模的GPU集群，通过这种方式提供更好的极联和互联性能，在不同的领域可以用最合适的方法去解决相关问题。

AMD在这个方向走在了更前面，已经发布了第一个数据中心APU（Accelerated Processing Unit，加速处理器）产品MI300，“其在下面集中了10颗或11颗芯片，其中6颗是CPU，2到3颗是GPU，它是业界第一颗3D的APU产品，同时也有自己的互联架构，甚至显卡GPU也有类似的产品。” 祝俊东介绍说，由此可以发现，超大规模集群已经成为未来的发展方向，而且异构也是一个非常重要的方向，Chiplet（芯粒）会是它的核心关键。

Chiplet怎么满足大模型的算力需求？

Chiplet通常被翻译为“芯粒”或“小芯片”，通过将原来集成于同一系统单晶片中的各个元件分拆，独立为多个具特定功能的Chiplet，分开制造后再通过先进封装技术将彼此互联，最终集成封装为一系统晶片组。也就是说，其能在不改变制程的前提下提升算力，降低成本，并保证芯片制造良品率。

Chiplet正是满足当下对算力需求的关键技术，祝俊东对澎湃科技解释道，一方面，通过Die2Die连接（Die是从晶圆上切割出来的一块具有完整功能的芯片）和Fabric互联网络，能够将更多算力单元高密度、高效率、低功耗地连接在一起，从而实现超大规模计算。

另一方面，通过将CPU和GPU、NPU高速连接在同一个chiplet中，实现芯片级异构系统，极大提高异构核之间的传输速率，降低数据访问功耗，从而实现高速预处理和数据调度。同时，其采用非先进制程构建Cache（位于CPU与内存之间的临时存储器），提高片上Cache的容量和性价比，并通过3D近存技术，降低存储访问功耗，从而满足大模型参数需求。

然而，转向支持基于Chiplet的集成系统是一个系统工程，不同公司必须开始相互共享芯片IP，这是一个很大的障碍。

在被问及打造开放Chiplet生态圈有哪些思路时，祝俊东说，Chiplet正从1.0阶段，即Fabless全自研，走向2.0阶段，产业链分工合作，因此互联互通和芯粒生态正变得越来越重要。具体的思路有三个方面：

第一是推动互联标准的建立和普及，无论是国际的UCIe（Intel、AMD等公司提出新的Chiplet标准），还是国内的小芯片标准。

第二，提供丰富的产品和方案，不同封装形态下的Die2Die接口，应用于不同行业的高速互联芯粒，加速chiplet产品落地。

第三，加强上下游的深度合作。

责任编辑：郑洁

校对：丁晓

澎湃新闻报料：021-962866

澎湃新闻，未经授权不得转载

我要举报

#大模型 #算力 #半导体 #Chiplet