下载客户端

PyTorch 2.0正式版来了

机器之心

关注

2023-03-17 14:15

北京

来源：澎湃新闻·澎湃号·湃客

机器之心报道

机器之心编辑部

在PyTorch Conference 2022上，研发团队介绍了 PyTorch 2.0，并宣布稳定版本将在今年 3 月正式发布，现在 PyTorch 2.0 正式版如期而至。

GitHub地址：https://github.com/pytorch/pytorch/releases

PyTorch 2.0 延续了之前的 eager 模式，同时从根本上改进了 PyTorch 在编译器级别的运行方式。PyTorch 2.0 能为「Dynamic Shapes」和分布式运行提供更快的性能和更好的支持。

PyTorch 2.0 的稳定功能包括 Accelerated Transformers（以前称为 Better Transformers）。Beta 功能包括：

使用 torch.compile 作为 PyTorch 2.0 的主要 API；

scaled_dot_product_attention 函数作为 torch.nn.functional 的一部分；

MPS 后端；

torch.func 模块中的 functorch API。

另外，PyTorch 2.0 还提供了一些关于 GPU 和 CPU 上推理、性能和训练的 Beta/Prototype 改进。

除了 2.0，研发团队这次还发布了 PyTorch 域库的一系列 beta 更新，包括 in-tree 的库和 TorchAudio、TorchVision、TorchText 等独立库。此外，TorchX 转向社区支持模式。

具体来说，PyTorch 2.0 的功能包括：

torch.compile 是 PyTorch 2.0 的主要 API，它能包装并返回编译后的模型。这个是一个完全附加（和可选）的功能，PyTorch 2.0 根据定义是 100% 向后兼容的。

作为 torch.compile 的基础技术，带有 Nvidia 和 AMD GPU 的 TorchInductor 将依赖 OpenAI Triton 深度学习编译器来生成高性能代码并隐藏低级硬件细节。OpenAI Triton 生成内核实现了与手写内核和 cublas 等专用 cuda 库相当的性能。

Accelerated Transformers 引入了对训练和推理的高性能支持，使用自定义内核架构实现缩放点积注意力 (SPDA)。API 与 torch.compile () 集成，模型开发人员也可以通过调用新的 scaled_dot_product_attention () 运算符直接使用缩放点积注意力内核。

Metal Performance Shaders (MPS) 后端能在 Mac 平台上提供 GPU 加速的 PyTorch 训练，并增加了对前 60 个最常用运算符的支持，覆盖 300 多个运算符。

Amazon AWS 优化了 AWS Graviton3 上的 PyTorch CPU 推理。与之前的版本相比，PyTorch 2.0 提高了 Graviton 的推理性能，包括针对 ResNet-50 和 BERT 的改进。

其他一些跨 TensorParallel、DTensor、2D parallel、TorchDynamo、AOTAutograd、PrimTorch 和 TorchInductor 的新 prototype 功能和方法。

稳定功能

PyTorch 2.0 版本包括 PyTorch Transformer API 新的高性能实现，以前称为「Better Transformer API」，现在更名为「Accelerated PyTorch 2 Transformers」。研发团队表示他们希望整个行业都能负担得起训练和部署 SOTA Transformer 模型的成本。新版本引入了对训练和推理的高性能支持，使用自定义内核架构实现缩放点积注意力 (SPDA)。

与「快速路径（fastpath）」架构类似，自定义内核完全集成到 PyTorch Transformer API 中 —— 因此，使用 Transformer 和 MultiHeadAttention API 将使用户能够：

显著提升模型速度；

支持更多用例，包括使用交叉注意力模型、Transformer 解码器，并且可以用于训练模型；

继续对固定和可变的序列长度 Transformer 编码器和自注意力用例使用 fastpath 推理。

为了充分利用不同的硬件模型和 Transformer 用例，PyTorch 2.0 支持多个 SDPA 自定义内核，自定义内核选择逻辑是为给定模型和硬件类型选择最高性能的内核。除了现有的 Transformer API 之外，模型开发人员还可以通过调用新的 scaled_dot_product_attention () 运算来直接使用缩放点积注意力内核。

将缩放点积注意力与自定义内核和 torch.compile 结合使用可为训练大型语言模型（上图以 nanoGPT 为例）提供显著加速。

Beta 功能

torch.compile

torch.compile 是 PyTorch 2.0 的主要 API，它包装并返回编译后的模型。torch.compile 的背后是 PyTorch 团队研发的新技术 ——TorchDynamo、AOTAutograd、PrimTorch 和 TorchInductor。

借助这些新技术，torch.compile 能够在 165 个开源模型上运行，并且在 float32 精度下平均运行速度提高 20%，在 AMP 精度下平均运行速度提高 36%。

PyTorch MPS 后端

MPS 后端在 Mac 平台上提供 GPU 加速的 PyTorch 训练。PyTorch 2.0 在正确性、稳定性和运算符覆盖率方面比之前的版本有所改进。

缩放点积注意力 2.0

PyTorch 2.0 引入了一个强大的缩放点积注意力函数。该函数包括多种实现，可以根据使用的输入和硬件无缝应用。

functorch → torch.func

functorch API 现在可以在 torch.func 模块中使用。其中，函数转换 API 与以前相同，但与 NN 模块交互的方式有所改变。

此外，PyTorch 2.0 还添加了对 torch.autograd.Function 的支持：现在可以在 torch.autograd.Function 上应用函数转换。

Dispatchable Collectives

Dispatchable Collectives 是对之前 init_process_group () API 的改进，其中将后端更改为可选参数。对于用户来说，这个特性的主要优势在于，它将允许用户编写可以在 GPU 和 CPU 机器上运行的代码，而无需更改后端规范。

PyTorch 2.0 还将 torch.set_default_device 和 torch.device 作为语境管理器（context manager），将「X86」作为 x86 CPU 的新默认量化后端。

新的 X86 量化后端利用 FBGEMM 和 oneDNN 内核库，提供比原始 FBGEMM 后端更高的 INT8 推理性能。新后端在功能上与原始 FBGEMM 后端兼容。

此外，PyTorch 2.0 还包括多项关键优化，以提高 CPU 上 GNN 推理和训练的性能，并利用 oneDNN Graph 加速推理。

最后，PyTorch 2.0 还包含一些 Prototype 功能，包括：

[Prototype] DTensor

[Prototype] TensorParallel

[Prototype] 2D Parallel

[Prototype] torch.compile (dynamic=True)

参考链接：https://deploy-preview-1313--pytorch-dot-org-preview.netlify.app/blog/pytorch-2.0-release/

原标题：《PyTorch 2.0正式版来了！》

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

险企“跑步进场”，险资正式进入黄金市场

展示最新一线公益实践经验，第二届社会组织创新大比武正式启幕

凌晨2点，再次Open！奥特曼宣布：OpenAI正式支持对手MCP协议

热评论

君无垠

我在莫斯科，我们医学院的老师和医生们基本上都打了疫苗……

2020-09-06 ∙ 海外

Si0np

继续研究

2020-09-05 ∙ 湖南

长在水里的树865

回复@helloyukin:不会吧？三十而立你没听过啊？服了！人均寿命底你咋不说婴儿死亡率高呢？你不会不知道农村婴儿死亡率多高都没想过吧？就会硬平均！前两天微博热搜中国城市平均资产200万，不是看不起你，现在你银行卡里有20万吗？

2020-09-05 ∙ 河北

队长1931

只要没有大的副作用，应急是可以的，总比不打强

2020-09-05 ∙ 北京

怀雨prince

回复@洗个痛快zhao儿:呵呵，啥叫三期？？？都有概率在里面，只是大小的问题

2020-09-05 ∙ 北京

火锅不期待

病毒毒性在减弱，如果不是强制性打针，我希望不打

2020-09-05 ∙ 四川

洗个痛快zhao儿

回复@江左没狼-:2017年10月，国家食品药品监督管理局（CFDA）公布的相关草案，决定从2018年起中药申报新药将不再需要通过临床试验，即只要传统中药企业依据经典名方生产制剂，就可以免去成本高且周期长的临床试验。多去查查新闻，别光张着嘴瞎说。

2020-09-05 ∙ 河北

不错的shuaixiaohuo

这…

2020-09-05 ∙ 江苏

helloyukin

回复@江左没狼-:又是张口就来？

2020-09-05 ∙ 云南

淡若清风自在宁静

安全有效就好。

2020-09-05 ∙ 贵州

纯棉的打底裤

有数据

2020-09-05 ∙ 广东

浦发银行停息挂账内部渠道

给你点个赞

2020-09-05 ∙ 广东

貌美真的误事

抗体比患者都多？这加了多少病毒在里面，得病的人都比不过它？

2020-09-05 ∙ 山东

球届小5哥

回复@Peng镜民:哈哈

2020-09-05 ∙ 湖南

新评论

君无垠

我在莫斯科，我们医学院的老师和医生们基本上都打了疫苗……

2020-09-06 ∙ 海外

Si0np

继续研究

2020-09-05 ∙ 湖南

长在水里的树865

2020-09-05 ∙ 河北

队长1931

只要没有大的副作用，应急是可以的，总比不打强

2020-09-05 ∙ 北京

怀雨prince

回复@洗个痛快zhao儿:呵呵，啥叫三期？？？都有概率在里面，只是大小的问题

2020-09-05 ∙ 北京

火锅不期待

病毒毒性在减弱，如果不是强制性打针，我希望不打

2020-09-05 ∙ 四川

洗个痛快zhao儿

2020-09-05 ∙ 河北

不错的shuaixiaohuo

这…

2020-09-05 ∙ 江苏

helloyukin

回复@江左没狼-:又是张口就来？

2020-09-05 ∙ 云南

淡若清风自在宁静

安全有效就好。

2020-09-05 ∙ 贵州

纯棉的打底裤

有数据

2020-09-05 ∙ 广东

浦发银行停息挂账内部渠道

给你点个赞

2020-09-05 ∙ 广东

貌美真的误事

抗体比患者都多？这加了多少病毒在里面，得病的人都比不过它？

2020-09-05 ∙ 山东

球届小5哥

回复@Peng镜民:哈哈

2020-09-05 ∙ 湖南

加载中

致命三秒，真相待解
外交部回应中方有关联合演训
王毅谈中俄务实合作成果和目标

雷军回应SU7车祸：很多问题此刻还没办法回答，承诺无论发生什么小米都不会回避
美股开盘：道指跌0.38%，标普500指数跌0.38%，纳指跌0.46%

源自西方的一个节日，在每年4月1日
杜牧的诗《清明》中“路上行人欲断魂”的上一句

雷军回应SU7车祸：很多问题此刻还没办法回答，承诺无论发生什么小米都不会回避

马斯克将辞职？特朗普：将尽可能挽留，但他迟早要回去经商

SU7高速事故遇难者家属回应质疑：女儿有两年多驾龄，曾有过路司机破窗救人

扫码下载澎湃新闻客户端

澎湃矩阵

新闻报料

报料热线: 021-962866
报料邮箱: news@thepaper.cn

沪ICP备14003370号

沪公网安备31010602000299号

互联网新闻信息服务许可证：31120170006

增值电信业务经营许可证：沪B2-2017116

反馈