我们很高兴地宣布 PyTorch® 2.5 的发布!亮点:
- 此版本为 SDPA 提供了新的 CuDNN 后端,默认情况下,SDPA 用户在 H100 或更新的 GPU 上可以加速。
- 此外,torch.compile 的区域编译提供了一种减少 torch.compile 冷启动时间的方法,它允许用户编译重复的 nn.Module(例如 LLM 中的转换器层)而无需重新编译。
- 最后,TorchInductor CPP 后端通过许多增强功能(如 FP16 支持、CPP 包装器、AOT-Inductor 模式和最大自动调谐模式)提供了可靠的性能加速。
自 PyTorch 2.4 以来,此版本由 504 位贡献者提交的 4095 份提交组成。我们要真诚地感谢我们敬业的社区对您的贡献。
网友最喜欢的一些改进:
- 通过重复使用模块来加快 torch.compile 编译速度
- torch.compile 支持 torch.istft
- FlexAttention:一种灵活的 API,仅需几行惯用的 PyTorch 代码即可实现各种注意机制,例如滑动窗口、因果掩码和 PrefixLM。此 API 利用 torch.compile 生成融合的 FlashAttention 内核,从而消除了额外的内存分配并实现了与手写实现相当的性能。此外,我们使用 PyTorch 的自动求导机制自动生成后向传递。此外,我们的 API 可以利用注意掩码中的稀疏性,从而比标准注意实现有显著的改进。
PyTorch是一个开源的机器学习库,广泛用于计算机视觉和自然语言处理等应用。它由Facebook的AI研究团队开发,并得到了许多其他机构和个人的贡献。PyTorch以其灵活性和易用性而闻名,特别适合于研究和开发深度学习模型。
- PyTorch 使用动态计算图,这意味着图是在运行时构建的,这使得调试和实验更加直观和灵活。
- TensorFlow 使用静态计算图,这有助于优化和提高运行效率,尤其是在生产环境中。
详细点击标题