PyTorch 2.5.0发布

我们很高兴地宣布 PyTorch® 2.5 的发布！亮点：

此版本为 SDPA 提供了新的 CuDNN 后端，默认情况下，SDPA 用户在 H100 或更新的 GPU 上可以加速。
此外，torch.compile 的区域编译提供了一种减少 torch.compile 冷启动时间的方法，它允许用户编译重复的 nn.Module（例如 LLM 中的转换器层）而无需重新编译。
最后，TorchInductor CPP 后端通过许多增强功能（如 FP16 支持、CPP 包装器、AOT-Inductor 模式和最大自动调谐模式）提供了可靠的性能加速。

自 PyTorch 2.4 以来，此版本由 504 位贡献者提交的 4095 份提交组成。我们要真诚地感谢我们敬业的社区对您的贡献。

网友最喜欢的一些改进：

通过重复使用模块来加快 torch.compile 编译速度
torch.compile 支持 torch.istft
FlexAttention：一种灵活的 API，仅需几行惯用的 PyTorch 代码即可实现各种注意机制，例如滑动窗口、因果掩码和 PrefixLM。此 API 利用 torch.compile 生成融合的 FlashAttention 内核，从而消除了额外的内存分配并实现了与手写实现相当的性能。此外，我们使用 PyTorch 的自动求导机制自动生成后向传递。此外，我们的 API 可以利用注意掩码中的稀疏性，从而比标准注意实现有显著的改进。

PyTorch是一个开源的机器学习库，广泛用于计算机视觉和自然语言处理等应用。它由Facebook的AI研究团队开发，并得到了许多其他机构和个人的贡献。PyTorch以其灵活性和易用性而闻名，特别适合于研究和开发深度学习模型。

详细点击标题