DEEPSEEK-R1 API 即将作为可下载的 NIM 微服务提供,是 NVIDIA AI 企业软件平台的一部分.
DeepSeek-R1是一个具有最先进推理能力的开放模型。DeepSeek-R1 等推理模型不会提供直接响应,而是对查询进行多次推理,采用思路链、共识和搜索方法来生成最佳答案。
也就是说:DeepSeek-R1 是一个非常厉害的智能模型,它的推理能力特别强。这个模型不会直接给你答案,而是会通过多次思考,用不同的方法(比如一步步推理、找共识、搜索信息)来找到最好的答案。
这种通过多次推理来找到最佳答案的过程叫做“测试时间扩展”。DeepSeek-R1 就是这个扩展定律的完美例子,它证明了快速计算对 AI 推理非常重要。
因为这个模型可以反复“思考”问题,所以它会生成更多的输出内容,生成的时间也会更长,这样模型的质量就会越来越好。为了实现实时推理和更高质量的答案,DeepSeek-R1 这样的模型需要大量的计算资源,这就意味着需要更大规模的推理部署。
DeepSeek-R1 在需要逻辑推理、数学、编程和语言理解的任务中表现得非常出色,同时还能保持高效的推理速度。
为了让开发者能安全地测试这些功能,并构建他们自己的专用 AI 代理,现在可以在 build.nvidia.com 上预览 6710 亿参数的 DeepSeek-R1 模型,它是作为 NVIDIA NIM 微服务提供的。这个微服务可以在一个 NVIDIA HGX H200 系统上每秒处理多达 3,872 个 token。
开发者可以通过应用程序编程接口(API)来测试和试验这个模型,预计很快它就会作为可下载的 NIM 微服务提供,成为 NVIDIA AI Enterprise 软件平台的一部分。
DeepSeek-R1 NIM 微服务通过支持行业标准 API 简化了部署。企业可以在他们喜欢的加速计算基础设施上运行这个微服务,从而最大限度地提高安全性和数据隐私。通过使用 NVIDIA AI Foundry 和 NVIDIA NeMo 软件,企业还可以为专门的 AI 代理创建定制的 DeepSeek-R1 NIM 微服务。
DeepSeek-R1 —— 测试时间扩展的完美例子
DeepSeek-R1 是一个大型混合专家(MoE)模型。它有 6710 亿个参数,比很多其他流行的开源大模型多 10 倍,而且支持 128,000 个 token 的输入长度。这个模型在每一层都有 256 位专家,每个 token 会被同时发送给八个不同的专家进行评估。
为了给 R1 提供实时答案,需要很多计算能力强的 GPU,并且这些 GPU 要通过高带宽、低延迟的方式连接起来,这样才能把提示 token 发送给所有专家进行推理。
结合 NVIDIA NIM 微服务中的软件优化,一台装有八个 H200 GPU 的服务器可以通过 NVLink 和 NVLink Switch 连接,以每秒 3,872 个 token 的速度运行完整的 6710 亿参数 DeepSeek-R1 模型。
DeepSeek-R1 NIM 微服务在单个 NVIDIA HGX H200 系统上每秒最多可传送 3,872 个令牌。
这种高速度是通过在每一层使用 NVIDIA Hopper 架构的 FP8 Transformer Engine 实现的,并且使用了 900 GB/s 的 NVLink 带宽来进行 MoE 专家之间的通信。
充分利用 GPU 的计算性能对实时推理非常重要。下一代的 NVIDIA Blackwell 架构会通过第五代 Tensor Cores 进一步提升 DeepSeek-R1 等推理模型的测试时间扩展能力,第五代 Tensor Cores 可以提供高达 20 petaflops 的 FP4 计算性能,并且有专门为推理优化的 72-GPU NVLink 域。
现在就开始使用 DeepSeek-R1 NIM 微服务
开发者可以在 build.nvidia.com 上体验 DeepSeek-R1 NIM 微服务,现在已经开始提供。你可以观看它是如何工作的。
要点:
- DeepSeek-R1 NIM 微服务在单个 NVIDIA HGX H200 系统上每秒最多可传送 3,872 个令牌。
- DeepSeek-R1 采用 NVIDIA Hopper架构,可利用 FP8 Transformer Engines 和 900 GB/s NVLink 带宽实现高速推理,实现专家通信。
- 与 NVIDIA 的 NIM 一样,它是一个企业级设置,用于安全地进行实验并使用行业标准 API 部署 AI 代理。
总之:
DeepSeek-R1 已被英伟达(NVIDIA)纳入其 AI 平台,并通过 NVIDIA NIM 微服务提供 API 接口,供开发者测试和使用。这一合作使得 DeepSeek-R1 的强大推理能力能够更便捷地集成到企业应用中,同时支持高效、安全的部署和定制化开发。