实时推理新王者：DeepSeek R1登录英伟达AI平台

DEEPSEEK-R1 API 即将作为可下载的 NIM 微服务提供，是 NVIDIA AI 企业软件平台的一部分.

DeepSeek-R1是一个具有最先进推理能力的开放模型。DeepSeek-R1 等推理模型不会提供直接响应，而是对查询进行多次推理，采用思路链、共识和搜索方法来生成最佳答案。

也就是说：DeepSeek-R1 是一个非常厉害的智能模型，它的推理能力特别强。这个模型不会直接给你答案，而是会通过多次思考，用不同的方法（比如一步步推理、找共识、搜索信息）来找到最好的答案。

这种通过多次推理来找到最佳答案的过程叫做“测试时间扩展”。DeepSeek-R1 就是这个扩展定律的完美例子，它证明了快速计算对 AI 推理非常重要。

因为这个模型可以反复“思考”问题，所以它会生成更多的输出内容，生成的时间也会更长，这样模型的质量就会越来越好。为了实现实时推理和更高质量的答案，DeepSeek-R1 这样的模型需要大量的计算资源，这就意味着需要更大规模的推理部署。

DeepSeek-R1 在需要逻辑推理、数学、编程和语言理解的任务中表现得非常出色，同时还能保持高效的推理速度。

为了让开发者能安全地测试这些功能，并构建他们自己的专用 AI 代理，现在可以在 build.nvidia.com 上预览 6710 亿参数的 DeepSeek-R1 模型，它是作为 NVIDIA NIM 微服务提供的。这个微服务可以在一个 NVIDIA HGX H200 系统上每秒处理多达 3,872 个 token。

开发者可以通过应用程序编程接口（API）来测试和试验这个模型，预计很快它就会作为可下载的 NIM 微服务提供，成为 NVIDIA AI Enterprise 软件平台的一部分。

DeepSeek-R1 NIM 微服务通过支持行业标准 API 简化了部署。企业可以在他们喜欢的加速计算基础设施上运行这个微服务，从而最大限度地提高安全性和数据隐私。通过使用 NVIDIA AI Foundry 和 NVIDIA NeMo 软件，企业还可以为专门的 AI 代理创建定制的 DeepSeek-R1 NIM 微服务。

DeepSeek-R1 —— 测试时间扩展的完美例子
DeepSeek-R1 是一个大型混合专家（MoE）模型。它有 6710 亿个参数，比很多其他流行的开源大模型多 10 倍，而且支持 128,000 个 token 的输入长度。这个模型在每一层都有 256 位专家，每个 token 会被同时发送给八个不同的专家进行评估。

为了给 R1 提供实时答案，需要很多计算能力强的 GPU，并且这些 GPU 要通过高带宽、低延迟的方式连接起来，这样才能把提示 token 发送给所有专家进行推理。

结合 NVIDIA NIM 微服务中的软件优化，一台装有八个 H200 GPU 的服务器可以通过 NVLink 和 NVLink Switch 连接，以每秒 3,872 个 token 的速度运行完整的 6710 亿参数 DeepSeek-R1 模型。

DeepSeek-R1 NIM 微服务在单个 NVIDIA HGX H200 系统上每秒最多可传送 3,872 个令牌。

这种高速度是通过在每一层使用 NVIDIA Hopper 架构的 FP8 Transformer Engine 实现的，并且使用了 900 GB/s 的 NVLink 带宽来进行 MoE 专家之间的通信。

充分利用 GPU 的计算性能对实时推理非常重要。下一代的 NVIDIA Blackwell 架构会通过第五代 Tensor Cores 进一步提升 DeepSeek-R1 等推理模型的测试时间扩展能力，第五代 Tensor Cores 可以提供高达 20 petaflops 的 FP4 计算性能，并且有专门为推理优化的 72-GPU NVLink 域。

现在就开始使用 DeepSeek-R1 NIM 微服务
开发者可以在 build.nvidia.com 上体验 DeepSeek-R1 NIM 微服务，现在已经开始提供。你可以观看它是如何工作的。

要点：

DeepSeek-R1 NIM 微服务在单个 NVIDIA HGX H200 系统上每秒最多可传送 3,872 个令牌。
DeepSeek-R1 采用 NVIDIA Hopper架构，可利用 FP8 Transformer Engines 和 900 GB/s NVLink 带宽实现高速推理，实现专家通信。
与 NVIDIA 的 NIM 一样，它是一个企业级设置，用于安全地进行实验并使用行业标准 API 部署 AI 代理。

总之：
DeepSeek-R1 已被英伟达（NVIDIA）纳入其 AI 平台，并通过 NVIDIA NIM 微服务提供 API 接口，供开发者测试和使用。这一合作使得 DeepSeek-R1 的强大推理能力能够更便捷地集成到企业应用中，同时支持高效、安全的部署和定制化开发。

实时推理新王者：DeepSeek R1登录英伟达AI平台

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道