英伟达亲手葬送Lepton:AI原生用户为何集体抛弃这个曾被寄予厚望的平台?

英伟达DGX Lepton本可成为连接前沿AI实验室与云基础设施的桥梁,却因忽视用户核心痛点、沉迷表面优化而迅速失宠,最终沦为“企业怀旧玩具”。

作者背景:本文作者长期深耕AI基础设施与高性能计算领域,具备大型模型训练与推理架构设计经验,深度参与过多个超大规模AI集群的部署与优化,对Neocloud(新型云服务商)、GPU调度系统、高效推理框架及AI软件生态有第一手观察与实践。其观点常基于真实用户反馈与工程落地细节,致力于揭示技术产品成败背后的真实逻辑。



几个月前,整个Neocloud(新型云服务商)圈子还在为英伟达DGX Lepton的横空出世而感到焦虑。大家担心这个由GPU巨头亲自下场打造的平台,会彻底标准化AI基础设施的用户体验、性能表现和价值交付,从而把Neocloud们拖入一场无休止的价格战泥潭——毕竟,如果所有用户都用同一套Lepton平台,那各家云厂商还能靠什么差异化竞争呢?只剩下拼谁更便宜了。

但如今,这种担忧早已烟消云散。不是因为Neocloud们找到了应对之策,而是因为英伟达自己正在亲手把Lepton推向失败的深渊。是的,你没听错——那个曾被寄予厚望、有望“直连前沿AI实验室”的战略级产品,正在以肉眼可见的速度失去开发者信任,甚至被核心用户群彻底抛弃。

今天,我们就来彻底拆解:Lepton是如何从“AI基础设施的未来”变成“没人想碰的鸡肋”的?为什么连我们这些曾经最坚定的支持者,现在宁愿自己在裸金属服务器上手搓SLURM调度器,也不愿再碰Lepton?这背后,不仅是产品设计的失误,更是英伟达对AI原生用户心理的严重误判。



第一章:Lepton的初衷——标准化,还是垄断?

要理解Lepton为何令人失望,得先回到它的起点。DGX Lepton最初被提出的愿景,是打造一个“开箱即用”的AI基础设施平台。它承诺为用户提供一致的性能体验、统一的软件栈、简化的部署流程,以及跨不同Neocloud环境的无缝迁移能力。听起来很美好,对吧?

但问题在于,这个“标准化”的背后,隐藏着一个危险的逻辑:如果所有Neocloud都基于Lepton构建服务,那它们本质上就成了英伟达的渠道代理。用户不再关心你用的是哪家云,只关心是不是Lepton认证。这样一来,Neocloud的议价能力将被极大削弱,利润空间被压缩,最终沦为硬件资源的搬运工。

这正是几个月前Neocloud们恐慌的根源。他们害怕自己辛苦构建的差异化能力——比如定制化的调度器、优化的存储架构、低延迟的网络拓扑——在Lepton面前变得毫无意义。用户只需要一句“给我一个Lepton实例”,剩下的事英伟达全包了。

然而,现实的发展却出乎所有人意料:Lepton根本没能赢得AI原生用户的心。而原因,早在2025年6月我们就已经指出过——AI开发者,尤其是那些站在技术最前沿的实验室和初创公司,从来就不吃英伟达那套“付费软件”的套路。



第二章:AI原生用户的真实偏好——免费、开源、关键路径

历史早已证明,AI原生用户对英伟达的非关键路径软件产品几乎毫无兴趣。他们愿意用的,永远是那些免费、开源、且处于训练或推理关键路径上的底层库:比如PyTorch(虽然由Meta主导,但深度集成CUDA)、cuDNN、cuBLAS、NCCL等。这些工具构成了AI开发的“水电煤”,缺一不可,且必须高效可靠。

但一旦英伟达试图推出需要付费、或非核心依赖的上层软件,比如NVIDIA Inference Microservices(NIMs),用户立刻用脚投票。绝大多数前沿团队根本不用NIMs做推理,而是选择vLLM、SGLang这类社区驱动、高度可定制的开源框架。NIMs的主要用户,反而是那些缺乏工程能力、依赖厂商“交钥匙方案”的传统企业——也就是所谓的“legacy enterprises”。

这种用户分层非常关键。Lepton如果想成功,必须打动的是前者:那些自己写调度器、调内核、压延迟的AI原生团队。但英伟达似乎完全搞反了方向。



第三章:Lepton的致命偏移——沉迷UI,忽视核心痛点

过去几个月,Lepton团队到底在忙什么?答案令人啼笑皆非:他们把大量精力花在了修改登录界面的颜色方案,以及把Lepton的登录入口强行统一到那个早已被社区唾弃的cuDNN开发者门户。

是的,就是那个老掉牙的NVIDIA开发者账号系统。还记得吗?在PyTorch还没内置cuDNN的时代,你必须先注册一个NVIDIA账号,登录那个卡顿、繁琐、验证码频繁的网页,才能下载cuDNN库。整个机器学习社区对这个登录体验深恶痛绝,甚至成为了一个“反面教材”。

而现在,Lepton居然主动向这个糟糕体验靠拢?这不是进步,这是倒退。更讽刺的是,他们做这些表面功夫的同时,却完全忽略了Neocloud和终端用户真正关心的问题。

一位Neocloud的工程师最近直言不讳地告诉我们:“Lepton解决了所有简单的问题,唯独绕开了云计算中最难的部分——多租户(multi-tenancy)。” 这句话一针见血。在真实生产环境中,如何在单个GPU集群上安全、高效、隔离地运行多个用户任务,是Neocloud的核心竞争力所在。而Lepton对此几乎毫无建树。



第四章:开源承诺的幻灭——从NIMs到FlashInfer的前车之鉴

更让社区愤怒的是Lepton的“伪开源”姿态。英伟达宣称Lepton是开源项目,但截至目前,真正开放源代码的只有GPUd——一个非关键路径的守护进程。其余核心组件,包括调度逻辑、资源隔离机制、性能监控模块等,全部闭源。

这种做法让人不得不联想到之前的NIMs和Riva语音服务:一开始打着开源旗号吸引社区,等用户依赖形成后,就逐步转向闭源分发,甚至只提供编译好的cubin内核(CUDA二进制),连源码都不给。最近的FlashInfer也重蹈覆辙——从GitHub上的开源项目,变成了运行时动态加载闭源内核的黑盒。

AI开发者不是傻子。他们清楚地知道,一旦依赖了这种“半开源”平台,未来就可能被厂商锁定,失去对系统底层的控制权。在一个强调可复现性、可审计性、可定制性的AI时代,这种黑盒化趋势是致命的。

因此,社区对Lepton的怀疑不是没有道理的。当一个平台既不能解决核心问题,又在开源承诺上打折扣,还沉迷于无关痛痒的UI调整时,它的可信度自然崩塌。



第五章:从狂热到弃用——我们为何宁愿手搓SLURM?

我们曾经是Lepton最忠实的拥趸。当初看到英伟达愿意深入基础设施层,直接服务AI实验室,我们甚至认为这是行业的一大进步。毕竟,如果能有一个统一、高效、可靠的平台,省去各家重复造轮子的麻烦,何乐而不为?

但现实狠狠打了我们一记耳光。现在的Lepton,不仅没有简化我们的工作,反而增加了额外的认知负担和集成成本。它的抽象层太厚,灵活性太差,关键功能缺失,文档混乱,社区支持薄弱。更糟的是,它还在不断引入那些我们根本不需要的“企业级”功能,比如复杂的RBAC权限模型、冗余的审计日志——这些对初创团队来说纯属累赘。

于是,我们做出了一个看似“自虐”但实则理性的决定:放弃Lepton,回归裸金属+自研调度器的组合。哪怕这意味着我们要自己部署和维护SLURM,调试GPU拓扑亲和性,优化NVLink带宽利用率——至少,我们掌控一切。

这种选择,代表了大量AI原生团队的心声。他们宁愿承受工程复杂度,也不愿被一个不理解他们需求的平台绑架。Lepton正在重蹈Run:ai的覆辙——后者也曾试图用“AI工作负载管理”概念打动市场,但最终只在传统企业中找到一小撮用户,而在真正的AI前沿社区中无人问津。



第六章:英伟达错失的历史性机会——直连前沿实验室

最令人扼腕的是,Lepton本可以成为英伟达历史上最重要的战略支点。过去,英伟达主要通过硬件销售和底层库(如CUDA)影响AI生态,但始终缺乏一个直接触达终端AI开发者的上层平台。Lepton本有机会填补这一空白,成为英伟达与OpenAI、Anthropic、xAI、Moonshot等前沿实验室之间的桥梁。

想象一下:如果Lepton真的解决了多租户、弹性调度、模型热加载、低精度状态缓存等真实痛点,这些实验室很可能会将其作为标准部署方案。英伟达不仅能获得宝贵的用户反馈,还能提前布局下一代AI基础设施标准,甚至影响模型架构的设计方向。

但如今,这个机会正在白白流失。英伟达似乎误以为,只要挂上“DGX”和“NVIDIA”的牌子,用户就会自动买单。他们低估了AI原生用户的挑剔程度,也高估了品牌光环在技术产品中的作用。



第七章:市场的自我修复——Hydra等新兴平台的崛起

所幸,市场自有其纠错机制。就在Lepton日渐式微的同时,一批真正以用户为中心的新型基础设施平台正在快速崛起。比如Hydra(中文可译为“海德拉”),这家由前AI研究员和系统工程师创立的公司,专注于提供高性能、按需裸金属(Bare Metal)实例,并深度优化了GPU直通、网络拓扑和存储I/O。

Hydra的界面简洁,API清晰,支持秒级启动,且完全开放底层控制权。更重要的是,他们愿意倾听用户反馈,快速迭代。类似平台的出现,不仅加剧了按需裸金属市场的竞争,也让终端用户拥有了更多选择权。

这种“去中心化”的基础设施生态,或许才是AI时代的正确方向——不是由单一巨头定义标准,而是由多样化的平台在竞争中共同推动技术进步。



第八章:反思与启示——技术产品成功的真正逻辑

Lepton的滑铁卢,给所有试图进入AI基础设施领域的厂商敲响了警钟:技术产品的成功,不在于品牌有多响、资源有多雄厚,而在于是否真正理解并解决了用户的“最难问题”。

AI原生用户不是传统IT管理员。他们不关心花哨的仪表盘,不迷信大厂背书,也不愿意为“看起来很美”但无法落地的功能买单。他们要的是:极致性能、完全控制、透明机制、快速迭代。任何偏离这一核心诉求的产品,终将被抛弃。

英伟达拥有无与伦比的硬件优势和底层软件积累,但它必须学会放下“厂商思维”,转而拥抱“开发者思维”。否则,即便推出十个Lepton,也只会收获十个Run:ai。



结语:未来仍可期,但路径必须重校

我们依然相信,AI基础设施需要标准化,也需要更高效的抽象层。但这个标准,必须由社区共识驱动,而非厂商意志强加。Lepton的失败,并不意味着统一平台没有未来,而是提醒我们:真正的平台,必须生于痛点,长于实践,成于信任。

英伟达还有机会修正航向。但如果继续沉迷于UI美化、门户统一和闭源策略,Lepton终将成为AI基础设施史上一个昂贵的注脚——一个本可改变格局,却因傲慢与误判而错失良机的典型案例。

而我们,将继续在裸金属上打磨自己的系统,因为在那里,每一行代码都为我们自己而写,每一个优化都直指真实需求。这或许辛苦,但值得。

市场正在进化,用户正在觉醒。未来的赢家,属于那些真正蹲下来听开发者说话的人。