英伟达DGX云Lepto只是个壳!Nebius首席技术官掀桌:真GPU云必须从底层重建

Nebius CTO丹尼拉·什坦炮轰行业“新云”多为裸金属堆砌,真正云需解决租户隔离、存储与SLA。他称Nebius是全球最大GPU云,引发业界激辩,本文深度拆解技术真相与投资影响。


科技圈最近又吵吵了:主角是英伟达和一家叫Nebius的公司。

事情是这样的,Nebius的首席技术官,一个叫丹尼拉·什坦的老哥,在LinkedIn上发了一篇长文,直接把矛头对准了英伟达刚推出来的“DGX Cloud Lepton”。

他说啥呢?他说这个Lepton根本不是什么真正的“云”,就是一个薄薄的用户界面层,只管好用不好看,不管底层那些真正难搞的技术问题!
这话说得可太狠了,瞬间就在整个AI圈子里掀起了滔天巨浪。

大家伙儿都在问,这到底是个啥情况?谁在说真话?谁又在吹牛?

首先,咱们得先搞清楚,这位丹尼拉·什坦是谁?
他是Nebius这家公司的首席技术官,也就是CTO。Nebius是一家专门做AI云计算服务的公司,说白了,就是给那些需要大量算力来训练大模型的企业提供GPU服务器租赁服务的。

这家公司背景相当硬核,跟微软签了一个高达数十亿美元的大单,要在新泽西建一个超大规模的数据中心,专门为微软提供算力支持。所以,丹尼拉·什坦的身份,就决定了他说话的分量——他不是在路边摊上瞎掰扯的吃瓜群众,而是站在行业最前沿,亲手搭建过大型AI基础设施的实战派工程师。

他的观点,是基于多年在一线摸爬滚打的经验总结出来的,不是拍脑袋想出来的。因此,当他站出来说“你们这些所谓的‘新云’都不算真正的云”时,整个行业都得认真听听,因为他说的,可能就是行业的真相。

那么,他具体说了些什么呢?简单来说,他提出了三个核心观点:

第一,英伟达的DGX Cloud Lepton,本质上就是一个“聚合器”或者“市场平台”,它本身并不提供底层的计算资源,而是把市场上其他云服务商(比如CoreWeave、Lambda Labs等)的GPU资源打包起来,统一卖给客户。它的主要作用,是让开发者更容易找到合适的GPU资源,提供一个统一的操作界面和软件工具链(比如NVIDIA的NIM和NeMo),让你用起来感觉很丝滑,很顺手。

但问题是,当你真正去使用这些服务的时候,你会发现,那些最核心、最难搞的技术问题——比如不同租户之间的安全隔离、海量数据的高速存储、以及服务的稳定性保障(SLA)——其实还是由背后的云服务商自己负责的。

换句话说,Lepton就像一个精美的外卖平台,它帮你把各个餐厅的菜单整理好,让你一键下单,但它并不能保证你点的那家餐厅后厨的卫生条件有多好,厨师的手艺有多高,食材的新鲜度有多高。这些“硬骨头”,Lepton压根没碰。

第二,丹尼拉·什坦认为,目前市面上绝大多数所谓的“新云”(neoclouds),其实都不是真正意义上的“云”。

它们更像是把一堆裸露的硬件服务器(bare metal)买回来,然后在上面装一些开源的或者第三方的软件,再包装一下,就拿出来卖了。

这种做法最大的问题在于,它们没有从一开始就设计好一套完整的、能够支撑大规模多租户运行的系统架构。比如说,租户隔离。

在云计算里,这是个生死攸关的问题。你和隔壁老王同时租用同一个服务器上的GPU,如果隔离做得不好,你的数据或者代码就有可能被对方看到甚至窃取,这还得了?

现在主流的做法有两种:
一种是利用英伟达GPU自带的MIG(Multi-Instance GPU)技术,通过硬件层面把一块GPU切割成多个独立的小块,每个租户只能访问自己的那一块,这样安全性最高。
但这种方法有个致命缺陷,就是切分的比例是固定的,不够灵活,而且调度起来效率很低。

另一种方法是用虚拟机或者容器来隔离,但这属于“软隔离”,如果网络配置不当,或者没有使用像DPU这样的专用硬件来加强安全,就很容易出现漏洞,导致数据泄露。

很多“新云”为了省事,就直接用第二种方法,结果就是埋下了巨大的安全隐患。

除了隔离,存储也是一个大坑:
训练一个大模型,动不动就要处理几百TB甚至PB级别的数据,对存储系统的读写速度要求极高,每块GPU都要达到几GB/s的吞吐量,而且延迟还不能太高。这就要求存储系统必须采用最先进的技术,比如RDMA网络、GPUDirect Storage等等,才能满足需求。

而很多“新云”在这方面投入不足,要么用的是普通的NAS,要么就是性能不达标,结果就是GPU经常“饿肚子”,算力被白白浪费,客户的成本也水涨船高。

最后就是SLA,也就是服务等级协议:
简单说,就是云服务商承诺给你多少可用性,比如99.9%的在线时间。如果达不到,就要赔钱。这是一个衡量云服务商是否靠谱的重要指标。

成熟的云服务商,比如AWS、Google Cloud,他们的SLA都非常高,通常在99.95%以上。而很多“新云”,尤其是那些规模比较小的,他们的SLA普遍偏低,有的甚至只有99.5%,这意味着一个月里可能会有好几个小时的服务中断。

这对于那些需要7x24小时不间断运行的关键业务来说,是完全不可接受的。

所以说,丹尼拉·什坦说的没错,这些问题才是真正考验一个云服务商能力的“硬骨头”,而不是简单的买几台服务器、装几个软件那么简单。

第三,也是最劲爆的一点,丹尼拉·什坦声称,他们Nebius公司,才是目前市场上“最大的GPU优先云”。

这句话一出来,立马就引发了轩然大波。因为在此之前,大家都公认CoreWeave是这个领域的老大。

CoreWeave在2024年底到2025年初的时候,就已经拥有了超过25万台英伟达GPU,分布在30多个数据中心里,并且还和英伟达签了一个63亿美元的巨额协议,确保未来几年的GPU供应无忧。

相比之下,Nebius虽然和微软签了个大单,但公开披露的计划是,其在美国的第一个数据中心最终会部署大约3.5万台GPU。这个数字,跟CoreWeave比起来,差了整整一个数量级。

所以,当丹尼拉·什坦说他们是“最大”的时候,很多人都觉得他在吹牛。当然,他也给自己留了个台阶,他说“如果你严肃地看待‘云’这个词,而不是随便往一堆硬件盒子上贴个标签的话”,那么Nebius才是真正的最大。

这话的意思是,他认为“最大”不应该只看GPU的数量,更要看是不是真正构建了一个完整的、一体化的云平台。Nebius确实在这方面下了血本,他们采用了英伟达最新的Quantum-2 InfiniBand网络,和VAST Data、Weka这些顶级存储厂商合作,打造了一个高性能的数据平面,从网络到存储再到计算,都是端到端优化过的。

这一点,确实是很多“新云”所不具备的。

所以,这个问题其实没有标准答案,关键看你如何定义“最大”。是看硬件规模,还是看系统集成度?这取决于你的需求。如果你只需要大量的GPU算力,不在乎其他,那CoreWeave可能是更好的选择。但如果你需要一个稳定、安全、高性能的完整云平台,那Nebius的方案可能更符合你的要求。

好了,说完丹尼拉·什坦的观点,咱们再来分析一下这件事背后的深层含义。

首先,对于英伟达来说,这其实是一个非常聪明的战略。他们并没有自己下场去建数据中心、去管理复杂的云基础设施,而是选择做一个“连接器”和“赋能者”。通过Lepton这个平台,他们把开发者和各种云服务商连接起来,同时把自己的软件栈(比如CUDA、NIM、NeMo)深度集成进去,让开发者在任何平台上都能享受到一致的体验。

这样一来,英伟达就牢牢地掌握了AI生态的核心入口,无论你用哪家的云,最终都离不开英伟达的芯片和软件。

这就好比是苹果,它不做运营商,但它通过iOS系统和App Store,控制了整个移动互联网生态。英伟达正在做的事情,就是复制苹果的成功模式,只不过是在AI领域。

这个策略的好处是,它能让英伟达的收入来源更加多元化,不仅仅是卖芯片,还能通过软件订阅、云服务分成等方式赚钱,而且还不用承担建设数据中心的巨大资本开支,风险更低,利润更高。

所以,从英伟达的角度来看,Lepton不是一个失败的产品,而是一个极其成功的商业模式创新。

其次,对于那些“新云”提供商来说,这既是机遇,也是挑战。

机遇在于,Lepton这个平台为他们打开了一扇通往更大市场的大门。以前,他们可能只能靠自己去推销,客户找上门来的几率很小。但现在,只要他们的服务足够好,就能通过Lepton接触到全球范围内的潜在客户,大大降低了获客成本。

挑战在于,Lepton也让市场竞争变得更加透明和激烈。以前,客户可能不太懂技术细节,容易被花哨的宣传语忽悠。但现在,随着Lepton的推广,越来越多的客户开始关注那些真正重要的指标,比如每块GPU的实际利用率(MFU)、任务启动时间(ETTR)、存储吞吐量、历史故障率等等。

那些只靠“堆硬件”、“贴软件”的“薄层”云服务商,很快就会被市场淘汰。只有那些真正投入重金,从底层开始构建安全、高效、可靠云平台的公司,才能在这个新的游戏规则中胜出。

CoreWeave之所以能成为行业龙头,就是因为它在这方面做得非常扎实,不仅公布了详细的性能基准测试,还承诺了具体的存储吞吐量目标,这让客户非常放心。而Nebius虽然规模较小,但他们的技术路线图非常清晰,选择的合作伙伴都是业内顶尖的,这也让他们在高端市场有了一席之地。

再次,对于投资者来说,这给我们提供了一个非常清晰的投资逻辑。那就是,未来的AI云市场,将不再是简单的“谁的GPU多谁就赢”的游戏,而是“谁的系统工程能力更强谁就赢”的游戏。

那些拥有强大技术研发实力、能够构建复杂分布式系统的公司,才有可能获得长期的竞争优势。具体来说,我们可以关注以下几个方向:
第一,是那些已经证明了自己的系统工程能力的“新云”巨头,比如CoreWeave。他们的规模效应和品牌信誉,是短期内难以被超越的。

第二,是那些专注于特定技术领域的供应商,比如VAST Data、Weka这些AI存储厂商,以及英伟达自家的网络设备部门。因为无论是哪个云服务商,要想做好GPU云,都离不开这些底层技术的支持。

第三,是那些拥有强大供应链和融资能力的新兴玩家,比如Nebius。虽然他们现在的规模不大,但如果他们能成功执行自己的技术路线图,并且得到像微软这样的大客户的背书,那么他们未来的发展潜力也是非常巨大的。

总之,投资AI云,不能只看表面的合同金额或者GPU数量,更要深入研究其背后的技术架构、运营能力和财务状况,这样才能做出明智的投资决策。

最后,我们来看看这场争论对未来的影响。我认为,它标志着AI云计算行业正在进入一个全新的发展阶段。过去几年,大家的关注点主要集中在GPU的性能和数量上,因为那时候算力是稀缺资源,谁能拿到更多的GPU,谁就能赢得市场。

但现在,随着GPU供应逐渐充足,竞争的焦点开始转向如何更高效、更安全、更稳定地利用这些算力。这就要求云服务商必须具备更强的系统工程能力,必须从底层开始重新设计整个云平台。

这无疑会提高行业的准入门槛,加速市场的优胜劣汰。那些只会“组装”硬件的公司,终将被淘汰;而那些真正懂得“建造”云平台的公司,将迎来更大的发展机遇。同时,这也意味着,未来的AI云市场,将不再是少数几家巨头垄断的局面,而是会出现更多细分领域的专业玩家,比如专注于高性能存储的、专注于低延迟网络的、专注于安全隔离的等等。

整个生态系统会变得更加丰富和多元。对于消费者来说,这无疑是一件好事,因为他们将有更多样化、更高质量的选择。

总而言之,丹尼拉·什坦的这篇帖子,看似是在批评英伟达和同行,实际上是在为整个行业指明方向。他告诉我们,真正的AI云,不是简单的硬件堆砌,而是需要从底层开始,构建一套完整、复杂、高效的系统。这不仅是技术上的挑战,更是商业上的机遇。

谁能在这场竞赛中胜出,谁就能在未来十年的AI浪潮中占据主导地位。而对于我们普通观众来说,了解这些背后的故事,不仅能让我们更好地理解科技行业的发展趋势,也能帮助我们在投资或职业选择上做出更明智的决策。

毕竟,掌握真相的人,永远比随波逐流的人更有优势。所以,下次再看到有人吹嘘自己的“新云”多么厉害时,不妨多问一句:你的租户隔离是怎么做的?你的存储吞吐量能达到多少?你的SLA是多少?只有回答了这些问题,才能证明你真的懂“云”。

【关键监测项】

1.  Lepton合作伙伴构成与服务捆绑:密切关注哪些云服务商加入了Lepton平台,以及英伟达是否开始将NIM推理网关、NeMo工具链等高价值软件服务与Lepton深度绑定销售,这将直接影响平台的吸引力和收入结构。
2.  新云性能与可靠性指标标准化:观察行业是否会形成统一的性能评估标准,例如公开披露模型FLOPs利用率、任务平均失败率、以及每GPU承诺的最低吞吐量,这将成为客户选择的关键依据。
3.  SLA水平演变:跟踪谷歌云、亚马逊云、微软云等传统巨头,以及CoreWeave、Nebius等新锐力量,针对Blackwell及后续架构推出的GPU服务SLA,看其是否向99.99%级别收敛,反映行业成熟度。
4.  Nebius容量披露与交付:重点监控Nebius位于新泽西的新数据中心建设进度,以及与微软合作项目的实际GPU部署数量和消耗情况,这是验证其“最大”宣称的核心数据。
5.  供应链与技术替代:留意B200/GB200芯片和Quantum-2/3网络交换机的供货周期,以及基于以太网的替代方案能否在集体通信性能上达到InfiniBand的水平,这关系到整个AI基础设施的成本和灵活性。
6.  监管审查风险:关注各国反垄断机构是否会介入调查,审视英伟达作为GPU芯片绝对主导者和云平台运营商的双重角色,是否存在滥用市场支配地位的风险,这将是影响行业格局的重大变量。

这些监测点将共同决定,市场最终是奖励那些脚踏实地、深耕系统工程的“实干家”,还是会被那些擅长营销、依靠软件标准化来压缩利润的“聚合者”所主导。让我们拭目以待,看这场AI云时代的“华山论剑”,最终鹿死谁手。