Tensordyne 公司宣布其 3nm 工艺的 Napier AI 芯片成功流片。该芯片专为 AI 推理优化,采用对数数学将乘法转化为加法,大幅提升能效。相比英伟达 Blackwell,Napier 每瓦 token 吞吐量高 17 倍,每秒 token 吞吐量高 13 倍。
在一个机柜配置下,Napier 可支撑万亿参数模型达到每秒 1000 token,而英伟达 Rubin 需要九个机柜。芯片集成 1380 亿晶体管、144GB HBM3E、256MB SRAM,功耗仅 300W。TDN Link 提供亚微秒级芯片间延迟。整套系统每年每机柜可多产生 3300 万美元营收。Napier 已进入生产阶段,并获得超 2 亿美元需求预测。
每秒 1000 个 token:Napier 芯片如何用加法打败英伟达的乘法
先给你一个最直接的总结:美国一家做 AI 芯片的公司 Tensordyne,最近搞出了一款叫 Napier 的芯片。它用台积电 3nm 工艺,目标很明确——专门在 AI 推理这个场景里,把英伟达目前最强的 Blackwell 和还没全面铺开的 Rubin 芯片比下去。怎么比?靠两个数字:每瓦能处理的 token 数量比 Blackwell 高 17 倍,每秒能处理的 token 数量比 Blackwell 高 13 倍。处理那种特别大的模型(上万亿参数)时,一个 Napier 机柜能做到每秒 1000 个 token,而英伟达要达到同样效果,需要九个 Rubin 机柜加 Groq 的 LPX 机柜。这东西不是PPT,已经完成流片,进入生产阶段了。
你可能会问,凭啥它能这么猛?因为它把 AI 计算里最费电的乘法运算,换成了加法。这就像你本来要搬一百块砖,每块都得用推车推,现在突然有人告诉你,不用推了,这些砖能自己滚过去。加法比乘法省电太多了,所以它才能在 300 瓦的功耗下,跑出 2.1 PFLOPs 的 FP8 算力。还带了 144GB 的 HBM3E 内存和 256MB 的 SRAM,晶体管数量 1380 亿。整套系统叫 Napier TDN,是跟博通和 HPE Juniper Networks 一起做的,里面用了一种叫 TDN Link 的互联技术,芯片之间通信延迟低于一微秒。
Napier 芯片已经流片成功,进入了真实生产阶段。这不是实验室里的玩具。要理解 Napier 为什么厉害,你得先搞清楚 AI 芯片到底比什么。不是比谁晶体管多,也不是比谁名字酷。就像买车,不比谁方向盘上的按钮多,比的是百公里加速和油耗。AI 芯片有两个关键指标:训练和推理。训练是教模型认字,推理是让模型用学会的字回答问题。Napier 主攻推理。推理的核心 KPI 叫“token 吞吐量”,就是每秒能吐出多少个字或词。你问 ChatGPT 一个问题,它一个字一个字往外蹦,每个字就是一个 token。吐得越快,你等得越短。
英伟达的 Blackwell 和 Rubin 很强,但它们像是为训练设计的“重卡”。拉货(训练)很猛,但送快递(推理)不一定最高效。Napier 是一辆专门送快递的“小面包车”,货箱里全是为“快速吐字”优化的设计。公司说它的 token 吞吐量比 Blackwell 高 13 倍。13 倍什么概念?Blackwell 一秒吐 77 个 token,Napier 就能吐 1000 个。你读“你好”两个字大概要 0.5 秒,1000 个 token 相当于它在你眨两次眼的功夫里,把《静夜思》背了 20 遍。
这个差异来自它的核心数学 trick。传统 AI 芯片做计算,大量用到乘法。乘法就像你要算 23×47,得列竖式,一步一步乘再加。加法就是 23+47,一眼出结果。Napier 用了一套“对数数学”,把乘法变成了加法。对数是什么?你记不记得 log(a×b) = log a + log b?芯片里不用真的算 log,而是用硬件直接实现这种“乘法变加法”的映射。省下的电和时间,全变成了更快的 token 输出。所以 Napier 比 Blackwell 每秒多吐 13 倍的字,因为它把最费力的乘法换成了省力的加法。
一个机柜顶九个:Tensordyne 新芯片让 Blackwell 和 Rubin 黯然失色
Napier 靠加法代替乘法,每瓦性能比 Blackwell 高 17 倍。每瓦性能高意味着什么?你同样交一度电的钱,Napier 能干的活是 Blackwell 的 17 倍。但更关键的是,功耗低了,散热要求就低了。英伟达的芯片跑起来像电烤炉,你得配强力空调,甚至液冷。Napier 的 TDP(热设计功耗)是 300 瓦,比很多旗舰显卡还低。一个完整的 Napier 机柜,装了 288 颗芯片,总功率才 120 千瓦。这包含了 4 个 TDN72 服务器,每个服务器 72 颗芯片。同样规模的 Blackwell 机柜,功率更高,因为每颗芯片功耗更大,而且互联也要耗电。
低功耗带来了一个连锁反应:你可以在同样的空间里塞进更多芯片,因为不需要留那么大的缝隙给风扇和冷液管道。Napier 的一个机柜里,芯片之间用 TDN Link 连接,延迟低于一微秒。微秒是百万分之一秒。你眨眼睛要 0.1 秒,也就是 10 万微秒。所以 Napier 的芯片之间聊天,比你眨眼快 10 万倍。这就好比一个公司里,员工都在同一层楼,喊一嗓子就能听到。而英伟达的 Rubin 要达到同样的吞吐量,得把九个机柜用线连起来,跨机柜通信,延迟和功耗都上去了。
所以 Napier 的一个机柜,能顶英伟达九个机柜的工作量。九个机柜占的地方、用的电、配的散热,都比一个机柜多得多。数据中心老板看到这个对比,眼睛会发绿光——省下来的电费和场地费,全是利润。因为 Napier 每瓦性能极高且功耗低,所以单个机柜能完成原本需要九个英伟达机柜的推理任务,大幅降低了基础设施成本。
AI 推理效率革命:Napier 芯片每瓦性能超 Blackwell 17 倍
Napier 的低功耗让它能高密度集成,但光靠密度不够,还得解决一个老问题——“内存墙”。什么是内存墙?CPU 或 AI 芯片算得飞快,但数据在内存里,从内存送到计算单元的路上要花时间。这就像你请了 100 个厨师,但食材只够每 10 分钟送一次,每次只有一筐土豆。厨师们大部分时间在干等。Napier 的方法很直接:每个处理器里 tightly integrate 一大块 SRAM(256MB),再加上 HBM3E(144GB 每颗)。SRAM 比 HBM 快很多,但贵且容量小。它把最常用的数据放在 SRAM 里,就像厨师手边的备料台。HBM 相当于厨房后面的大仓库。传统芯片经常让计算单元等数据从 HBM 搬过来,Napier 的设计是让计算单元尽量只从 SRAM 拿数据。
这跟它的对数数学还能配合。因为乘法变加法,每一步计算需要的中间结果变少了,对内存的访问次数也少了。就像你做一道菜,本来要来回跑仓库拿 10 种调料,现在只需要跑 2 次。跑得少了,等的时间就少了。所以 Napier 的 compute utilization 很高,芯片大部分时间在真干活,不是在等数据。对比英伟达的 Rubin,虽然内存带宽也很高,但它的架构本质上还是为训练优化的。训练时数据可以大块大块搬,推理时 token 是一个接一个生成,每个 token 都要访问一次模型权重,对内存延迟更敏感。Napier 就是冲着这个痛点去的:把 SRAM 加大、把内存访问次数减少、把计算单元和内存贴得更近。
Napier 的内存架构让它几乎没有空闲等待时间,每个时钟周期都在吐 token,这是它能达到每秒 1000 个 token 的第二个关键。
每年多赚 3300 万美元:Napier 芯片的经济账有多惊人
Napier 的单芯片推理已经很快,但处理上万亿参数的模型时,一颗芯片装不下整个模型,必须多颗芯片一起上。上万亿参数的模型有多大?假设每个参数用一个数字表示,1 万亿个参数就是 1 万亿个数字。就算每个数字只占 2 个字节(FP16 或者 BF16 那种),也要 2TB 的内存。Napier 一颗芯片带 144GB HBM,加上 256MB SRAM,远远不够。所以模型要被切成很多块,分到不同芯片上。这时候芯片之间怎么通信,就成了瓶颈。如果 A 芯片算完了,要把结果告诉 B 芯片,但这个信息在路上走了 10 微秒,那整个系统的速度就被拖慢了。
Napier 的 TDN Link 是一种 any-to-any 的 scale-up interconnect。any-to-any 意思是每个芯片都能直接和系统里任何其他芯片通信,不用绕路。延迟 sub-microsecond,也就是低于 0.000001 秒。你可以把它想象成一个超级高效的会议室:72 个人(72 颗芯片)坐一圈,每个人说话,其他所有人都能在 1 微秒内听到。而英伟达的 NVL72 架构,虽然也在做类似的事,但它的延迟和拓扑结构在跨机柜时会急剧恶化。所以 Napier 在一个机柜内(72 颗芯片)就能搞定万亿参数模型,而英伟达 Rubin 需要把九个机柜用更慢的互联串起来。
实际数据:Napier 说它的一个机柜(288 颗芯片)能支撑 10T 参数的模型用 FP4 精度跑,并且保持每秒 1000 token 的吞吐量。什么叫 FP4?就是每个参数只占 4 个 bit,精度很低但很快。对于推理来说,很多时候不需要很高精度,就像你看天气预报不需要知道温度到小数点后两位。Napier 的这个能力意味着,你问一个超大模型一个问题,它依然能像普通模型一样快速回答。TDN Link 让 Napier 的多芯片系统合起来就像一颗巨大的、低延迟的芯片,这是它能碾压 Rubin 机柜数量的第三个关键。
从乘法到加法:Tensordyne 如何重写 AI 芯片规则
Napier 一个机柜能完成九个 Rubin 机柜的工作,且功耗和空间需求低得多。数据中心老板怎么算账?收入来自服务客户,成本来自电费、房租、设备折旧、维护。如果用一个 Napier 机柜代替九个 Rubin 机柜,成本项里省掉的是:八台机柜的采购费(或租赁费)、八台机柜的电费、八台机柜的散热费、八台机柜占用的空间费。收入项呢?因为 Napier 每秒能处理的 token 更多,同一个客户需求可以用更少时间完成,所以同样的时间里你可以服务更多客户。或者,你可以出租算力,按 token 计费,每秒 1000 token 比每秒 77 token 的收费能力高出 13 倍。
Tensordyne 给了一个具体数字:每个 Napier 机柜每年能比 Blackwell 机柜多产生 3300 万美元的营收。怎么来的?假设每个 token 卖固定价格,每秒多吐 13 倍的 token,一年 365 天,一天 86400 秒,再乘以单价,差不多就是这个数量级。这还没算你省掉的电费。数据中心里,电力和散热成本能占到总成本的 50%。拿英伟达的九个 Rubin 机柜和一个 Napier 机柜比,Napier 可能只用十分之一的电和散热成本。省下的电费,直接变成利润。
另外,Napier 的系统是风冷的(air-cooled)。很多高密度 AI 芯片得用水冷,水冷的前期投入和后期维护都很贵。风冷就便宜多了,普通数据中心都能用。这又进一步降低了门槛。Napier 不仅在技术上碾压,在经济账上也碾压。每个机柜每年多赚 3300 万美元,同时少花一大笔电费和基建费,芯片公司把这个叫“redefine what’s possible for next-generation AI deployment”。
Napier 在推理场景下,无论从 token 吞吐量、每瓦性能、内存延迟、互联延迟还是经济账上,都明显优于 Blackwell 和 Rubin。但你要注意,它没有说自己在训练上比英伟达强。训练需要大量的矩阵乘法,而且需要高精度(FP16 或 BF16)。Napier 的对数数学在训练时可能不如传统乘法精度高。所以它聪明地选了推理这个赛道。推理的市场有多大?所有你用的 AI 产品,比如聊天机器人、AI 绘图、自动客服、代码补全,背后跑的都是推理。一旦模型训练好,它要服务成千上万次推理请求。推理是每天每时每刻都在发生的。英伟达的芯片因为训练很强,很多公司也用它做推理,但这不一定是最优解。就像你可以用大卡车送外卖,但肯定不如小电驴快和省油。
Napier 的 Napier TDN 系统,就是专门为外卖(推理)设计的小电驴。而且它已经拿到了超过 2 亿美元的预测需求,说明有客户愿意买单。它现在进入 beta 部署阶段,下一步是扩大基础设施。它的目标不是打败英伟达,而是在多万亿参数模型的推理这个细分市场里,成为性价比之王。