d-Matrix用数字内存内计算颠覆AI推理经济,10倍性能、3倍省钱、5倍省电!

d-Matrix通过数字内存内计算架构Corsair,在AI推理领域实现10倍性能提升、3倍成本下降与3–5倍能效优势,专为高带宽、低延迟推理场景打造。

2025年12月,硅谷芯片初创公司d-Matrix宣布完成2.75亿美元C轮融资,累计融资额已达4.5亿美元。

这家总部位于湾区的公司宣称,自家的AI推理平台是“全球性能最高、能效最优的数据中心推理解决方案”,能为超大规模云服务商、企业客户甚至主权国家提供“10倍更快、3倍更便宜、3–5倍更节能”的推理体验。

听起来像营销话术?但当你拆解其核心技术“数字内存内计算”(Digital In-Memory Compute, DIMC)后,会发现这并非空谈,而是一场针对GPU推理瓶颈的精准打击。



AI推理的本质:无数个矩阵乘法在燃烧电力

我们常说“AI推理就是把训练好的模型拿去跑”,但背后其实是海量的“乘加运算”(Multiply-Accumulate, MAC)。

以Transformer模型为例,每一次token生成,都涉及成千上万个权重矩阵与激活向量的点积——本质就是一堆MAC操作堆叠而成。
GPU之所以成为AI训练和推理的主流,正是因为其拥有成千上万个并行MAC单元,能同时处理大量矩阵运算。
但问题来了:GPU的MAC单元虽强,却严重依赖外部高带宽内存(如HBM)供血。

数据在逻辑单元和内存之间来回搬运,不仅慢,还极其耗电。据TSMC数据,从HBM读取1比特数据耗能约3皮焦(pJ),这在大规模推理中是巨大浪费。



模拟内存内计算:大自然给的“作弊器”,但太难驾驭

其实,大自然早就给出了更优雅的MAC实现方式——用物理定律直接做计算。

比如,根据欧姆定律 I = G × V,把电导G当作权重,电压V当作输入,电流I自然就是乘积;再根据基尔霍夫电流定律,把多个支路电流汇入一个节点,就完成了“累加”。这就是“电流型模拟内存内计算”(Analog In-Memory Compute, AIMC)。

理论上,整个矩阵运算可在纳秒级完成,且功耗极低。

早期d-Matrix就押注这一路线,2020年推出名为“夜鹰”(Nighthawk)的原型芯片。但现实很骨感:要在每个存储位线(bitline)上集成高精度模数转换器(ADC)几乎不可能,成本、面积、噪声控制都难以接受。

最终,d-Matrix果断转向数字路线。



数字内存内计算:不是缓存,而是“计算与存储深度融合”

d-Matrix的Corsair芯片没有走模拟老路,而是打造了一种“数字内存内计算”(DIMC)架构。乍看之下,它似乎只是把SRAM缓存做大了点——毕竟CPU/GPU几十年前就有L1/L2/L3缓存。

但关键差异在于:传统架构中,SRAM只是“数据暂存地”,计算仍发生在独立逻辑单元;而Corsair把MAC单元直接“织入”SRAM阵列,形成256个DIMC核心,每个核心能高效处理64×64的矩阵块。

单个chiplet(芯粒)就集成256MB SRAM和256个DIMC核心,通过“全互联”(all-to-all)网络协同工作,如同一个超大计算单元。这种设计让内存带宽飙升至150TB/s——对比之下,顶级HBM3e GPU单芯片带宽仅2TB/s,四堆叠HBM也不过8TB/s。



芯粒堆叠+有机基板:成本砍半,性能翻倍

Corsair单颗chiplet面积约400平方毫米,接近光刻机单次曝光(reticle)极限的一半。为扩展容量,d-Matrix将4颗chiplet集成在一块有机基板上,通过自研“DMX Link”芯粒互联技术实现1TB/s内部带宽。

注意,这里用的是“有机基板”(organic substrate),而非台积电昂贵的CoWoS硅中介层(interposer)。前者成本仅为后者的几分之一,且供应链更成熟。

同时,外部扩展内存采用LPDDR5,直接焊在PCB板上——LPDDR5虽带宽不如HBM,但价格只有其1/5到1/10。

这种“高带宽SRAM+低成本DRAM”的混合内存策略,让系统在性能与成本间取得精妙平衡。



性能模式 vs 容量模式:推理也能“按需分配”

256MB或1GB的SRAM显然装不下百亿参数大模型(如GPT-OSS 20B需14GB)。

d-Matrix的解法很聪明:通过软件平台“Aviator”动态切换“性能模式”和“容量模式”。
性能模式下,模型权重全驻留在SRAM,实现极致低延迟;
容量模式则利用LPDDR5存储大部分权重,仅将活跃层调入SRAM。

更妙的是,这种设计天然适配现代LLM推理的“预填充-解码”两阶段:预填充(prefill)计算密集、内存带宽需求低,适合容量模式;而解码(decoding)每步只生成一个token,极度依赖内存带宽,正好发挥Corsair 150TB/s带宽的优势。

这种“解耦式推理”正成为行业新范式——英伟达最新CPX架构也采用类似思路。



从芯粒到机架:Corsair如何“搭积木”成超级推理集群?

单张Corsair PCIe卡集成8颗chiplet(2GB SRAM),功耗600W,可直接插入标准服务器(如Supermicro X14)。
两张卡通过“DMX Bridge”桥接卡互联,组成16 chiplet、4GB SRAM、4096个DIMC核心的超级单元。一个机箱可插8张卡,总SRAM达16GB。但这仍不够跑百亿模型。

于是d-Matrix推出“SquadRack”——一个机柜集成6–8台服务器,总SRAM突破100GB,足以承载主流中型模型。

关键在于,所有加速卡通过自研“JetStream”以太网NIC互联,支持跨机柜扩展。
这意味着,你不需要改造数据中心,只需像插显卡一样部署Corsair,就能构建高带宽推理集群。



3D内存内计算:下一代“猛禽”(Raptor)已在路上

Corsair虽强,但SRAM密度瓶颈明显。

d-Matrix已在测试下一代“铺路鹰”(PaveHawk)芯片,采用3D堆叠技术,将DRAM直接置于逻辑芯片下方,通过硅通孔(TSV)实现超高带宽互联。这种“3D内存内计算”(3DIMC)架构有望兼顾高容量与高带宽,为超大上下文窗口(如百万token)推理铺路。

未来“猛禽”(Raptor)架构将整合这些经验,进一步逼近“内存墙”的物理极限。



独特数据格式:块浮点数如何省下30%内存?

除了硬件,d-Matrix在软件层也做了深度优化。其采用“块浮点数”(Block Floating Point)格式——同一数据块共享一个指数,仅存储尾数。这比传统FP16节省近30%内存,且精度损失可控。

在SRAM容量极其珍贵的Corsair平台上,这种格式大幅提升了有效模型容量,让20B参数模型能在1GB SRAM中高效运行。



为什么说d-Matrix不是GPU的替代,而是“特种兵”?

很多人问:Corsair能取代A100/H100吗?答案是否定的。d-Matrix不追求通用训练,也不对标千亿模型推理。
它的战场是“高吞吐、低延迟、低成本”的垂直场景:比如金融实时风控、自动驾驶感知后处理、电商推荐系统、客服对话机器人等。

在这些场景中,模型规模中等(1B–30B参数),但对延迟极度敏感(<10ms),且需7×24小时运行。
Corsair的10倍性能、3倍成本优势、5倍能效提升,能直接转化为企业真金白银的TCO(总拥有成本)下降。
这才是d-Matrix的“甜蜜点”。



结语:AI硬件的未来,属于“专用化”与“异构化”

d-Matrix的崛起,标志着AI芯片从“GPU万能论”走向“场景定制化”。

与其用昂贵HBM和通用架构硬扛所有负载,不如像Corsair这样,为推理场景量身打造计算-内存-互联三位一体的专用平台。随着模型规模趋于稳定、推理需求爆发,这类“推理特种兵”将越来越多。而d-Matrix凭借其DIMC架构、芯粒扩展能力和务实的商业定位,已在这场变革中抢下关键身位。

未来几年,我们或将看到更多类似架构涌现:为AI的下一战,不在训练,而在推理;不在算力,而在打破内存墙后的提升效率