5亿造SRAM+HBM芯片:MatX成本革命直击英伟达命门!


AI芯片战场迎来新玩家,MatX用5亿美元押注能同时驾驭高速缓存SRAM与大容量内存HBM的终极方案,目标直指英伟达霸主地位。

想象一下你在玩游戏。电脑里其实有两个存东西的地方:
第一个在CPU旁边,叫“口袋”SRAM。它的速度飞快,你伸手就能拿到里面的东西,但容量极小,就够放两三样。
第二个在主板上,叫“图书馆”HBM。它容量巨大,能放下整个世界,但你要拿本书得先穿过整个城市去借,慢得让人着急。

这就是当下AI芯片界最大的两难困境,一个让无数工程师掉头发的终极难题。

MatX这家公司看透了这个问题。他们发现,现在的AI芯片市场分裂成了两个阵营。
一边是英伟达这种HBM派,靠着高带宽内存堆容量,训练大模型时气势很足,但处理单个用户请求时就像大象跳芭蕾,又笨重又费电。
另一边是Cerebras这种SRAM派,把计算单元旁边塞满超高速缓存,推理速度快得像闪电,但遇到长文本就没办法了,像跑车开到了泥地上,油门踩到底也跑不动。

MatX说,小孩子才做选择,成年人全都要。他们要做一颗既能飙车又能拉货的芯片,让两个池子的水自由流动,而不是让用户在速度和容量之间反复纠结。



创始人的出走:从谷歌TPU团队到创业赌局

故事得从两个谷歌工程师说起。Reiner Pope和Mike Gunter,这俩人之前在谷歌搞TPU,就是那个让AlphaGo打败李世石的神奇芯片。Pope搞软件,Gunter搞硬件,天天跟硅片打交道,看着谷歌内部的AI模型越来越庞大,芯片却越来越力不从心。2022年,他俩一合计,决定不干这打工人的活了,要出来干一票大的。他们的目标很明确:从零开始设计一颗专门为LLM而生的芯片,不搞那些花里胡哨的通用计算,就死磕大语言模型。

这个决定在当时看起来有点疯狂。毕竟英伟达已经统治了AI芯片市场,市值飙到4.6万亿美元,黄仁勋的皮衣都换了好几套。但Pope和Gunter看到了一个不容易发现的限制条件。他们发现,芯片制造工艺决定了内存和计算单元必须物理上分开,就像你没办法把游泳池建在跑步机上一样。SRAM和DRAM是两种完全不同的物理实现方式,一个用晶体管做存储单元,一个用电容,工艺路线完全不同。这意味着你不能简单地把它们缝在一起,得像指挥交响乐一样,让每个声部在正确的时间响起。

于是MatX诞生了。这个名字听起来像数学考试里的矩阵运算,实际上也确实跟矩阵乘法有关。他们的第一颗芯片叫MatX One,名字很朴实,但野心巨大。这颗芯片要解决的问题,被Pope称为当今最有趣的智力谜题:如何在物理限制下,协调好内存和计算的最优组合,让LLM的推理预填充、解码、训练、微调这些工作流程都能跑得又快又便宜。特别是那个最难搞的智能体循环场景,需要同时处理长文本和低延迟,这是现有方案都搞不定的硬骨头。



可拆分脉动阵列:矩阵乘法的终极形态

MatX One的核心武器是一个叫可拆分脉动阵列的东西。这玩意儿听起来像医学名词,实际上是芯片架构里的老派功夫。脉动阵列就像心脏的跳动,数据在里面流动,每个计算单元只做简单的乘法和加法运算,但成千上万个单元一起动起来,处理能力惊人。传统的大脉动阵列效率高得吓人,但有个致命缺点:遇到小矩阵或者形状不规则的矩阵,就像用大炮打蚊子,大部分计算单元都在偷懒。

MatX的创新在于让这个阵列可以拆分。想象一下,你有一个巨大的流水线工厂,平时造汽车时全开,效率很高。但突然来了一批定制摩托车的订单,传统工厂只能硬着头皮用造汽车的流水线造摩托,浪费大量工位。而MatX的工厂可以灵活分区,左边造汽车,右边造摩托,互不干扰,每个工位都满负荷运转。这就是可拆分脉动阵列的魔力,既保留了大规模阵列的能效比,又能灵活应对各种尺寸的矩阵运算。

这个设计对LLM来说非常重要。大语言模型的计算不是均匀的,有时候要处理巨大的权重矩阵,有时候只是简单的向量运算。训练时需要海量并行计算,推理时又要求低延迟响应。MatX One的架构像变形金刚,能根据任务自动调整形态,而不是像英伟达的GPU那样,用一套固定的CUDA核心打天下。Gunter透露,他们的测试显示,MatX One在每平方毫米的性能上能超过英伟达即将推出的Rubin Ultra产品。这个指标听起来很工程化,但翻译成大白话就是:同样大小的芯片,我能算得更多,或者同样算力,我的芯片更小更便宜。



内存架构的炼金术:SRAM的速度加上HBM的容量

现在来到最硬核的部分:内存的协调调度。MatX One要同时使用SRAM和HBM,这不是简单的1加1等于2,而是像把法拉利引擎装进卡车底盘,还要让它既能飙车又能拉货。SRAM是静态随机存取存储器,速度快到纳秒级别,但贵得离谱,占芯片面积大,容量做不大。HBM是高带宽内存,堆叠封装,容量轻松上百GB,但数据得通过硅中介层走一段路,延迟比SRAM高出一个数量级。

现有的解决方案都是选一边站。Cerebras的WSE-3芯片把整个晶圆做成计算单元,SRAM管够,但遇到需要长上下文的任务就没办法了,因为装不下那么多历史记录。英伟达的H100、B200系列HBM堆到192GB,训练千亿参数模型毫无压力,但做推理时,特别是解码阶段,内存带宽成为瓶颈,就像高速公路收费站前排长队,算力再强也发挥不出来。

MatX的解法是把两者打通。芯片上有大块的片上SRAM,紧邻计算单元,处理需要快速响应的推理解码阶段。同时通过高带宽接口连接外部HBM,支持长达百万token的上下文窗口。关键在于调度算法,像交通指挥中心一样,预测哪些数据需要走高速通道,哪些可以走普通道路,让两种内存协同工作,而不是互相打架。Pope说,他们的设计让芯片既有以SRAM为主的方案的延迟表现,又有以HBM为主的方案的容量支持,这是其他家都没做到的。

这个架构对智能体工作流特别友好。想象一个AI助手在帮你写代码,它需要记住你之前写的几千行代码,还要实时响应你的每一个新指令。长文本需要HBM来存储历史,低延迟需要SRAM来快速生成新代码。MatX One声称能同时满足这两个矛盾的需求,而现有的方案要么快但健忘,要么记忆力好但反应迟钝。



数字表示的新玩法:精度与效率的再平衡

除了内存和计算架构,MatX还在数字表示上做了创新。这指的是数字在芯片里的表示方式,听起来很抽象,但直接影响模型的速度和耗电。传统AI训练用FP32,也就是32位浮点数,精度高但占内存大、计算慢。后来大家开始用FP16、BF16,甚至INT8量化,用精度换速度。

MatX搞了一套新的数字格式,细节没完全公开,但暗示是对保护位、舍入位、黏附位这些底层机制的重新设计。这些术语属于计算机算术的深水区,简单来说,就是如何在有限的位数内,既保证计算精度,又减少存储和传输开销。就像用更短的密码传递同样的信息,还得确保不被破解。

这对LLM的推理尤其重要。大模型生成token时,每个计算步骤都涉及大量的矩阵乘法和激活函数。如果能在数字表示上省出几位,累积起来就是巨大的带宽节省和速度提升。MatX声称他们的数字表示方案是全新尝试,意味着可能采用了非标准的浮点格式,或者针对transformer架构做了专门优化。这种底层创新风险很大,因为需要软件栈的完全配合,但一旦成功,就能建立起难以复制的技术护城河。



5亿美元B轮:华尔街赌的是AGI的未来

2025年初,MatX宣布完成5亿美元的B轮融资,估值达到几十亿美元。领投方是Jane Street,这家华尔街量化交易巨头以技术能力强著称,他们的算法每天处理海量金融数据,对计算效率有着近乎偏执的追求。跟投的Situational Awareness LP更值得关注,其创始人是Leopold Aschenbrenner,前OpenAI研究员,写过那份著名的AGI备忘录,预测人工智能将在未来几年内达到超级智能水平。

Aschenbrenner的评价很高,说MatX的芯片特别适合预训练和强化学习,这两种开发AI模型的关键技术。他甚至放话,MatX有成为这一代最重要AI芯片公司的真正机会。这种支持不是客套,而是基于对AGI计算需求的深刻理解。如果未来的AI模型需要持续进行大规模强化学习,在推理时处理超长的思维链,那么现有的硬件架构确实可能遇到瓶颈。

其他投资人名单也是大牌云集。Spark Capital、Daniel Gross和Nat Friedman的基金、Stripe联合创始人Patrick和John Collison、Harpoon Ventures,还有AI界的网红Andrej Karpathy和Dwarkesh Patel。更关键的是供应链上的玩家,Marvell和Alchip也加入了。Marvell是做数据中心芯片互联的大厂,Alchip是台积电的重要合作伙伴,专门做高端芯片设计服务。这些战略投资者的加入,意味着MatX不仅在拿钱,还在锁定制造产能和供应链资源。

Gunter解释说,这笔钱主要用于两方面:一是完成芯片的最终设计,流片计划在一年内完成;二是提前锁定台积电的制造产能和关键零部件供应。AI芯片的制造是场军备竞赛,HBM内存全球缺货,先进制程的晶圆产能紧张。有了这5亿美元,MatX可以像英伟达一样,提前几年预定产能,确保2027年芯片流片后能迅速规模化生产。



100人的全栈军团:从学习率到盲插连接

MatX现在大约有100名员工,正在快速扩张。他们的招聘策略很特别,不追求庞大的销售团队,而是寻找能打通全栈的工程师。在一栋办公楼里,有人研究学习率调度策略,这是训练神经网络时的学习率调整策略;有人在搞摆动模调度,一种优化循环执行的编译器技术;还有人琢磨保护位/舍入位/黏附位,属于浮点运算单元的电路设计细节;甚至有人在设计盲插连接,这是硬件连接器的一种精密装配方式。

这种全栈能力在芯片公司中很罕见。通常硬件团队和软件团队各自为战,架构师不懂编译器,电路设计师不懂机器学习。但MatX要求工程师理解从算法到硅片的整个链条,因为LLM芯片的优化是系统性的。你不能只把某个模块做到极致,而忽视其他部分的瓶颈。就像赛车,引擎再强,轮胎抓地力不够也是白搭。

Pope和Gunter的领导力体现在这种文化塑造上。他们愿意为了LLM性能牺牲其他东西:小模型的运行效率不管了,低吞吐量的应用场景不优化了,甚至编程的易用性也可以妥协。这意味着MatX的芯片可能很难用,需要客户投入大量工程资源做适配。但他们的目标客户很明确:顶级的AI实验室,OpenAI、Anthropic、Google DeepMind这些。这些公司有自己的软件团队,有能力也有动力为专用硬件做优化。只要芯片够快够便宜,难用一点不是问题。



与英伟达的正面交锋:一场不对称战争

说到竞争对手,英伟达是绕不开的大象。这家公司市值4.6万亿美元,数据中心业务收入每季度增长百分之几十,CUDA生态系统根深蒂固。MatX要挑战这样一个巨头,听起来像蚂蚁撼树。但Pope很清醒,他知道不能跟英伟达正面硬刚,必须找到差异化的突破口。

他的策略是聚焦。英伟达的GPU是通用计算平台,游戏、图形、AI、科学计算什么都能干,但这也意味着它在任何单一领域都不是最优解。MatX只做LLM,把所有资源押注在这个赛道上。这种专注带来架构上的自由度,可以大胆舍弃通用性,换取极致的效率。就像特斯拉早期只做电动车,而传统车企要兼顾燃油车,转型包袱沉重。

Pope还提到一个关键洞察:你需要在市场上的五个重要方面匹配现有水平,同时在一个方面遥遥领先。很多创业公司的误区是做最小可行产品,只在一点上领先,其他方面一塌糊涂。这在消费互联网可能行得通,但在硬件市场,客户不会容忍明显的短板。MatX的目标是至少在吞吐量或延迟上大幅领先英伟达,同时在软件生态、可靠性、供应链等方面不落后太多。

这场战争的时间窗口很关键。英伟达的Rubin架构预计2026年发布,MatX One计划2027年出货。如果MatX能在这段时间内证明其架构优势,并建立起初步的客户案例,就有可能在下一代模型训练需求爆发时占据一席之地。但如果英伟达提前推出了类似架构的解决方案,或者MatX的芯片在流片时遇到技术问题,机会窗口就会关闭。



制造地狱:从设计到硅片的生死劫

芯片创业最残酷的部分不是设计,而是制造。MatX One要采用台积电的先进制程,可能是3纳米或更先进的节点。这种制程的流片成本高达几千万美元,而且一旦设计有错误,修改成本和时间代价巨大。Gunter作为硬件负责人,深知其中的风险。

更麻烦的是供应链。HBM内存由SK海力士、三星、美光三家垄断,产能早已被英伟达、AMD、谷歌预订一空。MatX虽然拿到了Marvell和Alchip的投资,有助于锁定部分产能,但跟巨头们比还是弱势。如果2027年HBM供应持续紧张,MatX可能面临有设计没零件的窘境。

还有封装环节。现代AI芯片需要2.5D或3D封装,把计算芯片和HBM芯片堆叠在一起,通过硅中介层互联。这种先进封装的产能同样紧张,台积电的CoWoS产能已经被抢破头。MatX需要确保从设计阶段就考虑封装的可制造性,避免做出工程师满意但工厂造不出来的产品。

Pope对此有心理准备。他说这轮5亿美元融资让他们能跟大公司站在同一起跑线上,快速扩大规模。这种底气来自对供应链的前置锁定,以及对技术风险的充分预估。但芯片行业的规律是,再充分的准备也可能被意外打乱,比如地缘政治导致的出口管制,或者技术路线突变让设计过时。



为什么是现在:Token洪流的商业逻辑

回到文章开头提到的token需求海啸。大语言模型的使用量在爆炸式增长,ChatGPT每天处理的token数可能是千亿级别,而未来的智能体系统可能把这个数字再翻几个数量级。每个token的生成都需要大量的计算和内存访问,这意味着AI基础设施的投入将持续飙升。

MatX的商业逻辑建立在这样一个假设上:现有的硬件架构无法经济高效地满足这种需求增长。英伟达的GPU虽然强大,但成本结构决定了它更适合训练而非大规模推理。随着模型越来越大,推理成本在AI公司总成本中的占比将越来越高,市场需要更专门化的解决方案。

Pope和Gunter赌的是,LLM的架构在未来几年内保持相对稳定,transformer仍是主流,矩阵乘法仍是计算瓶颈。如果突然出现颠覆性的新架构,比如完全不同于transformer的模型,MatX的专用优化可能适得其反。但从目前的技术趋势看,transformer的统治地位短期内难以撼动,这为专用芯片提供了时间窗口。

另一个赌注是智能体AI的兴起。如果未来的AI系统真的像Aschenbrenner预测的那样,能够进行长时间的自主推理,在复杂任务中迭代改进,那么对长文本和低延迟的同时需求将成为常态。这正是MatX One架构最擅长的场景,而英伟达的以HBM为主的方案在长文本上没问题,延迟却受限;Cerebras的以SRAM为主的方案延迟低,但文本长度受限。MatX试图占据这个最佳位置。



结语:硅片上的智能革命

MatX的故事是关于物理极限与工程创新的博弈。在芯片这个领域,从基本原理思考意味着直面晶体管、电容、电阻的物理特性,而不是在软件层面修修补补。Pope和Gunter从谷歌TPU团队出走,带着对LLM计算需求的深刻理解,试图重新定义AI芯片的架构范式。

他们的方案有风险但充满野心:可拆分脉动阵列解决计算效率,SRAM加HBM混合架构解决内存瓶颈,新的数字表示方案压榨每一比特的潜力。5亿美元的资金和顶级投资人的支持,给了他们参与这场游戏的机会。但真正的考验在2027年,当MatX One芯片真正运行时,它能否兑现承诺的吞吐量和延迟,能否在英伟达的阴影下赢得顶级AI实验室的订单。

这不仅是一家公司的命运,也关乎AI发展的基础设施。如果MatX成功,它证明专用架构可以打破通用计算的垄断,为更多垂直领域的芯片创新打开大门。如果失败,它将成为芯片创业墓地中的又一块墓碑,提醒后来者这个行业的残酷。无论如何,这场赌局本身已经足够精彩,值得每一个关心AI未来的人关注。