5亿造SRAM+HBM推理芯片：MatX成本革命直击英伟达命门！

#AI基础设施 #芯片半导体 #AI投资新闻

2026-02-25 1 7K banq

AI芯片战场迎来新玩家，MatX用5亿美元押注能同时驾驭高速缓存SRAM与大容量内存HBM的终极方案，目标直指英伟达霸主地位。

想象一下你在玩游戏。电脑里其实有两个存东西的地方：
第一个在CPU旁边，叫“口袋”SRAM。它的速度飞快，你伸手就能拿到里面的东西，但容量极小，就够放两三样。
第二个在主板上，叫“图书馆”HBM。它容量巨大，能放下整个世界，但你要拿本书得先穿过整个城市去借，慢得让人着急。

这就是当下AI芯片界最大的两难困境，一个让无数工程师掉头发的终极难题。

MatX这家公司看透了这个问题。他们发现，现在的AI芯片市场分裂成了两个阵营。
一边是英伟达这种HBM派，靠着高带宽内存堆容量，训练大模型时气势很足，但处理单个用户请求时就像大象跳芭蕾，又笨重又费电。
另一边是Cerebras这种SRAM派，把计算单元旁边塞满超高速缓存，推理速度快得像闪电，但遇到长文本就没办法了，像跑车开到了泥地上，油门踩到底也跑不动。

MatX说，小孩子才做选择，成年人全都要。他们要做一颗既能飙车又能拉货的芯片，让两个池子的水自由流动，而不是让用户在速度和容量之间反复纠结。

创始人的出走：从谷歌TPU团队到创业赌局

故事得从两个谷歌工程师说起。Reiner Pope和Mike Gunter，这俩人之前在谷歌搞TPU，就是那个让AlphaGo打败李世石的神奇芯片。Pope搞软件，Gunter搞硬件，天天跟硅片打交道，看着谷歌内部的AI模型越来越庞大，芯片却越来越力不从心。2022年，他俩一合计，决定不干这打工人的活了，要出来干一票大的。他们的目标很明确：从零开始设计一颗专门为LLM而生的芯片，不搞那些花里胡哨的通用计算，就死磕大语言模型。

这个决定在当时看起来有点疯狂。毕竟英伟达已经统治了AI芯片市场，市值飙到4.6万亿美元，黄仁勋的皮衣都换了好几套。但Pope和Gunter看到了一个不容易发现的限制条件。他们发现，芯片制造工艺决定了内存和计算单元必须物理上分开，就像你没办法把游泳池建在跑步机上一样。SRAM和DRAM是两种完全不同的物理实现方式，一个用晶体管做存储单元，一个用电容，工艺路线完全不同。这意味着你不能简单地把它们缝在一起，得像指挥交响乐一样，让每个声部在正确的时间响起。

于是MatX诞生了。这个名字听起来像数学考试里的矩阵运算，实际上也确实跟矩阵乘法有关。他们的第一颗芯片叫MatX One，名字很朴实，但野心巨大。这颗芯片要解决的问题，被Pope称为当今最有趣的智力谜题：如何在物理限制下，协调好内存和计算的最优组合，让LLM的推理预填充、解码、训练、微调这些工作流程都能跑得又快又便宜。特别是那个最难搞的智能体循环场景，需要同时处理长文本和低延迟，这是现有方案都搞不定的硬骨头。

可拆分脉动阵列：矩阵乘法的终极形态

MatX One的核心武器是一个叫可拆分脉动阵列的东西。这玩意儿听起来像医学名词，实际上是芯片架构里的老派功夫。脉动阵列就像心脏的跳动，数据在里面流动，每个计算单元只做简单的乘法和加法运算，但成千上万个单元一起动起来，处理能力惊人。传统的大脉动阵列效率高得吓人，但有个致命缺点：遇到小矩阵或者形状不规则的矩阵，就像用大炮打蚊子，大部分计算单元都在偷懒。

MatX的创新在于让这个阵列可以拆分。想象一下，你有一个巨大的流水线工厂，平时造汽车时全开，效率很高。但突然来了一批定制摩托车的订单，传统工厂只能硬着头皮用造汽车的流水线造摩托，浪费大量工位。而MatX的工厂可以灵活分区，左边造汽车，右边造摩托，互不干扰，每个工位都满负荷运转。这就是可拆分脉动阵列的魔力，既保留了大规模阵列的能效比，又能灵活应对各种尺寸的矩阵运算。

这个设计对LLM来说非常重要。大语言模型的计算不是均匀的，有时候要处理巨大的权重矩阵，有时候只是简单的向量运算。训练时需要海量并行计算，推理时又要求低延迟响应。MatX One的架构像变形金刚，能根据任务自动调整形态，而不是像英伟达的GPU那样，用一套固定的CUDA核心打天下。Gunter透露，他们的测试显示，MatX One在每平方毫米的性能上能超过英伟达即将推出的Rubin Ultra产品。这个指标听起来很工程化，但翻译成大白话就是：同样大小的芯片，我能算得更多，或者同样算力，我的芯片更小更便宜。

内存架构的炼金术：SRAM的速度加上HBM的容量

现在来到最硬核的部分：内存的协调调度。MatX One要同时使用SRAM和HBM，这不是简单的1加1等于2，而是像把法拉利引擎装进卡车底盘，还要让它既能飙车又能拉货。SRAM是静态随机存取存储器，速度快到纳秒级别，但贵得离谱，占芯片面积大，容量做不大。HBM是高带宽内存，堆叠封装，容量轻松上百GB，但数据得通过硅中介层走一段路，延迟比SRAM高出一个数量级。

现有的解决方案都是选一边站。Cerebras的WSE-3芯片把整个晶圆做成计算单元，SRAM管够，但遇到需要长上下文的任务就没办法了，因为装不下那么多历史记录。英伟达的H100、B200系列HBM堆到192GB，训练千亿参数模型毫无压力，但做推理时，特别是解码阶段，内存带宽成为瓶颈，就像高速公路收费站前排长队，算力再强也发挥不出来。

MatX的解法是把两者打通。芯片上有大块的片上SRAM，紧邻计算单元，处理需要快速响应的推理解码阶段。同时通过高带宽接口连接外部HBM，支持长达百万token的上下文窗口。关键在于调度算法，像交通指挥中心一样，预测哪些数据需要走高速通道，哪些可以走普通道路，让两种内存协同工作，而不是互相打架。Pope说，他们的设计让芯片既有以SRAM为主的方案的延迟表现，又有以HBM为主的方案的容量支持，这是其他家都没做到的。

这个架构对智能体工作流特别友好。想象一个AI助手在帮你写代码，它需要记住你之前写的几千行代码，还要实时响应你的每一个新指令。长文本需要HBM来存储历史，低延迟需要SRAM来快速生成新代码。MatX One声称能同时满足这两个矛盾的需求，而现有的方案要么快但健忘，要么记忆力好但反应迟钝。

数字表示的新玩法：精度与效率的再平衡

除了内存和计算架构，MatX还在数字表示上做了创新。这指的是数字在芯片里的表示方式，听起来很抽象，但直接影响模型的速度和耗电。传统AI训练用FP32，也就是32位浮点数，精度高但占内存大、计算慢。后来大家开始用FP16、BF16，甚至INT8量化，用精度换速度。

MatX搞了一套新的数字格式，细节没完全公开，但暗示是对保护位、舍入位、黏附位这些底层机制的重新设计。这些术语属于计算机算术的深水区，简单来说，就是如何在有限的位数内，既保证计算精度，又减少存储和传输开销。就像用更短的密码传递同样的信息，还得确保不被破解。

这对LLM的推理尤其重要。大模型生成token时，每个计算步骤都涉及大量的矩阵乘法和激活函数。如果能在数字表示上省出几位，累积起来就是巨大的带宽节省和速度提升。MatX声称他们的数字表示方案是全新尝试，意味着可能采用了非标准的浮点格式，或者针对transformer架构做了专门优化。这种底层创新风险很大，因为需要软件栈的完全配合，但一旦成功，就能建立起难以复制的技术护城河。

5亿美元B轮：华尔街赌的是AGI的未来

2025年初，MatX宣布完成5亿美元的B轮融资，估值达到几十亿美元。领投方是Jane Street，这家华尔街量化交易巨头以技术能力强著称，他们的算法每天处理海量金融数据，对计算效率有着近乎偏执的追求。跟投的Situational Awareness LP更值得关注，其创始人是Leopold Aschenbrenner，前OpenAI研究员，写过那份著名的AGI备忘录，预测人工智能将在未来几年内达到超级智能水平。

Aschenbrenner的评价很高，说MatX的芯片特别适合预训练和强化学习，这两种开发AI模型的关键技术。他甚至放话，MatX有成为这一代最重要AI芯片公司的真正机会。这种支持不是客套，而是基于对AGI计算需求的深刻理解。如果未来的AI模型需要持续进行大规模强化学习，在推理时处理超长的思维链，那么现有的硬件架构确实可能遇到瓶颈。

其他投资人名单也是大牌云集。Spark Capital、Daniel Gross和Nat Friedman的基金、Stripe联合创始人Patrick和John Collison、Harpoon Ventures，还有AI界的网红Andrej Karpathy和Dwarkesh Patel。更关键的是供应链上的玩家，Marvell和Alchip也加入了。Marvell是做数据中心芯片互联的大厂，Alchip是台积电的重要合作伙伴，专门做高端芯片设计服务。这些战略投资者的加入，意味着MatX不仅在拿钱，还在锁定制造产能和供应链资源。

Gunter解释说，这笔钱主要用于两方面：一是完成芯片的最终设计，流片计划在一年内完成；二是提前锁定台积电的制造产能和关键零部件供应。AI芯片的制造是场军备竞赛，HBM内存全球缺货，先进制程的晶圆产能紧张。有了这5亿美元，MatX可以像英伟达一样，提前几年预定产能，确保2027年芯片流片后能迅速规模化生产。

100人的全栈军团：从学习率到盲插连接

MatX现在大约有100名员工，正在快速扩张。他们的招聘策略很特别，不追求庞大的销售团队，而是寻找能打通全栈的工程师。在一栋办公楼里，有人研究学习率调度策略，这是训练神经网络时的学习率调整策略；有人在搞摆动模调度，一种优化循环执行的编译器技术；还有人琢磨保护位/舍入位/黏附位，属于浮点运算单元的电路设计细节；甚至有人在设计盲插连接，这是硬件连接器的一种精密装配方式。

这种全栈能力在芯片公司中很罕见。通常硬件团队和软件团队各自为战，架构师不懂编译器，电路设计师不懂机器学习。但MatX要求工程师理解从算法到硅片的整个链条，因为LLM芯片的优化是系统性的。你不能只把某个模块做到极致，而忽视其他部分的瓶颈。就像赛车，引擎再强，轮胎抓地力不够也是白搭。

Pope和Gunter的领导力体现在这种文化塑造上。他们愿意为了LLM性能牺牲其他东西：小模型的运行效率不管了，低吞吐量的应用场景不优化了，甚至编程的易用性也可以妥协。这意味着MatX的芯片可能很难用，需要客户投入大量工程资源做适配。但他们的目标客户很明确：顶级的AI实验室，OpenAI、Anthropic、Google DeepMind这些。这些公司有自己的软件团队，有能力也有动力为专用硬件做优化。只要芯片够快够便宜，难用一点不是问题。

与英伟达的正面交锋：一场不对称战争

说到竞争对手，英伟达是绕不开的大象。这家公司市值4.6万亿美元，数据中心业务收入每季度增长百分之几十，CUDA生态系统根深蒂固。MatX要挑战这样一个巨头，听起来像蚂蚁撼树。但Pope很清醒，他知道不能跟英伟达正面硬刚，必须找到差异化的突破口。

他的策略是聚焦。英伟达的GPU是通用计算平台，游戏、图形、AI、科学计算什么都能干，但这也意味着它在任何单一领域都不是最优解。MatX只做LLM，把所有资源押注在这个赛道上。这种专注带来架构上的自由度，可以大胆舍弃通用性，换取极致的效率。就像特斯拉早期只做电动车，而传统车企要兼顾燃油车，转型包袱沉重。

Pope还提到一个关键洞察：你需要在市场上的五个重要方面匹配现有水平，同时在一个方面遥遥领先。很多创业公司的误区是做最小可行产品，只在一点上领先，其他方面一塌糊涂。这在消费互联网可能行得通，但在硬件市场，客户不会容忍明显的短板。MatX的目标是至少在吞吐量或延迟上大幅领先英伟达，同时在软件生态、可靠性、供应链等方面不落后太多。

这场战争的时间窗口很关键。英伟达的Rubin架构预计2026年发布，MatX One计划2027年出货。如果MatX能在这段时间内证明其架构优势，并建立起初步的客户案例，就有可能在下一代模型训练需求爆发时占据一席之地。但如果英伟达提前推出了类似架构的解决方案，或者MatX的芯片在流片时遇到技术问题，机会窗口就会关闭。

制造地狱：从设计到硅片的生死劫

芯片创业最残酷的部分不是设计，而是制造。MatX One要采用台积电的先进制程，可能是3纳米或更先进的节点。这种制程的流片成本高达几千万美元，而且一旦设计有错误，修改成本和时间代价巨大。Gunter作为硬件负责人，深知其中的风险。

更麻烦的是供应链。HBM内存由SK海力士、三星、美光三家垄断，产能早已被英伟达、AMD、谷歌预订一空。MatX虽然拿到了Marvell和Alchip的投资，有助于锁定部分产能，但跟巨头们比还是弱势。如果2027年HBM供应持续紧张，MatX可能面临有设计没零件的窘境。

还有封装环节。现代AI芯片需要2.5D或3D封装，把计算芯片和HBM芯片堆叠在一起，通过硅中介层互联。这种先进封装的产能同样紧张，台积电的CoWoS产能已经被抢破头。MatX需要确保从设计阶段就考虑封装的可制造性，避免做出工程师满意但工厂造不出来的产品。

Pope对此有心理准备。他说这轮5亿美元融资让他们能跟大公司站在同一起跑线上，快速扩大规模。这种底气来自对供应链的前置锁定，以及对技术风险的充分预估。但芯片行业的规律是，再充分的准备也可能被意外打乱，比如地缘政治导致的出口管制，或者技术路线突变让设计过时。

为什么是现在：Token洪流的商业逻辑

回到文章开头提到的token需求海啸。大语言模型的使用量在爆炸式增长，ChatGPT每天处理的token数可能是千亿级别，而未来的智能体系统可能把这个数字再翻几个数量级。每个token的生成都需要大量的计算和内存访问，这意味着AI基础设施的投入将持续飙升。

MatX的商业逻辑建立在这样一个假设上：现有的硬件架构无法经济高效地满足这种需求增长。英伟达的GPU虽然强大，但成本结构决定了它更适合训练而非大规模推理。随着模型越来越大，推理成本在AI公司总成本中的占比将越来越高，市场需要更专门化的解决方案。

Pope和Gunter赌的是，LLM的架构在未来几年内保持相对稳定，transformer仍是主流，矩阵乘法仍是计算瓶颈。如果突然出现颠覆性的新架构，比如完全不同于transformer的模型，MatX的专用优化可能适得其反。但从目前的技术趋势看，transformer的统治地位短期内难以撼动，这为专用芯片提供了时间窗口。

另一个赌注是智能体AI的兴起。如果未来的AI系统真的像Aschenbrenner预测的那样，能够进行长时间的自主推理，在复杂任务中迭代改进，那么对长文本和低延迟的同时需求将成为常态。这正是MatX One架构最擅长的场景，而英伟达的以HBM为主的方案在长文本上没问题，延迟却受限；Cerebras的以SRAM为主的方案延迟低，但文本长度受限。MatX试图占据这个最佳位置。

结语：硅片上的智能革命

MatX的故事是关于物理极限与工程创新的博弈。在芯片这个领域，从基本原理思考意味着直面晶体管、电容、电阻的物理特性，而不是在软件层面修修补补。Pope和Gunter从谷歌TPU团队出走，带着对LLM计算需求的深刻理解，试图重新定义AI芯片的架构范式。

他们的方案有风险但充满野心：可拆分脉动阵列解决计算效率，SRAM加HBM混合架构解决内存瓶颈，新的数字表示方案压榨每一比特的潜力。5亿美元的资金和顶级投资人的支持，给了他们参与这场游戏的机会。但真正的考验在2027年，当MatX One芯片真正运行时，它能否兑现承诺的吞吐量和延迟，能否在英伟达的阴影下赢得顶级AI实验室的订单。

这不仅是一家公司的命运，也关乎AI发展的基础设施。如果MatX成功，它证明专用架构可以打破通用计算的垄断，为更多垂直领域的芯片创新打开大门。如果失败，它将成为芯片创业墓地中的又一块墓碑，提醒后来者这个行业的残酷。无论如何，这场赌局本身已经足够精彩，值得每一个关心AI未来的人关注。