OpenAI与博通打造“下一代AI芯片”:覆盖大模型训练推理全流程

关于OpenAI即将推出的定制芯片,一个常见的误解是,这些ASIC定制芯片并不具备GPU通用性和灵活性,也许这些芯片只能作为数据流机器使用,类似TPU那种只能干专门任务的芯片。

OpenAI已经意识到,训练和推理效率提升100倍的关键在于算法层,因此硬件芯片需要足够灵活,以适应这些算法的变更。

OpenAI的目标不是做一个“一次性模具”,而是打造一把为AI领域量身定做、可以变换各种招式的“瑞士军刀”。

当前AI大模型已经从最初的Transformer模型预训练发展到现在对Transformer模型进行强化学习后训练。

也已经从密集Transformer模型发展到MoE Transformer模型,很快又发展到超稀疏Transformer模型,每个Token只有4个活跃专家,总共2048个专家。

同时也从因果MHA注意力机制发展到MQA、GQA、注意力接收器滑动注意力机制,现在甚至还学习了稀疏注意力机制。

OpenAI 与博通合作开发的芯片将比 TPU 灵活得多,虽然OpenAI 芯片团队的大部分成员都是从谷歌的 TPU 团队挖来的。

当然,理想很美妙,能够打造全流程通用芯片未尝不是好事,但是可能带来扩展墙,因为只有乐高积木的堆积才能扩展,多个TPU专用芯片组合在一起,根据场景context不同采取不同组合模式,没有一件衣服适合所有人,也许只有掌握软件设计规律的人才发现其中奥秘。

极客辣评:
OpenAI 与博通合作的内部加速器项目真实存在,规模庞大,采用台积电 3 纳米制程工艺,计划于 2026 年左右进行内部部署。

公开报道显示,该加速器采用脉动阵列架构,配备 HBM 显存和强大的网络功能,其性能与英伟达 GPU 和 TPU 大致相当,而非像 Groq 或 SambaNova 那样高度刚性的数据流引擎。

这款新设备是博通面向超大规模数据中心定制的“XPU”产品线的一部分。

然而,目前尚未披露详细的指令集架构 (ISA)、编程模型或基准测试数据,因此“比 TPU 灵活得多”的说法仍只是推测,而非事实。

虽然有大量前谷歌 TPU 工程师(包括高级架构师)加入 OpenAI 已有相关记录,但“OpenAI 芯片团队的大部分成员都来自 TPU 团队”这一说法尚无法量化验证。