OpenAI豪掷100亿美元押注Cerebras,只为让ChatGPT快到飞起!


OpenAI与Cerebras达成三年超750兆瓦算力采购协议,价值超100亿美元,旨在突破Nvidia GPU瓶颈,实现推理速度5至20倍跃升,不仅优化用户体验,更可能支撑新一代长时自主编码AI系统。

ChatGPT如今每周服务9亿用户,背后是海量推理请求的洪流。但问题来了——主流依赖的英伟达GPU不仅价格高企、供应紧张,更在推理场景中遭遇“内存墙”瓶颈:数据在芯片内外反复搬运,拖慢响应速度。用户等得越久,体验越差,商业转化率也越低。OpenAI显然不能坐以待毙。

于是,一场颠覆性合作悄然落地:向Cerebras Systems签下高达750兆瓦的三年算力订单,总价值超100亿美元。这不是小打小闹,而是对整个AI基础设施格局的重新洗牌。

Cerebras的杀手锏在于其“晶圆级引擎”(Wafer Scale Engine)架构。传统GPU由多个小芯片拼接而成,而Cerebras直接把整张12英寸晶圆做成一块巨型芯片——面积达46,225平方毫米,集成2.6万亿晶体管,拥有85万个AI优化核心。所有计算单元和内存都在同一平面上,彻底消除数据搬运延迟。

这种设计在推理任务中优势爆炸:实测生成速度可达每秒3000+个token,而英伟达顶级H100仅约650 token/秒,差距近5倍;在特定结构化负载下,甚至飙出20倍性能。这意味着用户提问后几乎“秒回”,不再是“正在思考……”的焦虑等待。

速度提升带来的不仅是流畅感,更是商业模式的重构。Sam Altman在官宣后迅速发推:“very fast Codex coming”——这绝非偶然。Codex是GitHub Copilot背后的代码生成模型,若推理成本骤降、响应速度飙升,OpenAI完全可能推出支持长时间运行、多步骤推理、自动调试与部署的“自主编程代理”。

这类系统不再只是补全一行代码,而是能理解需求、规划架构、编写模块、测试修复,甚至与人类开发者协同迭代。而这一切的前提,是底层必须有足够廉价、稳定、高速的推理算力支撑。Cerebras恰好填补了这一空白。

更深远的战略意义在于打破垄断。

过去几年,AI训练与推理几乎被英伟达GPU“锁死”,厂商议价能力极强,交货周期长,价格居高不下。OpenAI此举联合AMD、SK海力士等多元供应商,构建去中心化算力网络,既保障供应链安全,又倒逼技术竞争。Cerebras借此获得百亿美元级背书,从边缘玩家一跃成为主流基础设施提供商,IPO前景明朗。而整个行业也将受益于更高效、更低成本的芯片选择,推动AI应用从“能用”走向“好用”乃至“无感融入”。

值得注意的是,Cerebras并非万能解药。其晶圆级芯片制造良率挑战大,生态工具链远不如CUDA成熟,且主要优势集中在推理而非训练。但OpenAI显然已将重心转向推理优化——毕竟,99%的用户交互发生在推理阶段。通过专用硬件加速高频、低延迟的生成任务,再配合软件层调度(如推测解码、KV缓存压缩),整体系统效率可实现指数级提升。

从用户体验看,更快的响应意味着更高的留存与互动频次。AI不仅能实时生成整段代码,还能在你敲键盘时同步预判下一步操作,甚至主动提出优化建议——这种“思维同步”感,只有在毫秒级延迟下才可能实现。而Cerebras提供的正是通往这一未来的高速公路。OpenAI的这笔投资,表面是买算力,实则是买时间、买体验、买下一代AI工作流的入场券。

长远来看,这场合作标志着AI基础设施进入“百花齐放”阶段。Groq、SambaNova、Tenstorrent等专用芯片厂商也将加速崛起,英伟达虽仍主导训练市场,但在推理端的护城河正被快速侵蚀。对开发者而言,这意味着更多选择、更低门槛;对企业而言,意味着可定制化更强的AI部署方案;对普通用户而言,则是更智能、更自然、更“隐形”的AI助手。技术民主化的浪潮,正从算力底层开始涌动。