AI基础设施、芯片和机器人

Cerebras宣布GPT5.5公测计划，X和Reddit技术社区吵翻了

#AI基础设施 #AI投资新闻 #ChatGPT等OpenAI技术 #芯片半导体

2026-05-18 4K banq

Cerebras CFO官宣内部跑通GPT-5.5并将公测，X和Reddit技术社区炸锅。有人兴奋算速度账，有人冷静质疑SRAM存储极限，还有人翻出CUDA生态老问题。这篇文章带你逛一遍评论区，看看工程师们到底在吵什么。

财务老大一张嘴，技术社区跑断腿

事情得从五月十四号说起。Cerebras的财务老大上了CNBC的节目，说他们正在自己的芯片上跑GPT-5.4和GPT-5.5，这两个模型目前是OpenAI内部用的，很快会对公众发布。

CNBC的主持人把这段采访片段发到了X上，配文写着最大的误解之一，然后引用了财务老大的原话。

这条推文一发出来，X和Reddit两个地方几乎同时炸了。

X上的人反应快，上来就直接开喷或者开吹。Reddit的奇点板块则更技术向，有人开始算存储账、带宽账、上下文窗口账，一算就是几百字的分析帖。

咱们分两个战场，看看大家都在说啥。

X战场：短平快的情绪输出

X上的讨论节奏非常快，每条推文就一两句话，但信息密度不低。

最早冲进来的一个人说，这些几万亿参数、全精度、完整上下文窗口的模型只在内部用，听起来太神话了。

这话说得挺损的。神话这个词用得好，不说你是假的，但说你听起来不像真的。这种说法在X上很常见，阴阳怪气但又不直接撕破脸。

接着，另一个人补了一刀。他说你们没有像CUDA那样的开发生态系统，这就是问题所在。这句话打在了很多人心里的痛点上。Cerebras的硬件再强，软件没人会用，那就是个摆设。

有人更直接，就两个英文单词，说这是谎言。
没有任何解释，没有任何论证，就两个字。这条回复下面还炸出了不少人，有人说终于有人说出真相了，也有人说你倒是说说为什么是谎言。但这个人没再回复，留下一地鸡毛。

也有理性的人提出了一个特别专业的问题。他说Cerebras的推理引擎基于SRAM，而SRAM比GDDR或者HBM容量小很多，到底怎么跑万亿参数模型的？这个问题的专业程度明显上了一个台阶。

SRAM和HBM的区别，不是普通用户能随口说出来的。这说明关注这件事的人里，真有懂硬件的工程师。

X上还有一群人更关心股价和IPO。有人说股票上市后跌了，员工对公司没信心提前抛售。但立刻有人反驳说有锁定期，员工卖不了。还有人补了一句，股价从一百八十五涨到三百多，这叫跌？

X的讨论总结下来就是两极分化。一边说这是革命，一边说这是骗局。中间几乎没有温和派。

Reddit战场：长篇大论的技术拷问

Reddit的奇点板块完全是另一种画风。这个板块全名叫奇点，讨论的是AI超越人类那个终极话题。里面的人普遍偏技术背景，说话喜欢带数据、带链接、带个人经验。

帖子标题写着Cerebras的首席财务官表示他们正在内部芯片上运行GPT5.4和GPT5.5并将很快向公众发布，后面还括了个号写着想象一下这种速度下的智能。

这个帖子下面，评论的深度明显不一样：

有人说：一到十万亿参数模型，每秒处理一万张纸，我们来了。
十万亿参数模型的推理速度能达到每秒一万个Token，这是Cerebras自己宣传过的数字。他用这个数字开玩笑，意思是你们吹的牛如果真的实现了，那确实牛。言下之意是他持观望态度。

也有人发了一段信息量很大的回复：他说作为参考，有另一家公司的芯片，把模型直接捆版的到芯片上，跑Llama算法能达到每秒一万六千Token。Cerebras目前的芯片每秒大概两千Token，但也大约是普通英伟达芯片的三倍。
Cerebras处于三者中间。跟普通英伟达比，快三倍；跟最极端的情况比，慢八倍。这是一个很客观的定位。不是最快，但也不是最慢。

也有人提出了上下文窗口的问题：他说问题在于能掌握多少背景Context信息。如果你能让模型以每分钟二十万到三十万字的速度运行，上下文窗口达到一百万个Token，那工作效率会大幅提升。

上下文窗口这个词需要解释一下。模型跟你聊天的时候，需要记住之前说过的话。能记住多少，取决于上下文窗口的大小。窗口越大，模型越不容易失忆。这个人的意思是，光快没用，还得记得住。如果你的上下文窗口太小，聊几句就开始胡言乱语，再快也没有意义。

有人接着说，我觉得一百万上下文窗口有点噱头。任何真正做过智能体工程的人都知道，超过十万Token基本上就算失败。你不会想让模型在那个状态下继续跑的。

智能体工程指的是让AI自己完成任务，不需要人一步步指挥。这种情况下，模型需要记住很长的任务历史。如果窗口不够大，做到一半就忘了前面在干嘛，整个任务就崩了。

有人连忙表示不同意：他说我经常遇到二十五万Token的上下文窗口，这不叫失败。我在做完整的代码库重构，压缩代码很有帮助，Markdown文件也有助于跟踪进度。对我来说，一百万窗口绝对不是噱头，它能把我需要压缩的概率从百分之三十提升到百分之八十。

这两位在“上下文窗口大小”上杠起来了。一个说超过十万就崩，一个说我天天跑二十五万跑得好好的。争论的实质其实是对失败的定义不同。一个觉得任何信息丢失都算失败，一个觉得只要核心信息还在就算成功。

第三位插了一嘴：他说根据我的经验，最近情况有变化。如果你用协调器模式加上子代理和交接文档，五十万Token的窗口也能跑得很好，我主要用于编码。

协调器模式这个概念比较技术。简单说就是一个总指挥AI把任务拆成小块，分给多个小弟AI去做，每个小弟只负责一小块，然后汇总回来。这样每个AI的上下文窗口只需要关注自己的那块任务，整体就能处理更大的工作量。

关于物理限制的争吵

Reddit上最核心的技术争论，还是围绕存储：

有一个人发了一段很长的分析。他说它们可以运行大型模型，只是效率不高。一家分析网站对他们的硬件做了非常深入的评估。他们甚至没有对开放模型做适当的KV缓存，而且他们公开托管过的最大的模型只有三千五百五十亿参数，所以这就是他们的扩展能力。这是隐瞒真相的谎言。

KV缓存又是一个技术词。简单说，模型在生成内容的时候，有些中间计算结果可以存起来复用，不用每次都重新算。KV缓存优化得好，速度能快很多。这个人的意思是，Cerebras连这个基础优化都没做好，说明他们的软件栈还很粗糙。

还有一个关键信息：他们公开托管过的最大模型只有三千五百五十亿参数。离万亿差着将近三倍。这个人用这个数据暗示，所谓的万亿模型可能只存在于PPT里。

另一个人帮Cerebras说了句话。他说那家分析网站也可能出错，他们只是在做外部推测。

第一个人回了一句，他们是极其精明的投机者。这个词用得很有意思。投机者不是骗子，而是基于现有信息做推演的人。他承认那家网站的推测有道理，但不等于事实。

关于IPO和股价的讨论

Reddit上还有一波人在讨论股价：

有人说股票上市后不久就暴跌了，估计是员工对公司没信心提前抛售。

立刻有人反驳，说发行价一百一十五，最后一刻提高到一百八十五，现在交易价格在三百左右。

第三个人补了一句，员工通常有锁定期，至少六个月不能卖。

第四个人说是银行的错，机构投资者和员工都被套牢了，他们定价错误。

第五个人说得更直接，这种情况几乎发生在所有IPO股票上，跟员工抛售无关，员工抛售实际上不合法。那些笃信阴谋论的人，几乎总是严重缺乏信息。

这段争论其实是在说两件不同的事。股价波动到底是市场行为还是内部人行为，两边都没拿出确凿证据，但语气都很肯定。

为什么要关注这些社区讨论

你可能想问，这些人在网上吵来吵去，有什么意义？

意义在于，他们是真正会用这个技术的人。

X上的工程师、Reddit上的开发者，这些人是AI芯片的最终用户。他们不是财务分析师，不是记者，不是散户投资人。他们不在乎股价涨跌，不在乎IPO规模，只在乎一个东西：这东西能不能用，好不好用。

当他们集中在两个问题上反复质疑的时候，这两个问题就是真正的风险点。

第一个是存储。SRAM容量够不够，芯片间互联能不能支撑万亿模型。
第二个是生态。有没有CUDA那样的开发工具，有没有足够的库和框架，有没有社区支持。

第二个问题其实是一个伪问题，CUDA生态是英伟达成功的伪原因，其实背后是OpenAI的捆绑支持，没有最大一家前沿AI公司支持，再有广大群众基础也没有用，领头羊是在探索未知世界，将未知的存在命名成概念世界，这是道生1，无到有，0到1的关键点切换，只要你的芯片被OpenAI验证，你就是未来，到了未来再看过去，你就是生态。

总之，真理永远掌握在让不可知的物自体变得可知的人手里，股票投资暴利也是藏在这些人所做的事情里。