Cerebras宣布GPT5.5公测计划,X和Reddit技术社区吵翻了


Cerebras CFO官宣内部跑通GPT-5.5并将公测,X和Reddit技术社区炸锅。有人兴奋算速度账,有人冷静质疑SRAM存储极限,还有人翻出CUDA生态老问题。这篇文章带你逛一遍评论区,看看工程师们到底在吵什么。

财务老大一张嘴,技术社区跑断腿

事情得从五月十四号说起。Cerebras的财务老大上了CNBC的节目,说他们正在自己的芯片上跑GPT-5.4和GPT-5.5,这两个模型目前是OpenAI内部用的,很快会对公众发布。

CNBC的主持人把这段采访片段发到了X上,配文写着最大的误解之一,然后引用了财务老大的原话。

这条推文一发出来,X和Reddit两个地方几乎同时炸了。

X上的人反应快,上来就直接开喷或者开吹。Reddit的奇点板块则更技术向,有人开始算存储账、带宽账、上下文窗口账,一算就是几百字的分析帖。

咱们分两个战场,看看大家都在说啥。

X战场:短平快的情绪输出

X上的讨论节奏非常快,每条推文就一两句话,但信息密度不低。

最早冲进来的一个人说,这些几万亿参数、全精度、完整上下文窗口的模型只在内部用,听起来太神话了。

这话说得挺损的。神话这个词用得好,不说你是假的,但说你听起来不像真的。这种说法在X上很常见,阴阳怪气但又不直接撕破脸。

接着,另一个人补了一刀。他说你们没有像CUDA那样的开发生态系统,这就是问题所在。这句话打在了很多人心里的痛点上。Cerebras的硬件再强,软件没人会用,那就是个摆设。

有人更直接,就两个英文单词,说这是谎言。
没有任何解释,没有任何论证,就两个字。这条回复下面还炸出了不少人,有人说终于有人说出真相了,也有人说你倒是说说为什么是谎言。但这个人没再回复,留下一地鸡毛。

也有理性的人提出了一个特别专业的问题。他说Cerebras的推理引擎基于SRAM,而SRAM比GDDR或者HBM容量小很多,到底怎么跑万亿参数模型的?这个问题的专业程度明显上了一个台阶。

SRAM和HBM的区别,不是普通用户能随口说出来的。这说明关注这件事的人里,真有懂硬件的工程师。

X上还有一群人更关心股价和IPO。有人说股票上市后跌了,员工对公司没信心提前抛售。但立刻有人反驳说有锁定期,员工卖不了。还有人补了一句,股价从一百八十五涨到三百多,这叫跌?

X的讨论总结下来就是两极分化。一边说这是革命,一边说这是骗局。中间几乎没有温和派。

Reddit战场:长篇大论的技术拷问

Reddit的奇点板块完全是另一种画风。这个板块全名叫奇点,讨论的是AI超越人类那个终极话题。里面的人普遍偏技术背景,说话喜欢带数据、带链接、带个人经验。

帖子标题写着Cerebras的首席财务官表示他们正在内部芯片上运行GPT5.4和GPT5.5并将很快向公众发布,后面还括了个号写着想象一下这种速度下的智能。

这个帖子下面,评论的深度明显不一样:

有人说:一到十万亿参数模型,每秒处理一万张纸,我们来了。
十万亿参数模型的推理速度能达到每秒一万个Token,这是Cerebras自己宣传过的数字。他用这个数字开玩笑,意思是你们吹的牛如果真的实现了,那确实牛。言下之意是他持观望态度。

也有人发了一段信息量很大的回复:他说作为参考,有另一家公司的芯片,把模型直接捆版的到芯片上,跑Llama算法能达到每秒一万六千Token。Cerebras目前的芯片每秒大概两千Token,但也大约是普通英伟达芯片的三倍
Cerebras处于三者中间。跟普通英伟达比,快三倍;跟最极端的情况比,慢八倍。这是一个很客观的定位。不是最快,但也不是最慢。

也有人提出了上下文窗口的问题:他说问题在于能掌握多少背景Context信息。如果你能让模型以每分钟二十万到三十万字的速度运行,上下文窗口达到一百万个Token,那工作效率会大幅提升。

上下文窗口这个词需要解释一下。模型跟你聊天的时候,需要记住之前说过的话。能记住多少,取决于上下文窗口的大小。窗口越大,模型越不容易失忆。这个人的意思是,光快没用,还得记得住。如果你的上下文窗口太小,聊几句就开始胡言乱语,再快也没有意义。

有人接着说,我觉得一百万上下文窗口有点噱头。任何真正做过智能体工程的人都知道,超过十万Token基本上就算失败。你不会想让模型在那个状态下继续跑的。

智能体工程指的是让AI自己完成任务,不需要人一步步指挥。这种情况下,模型需要记住很长的任务历史。如果窗口不够大,做到一半就忘了前面在干嘛,整个任务就崩了。

有人连忙表示不同意:他说我经常遇到二十五万Token的上下文窗口,这不叫失败。我在做完整的代码库重构,压缩代码很有帮助,Markdown文件也有助于跟踪进度。对我来说,一百万窗口绝对不是噱头,它能把我需要压缩的概率从百分之三十提升到百分之八十。

这两位在“上下文窗口大小”上杠起来了。一个说超过十万就崩,一个说我天天跑二十五万跑得好好的。争论的实质其实是对失败的定义不同。一个觉得任何信息丢失都算失败,一个觉得只要核心信息还在就算成功。

第三位插了一嘴:他说根据我的经验,最近情况有变化。如果你用协调器模式加上子代理和交接文档,五十万Token的窗口也能跑得很好,我主要用于编码。

协调器模式这个概念比较技术。简单说就是一个总指挥AI把任务拆成小块,分给多个小弟AI去做,每个小弟只负责一小块,然后汇总回来。这样每个AI的上下文窗口只需要关注自己的那块任务,整体就能处理更大的工作量。

关于物理限制的争吵

Reddit上最核心的技术争论,还是围绕存储:

有一个人发了一段很长的分析。他说它们可以运行大型模型,只是效率不高。一家分析网站对他们的硬件做了非常深入的评估。他们甚至没有对开放模型做适当的KV缓存,而且他们公开托管过的最大的模型只有三千五百五十亿参数,所以这就是他们的扩展能力。这是隐瞒真相的谎言。

KV缓存又是一个技术词。简单说,模型在生成内容的时候,有些中间计算结果可以存起来复用,不用每次都重新算。KV缓存优化得好,速度能快很多。这个人的意思是,Cerebras连这个基础优化都没做好,说明他们的软件栈还很粗糙。

还有一个关键信息:他们公开托管过的最大模型只有三千五百五十亿参数。离万亿差着将近三倍。这个人用这个数据暗示,所谓的万亿模型可能只存在于PPT里。

另一个人帮Cerebras说了句话。他说那家分析网站也可能出错,他们只是在做外部推测。

第一个人回了一句,他们是极其精明的投机者。这个词用得很有意思。投机者不是骗子,而是基于现有信息做推演的人。他承认那家网站的推测有道理,但不等于事实。

关于IPO和股价的讨论

Reddit上还有一波人在讨论股价:

有人说股票上市后不久就暴跌了,估计是员工对公司没信心提前抛售。

立刻有人反驳,说发行价一百一十五,最后一刻提高到一百八十五,现在交易价格在三百左右。

第三个人补了一句,员工通常有锁定期,至少六个月不能卖。

第四个人说是银行的错,机构投资者和员工都被套牢了,他们定价错误。

第五个人说得更直接,这种情况几乎发生在所有IPO股票上,跟员工抛售无关,员工抛售实际上不合法。那些笃信阴谋论的人,几乎总是严重缺乏信息。

这段争论其实是在说两件不同的事。股价波动到底是市场行为还是内部人行为,两边都没拿出确凿证据,但语气都很肯定。

为什么要关注这些社区讨论

你可能想问,这些人在网上吵来吵去,有什么意义?

意义在于,他们是真正会用这个技术的人。

X上的工程师、Reddit上的开发者,这些人是AI芯片的最终用户。他们不是财务分析师,不是记者,不是散户投资人。他们不在乎股价涨跌,不在乎IPO规模,只在乎一个东西:这东西能不能用,好不好用。

当他们集中在两个问题上反复质疑的时候,这两个问题就是真正的风险点。

  • 第一个是存储。SRAM容量够不够,芯片间互联能不能支撑万亿模型。
  • 第二个是生态。有没有CUDA那样的开发工具,有没有足够的库和框架,有没有社区支持。
第二个问题其实是一个伪问题,CUDA生态是英伟达成功的伪原因,其实背后是OpenAI的捆绑支持,没有最大一家前沿AI公司支持,再有广大群众基础也没有用,领头羊是在探索未知世界,将未知的存在命名成概念世界,这是道生1,无到有,0到1的关键点切换,只要你的芯片被OpenAI验证,你就是未来,到了未来再看过去,你就是生态。

总之,真理永远掌握在让不可知的物自体变得可知的人手里,股票投资暴利也是藏在这些人所做的事情里。