锯齿AGI:o3、Gemini 2.5之后一切

现在AI发展得特别火对吧?但有个挺吓人的事儿——咱到现在都不知道该怎么判断这些AI到底有多聪明、多有创意或者多会共情。为啥呢?因为现在用的测试方法全是照着人类标准设计的,本来就不适合测AI。

最近我们还发现,就算改改题目的说法,AI的考试成绩都能差出十万八千里。就连大名鼎鼎的"图灵测试"(就是让人跟AI聊天猜谁是机器那个),最早也就是个理论设想,当时觉得根本不可能实现。结果现在有新论文说AI已经通过了,但我们压根说不清这到底代表啥。

所以说到"通用人工智能"(AGI)这个终极目标就更乱套了。虽然大家都同意AGI得能像人一样干活,但具体要像专家还是普通人?要会干多少种活?根本吵不出结果。

因为定义太模糊,我干脆让AI自己来研究这个问题——让Google深度研究整了份26页报告,又用HeyGen做成视频播客,里面AI生成的主持人和AI生成的我辩论得还挺像那么回事(虽然不完全同意"AI版我"的观点)。

这时候经济学家Tyler Cowen突然跳出来说:"OpenAI新出的o3就是AGI!"他为啥这么说呢?

最近谷歌发了Gemini 2.5 Pro,OpenAI出了o3,这些新模型确实猛。但光看跑分没意思,我举个例子:一年前让ChatGPT-4给新奶酪店想广告词,它还能应付。现在让o3干个更复杂的活——不仅要给邮购奶酪店想20个广告词、选最佳方案,还得做财务计划、分析竞争对手、设计logo、搭网站...结果不到两分钟全搞定了!最神的是它能像人一样边做边想(屏幕上能看到它的思考过程),还会自己上网查资料、用各种工具。

o3还有更绝的:给它张照片就能猜拍摄地点(虽然有点侵犯隐私),给它数据表能自动生成带图表的分析报告。这些Gemini 2.5 Pro也能做到,只是没o3这么全能。建议大家亲自试试,比如让AI把论文改成游戏,或者帮你想创业点子,真的会被惊到。

不过AI能力特别"偏科"——我和同事管这叫"锯齿现象":

“锯齿”是一个形象的比喻,直接描述了边缘的不平滑和参差不齐的形态。英文中常称为“jaggies”或“aliasing”,其中“jaggies”同样强调了这种类似锯齿的视觉特征。

比如这个改编版脑筋急转弯:"车祸男孩送急诊,外科医生看见说'我能给他做手术',为什么?":o3非说医生是孩子他妈(原版答案),其实这个新题答案是医生就是男孩本人。

以下是Grok3问答:

男孩在车祸后成为急诊患者,而他本人就是一名外科医生,因此他说“我能给他做手术”,指的是自己有能力为自己进行手术。

至于o3(可能是指某个模型或解答)误认为是“医生是孩子他妈”,这是对题目的误解,可能是因为旧版本的答案或类似的脑筋急弯问题中常涉及家庭关系,导致模型按照常见套路回答。而新题的正确答案明确指向医生和男孩是同一个人,这是一个更直接且符合逻辑的解释,没有复杂的家庭关系假设。

因为AI训练时见过太多次原版,反而不会变通了。但另一边,它又能解决更难的智力题,这种"时而超神时而智障"的状态就是"锯齿AGI"的特点。

所以o3算不算真AGI? 说不清。但它确实在很多领域超越人类,能真正改变我们的生活和工作方式——虽然经常需要人类帮忙判断它啥时候靠谱。就算现在真有了AGI,社会适应也需要时间。但o3这种能自主规划、使用工具的新特性,可能会让技术普及速度大大加快。

最根本的问题是:AI发展会不会突然出现质变?还是永远这样小步改进?甚至可能已经到天花板了?没人知道答案。唯一确定的是,我们正在全新的领域探索。不管叫不叫AGI,这些能自主行动又能力不均衡的AI,已经把我们带进了前所未有的境地。可能得像工业革命那样花几十年消化,也可能明天就迎来技术爆炸...但无论如何,现在就开始学习驾驭这些"偏科AI"的人,将来肯定最吃香。

网友: 1、智能的一个靠谱定义就是用理性去处理知识。比如:

  • 百科全书就像一个知识超级多、但理性水平特别低的系统。
  • 计算器呢,理性水平特别高,但知识少得可怜。
真正智能的系统得把这两点结合起来。

一个拥有通用智能的系统,能把推理用在无数的知识领域上。像图书馆、维基百科,或者类似HN那样的论坛,都是这种系统的例子。但它们不是真正的通用人工智能(AGI),因为里面的推理主力都是人,算是半机械的通用智能。

通用人工智能(AGI)是指完全人造的系统,比如计算机程序,能把推理用在无数知识领域上。这种东西其实已经存在好多年了。AGI对推理能力强弱没啥最低要求,但用过现代生成智能系统(比如大语言模型LLM)的人都知道,这技术能推理的知识领域多到没边儿。

2、我认为缺少的是记忆。当前模型的知识或多或少是静态的,除了那些可以塞进上下文窗口的内容。我认为,如果它们有记忆,从而有学习的能力——“哦,嘿,我已经尝试用这些方法解决过一个 bug,也许我就不会再陷入循环了!”对我来说,这才是敏捷的动力。实时地将新知识融入模型正是缺失的部分。