AI进步有限,AGI梦想或破灭


这是来自Thane Ruthenis的AI悲观预测一文,作者认为,尽管这些模型在某些方面表现出色,但它们并没有达到真正的通用人工智能(AGI)的水平。以下是对这段文字的简化解释:
  1. 模型的个性:通过让模型具有更好的个性,可以更容易地判断它们是否“聪明”。例如,Sonnet 3.5.1 因为个性更吸引人而受欢迎,而 OpenAI 的模型则显得更“企业化”。
  2. 模型的进步:作者认为,尽管模型在进步,但这些进步并不足以实现 AGI。例如,GPT-4.5 比 GPT-4 好一些,但并没有好很多。未来的模型(如 GPT-5、GPT-6)可能会继续这种模式,进步会越来越小。
  3. 模型的局限性:LLM 在某些特定任务上表现很好,但在其他任务上表现不佳。它们的能力是“锯齿状”的,即在某些任务上非常出色,而在其他任务上却很差。这与人类的能力不同,人类的能力更一致。
  4. 模型的未来:作者认为,LLM 将继续作为有用的工具存在,但不会成为真正的 AGI。未来的进步可能会带来一些改进,但这些改进将是渐进的,而不是革命性的。
  5. 现实世界的预测:作者预测,LLM 将在未来几年内继续发展,并融入经济和软件中,但它们仍然是工具,而不是真正的 AGI。真正的 AGI 可能需要一种全新的方法,而不是基于当前的 LLM 架构。

原文大意:

这其实不是一个具体的“时间表”,我也不知道具体的时间点,但这是我目前对我们未来发展方向的比较乐观的看法。

我还没有完全投入到这个模型中:我还在等今年晚些时候推出的更多功能和推理时间的扩展。不过,Deep Research、Claude 3.7、Claude Code、Grok 3 和 GPT-4.5 的结果基本符合我的预期[1],这是我目前的基准预测。

当前模式:我都觉得要睡觉了(因为有悲观抑郁氛围)
我认为,目前已知的任何提升能力的方法都不足以让我们实现 AGI(通用人工智能)[2]。

我不想说预训练会“停滞不前”,所以我确实期待持续的进步。但进步的方向会和“变得更聪明”这种直观的指标脱钩,而且进步的效果会越来越小。  
Grok 3 和 GPT-4.5 似乎证明了这一点。  

Grok 3 最出名的地方是“相当不错:它成功地取代了 Claude Sonnet 3.5.1!”。这话有点夸张,但也算是一种夸奖。  

GPT-4.5 比 GPT-4 稍微好一点,尤其是在写作和情商(EQ)方面。但这其实没什么大不了的:它并没有好多少。事实上,它的表现据说也低于 OpenAI 的预期,所以他们并不急着发布它。(它本来应该是一个新的、炫酷的前沿模型,而不是那种延迟的、半尴尬的“我想它就在这里,希望你能找到你喜欢的东西”。)  

GPT-5 对 GPT-4.5 的改进甚至比 GPT-4.5 对 GPT-4 的改进还要小。GPT-5.5 和 GPT-6 会继续这种模式,到 2029 年,他们可能会训练出比现在大 1000 倍甚至 10000 倍的模型(如果他们到那时还有钱的话)。生活质量的微妙提升和一些毫无意义的基准测试的飞跃,但不会有真正的突破。  

(我并不是否认“缩放定律”。我相信缩放定律,真的!但它们衡量的是“困惑度”,而不是真正的智力或现实世界的实用性,而且“古德哈特定律”对谁都不友好。)  

OpenAI 似乎已经预料到了这一点,他们显然计划把“GPT-5”的标签贴在他们现在的产品上,而不是一个比 GPT-4 强 100 倍的模型。他们知道,如果不这么做,他们就无法再引起轰动。

LLM 的测试时间计算/强化学习(RL):
它不会在容易验证的领域之外有太大的推广。一些技巧,比如 RLAIF 和更长的思维链(CoT),可能会带来一些好处,但这些改进是有限的。它不会在“软”领域引发自我改进的循环。  

强化学习(RL)足以让 LLM 在某些固定的环境或任务中变得可靠。但如果脱离这些环境或任务,它们肯定会失败。  

把思维链(CoT)扩展到数百万个 token 或不确定大小的上下文窗口(如果可行的话)可能会也可能不会解决数学问题。我觉得不会。  

它可能根本行不通:现实世界的投资回报可能是线性的,而预训练的成本却是指数级增长的。我预计 FrontierMath 会在 2025 年底被击败(这并不难),但可能几年内都不会被击败。[3]  

即使它在“技术上”可以加快猜想验证的速度,我还是怀疑它能否在“困难”领域带来真正的突破。这项任务其实并不容易验证。  
(不过,如果数学问题真的解决了,我不知道该怎么估计它的后果,它可能会让我其他的预测都失效。)

但模型感觉越来越聪明了!
在我看来,通过让模型有更好的个性,可以很容易地用“氛围检查”来判断模型是否“感觉聪明”。  

我觉得这就是 Sonnet 3.5.1 这么受欢迎的主要原因。和 OpenAI 那种冷冰冰的企业风格相比,它的个性更有吸引力。  

GPT-4o 的最新升级似乎也证明了这一点。他们似乎只是给了它更好的个性,人们报告说它“感觉更聪明了”。  

一开始,《深度研究》给我的感觉也是这样。它的一些总结读起来很有趣,感觉信息量很大,很有智慧!完全不像那种普通的人工智能垃圾!但后来发现,大部分内容其实还是人工智能垃圾,现在我已经能一眼看穿,那种效果也就没了。

LLM 擅长的领域:适合强行解读的问题和分布内问题
“解经”是指用个人预设、议程或偏见来解释文本的过程。当你让 LLM 听起来很聪明时,你会觉得自己很聪明:当你对 LLM 的输出有一个自由参数时,你可以把它调整成对你有意义或有用。  

这包括哲学上的胡言乱语或头脑风暴。你要挑选好的解释或方向来探索,你要给 LLM 赋予一个连贯的个性。你这样做只需要注入很少的指导,但这些指导很重要。如果让 LLM 自己选择,它们不会比随机选择更频繁地挑出那些显然正确的想法。  

看看 R1 的思维链(CoT),它经常这样……  

这也包括像OpenAI《深度研究》的输出这样的内容。它们特别适合作为某个领域的高级概述,当你不依赖它们是否全面、是否精确或某个细节是否正确时。  

感觉这个问题很容易解决。LLM 已经具备了所有需要的要素,它们只需要学会识别好的想法!只需要注入很少的指导元素!  

从 GPT-3.5 或 GPT-2 以来,这个问题似乎很容易解决。  
但其实这个问题并不容易解决。

AI只能解决分布内问题:  
当前 AI 的核心特征之一是能力的“锯齿状边界”。  

当前 AI(特别是大型语言模型,LLM)的一个核心问题:它们的能力是“锯齿状”的,也就是说,它们在某些特定任务上表现得非常好,但在其他任务上却表现得很差,哪怕这些任务看起来非常相似。

举个例子,AI 可能在一个数学问题上表现得非常出色,但在另一个几乎一样的数学问题上却完全不行。这种不连贯性常常被一些人用“人类也有不擅长的领域”来辩解,但作者认为这种辩解是站不住脚的。

作者进一步解释说,LLM 的能力并不是像我们想象的那样,可以在某个领域内广泛适用。相反,它们的能力更像是一堆分散的点,每个点代表它们能解决的一个具体问题。这些问题通常是它们在训练数据中见过的,或者与训练数据中的问题非常相似。

虽然 LLM 给人的感觉是它们能够在训练数据之外进行推理和概括,但实际上,这是因为我们对它们的训练数据中的问题了解得不够深入。换句话说,它们并没有真正学会“举一反三”,而是依赖于训练数据中的具体例子。

总结一下,这段话的核心意思是:当前的 AI 模型(如 LLM)在处理任务时表现得非常不连贯,它们只能在某些特定任务上做得好,而这些任务通常是它们在训练中见过的。它们并没有真正的“智能”来广泛应对新问题。


AI其实是模板集:
真正的主动性需要 AI 能够在长时间、复杂的推理过程中始终保持目标,即使任务变得非常复杂,也能灵活应对。然而,当前的 LLM(比如 GPT-3.5 和之后的版本)在这方面表现得很差。

举个例子,当任务变得复杂时(比如处理一个庞大的代码库或者玩一个复杂的游戏),这些 AI 往往会崩溃或者陷入死循环,只能靠运气才能摆脱困境。它们现在只是有了更多的“模板”或“套路”,这让它们在某些任务上表现得更好,也能骗过人们更长时间,让人觉得它们很聪明。但实际上,它们的规模化表现并不好,无法真正应对需要长时间、复杂推理的任务。

简单来说,这些 AI 虽然看起来能做很多事情,但它们的“聪明”是有限的,无法真正自主完成那些需要深度推理和长期目标的任务。它们离真正的“超级智能ASI”还差得很远。


现实世界的预测
我不敢预测 LLM 泡沫会在 2025 年、2026 年或近期的任何一年破灭。

AGI 实验室如今资金充裕,由聪明人管理,拥有一些真正的产品,他们愿意制造宣传,而且他们正在购买自己的宣传(因此看起来是真实的)。如果他们愿意,他们可以长时间保持炒作。  

大模型LLM还主要是工具
虽然 LLM(大型语言模型)可以提高生产力,但它们主要还是工具,而不是真正的“自主创新者”。以下是逐段解释:

1、LLM 是工具,不是革命性突破
 LLM 可以帮助提高效率,比如让程序员工作得更快,但它们并不能完全取代人类。比如,一个“初级开发人员 = AI 模型”,而“高级开发人员 + AI 模型 = 高级开发人员 + 初级开发人员团队”。这两种情况都减少了对初级开发人员的需求,但后者并不需要 AI 能够完全自主完成任务,而这才是真正革命性突破的关键。  
   (不过,那些说 LLM 能让程序员效率提高 10 倍的说法,其实是被夸大了。)

2、人类工人的替代有限*
虽然 AI 会替代一些人类工作,但范围其实很有限。作者不敢具体预测会替代哪些工作,但认为实际情况会比人们预期的要小。

3. 深度学习的创新应用  
深度学习会在很多领域有创新应用,尤其是在生物技术领域(比如 GPT-4b 和 Evo 2)。但这些创新是“自动连续程序搜索”的结果,而不是 AI 自主产生的创新。换句话说,AI 只是按照人类设定的规则去搜索和优化,而不是真正“自己想出来的”。

4. 关于 AI 自主创新的报道往往是误导性的
未来会有很多关于 AI 自主创新的报道,但这些报道往往会被证明是误导的或者经过精心挑选的。比如:  
   - 有些改进其实是“奖励黑客攻击”(AI 无意中找到了系统的漏洞,而不是真正创新)。  
   - 有些是科学家预先选好了问题,AI 只是在一个已知的范围内“创新”,科学家再从结果中挑选出有用的部分。  
   - 有些 AI 生成的步骤完全没用,比如“步骤 N:发明万物理论(留给读者练习)”,根本没有实际意义。

5. LLM 的未来:工具而非 AGI
   到 2030 年代,LLM 会深度融入经济和软件,成为非常有用的工具。但它们只是工具,不会变成真正的 AGI(通用人工智能)或自主的“超级工程师”。一些狭隘的工作可能会消失或被改变(比如 LLM 保姆的工作),但不会有真正的革命性突破。

6. 未来的 AI 突破可能来自新方法
   在某个不确定的时间点(可能是 2030 年代,也可能更早或更晚),可能会出现一种全新的 AI 方法。可能是对现有 LLM 架构的调整,也可能是完全不同的技术(比如神经符号方法)。这种突破可能会在大型实验室或创业公司中实现。

LLM 是强大的工具,但它们不会自主创新或取代人类的核心工作。未来的 AI 突破可能需要全新的方法,而目前的 LLM 只是工具,不是真正的“智能”。

结束语
这听起来可能像是一大堆令人厌烦的吹毛求疵。

很多人对 LLM(大型语言模型)的期望过高,甚至有点自欺欺人,而实际上 LLM 并没有他们吹捧的那么强大。

LLM 特别擅长制造一种“普遍聪明”的氛围,很多人也在合作夸大这种氛围,做出很多微妙但关键的错误示范。试图看穿这些炒作,感觉就像“在证据面前打退堂鼓”。

越来越多的人为框架和昂贵的训练方法(比如强化学习 RL)并没有带来真正的改进,也无法让 LLM 实现真正的“泛化能力”。那些试图解决泛化问题的想法(比如“万福玛利亚”式的解决方案)也没有实际效果。从 LLM 中提取知识的各种方法,也没有产生真正有价值的东西。这些都是 LLM 缺乏真正自主性、代理性和通用性的证据。如果 LLM 真的有这些能力,2023 年初最简单的 AutoGPT 设置就应该能引发它。

AGI 实验室的 AGI 时间表(比如预测 AGI 何时实现)和实际情况无关。平均来看,我们可能比 AGI 实验室说的要多等一段时间。我们很可能可以坚持到 2030 年,甚至到 2030 年代。

网友:
为何他要像上帝一样预测未来,他是想用悲观来吸引人们掉入他的宗教陷阱吗?