全网唱衰AGI:两大AI掌门人力挺持续学习

两位AI顶尖科学家指出,持续学习并非不可逾越的障碍,随着规模扩展与范式革新,AGI进展可能远超当前悲观预期。  

最近X平台上一片悲观情绪,大家都在说:AGI(通用人工智能)短期内没戏了!理由嘛,就是现在的AI模型根本做不到“持续学习”——学完新东西就忘旧东西,没法像人类一样边用边学、越用越聪明。但就在这时候,有两位顶级AI大佬的最新发言,简直像一记响亮的耳光,狠狠打在了这些唱衰者的脸上!

先说第一位——达里奥·阿莫代伊(Dario Amodei)。他是谁?前OpenAI核心研究员,后来创办了AI安全与前沿模型公司Anthropic,是业内公认的“技术理想主义者+实干派”。

他在2025年7月的一次闭门技术分享中,语出惊人:我们在AI领域学到最重要的一课就是:每当大家觉得遇到了某种‘根本性障碍’,结果往往只是我们还没找到对的方法。比如两年前,所有人都说AI在复杂推理上存在天然瓶颈,可后来发现,只要上强化学习(RL),配合足够规模的模型,这问题就迎刃而解了。

他接着话锋一转,意味深长地说:虽然我不便透露太多细节,但我可以告诉你,‘持续学习’很可能就是下一个被我们高估难度的问题。它看起来很难,但随着模型规模继续扩大,再配合一点点思维范式的转变——比如调整训练架构、引入更智能的记忆机制、或者重新定义‘学习’本身——这个所谓的‘拦路虎’,可能也会像推理能力一样,在不远的将来轰然倒塌。

听听,这可不是空喊口号,而是来自亲手打造过Claude系列大模型的人的判断!他不是在画饼,而是在说:技术演进的节奏,从来不是线性的。你以为的“天花板”,可能只是下一个突破前的短暂平台期。

再来看第二位重磅人物——雅库布·帕霍茨基(Jakub Pachocki)。他是OpenAI的首席科学家之一,长期主导模型推理与长期规划能力的研究,也是GPT-4和o1模型背后的关键推手。

在2025年9月的一场学术研讨会上,他透露了OpenAI当前的核心攻坚方向:我们现在已经在高中级别的数学竞赛和编程竞赛上,达到了接近人类顶尖选手的水平——模型能在1到5小时内完成复杂的解题与代码生成。

但这只是起点。接下来,我们的重点是把‘推理时间线’拉得更长,让AI不仅能解一道题,还能像人类一样制定跨越数天、数周甚至更久的计划,并且在这个过程中,真正‘记住’自己做过什么、学过什么、失败过什么。

注意,他说的不是简单的“上下文记忆”,而是具备长期记忆能力的持续学习系统。

这意味着未来的AI,可能不再是一次性问答机器,而是能陪你一起成长、不断积累经验的“智能伙伴”。比如,你今天教它一个新算法,下周它还能用上;你昨天让它规划一个项目,明天它能根据新信息动态调整方案——这才是通向AGI的关键一步。

很多人只看到当前模型“学完就忘”的缺陷,却忽略了背后的技术迭代速度有多快。从GPT-3到GPT-4,推理能力飞跃;从GPT-4到o1,规划与自我修正能力突飞猛进。现在,行业头部团队已经把“持续学习”列为最高优先级课题。他们不是在原地踏步,而是在悄悄搭建下一代AI的底层架构。

所以,当全网都在唱衰AGI时,请记住:真正的突破,往往发生在大众最绝望的时刻。就像2022年没人相信AI能写代码、2023年没人相信AI能参加奥数,结果呢?技术从不因舆论而停步,只因坚持而爆发。

达里奥和雅库布的发言,其实传递了一个共同信号:所谓“根本性障碍”,很多时候只是我们想象力的边界。当算力、数据、算法三者再次找到新的结合点,持续学习的难题,或许就会像曾经的“常识推理”“数学证明”一样,被轻松攻克。AGI或许不会明天就来,但它的脚步,比我们想象中更近。



持续学习 和 强化学习(RL)比较

1、强化学习(Reinforcement Learning,简称 RL)  
你可以把它想象成“教狗做动作”。

比如你想教一只狗“坐下”。你不会直接告诉它什么叫“坐”,而是:  
- 它偶然屁股着地了,你就立刻给它一块肉(奖励);  
- 它乱跳乱叫,你就啥也不给(没奖励,甚至轻微惩罚);  
- 久而久之,狗就明白了:“哦,只要我坐下,就有肉吃!”于是它就学会了。

AI里的强化学习也是这个逻辑:  
- AI像个“试错机器人”,不断尝试各种行为;  
- 做对了(比如下棋赢了、写代码通过了测试),就给它“打高分”;  
- 做错了,就“扣分”;  
- 通过成千上万次反馈,它慢慢学会“怎么做才能得分最高”。

所以,RL的核心是:通过奖励和惩罚,让AI自己摸索出最优策略。它特别适合解决“需要一步步决策”的问题,比如玩游戏、自动驾驶、或者让大模型一步步推理解题。



2、持续学习(Continual Learning)  
这个更像是“人上学的过程”。

想象一个学生:  
- 小学学加减法,  
- 初中学代数,  
- 高中学微积分,  
- 大学学机器学习……  

关键在于:他学新知识的时候,不会把旧知识全忘掉。他知道“微积分要用到代数”,而代数又基于加减法。这就是“持续学习”——边学新东西,边保留老本事,还能把新旧知识串起来用。

但现在的AI呢?  
- 如果你先教它识别猫狗,它学会了;  
- 然后你只教它识别汽车,不给它复习猫狗……  
- 结果它可能把猫狗全忘了,只会认车了!这叫“灾难性遗忘”(Catastrophic Forgetting)。

持续学习的目标就是:让AI像人一样,一辈子不断学新东西,还不忘老本行。比如今天学会写Python,明天学会做PPT,后天还能把两者结合起来自动写报告——而且三年后还记得怎么写代码。



简单总结区别

- 强化学习(RL):教AI“怎么做才对”,靠的是“奖励机制”,重点在决策和行动优化。  
- 持续学习:教AI“学了新东西别忘旧东西”,靠的是记忆管理和知识整合,重点在长期积累与适应

打个比方:  
> RL 是“教练”,不断给AI打分,让它越做越好;  
> 持续学习是“大脑的记忆系统”,确保AI越学越聪明,而不是学了新的就丢了旧的。

两者其实可以配合使用——比如用RL教AI做复杂任务,同时用持续学习机制让它记住过去的经验,下次遇到类似问题直接调用老办法,不用从头试错。

这也就是为什么达里奥说:过去我们靠RL+规模突破了“推理”难题,现在也许只要找到类似“组合拳”,“持续学习”这个坎也能跨过去。