为什么说通用人工智能(AGI)没那么快到来?持续学习是个大难题!
事情发生的时间比你想象的要长,然后它们发生的速度比你想象的要快。
最近,很多人都在讨论通用人工智能(AGI)什么时候会实现,有人说两年,有人说二十年。那今天我就来跟大家聊聊,为什么我觉得AGI没那么快就能实现,其中最大的一个“拦路虎”就是持续学习。
现在的AI,还不够“聪明”
有人觉得,即使现在AI技术停止进步,现在的AI系统也比互联网更具颠覆性。但我可不同意!现在的AI大模型(LLM)确实很厉害,能写文章、能聊天,但为什么那些大公司还没有用它们彻底改变工作流程呢?不是因为他们太古板,而是因为想让LLM像人一样干活,真的很难!这跟它们缺少一些基本能力有关。
我呀,算是个“AI狂热粉”,花了一百多个小时琢磨怎么用LLM来帮我做播客后期。我试过让它们把自动生成的文字稿润色得更像人话,也试过让它们从录音里找出适合发推特的片段,甚至还让它们帮我一句一句地写文章。这些任务听起来很简单,都是跟语言相关的,按理说LLM应该很擅长,但实际上呢?它们顶多也就50分吧!虽然能做到这些已经很厉害了,但问题是:LLM不会像人类一样,随着时间的推移不断进步。 这种缺乏持续学习的能力,是个巨大的瓶颈。
AI为什么不像人类一样学习?
咱们人类之所以这么有用,主要不是因为我们有多聪明,而是因为我们能在实践中不断积累经验,审视自己的错误,然后一点点地改进和提高效率。
想想看,你怎么教小孩子吹萨克斯风?你会让她自己去试着吹,听听声音,然后调整。但如果你是这样教的呢:学生试一次,错了你就把她赶走,然后写下详细的说明。下一个学生再来,读你的笔记,想吹好查理·帕克的曲子。如果她又失败了,你就再改进说明,给下下个学生。你觉得这样能行吗?当然不行!不管你的说明写得多好,没有孩子能光靠看说明学会吹萨克斯风。但我们现在“教”LLM的方式,就是这么别扭!
我知道,现在有“强化学习微调”这种技术,但它不像人类学习那样,是一个深思熟虑、不断适应的过程。我的编辑们现在都非常优秀,他们能注意到很多小细节,琢磨什么内容能吸引观众,什么内容能让我兴奋,以及如何改进日常工作流程。如果让他们为每个子任务都去搭建一个强化学习环境,那根本没法实现。
当然,我们可以想象,未来更聪明的模型也许能自己构建一个强化学习循环,从外面看起来就像人类学习一样自然。比如,我给出一些反馈,模型就能自己生成一堆可以验证的练习题,甚至是一个完整的环境,让它去练习那些它觉得还不熟练的技能。但这听起来太难了!我不知道这种技术到底能推广到什么程度。归根结底,如果模型不能像人类一样,在工作中潜移默化地学习,那它就很难成为真正的“人才”。
记忆力只有“七秒”的AI
现在的LLM在对话中确实会变得聪明一些,也更有用。比如,我跟它一起写文章,我会给它大纲,让它一段一段地写。一开始,前四段它写得可能都很烂,我就会全部重写,然后告诉它:“你写的太烂了,这是我写的。”这时候,它就能理解我的偏好和风格,下一段就能写出不错的建议了。但问题是,这种对我的偏好和风格的微妙理解,在这次对话结束时就消失了!
也许,一个简单的解决方案是让AI拥有一个超长的上下文窗口,就像有些AI一样,每隔一段时间就把对话记忆压缩成一个摘要。但我觉得,在软件工程(这本身就很依赖文本)之外的领域,要把这些丰富的隐性经验浓缩成文本摘要,会非常脆弱。再想想那个用长篇文本摘要教人吹萨克斯的例子,这根本行不通!
为什么说AI自动化没那么快?
有人说,就算AI技术完全停滞,现在的模型也极具经济价值,而且可以轻松收集到各种白领工作任务的数据,所以在未来五年内,AI应该能自动化很多白领工作。
但我并不这么认为。如果AI进步真的停滞不前,我估计只有25%的白领工作会消失。当然,很多任务可以被自动化,比如AI技术上可以帮我重写自动生成的文字稿。但因为它不能随着时间推移不断进步,也不能理解我的偏好,所以我还是会雇人来做。即使我们有了更多数据,如果持续学习没有突破,我们依然会面临同样的问题:AI可能在技术上能完成很多零散的子任务,但它们无法建立上下文,这就让它们无法成为公司里真正的员工。
虽然这让我对未来几年变革性AI的到来有些悲观,但这让我对未来几十年AI的发展特别乐观。当我们解决了持续学习这个难题,模型的价值会有一个巨大的飞跃!即使没有那种“奇点”(模型快速自我进化,生成更聪明的后代系统),我们仍然可能看到一场智能的“大爆发”。届时,AI将广泛应用于经济的各个领域,从事各种不同的工作,并且像人类一样学习。但跟人类不一样的是,这些模型可以在所有副本中融合它们的学习成果。这意味着一个AI基本上可以学习世界上所有的工作!一个能够在线学习的AI,可能很快就能在功能上成为一个超级智能,甚至不需要进一步的算法进步。
不过,我可不指望哪天OpenAI会直播宣布:“持续学习问题完全解决了!”因为实验室都想尽快发布任何创新,所以在我们看到真正像人类一样学习的AI之前,我们可能会先看到一个不那么完善的早期版本。我希望,在这个大瓶颈完全解决之前,能看到很多提示和进展。
AI用电脑?没那么简单!
我在播客里采访过两位人类学研究员,他们说希望在明年年底前看到可靠的电脑使用代理。我们现在已经有了一些电脑使用代理,但它们都很糟糕。他们想象的完全不一样:他们的预测是,到明年年底,你应该能告诉AI:“帮我报税。”然后它就能通过你的邮件、亚马逊订单和Slack消息,跟所有你需要发票的人邮件往来,整理你的所有收据,判断哪些是业务开销,在一些模糊的情况下征求你的批准,最后帮你向美国国税局提交1040表格。
我对这个说法很怀疑。我不是AI研究员,所以很难从技术细节上反驳他们。但就我所了解的这些,有几个理由让我不看好这个预测:
* 时间太长,任务太复杂。 AI需要花两小时来完成代理电脑使用的任务,我们才能知道它做对没有。更别提电脑使用还需要处理图像和视频,这本身就很耗算力,更别说任务时间还会更长了,这肯定会拖慢进展。
* 缺乏足够的数据 我们没有大量的多模态电脑使用数据用于预训练。就像之前有人说的:“过去十年,我们被海量的互联网数据宠坏了,这些数据免费且随处可得。这足以解决自然语言处理,但不足以让模型成为可靠、有能力的代理。想象一下,如果要在1980年所有可用的文本数据上训练GPT-4——即使我们有必要的算力,数据也远远不够。”
当然,我不在实验室里,也许纯文本训练就能让AI很好地理解不同用户界面的工作原理,以及不同组件之间的关系。也许强化学习微调的样本效率非常高,根本不需要那么多数据。但我还没看到任何公开证据能让我相信,这些模型突然变得不那么需要数据了,尤其是在它们很少实际练习的领域。
或者,也许这些模型是优秀的前端编码器,可以自己生成数百万个“玩具”用户界面来练习。
* 算法创新也没那么快 即使是那些事后看来很简单、很明显的算法创新,似乎也需要很长时间才能解决。 DeepSeek在他们的论文中解释的强化学习过程,从宏观上看很简单。然而,从GPT-4发布到他们的技术发布,花了两年时间。当然,现在说他们的技术很容易实现,是可笑的傲慢——这背后需要大量的工程、调试和排除各种替代方案才能达到这个解决方案。但这正是我要说的!看到“训练模型解决可验证的数学和编码问题”这个想法花了这么长时间才实现,让我觉得我们低估了解决更复杂的电脑使用问题的难度,因为这些问题的数据更少,而且操作模式也完全不同。
我的预测是什么?
好了,说了这么多“泼冷水”的话,我可不想像那些Hacker News上被宠坏的孩子一样,明明得到了一只会下金蛋的鹅,却还整天抱怨它叫得有多响。
你们有没有看过O3或Gemini 2.5的推理过程?那简直是推理啊!它会分解问题,思考用户想要什么,对自己的内心独白做出反应,并在发现自己方向不对时及时纠正。我们怎么能说“哦,是的,当然,机器会自己思考,想出一堆想法,然后带着一个聪明的答案回来。机器就是这样做的。”呢?
有些人之所以过于悲观,部分原因是他们没有在AI最擅长的领域使用最聪明的模型。把一个模糊的需求交给Claude Code,然后等上十分钟,它就能从零开始构建出一个能用的应用程序,这简直是不可思议的体验!它是怎么做到的?你可以谈论电路、训练分布、强化学习等等,但最接近、最简洁、最准确的解释是:这其中蕴含着婴儿般的通用智能。到了这个地步,你的一部分思维肯定会想:“这真的在起作用!我们正在制造智能机器!”
那么,我的预测是什么呢?
我的概率分布非常宽泛。我想强调的是,我相信概率分布。这意味着,为2028年的强人工智能(ASI)做好准备仍然很有意义——我认为这是一个完全合理的结果。
但这是我愿意打50/50赌的时间表:
* AI能像一个称职的总经理一样,在一周内为我的小企业完成端到端的税务工作:包括追踪所有不同网站的收据,找到所有缺失的部分,与所有需要发票的人邮件往来,填写表格,并提交给美国国税局:2028年。
我认为我们现在正处于电脑使用领域的GPT-2时代。但我们没有预训练语料库,模型正在使用它们不熟悉的动作原语,在更长的时间范围内优化更稀疏的奖励。话虽如此,基础模型相当聪明,可能在电脑使用任务上有很好的优先权,再加上世界上有更多的计算和AI研究人员,所以它可能会平衡。为小企业报税感觉就像电脑使用领域的GPT-4是语言领域的GPT-4一样。从GPT-2到GPT-4花了4年时间。
需要澄清的是,我并不是说我们在2026年和2027年不会有非常酷的电脑使用演示(GPT-3就很酷,但实际上并没有那么有用)。我指的是,这些模型将无法端到端地处理一个为期一周、相当复杂的、涉及电脑使用的项目。
* 对于任何白领工作,AI都能像人类一样轻松、有机、无缝、快速地在工作中学习。例如,如果我雇佣了一个AI视频编辑,六个月后,它对我的偏好、我们的频道、什么适合观众等方面,有了和人类一样多的可操作的、深入的理解:2032年。
虽然我还没有看到一个明显的方法可以将持续的在线学习嵌入到目前的模型中,但7年是一个很长的时间!GPT-1在7年前才刚刚问世。在我看来,在接下来的7年里,我们一定会找到一些让模型在工作中学习的方法。
你可能会说:“等等,你不是一直在强调持续学习是一个巨大的障碍吗?但你的时间表却是,我们距离一场至少是广泛部署的智能爆炸还有7年。”是的,你说的没错。我预测在一个相对较短的时间内,世界将变得相当疯狂。
未来的不确定性
通用人工智能的时间线呈对数正态分布。这意味着:要么这十年(到2030年)发生,要么很久很久以后。过去十年,AI的进步是由扩展前端系统的训练计算驱动的(每年增长4倍以上)。这种情况不可能持续到这十年之后,无论你看芯片、电力,甚至是用于训练的原始GDP的一小部分。2030年后,AI的进步将主要来自算法的进步。但即使在那里,低垂的果实也会被摘掉(至少在深度学习范式下)。所以,每年通用人工智能出现的概率会越来越小。
这意味着,如果我们最终落在我50/50赌注的较长一边,我们很可能会看到一个相对正常的世界,直到2030年代甚至2040年代。但在所有其他情况下,即使我们对AI目前的局限性保持清醒,我们也必须期待一些真正疯狂的结果。
你对这个时间表有什么看法呢?欢迎一起来聊聊!
极客辣评:
作者把AI语言智能与人类智能混淆在一起了:
AI语言模型就是一个只会横向思考的智能,它只会用context上下文思考,而人类是会content+context双向思考的智能,思考content内容就是纵向往内挖,探究语义和语言符号指向现实世界哪个对象;思考context则可能不是很擅长,因为人脑功耗小,注意力有限。
所以,如何用好AI大模型,就是多告诉它上下文context背景资料,这就是上下文工程,这是它的擅长。
要让大模型达到人类理解语义那么精确,就是要多告诉它各种上下文,就像对人旁敲侧击一样,旁敲侧击是礼貌或面子问题不好直接挑明,直接说会让别人没台阶下,所以,很多时候只能旁敲侧击,多敲打几次,再笨的人也会明白,就是用这招和大模型沟通,这样才能用好大模型。