谷歌AI宣言:欢迎来到体验时代

Google DeepMind文章《The Era of Experience》由David Silver和Richard S. Sutton撰写,探讨了人工智能领域即将进入的新时代——体验时代(The Era of Experience)。

  • 文章指出,AI的发展正站在一个新起点上,未来的AI将通过从自身经验中学习来获得超越人类的能力。
  • 文章强调了体验式学习的重要性,并提出了AI未来发展的几个关键方向,包括持续学习、自主互动、基于环境的奖励机制以及新的规划和推理方式。
  • 文章认为,这些发展将使AI能够超越人类的能力,并在多个领域实现突破。

David Silver和Richard S. Sutton都是人工智能和机器学习领域的杰出科学家,尤其在强化学习(Reinforcement Learning, RL)领域做出了开创性和深远的贡献。

David Silver:

  • David Silver是DeepMind的首席科学家,也是伦敦大学学院(UCL)的教授。
  • David Silver是AlphaGo的主要开发者之一
  • 他在强化学习的理论和实践方面做出了许多贡献,包括提出和改进多种强化学习算法,如蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)和深度强化学习(Deep Reinforcement Learning)。
Richard S. Sutton:
  • Sutton是强化学习领域的奠基人之一,他的工作为该领域的发展奠定了理论基础。他提出了许多核心概念和算法,如时间差分学习(Temporal Difference Learning, TD Learning)和Q学习(Q-Learning)。

重点: 能不断学习的AI可以一辈子都在进步。现在的人类数据时代,那些靠语言运作的AI主要处理的是短对话场景:比如你问它一个问题,它(可能想几步或用点工具)就给你个回答。通常这些AI不会记住之前的对话内容,也没法随着时间调整自己。而且它们的目标只限于把眼前的问题解决掉,比如直接回答你的提问。

但人类(还有动物)可不一样,我们生活在连续不断的行动和观察中,能记住之前的事,并且会根据经验不断改进自己的行为。我们还能为了长远目标做事,比如为了健康、学外语或者搞科研。

真正厉害的AI应该像人一样,有自己的连续经历,能长期成长。这样AI就能为未来目标努力,并且不断调整自己的行为。比如:

  • 连着智能手表的健康AI可以持续好几个月观察你的睡眠、运动和饮食,然后根据长期数据和你的健康目标,给你量身定制的建议。
  • 教外语的AI可以长期跟踪你的学习进度,发现你不会的地方,适应你的学习方式,连续好几年调整教学方法。
  • 搞科研的AI可以追求大目标,比如发现新材料或减少碳排放。这种AI能分析长期观测数据,做模拟实验,建议现实中的实验方案。
这些AI会采取一连串行动来实现长期目标。可能某个单独步骤看起来没用甚至有害,但整体来看能帮助达成最终目标。这和现在的AI完全不同——现在的AI虽然能秒回问题,但根本不会考虑自己的行为对未来有什么影响。

背景知识与研究方法 文章首先回顾了人工智能的发展历程,特别是在“人类数据时代”(The Era of Human Data)中,AI通过大量人类生成的数据进行训练,并通过专家人类的例子和偏好进行微调。这种以人类为中心的AI方法取得了显著进展,但作者认为,仅靠模仿人类无法实现真正的超人类智能。

在数学、编码和科学等关键领域,从人类数据中提取的知识已经接近极限,且高质量的数据源即将耗尽。

因此,作者提出需要一种新的方法,即“体验时代”。

体验式学习的特征:

  • 持续学习:AI将在其整个生命周期中不断学习,类似于人类和动物在多年中的持续体验流。
  • 丰富的互动:AI将通过自主行动和观察与环境互动,而不仅仅是通过人类对话。
  • 基于环境的奖励:AI的奖励将基于其在环境中的体验,而不是人类的预判断。
  • 规划和推理:AI将基于体验进行规划和推理,而不仅仅是模仿人类的思维方式。

AI的奖励机制应从人类预判断转向基于环境的信号,如健康指标、考试成绩或环境传感器数据。这种基于环境的奖励机制将使AI能够发现超出人类知识的新策略。

AI的规划和推理方式将从模仿人类思维方式转变为基于体验的学习。例如,AlphaProof通过与形式证明系统的持续互动,生成了大量新的证明,超越了人类数学家的能力。

文章提到了几个关键的案例来支持其观点:

  • AlphaProof:这是一个AI程序,通过强化学习在国际数学奥林匹克竞赛中获得了奖牌,超越了人类中心方法的性能。
  • DeepSeek的工作:展示了通过强化学习,AI可以自主发展高级问题解决策略,而不是通过人类明确教授。
  • Anthropic的Claude 3.5:展示了AI通过计算机使用接口与人类互动的能力。

文章最后指出,“体验时代”将标志着AI发展的关键时刻。AI将通过与世界的互动来学习,从而实现超越人类的性能。这一转变将带来前所未有的能力,同时也带来了新的风险和挑战,需要谨慎对待。

作者强调,体验式学习不仅能够带来新的能力,还可能提供一些重要的安全优势,例如适应环境变化和纠正奖励函数的能力。

网友: 纯粹的自学习需要明确定义的奖励函数,而这在实际任务中很难实现。足够先进的大模型 (LLM) 或许是解决这个问题的关键,也就是最终的奖励函数。或许以这种方式使用它们,能让我们创建更擅长泛化的系统。

说白话:完全靠AI自己学习的话,必须给它一个特别明确的‘奖励标准’(就像游戏里的得分规则),但在现实任务中很难设定这么完美的标准。不过,未来足够强大的大语言模型(比如ChatGPT这种)可能自己就能当这个‘终极评分员’。如果能这样用它们,说不定我们能造出更聪明、更会举一反三的AI系统。