本周在同行评审的开放获取期刊《自然通讯》上发表的一篇论文表示,该团队能够使用强化学习来训练一个代理,该代理能够识别新专家、模仿他们的行为并在几分钟内记住所获得的知识。
社会学习,也就是一个人通过复制从另一个人那里获得技能和知识,这对于人类和大部分动物王国的发展过程至关重要。Deepmind 团队声称是第一个在人工智能中演示该过程的团队。
由 Google DeepMind 的研究工程师 Edward Hughes 领导的团队致力于解决 AI 代理在获取新技能方面的一些限制。
之前,人类是有意识主动培训AI,从人类数据中教授AI新的能力依赖于大量第一人称人类演示的监督学习,这会占用大量的实验室时间和金钱。研究人员从人类学习中寻找灵感,试图展示人工智能代理如何以类似人类的效率向其他个体学习。
在一个名为 GoalCycle3D 的物理模拟任务空间(一种带有人行道和障碍物的计算机动画游乐场)中,他们发现人工智能代理可以向人类和人工智能专家学习解决许多导航问题。
这个新智能体在新环境中成功地实时模仿人类,而无需使用任何预先收集的人类数据。研究人员确定了一组令人惊讶的简单成分,足以产生文化传播,并开发了一种对其进行严格评估的评估方法。这为文化进化在人工智能发展中发挥算法作用的方式。
这意味着人工智能代理可以快速达到人类专家的表现水平。