机器学习中“First-Explore先探索”元学习是什么?


人类是探索的大师。

与机器强化学习RL不同的是:我们不是像RL那样通过尝试最大化奖励来探索,而是通过探索来获取信息!

这是标准RL机器学习速度比人类慢得多的主要原因。

我们提出了一个新的元RL框架(First-Explore),它有两个策略:

  • 一个策略只学习探索(First-Explore),
  • 一个策略只学习开发。

一旦经过训练,我们就可以用探索策略进行探索,时间越长越好,然后根据探索期间获得的所有信息进行开发。这种方法避免了试图同时进行探索和开发的冲突。

通过元学习,"先探索(First-Explore)"方式能够学会“智能地”探索,这极大地提高了真正难以探索的领域的性能。
而标准RL机器学习是通过”利用+噪声“(或称“噪声探索”)进行探索的。

当策略失效时(南辕北辙),上下文需要“放弃探索”(获得不良奖励,同时收集信息)。
而先探索(First-Explore)方式轻松解决这些挑战。
First-Explore可以学习智能探索策略,如穷举搜索等,而且在探索需要牺牲奖励的领域,它的性能优于主流的标准RL和元RL方法。

这没有要求一个策略做两件非常不同的事情(探索和利用),而是训练单独的探索和利用策略。
探索者的奖励仅仅是当探索者被告知其发现的目标时,该策略能多少得到的奖励。

通过元学习如何在跨上下文环境实现分布探索?
First-Explore学习 "探索先验"(新领域的智能探索策略,例如 "每集尝试新事物",以及如何进行良好探索的先验(例如收集钥匙来开门)。
而标准RL机器学习不能执行跨上下文的探索策略,如穷举搜索(除非通过权重变化非常缓慢),当需要牺牲性探索时,元RL不会学习这种策略。
一旦经过训练,First-Explore的两个策略就会在上下文中学习,因此可以极快地探索、学习和解决新上下文。
AdA展示了元RL可以产生*人类水平*的样本效率(!!!),First-Explore将这种可能性扩展到更难的探索领域。

First-Explore引入了 "牺牲性探索",解决了标准RL中的一个问题(通过 "噪声利用 "进行探索)。
在庞大的跨上下文时,应该能在极难的探索问题上实现人类水平的采样效率。

总之
First-Explore是朝着创建能够学习人类水平的探索的元RL算法迈出的重要一步,而人类水平的探索对于解决具有挑战性的未见过的硬探索领域是至关重要的。