Press "Enter" to skip to content

配对:一种用于对抗性环境生成的新多代理方法

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

任何机器学习方法的有效性都严重依赖于其训练数据。在强化学习(RL)的情况下,人们可以依赖于与现实世界交互的代理收集的有限数据,也可以依赖可用于收集所需数据的模拟训练环境。后者在模拟训练方法越来越流行,但它有一个问题- RL剂可以了解什幺是内置模拟器,但往往是坏 在 推广到甚至比模拟的略有不同的任务。显然,构建一个涵盖现实世界所有复杂性的模拟器极具挑战性。

 

解决这个问题的一种方法是通过随机化模拟器的所有参数来自动创建更多样化的训练环境,这一过程称为域随机化(DR)。但是,即使在非常简单的环境中,DR 也可能失败。例如,在下面的动画中,蓝色代理试图导航到绿色目标。左侧面板显示了使用 DR 创建的环境,其中障碍物和目标的位置已随机化。许多这些 DR 环境用于训练代理,然后将其转移到中间面板中的简单四房间环境。请注意,代理无法找到目标。这是因为它还没有学会绕墙走。尽管四房间示例中的墙壁配置可以在 DR 训练阶段随机生成的,不太可能。结果,代理没有在类似于四室结构的墙壁上花费足够的时间进行训练,无法达到目标。

 

 

除了随机化环境参数之外,还可以训练第二个 RL 代理来学习如何设置环境参数。可以训练这个极小极大的 对手,通过发现和利用其策略中的弱点来最小化第一个 RL 代理的性能,例如构建它以前从未遇到过的墙配置。但问题又来了。右侧面板显示了一个由极小极大对手构建的环境,在该环境中,代理实际上不可能达到目标。虽然极小极大的对手已经成功完成了它的任务——它最小化了原始代理的性能——但它没有为代理提供学习的机会。使用纯粹的对抗性目标也不太适合生成训练环境。

 

我们 与加州大学伯克利分校合作,在最近在NeurIPS 2020 上发表的出版物“通过无监督环境设计的紧急复杂性和零样本转移”中提出了一种新的多智能体方法来训练对手。在这项工作中,我们提出了一种算法,主角拮抗剂诱导后悔环境设计 (PAIRED),它基于最小最大后悔并防止对手创造不可能的环境,同时仍然使其能够纠正代理策略中的弱点。PAIRED 激励对手调整生成环境的难度,使其刚好超出代理当前的能力,从而形成自动课程 越来越具有挑战性的训练任务。我们表明,使用 PAIRED 训练的智能体可以学习更复杂的行为,并能更好地泛化未知的测试任务。我们已经在我们的GitHub存储库上发布了 PAIRED 的开源代码。

 

PAIRED

 

为了灵活地约束对手,PAIRED 引入了第三个RL 代理,我们称之为拮抗代理,因为它与对抗代理联合,即设计环境的代理。我们重命名我们的初始代理,即在环境中导航的主角。一旦对手创造了一个环境,主角和对手都会在这个环境中发挥作用。

 

 

对手的工作是最大化对手的奖励,同时最小化主角的奖励。这意味着它必须创造可行的环境(因为对手可以解决它们并获得高分),但对主角具有挑战性(利用其当前政策的弱点)。两种奖励之间的差距就是遗憾 ——对手试图最大化遗憾,而主角则竞争最小化遗憾。

 

上面讨论的方法(域随机化、最小最大后悔和配对)可以使用相同的理论框架进行分析,无监督环境设计(UED),我们在论文中详细描述。UED 在环境设计和决策理论之间建立了联系,使我们能够证明域随机化等价于不充分理由原则,极大极小对手遵循极大极小原则,而 PAIRED 正在优化极小极大后悔原则。这种形式主义使我们能够使用决策理论中的工具来了解每种方法的优缺点。下面,我们展示了这些想法中的每一个如何用于环境设计:

 

课程生成

 

极小极大遗憾的有趣之处在于,它会激励对手生成最初简单的课程,然后是越来越具有挑战性的环境。在大多数 RL 环境中,奖励函数将为更有效地完成任务或以更少的时间步长给出更高的分数。当这是真的时,我们可以证明后悔会激励对手创造主角无法解决的最简单的环境. 为了看到这一点,让我们假设对手是完美的,并且总是尽可能地获得最高分。与此同时,主角很糟糕,在所有方面都得到了零分。那样的话,后悔就看环境的难易程度了。由于可以在更少的时间步中完成更简单的环境,因此它们可以让对手获得更高的分数。因此,在轻松环境中失败的遗憾大于在艰难环境中失败的遗憾:

 

 

因此,通过最大化遗憾,对手正在寻找主角未能做到的轻松环境。一旦主角学会解决每个环境,对手必须继续寻找主角无法解决的稍微困难的环境。因此,对手生成了越来越困难的任务的课程。

 

结果

 

我们可以看到在下面的学习曲线中出现的课程,它绘制了智能体成功解决的迷宫的最短路径长度。与 minimax 或域随机化不同,PAIRED 对手创建了一个越来越长但可能的迷宫课程,使 PAIRED 代理能够学习更复杂的行为。

 

 

但是这些不同的训练方案能否帮助代理更好地泛化未知的测试任务?下面,我们将看到每种算法在一系列具有挑战性的测试任务上的零样本传输性能。随着传输环境复杂性的增加,PAIRED 和基线之间的性能差距会扩大。对于迷宫、迷宫等极其困难的任务,PAIRED是唯一可以偶尔解决的方法。这些结果提供了有希望的证据,证明 PAIRED 可用于改进深度强化学习的泛化。

 

 

诚然,这些简单的网格世界并不能反映许多 RL 方法试图解决的现实世界任务的复杂性。我们在“ Adversarial Environment Generation for Learning to Navigate the Web ”中解决了这个问题,它检查了 PAIRED 在应用于更复杂的问题时的性能,例如教 RL 代理导航网页。我们提出了 PAIRED 的改进版本,并展示了如何使用它来训练对手以生成越来越具有挑战性的网站课程:

 

 

在上图中,您可以看到对手在早期、中期和后期训练阶段构建的网站,这些网站从每页使用很少的元素发展到同时使用许多元素,使任务逐渐变得更加困难。我们测试在此课程中训练的代理是否可以推广到标准化的网络导航任务,并达到 75% 的成功率,与最强课程学习基线相比提高了 4 倍:

 

 

结论

 

Deep RL 非常擅长拟合模拟训练环境,但我们如何构建涵盖现实世界复杂性的模拟?一种解决方案是自动化此过程。我们提出无监督环境设计 (UED) 作为描述自动创建训练环境分布的不同方法的框架,并表明 UED 包含先前的工作,如域随机化和极小极大对抗训练。我们认为 PAIRED 是 UED 的一个好方法,因为遗憾最大化导致课程越来越具有挑战性的任务,并准备代理成功转移到未知的测试任务。

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注