强化学习(RL) 是一种序列决策范式,用于训练智能代理处理复杂任务,例如机器人运动、玩电子游戏、飞行平流层气球和设计硬件芯片。虽然 RL 代理已在各种活动中显示出有希望的结果,但很难将这些代理的能力转移到新的任务,即使这些任务在语义上是等效的。例如,考虑一个跳跃任务,其中一个智能体从图像观察中学习,需要跳过障碍物。深度强化学习智能体在这些任务中的一些任务上训练有素,障碍物位置不同,很难成功地跳过以前看不见的位置的障碍物。
在“对比行为相似曲面嵌入的泛化强化学习”,呈现为一个聚光灯在ICLR 2021,我们结合RL的固有顺序结构为代表的学习过程,以提高泛化看不见的任务。这与这项工作之前的主要方法是正交的,这些方法通常改编自监督学习,因此在很大程度上忽略了这个顺序方面。我们的方法利用了这样一个事实,即当代理在具有相似基础机制的任务中运行时,至少表现出在这些任务中相似的短行为序列。
我们的方法训练代理学习当代理在这些状态和未来状态中的最佳行为相似时状态接近的表示。这种接近度的概念,我们称之为行为相似性,可以推广到不同任务之间的观察。为了测量不同任务中状态之间的行为相似性(例如,跳跃任务中的不同障碍物位置),我们引入了策略相似性度量( PSM ),这是一种受互模拟启发的理论上有动机的状态相似性度量。例如,下图显示了代理在两种视觉上不同的状态下的未来动作是相同的,根据 PSM 使这些状态相似。
为了增强泛化,我们的方法学习状态嵌入,它对应于基于神经网络的任务状态表示,将行为相似的状态(如上图)结合在一起,同时将行为不同的状态分开。为此,我们提出了对比度量嵌入(CME),它利用对比学习的好处来学习基于状态相似性度量的表示。我们使用策略相似性度量(PSM)实例化对比嵌入来学习策略相似性嵌入(PSE)。PSE 将相似的表示分配给在这些状态和未来状态具有相似行为的状态,例如上图中显示的两个初始状态。
如下图所示,PSE 显着增强了前面提到的像素跳跃任务的泛化能力,优于先前的方法。
方法 网格配置
“宽的” “狭窄的” “随机的”
正则化 17.2 (2.2) 10.2 (4.6) 9.3 ( 5.4)
PSE 33.6 (10.0) 9.3 (5.3) 37.7 (10.4)
数据增加 50.7 (24.2) 33.7 (11.8) 71.3 (15.6)
数据八月+双模拟 41.4 (17.6) 17.4 (6.7) 33.4 (15.6)
数据 8 月 + PSE 87.0 (10.1) 52.4 (5.8) 83.4 (10.1)
我们还通过使用UMAP(一种流行的高维数据可视化技术)将PSE 和基线方法学习到的表示形式投影到 2D 点来可视化。如可视化所示,与先前的方法不同,PSE 将行为相似的状态聚集在一起,并将不同的状态分开。此外,PSE 将状态分为两组:(1)跳转前的所有状态和(2)动作不影响结果的状态(跳转后的状态)。
结论
总体而言,这项工作显示了利用 RL 中的固有结构来学习有效表示的好处。具体来说,这项工作通过两个贡献推进了强化学习的泛化:策略相似性度量和对比度量嵌入。PSE 结合了这两种思想来增强泛化能力。未来工作令人兴奋的途径包括寻找更好的方法来定义行为相似性并利用这种结构进行表征学习。
Be First to Comment