Press "Enter" to skip to content

使用 SEED RL 大规模扩展强化学习

强化学习 (RL) 在过去几年取得了令人瞩目的进步,最近在解决围棋和Dota 2等游戏方面取得了成功。模型或代理通过探索环境(例如游戏)来学习,同时针对特定目标进行优化。然而,当前的 RL 技术需要越来越多的训练才能成功学习即使是简单的游戏,这使得迭代研究和产品创意在计算上既昂贵又耗时。

 

在“ SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference”,我们提出了一个可扩展到数千台机器的 RL 代理,它能够以每秒数百万帧的速度进行训练,并显着提高计算效率。这是通过一种新颖的架构实现的,该架构通过集中模型推理和引入快速通信层来大规模利用加速器(GPU或TPU)。我们在流行的 RL 基准测试(例如Google Research Football、Arcade Learning Environment和DeepMind Lab)上展示了 SEED RL 的性能,并表明通过使用更大的模型可以提高数据效率。代码已在Github上开源以及使用GPU在 Google Cloud 上运行的示例。

 

当前的分布式架构

 

上一代分布式强化学习代理,如 IMPALA,利用专门用于数值计算的加速器,利用(非)监督学习多年来受益的速度和效率。RL 代理的架构通常分为参与者和学习者. Actor 通常在 CPU 上运行,并在环境中采取步骤和在模型上运行推理以预测下一个动作之间进行迭代。通常,actor 会更新推理模型的参数,并在收集到足够数量的观察后,将观察和动作的轨迹发送给学习器,然后学习器优化模型。在这种架构中,学习者使用来自数百台机器上的分布式推理的输入在 GPU 上训练模型。

 

 

RL 代理(例如 IMPALA)的架构有许多缺点:1.与使用加速器相比,使用 CPU 进行神经网络推理的效率和速度要低得多,并且随着模型变得更大且计算成本更高而变得有问题。2.在参与者和学习者之间发送参数和中间模型状态所需的带宽可能是一个瓶颈。3.在一台机器上处理两个完全不同的任务(即环境渲染和推理)不太可能以最佳方式利用机器资源。

 

SEED RL 架构

 

SEED RL 架构旨在解决这些缺点。通过这种方法,神经网络推理由学习器在专用硬件(GPU 或 TPU)上集中完成,通过确保模型参数和状态保持在本地,可以加速推理并避免数据传输瓶颈。虽然在每个环境步骤将观察结果发送给学习器,但由于基于gRPC的非常高效的网络库,延迟保持在较低水平具有异步流式 RPC 的框架。这使得在单台机器上每秒可以实现多达一百万次查询。学习器可以扩展到数千个内核(例如,在 Cloud TPU 上最多 2048 个),参与者的数量可以扩展到数千台机器以充分利用学习器,从而可以以每秒数百万帧的速度进行训练。SEED RL 基于TensorFlow 2 API,在我们的实验中,由TPU加速。

 

 

为了使该架构取得成功,两种最先进的算法被集成到 SEED RL 中。第一个是V-trace,一种基于策略梯度的方法,首先由 IMPALA 引入。一般来说,基于策略梯度的方法可以预测动作分布,从中可以对动作进行采样。然而,由于参与者和学习者在 SEED RL 中异步执行,参与者的政策稍微落后于学习者的政策,即,他们变得离政策。通常的基于策略梯度的方法是on-policy,这意味着他们对参与者和学习者有相同的政策,并且在非政策环境中存在收敛和数值问题。V-trace 是一种 off-policy 方法,因此在异步 SEED RL 架构中运行良好。

 

第二种算法是R2D2,这是一种Q 学习方法,它使用循环分布式重放根据该动作的预测未来值来选择该动作。这种方法允许 Q 学习算法大规模运行,同时仍然允许使用循环神经网络,该网络可以根据情节中所有过去帧的信息预测未来值。

 

实验

 

SEED RL 以常用的 Arcade 学习环境、DeepMind Lab 环境和最近发布的 Google Research Football 环境为基准。

 

 

在 DeepMind Lab 上,我们使用 64 个 Cloud TPU 内核实现了每秒 240 万帧,这比之前最先进的分布式代理 IMPALA 提高了 80 倍。这导致挂钟时间和计算效率的显着加速。IMPALA 需要 3-4 倍于 SEED RL 的 CPU,才能获得相同的速度。

 

 

使用针对现代加速器优化的架构,自然会增加模型大小以尝试提高数据效率。我们表明,通过增加模型的大小和输入分辨率,我们能够解决以前未解决的 Google Research Football 任务“Hard”。

 

 

论文中提供了更多详细信息,包括我们在 Arcade 学习环境上的结果。我们相信 SEED RL 和所呈现的结果表明,强化学习在利用加速器方面再次赶上了深度学习领域的其他领域。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注