Press "Enter" to skip to content

DriverGym,一个强化学习用于自动驾驶的开源平台

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

2021年arXiv上传论文“DriverGym: Democratising Reinforcement Learning for Autonomous Driving“,被NeurIPS 2021 Machine Learning for Autonomous Driving Workshop接收,作者来自Woven Planet和EPFL。

尽管强化学习 (RL) 方面取得了可喜的进展,但开发自动驾驶 (AD) 算法仍然具有挑战性:关键问题之一是缺乏在实际数据训练和有效验证 RL 策略的开源平台。DriverGym,一个开源和OpenAI Gym兼容的环境,专门开发用于自动驾驶的 RL 算法。DriverGym 提供超过 1000 小时专家记录数据,还支持反应性和数据驱动的智体行为。可用闭环评估协议在真实数据上验证RL策略性能。这项工作用监督学习和 RL 提供行为克隆基准,这些基准方法是在 DriverGym进行训练。

 

代码在线:Welcome to L5Kit !

 

如图就是DriverGym的开源环境:根据真实数据培训 RL 驾驶策略。RL 策略可以访问丰富的语义图来控制自车(红色)。其他智体(蓝色)可以从数据日志模拟,也可以用在真实数据预训练的专门策略进行控制。提供一个可扩展的评估系统(紫色),易于配置来评估训练策略的特性。

如图是开源RL仿真环境的比较:

DriverGym旨在提供灵活的界面来训练和评估 RL 政策,促进 RL 自动驾驶策略的制定。

 

状态表征捕获了自智体周围上下文信息,特别是周围智体的位置、速度、车道和红绿灯。以 3D张量形式进行编码,作为当前帧的鸟瞰 (BEV)光栅图像。DriverGym 支持 L5Kit 提供的光栅化模式。

 

如图是光栅化的模式例子:

与 Atari 环境相比,DriverGym 需要更多的时间生成观测结果,因为后者必须加载真实世界的数据,然后渲染高分辨率的光栅图像。

 

RL 策略产生的动作用于控制自智体的运动。该动作如 (x, y, yaw) 传播来更新自状态。尽管如此,DriverGym 并没有对策略本身做出任何严格的假设,例如,可以输出信息(加速、转向),并使用运动模型来解码下一步观测。

 

DriverGym 环境的一个重要组成部分是模拟周围智体的运动。DriverGym 允许灵活性,目前支持控制周围智体行为的两种方法是:日志重播(log replay)和反应性模拟(reactive simulation)。

 

在日志重播的epoch rollout期间,以完全相同的方式重播围绕自车的周围智体运动,就像在真实世界收集日志的情况一样。在反应性模拟中,智体行为是反应性的,而且逼真现实。

 

如图是一个episode rollout的可视化,其中红色是自车,蓝色是智体,绿线是策略预测绿线。

DriverGym 允许使用数据驱动模型模拟智体反应,这些模型从真实世界数据中学习智体行为;用户可以提供基于神经网络的智体模型,它们经过实际数据训练模拟智体行为。

 

环境中的奖励函数,量化了一个rollout中驾驶策略的表现,接着通过强化学习指导策略的训练。DriverGym 通过闭环评估 (CLE) 支持按帧计算的各种 AD 特定指标,并可以组合以构建奖励函数。

 

在安全-紧要的现实场景部署之前,必须有一个广泛的闭环评估 (CLE) 协议,正确评估 RL 策略的执行情况。CLE框架包括有见地的AD特定指标:第一组指标,特定于模仿学习,是基于距离的指标;第二组指标,特定于安全性,捕捉自车和周围智体之间发生的各种类型碰撞,其中包括前碰撞、侧碰撞和后碰撞。更重要的是,CLE 框架可以轻松扩展,纳入新的指标,帮助测试训练策略的各种属性。

 

如表是闭环评估协议提供的各种指标描述:

用 DriverGym 评估三种不同的算法,比较训练策略的有效性。

第一个用 L2 模仿学习损失( SL ) 的开环训练基准。
众所周知,行为克隆存在训练和测试数据之间分布漂移的困难。第二个,ChaufferNet启发的更强基准方法,在训练轨迹 ( SL+ P ) 中引入合成扰动来缓解分布漂移。
第三个,在 SB3 framework中实施的 RL 策略,即临近策略优化(Proximal Policy Optimization,PPO)。

如表报告三个模型在100个真实世界测试场景的三次运行(不同种子)表现。在基于距离的指标,PPO 在 ADE 方面与 SL + P 相似,但它受到高 FDE 的影响;PPO 显示的正面和侧面碰撞较少,但是显示的后碰撞次数要多得多,这可以解释为自车的被动性。最后,SL 是最差的,并证实了预期。

如图是评估方案:包括每帧计算 (1) 指标(例如 L2 位移误差);(2) 验证器,对每个场景的指标(L2 位移误差≤ 4 米);以及 (3) 每个场景的复合指标实施约束,取决于指标和验证器(通过的驾驶里程)的输出。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注