Press "Enter" to skip to content

UMBRELLA:不确定性-觉察、利用规划的基于模型离线强化学习方法

一篇论文“UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning Leveraging Planning“,被NeurIPS 2021 Machine Learning for Autonomous Driving Workshop接收,作者来自德国多特蒙德大学。

离线强化学习(RL)提供了一个从离线数据学习决策的框架,对自动驾驶这样实时应用是一个有前途的方法。特别在安全-紧要的应用比如自动驾驶,可解释性和可转移性是成功的关键。这促使人们提出利用规划的基于模型离线 RL 方法。然而,目前方法往往忽略多智体系统的随机行为所产生的任意(aleatoric)不确定性影响。本文提出一种不确定性-觉察、利用规划的基于模型离线强化学习( UMBRELLA )方法,该方法以可解释的基于学习方式联合解决SDV的预测、规划和控制问题。训练得到以动作为条件的随机动力学模型,捕获了交通场景未来截然不同的演变。这个基于真实世界公共数据集的方法,在具有挑战性的自动驾驶模拟有效性提供了经验证据。

 

UMBRELLA 学习随机动力学模型、 行为克隆(BC) 策略和截断价值函数,如 图 a 所示:UMBRELLA是 MBOP (“ Model-based offline planning “. ICLR, 2021)方法的延伸,并为不同的未来演变进行规划。每个模型都是 K 个神经网络的自举集成。每个集成头的权重初始化方式不同,但在同一数据集 D 进行训练。粗箭头指示使用规划/学习循环的部分,由于离线学习从”动作到数据”没有箭头。

 

预测其他智体对自动驾驶车的响应非常关键,主要面临人类行为的不确定性。以 图 b 所示的情况为例:这里另一个智体(绿色)开始切入自驾车(白色)的车道;自驾车必须估计每个未来结果的概率(即另一个智体中止或继续机动),并相应地规划其动作。

 

UMBRELLA 使用连续潜变量 z 对在时间 t 其他智体行为的随机性进行建模。由于在规划期间枚举自驾车所有可能动作是难以解决的,因此根据学习的行为克隆策略对动作进行采样。这导致在规划范围H高效地专家一样推出N个潜状态轨迹。对轨迹采样后,该方法采用return-weighted的轨迹优化器。这项工作遵循n-阶历史方法解释状态,不是全可观察(例如人类驾驶员意图),并且只是根据到时间t的最后观测进行估计。

UMBRELLA的增强模型捕捉自动驾驶环境中预测和规划之间的交互作用。该模型是CVAE(“ Auto-Encoding Variational Bayes “. IICLR, 2014),输出下一个状态的预测和相应的奖励预测。当模型输出两个预测时,最小化训练期间的多任务均方误差损失。

 

潜变量 z对不同的未来预测进行建模,并确保输出对输入是不确定的。在训练期间,从后验分布中对潜变量进行采样。由于只能在推理过程中从先验分布中抽样,因此根据训练VAE的证据下限( Evidence Lower BOund,ELBO )目标定义,后验分布和先验分布之间的Kullback-Leibler(KL)发散度也最小化。

 

采用加权因子ζ的每个样本损失由下式给出

在推理过程中,该算法根据随机前向动力学模型推出有潜力的状态轨迹。为此,应用由行为克隆策略指导的动作采样过程。UMBRELLA学习一个行为克隆策略的自举集成。该模型将当前状态和以前的动作作为输入,并输出当前动作。通过连接先前的连续动作,学习的动作应该更平滑。

 

UMBRELLA 还学习截断价值函数,处于当前状态和先前执行的连续动作情况下估计后面H episodes的预期 return。这样无需增加动态模型的推出次数,可有效地扩展规划范围。

 

如图是训练中随机前向动态模型的架构:

下图是行为克隆的策略网络架构:

而如图是截断价值网络架构:

在训练和测试中的随机前向动态模型信号流:灰色的信号流只是针对训练,而黑色的信号流同时针对训练和推理。

UMBRELLA使用在控制和自动化方面的 模型预测控制(MPC) 来规划其动作。在每个规划步骤中,该算法求解有限范围最优控制问题,从而得到长度为H的最优轨迹T;然后执行最佳控制序列的第一个动作;一个最优控制问题的重复求解减少建模错误的影响。

 

UMBRELLA的规划算法用于每个MPC规划周期,获得最佳的行动轨迹,其中根据相关奖励对每个动作重新加权,即 model predictive path integral (MPPI) 框架:

如下是 UMBRELLA 的规划伪代码算法:

由于假设人类驾驶员不会不稳定地切换其驾驶模式,因此潜变量在整个轨迹是固定的(第6行),从而产生一致的预测;通过从 BC 策略抽样一个有高斯噪声的动作,BC 策略引导轨迹的扩展(第 14 行);之后,用混合系数将动作与上一个时间步(第 15 行)的轨迹一起平均;然后,UMBRELLA 用动力学模型(第 16 行)推出状态轨迹,并计算所有集成的平均奖励(第 17 行);在轨迹的最后,计算截断价值函数的所有集成平均值。

 

另外还有 UMBRELLA-P ,一个悲观轨迹优化器。UMBRELLA 和 MBOP 用所有采样轨迹来计算加权轨迹;UMBRELLA-P 仅聚合总和超过return的集成头的那些轨迹。因此,该算法首先计算集成的所有奖励总和。然后,它选取总和超过return的集成项。最后,在轨迹中进行动作重新加权。因此,UMBRELLA-P在面对最坏情况结果时,面对认知(epistemic)不确定性进行优化,并悲观地采取动作。

 

实验环境:第一个环境是基于Next Generation Simulation program’s Interstate 80( NGSIM I-80)数据集的具有挑战性的多智体自动驾驶环境。自驾车的目标是保持在车道中间,同时避免碰撞;第二个环境包括在 CARLA 模拟器中实现的城市多智体场景。自驾车应该沿路线前进,在繁忙的十字路口执行无保护左转,同时避免碰撞。如图(a)-(c)说明了这两个实验。

以下方法是实验的基准:(i)1-step IL:行为克隆策略模仿专家驾驶的一个学习策略;(ii)MBOP:确定性动力学模型的基于模型离线RL方法;注:为公平比较,MBOP 所有其他组件都与 UMBRELLA 方法相同;在NGSIM环境中,还有(iii)MPUR(“ Model-predictive policy learning with uncertainty regularization for driving in dense traffic “. ICLR, 2019),一种基于模型的策略学习方法,解释了认知和任意不确定性;(iv)人类:人类的基本GT行为。(v) 无操作:始终用零动作的策略。

 

上面图(d)是 UMBRELLA规划的轨迹重叠的上下文图像,轨迹根据其预测的return进行着色;自驾车以白色表示,其他智体以绿色显示;黑色表示道路和红色表示车道标记。

 

下表是和基准的结果比较:

主要的局限性包括以下两个:

 

 

    1. 奖励函数不匹配:奖励不当设计是自动驾驶贡献中的常见问题,需要在未来的工作中解决。

 

    1. BC策略的依赖:今后采用多模态BC策略。

 

 

这项工作提出一种基于模型离线强化学习方法,该方法考虑认知和任意不确定性。在交通密集的多个具有挑战性的自动驾驶场景进行实验,发现结合算法不确定性可以提高基于规划的方法性能。

 

此外,所提出的方法还改进简单行为克隆略的不良性能。文章还展示了在自动驾驶中,该方法和当前基于规划离线RL方法的局限性。未来的工作应侧重于改进行为克隆策略的先验,使用基于图的表示而不是光栅图像表示,并研究其他优化技术的使用。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注