Press "Enter" to skip to content

自动驾驶中混合自动化交通的协调和利他

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

arXiv上2021年7月20日上传论文 “Social Coordination and Altruism in Autonomous Driving“,作者来自UCF、斯坦福和UCSB。

自驾车 (AV) 在相互合作或与人驾车(HV)协调方面仍然效率低下且受限制。一组自驾车和人驾车,彼此协同工作以优化 利他(Altruism) 社会利益而不是利己个人利益,可以平稳共存并确保安全。如果智体之间没有明确地协调,要实现这一任务是很有挑战性的,主要是因为难以预测混合自动化环境的人类行为。

 

作者将混合自动化交通的 AV 机动规划,建模为 部分可观察的随机博弈(POSG)问题 ,并用 多智体强化学习(MARL)框架 推导成期待输出的最佳策略。这里引入自驾车社会偏好的定量表示,并设计一种 分散奖励(decentralized reward) 结构,把利他引入决策过程。这些利他 AV 形成联盟,指导交通并影响 HV 行为,这样可处理竞争的驾驶场景。

 

注:作者的改进版(采用Advantage Actor-Critic算法取代DQN)发表在CVPR‘21的workshop。

 

环境的动态和奖励函数通常是随机的,在现实问题中并不完全为人所知。 强化学习 (RL) 通过与环境的持续交互,有可能解决未知奖励和状态转换函数的 POSG问题 。 强化学习(RL )算法,例如不带策略TD学习,使智体能够从与环境的此类交互中更新价值函数。

 

状态-动作对的价值函数用函数逼近参数化,产生可泛化的策略,扩展到更大的状态空间。深度神经网络被广泛用作函数逼近器,也适用于 Q-学习算法。 深度 Q 网络 (DQN) 建立于两个主要思想,即1)用两个独立的网络进行训练,2)用 经验重放缓存(ERB) 对训练样本去相关。 前者在每次训练迭代时更新 贪婪网络(greedy network) 计算最佳 Q -值并用另一个更新频率较低的目标网络(target network)来稳定训练过程。

 

网联自驾车 (CAV) 的使命,是在引入自动化和智能来提高驾驶安全性和可靠性,减少人类驾驶的限制,例如视野范围、反应时间和分心。 智能汽车加入通信组件,进一步提高了对周围环境的感知能力,并为大规模协调和协同决策创造了机会。 这种智体之间的协调尤其重要,因为网联自驾车的潜力不在于空旷道路的单车驾驶,而在于自驾车(AV)和人驾车(HV) 的平稳共存。 工作的重点变成混合的自动化多智体环境。

 

在这个多智体设置中,智体没有其他智体行为信息,也不能彼此协调。相反,期待着从 社会奖励(social reward)信号 产生智体之间的 分散协调(decentralized coordination) 。作者提出一个协调 (coordinated)POSG,其中一个随机时变无向图包含环境中智体之间的 V2V 通信。

 

通信信息可以简单如 运动信息 ,即速度、位置和航向,或带宽要求很高的 传感数据 ,如相机和 LiDAR。利用这种共享的现场觉察(situational awareness),智体可以扩展感知范围并克服障碍物和视线限制。智体的局部观察创建于共享的现场觉察,并且取决于这个包含智体之间信息流的图(graph)结构。利用网络分析,可以对高密度高速公路的 V2V 通信进行建模。

 

如图是驾驶场景的实例分析:(a)AV-HV之间交互为有利于一个HV;(b)AV-AV之间交互为有利于一个HV;(c)AV-AV之间交互有利于一个AV。

图中例子说明利他性带来社会价值的结果,并清楚地克服利己和单智体规划的局限性。图中的每个示例都提供了一个使 HV 和 AV 都受益的利他智体之间协调的设置。 很明显,在某些情况下利他AV 必须妥协个人利益,例如为增加整个群体利益而放慢速度。 自驾车的利他和自私之间的平衡,是实现高效和安全交通的关键。

 

智体对于其对手的利己或利他的程度被定义为 社会价值取向(SVO) ,这是社会心理学的概念。 具体来说,采用角度注释的定义(见论文“ The ring measure of social values: A computerized procedure for assessing individual differences in information processing and social value orientation ,” European journal of personality 1988)。

 

SVO 角度偏好量化智体如何在自己奖励与他人奖励之间权衡,如图所示:

如图取一个高速汇入为例:一辆汇入的驾驶车,可以是 HV 或 AV,在汇入闸道进入高速公路,面对高速公路上巡航的AV-HV混合。

此配置包含一组拥有相同 SVO 的 AV,以及一组SVO 不同的 HV,因此不清楚它们是联盟还是敌人。 这种情况下,很明显,汇入车的个人利益,即平稳并入高速公路,与巡航车辆的个人利益不一致,即最优的速度和能量消耗。 这里设计的案例场景,安全和平稳的汇入要求所有 AV 协同工作。

 

驾驶员的感知通常受其视野范围、遮挡和障碍物的限制。 相比之下,网联自驾车(CAV )分享其观测能克服这些限制。 每个 CAV 都有一个独特的局部观察,是自己的局部观察以及相邻 CAV 接收的局部观察所构建。

 

决策的目标是找到一种 分散控制(decentralized control) 方案,可以在自驾车的行为促进利他主义。 因此,每个 AV 必须采用局部观察来优化其利益的独立决策。 智体利他性的价值,即 SVO 角相位,决定了智体局部动作的社会影响。 总而言之,问题表述为推导一个利益函数使 AV 能够处理竞争性驾驶场景,并引导其进入社会期望的结果,提高整个车辆的交通安全和效率。

 

最近的工作(论文 “ Reward is enough ,” Artificial Intelligence, 2021) 解释了AI如何通过经验和最大化通用奖励函数来学习复杂的任务,而不是需要特定任务的专门问题公式。 受这种决策方法的启发,作者没有将问题分解为学习如何驾驶和社会协调,而是采用 分散奖励结构 从头开始训练自动化智体,并期望其掌握高速公路驾驶的同时(例如避免碰撞和不必要的变道或加速),学习智体间的协调,最终实现安全平稳汇入的目标。

 

除了自车的绝对 Frenet 坐标外,运动学观察还包括最附近车辆的相对 Frenet 坐标。动作空间定义为 [Lane Left, Idle, Lane Right, Accelerate, Decelerate]。

 

智体间关系可以分解为自动化智体之间的交互,即 AV-AV 交互,以及自动化智体与驾驶员之间的交互,即HV与AI的交互。 将两者解耦,能够系统地研究具有模糊 SVO 的驾驶员与自动化智体之间的相互作用。

 

本文将自动化智体对驾驶员的利他性定义为 同情(sympathy) ,并将 合作(cooperation) 定义为自动化智体之间的利他行为,这样可以把分散奖励函数进行分解。合作项取决于联盟者的利益,而同情项取决于人类驾驶员的利益。

 

两个级联 多层感知器 (MLP) 网络用作 特征提取器网络 (FEN) 和 函数逼近器网络 (FAN) ,每个都有两层FCLs:分别是256 和 128 个神经元以及非线性ReLU单元。

 

如下是多强化学习(RL)智体的Q-学习算法:

首先,在 经验重放缓存 (ERB) 注入来自模拟事件的数据;从该缓存抽取随机样本用于更新 FEN 和 FAN 网络的权重; 从 ERB 抽取训练样本后,智体执行 k 次训练迭代,同时所有其他智体权重被冻结;然后,将更新后的权重分发给其他智体以更新其策略; 再对所有智体重复此过程直到收敛;这样能够稳定训练并同时训练所有智体。 关键是,应用增量更新并在更新之间保持环境不变,而优化器实现收敛。

 

由于高速公路汇入场景的性质,ERB 非常偏(严重不平衡)。 详细地说,每一情节形态上可分为两部分,高速公路直行和汇入点。 前者主要提供对学习驾驶有用的信息和训练样本,后者包含有关智体间协调和利他行为的重要信息。 每个情结只有几个时刻包含汇入点,其余大部分与高速公路巡航有关。 为了平衡从经验回放中提取的训练数据,随机抽取样本,其概率与汇入点的空间距离成正比。

 

如图是训练过程的示意图:

使用2D 微交通模拟器,用于生成模拟的情节并制定模拟混合自动化环境中HV 行为的驾驶员模型。修改 OpenAI Gym 环境,在混合自动化高速公路汇入场景中启用多智体训练和分布式执行。 随机策略确定的元动作(meta-actions)通过PID控制器转换为低级转向和加速控制信号。 然后,车辆的运动由运动学自行车模型控制,确定车辆的偏航率和加速度。 路段和智体运动以 Frenet-Serret 坐标表示,分为横向和纵向运动。

 

为确保学习可推广的策略而不是通过函数逼近网络记住一系列动作,每个模拟事件的初始状态都取随机。 无论自驾车动作如何,汇入车辆可以轻松并入高速公路的情节或自驾车没有机会安全汇入的情节,不仅不会为训练过程添加有价值的信息,而且会造成误导测量。

 

HV 的横向动作,即换道决策,遵循最小化换道引起的整体制动 (MOBIL,Minimizing Overall Braking Induced by Lane changes) 策略。 HV纵向加速遵循智能驾驶模型(Intelligent Driver Model,IDM)。

 

实验环境设置为:

HV+E. 利己(egoistic)
HV+C. 合作(cooperative)
HV+SC. 同情和合作(sympathetic and cooperative)
AV+E/C/SC. 同上成双

利他和利己智体的社会和个人表现,通过以下3 个关键假设进行比较:

H1. 虽然自私AV 无法允许汇入HV,但有同情和合作的 AV 探索安全和平稳汇入的方法。 因此,预计 HV+SC 将优于 HV+E 和 HV+C 设置。
H2. AV 隐式地学习 HV 的 SVO 并指导它们提高车辆的整体性能。
H3. 自动化智体存在一个社会价值取向(SVO)角度,既可减少崩溃次数,又可提高成功汇入次数。

如图结果:人类驾驶任务车辆 M 的采样轨迹显示了 SC 智体的功效。

如图是HV+SC 设置中的 AV(绿色)和 HV(蓝色)示例:成功汇入需要所有AV 协同工作,没有一个可以单独实现这个目标。 最影响的“guide AV”,不仅使任务车辆能够汇入(减速和向左变道),而且最小化其个人利益妥协(向右变道并以最佳速度巡航)。

尽管在 HV+SC 设置中一组车辆需要减速为任务车辆打开空间,最终与用自私智体 (HV+E) 的类似设置相比,HV 和 AV 都设法行驶更远的距离。 要注意的是,“Guide AV”的减速效果会逐渐通过后面的车队传播,并且只影响有限的一组车辆,因为车队的交通不是刚性的,它可以收缩和扩展。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注