Press "Enter" to skip to content

Argoverse运动预测冠军,轻舟智航提出基于路径感知的图注意力模型

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

轻舟智航(QCraft)是一家世界前沿的 L4 级别无人驾驶通用解决方案公司,以“科技有为、智航无界”为愿景,轻舟智航希望打造自动驾驶超级工厂,与城市交通、出行服务、智能汽车等行业伙伴紧密协作。在车载软件、车载硬件和数据自动化闭环等方面,轻舟智航均拥有全栈自研的多项核心技术。基于此,轻舟智航推出了专注城市复杂交通场景的无人驾驶方案“Driven-by-QCraft”,适用于城市公开道路上的多种复杂路况,致力于实现城市全场景的无人驾驶,真正将无人驾驶带进现实。

 

1. 背景

 

本文介绍轻舟智航提出的用于自动驾驶的运动预测新方法:Path-Aware Graph Attention for HD Maps in Motion Prediction。该方法获得了 CVPR 2021 Workshop on Autonomous Driving 的 Argoverse 运动预测挑战赛(Argoverse Motion Forecasting Competition)的冠军。在此次比赛中,轻舟智航 Blue Team 从国内外自动驾驶领域几十支团队(包括 Waymo、华为、阿里巴巴、深动科技、海康威视等)中脱颖而出,在本次比赛的决胜关键指标 brier-minFDE 上取得显着优势,斩获冠军。相关论文刚刚被 ICRA 2022 接收。

 

 

论文链接:

 

https://arxiv.org/abs/2202.13772

 

比赛结果最新排行榜:

 

https://eval.ai/web/challenges/challenge-page/454/leaderboard/1279

 

Argoverse 运动预测挑战赛采用来自 Argo AI 的高清地图和传感器数据 Argoverse 数据集 [1] 。Argoverse 是第一个包含高精地图的数据集,它包含了 290 千米的带有丰富几何形状(车道线等)和语义信息(可行驶区域等)的高精地图数据,比赛要求参赛者根据汽车的状态和环境数据,预测各个道路使用者接下来的运动轨迹。

 

2. PAGA简介

 

轻舟智航提出的路径感知图注意力网络 (Path-Aware Graph Attention network, PAGA) 从真实世界复杂道路交通中得到启发。该方法能有效建模高精地图中多车道的长程依赖(如,跨车道交互),从而为运动预测模型提供更好的高精地图解析信息,进而提高运动预测的精度。PAGA 模块可以作为独立的插件,替代 LaneGCN [2] 中基于图卷积的高精地图处理模块,在不改变其他模块的情况下显着提升运动预测的精度。

 

PAGA 的成功在于更好地利用了高精地图信息。在理解 PAGA 的设计动机之前,先简单介绍一下目前运动预测模型中常用的高精地图的表示。运动预测模型为了充分利用地图的空间信息,通常采用栅格和向量两种表示方法。栅格地图通常将地图语义信息渲染成鸟瞰图 (BEV) 图像,从而可以方便地利用卷积神经网络对图像进行特征提取。一些经典的运动预测方法,如 MultiPath [3] , CoverNet [4] 等都采用这种方式。而向量化地图将地图用图结构进行表示,关注的是地图的拓扑信息。采用向量地图的比较有名的方法有 VectorNet [5] 和 LaneGCN [2] 等。轻舟智航的运动预测模型采用的是基于向量的地图表示。

 

3. 动机

 

PAGA 的动机来源于真实世界的复杂交通交互模型。真实世界的高精地图拓扑结构复杂多样,对于向量表示的高精地图,其主要元素是车道。不同的车道线相互连接,构成一个有向图。由于不同的边可以表示不同的语义信息,如,车道相连,或相邻等,这种图可以视为包含不同边类型的异构图。

 

下图所示是一个车道合并的场景。A 和 B 表示并线的两个车道,其中 A 是车辆当前所在车道。对于车辆向左并线的情况,不光要考虑 A 和它的一阶近邻 B 的关系,还需要考虑它和二阶近邻 C 的关系,也即邻居的邻居。建模高阶连接对基于图表示的地图编码来说是一个具有挑战的问题。一种简单的处理是采用递归的方法,比如,先考虑 A 和 B 和交互,然后考虑 B 和 C 的交互,进而推导 A 和 C 的交互。然而真实场景中,我们换道到 C 并不是采用这种递归的方式。我们通常会忽略 B 的影响,而将更多的注意力集中在 C 上。

 

PAGA 正是从这个问题得到的启发,即,一个高效的高精地图编码模型应当能够表示非一阶近邻节点(车道线)的关系,具备从路径(边的序列)来推导图上节点之间的关系。路径感知图注意力 (Path-Aware Graph Attention network, PAGA) 模型的名称也正源于此。

 

 

4. 方法

 

4.1 图神经网络和注意力机制

 

PAGA 是一个图神经网络。图神经网络中图的定义为:,其中表示顶点,表示边。顶点和边之间的关系可以用邻接矩阵来表示。和神经网络一样,图神经网络也用来做特征提取。其输入为上述的图结构数据,输出为各个节点的特征表示,。

 

图神经网络对于同一个节点的不同邻居在聚合操作时通常使用的是相同的权重,而图注意力网络则可以通过注意力机制针对不同的邻居学习不同的权重,从而得到更好的特征表示。顶点和顶点之间的注意力用来表示(注意和不一定是相邻的节点)。注意力机制用来表示节点对计算节点的贡献或者说是重要程度:

 

其中,是节点的特征表示。

 

4.2 基于路径感知的图注意力网络

 

对于异构图,不同类型的边表示不同的语义信息,对于顶点,它们之间长度为的路径定义为。PAGA 的注意力定义为:

 

其中,是顶点之间长度为的路径的集合,是一个特征提取神经网络,从中计算注意力。是一个控制最大长度的超参数。很显然,并不是越大越好,越大,顶点之间的关联性越小,而由于边数增加会带来计算量的显着增大。

 

对于给定的,顶点之间可能存在多个路径。这些路径共同描述了图上两个顶点之间信息的流动。对于高精地图的编码而言,这样的路径可以描述一个车道的车流是如何汇入另外一个车道,而沿着路径的一系列边的类型的变化可以描述交通的发展变化情况。

 

PAGA 的注意力机制是传统的图卷积网络 (GCN) 和图注意力网络 (GAT) 所不能实现的,下图对比了不同图神经网络和 PAGA 之间的对比:

 

 

GraphSAGE [6] 用 LSTM 来聚合采样的邻居节点特征,GCN [7] 可以视为二值化的注意力机制,GAT [8] 通过可学习的注意力函数来获得相邻顶点之间的注意力,而 PAGA 的注意力函数是通过 LSTM 来聚合一系列的边的特征。PAGA 的注意力机制适合高精地图的异构图结构特点,因此具有更好的表达能力。

 

5. 实验结果

 

5.1 数据集

 

PAGA 在大型 运动预测数据集 Argoverse 上进行了评估。 Argoverse 包含了向量表示的高精地图,覆盖了匹兹堡和迈阿密城市环境。 该数据集有 20 万个训练样本,每个样本为长度为 5 秒的序列,采集频率为 10Hz,即每秒 10 帧。 运动预测的任务为给定交通参与者前两秒的运动信息和高精地图信息,预测其最后 3 秒的运动轨迹。

 

5.2 评价指标

 

运动预测结果采用轨迹距离测度进行评估,如 ADE (average displacement error), FDE (final displacement error)。Argoverse 运动预测比赛中可采用多模态预测,每个模型最多可以预测 6 条轨迹,多模态的轨迹预测采用 和 测度 (即取 K 个预测中最好的 ADE 和 FDE 值)。最新的评测标准考虑了不同预测轨迹的概率的度量结果,引入了 brier-和 brier-。brier-minFDE 的计算方法是在 minFDE 上加了 ,p 为预测轨迹的概率。由以上定义可知,brier-minFDE 是考虑了算法预测距离误差和概率的综合考量。

 

 

TABLE I 所示是提出的方法与一些最先进的方法的性能对比。其中下半部分对比的是基于向量表示的高精地图的方法。

 

 

TABLE II 所示是 2021 Argoverse 运动预测挑战赛的结果对比。比赛最终排名以 Brier minimum Final Displacement Error (brier-minFDE) 为准。

 

6. 总结

 

PAGA 从真实世界复杂路网结构和交通交互中得到启发,提出的路径感知图注意力网络对高精地图的异构图结构充分挖掘,有效利用了异构图上的非局部交互信息。提出的方法在大规模运动预测数据集上进行了验证,并获得了 CVPR 2021 Workshop on Autonomous Driving 的 Argoverse 运动预测挑战赛(Argoverse Motion Forecasting Competition)的冠军。

 

由于随着路径长度的增加,路径数目和邻域顶点数量呈指数级增长,会造成计算代价的急剧增加,该方法在计算效率上还有进一步提升空间。

 

 

参考文献

 

 

[ 1] M.-F. Chang, J. Lambert, P. Sangkloy, J. Singh, S. Bak, A. Hartnett, D. Wang, P. Carr, S. Lucey, D. Ramanan, and J. Hays, “Argoverse: 3d tracking and forecasting with rich maps,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019.

 

[2] M. Liang, B. Yang, R. Hu, Y. Chen, R. Liao, S. Feng, and R. Urtasun, “Learning lane graph representations for motion forecasting,” in European Conference on Computer Vision, pp. 541–556, Springer, 2020.

 

[3] Y. Chai, B. Sapp, M. Bansal, and D. Anguelov, “Multipath: Multiple probabilistic anchor trajectory hypotheses for behavior prediction,” arXiv preprint arXiv:1910.05449, 2019.

 

[4] T. Phan-Minh, E. C. Grigore, F. A. Boulton, O. Beijbom, and E. M. Wolff, “Covernet: Multimodal behavior prediction using trajectory sets,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 14074–14083, 2020.

 

[5] J. Gao, C. Sun, H. Zhao, Y. Shen, D. Anguelov, C. Li, and C. Schmid, “Vectornet: Encoding hd maps and agent dynamics from vectorized representation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 11525–11533, 2020.

 

[6] W. L. Hamilton, R. Ying, and J. Leskovec, “Inductive representation learning on large graphs,” arXiv preprint arXiv:1706.02216, 2017.

 

[7] T. N. Kipf and M. Welling, “Semi-supervised classification with graph convolutional networks,” arXiv preprint arXiv:1609.02907, 2016.

 

[8] P. Velickovi ˇ c, G. Cucurull, A. Casanova, A. Romero, P. Lio, and Y. Bengio, “Graph attention networks,” arXiv preprint arXiv:1710.10903, 2017.

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注