Press "Enter" to skip to content

端到端LSTR:Transformer让车道线检测速度快(420 fps)到飞起!

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

作者丨汐蟀

来源丨AI深度学习视线

1 摘要

 

 

车道线检测是将车道识别为近似曲线的过程,被广泛用于自动驾驶汽车的车道线偏离警告和自适应巡航控制。流行的分两步解决问题的pipeline:特征提取和后处理。虽然有用,但效率低下,在学习全局上下文和通道的长而细的结构方面存在缺陷。

 

本文提出了一种端到端方法, 该方法可以直接输出车道形状模型的参数 ,使用通过transformer构建的网络来学习更丰富的结构和上下文。车道形状模型是基于道路结构和摄像头姿势制定的,可为网络输出的参数提供物理解释。 transformer使用自我注意机制对非局部交互进行建模,以捕获细长的结构和全局上下文 。

 

该方法已在TuSimple基准测试中得到验证,并以最轻巧的模型尺寸和最快的速度显示了最新的准确性。

 

此外,我们的方法对具有挑战性的自收集车道线检测数据集显示出出色的适应性,显示了其在实际应用中的强大部署潜力。

 

论文地址:

 

https://arxiv.org/pdf/2011.04233.pdf

 

代码地址(即将开源):

 

https://github.com/liuruijin17/LSTR

 

2 本文思路

 

为了解决效率和车道线结构的问题, 建议将车道检测输出重构为车道形状模型的参数,并开发一个由非局部构件构建的网络,以加强对全局背景和车道细长结构的学习。

 

每个车道的输出是一组参数,这些参数通过从道路结构和摄像机姿态推导出的显式数学公式近似于车道标记。在给定摄像机固有参数等特定先验条件下,无需任何3D传感器,这些参数就可以用于计算道路曲率和摄像机俯仰角。

 

其次,受广泛使用transformer块来显式建模语言序列中的长期依赖关系的自然语言处理模型的启发,我们开发了一个基于transformer的网络, 该网络从任何成对的视觉特征中总结信息,使其能够捕获通道的狭长结构和全局隐含文本 。整个体系结构立即预测输出,并采用匈牙利损失进行端到端训练。损失模型采用预测与真值之间的二部匹配,保证一对一的无序分配,使模型消除了显性的非极大抑制过程。

 

在常规的多车道检测基准上验证了该方法的有效性。此外, 为了评估对新场景的适应性,我们在多个城市收集了大量具有挑战性的数据集,称为前视车道(FVL),跨越各种场景 ( 城市和高速公路、白天和夜晚、各种交通和天气条件 ) 。 该方法在复杂数据集不包含夜景等场景的情况下,对新场景具有较强的适应性。

 

本文贡献:

提出了一种车道形状模型,其参数作为直接回归输出,反映道路结构和摄像机姿态。

 

•开发了一个基于 transformer 的网络,该网络考虑了非局部的相互作用,以捕获车道和全球背景下的细长结构。

 

•本文方法以最少的资源消耗达到了最先进的精度,并对具有挑战性的自采集车道检测数据集显示了良好的适应性。

 

3 具体实现

 

本文端到端方法将输出重构为车道形状模型的参数。通过基于transformer的网络和匈牙利拟合损失对参数进行预测。

 

3.1 Lane Shape Model

 

车道形状的先验模型被定义为多项式。通常,三次曲线用来近似平地上的单车道线:

 

(X,Z)表示地平面上的点。当光轴平行于地平面时,从道路投影到像平面上的曲线为:

 

 

对于一个光轴与地平面成φ角的倾斜相机,从untilted像面到tilted像面转换的曲线为:

 

 

当φ= 0时,将Eq. 3简化为Eq. 2。

 

Curve re-parameterization

 

将参数与俯仰角φ相结合,倾斜摄像机平面的曲线为:

 

 

此外,还引入了垂直起止偏移量α、β来参数化各车道线。这两个参数提供了基本的定位信息来描述车道线的上下边界。

 

在真实的道路条件下,车道通常具有全局一致的形状。因此,近似圆弧从左到右车道的曲率相等,因此k′′,f′′,m′′,n′将被所有车道共享。因此,t-th车道的输出被重新参数化为gt:

 

每个车道仅在偏差项和上下边界上有所不同。

 

3.2 Hungarian Fitting Loss

 

匈牙利拟合损失在预测参数和车道真值之间进行匹配, 采用匈牙利算法有效地解决了匹配问题,然后利用匹配结果优化路径相关回归损失。

 

Bipartite matching

 

我们的方法预测了一个固定的N条曲线,其中N被设置为大于典型数据集图像中的最大车道数。让我们来表示预测曲线

 

   (0:  non-lane, 1:  lane)。

 

车道真值用序列表示:

 

 

由于预测曲线的数目N大于ground truth lane的数目,我们也把ground truth lane看作是一组大小为N的非lane填充集

 

 

通过搜索最优单射函数z:L→H,我们将曲线集与地面真道标记集之间的二部匹配作为一个成本最小化问题,即z(i)是分配给拟合车道真值i的曲线的指标:

 

 

匈牙利算法可以有效地解决这个问题。

 

对于指标为z(i)的预测,拟合车道序列为:

 

 

则匹配成本d为:

 

 

我们使用概率而不是[3]之后的对数概率,因为这使得分类项与曲线拟合项可通约掉。

 

Regression loss

 

回归损失计算上一步匹配的所有对的误差,其形式为:

 

 

ω1,ω2,ω3也调整损失项的影响,并设置为与Eq. 7相同的系数。

 

3.3 Architecture

 

图1所示的体系结构包括一个主干、一个简化transformer网络、几个用于参数预测的前馈网络 (FFNs) 和匈牙利损失。

 

给定输入图像 I ,主干提取低分辨率特征,然后通过压缩空间维度将其压缩成一个序列 S 。 S 和位置嵌入 Ep 馈入 transformer Encoder以输出表示序列 Se 。

 

然后,Decoder首先处理一个初始查询序列 Sq 和一个隐式学习位置差异的学习位置嵌入 ELL 生成输出序列 Sd ,计算与 Se 和 Ep 的交互以处理相关特征。

 

最后,有几种 FFNs 直接对所提出的输出参数进行预测。

 

 

Backbone

 

主干是建立在reduced ResNet18的基础上。原 ResNet18 有 4 个block和 16 倍 下采样功能。每个块的输出通道为“ 64 、 128 、 256 、 512 ”。这里, 我们简化  ResNet18 将输出通道削减为“ 16 、 32 、 64 、 128 ”以避免过拟合,并将降采样因子设置为 8 以减少车道结构细节的损失。 主干网利用输入图像作为输入,提取低分辨率特征,对高分辨率车道空间表示进行编码。接下来,为了构造一个作为编码器输入的序列,将该特征在空间维度上进行平铺,得到一个长度为 HW × C 的序列 S ,其中 HW 表示序列的长度, C 为信道数。

 

 

Encoder

 

编码器有两个按顺序链接的标准层。它们分别由一个自注意模块和一个前馈层组成,如图 2 所示。 在抽象空间表示序列 S 的基础上,利用基于绝对位置的正体嵌入 Ep 对位置信息进行编码,以避免排列变化。 该 Ep 具有与 s 相同的尺寸。编码器通过 下式 执行缩放点积注意.

 

 

其中Q,K,V表示对每个输入行进行线性变换的查询、键和值序列, a 表示度量非局部交互以捕获纤细结构和全局上下文的注意力映射, O 表示自注意的输出。 HW × C 形状的编码器 Se 的输出序列是通过FNNs、层归一化的residual连接和另一个相同的编码器层得到的。

 

Decoder

 

解码器也有两个标准层。 与编码器不同的是,每一层都插入另一个注意模块,该模块期望编码器的输出,使编码器能够对包含空间信息的特征执行注意机制,从而与最相关的特征元素相关联。 面对翻译任务,原转换器将地真序列移位一个位置,作为译码器的输入,使其每次并行输出序列中的每个元素 。在车道检测任务中,我们将输入的 Sq 设置为一个空的 N × C 矩阵,并直接一次解码所有的曲线参数。

 

此外,我们引入了一种 N × C 的学习车道嵌入算法,作为隐式学习全局车道信息的位置嵌入。注意机制与公式 9 相同,解码后的 N × C 形状的序列 Sd 与编码方法相似。训练时,在每一解码层之后进行中间监督。

 

FFNs用于预测曲线参数

 

预测模块通过三部分生成预测曲线 H 集合。单个线性操作直接将 Sd 投射为 N × 2 ,然后 softmax 层对其进行最后维运算,得到预测标签 (background 或 lane)ci,i ∈ {1 ,…, N} 。

 

同时,一个具有 ReLU 激活和隐 C 维 的 3 层感知器将 Sd 投射为 N × 4 ,其中维 4 表示四组特定路径参数。另一个 3 层感知器首先将一个特征投影到 N × 4 ,然后在第一维取平均值,得到 4 个共享参数。

 

4 实验结果

 

4.1  Comparisions with State-of-the-Art Methods

 

 

 

4.2  Ablation Study消融实验

 

Investigation of Shape Model

 

 

Number of encoder layers

 

 

 

Number of decoder layers

 

 

 

Number of predicted curves

 

 

4.3 Transfer Results on FVL Dataset

 

 

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注