SSL-Lanes:用于自动驾驶中运动预测的自监督学习¶

0. 引言¶

在现实世界的城市环境中进行运动预测是自主机器人的一项重要任务，包括预测车辆和行人在内的交通主体的未来轨迹，这对于自动驾驶领域的安全、舒适和高效操作来说绝对至关重要。运动预测任务传统上是基于运动学约束和具有手工规则的道路地图信息，然而这些方法无法捕捉复杂场景中的长期行为以及与地图结构和其他交通代理的交互。在论文"SSL-Lanes: Self-Supervised Learning for Motion Forecasting in Autonomous Driving"中，作者提出了一个基于自监督学习的运动预测模型，算法已经开源。

注：之前的文章“Attention-SLAM：一个从人类注意中学习的视觉单目SLAM“非CVPR论文，而是sensors journal文章，感谢读者纠正。

1. 论文信息¶

标题：SSL-Lanes: Self-Supervised Learning for Motion Forecasting in Autonomous Driving

作者：Prarthana Bhattacharyya, Chengjie Huang, Krzysztof Czarnecki

原文链接：https://arxiv.org/abs/2206.14116

代码链接：https://github.com/AutoVision-cloud/SSL-Lanes

2. 摘要¶

自监督学习(SSL)是一种新兴的技术，已经被成功地用于训练卷积神经网络(CNNs)和图神经网络(GNNs)，以获得更可转移的、可推广的和鲁棒的表示学习。然而，它在自动驾驶运动预测方面的潜力很少被探索。在这项研究中，我们报告了第一次将自监督纳入运动预测的系统的探索和评估。我们首先提出研究四种新的用于运动预测的自监督学习任务，并在具有挑战性的大规模Argoverse数据集上进行理论基础和定量定性比较。其次，我们指出，我们的基于SSL的辅助学习设置不仅在性能精度方面优于使用transformer、复杂的融合机制和复杂的在线密集目标候选优化算法的预测方法，也具有较低的推理时间和架构复杂度。最后，我们进行了几个实验来理解为什么SSL改进了运动预测。

3. 算法分析¶

如图1所示是作者提出的自监督框架，图2是自监督任务总结，包括4种不同的自监督任务。SSL-Lanes框架的目标是通过同时学习各种自学习来提高主要运动预测基线的性能。

图1 通过联合训练进行运动预测自监督的总体框架

表1 自监督(SSL)任务概述

SSL-Lanes首次系统地研究了如何将自监督整合到标准的数据驱动的运动预测模型中，作者工作的主要贡献如下：

$1$ 证明了在运动预测中引入自监督学习的有效性。由于在推理过程中没有增加额外的参数或计算，SSL-Lanes在具有挑战性的大规模Argoverse上实现了最佳的准确性-简单性-效率平衡。

$2$ 基于运动预测问题的性质，作者提出了四个自监督任务。关键思想是利用易于访问的地图/代理级别的信息来定义特定领域的借口任务，这些任务鼓励标准模型捕捉更高级和可概括的预测表示。

$3$ 作者进一步设计实验来探究为什么预测从SSL中获益，并提供了大量的结果来假设SSL-Lanes从SSL训练中学习到了比用普通监督学习训练的模型更丰富的特征。

3.1 自监督运动预测模型¶

自监督可以以各种方式与运动预测相结合，一种方案是假设性任务(可以看作是编码器参数的初始化)来预训练预测编码器，然后用下游解码器对预训练的编码器进行微调：

第二种方案是冻结编码器，只训练解码器。第三种方案是联合优化假设性任务和主要任务，作为一种多任务学习设置。受GNNs中相关讨论的启发，作者选择了第三种方案，即多任务学习，这是三种方案中最通用的框架，也是实验证明最有效的。

在进行联合训练时，考虑到运动预测任务和自监督任务，输出和训练过程可以表述为：

3.2 运动预测的假设性任务¶

SSL-Lanes方法的核心是基于来自底层地图结构和整体时间预测问题本身的自监督信息，来定义假设性任务，并从未标注的数据中分配不同的伪标签来求解方程。具体的假设性任务包括车道掩膜、交叉点距离、机动分类以及预测成功/故障分类。

车道掩膜的假设性任务的目标是鼓励地图编码器除了学习正在优化的预测任务之外，还需要学习局部结构信息。在这个任务中，SSL-Lanes通过从扰动车道图中恢复特征信息来学习。SSL-Lanes与VectorNet在两个方面有所不同：(1) SSL-Lanes建议使用掩膜来更好地学习局部地图结构，而不是学习地图和车辆之间的交互。这是一个更容易的优化任务，使得性能更优。(2) 一个车道由几个节点组成，SSL-Lanes建议随机掩盖每个车道的一定百分比。与随机屏蔽任何节点相比，这是一个更强的先验，并确保模型关注地图的所有部分。车道掩膜的公式化表示为：

由于Argogrse的机动数据不平衡，在某些情况下，即使采用多模式预测，基线也会错过左右转弯、车道变化、加速/减速。而SSL-Lanes假设更强的地图特征可以帮助多模态预测头推断出一些预测，并地图拓扑对齐。例如，即使一个车辆很可能在一个十字路口直走，一些可能的预测也应该包括在局部地图结构的引导下的加速/减速或左右转弯。

由于车道掩膜任务是从局部结构的角度出发，并试图预测向量化的HD地图的局部属性。因此SSL-Lanes进一步开发了到交叉距离的假设性任务，以指导地图编码器。主要通过预测从所有车道节点到交叉节点的距离（根据最短路径长度）来维护全局拓扑信息。像Argogrse这样的数据集提供了车道属性来描述车道节点是否位于交叉口内的车道属性，这将迫使表示法学习每个车道节点的全局定位向量。其公式化表示为：

由于速度、加速度、主要运动方向等的变化，当车辆接近或远离十字路口时，车辆可能会发生更剧烈的变化，因此可以显式地激励模型获取交集附近的几何结构，并压缩可能的映射特征编码器的空间，从而有效地简化推理。此外，这也能提高交叉口附近的可驾驶区域的顺应性。

由于车道掩膜和到交叉口距离的假设性任务都是基于从高清地图中提取特征和拓扑信息。然而，假设性任务也可以从整体预测任务本身来构建。因此，SSL-Lanes建议以利益主体意图执行的"机动"的形式获得自由的伪标签，并定义一组"意图"来表示常见的语义模式（例如，改变车道、加速、减速、右转、左转等）。这个假设性任务为机动分类，作者希望它基于驾驶模式为地图编码器提供先验正则化。其公式化表示为：

这一任务的好处在于，如果人们能够识别出驾驶员的意图，那么车辆的未来运动将与该机动相匹配，从而减少车辆可能的终点集，并倾向于具有一致的语义表示。

最后，与机动分类提供粗粒度预测相比，自监督机制也可以通过车辆的轨迹生成的目标达到任务提供强大的学习信号。SSL-Lanes提出了一个被称为成功/失败分类的假设性任务，它训练一个专门用来实现终点目标的车辆，从而直接产生预测任务的解决方案。从概念上讲，收集到的成功目标状态的例子越多，就越能更好地理解预测任务的目标目标。其公式化表示为：

3.2 损失函数¶

由于所有的模块都是可微的，所以作者以端到端的方式来训练模型。SSL-Lanes使用分类化、回归和自监督损失的和来训练模型。具体公式为：

其中Lreg在所有时间点1：T上平均，Lss取决于上文提出的假设下任务，四个假设性任务提出的指标用于联合训练。

4. 实验¶

作者使用Argoverse数据集进行训练、验证和测试模型，该数据集任务是在给定2秒的过去观察值的情况下，预测3秒的未来运动。这个数据集有超过30K个在迈阿密(MIA)和匹兹堡(PIT)收集的真实世界驾驶序列。

网络的评价标准为ADE、FDE以及MR。ADE为在所有时间上真实轨迹和预测轨迹之间的平均位移误差，FDE为最终时间的真实轨迹和预测轨迹之间的位移误差。MR为FDE在阈值(2 m)内的最佳预测轨迹的百分比。实验在4个TITAN-X GPU上使用128个批量的Adam优化器，初始学习率为0.001，训练需要10小时完成。

4.1 消融实验¶

表2表明，所有假设性任务都提高了运动预测性能。具体来说，车道掩膜任务使minFDE提高了8.9%，Mr@200m提高了20.3%。到交叉口的距离使min-FDE分别提高了7.1%和19.3%。机动分类使min-FDE提高了6.3%，Mr@2m提高了15.4%。成功/失败分类将min-FDE提高了9.8%，Mr@2m提高了22.4%。

表2 基于Argoverse验证的运动预测性能

此外，由于假设性任务不用于推理，而只用于训练，它们也不向基线添加任何额外的参数或FLOPs，从而提高了准确性，但不影响计算效率或架构复杂性。图2所示是几个困难情况下不同假设性任务的定性结果，在第一行中，车道掩膜成功地捕获了右转。对于第二行，预测到交叉口的距离对捕捉左转帮助最大。在第三行中，交叉路口处的加速度最好由用于对交通代理的操纵进行分类的模型来捕获。最后，在第四行中，对成功的最终目标状态进行分类在捕捉左转方面是最有效的。

图2 Argoverse上的运动预测验证

图3所示是特征空间上的相似性分析，对于完全重叠的特征，相似性得分为1，对于完全不同的特征，相似性得分为0。

图3 基线特征对与不同假设性任务的CKA特征相似性

4.2 与SOTA方案的对比¶

表3所示是SSL-Lanes与其他SOTA方案在Argoverse数据集上的对比结果，结果显示SSL-Lanes具有很强的竞争力。

表3 Argoverse测试中SSL-Lanes和top方法的对比

min-FDE6和MR6两种指标对自主机器人的优化都很重要。理想情况下希望这两个指标都很低。然而，二者之间经常存在着一种权衡。图4(a)中，作者将这种权衡与其他六种流行的运动预测模型相对比，结果显示与其他顶级模型相比，SSL-Lanes成功地优化了min-FDE6和MR6。如图4(b)-©所示是准确性、效率和复杂性之间的权衡，SSL-Lanes是第一个指出当前最先进的运动预测模型在预测性能、架构复杂性和推理速度之间权衡的方案。与其他主流模型相比，SSL-Lanes具有较高的精度(min-FDE：1.25m，Mr：13.3%)，同时也具有较低的架构复杂度(1.84M参数)和较高的推理速度(3.30 ms)。因此，它为实时安全关键自主机器人的应用提供了一个很大的平衡。

图4 SSL-Lanes与其他SOTA方案的对比

4.3 SSL有效性¶

作者假设使用SSL假设性任务进行训练可能有助于如下运动预测：(1) 基于拓扑的上下文预测假设地图的小邻域中的特征相似性或平滑性。尤其是当邻域很小时，这种基于上下文的特征表示可以极大地提高预测性能。(2) 聚类和分类假设特征相似性意味着目标标签相似性，并且可以将具有相似特征的远处节点分组在一起，从而导致更好的概括。(3) 具有不平衡数据集的监督学习的性能显著下降。尽管Argoverse中的大部分数据样本都在中间路段，但有相当多的数据样本涉及直线行驶同时保持速度。

为此，作者设计了6种不同的训练和测试设置，其结果如表4所示。其中，第一个设置是使用25%的总数据进行训练，第二个设置假设SSL也可以根据来自匹兹堡(PIT)的100%的数据，而仅根据来自迈阿密(MIA)的20%的数据，进而对来自不同城市和火车的拓扑进行推广。第三个设置假设SSL学习了高级功能，因此可以在变道和转弯等困难情况下表现得更好。第四个设置选择包含2×"同速直流"机动和1×所有其他机动。最后，为了检验噪声对运动预测性能的影响，作者选取了两个已经在完整数据上训练过的模型，随机选择概率为p=0.25和p=0.5的轨迹或节点，然后在其特征上加入零均值方差和0.2方差的高斯噪声。结果显示，基于SSL的任务确实提供了更好的泛化能力，因此可以证明比单纯基于监督训练的方法更有效。

表4 不同的实验设置为基于SSL的训练有助于运动预测提供了证据

5. 结论¶

在2022论文"SSL-Lanes: Self-Supervised Learning for Motion Forecasting in Autonomous Driving"中，作者提出了SSL-Lanes，它以伪标签的形式利用从数据中生成的监控信号，并将其与标准的运动预测模型相集成，还在大规模Argoverse数据集上验证。SSL-Lanes的一个很大的优点是它具有高的准确性，同时具有低的架构复杂度和高的推理速度。作者还证明了所有提出的SSL假设性任务都比普通的运动预测基线有所改进，特别是在左/右转和加速/减速这样的困难情况。

本文总阅读量次