跳转至

用于语言引导视频分割的局部 - 全局语境感知 Transformer

0. 引言

随着 Transformer 的大火,NLP 任务和 CV 任务的壁垒逐渐被打通。视频分割一直是一项极具挑战的任务,因为它对理解整个视频内容和各种语言概念提出了很高的要求,现有的基于 FCN 的 LVS 解决方案很难充分利用全局视频语境以及全局视频语境和语言描述之间的联系,但 Transformer 无疑为其提供了新的解决方法。本文将带大家精读 2022 CVPR 论文 "用于语言引导的视频分割的局部 - 全局语境感知 Transformer",该文章提出的视频分割模型在多个数据集上取得了 SOTA 效果,并且已经开源。

1. 论文信息

标题:Local-Global Context Aware Transformer for Language-Guided Video Segmentation

作者:Chen Liang, Wenguan Wang, Tianfei Zhou, Jiaxu Miao, Yawei Luo, and Yi Yang

来源:2022 Computer Vision and Pattern Recognition (CVPR)

原文链接:https://arxiv.org/abs/2203.09773

代码链接:https://github.com/leonnnop/Locater

2. 摘要

我们探索语言引导的视频分割 (LVS) 的任务。以前的算法大多采用 3D CNNs 来学习视频表示,难以捕捉长时间的语境,并且容易遭受视觉 - 语言错位。有鉴于此,我们提出了 LOCATER (local-global context aware Transformer), 它用有限的内存扩充了 Transformer 的体系结构,从而以高效的方式用语言表达式查询整个视频。该存储器设计为包含两个组件:一个用于永久保存全局视频内容,另一个用于动态收集局部时间语境和分段历史。基于记忆的局部 - 全局语境和每一帧的特定内容,LOCATER 整体地和灵活地将该表达理解为每一帧的自适应查询向量。该向量用于查询相应的帧以生成掩码。该内存还允许 LOCATER 以线性时间复杂度和恒定大小的内存处理视频,而变压器式的自我关注计算与序列长度成二次方比例。彻底检查 LVS 的视觉接地能力模型,我们贡献了一个新的 LVS 数据集,A2D-S+,它建立在 A2D-S 数据集之上,但在相似对象中消除歧义中提出了更多的挑战。在三个 LVS 数据集和我们的 A2D-S+ 上的实验表明,LOCATER 取得了 SOTA 效果。此外,我们基于 LOCATER 的解决方案在第三届大规模视频对象分割挑战赛的视频对象分割竞赛中获得了第一名。

3. 算法分析

如图 1 所示是作者提出的 LOCATER 视频分割模型,LOCATER 首先利用自注意力机制,通过帧内视觉语境和语言来增强每帧表征。为了进一步将时间线索纳入每帧表征,LOCATER 构建了一个外部有限记忆,它编码多时间尺度的语境,并基于注意力操作进行内容检索。这使得 LOCATER 成为一个基于完全注意力的模型,同时大大减少了空间和计算的复杂性。

图 1 LOCATER 视频分割实例

特别的是,LOCATER 存储器有两个组成部分:

1 持久地记忆全局时间语境,即从视频的整个跨度上采样的帧中总结的高度紧凑的描述符;

2 从过去的分割帧中在线收集局部时间语境和分割历史。全局存储器在整个分割过程中保持不变,而局部存储器随着分割过程而动态更新。

因此,LOCATER 获得了对视频内容的整体理解,并捕捉到时间的连贯性,从而导致情境化的视觉表征学习。根据存储的语境和一个框架的特定内容,LOCATER 通过自适应地关注信息词来生动地解释表达,并形成特别适合该框架的表达性查询向量。该特定查询向量然后被用于查询相应的语境化视觉特征以进行掩码解码。利用这样的存储器设计,LOCATER 能够全面地模拟时间依赖性和交叉依赖性

作者的主要贡献有以下三点:

1 作者提出了试点工作,基于 Transformer 建立 LOCATER 模型,实现 LVS 任务的记忆增强。并且其中的有限记忆、渐进跨模态融合、情境化查询嵌入、深度监督几个模块极大地促进了网络学习,并最终实现了 SOTA 效果。

2 有限存储器使得网络能够长期存储和提取跨模态语境,同时摆脱了 Transformer 中传统注意力机制的二次复杂度所带来的难以负担的空间和计算成本。

3 通过引入更难合成的数据集,减少了当前最流行的 LVS 基准 (A2D-S) 中过多的琐碎案例。

3.1 局部 - 全局语境感知 Transformer 架构

由于二次时间和空间复杂度,传统的 Transformer 网络很难直接应用于 LVS 任务中。因此作者设计了专门聚焦于 LVS 和多模态的 LOCATER 架构,其具有线性复杂度。

对于给定的视频输入和语言表达,LOCATER 主要有三个组成部分:

1 视觉 - 语言编码器:逐渐融合语言 embedding 到视觉 embedding 中,并对每一帧生成一个语言增强的视觉特征;

2 局部 - 全局记忆:从视觉 embedding 中收集不同的临时语境,对视觉特征给予语境化表示,并将语言 embedding 转化成用于 Q 向量的表达方式。

3 参考解码:将语境化特征及 Q 向量用于分割预测。

3.2 A2D-S+ 数据集

A2D-S 是目前 LVS 任务中最为重要的数据集之一,但作者发现 A2D-S 测试集中只包含一个演员,因此跨模态任务往往退化为新对象分割的单模态问题。此外,许多 A2D-S 视频只包含很少的对象,但具有独特的语义。为了更好地检验 LVS 模型的视觉基础能力,作者构建了一个更稳健的数据集 ------A2D-S+。它由三个子集组成,即 A2DS+M、A2D-S+S 和 A2D-S+T,它们都建立在 A2D-S 的基础上,但充分优化了 A2D-S 的局限性。具体而言,A2D-S+ 中的每个视频都被选择 / 创建为包含同一对象或动作类别的多个实例。因此,A2D-S+ 对 LVS 模型的分割能力提出了更高的要求。如图 2 所示是 A2D-S+ 数据集的示例,表 1 所示是 A2D-S+ 数据集中的统计信息。

图 2 A2D-S+ 数据集示例

表 1 A2D-S+ 数据集统计信息

4. 实验

作者在实验部分首先在三个标准 LVS 数据集上测试 LOCATER 性能,进行定量实验,包括 A2D-S、J-HMDB-S 以及 R-YTVOS。然后在作者提出的 A2D-S + 数据集上进行试验。最后,介绍 LOCATER 在第三届大规模视频对象分割挑战赛上的表现和消融实验。

4.1 A2D-S、J-HMDB-S 以及 R-YTVOS 数据集实验

如表 2、表 3 和表 4 所示为在 A2D-S、J-HMDB-S 和 R-YTVOS 数据集上的定量结果。

表 2 A2D-S 数据集定量结果

表 3 J-HMDB-S 数据集定量结果

表 4 R-YTVOS 数据集定量结果

表 2 中对比了几个主要的基于 FCN 的视频分割模型,结果显示 LOCATER 模型比现有的 LVS 方法快得多,主要原因是其记忆增强的全注意力架构设计。表 3 显示,LOCATER 模型超越了大多数指标上的其他竞争对手。值得注意的是,LOCATER 模型平均 IoU 为 66.3%,总 IoU 为 67.3%,mAP 为 45.6%,而 SOTA 方法的相应分数分别为 62.7%、65.2% 和 33.5%。

如图 3 所示为 A2D-S 测试集和 R-YTVOS 验证集上的对比结果,LOCATER 模型产生了比 ACGA 和 CSTM 更精确的分割结果。它在处理遮挡和复杂的文本描述时表现出很强的鲁棒性,尤其是当面对由场景动态引起的模糊。

图 3 A2D-S 测试集和 R-YTVOS 验证集上的对比结果

4.2 A2D-S+ 数据集实验及挑战赛结果

表 5 所示是作者在自己的 A2D-S+ 数据集上的实验结果,虽然其中对比的两大方法在 A2D-S 和 J-HMDB-S 数据集上取得了较好性能,但这两个方法很难处理作者提出的 A2D-S+ 数据任务。相比之下,LOCATER 模型产生了更好的整体性能,特别是在 mIoU 上实现了平均 3.2% 的性能提升,验证了其在以下方面的强大能力和精细的视觉语言理解。

表 5 A2D-S+ 数据集定量结果

表 6 所示是作者在 YTB-VOS21 的 RVOS 跟踪中,LOCATER 模型和其他表现最好的团队的最终结果对比。其他竞争者主要采用图像级的参考对象分割策略,简单地用固定的跟踪模块生成视频级的预测。这些方法不仅忽视了语言表达中不可缺少的长期线索,而且忽视了视频序列内在的低层次信息。相比之下,LOCATER 模型很好地解决了这些问题。最终,结果明显优于排名第二的解决方案,且差距较大,分别为 11.3 %,11.0 % 和 11.7 %。

表 6 视频分割挑战赛中的分割结果对比

4.3 消融实验

如表 7 所示,作者为了验证 LOCATER 模型性能,提出了一系列消融实验。其中分别包括视觉编码器、跨模态编码器、解码器模型、局部 - 全局记忆、语境 Query-Embedding、内存效率以及帧采样间隔。

表 7 一系列消融实验

5. 结论

本文带大家精读了 2022 CVPR 的论文 "用于语言引导视频分割的局部 - 全局语境感知 Transformer",这项工作提出了一个基于记忆增强和完全注意模型 LOCATER,主要用于 LVS 任务。LOCATER 模型能够有效地对齐跨模态表示,并通过外部存储器有效地模拟长期时间语境以及短期分割历史。通过视觉语境引导的注意力,LOCATER 模型产生了特定于帧的查询向量,用于生成掩码,在多项 LVS 任务中取得了 SOTA 效果。此外,作者提出了新的 A2D-S+ 数据集,这个数据集缓解了当前最流行的 A2D-S 数据集中对象的严重缺失问题。


本文总阅读量44