CVPR2022丨无缝连接视觉-语言，北京通用人工智能研究院提出新模型超越基准-网络知识

理解具有语言描述的复杂视觉场景图像是人工智能的一项基本任务。先前的研究工作已经通过分别为视觉场景（如场景图）和自然语言（如依存树）构建层次结构，展示了令人信服的理解结果。然而，如何建立一个联合视觉和语言（VL）的图结构、建模多模态的依存关系长期缺乏关注。

在今天要介绍的这篇论文研究工作中，来自北京通用人工智能研究院的研究人员提出了一项新任务，旨在以无监督的方式学习联合结构。目前这篇论文已被计算机视觉顶级学术会议CVPR 2022接收。

具体来说，本论文研究的目标是无缝连接视觉场景图和语言依存树。由于缺乏视觉-语言结构数据，本文首先构建了一个新的数据集VLParse。在构建这个数据集的过程中，研究人员没有从头开始使用劳动密集型标注，而是编写了一个自动对齐程序，先生成粗略的数据，然后再通过众包的形式进行人工标注优化生成高质量的结构数据。在此基础上，本文提出了一个基于对比学习的框架模型VLGAE，之后在数据集上面进行了语言语法归纳和视觉语言对齐两个衍生任务的基准测试，成功取得了超过基准的性能。

论文地址：https://arxiv.org/abs/2203.14260

Github地址：https://github.com/bigai-research/VLGAE

论文作者介绍

楼超：上海科技大学在读研究生，北京通用人工智能研究院实习研究员；

韩文娟：北京通用人工智能研究院前沿研究中心研究员；

林煜桓：清华大学本科生，北京通用人工智能研究院实习研究员；

郑子隆：北京通用人工智能研究院前沿研究中心研究员。

1 研究背景

视觉场景理解一直被认为是计算机视觉的首要目标。除了在复杂环境中实现高精度的目标检测之外，人们还进行了各种尝试来实现更高阶的视觉理解，例如预测图像的可解释的、结构化的语义表示。这种表示不仅为低阶识别任务提供了细粒度的视觉线索，还在许多高级视觉推理任务中得到了应用，例如视觉问答（VQA）、图像字幕生成和场景生成。

场景图（Scene graph，SG）是当前最流行的一种视觉结构，它是场景图像中目标实体及其复杂关系的抽象。传统的场景图生成模型以完全监督的方式从自然图像中识别实体、属性、关系及其相应的语义标签。尽管在大规模场景图基准测试中取得了很好的性能，但这些方法很受现有数据集和任务设置的限制。

首先，一个全面的场景图需要不同层次的语义理解，而大多数当前的数据集仅包含有限的用于分类的语义标签，这将导致预测模型只能预测那些存在的标签。其次，构建这样的数据集需要对每张图片的边界框、关系和相应的语义进行详尽的标注，这既耗时又低效。第三，通常很难仅从视觉输入中归纳出语义一致的图结构，这通常需要一个额外的带有大量手工标注的视觉关系识别模块。

与密集和嘈杂的视觉信息不同，自然语言直接提供符号化和结构化信息（如语法）来支持“理解”的过程。语言结构归纳的研究可以追溯到早期的计算语言学理论。

借助深度学习技术的进步，人们提出了多种结构预测算法来分析更复杂的结构信息，并将其应用于自然语言任务。依存句法分析是语言结构预测的一个重要分支，其目的是生成一棵依存句法树（Dependency tree，DT），这个解析树由表示每个单词语义的节点和表示单词之间依存关系的有向边组成。值得注意的是，这种树结构与场景图中的思想类似。然而标注依存句法树由需要专业语言学家进行，为了缓解数据标注问题，前人的工作成功地在无监督设定下学习依存句法分析器。

2 研究方法

在本文的工作中，研究人员充分利用了视觉和语言这两种模态的优点，并引入了一项新任务——无监督视觉-语言解析（简称VLParse），旨在设计一种将视觉场景图与语言依存树无缝连接起来的视觉-语言联合结构。这里所说的“无缝”是指视觉-语言结构中的节点可以呈现出场景图和依存树中某些节点的对齐信息，以及节点之间关系的对齐信息，如下图1所示。

图1：VLParse任务图示。左图是输入：图像—句子对，右图是输出:视觉-语言结构，黄色区域表示节点之间的一阶关系。

据调查所知，本文是第一个正式定义具有依赖关系的视觉-语言结构的联合表示工作。考虑到两种模态的一致性和独立性，联合视觉-语言结构考虑了哪些节点是共享的多模态实例（例如上述场景图中的“kettle”节点和依存句法分析树中的“drinks”节点是对齐的、共享的），哪些是每个模态的独立实例（例如场景图中的“chair”节点是场景图独有的，句子中没有写出来，因而也没有在依存句法分析树中表现出来）。依存树和场景图两个图的语义一致的实例（即共享的多模态实例）是对齐的，而不共享的部分属于不同模态独有的部分。本文构造的异构图，在最大限度地保留两种模态独特性的表示的同时，关注跨模态语义一致的部分。先前的一些研究工作（如VLGrammar）也表明，探索多模态信息有助于结构化理解。

VLParse（无监督视觉-语言解析）任务旨在通过深入地跨模态理解，弥合图像和语言的模态鸿沟。作为一项复杂的任务，它需要预测一个由多个实例组成的图结构，例如目标、属性、零阶关系和图像-语言对的高阶关系。不同实例之间的交互可以提供丰富的信息，并在识别和理解过程中起到补充或限制作用。

为了解决以上挑战性任务，本文提出了一种新的基于对比学习的模型：视觉-语言图自动编码器（Vision Language Graph Autoencoder，VLGAE），该模型旨在构建多模态结构并同时对齐视觉-语言信息。

如下图所示，VLGAE模型通过特征提取、结构构建和跨模态匹配等模块构建视觉语言结构。具体来说，它首先从两种模态中提取特征，并为依存树（DT）和场景图（SG）中的所有实例构建表示。结构构建模块遵循编码器-解码器范式，其中编码器使用注意力机制从图像字幕对中获取全局视觉-语言表示；解码器结合了内部算法，以递归方式构造视觉-语言结构，并计算后验概率。

图3：VLGAE框架图示。

视觉-语言结构采用最大似然估计（MLE）和重构损失进行优化。对于跨模态匹配，本文计算了视觉图像区域（RoI）和语言短语之间的匹配分数。然后通过结构构建模块获得的后验值进一步提高匹配分数。该分数用于通过对比学习策略，促进图像区域-短语对的跨模态细粒度对应。（更多细节请查阅原论文第5节。）

做AI研究很难离开数据集，本文在构建VLParse的数据集的过程中，并没有从头开始使用劳动密集型标注，而是首先编写了一个自动对齐程序，用来生成粗略的数据，然后再通过众包的形式进行人工标注优化生成高质量的数据。

本文的实验表明，将VLGAE模型与先前的语言结构归纳基线模型进行比较后，可以发现其性能有明显提升。

3 研究贡献及总结

在这项工作中，研究人员引入了一个新的任务VLParse，旨在以无监督的方式构造一个联合视觉-语言结构，刻画多模态依存关系。同时，本文提出了一个潜在的基于对比学习的框架VLGAE，旨在同时构建结构和视觉-语言对齐。在实验环节对语言语法归纳和短语基础的评估表明，视觉线索增强的VLGAE模型比非视觉版本的VLGAE更能提高学习性能。

总地来说，本研究工作有五个方面的贡献：

本文设计定义了一个连接视觉场景图和语言依存树的联合视觉-语言结构，成功刻画了多模态依存关系；
为了更好地理解跨模态视觉场景，本文引入了一个新的任务VLParse；
本文使用一个两阶段视觉-语言数据集创建方法：先自动生成粗略标注，再人工精细修正，最终收集了一个针对所提任务的数据集；
本文使用基于对比学习的VLGAE模型对提出的数据集进行基准测试，实证结果表明，VLGAE框架在单模态结构归纳和跨模态对齐方面有显著的性能提升。

相关文章

央媒谈“文盲演员”引发饭圈甩锅大战

野生大熊猫深夜遛达 镜头前呆萌打卡

张萌谈演员到底需不需要有文化

情人节多地迎领证高峰

婚房烂尾10年业主住进毛坯房

多地首套房贷利率降至4%以下 为什么急于提前还贷

野生大熊猫深夜遛达镜头前呆萌打卡

多地首套房贷利率降至4%以下为什么急于提前还贷