网络知识 娱乐 在单个多任务网络中统一LiDAR语义分割、3D目标检测和全景分割

在单个多任务网络中统一LiDAR语义分割、3D目标检测和全景分割

Abstract

这份技术报告介绍了2022年Waymo开放数据集3D语义分割挑战赛的第一名获奖解决方案。我们的网络称为LidarMultiNet,将主要的LiDAR感知任务(例如3D语义分割、目标检测和全景分割)统一在一个框架中。 LidarMultiNet的核心是一个强大的基于3D体素的编码器-解码器网络,它具有一个新颖的全局上下文池 (GCP) 模块,可从LiDAR帧中提取全局上下文特征以补充其局部特征。提出了一个可选的第二阶段来细化第一阶段的分割或生成准确的全景分割结果。我们的解决方案实现了71.13的mIoU,并且在Waymo 3D语义分割测试集的22个类中是最好的,优于官方排行榜上的所有其他3D语义分割方法[7]。我们首次证明主要的 LiDAR感知任务可以统一在一个可以端到端训练的强大网络中。

1. Introduction

LiDAR 3D语义分割是自动驾驶的基本感知任务。随着最近几个带有语义标签的大规模LiDAR点云数据集的发布[1, 3, 25],提出了更多的方法来推进LiDAR语义分割的研究。

与2D图像和3D室内点云分割相比,室外LiDAR点云对分割问题提出了更多挑战。由于LiDAR点云的大规模和稀疏性,经过充分研究的2D和室内3D语义分割方法[19, 20]无法直接适应LiDAR语义分割。随着稀疏卷积[6, 28]的出现,更多的方法开始在3D 体素空间中分割点云。然而,由于稀疏卷积的要求和分割任务对编码器-解码器结构的需求,以前基于体素的LiDAR分割网络[5, 36]难以学习全局上下文信息。另一方面,最近的作品试图融合来自多个视图的特征,这些视图包含体素级和点级信息。这些方法更侧重于利用局部点几何关系来恢复用于分割的细粒度细节。

图1

图 1. 我们的LidarMultiNet将LiDAR点云(a)作为输入,并在单个统一网络中同时执行3D语义分割(b)、3D目标检测(c)和全景分割(d)。

主要的LiDAR感知任务,包括3D分割(例如PolarNet[34])、3D目标检测(例如CenterPoint[31])和全景分割(例如PanopticPolarNet[35]),通常在单独和独立的网络中执行。在这项工作中,我们建议将这三个主要的LiDAR感知任务统一在一个网络中,利用这些任务之间的协同作用并实现最先进的性能,如图1所示。

我们的主要贡献总结如下:

  • 我们提出了一个高效的基于体素的LiDAR多任务网络,它统一了主要的LiDAR感知任务。
  • 我们提出了一种新颖的全局上下文池(GCP)模块,以改进基于3D稀疏卷积的编码器-解码器架构中的全局特征学习。
  • 我们引入了第二阶段细化模块来细化第一阶段语义分割或产生准确的全景分割结果。

2. Related Work

「LiDAR Semantic Segmentation」 LiDAR点云语义分割通常需要将大规模稀疏点云转换为3D体素图、2D鸟瞰图(BEV)或范围视图图。遵循LiDAR点云检测方法[14, 29]的趋势,PolarNet[34]将点云投影到2D极坐标BEV地图中,以平衡体素化过程中的点分布。由于点云处理中3D稀疏卷积层[6, 28]的发展,更多的方法[5, 36]开始在体素特征图上使用3D稀疏CNN进行LiDAR点云分割。与最近的方法相比[5,27,30,36]专注于细节的细粒度特征,我们的方法旨在增强基于体素的分割网络中的全局特征学习。

「Two-stage Semantic Segmentation」 两阶段或多阶段细化是点云对象检测网络中的常见过程[16、23、24、31],但很少用于点云语义分割。在图像域中,各种方法[4, 15, 32, 33, 37]使用多个阶段来细化从粗到细的分割预测。

「LiDAR Panoptic Segmentation」 最近的LiDAR全景分割方法[12、21、35]通常以自下而上的方式源自经过充分研究的分割网络[5、34、36]。这主要是由于检测网络中高度信息的丢失,这使得它们难以将学习到的特征表示调整为分割任务。这导致最佳分割[27]和检测[31]方法的两种不兼容设计。根据[9],与独立组合的检测和分割模型相比,端到端LiDAR全景分割方法仍然表现不佳。在这项工作中,我们的模型可以同时执行3D目标检测和语义分割,并以端到端的方式联合训练任务。

「Multi-Task Network」 MultiNet[26]是基于图像的多任务学习的开创性工作,它将目标检测和道路理解任务统一在单个网络中。在基于LiDAR的感知中,LidarMTL[8]提出了一种基于3D稀疏卷积和反卷积的简单高效的多任务网络,用于联合目标检测和道路理解。

3. Method

3.1. Voxel-based LiDAR Segmentation

3.2. LidarMultiNet

LidarMultiNet的主要架构如图2所示。主网络由基于3D稀疏卷积和反卷积的编码器-解码器架构组成。新颖的GCP模块应用于编码器和解码器之间。网络可以附加两个辅助任务,即3D目标检测和BEV分割。可以应用可选的第二阶段来细化语义分割并生成全景分割结果。

图2

图 2. LidarMultiNet的主要架构。我们网络的核心是一个基于3D稀疏卷积和反卷积的3D编码器-解码器。在编码器和解码器之间,我们应用我们新颖的全局上下文池(GCP)模块,通过稀疏和密集特征图之间的转换以及2D多尺度特征提取器来提取上下文信息。3D分割头连接到解码器输出及其预测的体素标签通过去像素化步骤投影回点级。两个辅助头,即BEV分割头和3D检测头可以附加到2D BEV特征图上。可选的第二阶段产生精细的语义分割和全景分割结果。

图3

图 3. 子流形稀疏卷积。卷积只发生在有效体素上。特征无法到达中间有大间隙的体素。

3.3. Global Context Pooling

3D稀疏卷积大大减少了3D CNN的内存消耗和运行时间,但它通常需要相同规模的层才能在编码器和解码器中保持相同的稀疏性。这将网络限制为仅使用相同规模的子流形卷积[10](图3)。然而,子流形卷积不能通过堆叠多个卷积层将特征广播到孤立的体素,从而限制了学习全局上下文信息的能力。全局上下文池(GCP)旨在通过将全局上下文特征投影到2D密集BEV特征图,然后在应用2D多尺度特征提取器后将密集特征图转换回来,从3D稀疏张量中提取全局上下文特征。


图4

图 4. 全局上下文池(GCP)模块示意图。将3D稀疏张量投影到2D BEV特征图。连接两个级别的2D BEV特征图,然后转换回3D稀疏张量。

受益于GCP,我们的架构可以显着扩大感受野,这在语义分割中起着重要作用。此外,GCP中的BEV特征图可以与其他任务(例如目标检测)共享,只需附加额外的头,计算成本略有增加。通过利用像目标检测这样的BEV级训练,GCP可以进一步提高分割性能。

3.4. LiDAR Multi-task Learning

「Auxiliary Tasks」 我们将广泛用于anchor-free3D检测的CenterPoint [31]的检测头连接到多尺度特征提取器。动机是双重的。首先,检测损失可以作为辅助损失,并有助于利用分割和检测任务之间的协同作用,因为Waymo开放数据集(WOD)具有用于事物类别的分割和边界框标签(即,可数对象,如行人和车辆)。其次,网络超越了同时执行两项任务的多任务网络。

除了检测头之外,还可以在网络的2D分支上附加一个额外的BEV分割头,提供粗略的分割结果,并在训练期间作为另一个辅助损失。

3.5. Second-stage Refinement

在训练期间,检测作为分割网络的辅助损失,不直接对分割做出贡献。如图6所示,由于缺乏空间先验知识,检测边界框中的点可能被错误分类为多个类别。为了提高事物类的空间一致性,我们提出了一种新的基于点的方法作为第二阶段,该方法也可用于提供准确的全景分割结果。第二阶段如图5所示。

我们通过融合第一阶段预测和第二阶段预测来计算最终分数。此外,我们可以将细化的分割结果与预测的框分数相结合来进行全景分割。

图5

图 5. 第二阶段细化管道示意图。第二阶段细化的架构是基于点的。我们首先融合第一阶段检测到的框、体素特征和BEV特征,以生成第二阶段的输入。我们将局部坐标变换应用于每个框内的点。然后,具有MLP、注意力模块和聚合模块的基于点的主干网络推断出box-wise分类分数和point-wise mask分数。通过融合第一阶段和第二阶段的预测来计算最终分数。

图6

图 6. 第二阶段细化的示例。第二阶段可以提高事物目标点的分割一致性。

5. Conclusion

我们提出的LidarMultiNet在2022年Waymo开放数据集3D语义分割挑战赛中获得第一名。作为我们未来的工作之一,我们计划验证LidarMultiNet在3D目标检测和全景分割基准上的有效性。

论文链接:https://arxiv.org/pdf/2209.09385