Nuscenes最新SOTA | DynamicBEV超越PETRv2/BEVDepth成为最强BEV检测模型！-轻识

点击下方卡片，关注「集智书童」公众号

3D目标检测对于自动驾驶和机器人等应用至关重要。虽然基于查询的鸟瞰图像（BEV）的3D目标检测取得了显著的进展，但大多数现有方法遵循静态查询的范式。这种范式无法适应场景中复杂的时空关系。

为了解决这个问题，作者引入了DynamicBEV，这是一种新的方法，采用了用于基于BEV的3D目标检测的动态查询的范式。与静态查询不同，提出的动态查询以创造性的方式利用K-Means聚类和Top-K注意力，更有效地从局部和远程特征中汇总信息，使DynamicBEV能够迭代地适应复杂的场景。

为了进一步提高效率，DynamicBEV还包括一个轻量级时间融合模块（LTFM），专为与显著的计算减少一起进行高效的时间上下文集成而设计。

此外，定制设计的多样性损失确保了各种场景下的平衡特征表示。

在nuScenes数据集上进行的广泛实验验证了DynamicBEV的有效性，确立了新的最先进技术，宣告了基于查询的BEV目标检测的范式级突破。

1. 简介

3D目标检测是各种应用中的关键任务，如自动驾驶、机器人和监控。在3D目标检测领域，基于鸟瞰图（BEV）的算法因其提供俯视视角的能力而日益受到重视，它将复杂的3D场景简化为2D表示。这种视角有助于降低计算复杂性，提高目标定位的清晰度。

然而，传统的基于查询的BEV方法主要利用静态查询，即查询权重在训练阶段学习，并在推理期间保持不变。这种静态性质限制了模型有效利用空间和时间上下文以及适应复杂场景的能力。作者认为，从静态查询向动态查询的演变可以启动3D目标检测的一个新范式，该范式将利用更强大的机制来自适应地捕捉复杂的时空关系。

图1展示了基于静态查询的方法，如DETR3D，利用在训练期间可学习的查询，但在推理期间保持固定。相反，作者的基于动态查询的方法DynamicBEV允许查询以迭代的方式适应输入数据，提供更强的泛化能力和灵活性。

在这个基础上，作者引入了DynamicBEV，这是一种开创性的方法，引领了基于查询的3D目标检测中的动态查询。与BEV方法中的传统静态查询不同，作者提出的动态查询在复杂场景中经历迭代自适应。具体而言，作者利用特征聚类生成自适应场景表示，并开发了一个Top-K注意力机制，其中查询适应于最相关的前k个簇。这种动态性允许每个查询从局部和远程特征簇中自适应地聚合信息，从而显著增强了模型捕捉复杂3D场景的能力。

除了Top-K注意力机制，作者引入了一种多样性损失，以平衡关注权重，确保不仅考虑最相关的特征，还考虑不太显著的特征。这不仅提高了检测的准确性，还增强了模型对不同场景的鲁棒性和适应性。

为了进一步提高DynamicBEV的效率，作者提出了轻量级时间融合模块（LTFM）。与传统的时间融合方法不同，后者会带来重大的计算负担，LTFM重用了已计算的动态查询及其相关的特征簇，从而消除了传统时间融合方法中特征提取的重大成本，显著提高了时间上下文整合的效率。

作者在nuScenes数据集上对DynamicBEV进行了严格评估，结果显示它在准确性和效率方面明显领先于最先进的方法。

2. 本文方法

在本节中，作者介绍了DynamicBEV，这是一种旨在实现有效和高效的3D目标检测的新方法。传统的基于静态查询的方法缺乏捕捉3D空间多样性所需的动态性。相反，DynamicBEV利用经过迭代更新的动态查询，从而在识别不同目标属性方面实现无与伦比的适应性。

DynamicBEV的关键组件如图2所示，静态查询和动态查询方法之间的比较如图1所示。

DynamicBEV由多个整合组件组成，它们协同工作以促进强大和精确的3D目标检测。该框架包括负责初始特征提取的Backbone网络。利用提取的特征，Dynamic Query Evolution Module (DQEM)开始发挥作用。

首先，DQEM利用K-Means聚类将特征分组到每个查询周围，为复杂的3D场景提供自适应结构表示。
然后，DQEM采用Top-K注意模块来迭代地细化与其关联的特征簇的查询。
最后，引入了轻量级时间融合模块（LTFM）以高效地捕获每个查询的时间上下文。

2.1. Dynamic Query Evolution Module (DQEM)

2.1.1 查询（Pillar）的初始化

在3D目标检测的背景下，查询（通常称为“Pillar”）的初始化在随后的检测性能中起着关键作用。在BEV空间中，这些查询通常用作引导检测过程的参考点或锚点。查询集合Q可以表示为：

其中是第个Pillar的空间坐标，表示其在BEV空间中的位置。，，分别是Pillar的宽度、长度和高度，提供了形状属性。是Pillar的方向角，提供了其在BEV空间中的对齐信息。和是Pillar的速度分量，捕捉其运动动态。

在传统方法（如SparseBEV）中，这些查询及其关联特征是基于预定义的网格结构进行初始化的，并在整个检测过程中保持不变。这种静态性质旨在捕捉一般目标模式，但不擅长处理复杂的具有细节的目标的多样性场景。

相反，在DynamicBEV中，关联特征被分组到一个聚类结构中，这更适应了复杂的3D场景，每个Pillar迭代地调整其属性（如位置、尺寸或方向），基于关联特征簇。这种动态性使Pillar更好地适应3D场景中的目标属性，从而实现更准确和更强大的检测。

2.1.2 K-Means聚类

在DynamicBEV中，首先使用K-Means聚类将每个查询的周围特征F分成K个簇。采用K-Means聚类的理念在于将特征空间划分为簇，在这些簇中，特征的方差最小化。这使得每个查询可以关注一组连贯的特征，而不是无组织的点，这是一种更自适应和有结构的表示，从而增强了模型在3D场景中识别目标的能力。经过K-Means聚类后，每个查询将有一组特征簇，形式上表示为：

和簇中心：

这些簇封装了每个查询周围的局部模式，并为模型提供了动态3D场景的自适应结构表示的基础，这是后续的Top-K注意力步骤的基础。

2.1.3 Top-K注意聚合

为了让每个查询以动态方式聚合特征，作者引入了Top-K注意力机制。对于每个查询，作者计算其与来自K-Means聚类的特征簇的关联的注意权重。

计算注意分数：

对于每个查询特征q和每个簇，计算一个注意分数。

在这里，Wq表示查询的权重向量，Wk表示簇的权重向量。点积衡量查询与每个簇之间的相关性。

这一步使模型能够测量每个特征簇相对于查询的重要性，从而实现更明智的聚合。

选择前K个簇：

将注意分数Ak按降序排序并选择前K个簇。

这种选择性注意力机制使每个查询能够关注最相关的簇，这些簇甚至可能更远，从而丰富了聚合特征。

加权特征聚合：

使用它们的注意力权重聚合所选的簇，形成聚合特征，以更新每个查询。

加权和允许丰富的特征组合，使每个查询能够自适应地关注周围特征的不同方面。

聚合特征作为3D目标预测的基础。通过允许每个查询甚至从远处的簇聚合信息，模型捕获长距离依赖性的能力显着增强。这种能力在3D目标检测中特别重要，因为目标可能具有在空间上分离但在语境上相关的部分。

2.1.4 用于平衡特征聚合的多样性损失

提出的Top-K注意力机制有过于关注与每个查询相对应的最相关特征的风险。虽然这种方法在捕捉主导模式方面是有效的，但它经常忽视可能对某些边缘情况或特定情况至关重要的长尾或不太突出的特征。例如，在涉及车辆和行人的3D目标检测任务中，仅关注最相关特征可能会捕捉车辆的整体形状，但会忽略像侧面镜或指示器这样的较小但重要的细节，这对于精确定位和分类至关重要。

为了解决这一限制，作者引入了多样性损失。这个损失函数旨在通过确保不仅考虑最相关的特征，还考虑不太突出的特征来平衡注意力机制。与不考虑手头任务的传统基于熵的损失不同，作者的多样性损失是精心设计用于3D目标检测，确保在不同特征簇之间实现平衡的注意分布，形式上表示为：

其中以下函数在反向传播过程中起到稳定梯度流的关键作用，尤其是在处理不同相关性簇时：

这种多样性损失带来了几个好处:

首先，它通过鼓励模型关注各种特征，而不仅仅是最显著的特征，促进了平衡的特征表示。这对于捕捉不太明显但潜在关键的特征尤其有用。
其次，该方法增强了模型的稳健性，使其能够更好地适应不同情境和噪声水平。
最后，它促进了对数据的更全面理解，从而提高了模型的泛化能力。

2.1.5 查询的动态适应

在将查询初始化为Pillar并执行K-Means聚类以获取特征簇之后，下一个关键步骤是根据Top-K注意力机制动态调整这些查询。这种动态适应是与SparseBEV不同之处，其中查询是静态的。在DynamicBEV中，每个查询不仅捕获局部信息，还根据与其关联的特征簇动态更新，以从大范围的特征簇中聚合相关特征。

初始特征聚合：

对于每个查询，使用简单的平均或任何其他聚合方法聚合初始特征集。

这种初始聚合作为一个基准，捕获查询的直接邻近区域。它充当Anchor，为后续的动态调整提供基础。

Top-K注意更新：

应用先前描述的Top-K注意力机制，通过其关联的特征簇来自适应地更新每个查询。

在这里，是从Top-K注意中获得的聚合特征，是一个超参数，用于控制初始和动态聚合特征的混合。

这一步允许每个查询自适应地优化其特征表示，既可以基于局部信息又可以基于远程信息，增强了其捕捉复杂模式和关系的能力。

迭代更新：

重复执行K-Means聚类和Top-K注意步骤，使用新更新的查询q作为下一次迭代的新Pillar。这种迭代更新确保查询不断适应不断变化的特征景观，从而增强了模型的稳健性和适应性。

通过通过K-Means聚类和Top-K注意的组合迭代更新查询，DynamicBEV确保每个查询既在局部又在全局上得到通知，从而捕获更丰富和更平衡的特征表示。这种动态适应是对SparseBEV的重大改进，其中Pillar保持静态，不能适应捕捉长距离的依赖关系。

2.2. 轻量级时间融合模块

在DynamicBEV中，作者的轻量级时间融合模块（LTFM）的关键优势在于其计算效率。与依赖资源密集的递归或卷积层的传统时间融合方法不同，LTFM利用已计算的动态查询及其对应的特征簇，从而避免了额外的繁重计算。

时间查询初始化：

时间查询使用当前和先前的动态查询的加权组合进行初始化，从而重用现有的计算。

通过重用动态查询，作者消除了单独的时间查询提取的需求，从而降低了计算开销。

动态时间聚合：

Top-K注意力机制直接应用于，重用了先前计算的特征簇，同时适用于当前和以前的时间步。

这消除了单独的时间特征提取的需求，进一步降低了计算成本。

查询更新：

时间查询使用聚合的时间特征进行更新，类似于前面章节中的动态查询更新。

更新操作计算轻便，因为它只涉及基本算术操作，从而提供了计算效率。LTFM提供了一种在不引入显著计算负担的情况下，有效地整合时间上下文的方法。通过重用现有的计算以避免额外的复杂操作，LTFM为时间融合提供了轻量而有效的解决方案。

2.3. 计算复杂性

DynamicBEV的计算效率是其关键优势之一。以下，作者从时间复杂性的角度对此进行量化：

总体时间复杂性约为，其中是数据点的数量，是簇中心的数量，是K-Means迭代次数，是每个数据点的维度。

与需要更复杂的时间融合技术，如RNN或CNN的方法相比，这种复杂度相对较低。

3.实验

3.1. 与最先进方法的比较

表1展示了作者的DynamicBEV与其他最先进方法相比在nuScenes验证数据集上的性能，它在nuScenes检测分数（NDS）方面表现优异，明显优于其他方法。使用ResNet50作为Backbone网络，输入尺寸为704×256，DynamicBEV实现了55.9的NDS，略高于SparseBEV的54.5。更重要的是，当应用透视预训练（†标志表示）时，DynamicBEV的NDS分数升至57.0，超过了SparseBEV的55.8。

在更复杂的配置下，例如使用ResNet101作为Backbone网络，输入尺寸为1408×512，DynamicBEV以60.5的NDS超过了SparseBEV的59.2，成为当前的领先方法。

DynamicBEV一直保持较高的平均精度（mAP）分数，证明了其强大的目标检测能力。在mATE、mASE等真正正样本指标方面，DynamicBEV与SparseBEV和其他竞争方法相比表现出色。此外，该模型在细粒度评估指标如目标方向误差（mAOE）和属性误差（mAAE）方面也表现出色。透视预训练的应用不仅改善了几乎所有评估指标，还展示了该模型的适应性和灵活性。

DynamicBEV的优势主要源于两个内在因素：

首先，DynamicBEV的设计使其能够更好地捕捉远程依赖关系。在3D目标检测中，目标的不同部分可能在空间上相距较远，但在上下文中是相关的。例如，汽车的前部和后部在BEV空间中可能相距很远，但它们属于同一目标。StaticBEV是一种基于静态查询的方法，可能在这种情况下表现不佳，因为其查询点是固定的，不能动态地适应不断变化的场景。相反，DynamicBEV通过其Dynamic Query Evolution模块，可以实时更新其查询点，从而更好地捕获这些远程依赖关系。
其次，DynamicBEV更能应对现实场景的动态性。在现实场景中，目标可能会移动、旋转或改变形状。StaticBEV以其静态查询点，在这种动态变化的场景中可能会出现问题。然而，DynamicBEV通过其动态查询和K-Means聚类，可以动态调整其查询点，从而更好地适应不断变化的场景。

3.2. 消融研究

3.2.1. 动态查询演化模块（DQEM）

对于所有的消融研究，作者使用ResNet-50作为Backbone网络，并采用相同的训练和评估协议。Baseline模型采用标准的交叉注意力机制。Dynamic-K Block集成了动态查询、K-Means聚类和Top-K注意力作为统一模块。作者将其与使用标准交叉注意力的Baseline模型进行比较。

表2显示，引入Dynamic-K Block将NDS提高了4.2%，mAP提高了4.3%，相对于Baseline模型。Dynamic-K Block显著提高的性能可以归因于其能够动态地关注关键特征。传统方法使用静态查询点，如Baseline模型，可能无法适应现实场景的动态性质。

相比之下，Dynamic-K Block，通过集成动态查询、K-Means聚类和Top-K注意力，允许模型根据场景的上下文动态调整其关注点。这种适应性确保了在复杂场景中，模型可以优先考虑关键特征，尤其是在目标可能被遮挡或相互遥远的复杂场景中。

为了进一步了解聚类机制对DynamicBEV性能的影响，作者在表3中探讨了替代聚类方法的性能。

具体来说，作者评估了DBSCAN和凝聚层次聚类的性能，并将它们与作者的默认选择K-Means进行了比较。从结果来看，K-Means在NDS和mAP方面明显优于DBSCAN和凝聚层次聚类。K-Means的一致分区符合3D目标检测的动态性质，确保了连贯的特征关注。其计算效率对于大规模任务至关重要，而凝聚法则则不太可扩展。与密度相关的DBSCAN相比，K-Means的密度独立性确保了在各种场景下的适应性。K-Means中的明确质心表示增强了后续的Top-K注意力步骤。

3.2.2 轻量级时间融合模块（LTFM）

为了研究作者的轻量级时间融合模块（LTFM）的有效性，作者将其与不使用时间融合的Baseline模型以及其他常见的时间融合方法进行了比较，如表4所示。为了公平比较，所有其他配置保持不变。

将轻量级时间融合模块（LTFM）纳入Baseline模型中，使NDS提高了3.1%，mAP提高了2.8%。这些改进表明，LTFM能够有效地捕获时间依赖关系，而不引入显著的计算开销，从而验证了它在作者的DynamicBEV框架中的实用性。LTFM为模型提供了有关目标运动的关键上下文。

通过跨时间融合信息，模型更全面地理解了场景，从而能够更准确地预测目标轨迹和相互作用。LTFM在性能上一直表现出色，优于基于LSTM的融合、卷积LSTM融合和时间内的简单平均等其他方法。这可以归因于LTFM的轻量级设计，以及它在不引入显著计算开销的情况下，能够捕获关键的时间依赖关系。

作者在表5中进一步探讨了LTFM操作的时间分辨率。不同的场景可能需要不同的时间粒度。当比较不同时间间隔（例如每帧、每2帧和每5帧）下LTFM的性能时，作者发现在每2帧融合信息提供了计算效率和检测准确性之间的最佳平衡。

3.2.3 K-means和Top-K Attention中K的选择

如图3a所示，增加聚类数K最初会提高NDS和mAP。在K = 6之后观察到的性能平稳期表明，有一个可以捕获场景本质的最佳聚类数。拥有太多的聚类可能会过度分割数据，导致冗余或甚至冲突的信息。

类似地，如图3b所示，使用K = 6的Top-K注意力会产生最佳性能，突显了选择性注意的重要性。包括多样性损失提高了NDS和mAP，如表6所示，表明它在平衡注意力机制和捕获各种特征方面是有效的。

3.2.4 动态适应和时间融合中参数的敏感性

在模型性能方面，关键参数的最佳值在下文中进行了讨论。如图4a所示，的最佳值约为0.6，提供了初始和动态聚合特征的最佳混合。偏离这个值太多会导致性能不佳。同样，如图4b所示，的值为0.4产生了最高的NDS和mAP，这表明平衡当前和以前的动态查询有效地捕获了时间信息。

4. 参考

[1]. DynamicBEV: Leveraging Dynamic Queries and Temporal Context for 3D Object Detection.

5. 推荐阅读

全新Backbone | 华中科大提出ConvFormer，解决CNN与Self-Attention混合设计崩溃的痛点~

对视觉大语言模型一致性分析：当GPT-4V不能与文本意见一致时，它迷失在翻译之中了！

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低！

点击上方卡片，关注「集智书童」公众号