小目标检测的福音 | 一文全览3年来Transformer是怎么在小目标领域大杀四方的？-轻识

点击下方卡片，关注「集智书童」公众号

Transformer模型已经在计算机视觉领域迅速赢得了广泛关注，尤其是在目标识别和检测领域。在调研了最先进的目标检测方法的结果后，作者注意到，在几乎每个视频或图像数据集中，Transformer模型几乎都优于成熟的基于CNN的检测器。

虽然Transformer模型在小目标检测（SOD）技术方面仍然处于领先地位，但本文旨在探讨如此强大的网络所提供的性能优势，并确定其在SOD方面卓越的潜在原因。小目标已被确定为检测框架中最具挑战性的目标之一，因为它们的可见性较低。作者旨在研究可能增强Transformer模型在SOD中性能的潜在策略。

本综述介绍了自2020年至2023年开展的超过60项关于Transformer模型在SOD任务中的研究，这些研究涵盖了各种检测应用，包括通用图像、航拍图像、医学图像、主动毫米波图像、水下图像和视频中的小目标检测。作者还编制并呈现了一份适用于SOD的12个大规模数据集的列表，这些数据集在先前的研究中被忽视了，并使用流行的指标如均值平均精度（mAP）、每秒帧数（FPS）、参数数量等来比较已调研的研究的性能。

综述地址：https://github.com/arekavandi/Transformer-SOD

1、简介

小目标检测（SOD）已被认为是最先进的目标检测方法面临的重要挑战之一。术语“小目标”指的是在输入图像中占据较小比例的目标。例如，在广泛使用的MS COCO数据集中，它定义了边界框尺寸为32×32像素或更小的目标，在典型的480×640图像中（图1）。

其他数据集也有它们自己的定义，例如占据图像10%的目标。小目标通常会被错过或检测到的边界框定位不正确，有时还会出现错误的标签。在SOD中定位不准确的主要原因是输入图像或视频帧中提供的信息有限，叠加在深度网络的多层中经历的后续空间退化。由于小目标经常出现在各种应用领域，如行人检测、医学图像分析、人脸识别、交通标志检测、交通信号灯检测、船只检测、合成孔径雷达（SAR）目标检测等领域，因此值得研究现代深度学习SOD技术的性能。

在本文中，作者比较了基于Transformer的检测器与基于卷积神经网络（CNN）的检测器在小目标检测性能方面的差异。如果Transformer明显优于CNN，作者将尝试揭示Transformer性能强劲背后的原因。一个即时的解释可能是，Transformer模型对输入图像中的成对位置之间的交互进行建模。这实际上是一种编码上下文的方式。而且，已经确立了上下文是检测和识别小目标的主要信息来源，无论是对人类还是对计算模型。然而，这可能不是解释Transformer成功的唯一因素。

具体而言，作者旨在从多个维度分析这一成功，包括目标表示、高分辨率或多尺度特征图的快速注意、完全基于Transformer的检测、架构和块修改、辅助技术、改进的特征表示和时空信息。此外，作者指出了一些可能增强Transformer在SOD中性能的方法。

在作者之前的工作中，作者综述了深度学习中采用的众多策略，以增强光学图像和视频中小目标检测的性能，截至2022年。作者展示了除了采用新的深度学习结构如Transformer之外，流行的方法还包括数据增强、超分辨率、多尺度特征学习、上下文学习、基于注意力的学习、区域提议、损失函数正则化、利用辅助任务以及时空特征聚合。

此外，作者观察到在大多数数据集上，Transformer是定位小目标的领先方法之一。然而，鉴于之前有综述主要评估了160多篇关于基于CNN网络的论文，没有进行深入的Transformer为中心的方法探讨。鉴于该领域的增长和探索速度，现在是时候深入研究针对小目标检测的当前Transformer模型了。

在本文中，作者的目标是全面了解Transformer应用于小目标检测时所取得的令人印象深刻的性能背后的因素，以及它们与用于通用目标检测的策略的区别。为了奠定基础，作者首先强调了用于小目标检测的著名的基于Transformer的目标检测器，将它们的进展与已建立的基于CNN的方法进行了对比。

自2017年以来，该领域已发表了许多综述文章。作者在作者之前的综述中对这些综述文章进行了广泛的讨论和列举。另一篇最近的综述文章主要关注基于CNN的技术。这份当前综述的叙述与以往的综述有所不同。作者在本文中的重点明确集中在Transformer上，这是以前未曾探讨的一个方面，将它们定位为图像和视频小目标检测的主导网络架构。这需要一个适合这种创新架构的独特分类法，有意地将基于CNN的方法放在一边。鉴于这个主题的新颖性和复杂性，作者的综述主要关注主要是2022年后首次提出的工作。此外，作者还介绍了用于定位和检测小目标的新数据集，这些数据集涵盖了更广泛的应用领域。

本综述主要研究了专为小目标定位和分类定制的方法，或者间接解决了SOD挑战的方法。作者分析的重点是这些论文中针对小目标的检测结果。然而，早期的研究虽然注意到了SOD的结果，但在性能上表现不佳或在开发方法中忽视了SOD特定的参数，这些研究未被纳入本综述。

2、背景

目标检测，尤其是小目标检测（SOD），长期以来一直依赖于基于CNN的深度学习模型。随着时间的推移，出现了一系列单阶段和双阶段的检测器，例如You Only Look Once (YOLO) 变种，Single Shot multi-box Detector (SSD)，RetinaNet，Spatial Pyramid Pooling Network (SPP-Net) ，Fast R-CNN，Faster RCNN，Region-Based Fully Convolutional Networks (R-FCN)，Mask R-CNN，Feature Pyramid Networks (FPN)，cascade R-CNN 和 Libra R-CNN。这些技术通常与各种策略结合使用，以改进它们在小目标检测中的检测性能，其中多尺度特征学习是最常用的方法。

Transformer模型首次作为一种新颖的机器翻译技术被引入。该模型旨在超越传统的循环网络和CNN，通过引入一种完全基于注意力机制的新网络架构，从而消除了对循环和卷积的需求。

Transformer模型由两个主要模块组成：编码器和解码器。

图2提供了每个模块内部处理块的可视表示。

对于不熟悉这个主题的读者，表1提供了计算机视觉中Transformer常用术语的描述。在SOD的背景下，编码器模块接受输入Token，可以是图像块或视频片段，并采用各种特征嵌入方法，如利用预训练的CNN来提取适当的表示。位置编码块将位置信息嵌入到每个Token的特征表示中。

位置编码已经在各种应用中表现出显著的性能提升。然后，编码的表示通过多头注意力块传递，该块参数化了3个主要矩阵，即、和，以获取Query、Key和Value向量，分别表示为、、。换句话说，

其中T为Token的总数，每个Token用表示。多头注意力块的输出由

最终，从前面步骤获得的结果与跳跃连接和标准化块组合在一起。然后，这些向量分别通过全连接层传递，应用激活函数引入网络的非线性。这个块的参数在所有向量之间共享。这个过程重复了总共N次，对应于深度网络中的层数。

在解码器模块中，使用了与编码器中生成的向量类似的过程，同时还消耗了先前生成的预测/输出作为额外的输入。最终，计算可能输出类别的输出概率。注意通过Key和Query矩阵之间的点积操作来实现，如公式(3)所示，该操作计算了用于矩阵V的线性组合的权重。

还提供了一种替代的Transformer表示，如下所示：

其中是的子矩阵，对应于第h个Head，是h-head中的注意力权重，是矩阵的第行（对应于的Query）和第k列（对应于k的Key）的元素，矩阵是。

Dosovitskiy等人是首批在计算机视觉任务中利用Transformer架构的研究者，包括图像识别。Transformer在各种视觉任务中表现出的出色性能为它们在目标检测研究领域的应用铺平了道路。这个领域的两个开创性工作是DEtection Transformer (DETR) （图3，顶部）和ViT-FRCNN [32]（图3，底部）。

DETR旨在通过采用一种基于集合的全局损失减少对CNN-based技术在后处理中的依赖。这种特定的损失函数通过二分匹配有助于通过二分匹配折叠近似重复的预测，确保每个预测都与其匹配的GT边界框唯一配对。作为端到端模型，DETR受益于全局计算和完美记忆，适用于处理从视频/图像生成的长序列。在DETR中使用的二分匹配损失定义如下：

其中衡量了真实边界框与大小为N的索引为的预测之间的成对匹配成本，其中是预测边界框的特定顺序。在这个公式中，N是图像内可能目标的最大数量。如果预测和GT中的目标较少，和将用（表示没有目标）进行填充。因此，这个损失函数考虑了预测和GT之间的所有可能的匹配策略，并选择产生最小损失值的策略。最佳匹配可以使用匈牙利算法高效计算，如[End-to-end people detection in crowded scenes]所示。DETR使用CNN来提取紧凑的特征表示，并使用前馈网络的编码器-解码器Transformer生成最终的预测（见图3，顶部）。

相比之下，ViT-FRCNN使用Vision Transformer (ViT)进行目标检测，并通过快速微调表明，对大规模数据集进行预训练的ViT增强了检测性能。虽然ViT-FRCNN与DETR一样，在其管道中使用CNN-based网络，特别是在检测头中使用，但它与DETR不同，它使用Transformer（仅编码器）来编码视觉属性。

此外，ViT-FRCNN使用传统的Region Proposal Network (RPN)生成检测（如图3，底部所示）。DETR和ViT-FRCNN在小目标的检测和分类方面表现出了次优的结果。当增加输入图像的Token大小时，ViT-FRCNN甚至表现出更差的结果。

最佳结果是在Token大小设置为16×16时实现的，并且所有中间Transformer状态都与最终Transformer层连接在一起。此外，这两个检测器在不同阶段都依赖于CNN，在DETR中用作特征提取的Backbone，在ViT-FRCNN中用于检测头。为了提高小目标检测的结果，关键是尽量保持图像块的大小尽可能小，以保留空间分辨率，从而增加计算成本。

3、用于小目标检测的Transformer

在本节中，作者将讨论基于Transformer的SOD网络。小目标检测器的分类法如图4所示。作者表明，现有的基于新型Transformer的检测器可以通过以下一个或几个角度进行分析：目标表示、对高分辨率或多尺度特征图的快速关注、完全基于Transformer的检测、架构和块修改、辅助技术、改进的特征表示和时空信息。

3.1 目标表示

在目标检测技术中采用了各种目标表示技术。感兴趣的目标可以用矩形框、点（如中心点和点集）、概率目标和关键点来表示。每种目标表示技术都有其自己的优点和缺点，涉及到注释格式和小目标表示的需求。寻找最佳表示技术的追求，同时保留现有表示的所有优点，始于 RelationNet++。这种方法通过一个称为 Bridging Visual Representations (BVR) 的模块，将各种异构的视觉表示连接起来，并通过关键采样和共享位置嵌入等新技术结合它们的优势。

更重要的是，BVR 依赖于一个注意力模块，将一种表示形式指定为“主表示”（或Query），而将其他表示形式指定为“辅助表示”（或键）。

BVR 块如图 5 所示，在图像Anchor框的目标检测方法中通过无缝集成中心和角点来增强Anchor框的特征表示。不同的目标表示也显示在图 5 中。CenterNet++ 被提出作为一种新颖的自底向上方法。与一次性估计所有目标参数不同，CenterNet++ 战略性地单独识别目标的各个组成部分，即左上角、左下角和中心关键点。然后，采用后处理方法来聚类与同一目标相关联的点。

与估计整个目标的自上而下方法相比，这种技术在小目标检测中展现出更高的召回率。

3.2 高分辨率或多尺度特征图的快速注意力

先前的研究表明，保持高分辨率的特征图对于保持SOD的高性能是必要的。与CNN相比，Transformer本质上具有更高的复杂性，因为它们与Token数量（例如像素数）的数量呈二次增长的复杂性。这种复杂性来自于需要在所有Token之间进行成对相关性计算的要求。

因此，训练和推理时间都超出了预期，使得检测器无法应用于高分辨率图像和视频中的小目标检测。在他们关于Deformable DETR的工作中首次解决了这个在DETR中观察到的问题。他们提出只关注围绕参考点的一小组关键采样点，显著降低了复杂性。

通过采用这种策略，有效地通过使用多尺度Deformable形注意力模块来保留了空间分辨率。值得注意的是，这种方法消除了特征金字塔网络的必要性，从而极大地增强了小目标的检测和识别。在Deformable注意力中，多头注意力模块的第个输出如下所示：

其中，，是Query的参考点，是在第h个Head中具有K个采样的采样偏移（）的2D采样偏移。图6说明了其多头注意力模块内的计算过程。

Deformable DETR从其编码器和解码器模块中受益，编码器内的复杂性顺序为，其中H和W是输入特征图的高度和宽度，C是通道数。相比之下，DETR编码器的复杂度顺序为，随着H和W的增加而呈二次增加。Deformable Attention在其他各种检测器中也扮演着重要角色，例如在T-TRD中。随后，Dynamic DETR提出具有动态编码器和动态解码器，从低分辨率到高分辨率表示中提取特征金字塔，实现了高效的粗到精的目标检测和更快的收敛。动态编码器可以看作是完全自注意力的顺序分解近似，根据尺度、空间重要性和表示动态调整注意力机制。

Deformable DETR和Dynamic DETR都使用Deformable卷积进行特征提取。在不同的方法中，证明了自注意力模块提供的全局推理实际上对于航空图像并不是必要的，因为目标通常密集地分布在同一图像区域。因此，将局部卷积与多尺度特征图的集成结合使用，被证明可以提高定向目标检测的性能。

在Anchor DETR中，作者提出了行列分离注意力（RCDA）的概念，将Key特征的2D注意力分解为两种较简单的形式：1D行向和列向注意力。在CF-DETR的情况下，提出了一种替代FPN的方法，其中C5特征被替换为第5级（E5）的编码器特征，从而改善了目标的呈现。这一创新被命名为Transformer增强FPN（TEF）模块。

在另一项研究中，Fea-swin通过将跳过连接操作与Swin Transformer集成，开发了一种加权双向特征金字塔网络（BiFPN），有效地保留了与小目标相关的信息。

3.3 完全基于Transformer的检测器

Transformer的出现以及它们在计算机视觉中的出色性能逐渐促使研究人员从基于CNN或混合系统转向完全基于Transformer的视觉系统。这一领域的研究始于将仅基于Transformer架构应用于图像识别任务，即ViT，提出于[33]中。在[42]中，ViDT扩展了YOLOS模型（第一个完全基于Transformer的检测器），以开发适用于小目标检测的高效检测器。在ViDT中，用于特征提取的ResNet被各种ViT变种替代，如Swin Transformer、ViTDet和DeiT，以及重新配置的注意力模块（RAM）。RAM能够处理、和的关注。这些跨越和自注意力模块是必要的，因为与YOLOS类似，ViDT在输入中附加了和 Token。ViDT仅使用Transformer解码器作为其Neck，以利用在其体部每个阶段生成的多尺度特征。图7显示了ViDT的一般结构，并突出显示了与DETR和YOLOS的区别。

鉴于解码器模块是基于Transformer的目标检测中效率低下的主要原因，Decoder-Free Fully Transformer（DFFT）采用了两个编码器：ScaleAggregated Encoder（SAE）和Task-Aligned Encoder（TAE），以保持高准确性。SAE将多尺度特征（4个尺度）汇聚成一个单一的特征图，而TAE对齐了单一特征图以进行目标类型和位置的分类和回归。使用以检测为导向的Transformer（DOT）Backbone进行具有强语义的多尺度特征提取。

在基于稀疏RoI的Deformable形DETR（SRDD）中，作者提出了一种轻量级的Transformer，具有一个评分系统，最终在编码器中去除了冗余的Token。这是通过在端到端学习方案中使用RoI（感兴趣区域）进行检测来实现的。

3.4 架构和块修改

DETR，作为第一个端到端目标检测方法，在训练过程中遇到了较长的收敛时间，并且在小目标上表现不佳。一些研究工作致力于解决这些问题以提高SOD性能。其中一个显著的贡献来自TSP，他们受到了FCOS和Faster RCNN的启发，提出了两种仅包含编码器的DETR变体，称为TSP-FCOS和TSP-RCNN，并引入了特征金字塔。他们通过从解码器中删除交叉注意力模块来实现这一点。他们的研究结果表明，解码器中的交叉注意力和匈牙利损失的不稳定性是DETR收敛较慢的主要原因。这一发现促使他们抛弃解码器，并在这些新的变体中引入了一种新的二分匹配技术，即TSP-FCOS和TSP-RCNN。

在一个结合了CNN和Transformer的混合方法中，Peng等人提出了一个名为“Conformer”的混合网络结构。这个结构将CNN提供的局部特征表示与Transformer提供的不同分辨率的全局特征表示融合在一起（见图8）。这是通过特征耦合单元（FCUs）实现的，实验结果表明，与ResNet50、ResNet101、DeiT和其他模型相比，它的效果更好。在[ A cnnTransformer hybrid model based on cswin Transformer for uav image object detection]中提出了一种类似的混合技术，将CNN和Transformer结合起来。Xu等人[ An improved swin Transformer-based model for remote sensing object detection and instance segmentation]认识到了局部感知和长距离相关性的重要性，他们在Swin Transformer块中添加了局部感知块（LPB）。这个新的Backbone网络被称为局部感知Swin Transformer（LPSW），显著提高了航空图像中小型目标的检测能力。

DIAG-TR在编码器中引入了全局-局部特征交织（GLFI）模块，以自适应和分层方式将局部特征嵌入到全局表示中。这种技术可以弥补小目标的尺度差异。此外，可学习的Anchor框坐标被添加到Transformer解码器中的内容Query中，提供了一种归纳偏差。

在最近的研究中，Chen等人提出了Hybrid网络Transformer（Hyneter），它通过将卷积嵌入到Transformer块中来扩展局部信息的范围。这一改进提高了在MS COCO数据集上的检测结果。类似的混合方法已经在Sw-YOLOX中采用。在另一项研究中[ Unifying convolution and Transformer for efficient concealed object detection in passive millimeter-wave images]，作者提出了一种名为NeXtFormer的新Backbone网络，它结合了CNN和Transformer，以增强小目标的局部细节和特征，并提供了全局感受野。

在各种方法中，将Transformer中的注意力机制替换为深度可分离卷积。这个改变不仅降低了与多尺度特征相关的内存使用和计算成本，还可能增强了在航拍照片中的检测精度。Anchor DETR质疑了以前工作中使用的目标Query，提出了Anchor DETR，该方法使用Anchor进行目标Query。这些Anchor增强了目标Query位置的可解释性。对于每个Anchor使用多个模式，可以改善一个区域内多个目标的检测。相反，Conditional DETR强调从解码器内容导出的条件空间Query，从而导致空间注意力预测。

随后的版本，Conditional DETR v2通过重新构建目标Query为Box Query的形式，增强了体系结构，这涉及嵌入参考点并相对于参考点变换Box。在随后的工作中，DAB-DETR通过使用动态可调整的Anchor box进一步改进了Query设计。这些Anchor box既用作参考Query点又用作Anchor维度（见图9）。

在另一项工作中[47]，作者观察到DETR中小目标的平均精度（mAP）虽然不竞争状态下（SOTA）技术，但其在小交并比（IoU）阈值下的性能竟然比竞争对手好。这表明，虽然DETR提供了强大的感知能力，但需要微调才能获得更好的定位精度。作为解决方案，提出了通过解码器层中的自适应尺度融合（ASF）和局部交叉注意力（LCA）模块来执行这种细化的粗到细检测Transformer（CF-DETR）。

在Destr中，作者认为Transformer-based检测器的次优性能可以归因于一些因素，例如在分类和回归中使用单一的交叉注意力模块，内容Query的初始化不足，以及在自注意力模块中没有利用先验知识。为了解决这些问题，他们提出了Detection Split Transformer（DESTR）。这个模型将交叉注意力分为两个分支，一个用于分类，一个用于回归。此外，DESTR使用一个小型检测器来确保在解码器中进行适当的内容Query初始化，并增强自注意力模块。

另一项研究引入了FEA-Swin，它利用Swin Transformer框架中的高级前景增强注意力将上下文信息整合到原始Backbone网络中。这是因为Swin Transformer由于相邻目标之间的缺失连接而不能充分处理密集目标检测。因此，前景增强突出显示目标以进行进一步的相关性分析。

TOLO是旨在通过简单的Neck模块将归纳偏差（使用CNN）引入Transformer架构的最新工作之一。此模块将来自不同层的特征组合在一起，以整合高分辨率和高语义属性。设计了多个轻型Transformer Head，以检测不同尺度的目标。在不修改每个架构中的模块的情况下，CBNet将多个相同的Backbone网络分组，并通过复合连接连接它们。

在Multi-Source Aggregation Transformer（MATR）中，Transformer的交叉注意力模块用于利用来自不同视图的同一目标的其他支持图像。在[Multi-view vision transformers for object detection]中采用了类似的方法，Multi-View Vision Transformer（MV-ViT）框架将来自多个视图（包括目标视图）的信息组合在一起，以提高当目标在单个视图中不可见时的检测性能。

其他工作更倾向于采用YOLO系列架构。例如，SPH-Yolov5在Yolov5网络的较浅层添加了一个新分支，以融合特征以改善小目标的定位。它还首次在Yolov5管道中引入了Swin Transformer预测头。

在[Nms strikes back]中，作者认为匈牙利损失的直接一对一边界框匹配方法可能并不总是有利。他们证明采用一对多分配策略并利用NMS（非极大值抑制）模块可以获得更好的检测结果。与此观点相呼应，Group DETR 实现了K组目标Query，采用一对一标签分配，为每个GT目标提供K个正目标Query，以增强性能。

在Dual-Key Transformer Network（DKTNet）中，使用两个Key，一个Key与Q流一起使用，另一个Key与V流一起使用。这增强了Q和V之间的一致性，从而实现了更好的学习。此外，计算通道注意力而不是空间注意力，并使用1D卷积来加速过程。

3.5 辅助技术

实验证明，辅助技术或任务与主要任务结合使用时，可以增强性能。在Transformer的背景下，采用了几种技术，包括：

辅助解码/编码损失：这是指专为边界框回归和目标分类设计的前馈网络连接到单独的解码层的方法。因此，不同尺度上的单独损失被组合以训练模型，从而导致更好的检测结果。这种技术或其变种已在ViDT、MDef-DETR、CBNet、SRDD中使用。
迭代框细化：在这种方法中，每个解码层内的边界框基于前一层的预测进行细化。这种反馈机制逐渐提高了检测精度。这种技术已在ViDT中使用。
自上而下的监督：这种方法利用人类可理解的语义来帮助复杂的检测小目标或类别不可知的目标的任务，例如MDef-DETR中的对齐的图像文本对，或者TGOD中的文本引导目标检测器。
预训练：这涉及在大规模数据集上进行训练，然后针对检测任务进行特定的微调。这种技术已在CBNet V2-TTA、FPDETR、T-TRD、SPH-Yolov5、MATR以及Group DETR v2中被广泛使用。
数据增强：这种技术通过应用各种增强技术来丰富检测数据集，例如旋转、翻转、放大缩小、裁剪、平移、添加噪音等。数据增强是解决各种不平衡问题的常用方法，例如在深度学习数据集中的目标大小不平衡。数据增强可以看作是减小训练集和测试集之间差距的一种间接方法。多种方法在其检测任务中使用了数据增强，包括TTRD、SPH-Yolov5、MATR、NLFFTNet、DeoT、HTDet和Sw-YoloX。
一对多标签分配：DETR中的一对一匹配可能导致编码器内部的特征不够具有区分性。因此，其他方法中的一对多分配，例如Faster-RCNN、RetinaNet和FCOS，在一些研究中被用作辅助Head，例如CO-DETR。
降噪训练：这种技术旨在提高DETR中解码器的收敛速度，因为由于二分匹配而经常面临不稳定的收敛。在降噪训练中，解码器被馈送带有噪声的真实标签和框，然后通过辅助损失来训练模型以重构原始的真实标签。像DINO和DN-DETR这样的实现已经证明了这种技术在增强解码器的稳定性方面的有效性。

3.6 改进的特征表示

尽管当前的目标检测器在常规大小或大型目标的各种应用中表现出色，但某些用例需要专门的特征表示来改进小目标检测。例如，在检测航拍图像中的有向目标时，任何目标的旋转都可能由于场景（区域提案）中的增加背景噪音或杂乱而显著改变特征表示。

为了解决这个问题，Dai等人提出了AO2-DETR，这是一种旨在对任意目标旋转具有鲁棒性的方法。这通过3个Key组件实现：

生成有向提议
有向提议的细化模块，提取旋转不变特征
考虑旋转的集合匹配损失

这些模块有助于抵消目标的任何旋转效应。在相关方法中，DETR++ 使用多个双向特征金字塔层（BiFPN），以自下而上的方式应用于C3、C4和C5的特征图。然后，选择一个代表所有尺度特征的尺度，输入DETR框架进行检测。对于某些特定的应用，例如植物安全监测，感兴趣的目标通常与人类工作者相关，利用这些上下文信息可以极大地改善特征表示。PointDet++通过结合人体姿势估计技术，整合本地和全局特征以增强小目标检测性能。影响特征质量的另一个Key因素是Backbone网络及其提取语义和高分辨率特征的能力。

Ghostformer中引入的GhostNet提供了一种简化和更高效的网络，可以向Transformer提供高质量的多尺度特征。他们在这个网络中的Ghost模块部分生成输出特征图，其余部分则通过简单的线性操作恢复。这是减轻Backbone网络复杂性的Key步骤。

在医学图像分析的背景下，MS Transformer 使用了一种自监督学习方法，在输入图像上执行随机Mask，有助于重建更丰富的特征，对噪音不敏感。结合分层Transformer，这种方法胜过了具有各种Backbone的DETR框架。Small Object Favoring DETR (SOFDETR) 专门支持小目标的检测，通过在输入到DETR-Transformer之前，在3和4层之间合并卷积特征，并采用规范化的归纳偏差模块。

NLFFTNet 通过引入非局部特征融合Transformer卷积网络，解决了当前融合技术仅考虑局部交互的局限性，捕捉不同特征层之间的远程语义关系。DeoT 将一个仅编码器的Transformer与新颖的特征金字塔融合模块合并。在通道细化模块（CRM）和空间细化模块（SRM）中使用通道和空间注意力来增强融合，从而实现了更丰富的特征提取。HTDet 中的作者提出了一种用于更好地检测目标的低级和高级特征的渐进融合FPN。与此同时，在MDCT 中，作者提出了一个多核扩张卷积（MDC）模块，用于利用小目标的本体和相邻空间特征来改善与小目标相关的特征提取的性能。所提出的模块利用深度可分离卷积来降低计算成本。

最后，在RTD-Net中，设计了一个特征融合模块，与轻量级Backbone相结合，通过扩大感受野来增强小目标的视觉特征。RTD-Net中的混合注意力模块通过整合围绕小目标的上下文信息，增强了系统对部分遮挡的目标的检测能力。

3.7 时空信息

在本节中，作者专注于旨在识别小目标的基于视频的目标检测器。虽然许多这些研究已在ImageNet VID数据集上进行了测试，但该数据集最初并不是为了小目标检测而设计的。尽管如此，一些研究也报告了它们在ImageNet VID数据集的小目标上的结果。使用Transformer架构也探讨了在视频中跟踪和检测小目标的问题。尽管图像基础的小目标检测技术可以应用于视频，但它们通常不利用宝贵的时间信息，而这对于在杂乱或遮挡的帧中识别小目标尤其有益。

Transformer用于通用目标检测/跟踪的应用始于TrackFormer和TransT。这些模型使用帧到帧（将前一帧设置为参考帧）的集合预测和模板到帧（将模板帧设置为参考帧）的检测。Liu等人是最早专门用于基于视频的小目标检测和跟踪的Transformer的使用者之一。他们的核心概念是更新模板帧，以捕捉由小目标的存在引起的任何小变化，并在模板帧和搜索帧之间提供全局关注驱动的关系。

随着TransVOD的推出，基于Transformer的目标检测得到了正式的认可。该模型将空间Transformer和时间Transformer应用于一系列视频帧，从而识别并链接这些帧中的目标。TransVOD已经产生了几个变种，每个都具有独特的特性，包括实时检测的功能。PTSEFormer采用渐进策略，侧重于时间信息和目标在帧之间的空间转换。它采用多尺度特征提取来实现这一点。

与其他模型不同，PT-SEFormer直接从相邻帧回归目标Query，而不是整个数据集，提供了更局部化的方法。Sparse VOD提出了一种端到端可训练的视频目标检测器，其中包含时间信息以提出区域建议。相比之下，DAFA强调了视频中全局特征的重要性，而不是局部时间特征。DEFA展示了First In First Out（FIFO）内存结构的低效性，并提出了一种多样性感知内存，该内存使用目标级内存而不是帧级内存用于注意力模块。VSTAM通过逐个元素地改进特征质量，然后在使用这些增强特征进行目标候选区域检测之前执行稀疏聚合。该模型还结合了外部内存，以利用长期的上下文信息。

在FAQ工作中，提出了一种新颖的视频目标检测器，该检测器在解码器模块中使用Query特征聚合。这与侧重于编码器中的特征聚合或对各种帧执行后处理的方法不同。研究表明，这种技术提高了检测性能，胜过了SOTA方法。

4、结果和基准

4.1 数据集

在这一小节中，除了广泛使用的MS COCO数据集，作者编制并呈现了12个新的小目标检测数据集。这些新的数据集主要针对特定应用，不包括通用和海洋环境。图10显示了这些数据集的时间顺序，以及截止到2023年6月15日的谷歌学术引用计数。

UAV123：这个数据集包含了123个由无人机获取的视频，是最大的目标跟踪数据集之一，包含超过110,000帧。

MRS-1800：这个数据集由其他三个遥感数据集的图像组成：DIOR，NWPU VHR-10和HRRSD。MRD-1800旨在用于检测和实例分割，包括1800张手动标注的图像，其中包括飞机、船只和储罐等3种目标。

SKU-110K：这个数据集是一个严格的商品检测测试集，包括来自世界各地各种超市的图像。该数据集包括各种尺度、摄像机角度、光照条件等。

BigDetection：这是一个大规模数据集，通过整合现有数据集并精心消除重复的边界框，同时Token被忽视的目标，而制作的。它在所有尺寸上都有平衡数量的目标，使它成为推动目标检测领域发展的重要资源。在这个数据集上进行预训练，然后在MS COCO上进行微调，可以显著提高性能。

Tang等人：这个数据集源自化工厂内各种类型工作的视频素材，如高温工作、空中作业、受限空间作业等。它包括人、头盔、灭火器、手套、工作服和其他相关目标等类别标签。

Xu等人：这个公开可用的数据集专注于无人机拍摄的图像，包含2,000张旨在检测行人和车辆的图像。这些图像是使用DJI无人机收集的，具有不同的光照水平和密集停放的车辆等多种条件。

DeepLesion：这个数据集包括来自4,427名患者的CT扫描，是同类数据集中最大的之一。它包括各种类型的病变，如肺结节、骨异常、肾病变和淋巴结肿大等。这些图像中的感兴趣目标通常很小，伴随着噪音，使它们的识别具有挑战性。

Udacity自动驾驶汽车：这个数据集专门用于教育目的，包含Mountain View及附近城市的驾驶场景，以2Hz的图像采集率捕获。该数据集的类别标签包括汽车、卡车和行人。

AMMW数据集：这个用于安全应用的主动毫米波图像数据集包括30多种不同类型的目标。其中包括两种打火机（塑料和金属）、仿真火器、刀具、刀片、子弹壳、手机、汤、钥匙、磁铁、液体瓶、吸收材料、火柴等等。

URPC 2018数据集：这个水下图像数据集包括四种类型的目标：海参、海胆、扇贝和海星。

UAV数据集：这个图像数据集包括9000多张在不同天气和光照条件以及各种复杂背景下通过无人机拍摄的图像。该数据集中的目标包括轿车、人、电机、自行车、卡车、公共汽车和三轮车等。

Drone-vs-bird：这个视频数据集旨在解决无人机飞越敏感区域的安全问题。它提供了带标签的视频序列，以区分不同照明、光照、天气和背景条件下的鸟类和无人机。

表2提供了这些数据集的摘要，包括它们的应用、类型、分辨率、类别/实例/图像/帧数量，以及它们的网页链接。

4.2 视觉应用基准

在这一小节中，作者介绍各种视觉应用，其中小目标检测性能至关重要。对于每个应用，作者选择了一个最流行的数据集，并报告了其性能指标，以及实验设置的详细信息。

4.2.1 通用应用

对于通用应用，作者评估了所有小目标检测器在具有挑战性的MS COCO基准数据集上的性能。选择这个数据集是基于它在目标检测领域的广泛接受程度以及性能结果的易获得性。MS COCO数据集包括大约160,000张图像，涵盖80个类别。虽然建议作者使用COCO 2017年的训练和验证集来训练他们的算法，但他们并不受限于这些子集。

在表3中，作者检查和评估了所有已经报告在MS COCO上的技术的性能（从他们的论文中编制而来）。表格提供了有关Backbone架构、GFLOPS/FPS（表示计算开销和执行速度）、参数数量（表示模型规模）、mAP（平均精度的平均值：一种目标检测性能指标）和epochs（表示推理时间和收敛性质）的信息。此外，还提供了每种方法的网页链接，以获取更多信息。

这些方法分为3组：

基于CNN的方法
混合方法
仅基于Transformer的方法

表格的最后一行显示了每个指标的表现最佳的方法。值得注意的是，这种比较仅对已报告每个特定指标值的方法是可行的。在存在平局的情况下，被视为最佳的方法是平均精度最高的方法。默认的mAP值是针对“COCO 2017 val”集的，而“COCO test-dev”集的值则带有星号。请注意，报告的mAP仅适用于面积< 322的目标。

从表3中可以看出，大多数技术受益于混合CNN和Transformer架构，实质上采用了混合策略。值得注意的是，仅依赖基于Transformer的架构的Group DETR v2达到了48.4%的mAP。

然而，要实现这样的性能，需要采用额外的技术，如在两个大规模数据集上进行预训练和多尺度学习。就收敛性而言，DINO通过仅经过12个epochs就达到了稳定的结果，同时也获得了令人称赞的32.3%的mAP。相反，原始的DETR模型具有最快的推理时间和最低的GFLOPS。FP-DETR之所以脱颖而出，是因为它具有只有36M参数的最轻量级网络。

综合这些发现，作者得出结论，预训练和多尺度学习是在小目标检测中取得卓越性能最有效的策略。这可以归因于下游任务的不平衡和小目标中缺乏信息性特征。

图11（跨两页）以及图12中更详细的版本，展示了各种Transformer和基于CNN的方法的检测结果。这些结果是使用来自COCO数据集的选定图像进行比较的，由作者使用它们在GitHub页面上提供的公共模型实现。分析结果显示，Faster RCNN和SSD在准确检测小目标方面表现不佳。

具体来说，SSD要么错过了大多数目标，要么生成了大量带有错误标签和定位不准确的边界框。虽然Faster RCNN表现更好，但它仍然产生了低置信度的边界框，并偶尔分配错误的标签。相反，DETR倾向于高估目标的数量，导致单个目标的多个边界框。通常会注意到DETR容易产生假阳性。最后，在评估的方法中，CBNet V2以其卓越的性能脱颖而出。正如观察到的那样，它为它检测到的目标生成了高置信度的分数，尽管偶尔可能会错误地识别一些目标。

4.2.2 航空图像中的小目标检测

在遥感领域，检测小目标的另一个有趣应用是航空图像。这个领域特别吸引人，因为许多组织和研究机构旨在通过航空图像定期监测地球表面，以收集国家和国际统计数据。虽然可以使用各种模态获得这些图像，但本综述仅关注非SAR图像。这是因为SAR图像已经得到了广泛研究，值得进行单独的研究。然而，本综述中讨论的学习技术也可以应用于SAR图像。

在航空图像中，由于目标距离相机较远，因此目标通常显得很小。鸟瞰视图也增加了目标检测任务的复杂性，因为目标可以位于图像的任何位置。为了评估为此类应用而设计的基于Transformer的检测器的性能，作者选择了DOTA图像数据集，它已经成为目标检测领域广泛使用的基准。

图13显示了来自DOTA数据集的一些包含小目标的示例图像。该数据集包括一个预定义的训练集、验证集和测试集。与通用应用相比，这个特定应用从Transformer专家那里获得的关注相对较少。

然而，如表4所示（结果来自论文），ReDet通过其多尺度学习策略和在ImageNet数据集上的预训练，在达到最高的精度值（80.89%）并且仅需要12个训练epochs时脱颖而出。这反映了从COCO数据集分析中获得的见解，即通过解决下游任务中的不平衡问题，并包括来自小目标的信息性特征，可以实现最佳性能。

4.2.3 医学图像中的小目标检测

在医学成像领域，专家通常被要求早期检测和识别异常。错过即使是微不可见或小的异常细胞可能对患者产生严重影响，包括癌症和危及生命的疾病。这些小型目标可以在糖尿病患者的视网膜、早期肿瘤、血管斑块等方面作为异常出现。

尽管这个研究领域具有重要性和潜在的危害性，但只有少数几项研究已经解决了在这一Key应用中检测小目标所面临的挑战。对于对这个主题感兴趣的人，DeepLesion CT图像数据集已被选为基准，因为该数据集的结果是可用的。

图14显示了该数据集的一些示例图像。该数据集分为3个集合：训练集（70%）、验证集（15%）和测试集（15%）。

表5比较了3个基于Transformer的研究的准确性和mAP，与两阶段和一阶段检测器（结果来自他们的论文）一起。MS Transformer在这个数据集中脱颖而出，尽管竞争有限。它的主要创新在于自监督学习，并在分层Transformer模型内部引入了遮挡机制。

总体而言，凭借90.3%的准确性和89.6%的mAP，该数据集似乎相对较少挑战，尤其是考虑到一些肿瘤检测任务对人眼来说几乎是不可见的。

4.2.4 水下图像中的小目标检测

随着水下活动的增加，监测模糊和低光环境的需求也增加了，以用于生态监测、设备维护和监视废弃捕鱼等目的。水的散射和吸收光线的因素使小目标检测任务变得更加具有挑战性。

这些具有挑战性环境的示例图像显示在图15中。基于Transformer的检测方法不仅需要善于识别小目标，还需要对深水中常见的图像质量差、不同通道的颜色变化具有鲁棒性，因为每个通道的光衰减率不同。

表6显示了现有研究针对这一数据集报告的性能指标（结果来自他们的论文）。HTDet是唯一一个特定应用的基于Transformer的技术。它在mAP方面明显优于SOTA基于CNN的方法（mAP高出3.4%）。然而，相对较低的mAP分数确认了水下图像中的目标检测仍然是一项困难的任务。值得注意的是，URPC 2018的训练集包含2901张带标签的图像，测试集包含800张未Token的图像。

4.2.5 主动毫米波图像中的小目标检测

小目标可以很容易地被正常的RGB相机隐藏或隐藏，例如，在机场的人的衣服中。因此，用于安全目的的主动成像技术至关重要。在这些情景中，通常从不同角度捕获多幅图像，以增加检测甚至微小目标的可能性。有趣的是，就像在医学成像领域一样，Transformer很少用于这个特定的应用。

在作者的研究中，作者使用AMMW数据集来关注现有技术的检测性能，如表7所示（结果来自他们的论文）。作者已经确定MATR是唯一一个为这个数据集结合了Transformer和CNN的技术。

尽管是唯一的基于Transformer的技术，但它在SOD性能上取得了显著的改进（相对于Yolov5，mAP0.5提高了5.49%，相对于TridentNet，mAP@[0.5,0.95]提高了4.22%），使用相同的Backbone网络（ResNet50）。

图16在可视上将MATR与其他SOTA基于CNN的技术进行了比较。从不同角度组合图像在这种成像方法中大大有助于识别甚至小的目标。用于训练和测试的图像数量分别为35426张和4019张。

4.2.6 视频中的小目标检测

最近，视频中的目标检测领域引起了相当多的关注，因为视频中的时间信息可以提高检测性能。为了评估SOTA技术，已经使用了ImageNet VID数据集，特别关注了该数据集中的小目标的结果。该数据集包括3862个训练视频和555个验证视频，涵盖30类目标。

表8报告了一些最近开发的基于Transformer的技术的mAP（结果来自他们的论文）。虽然Transformer越来越多地被用于视频目标检测，但它们在SOD方面的性能尚未得到深入探讨。在已经报告了ImageNet VID数据集上的SOD性能的方法中，具有FAQ的Deformable DETR表现出色，尽管其mAP@[0.5,0.95]仅为13.2%。这突显了视频SOD领域存在重大的研究空白。

5 讨论

在这篇综述文章中，作者探讨了基于Transformer的方法如何应对小目标检测的挑战。作者的分类法将基于Transformer的小目标检测器分为7个主要类别：目标表示、快速注意力（适用于高分辨率和多尺度特征图）、架构和块修改、时空信息、改进的特征表示、辅助技术以及完全基于Transformer的检测器。

将这个分类法与CNN-based技术的分类法进行对比，作者可以观察到其中一些类别是重叠的，而其他类别是基于Transformer的技术所独有的。某些策略已经隐式地嵌入到了Transformer中，比如通过编码器和解码器中的自注意力和交叉注意力模块来执行的注意力和上下文学习。另一方面，多尺度学习、辅助任务、架构修改和数据增强在两种范式中都普遍使用。

然而，值得注意的是，虽然CNNs通过3D-CNN、RNN或随时间进行特征聚合来处理时空分析，但Transformer通过使用连续的时空Transformer或在解码器中为连续帧更新目标Query来实现这一目标。

作者注意到，预训练和多尺度学习是最常采用的策略之一，有助于在不同数据集上实现各种性能表现。数据融合是另一种广泛用于SOD的方法。在视频检测系统的背景下，重点是有效地收集时序数据并将其整合到特定帧的检测模块中。

尽管Transformer在小目标的定位和分类方面取得了显著的进展，但也需要认识到涉及到的权衡。这些包括大量的参数、数天的训练时间以及在非常大的数据集上进行预训练。所有这些方面都对能够对其下游任务进行训练和测试的用户群体产生了限制。现在比以往任何时候都更加重要的是，要认识到需要轻量级网络、高效的学习范式和架构的需求。尽管参数数量现在与人类大脑相当，但在小目标检测方面的性能仍然远远落后于人类的能力，突显出当前研究中的一个重大差距。

此外，根据图11和图12中呈现的结果，作者发现小目标检测存在两个主要挑战：漏检和冗余检测框。漏检的问题可能归因于token中嵌入的信息有限。这可以通过使用高分辨率图像或通过增强特征金字塔来解决，尽管这会增加延迟，但可以通过使用更高效、轻量级的网络来抵消。重复检测的问题通常通过NMS等后处理技术来管理。然而，在Transformer的背景下，这个问题应该通过在解码器中最小化目标Query的相似度来解决，可能需要使用辅助损失函数。

作者还研究了专门用于各种基于视觉的任务的小目标检测的Transformer方法的研究。这些任务包括通用检测、航空图像中的检测、医学图像中的异常检测、用于安全目的的主动毫米波图像中的小隐藏目标检测、水下目标检测以及视频中的小目标检测。

除了通用和航空图像应用之外，Transformer在其他应用中发展不足，这与Rekavandi等人关于海事检测的观察相一致。这在医学成像等生命Key领域可能具有重大影响，尤其是考虑到Transformer可能在这些领域具有重要作用。