HCF-Net | 并行化注意力设计&维度感知选择实现自适应通道选择融合

AI人工智能初学者

共 47557字,需浏览 96分钟

 · 2024-04-11

点击下方卡片,关注「AI视界引擎」公众号

红外小目标检测是计算机视觉中的一项重要任务,涉及在红外图像中对微小目标的识别和定位,这些目标通常只包含几个像素。然而,由于目标的大小微小以及红外图像中通常具有复杂的背景,这项任务遇到了困难。在本文中,作者提出了一种深度学习方法,即HCF-Net,通过多个实用模块显著提高了红外小目标检测的性能。

具体来说,它包括并行化 patch-aware 注意力(PPA)模块、维度感知选择性集成(DASI)模块以及多膨胀通道精炼(MDCR)模块。PPA模块采用多分支特征提取策略来捕获不同尺度和 Level 的特征信息。DASI模块实现了自适应通道选择与融合。MDCR模块通过多个深度可分离卷积层捕获不同感受野范围的空间特征。

在SIRST红外单帧图像数据集上的大量实验结果表明,所提出的HCF-Net表现良好,超过了其他传统和深度学习模型。

代码:https://github.com/zhengshuchen/HCFNet

I Introduction

红外小目标检测技术在识别和检测红外图像中的微小物体方面至关重要。由于红外传感器能够捕捉到物体发射的红外辐射,这项技术使得即使在暗或低光环境下也能精确检测和识别小物体。因此,它在包括军事、安全、海上救援和火灾监测在内的各个领域具有重大的应用前景和价值。

然而,红外小目标检测仍具有以下挑战。首先,当前深度学习是红外小目标检测的主要方法。但是,几乎所有现有的网络都采用经典的下采样方案。由于红外小目标尺寸小,通常伴随有弱的热信号和不清晰的轮廓。在多次下采样过程中,存在信息大量丢失的风险。其次,与可见光图像相比,红外图像缺乏物理信息,对比度较低,使得小目标容易在复杂背景下被淹没。

为了应对这些挑战,作者提出了一种名为HCF-Net的红外小目标检测模型。该模型旨在更精确地描绘目标形状和边界,通过将红外小目标检测视为一个语义分割问题,从而提高目标定位和分割的准确性。如图1所示,它包含了三个关键模块:PPA、DASI和MDCR,这些模块在多个层面上解决了上述挑战。

具体来说,作为编码器-解码器的主要组成部分,PPA采用分层特征融合和注意力机制来维持和增强小目标的表示,确保在多次下采样步骤中关键信息得以保留。DASI增强了U-Net中的跳跃连接,专注于高维和低维特征的自适应选择和精细融合,以增强小目标的显著性。位于网络深处,MDCR加强了多尺度特征提取和通道信息表示,捕捉到不同感受野范围内的特征。它更精细地建模了目标与背景之间的差异,增强了其定位小目标的能力。这些模块的有机结合使作者能更有效地解决小目标检测的挑战,提高了检测性能和鲁棒性。

总之,本文的贡献可以概括如下:

作者将红外小目标检测建模为一个语义分割问题,并提出了HCF-Net,一个逐层上下文融合网络,可以从零开始训练。

提出了三个实用的模块:并行化的 Patch 感知注意力(PPA)模块、维度感知的选择性整合(DASI)模块以及多扩张通道细化(MDCR)模块。这些模块有效地缓解了在红外小目标检测中目标丢失和小物体低背景辨识度的问题。

作者评估了所提出的HCF-Net在公开的单帧红外图像数据集SRIST上的检测性能,并展示了其相较于几种最先进的检测方法具有显著的优势。

II Related Work

Traditional Methods

在红外小目标检测的早期阶段,主要的方法是基于模型的传统方法,通常分为基于滤波器的方法、基于人类视觉系统的方法和低秩方法。基于滤波器的方法通常限于特定和统一的场景。例如,TopHat [1] 使用各种滤波器估计场景背景,以将物体从复杂的背景中分离出来。基于人类视觉系统的方法适用于具有大物体和强背景差异化的场景,如LCM [2],它测量中心点与其周围环境的对比度。低秩方法适用于快速变化和复杂背景的场景,但在实际应用中缺乏实时性能,通常需要额外的辅助手段,如GPU加速。这些方法包括IPI [3],它结合了低秩背景和稀疏形状的物体使用低秩分解,PSTNN [4] 采用基于张量核范数的非凸方法,RIPT [5] 关注重加权红外图像块张量,以及NIPPS [6],它是一种先进的优化方法,试图结合低秩和先验约束。尽管在特定场景中有效,传统方法容易受到杂波和噪声的干扰。在复杂的现实世界场景中,建模物体受到模型超参数的显著影响,导致泛化性能不佳。

Deep Learning Methods

近年来,随着神经网络的快速发展,深度学习方法在红外小目标检测任务上取得了显著进展。深度学习方法[7, 8, 9, 10, 11, 12, 13, 14]的识别准确度高于传统方法,且不依赖于特定场景或设备,显示出更高的鲁棒性并显著降低了成本,逐渐在领域中占据了主导地位。Wang等[15]使用了由ImageNet大规模视觉识别挑战(ILSVRC)数据训练的模型来完成红外小目标检测任务。Liangkui等[16]结合了过采样生成的数据,提出了一种用于小目标检测的多层网络。Zhao等[17]开发了一种结合了红外小目标语义约束信息的编码器-解码器检测方法(TBC-Net)。Wang等[18]使用生成器和判别器处理两个不同的任务:漏检和误报,实现了这两方面的平衡。Nasser等[19]提出了一种用于自动目标识别(ATR)的深度卷积神经网络模型。Zhang等提出了AGPCNet[20],引入了注意力引导的上下文模块。Dai等引入了非对称上下文调制ACM[21]并推出了第一个真实世界的红外小目标数据集SIRST。Wu等[22]提出了一种“U-Net中的U-Net”框架,以实现目标的多级表示学习。

III Method

在本节中,作者将详细讨论HCF-Net。如图1所示,HCF-Net是一个升级版的U-Net架构,它包含三个关键模块:PPA、DASI和MDCR。这些模块使作者的网络更适合于检测小型红外目标,并有效解决小目标丢失和低背景辨识度的问题。接下来,在第三节A中,作者将简要介绍PPA,然后在第三节B中概述DASI,最后在第三节C中介绍MDCR。

Parallelized Patch-Aware Attention Module

在红外小目标检测任务中,小目标在多次下采样操作中容易丢失关键信息。如图1所示,PPA在编码器和解码器的基本组件中替代传统的卷积操作,以更好地应对这一挑战。

Iii-A1 Multi-branch feature extraction

PPA的主要优势在于其多分支特征提取策略。如图2所示,PPA采用了一种并行的多分支方法,每个分支负责提取不同尺度和 Level 的特征。这种多分支策略有助于捕获目标的多尺度特征,从而提高小目标检测的准确性。具体来说,这一策略包括三个平行的分支:局部、全局和串行卷积分支。给定输入特征张量 ,首先通过点卷积进行调整以获得 。然后,通过这三个分支,可以分别计算 。最后,这三个结果相加得到

具体来说,通过控制 Patch 大小参数 来建立局部和全局分支之间的区别,这是通过在空间维度上对非重叠 Patch 进行聚合和位移来实现的。此外,作者计算非重叠 Patch 之间的注意力矩阵,以使得能够进行局部和全局特征提取与交互。

最初,作者采用了计算效率高的操作,包括展开(Unfold)和 Reshape (reshape),将 划分成一系列空间上连续的块( )。随后,作者对每个通道进行平均处理以得到 ( ),然后使用FFN [23] 进行线性计算。之后,作者应用激活函数来获得线性计算特征在空间维度上的概率分布,并相应地调整它们的权重。

在加权结果中,作者采用特征选择[24]从标记(tokens)和通道(channels)中选择与任务相关的特征。具体来说,令 ,并将加权结果表示为 ,其中 代表第 i 个输出标记。特征选择对每个标记进行操作,输出为 ,其中 是特定于任务的参数, 是一个在 [0,1] 范围内的余弦相似性函数。这里, 作为任务嵌入,指定哪些标记与任务相关。每个标记 根据其与任务嵌入(由余弦相似性衡量)的相关性进行重新加权,有效模拟标记选择。随后,作者对每个标记应用 的线性变换进行通道选择,然后进行 Reshape 和平滑插值操作,最终生成特征 。最后,作者将传统的 7x7、5x5 和 3x3 卷积层替换为包含三个 3x3 卷积层的串行卷积。这产生了三个不同的输出: ,然后将它们相加得到串行卷积输出

Iii-A2 Feature fusion and attention

在通过多分支特征提取进行特征提取之后,作者使用注意力机制进行自适应特征增强。注意力模块包括一系列有效的通道注意力[25]和空间注意力[26]组件。在这种情况下, 依次被一个一维通道注意力图 和一个二维空间注意力图 处理。这个过程可以总结如下:

其中 表示逐元素相乘, 分别表示经过通道和空间选择后的特征, 分别代表修正线性单元(_ReLU_)和批量归一化(_BN_),而 是PPA的最终输出。

Dimension-Aware Selective Integration Module

在红外小目标检测的多级下采样阶段中,高维特征可能会丢失关于小目标的信息,而低维特征可能无法提供足够的环境上下文。为了解决这个问题,作者提出了一种新颖的通道分割选择机制(如图3所示),这使得DASI能够根据目标的大小和特点自适应地选择适当的特征进行融合。特别是,DASI首先通过卷积和插值等操作将高维特征 和低维特征 与当前层的特征 对齐。随后,在通道维度上将它们划分为四个相等的部分,得到 ,以及 ,其中 分别表示高维、低维和当前层特征的i-th分割特征。这些分割根据以下公式计算:[此处公式不翻译,保持原文输出]。

其中 表示通过激活函数应用于 所得到的值, 表示每个分区的选择聚合结果。在通道维度上合并 后,作者得到 。操作 分别表示卷积、批量归一化(_BN_)和修正线性单元(_ReLU_),最终得到输出

如果 ,模型优先考虑细粒度特征;而如果 ,模型则强调上下文特征。

Multi-Dilated Channel Refiner Module

在MDCR中,作者引入了多个具有不同膨胀率的深度可分卷积层来捕捉不同感受野大小下的空间特征,这有助于更详细地建模物体与背景之间的差异,从而增强了对小物体的辨识能力。

如图4所示,MDCR沿着通道维度将输入特征 划分为四个不同的头,生成 。然后,每个头分别进行具有不同膨胀率的深度可分离膨胀卷积,得到 。作者将卷积膨胀率分别指定为

其中 表示通过对第 个头应用深度可分离膨胀卷积所获取的特征。操作 代表深度可分离膨胀卷积,而 的取值为

MDCR通过通道分割和重组来增强特征表示。具体来说,作者将 分割成单个通道,以获得每个 Head 的 。随后,作者将这些通道在 Head 之间交错,形成 ,从而增强多尺度特征的多样性。接着,作者使用逐点卷积进行组内和组间信息融合,得到输出 ,实现了一种轻量级且高效的聚合效果。

其中 是在点卷积中使用的权重矩阵。在这里, 表示第 个头中的第 个通道,而 代表第 组特征。作者有 。函数 分别对应于修正线性单元(ReLU)和批量归一化(BN)。

Loss design

如图1所示,作者采用了深度监督策略来解决小物体在降采样过程中丢失的问题。每个尺度上的损失包括二进制交叉熵损失和交并比损失,定义如下:

在该段技术文本中, 代表多尺度下的损失, 是真实 Mask , 是预测 Mask 。每个尺度的损失权重定义为。以下是翻译内容:

"其中, 代表在多个尺度上的损失, 是 GT  Mask ,而 是预测的 Mask 。每个尺度的损失权重被定义为。"

Implementation Details.

作者在NVIDIA GeForce GTX 3090 GPU上用HCF-Net进行了实验。对于尺寸为512x512像素并包含三个颜色通道的输入图像,HCF-Net的计算成本为93.16 GMac(千兆乘积累加操作),包含约1529万个参数。作者使用Adam优化器进行网络优化,采用批大小为4,并训练模型300个周期。

Ablation and Comparison

这一部分介绍了在SIRST数据集上进行的消融实验和比较实验。首先,如表格I所示,作者以U-Net作为 Baseline ,并系统地引入不同的模块以展示它们的有效性。其次,正如表格II所示,作者提出的方法在SIRST数据集上取得了卓越的性能,IoU和nIoU得分分别为80.09%和78.31%,显著超过其他方法。最后,图5展示了各种方法的视觉结果。在第一行中,可以观察到作者的方法以很低的误报率准确检测到更多的物体。第二行表明,作者的方法在复杂背景下仍能精确定位物体。最后,最后一行表明,作者的方法提供了更详细的形状和纹理特征描述。

V conclusion

在本文中,作者解决了红外小目标检测中的两个挑战:小目标损失和背景杂波。为了应对这些挑战,作者提出了HCF-Net,它融合了多个实用模块,显著提高了小目标检测的性能。大量的实验已经证明了HCF-Net的优越性,其表现优于传统的分割和深度学习模型。这个模型有望在红外小目标检测中发挥关键作用。

参考

[1].HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection.






点击上方卡片,关注「AI视界引擎」公众号

浏览 81
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报