建筑物边缘感知和边缘融合的多视图立体三维重建方法

新机器视觉

共 7637字,需浏览 16分钟

 · 2024-05-22

转载自:数智地球

论文:Edge aware depth inference for large-scale aerial building multi-view stereo

作者:Zhang S, Wei Z W, Xu W J, et al

编辑:东岸因为@一点人工一点智能

论文地址:‍https://www.sciencedirect.com/science/article/abs/pii/S0924271623003258
航空建筑深度估计是三维数字城市重建中的一项重要任务,基于深度学习的多视图立体(MVS)方法在该领域取得了较好的成果。目前的主要方法通过修改MVS 框架实现建筑物的深度估计,缺乏对建筑物内在结构的考虑,易导致精度不足等问题。
本文提出了一种新颖的由粗到细的多视图立体三维重建框架 EG-MVSNet,利用边缘信息感知抽取机制以及边缘信息多维融合机制实现了建筑物边缘信息指导的深度估计,使得模型能够估计准确的建筑物深度图,进而实现高精度的建筑物三维点云重建。
我们分别在WHU-MVS 数据集和LuoJia-MVS 数据集上进行大量实验,实验结果表明我们的方法达到了最佳水平,并具有在其他领域推广使用的潜力。本文相关科研成果已于2023年12月被ISPRS期刊接收。

背景介绍
近年来,MVSNet通过构建基于CNN特征的代价体,并使用3D CNN对其进行正则化,在获取深度图等任务中表现出色。一些研究人员尝试将该方法应用于基于航空图像的大规模航空MVS重建,如 RED-Net、MS-REDNet 和 HDC-MVSNet,却未考虑建筑物体本身结构特征,导致重建精度较低。
具体来说,航拍视角通常会将建筑物与相邻地形紧紧相连,因此当航拍图像采用倾斜摄影、照明不足或图像分辨率较低时,较难分辨出建筑物与地形的边缘,导致相邻地形的边缘干扰建筑物表面深度值的分布,我们将该现象定义为深度粘连。该问题会导致航拍建筑物深度估计不准确,进一步影响到建筑物的精确重建。
如图1中(b)所示,可以清楚地观察到,不考虑建筑物边缘信息的通用方法在航空建筑物图像深度估计结果中容易出现前景(建筑物)与背景(地形)之间深度粘连的问题。

图1 深度粘连问题的对比结果
在边缘检测领域,边缘信息明确对应着剧烈的梯度变化,因此融合边缘信息有助于获得更精确、更锐利的遮罩,缓解深度粘连问题。如图1中(c)和(d)所示,在引入边缘特征信息后可获得更加精确的结果。综上所述,如何提取有效的建筑物边缘信息,同时将其融合至MVSNet网络框架中是本文的主要研究内容。

方法介绍
2.1 整体框架

图2 EG-MVSNet框架。网络由两部分组成,分别获得边缘图、粗深度图和精深度图(红框中展示了各图的细节对比)。图中粗体部分为提出的模块,SFENet和代价体正则化网络的架构源自RED-Net。
网络流程描述:
(1)建筑物边缘特征提取:第一部分的目的是获取精确可靠的建筑边缘特征,以便实现特征融合。具体来说,为了有效编码边缘特征,我们提出了一个边缘感知网络(Edge-Sensitive Network, ESNet)。基于提取的边缘特征,可以通过可微的单映性变换构建边缘特征体 ,该特征体可以和标准代价体进行融合,从而在第二部分对深度估计隐式地三维引导正则化。为确保 ESNet 主要关注建筑边缘特征而非其他无关特征,我们利用类似于 UNet 的边缘预测分支(EPB)预测边缘图 ,并利用建筑边缘深度损失(BED-Loss)计算边缘图与生成的GT真实边缘图之间的损失,从而实现对于边缘提取分支的约束。
(2)建筑物边缘特征融合:第二部分旨在将建筑边缘特征融合至标准MVS框架,即分别从2D和3D两个维度对深度图预测进行引导。为了实现隐式的三维引导,设计体间自适应融合模块(Inter-volume Adaptive Fusion Module, IAFM)融合边缘特征体和标准代价体,从而得到边缘引导代价体,进一步通过3D-UNet来预测粗深度图。为了实现显式的2D引导,设计边缘深度细化模块(EDRM),利用边缘特征来细化粗糙深度图,得到细化的深度图。
2.2 边缘感知网络(ESNet)
为提取精确的建筑物边缘特征我们提出ESNet 。目前的边缘检测网络缺乏识别航空图像中建筑物边缘的能力,因此ESNet 的设计考虑到了建筑物和MVSNet的特点。具体来说,由于索贝尔算子在经典的边缘检测算法中被广泛用于获取线性信息,因此为了捕捉建筑物的刚性结构,我们将传统的索贝尔算子转化为动态的索贝尔核(DSK),如图3所示。

图3 不同形式的索贝尔算子和可学习索贝尔核的图示。(a) 显示了四种不同形式的不可学习索贝尔算子。(b) 显示参数化后的可微分索贝尔核
基于上述动态的索贝尔核,可以将索贝尔算子转换为可学习的卷积核实现模型优化,提高模型对于线性特征的编码能力。线性特征是由水平线、垂直线和斜线组成的,如果仅使用单一方向的线性特征提取 DSK(如 0° DSK 或 90° DSK),提取的斜线特征往往不够充分。因此,我们将上述不同的 DSK 组合至同一层中,实现对任意方向的线性特征进行编码,有效捕捉了建筑物的边缘结构。

图4 ESNet图示。左图:ESNet 由三个级联 DSK卷积组成。右图:每个DSK卷积层的四路DSK
DSK 卷积层示意图如图4所示,使用四个不同方向的可微分DSK构建 DSK卷积层从而实现对于复杂建筑的边缘感知,进一步将每个分支提取的特征图串联起来,得到最终的建筑物边缘特征图。每个分支分别对应 0° DSK、45° DSK、90° DSK 和 135° DSK,每个分支使用不同类型的可微分 DSK 来提取线性特征。使用两个卷积层对特征进行去噪和降采样,融合各分支提取的特征之后,得到最终的建筑边缘特征图。DSK卷积层的公式定义如下:
其中,[·]表示连接操作,wbi 分别代表各分支的卷积权重。
2.3 边缘预测网络(EPB)
基于ESNet提取的边缘特征,我们提出了一个类似于UNet的边缘预测分支。通过对边缘特征进行回归,约束ESNet,使网络重点关注建筑物边缘特征,同时减少对其他无关特征的提取。考虑到边缘图预测类似于语义分割任务,且UNet在语义分割任务中已经取得了巨大成功,因此我们考虑在UNet的基础上设计我们的边缘图预测分支,对边缘特征进行回归以生成边缘图用于损失计算。EPB的整体架构如图2右上角所示。
具体来说,EPB使用2D UNet网络回归参考图像边缘特征,得到边缘图。EPB采用了编码器-解码器结构,可以有效地从宽广的感受野中收集邻近信息,而不会产生过多的内存和计算消耗。在下采样阶段,边缘特征被逐步下采样为对应于不同尺度的四个边缘中间特征图。随后,解码器对边缘中间特征图进行上采样,以恢复原始图像大小,获得边缘图。
EPB明确利用边缘特征,同时隐式地优化了深度图,有效减轻了深度粘连问题。这一预测过程提高了边缘特征的准确性和可靠性,而边缘特征在我们的整体框架中发挥着关键作用。此外,EPB提供可视化结果,对于验证方法的有效性并确保其达到预期目标至关重要。
2.4 体间自适应融合模块(IAFM)
IAFM 的设计目的是将第1部分提取的2D建筑边缘特征融入到MVS框架中,以此来指导3D代价体的正则化。因此需要将2D边缘特征转换为3D特征,以实现这种结合。MVSNet中的3D代价体是通过匹配不同深度、不同视图以及不同空间位置的2D特征点之间的相似性来构建的。受这一机制的启发,我们也采用了可微分单映性变换(differentiable homography warping)来构建3D边缘特征体,变换公式如下所示:
式中,T, K 分别代表相机的内外参数。通过上述操作,我们将2D边缘特征转换至3D域。然而,在构建的边缘特征体中,并非所有的边缘匹配信息都是有效的,我们的目标是在融合过程中只将有效信息有选择地融合到3D代价体中,而忽略无关信息。直接求和可能会导致边缘特征体中的无效代价信息影响到代价体中的有效代价信息,如表面代价信息。因此,如果能自适应地将有效的边缘代价信息整合到代价体中,就能减轻无效代价信息的影响。
受启发于注意力机制,我们提出了一种基于注意力机制的体间自适应融合模块(IFAM),通过利用注意力机制(由多个叠加卷积构建)来增强边缘代价信息,抑制非边缘代价信息,从而增强边缘特征体与代价体的融合。我们的IFAM 结构如图5所示。

图5 IFAM图示
具体来说,IFAM 通过应用多个带跳转连接的叠加卷积来计算边缘特征体的边缘增强体。同样,标准代价体的信息增强体也通过类似的机制获得。IFAM 通过元素相加的方式实现融合,在两个卷积层之后得到最终的边缘引导代价体。因此,IFAM可以定义成如下公式:
综上,IAFM即可通过使用边缘特征引导标准代价体,进而获得更精确、更有效的深度图。
2.5 边缘深度细化模块(EDRM)
然从概率体中得到深度图是一个有效的输出,但由于正则化过程中涉及到较大的感受野,可能会出现深度边界过度平滑或模糊等问题,这是语义分割和图像去噪任务中的一个常见问题。因此,可以在粗深度图中加入边缘特征,以获得更详细的边缘信息并明确深度边界,进而缓解上述问题。
受此启发,通过探索使用2D边缘特征完善初始粗深度图,进而增强建筑边缘深度估计结果并提高深度图的整体质量。因此提出边缘深度细化模块(EDRM),利用提取的参考边缘特征来优化深度图。
EDRM的结构见图2右下方。在该模块中,我们首先将粗深度图Dc与边缘特征Fe0连接起来,然后将通过应用于粗深度图的两个卷积层获得的边缘残差信息纳入其中。这一聚合过程能够整合边缘信息,并生成边缘增强深度图。最后,使用四个卷积层对边缘增强深度图进行过滤,生成细化深度图Dr。EDRM的公式可以定义为:

实验结果
3.1 WHU-MVS数据集
EG-MVSNet在WHU-MVS数据集上的结果如下表1所示:

表1 EG-MVSNet在WHU-MVS数据集定量分析
我们在WHU-MVS数据集上与现有最优方法的定量对比如上表所示。我们具体对比了两种视图作为输入(三视图和五视图)的结果,从结果上可以看出我们的方法都取得了最优性能。其中,我们的方法在MAE指标上,在三视图上得到了0.097的结果,在五视图上得到了0.081的结果,相较其他方法均得到了显著提升。
EG-MVSNet在WHU-MVS数据集上深度估计对比图如下图6所示:

图6 EG-MVSNet在WHU-MVS数据集深度估计对比图
图6展示了EG-MVSNet与大多数最优方法的定性结果对比。如图中边缘图的结果可以看出,我们的方法能够准确的估计出建筑物的边缘图。对比图中局部细节的深度图结果可以看出,我们的方法能够估计出更加准确的深度结果,有效的解决了深度粘连的问题。
3.2 LuoJia-MVS数据集
EG-MVSNet在Luo-Jia-MVS数据集上的结果如下表2所示:

表2 EG-MVSNet在LuoJia-MVS数据集定量分析
表2展示了我们的模型的其他地物要素类型数据集上的泛化能力。从上表可以看出无论是在三视图估计亦或五视图的深度估计上,我们的模型均可以取得相对不错的效果。
EG-MVSNet在LuoJia-MVS数据集上可视化效果对比图如下图7所示:

图7 EG-MVSNet 在LuoJia-MVS数据集上可视化效果对比图
从图7可以看出,相比较于其他方法深度估计结果所展现出的深度粘连问题,我们的方法得益于能够准确的估计出建筑物的深度图并且进行充分的融合,能够有效的解决深度粘连的问题,进一步的提升了模型深度估计的质量。
3.3 边缘特征可视化

图8 边缘特征可视化结果
图8为模型提取的边缘特征图可视化结果,观察可知基于DSK卷积层,模型提取了十分准确的建筑边缘线性特征。从图中右侧部分可以看出模型估计的边缘图和原始图像中建筑物的边缘十分贴合,进一步证明了模型估计边缘的准确性。
3.4 重建结果
如图9所示是我们的模型对于城市区域的点云重建结果:

图9 城市区域点云重建实验结果
如图9所示,EG-MVSNet通过引入建筑物边缘信息,基于高精度深度图,较好地完成了城市区域的点云重建任务。

结论
我们提出了一种用于大规模航空建筑物多视图立体的边缘信息引导深度推理网络 EG-MVSNet,通过引入建筑物边缘特征信息缓解深度粘连的问题,从而进一步提高了估计深度图的精度。
该网络包括用于提取建筑物边缘特征的边缘感知网络(ESNet)、用于建筑物边缘预测网络(EPB)和用于边缘信息融合的体间自适应融合模块(IAFM)以及边缘深度细化模块(EDRM)。
实验结果表明,我们提出的方法达到了最先进的性能,与所有列出的方法相比,具有极强的泛化能力。此外通过额外的定性实验以及可视化展示证明了我们的方法能够有效的提取建筑物的边缘信息,有效的解决了深度粘连的问题。

浏览 6
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报