DKM: Dense Kernelized Feature Matching for Geometry Estimation论文精读(逐段解析)

DKM: Dense Kernelized Feature Matching for Geometry Estimation论文精读(逐段解析)

DKM:用于几何估计的密集核化特征匹配

论文地址:https://openaccess.thecvf.com/content/CVPR2023/html/Edstedt_DKM_Dense_Kernelized_Feature_Matching_for_Geometry_Estimation_CVPR_2023_paper.html

Project Page:https://parskatt.github.io/DKM/

github地址:https://github.com/Parskatt/DKM?tab=readme-ov-file

CVPR 2023

Johan Edstedt, Ioannis Athanasiadis, Marten Wadenback, Michael Felsberg
(其中Johan Edstedt、Marten Wadenback, Michael Felsberg 也是RoMA的作者)
林雪平大学计算机视觉实验室

DKM方法的优势体现在其对极端视角变化的处理能力上。传统的密集匹配方法在面对大幅度的视角变化时往往会失效,这主要源于几个挑战:首先是特征外观的剧烈变化,同一个物理点在不同视角下可能呈现完全不同的视觉特征;其次是遮挡问题,视角变化会导致原本可见的区域变为不可见;最后是几何变形的复杂性,大视角变化通常伴随着非线性的透视变形,这超出了传统方法的处理能力。DKM的全局匹配器和细化器的联合架构有效解决了这些问题。全局匹配器通过高斯过程回归和余弦坐标嵌入能够建立长距离的对应关系,即使在特征外观发生显著变化的情况下也能保持匹配的鲁棒性。细化器则通过多尺度的渐进优化策略,能够处理复杂的几何变形,将粗糙的全局估计逐步细化为像素级精确的匹配。

Abstract

Feature matching is a challenging computer vision task that involves finding correspondences between two images of a 3D scene. In this paper we consider the dense approach instead of the more common sparse paradigm, thus striving to find all correspondences. Perhaps counter-intuitively, dense methods have previously shown inferior performance to their sparse and semi-sparse counterparts for estimation of two-view geometry. This changes with our novel dense method, which outperforms both dense and sparse methods on geometry estimation. The novelty is threefold: First, we propose a kernel regression global matcher. Secondly, we propose warp refinement through stacked feature maps and depthwise convolution kernels. Thirdly, we propose learning dense confidence through consistent depth and a balanced sampling approach for dense confidence maps.

【翻译】特征匹配是一项具有挑战性的计算机视觉任务,涉及在3D场景的两幅图像之间寻找对应关系。在本文中,我们考虑密集方法而不是更常见的稀疏范式,因此力求找到所有对应关系。或许与直觉相反,在双视图几何估计方面,密集方法此前表现出比稀疏和半稀疏方法更差的性能。这种情况在我们的新颖密集方法中发生了改变,该方法在几何估计上优于密集和稀疏方法。新颖性体现在三个方面:首先,我们提出了一个核回归全局匹配器。其次,我们提出了通过堆叠特征图和深度卷积核进行扭曲细化。第三,我们提出了通过一致深度学习密集置信度和密集置信度图的平衡采样方法。

【解析】特征匹配本质上是要在两张不同角度拍摄的图片中找到相同的物理点,这对于理解三维场景结构至关重要。传统的方法主要分为两类:稀疏方法只匹配少数关键点,而密集方法试图为每个像素都找到对应点。虽然理论上密集方法能提供更全面的信息,但在实际应用中,特别是在估计两个视角之间的几何关系时,密集方法的表现一直不如稀疏方法。这主要是因为密集方法产生的匹配点过多,其中包含大量噪声,而稀疏方法虽然点少但质量更高。作者提出的DKM方法打破了这个局面,首次让密集方法在几何估计任务上超越了稀疏方法。方法的核心创新包括三个技术要点:核回归全局匹配器用于建立初始的粗略匹配关系,堆叠特征图和深度卷积核用于精细化匹配结果,以及基于深度一致性的置信度估计和平衡采样策略来筛选可靠的匹配点。

Through extensive experiments we confirm that our proposed dense method, Dense Kernelized Feature Matching, sets a new state-of-the-art on multiple geometry estimation benchmarks. In particular, we achieve an improvement on MegaDepth-1500 of + 4.9 +4.9 +4.9 and + 8.9 A U C @ 5 ∘ +8.9A U C@5^{\circ} +8.9AUC@5 compared to the best previous sparse method and dense method respectively. Our code is provided at the following repository: https://github.com/Parskatt/DKM.

【翻译】通过广泛的实验,我们确认了我们提出的密集方法——密集核化特征匹配,在多个几何估计基准测试中创造了新的最先进水平。特别是,在MegaDepth-1500数据集上,与之前最佳的稀疏方法和密集方法相比,我们分别实现了 + 4.9 +4.9 +4.9 + 8.9 A U C @ 5 ∘ +8.9A U C@5^{\circ} +8.9AUC@5的改进。我们的代码可在以下仓库中获得:https://github.com/Parskatt/DKM。

【解析】 MegaDepth-1500是一个标准的计算机视觉数据集,专门用于评估双视图几何估计算法的性能。 A U C @ 5 ∘ AUC@5^{\circ} AUC@5是一个评价指标,表示在5度误差范围内的曲线下面积,这个数值越高说明算法的准确性越好。作者的方法相比之前最好的稀疏方法提升了4.9个点,相比之前最好的密集方法提升了8.9个点,这是相当显著的性能提升。

1. Introduction

Two-view geometry estimation is a classical computer vision problem with numerous important applications, including 3D reconstruction [38], SLAM [30], and visual relocalisation [27]. The task can roughly be divided into two steps. First, a set of matching pixel pairs between the images is produced. Then, using the matched pairs, two-view geometry, e.g., relative pose, is estimated. In this paper, we focus on the first step, i.e., feature matching. This task is challenging, as image pairs may exhibit extreme variations in illumination [1], viewpoint [22], time of day [37], and even season [46]. This stands in contrast to small baseline stereo and optical flow tasks, where the changes in viewpoint and illumination are typically small.

【翻译】双视图几何估计是一个经典的计算机视觉问题,具有众多重要应用,包括3D重建[38]、SLAM[30]和视觉重定位[27]。该任务大致可以分为两个步骤。首先,在图像之间产生一组匹配的像素对。然后,使用匹配的像素对,估计双视图几何,例如相对位姿。在本文中,我们专注于第一步,即特征匹配。这项任务具有挑战性,因为图像对可能表现出光照[1]、视点[22]、一天中的时间[37]甚至季节[46]的极端变化。这与小基线立体视觉和光流任务形成对比,在这些任务中,视点和光照的变化通常很小。

【解析】双视图几何估计的本质是从两张不同角度拍摄的照片中推断出相机的位置关系和场景的三维结构。这个过程被分解为两个核心步骤:特征匹配和几何估计。特征匹配阶段需要找出两张图片中对应同一个物理点的像素位置,这是后续几何估计的基础。几何估计阶段则利用这些对应点来计算相机间的相对位置和方向。这个问题的挑战性主要来源于真实世界的复杂性:同一个场景在不同时间、不同角度、不同光照条件下拍摄时,图像的外观会发生巨大变化。相比之下,传统的立体视觉和光流任务通常处理的是相机位置变化很小的情况,比如双目相机系统或者连续视频帧,这些场景下图像间的差异相对较小,匹配难度也相应降低。

在这里插入图片描述
Figure 1. Qualitative comparison. We compare our proposed approach DKM with the previous SotA method PDC-Net+ [48] on Milan Cathedral. Top row, image A \mathcal{A} A and B \boldsymbol{\mathcal{B}} B . Middle row and bottom row, forward and reverse warps for PDC-Net+ and DKM weighted by certainty. DKM provides both superior match accuracy and certainty estimation compared to previous methods.

【翻译】图1. 定性比较。我们在米兰大教堂上比较了我们提出的DKM方法与之前的最先进方法PDC-Net+[48]。顶行,图像 A \mathcal{A} A B \boldsymbol{\mathcal{B}} B。中间行和底行,PDC-Net+和DKM的正向和反向变形,按置信度加权。与之前的方法相比,DKM提供了更优的匹配精度和置信度估计。

【解析】对比图展示了DKM方法相比于之前最好方法的显著优势。正向和反向变形指的是将图A中的像素映射到图B中对应位置,以及将图B中的像素映射回图A中对应位置的过程。这种双向验证是评估匹配质量的重要手段,因为真正准确的匹配应该在两个方向上都保持一致性。置信度加权显示说明系统不仅能找到匹配点,还能评估每个匹配的可靠程度,这对于后续的几何估计至关重要。从视觉效果可以看出,DKM方法产生的匹配结果更加稳定和准确,特别是在细节丰富的建筑结构上。

Traditionally, feature matching has been performed by sparse keypoint and descriptor extraction, followed by matching [26,36]. The main issue with this approach is that accurate localization of reliable and repeatable keypoints is difficult in challenging scenes. This leads to errors in matching and estimation [13,23]. To tackle this issue, semisparse or detector-free methods such as LoFTR [41] and Patch2Pix [53] were introduced. These methods do not detect keypoints directly but rather perform global matching at a coarse level, followed by mutual nearest neighbour extraction and sparse match refinement. While those methods degrade less in low-texture scenes, they are still limited by the fact that the sparse matches are produced at a coarse scale, leading to problems with, e.g., repeatability due to grid artifacts [17]. By instead extracting all matches between the views, i.e., dense feature matching, we face no such issues. Furthermore, dense warps provide affine matches for free, which yield smaller minimal problems for subsequent estimation [3, 4, 15]. While previous dense approaches [39, 47] have achieved good results, they have however failed to achieve performance rivaling that of sparse or semi-sparse methods on geometry estimation.

【翻译】传统上,特征匹配是通过稀疏关键点和描述符提取进行的,然后进行匹配[26,36]。这种方法的主要问题是在具有挑战性的场景中很难准确定位可靠且可重复的关键点。这导致匹配和估计中的错误[13,23]。为了解决这个问题,引入了半稀疏或无检测器方法,如LoFTR[41]和Patch2Pix[53]。这些方法不直接检测关键点,而是在粗略级别执行全局匹配,然后进行互最近邻提取和稀疏匹配细化。虽然这些方法在低纹理场景中退化较少,但它们仍然受到稀疏匹配在粗糙尺度上产生的限制,导致例如由于网格伪影而出现可重复性问题[17]。相反,通过提取视图之间的所有匹配,即密集特征匹配,我们不会面临这样的问题。此外,密集变形免费提供仿射匹配,这为后续估计产生更小的最小问题[3, 4, 15]。虽然之前的密集方法[39, 47]已经取得了良好的结果,但它们在几何估计方面未能达到与稀疏或半稀疏方法相匹敌的性能。

【解析】这段话回顾了特征匹配方法的演进历程,揭示了不同方法的优缺点。传统稀疏方法的核心思想是先找到图像中的显著特征点(如角点、边缘点),然后为这些点计算描述符,最后进行匹配。但这种方法在实际应用中面临一个根本性挑战:在纹理单调、光照变化剧烈或者视角差异很大的场景中,很难找到既可靠又能在不同图像中重复检测到的关键点。半稀疏方法试图解决这个问题,它们不再依赖于预先检测的关键点,而是在整个图像的粗糙网格上进行全局匹配,然后选择最可信的匹配点进行精细化。这种方法在一定程度上缓解了关键点检测的困难,但引入了新的问题:由于匹配是在固定的粗糙网格上进行的,容易产生网格对齐的伪影,影响匹配的重复性和精度。密集匹配方法则彻底摆脱了这些限制,它尝试为每个像素都找到对应点,不仅避免了关键点检测和网格对齐的问题,还能自然地提供仿射变换信息,这对于后续的几何估计算法来说是非常有价值的额外信息。

In this work, we propose a novel dense matching method that outperforms both dense and sparse methods in homography and two-view relative pose estimation. We achieve this by proposing a substantially improved model architecture, including both the global matching and warp refinement stage, and by a simple but strong approach to dense certainty estimation and a balanced dense warp sampling mechanism. We compare qualitatively our method with the previous best dense method in Figure 1.

【翻译】在这项工作中,我们提出了一种新颖的密集匹配方法,在单应性和双视图相对位姿估计方面都优于密集和稀疏方法。我们通过提出大幅改进的模型架构(包括全局匹配和变形细化阶段)以及简单但强大的密集置信度估计方法和平衡的密集变形采样机制来实现这一目标。我们在图1中将我们的方法与之前最好的密集方法进行了定性比较。

【解析】本文的核心贡献。作者声称他们的方法在两个重要的几何估计任务上都取得了突破:单应性估计(用于处理平面场景或纯旋转相机运动)和双视图相对位姿估计(用于一般的三维场景)。技术创新主要体现在三个方面:首先是架构层面的重大改进,包括全局匹配模块和细化模块的设计优化;其次是置信度估计机制,能够有效判断哪些匹配点是可靠的;最后是采样策略,确保选择的匹配点在空间分布上合理平衡,这对几何估计算法的稳定性和准确性至关重要。这些改进的协同作用使得密集方法首次在几何估计任务上超越了传统的稀疏方法。

Our contributions are as follows. Global Matcher: We propose a kernelized global matcher and embedding decoder. This results in robust coarse matches. We describe our approach in Section 3.2 and ablate the performance gains in Table 5. Warp Refiners: We propose warp refinement through large depthwise separable kernels using stacked feature maps as well as local correlation as input. This gives our method superior precision and is described in detail in Section 3.3 with corresponding performance impact ablated in Table 6. Certainty and Sampling: We propose a simple method to predict dense certainty from consistent depth and propose a balanced sampling approach for dense matches. We describe our certainty and sampling approach in more detail in Section 3.4 and ablate the performance gains in Table 7. State-of-the-Art: Our extensive experiments in Section 4 show that our method significantly improves on the state-of-the-art. In particular, we improve estimation results compared to the best previous dense method by + 8.9 A U C @ 5 ∘ +8.9\mathrm{AUC@5^{\circ}} +8.9AUC@5 on MegaDepth-1500. These results pave the way for dense matching based 3D reconstruction.

【翻译】我们的贡献如下。全局匹配器:我们提出了一个核化全局匹配器和嵌入解码器。这产生了鲁棒的粗糙匹配。我们在第3.2节描述了我们的方法,并在表5中消融了性能增益。变形细化器:我们提出通过使用堆叠特征图和局部相关性作为输入的大型深度可分离核来进行变形细化。这使我们的方法具有卓越的精度,在第3.3节中详细描述,并在表6中消融了相应的性能影响。置信度和采样:我们提出了一种从一致深度预测密集置信度的简单方法,并提出了密集匹配的平衡采样方法。我们在第3.4节中更详细地描述了我们的置信度和采样方法,并在表7中消融了性能增益。最先进水平:我们在第4节中的广泛实验表明,我们的方法显著改进了最先进水平。特别是,与之前最好的密集方法相比,我们在MegaDepth-1500上将估计结果改进了 + 8.9 A U C @ 5 ∘ +8.9\mathrm{AUC@5^{\circ}} +8.9AUC@5。这些结果为基于密集匹配的3D重建铺平了道路。

【解析】这段话总结了论文的四大核心贡献。全局匹配器采用了核化技术和嵌入解码架构,这种设计能够在粗糙层级上建立稳健的初始匹配关系,为后续的精细化过程提供良好的基础。变形细化器的创新在于使用了大型深度可分离卷积核和特征图堆叠技术,这种设计能够在保持计算效率的同时大幅提升匹配精度。置信度估计和采样策略解决了密集匹配方法面临的两个关键问题:如何识别可靠的匹配点以及如何选择空间分布合理的匹配子集。

2. Related Work

Global Matching: Traditionally, global matching has been performed by computing pair-wise descriptor distances for detected keypoints in the two images, with match extraction performed by mutual nearest neighbours in the distance matrix, see e.g. [10, 11, 26]. Instead of directly computing pair-wise distances, one can first condition the descriptors based on the complete set of detections. Sarlin et al. [36] proposed a graph neural network approach to condition the descriptors, and optimal transport instead of mutual nearest neighbours for match extraction. Detector-free methods instead perform global matching uniformly over the image grid at a coarse scale [32, 33, 45, 53]. This has the benefit of avoiding the detection problem [41]. These methods typically extract matches by (soft-)mutual-nearest neighbours, or optimal transport [32, 41]. In contrast to detector-free methods, dense methods must produce a dense warp. This warp is typically predicted by regression based on the global 4D-correlation volume [29,47,49]. In this work we propose a Gaussian Process (GP) formulation of the matching problem, as detailed in Section 3.2.

【翻译】全局匹配:传统上,全局匹配通过计算两幅图像中检测到的关键点的成对描述符距离来执行,匹配提取通过距离矩阵中的互最近邻来执行,例如参见[10, 11, 26]。与直接计算成对距离不同,可以首先基于完整的检测集来条件化描述符。Sarlin等人[36]提出了一种图神经网络方法来条件化描述符,并使用最优传输而不是互最近邻来进行匹配提取。无检测器方法则在粗糙尺度上均匀地在图像网格上执行全局匹配[32, 33, 45, 53]。这具有避免检测问题的好处[41]。这些方法通常通过(软)互最近邻或最优传输来提取匹配[32, 41]。与无检测器方法相比,密集方法必须产生密集变形。这种变形通常基于全局4D相关体积通过回归来预测[29,47,49]。在这项工作中,我们提出了匹配问题的高斯过程(GP)公式,详见第3.2节。

【解析】全局匹配方法的发展经历了从传统稀疏方法到现代密集方法的演进过程。传统方法的核心思路是先在每张图像中检测出一些显著的特征点,然后为每个特征点计算一个数学描述符来表征其周围的图像模式,最后通过计算不同图像间特征点描述符的相似度来建立匹配关系。这种方法的问题在于特征点检测本身就是一个困难的任务,特别是在纹理缺乏或光照变化剧烈的场景中。为了解决这个问题,图神经网络方法被引入,它不是孤立地处理每个描述符,而是考虑所有检测到的特征点之间的关系来优化描述符表示。最优传输理论的应用则提供了一种更优雅的匹配分配策略,相比简单的最近邻匹配能够产生更全局最优的匹配结果。无检测器方法彻底摆脱了特征点检测的束缚,它们在图像的规则网格上直接进行匹配,避免了特征点检测可能带来的错误和遗漏。密集方法更进一步,它们不仅要为网格点建立匹配,还要预测每个像素的对应关系,这需要生成一个完整的密集变形场。4D相关体积是实现这一目标的经典工具,它通过计算两幅图像所有位置对之间的特征相似度来构建匹配关系。本文提出的高斯过程方法则为密集匹配提供了一个全新的概率框架,它将匹配问题视为一个回归问题,能够更好地处理匹配的不确定性。

Match Refinement: For detector-free methods, match refinement is typically performed by extracting patches around the sparse matches. Zhou et al. [53] propose to refine matches by CNN regression. Sun et al. [41] use transformers, with additional improvements by later work [7, 44, 50]. Dense methods in contrast refine matches by dense warp refinement. Troung et al. [47, 49] proposed a local-correlation based warp refinement network. In this work, we propose to use stacked feature maps combined with large depth-wise convolution kernels. Our approach to refinement is described in Section 3.3.

【翻译】匹配细化:对于无检测器方法,匹配细化通常通过在稀疏匹配周围提取补丁来执行。Zhou等人[53]提出通过CNN回归来细化匹配。Sun等人[41]使用变换器,后续工作[7, 44, 50]进一步改进。相比之下,密集方法通过密集变形细化来细化匹配。Troung等人[47, 49]提出了基于局部相关性的变形细化网络。在这项工作中,我们提出使用堆叠特征图结合大型深度卷积核。我们的细化方法在第3.3节中描述。

【解析】匹配细化是提高特征匹配精度的关键步骤,不同类型的方法采用了不同的细化策略。无检测器方法由于产生的是稀疏匹配点,因此它们的细化策略通常是在每个粗糙匹配点周围提取一个小的图像补丁,然后使用更精细的算法来确定准确的匹配位置。CNN回归方法直接学习从粗糙匹配到精确匹配的映射关系,而Transformer方法则利用注意力机制来更好地理解匹配点周围的上下文信息。密集方法面临的挑战更加复杂,因为它们需要同时细化整个密集变形场而不是单独的匹配点。局部相关性方法通过计算图像补丁之间的相似度来细化变形,这是一种经典且有效的策略。本文提出的方法创新性地使用了特征图堆叠技术,这允许网络同时访问多个尺度的特征信息,而大型深度卷积核则能够捕获更大范围的空间依赖关系,从而实现更精确的变形细化。

Match Certainty and Sampling: Although the dense paradigm provides subpixel-level feature matching capabilities, it also comes with inaccurate correspondences in unmatchable regions, resulting in a need for certainty estimation. Wiles et al. [51] and Melekhov et al. [29] proposed matchability branches aiming at predicting the presence or the absence of a pixel correspondence. Recently, in PDCNet [49] and PDC-Net+ [48], the warp estimation was formulated in a probabilistic manner, thus pairing the proposed feature correspondences along with certainty estimates by means of mixture models. We found, however, that their estimated certainty is often confident for unmatchable pairs (Figure 7). In this work, we propose to model certainty as the likelihood of a pixel having a consistent pairwise match in terms of 3D reconstruction, which provides potent certainty maps as illustrated in Figure 1. However, in downstream tasks, e.g., relative pose, the reliability of the extracted correspondence is not the sole factor influencing the performance. For estimation, planar warps are a well known degenerate case [8], and the five-point problem is often illconditioned [6,12]. Hence, well distributed matches are important for estimation [2,18]. Motivated by this, we propose a balanced sampling mechanism that provides the estimator with diverse matches. We describe the certainty estimation and balanced sampling in more detail in Section 3.4.

【翻译】匹配置信度和采样:尽管密集范式提供了亚像素级的特征匹配能力,但它也在不可匹配区域带来了不准确的对应关系,导致需要置信度估计。Wiles等人[51]和Melekhov等人[29]提出了可匹配性分支,旨在预测像素对应关系的存在或不存在。最近,在PDCNet[49]和PDC-Net+[48]中,变形估计以概率方式表述,因此通过混合模型将提出的特征对应关系与置信度估计配对。然而,我们发现他们估计的置信度对于不可匹配对经常过于自信(图7)。在这项工作中,我们提出将置信度建模为像素在3D重建方面具有一致成对匹配的可能性,这提供了强有力的置信度图,如图1所示。然而,在下游任务中,例如相对位姿,提取对应关系的可靠性并不是影响性能的唯一因素。对于估计,平面变形是一个众所周知的退化情况[8],五点问题通常是病态的[6,12]。因此,分布良好的匹配对于估计很重要[2,18]。受此启发,我们提出了一种平衡采样机制,为估计器提供多样化的匹配。我们在第3.4节中更详细地描述置信度估计和平衡采样。

【解析】密集匹配方法的一个挑战是如何处理大量的匹配候选点,其中必然包含许多错误或不可靠的匹配。置信度估计就是解决这个问题的关键技术,它试图为每个匹配分配一个可靠性评分。早期的方法通过预测像素是否可匹配来处理这个问题,但这种二元分类方法过于简化。概率方法的引入使得系统能够输出连续的置信度值,但实际应用中发现这些方法往往对明显错误的匹配给出过高的置信度评分。本文提出的解决方案是将置信度与3D重建的一致性联系起来,这种方法更贴近实际应用需求,因为真正有用的匹配应该能够支持正确的三维几何重建。除了可靠性之外,匹配点的空间分布也对几何估计算法的性能有重要影响。平面退化是指当场景主要由平面构成或相机运动主要是平面内运动时,传统的几何估计算法会失效。五点算法的病态性质说明即使有足够数量的匹配点,如果这些点的分布不合理,算法的数值稳定性也会受到影响。因此,平衡采样策略不仅要选择可靠的匹配点,还要确保这些点在图像中的分布足够分散和多样化,这样才能为后续的几何估计提供稳定的输入。

3. Method

In the following sections we describe our approach to geometry estimation by dense matching. For an overview, see Figure 2. We first provide a general overview of the dense matching framework (Section 3.1). We then describe our approach for improving the global matcher G θ G_{\theta} Gθ (Section 3.2), the warp refiners R θ R_{\theta} Rθ (Section 3.3), and certainty estimation along with match sampling (Section 3.4). Lastly, we discuss our loss formulation (Section 3.5).

【翻译】在接下来的章节中,我们描述了通过密集匹配进行几何估计的方法。概述请参见图2。我们首先提供密集匹配框架的总体概述(第3.1节)。然后我们描述了改进全局匹配器 G θ G_{\theta} Gθ(第3.2节)、变形细化器 R θ R_{\theta} Rθ(第3.3节)以及置信度估计和匹配采样(第3.4节)的方法。最后,我们讨论了损失函数的制定(第3.5节)。

在这里插入图片描述
Figure 2. An overview of geometry estimation by dense matching. I: In the first stage, a multistride feature pyramid is extracted. We follow previous approaches and use ResNet encoders with shared weights. II: In the second stage coarse global matches are established. We improve this stage by viewing it as a embedded probabilistic regression problem combined with a strong embedding decoder. We describe our approach in more detail in Section 3.2. III: The coarse warp is then refined. We propose a stacked feature map approach combined with large depthwise kernels, which increases performance. This is detailed in Section 3.3. IV: Finally, for geometry estimation a robust certainty estimate is crucial for selecting a set of reliable matches. We find that letting the network learn to classify consistent depth yields a trustworthy certainty estimate. Further combining this with balanced sampling yields even better results. We discuss this in Section 3.4. V: Once a set of matches have been selected, we use standard robust solvers for estimation as previous methods.

【翻译】图2. 通过密集匹配进行几何估计的概述。I:在第一阶段,提取多步长特征金字塔。我们遵循先前的方法,使用具有共享权重的ResNet编码器。II:在第二阶段建立粗糙的全局匹配。我们通过将其视为嵌入概率回归问题结合强大的嵌入解码器来改进这一阶段。我们在第3.2节中更详细地描述了我们的方法。III:然后细化粗糙变形。我们提出了堆叠特征图方法结合大型深度卷积核,这提高了性能。这在第3.3节中详细说明。IV:最后,对于几何估计,稳健的置信度估计对于选择一组可靠匹配至关重要。我们发现让网络学习分类一致深度产生可信的置信度估计。进一步结合平衡采样产生更好的结果。我们在第3.4节中讨论这一点。V:一旦选择了一组匹配,我们像以前的方法一样使用标准的稳健求解器进行估计。

【解析】流程图展示了DKM的完整技术架构。第一阶段的多步长特征金字塔通过在不同分辨率层级上提取特征来捕获从细节纹理到整体结构的多尺度信息,ResNet编码器的共享权重设计确保了计算效率和特征一致性。第二阶段的核心创新在于将匹配问题重新建模为概率回归任务,这种观点转换使得匹配过程具有了理论基础和不确定性量化能力,嵌入解码器则负责将高维概率表示转换为具体的几何变形。第三阶段的细化过程采用了堆叠特征图和大型深度卷积核的组合,能够在保持计算效率的同时大幅扩展感受野,从而捕获更丰富的空间上下文信息来改善匹配精度。第四阶段解决了密集匹配方法面临的关键挑战:如何从海量的密集匹配中识别和选择真正可靠的匹配点,通过学习深度一致性分类来估计置信度,因为真正准确的匹配应该在三维重建中表现出一致的深度信息,平衡采样则确保选择的匹配点在空间分布上的合理性。最后阶段使用标准的RANSAC等稳健估计器来计算最终的几何参数,这保持了与现有方法的兼容性。

3.1. 预备知识

In this paper we consider the task of estimating 3D scene geometry from two images ( I A , I B ) (I^{A},I^{B}) (IA,IB) . For matching we choose the dense feature matching paradigm, i.e., to estimate a dense warp WA→B and a dense certainty p A → B p^{\boldsymbol{A}\rightarrow B} pAB , that is zero for unmatchable pixels. From this complete set of certain and uncertain matches, a subset of matches are sampled (without replacement). Finally, a robust estimation method is used to infer the geometry from the sampled matches. The task can be divided into five stages.

【翻译】在本文中,我们考虑从两幅图像 ( I A , I B ) (I^{A},I^{B}) (IA,IB)估计3D场景几何的任务。对于匹配,我们选择密集特征匹配范式,即估计密集变形 W A → B W^{A→B} WAB和密集置信度 p A → B p^{\boldsymbol{A}\rightarrow B} pAB,对于不可匹配的像素,置信度为零。从这个包含确定和不确定匹配的完整集合中,采样匹配的子集(无替换采样)。最后,使用鲁棒估计方法从采样的匹配中推断几何结构。该任务可以分为五个阶段。

【解析】这段话介绍了整个方法的基本框架。3D场景几何估计的目标是从多张二维图像中恢复出真实世界的三维结构信息。密集变形 W A → B W^{A→B} WAB是一个映射函数,它描述了图像A中每个像素在图像B中的对应位置,这种映射关系可以用位移向量场来表示。密集置信度 p A → B p^{\boldsymbol{A}\rightarrow B} pAB则为每个像素的匹配分配一个可靠性评分,当某个像素在另一幅图像中没有合理的对应点时(比如被遮挡或超出图像边界),其置信度应该为零。无替换采样确保了每个匹配点只被使用一次,避免了重复选择同一匹配点可能带来的偏差。鲁棒估计方法如RANSAC能够在存在错误匹配的情况下仍然获得准确的几何参数估计,这对于实际应用中不可避免的噪声和异常值处理至关重要。

In stage I, a feature pyramid is extracted for A \mathcal{A} A and B \boldsymbol{\mathcal{B}} B ,

{ φ l A } l = 1 L = F θ ( I A ) , { φ l B } l = 1 L = F θ ( I B ) , \{\varphi_{l}^{{\cal A}}\}_{l=1}^{L}=F_{\theta}({\cal I}^{A}),\{\varphi_{l}^{{\cal B}}\}_{l=1}^{L}=F_{\theta}({\cal I}^{B}), {φlA}l=1L=Fθ(IA),{φlB}l=1L=Fθ(IB),

where F θ F_{\theta} Fθ is an encoder (we use a ResNet50 [16] pretrained on ImageNet-1K [34]), and l ∈ { 1 , … , L } l\in\{1,\ldots,L\} l{1,,L} are the indices for the multiscale features (in our approach l = 1 l=1 l=1 corresponds to the rgb values of stride 1, and l   =    L l\:=\:\:L l=L corresponds to deep features of stride 2 L − 1 = 32 2^{L-1}=32 2L1=32 ). We denote the coarse features as ( φ c o a r s e A \varphi_{\mathrm{coarse}}^{A} φcoarseA, φ c o a r s e B ) \varphi_{\mathrm{coarse}}^{B}) φcoarseB)) and fine features as ( φ f i n e A , φ f i n e B ) (\varphi_{\mathrm{fine}}^{A},\varphi_{\mathrm{fine}}^{B}) (φfineA,φfineB) . In this work the coarse features correspond to stride { 32 , 16 } \{32,16\} {32,16} and the fine features to { 8 , 4 , 2 , 1 } \{8,4,2,1\} {8,4,2,1} .

【翻译】在阶段I中,为 A \mathcal{A} A B \boldsymbol{\mathcal{B}} B提取特征金字塔,其中 F θ F_{\theta} Fθ是编码器(我们使用在ImageNet-1K[34]上预训练的ResNet50[16]), l ∈ { 1 , … , L } l\in\{1,\ldots,L\} l{1,,L}是多尺度特征的索引(在我们的方法中, l = 1 l=1 l=1对应步长为1的rgb值, l = L l=L l=L对应步长为 2 L − 1 = 32 2^{L-1}=32 2L1=32的深度特征)。我们将粗糙特征表示为 ( φ c o a r s e A , φ c o a r s e B ) (\varphi_{\mathrm{coarse}}^{A},\varphi_{\mathrm{coarse}}^{B}) (φcoarseA,φcoarseB),精细特征表示为 ( φ f i n e A , φ f i n e B ) (\varphi_{\mathrm{fine}}^{A},\varphi_{\mathrm{fine}}^{B}) (φfineA,φfineB)。在这项工作中,粗糙特征对应步长 { 32 , 16 } \{32,16\} {32,16},精细特征对应步长 { 8 , 4 , 2 , 1 } \{8,4,2,1\} {8,4,2,1}

【解析】特征金字塔通过在不同分辨率层级上提取特征来捕获图像的多尺度信息。作者选择ResNet50作为编码器,因为它在ImageNet上的预训练权重提供了强大的视觉特征表示能力,这些预训练特征对于匹配任务具有很好的通用性。步长(stride)决定了特征图的空间分辨率,步长为1时保持原始分辨率,步长为32时特征图的尺寸是原图的1/32。公式中 l = 1 l=1 l=1 l = L l=L l=L的设计形成了从高分辨率到低分辨率的特征层级, l = 1 l=1 l=1保留了原始RGB信息和精细的空间细节,而 l = L l=L l=L则包含了更抽象的语义信息但空间分辨率较低。粗糙特征和精细特征的区分反映了分层处理的策略:粗糙特征用于建立初始的全局匹配关系,其较低的分辨率使得计算效率更高,而精细特征则用于后续的匹配细化,其较高的分辨率能够提供更精确的空间定位。这种多尺度设计使得算法既能捕获大范围的对应关系,又能实现精确的亚像素级匹配。

In stage I I \mathbf{II} II , we estimate a coarse global warp and certainty from the deep features with a global matcher G θ G_{\theta} Gθ . Here potential global matches are embedded by the embedder E θ E_{\theta} Eθ . We propose to construct the embeddings as solutions to a probabilistic regression problem using a Gaussian Process (GP) formulation. After the embeddings have been computed, an embedding decoder D θ D_{\theta} Dθ decodes the embeddings into a dense warp and certainty, i.e.,

{ ( W ^ c o a r s e A → B , p ^ c o a r s e A → B ) = G θ ( φ c o a r s e A , φ c o a r s e B ) , G θ ( φ c o a r s e A , φ c o a r s e B ) = D θ ( E θ ( φ c o a r s e A , φ c o a r s e B ) ) . \left\{\begin{array}{l l}{\big(\hat{\mathbf{W}}_{\mathrm{coarse}}^{\mathcal{A}\to\mathcal{B}},\hat{p}_{\mathrm{coarse}}^{\mathcal{A}\to\mathcal{B}}\big)=G_{\theta}(\varphi_{\mathrm{coarse}}^{\mathcal{A}},\varphi_{\mathrm{coarse}}^{\mathcal{B}}),}\\ {G_{\theta}(\varphi_{\mathrm{coarse}}^{\mathcal{A}},\varphi_{\mathrm{coarse}}^{\mathcal{B}})=D_{\theta}\big(E_{\theta}(\varphi_{\mathrm{coarse}}^{\mathcal{A}},\varphi_{\mathrm{coarse}}^{\mathcal{B}})\big).}\end{array}\right. {(W^coarseAB,p^coarseAB)=Gθ(φcoarseA,φcoarseB),Gθ(φcoarseA,φcoarseB)=Dθ(Eθ(φcoarseA,φcoarseB)).

We describe the global matching in detail in Section 3.2. In stage I I I \mathbf{III} III , we refine the coarse warp of G θ G_{\theta} Gθ , i.e.,

【翻译】在阶段 I I \mathbf{II} II中,我们使用全局匹配器 G θ G_{\theta} Gθ从深度特征中估计粗糙的全局变形和置信度。这里潜在的全局匹配由嵌入器 E θ E_{\theta} Eθ进行嵌入。我们提出使用高斯过程(GP)公式将嵌入构建为概率回归问题的解。在嵌入计算完成后,嵌入解码器 D θ D_{\theta} Dθ将嵌入解码为密集变形和置信度。

我们在第3.2节中详细描述全局匹配。在阶段 I I I \mathbf{III} III中,我们细化 G θ G_{\theta} Gθ的粗糙变形,即,

【解析】第二阶段目标是建立两幅图像之间的初始对应关系。传统的匹配方法通常依赖于显式的特征点检测和描述符匹配,但这种方法容易在纹理缺乏或重复结构的区域失效。本文提出的方法将匹配问题重新表述为概率回归问题,这是一个重要的范式转换。具体来说,给定图像A中的特征 φ c o a r s e A \varphi_{\mathrm{coarse}}^{\mathcal{A}} φcoarseA,系统需要预测它们在图像B中的对应位置。传统方法会直接学习这种映射关系,但概率方法通过高斯过程来建模这种不确定性,能够更好地处理歧义匹配和噪声。嵌入器 E θ E_{\theta} Eθ的作用是将原始特征和坐标信息转换为适合高斯过程处理的嵌入表示,这种嵌入能够保持多模态性质,即能够同时表示多个可能的匹配候选。公式中的第一行定义了全局匹配器的输出:粗糙变形 W ^ c o a r s e A → B \hat{\mathbf{W}}_{\mathrm{coarse}}^{\mathcal{A}\to\mathcal{B}} W^coarseAB描述了像素级的位移场,而粗糙置信度 p ^ c o a r s e A → B \hat{p}_{\mathrm{coarse}}^{\mathcal{A}\to\mathcal{B}} p^coarseAB则评估每个匹配的可靠性。第二行展示了整个流程的组合结构:先通过嵌入器处理输入特征,再通过解码器 D θ D_{\theta} Dθ将抽象的嵌入表示转换为具体的几何变形和置信度估计。分离式的设计,优势在于嵌入器可以专注于捕获特征之间的复杂关系,而解码器则负责将这些关系转化为可用的几何信息。

( W ^ A → B , p ^ A → B ) = R θ ( φ f i n e A , φ f i n e B , W ^ c o a r s e A → B , p ^ c o a r s e A → B ) , (\hat{\mathbf{W}}^{A\to B},\hat{p}^{A\to B})=R_{\theta}(\varphi_{\mathrm{fine}}^{A},\varphi_{\mathrm{fine}}^{B},\hat{\mathbf{W}}_{\mathrm{coarse}}^{A\to B},\hat{p}_{\mathrm{coarse}}^{A\to B}), (W^AB,p^AB)=Rθ(φfineA,φfineB,W^coarseAB,p^coarseAB),

where W ^ \hat{\mathbf W} W^ is the predicted warp, p ^ \hat{p} p^ is the predicted certainty, and R θ R_{\theta} Rθ is a set of refiners. This is typically done by local correlation volume refinement. In this work we additionally stack the warped feature maps of B \boldsymbol{\mathcal{B}} B , and use large depthwise kernels. We describe this in detail in Section 3.3.

【翻译】其中 W ^ \hat{\mathbf W} W^是预测的变形, p ^ \hat{p} p^是预测的置信度, R θ R_{\theta} Rθ是一组细化器。这通常通过局部相关体细化来完成。在这项工作中,我们额外堆叠了 B \boldsymbol{\mathcal{B}} B的变形特征图,并使用大型深度卷积核。我们在第3.3节中详细描述这一点。

【解析】这个公式描述了变形细化阶段的操作。细化器 R θ R_{\theta} Rθ接收多个输入:精细特征 φ f i n e A \varphi_{\mathrm{fine}}^{A} φfineA φ f i n e B \varphi_{\mathrm{fine}}^{B} φfineB提供了高分辨率的局部细节信息,而粗糙变形 W ^ c o a r s e A → B \hat{\mathbf{W}}_{\mathrm{coarse}}^{A\to B} W^coarseAB和粗糙置信度 p ^ c o a r s e A → B \hat{p}_{\mathrm{coarse}}^{A\to B} p^coarseAB则作为初始估计和指导信息。局部相关体细化是传统的做法,它通过计算图像A中某个位置周围的特征与图像B中对应区域特征的相关性来找到最佳匹配位置。本文的创新在于引入了变形特征图堆叠和大型深度卷积核。变形特征图堆叠说明系统会根据当前的变形估计对图像B的特征进行空间变换,然后将多个层级的变形结果叠加起来,这样可以同时利用不同尺度的信息来改善匹配精度。大型深度卷积核能够扩大感受野,捕获更广范围的空间上下文信息,这对于处理大位移和复杂变形特别有效。深度卷积核相比普通卷积核的优势在于参数效率更高,能够在不显著增加计算量的情况下实现更大的感受野。整个细化过程的目标是将粗糙的初始估计逐步优化为精确的亚像素级匹配结果。

In stage IV, reliable and accurate matches need to be selected for estimation of scene geometry. For sparse methods this is done at the coarse level by mutual nearest neighbour matching and certainty thresholding. For dense matching, we are free to choose any method, which is an advantage. In this work we sample the estimated warp using a balanced sampling approach. We describe this in Section 3.4.

【翻译】在阶段IV中,需要选择可靠和准确的匹配来估计场景几何。对于稀疏方法,这是在粗糙层级上通过互最近邻匹配和置信度阈值化来完成的。对于密集匹配,我们可以自由选择任何方法,这是一个优势。在这项工作中,我们使用平衡采样方法对估计的变形进行采样。我们在第3.4节中描述这一点。

【解析】第四阶段是整个匹配流程中的筛选环节。从前面几个阶段得到的密集匹配结果包含了大量的对应关系,但并非所有匹配都是准确和可靠的,因此需要一个有效的选择机制来识别出真正有用的匹配点。传统的稀疏方法通常依赖互最近邻匹配原则,这个匹配才被认为是可靠的。置信度阈值化则是另一种常用策略,通过设定一个阈值来过滤掉置信度较低的匹配。但是密集匹配方法的优势在于提供了更多的选择自由度,可以根据具体的应用需求和几何估计算法的特点来设计更加精细的匹配选择策略。本文提出的平衡采样方法考虑了匹配点在空间分布上的均匀性,避免某些区域的匹配点过于密集而其他区域过于稀疏的问题,这种平衡性对于后续的几何估计算法的稳定性和准确性都非常重要。

Finally, in stage V, a robust estimator is used to estimate geometry. We use RANSAC like previous work.

【翻译】最后,在阶段V中,使用鲁棒估计器来估计几何结构。我们像之前的工作一样使用RANSAC。

【解析】最终阶段采用经典的RANSAC算法来从选定的匹配点中估计几何参数。RANSAC(Random Sample Consensus)是一种鲁棒的参数估计方法,特别适合处理包含大量异常值的数据集。在几何估计任务中,即使经过前面几个阶段的精心处理,仍然可能存在一些错误匹配,RANSAC通过随机采样小的匹配子集来拟合几何模型,然后评估整个匹配集合对该模型的支持程度,反复迭代以找到最优的几何参数。这种方法的优势在于即使存在相当比例的错误匹配,仍然能够获得准确的几何估计结果。

3.2. 构建全局匹配器 G θ G_{\theta} Gθ

For an overview of our global matcher, see Figure 3.

【翻译】有关我们的全局匹配器的概述,请参见图3。

Global Matching as Regression: In this work we construct the global match embeddings as the solution to a (embedded) coordinate regression problem. We phrase this problem as finding a mapping φ → χ \varphi\rightarrow\chi φχ where χ \chi χ are (embeddings of) spatial coordinates in image B \boldsymbol{\mathcal{B}} B . We can choose any suitable regression framework to infer the mapping for the pixels in A \mathcal{A} A . In this work we consider GP regression. As a general framework for non-parametric regression, it is a natural choice for our formulation of feature matching.

【翻译】全局匹配作为回归:在这项工作中,我们将全局匹配嵌入构建为(嵌入式)坐标回归问题的解。我们将这个问题表述为寻找一个映射 φ → χ \varphi\rightarrow\chi φχ,其中 χ \chi χ是图像 B \boldsymbol{\mathcal{B}} B中空间坐标的(嵌入)。我们可以选择任何合适的回归框架来推断 A \mathcal{A} A中像素的映射。在这项工作中,我们考虑GP回归。作为非参数回归的通用框架,它是我们特征匹配公式的自然选择。

【解析】阐述了将图像匹配问题转化为回归问题的思想。将匹配过程看作是一个从图像A的特征 φ \varphi φ到图像B中对应坐标嵌入 χ \chi χ的映射学习问题。这种回归框架的优势在于它能够处理连续的空间关系,而不是离散的点对应关系。选择高斯过程作为回归框架有几个重要原因:首先,GP是非参数方法,不需要预先假设特定的函数形式,能够自适应地学习复杂的映射关系;其次,GP能够提供不确定性量化,这对于评估匹配的可靠性非常重要;最后,GP的贝叶斯性质使得它能够在数据稀少的情况下仍然给出合理的预测。

In GP regression, the output (embedded coordinates) χ ∈ R H ⋅ W × C ˉ \chi\in\mathbb{R}^{H\cdot W\times\bar{C}} χRHW×Cˉ , where H , W H,W H,W is the height and width, and C C C is dimensionality of the coordinate embedding, is regarded as a collection of random variables, with the main assumption being that these are jointly Gaussian. A GP is uniquely defined by its kernel that defines the covariance between outputs, and hence must be a positive-definite function to be admissible. We choose the common assumption [54] that the coordinate embedding dimensions are uncorrelated, which makes the kernel block diagonal. We choose the exponential cosine similarity kernel [24], which is defined by since we empirically found it to work well. We found the squared exponential kernel to perform similarly in early experiments, and other kernels could also be considered. We initialize τ = 5 \tau=5 τ=5 and keep it fixed and set ε = 1 0 − 6 \varepsilon=10^{-6} ε=106 .

【翻译】在GP回归中,输出(嵌入坐标) χ ∈ R H ⋅ W × C ˉ \chi\in\mathbb{R}^{H\cdot W\times\bar{C}} χRHW×Cˉ,其中 H , W H,W H,W是高度和宽度, C C C是坐标嵌入的维度,被视为随机变量的集合,主要假设是这些变量联合服从高斯分布。GP由其核函数唯一定义,核函数定义了输出之间的协方差,因此必须是正定函数才能被接受。我们选择常见的假设[54],即坐标嵌入维度之间不相关,这使得核函数成为块对角形式。我们选择指数余弦相似性核[24],因为我们在经验上发现它效果很好。我们发现平方指数核在早期实验中表现类似,也可以考虑其他核函数。我们初始化 τ = 5 \tau=5 τ=5并保持固定,设置 ε = 1 0 − 6 \varepsilon=10^{-6} ε=106

【解析】这段内容解释了高斯过程回归在坐标嵌入中的数学基础。输出 χ \chi χ的维度 H ⋅ W × C H\cdot W\times C HW×C表示每个像素位置都有一个 C C C维的坐标嵌入向量,总共有 H × W H\times W H×W个像素。将这些输出看作随机变量集合并假设它们联合服从高斯分布,这是GP的核心假设,使得我们能够用多元高斯分布来描述整个输出空间的概率分布。核函数在GP中起到关键作用,它定义了不同输出之间的相关性结构。正定性是核函数的必要条件,保证了协方差矩阵的正定性,这是高斯分布存在的前提。坐标嵌入维度不相关的假设简化了计算,使得核矩阵呈现块对角结构,每个维度可以独立处理,大大降低了计算复杂度。指数余弦相似性核的选择基于经验验证,这种核函数能够很好地捕获特征之间的相似性关系。参数 τ = 5 \tau=5 τ=5控制核函数的敏感度,较大的值使得核函数对特征差异更加敏感,而 ε = 1 0 − 6 \varepsilon=10^{-6} ε=106是一个很小的正则化项,防止数值计算中的除零错误和提高数值稳定性。

简单来说,例如要在两张照片中找对应的点,但你只知道其中一些点的对应关系。高斯过程的作用就是根据这些已知的对应关系,来猜测其他位置的对应关系。它的聪明之处在于:1)如果两个特征长得很像(比如都是角点或边缘),那么它们在另一张图中的对应位置也应该比较相近;2)它不仅会给出一个猜测结果,还会告诉你这个猜测有多可靠(置信度);3)它会考虑所有已知信息来做决策,而不是单独看某一个特征。核函数就像是"相似度计算器",它告诉系统哪些特征应该被认为是相似的。

说白了,在两张照片中寻找对应的点,如果两个特征看起来很相似,那么它们在另一张图片中的对应位置也应该比较接近。这就是余弦相似性的作用——通过计算特征向量之间的夹角余弦值来衡量它们的相似程度(它关注的是方向而不是大小,这正是特征匹配中最重要的),夹角越小(余弦值越接近1),特征越相似。指数函数进一步放大了这种相似性的作用,让相似的特征之间产生更强的"吸引力"。正定性则是数学要求,只有满足正定性的核函数才能保证整个高斯过程是稳定和可靠的。块对角结构的假设则是为了简化计算。

k ( φ , φ ′ ) = exp ⁡ ( τ ( ⟨ φ , φ ′ ⟩ ⟨ φ , φ ⟩ ⟨ φ ′ , φ ′ ⟩ + ε − 1 ) ) , k(\varphi,\varphi^{\prime})=\exp{\left(\tau\Big(\frac{\langle\varphi,\varphi^{\prime}\rangle}{\sqrt{\langle\varphi,\varphi\rangle\langle\varphi^{\prime},\varphi^{\prime}\rangle+\varepsilon}}-1\Big)\right)}, k(φ,φ)=exp(τ(φ,φφ,φ+ε φ,φ1)),

在这里插入图片描述
Figure 3. Illustration of the proposed Global Matcher. The Gaussian Process (GP) , using an exponential cosine similarity (cos sim) kernel, and, given features and coordinate embeddings, produces an embedded predicive posterior for the warp. The CNN embedding decoder D θ D_{\theta} Dθ decodes the GP output to find the most likely warp and certainty over the grid in image A \mathcal{A} A . For more details, see Section 3.2.

【翻译】图3. 提出的全局匹配器的示意图。高斯过程(GP)使用指数余弦相似性(cos sim)核,在给定特征和坐标嵌入的情况下,产生变形的嵌入预测后验。CNN嵌入解码器 D θ D_{\theta} Dθ对GP输出进行解码,以找到图像 A \mathcal{A} A网格上最可能的变形和置信度。详细信息请参见第3.2节。

【解析】图3展示了全局匹配器的工作流程。高斯过程是核心组件,它接收来自两张图像的特征表示和坐标嵌入作为输入。指数余弦相似性核决定了GP如何衡量不同特征之间的相关性,核函数特别适合处理特征匹配问题,因为它能够捕获特征向量之间的方向相似性。GP的输出是一个嵌入式的预测后验分布,这个分布包含了对每个像素位置的匹配坐标的概率估计以及相应的不确定性信息。但是这个嵌入式的后验分布不能直接用于后续处理,需要通过CNN嵌入解码器 D θ D_{\theta} Dθ将其转换为实际的几何变形和置信度估计。解码器的作用是将高维的嵌入空间映射回原始的坐标空间,并为图像 A \mathcal{A} A中的每个网格位置提供最优的匹配坐标和对应的置信度分数。

With the standard assumption [31] that the measurements ( φ c o a r s e B , χ c o a r s e B ) (\varphi_{\mathrm{coarse}}^{B},\chi_{\mathrm{coarse}}^{B}) (φcoarseB,χcoarseB) are observed with i.i.d. noise, the analytic formulae for the posterior conditioned on the features of B \boldsymbol{\mathcal{B}} B are given by

{ μ A → B = K A B ( K B B + σ n 2 I ) − 1 χ c o a r s e B , Σ A → B = K A A − K A B ( K B B + σ n 2 I ) − 1 K B A , \left\{\begin{array}{l l}{\mu^{\mathcal{A}\rightarrow B}=K^{\mathcal{A}\mathcal{B}}(K^{\mathcal{B}\mathcal{B}}+\sigma_{n}^{2}I)^{-1}\chi_{\mathrm{coarse}}^{\mathcal{B}},}\\ {\Sigma^{\mathcal{A}\rightarrow B}=K^{\mathcal{A}\mathcal{A}}-K^{\mathcal{A}\mathcal{B}}(K^{\mathcal{B}\mathcal{B}}+\sigma_{n}^{2}I)^{-1}K^{\mathcal{B}\mathcal{A}},}\end{array}\right. {μAB=KAB(KBB+σn2I)1χcoarseB,ΣAB=KAAKAB(KBB+σn2I)1KBA,

【翻译】在标准假设[31]下,测量值 ( φ c o a r s e B , χ c o a r s e B ) (\varphi_{\mathrm{coarse}}^{B},\chi_{\mathrm{coarse}}^{B}) (φcoarseB,χcoarseB)被观测到具有独立同分布噪声,给定 B \boldsymbol{\mathcal{B}} B特征条件下的后验分析公式为

【解析】这里引入了高斯过程回归的标准噪声模型假设。测量值包含两个部分: φ c o a r s e B \varphi_{\mathrm{coarse}}^{B} φcoarseB表示图像B的粗糙特征, χ c o a r s e B \chi_{\mathrm{coarse}}^{B} χcoarseB表示对应的坐标嵌入。独立同分布噪声假设说明每个测量点的噪声都是相互独立的,且服从相同的概率分布,这是GP回归中常用的简化假设,它让我们能够用解析的方式计算后验分布。在实际应用中,这个假设合理地反映了特征提取和坐标估计过程中不可避免的随机误差。基于这个噪声模型,我们可以利用贝叶斯推理的框架,通过已知的图像B的信息来推断图像A中像素的对应关系,这就是条件后验分布的含义。

where K A A , K A B , K B A , K B B K^{A A},K^{A B},K^{B A},K^{B B} KAA,KAB,KBA,KBB denotes the kernel matrices, μ A → B \mu^{A\rightarrow B} μAB is the posterior mean, σ n = 0.1 \sigma_{n}=0.1 σn=0.1 is the standard deviation of the measurement noise, and Σ A → B \Sigma^{\mathcal{A}\rightarrow\mathcal{B}} ΣAB is the posterior covariance. We refer to Rasmussen [31] for details on GP regression.

【翻译】其中 K A A , K A B , K B A , K B B K^{A A},K^{A B},K^{B A},K^{B B} KAA,KAB,KBA,KBB表示核矩阵, μ A → B \mu^{A\rightarrow B} μAB是后验均值, σ n = 0.1 \sigma_{n}=0.1 σn=0.1是测量噪声的标准差, Σ A → B \Sigma^{\mathcal{A}\rightarrow\mathcal{B}} ΣAB是后验协方差。关于GP回归的详细信息,我们参考Rasmussen [31]。

【解析】核矩阵是GP的核心组件,它们定义了不同数据点之间的相关性结构: K A A K^{AA} KAA描述图像A内部特征之间的相关性, K B B K^{BB} KBB描述图像B内部特征之间的相关性,而 K A B K^{AB} KAB K B A K^{BA} KBA描述两图像之间的交叉相关性。后验均值 μ A → B \mu^{A\rightarrow B} μAB给出了从图像A到图像B的最优匹配估计,这是GP预测的期望值。后验协方差 Σ A → B \Sigma^{\mathcal{A}\rightarrow\mathcal{B}} ΣAB量化了这个预测的不确定性,协方差越大说明预测的可靠性越低。噪声标准差 σ n = 0.1 \sigma_{n}=0.1 σn=0.1是一个重要的正则化参数,它在核矩阵的对角线上加上噪声项 σ n 2 I \sigma_{n}^{2}I σn2I,这不仅反映了实际的观测噪声,还能防止核矩阵奇异导致的数值不稳定问题。这个值的选择需要平衡模型的拟合能力和泛化能力:太小会导致过拟合,太大会导致欠拟合。

Coordinate Embeddings: One challenge with coordinate regression is how to deal with multimodality. GP posteriors are unimodal in the output space, and hence multimodal matches can degrade performance. To deal with this issue we use a cosine embedding
B F ( x ; A , b ) = cos ⁡ ( A x + b ) , B_{\mathcal{F}}(\boldsymbol{x};A,\boldsymbol{b})=\cos(A\boldsymbol{x}+\boldsymbol{b}), BF(x;A,b)=cos(Ax+b),
where x ∈ R 2 x\in\mathbb{R}^{2} xR2 is the image coordinate, A i j ∼ N ( 0 , ℓ 2 ) A_{i j}\sim\mathcal{N}(0,\ell^{2}) AijN(0,2) , b i ∼ U [ 0 , 2 π ] b_{i}\sim\mathcal{U}_{[0,2\pi]} biU[0,2π] , i ∈ { 1 , … , C } i\in\{1,\ldots,C\} i{1,,C} , j ∈ { 1 , 2 } j\in\{1,2\} j{1,2} . These types of embeddings preserve multimodality [40]. We illustrate their usefulness in Figure 4.

【翻译】坐标嵌入:坐标回归的一个挑战是如何处理多模态性。GP后验在输出空间中是单模态的,因此多模态匹配可能会降低性能。为了解决这个问题,我们使用余弦嵌入,其中 x ∈ R 2 x\in\mathbb{R}^{2} xR2是图像坐标, A i j ∼ N ( 0 , ℓ 2 ) A_{i j}\sim\mathcal{N}(0,\ell^{2}) AijN(0,2) b i ∼ U [ 0 , 2 π ] b_{i}\sim\mathcal{U}_{[0,2\pi]} biU[0,2π] i ∈ { 1 , … , C } i\in\{1,\ldots,C\} i{1,,C} j ∈ { 1 , 2 } j\in\{1,2\} j{1,2}。这些类型的嵌入保持多模态性[40]。我们在图4中展示了它们的有用性。

【解析】这段内容解决了高斯过程回归中的一个问题:多模态性处理。在图像匹配中,一个特征点可能对应多个合理的匹配位置,比如重复纹理或对称结构。传统的高斯过程输出单一的高斯分布,这种单模态特性无法有效表达一个输入对应多个可能输出的情况,会导致预测结果偏向所有可能位置的平均值,从而失去准确性。余弦嵌入函数 B F ( x ; A , b ) = cos ⁡ ( A x + b ) B_{\mathcal{F}}(\boldsymbol{x};A,\boldsymbol{b})=\cos(A\boldsymbol{x}+\boldsymbol{b}) BF(x;A,b)=cos(Ax+b)巧妙地解决了这个问题。这个函数将二维坐标 x x x映射到一个高维的嵌入空间,其中每个维度都是一个余弦函数。矩阵 A A A的元素从高斯分布 N ( 0 , ℓ 2 ) \mathcal{N}(0,\ell^{2}) N(0,2)中采样,这决定了每个余弦函数的频率和方向特性。偏置项 b i b_{i} bi [ 0 , 2 π ] [0,2\pi] [0,2π]的均匀分布中采样,确保每个余弦函数有不同的相位。参数 C C C表示嵌入的维度数量,更高的维度能够编码更复杂的空间关系。余弦函数的周期性特质使得相距一定距离的坐标点可以有相似的嵌入表示,这正是处理重复模式的关键。通过在这个嵌入空间中进行回归,高斯过程能够学习到多模态的映射关系,因为相似的嵌入可以对应不同的物理坐标位置。这种方法的优势在于它保留了原始坐标空间中的多模态特性,同时为高斯过程提供了一个更加表达能力强的特征空间。

在这里插入图片描述
Figure 4. Coordinate embeddings preserve multimodality. Real scenes often contain repeating structures, which requires regression capable of handling multimodality. We achieve this through cosine coordinate embeddings. We illustrate the multimodality by correlating the GP posterior with embeddings on the image grid.

【翻译】图4. 坐标嵌入保持多模态性。真实场景经常包含重复结构,这需要能够处理多模态性的回归。我们通过余弦坐标嵌入来实现这一点。我们通过将GP后验与图像网格上的嵌入相关联来说明多模态性。

Embedding Decoder: While the embedded regression yields a powerful probabilistic representation of the warp, most dense methods require a unimodal warp estimate for the subsequent refinement steps. There are multiple ways of decoding coordinates from the posterior. We use a simple method of reshaping the predictive mean back into grid form μ g r i d A → B ∈ R H c o a r s c × W c o a r s c × C \mu_{\mathrm{grid}}^{\mathcal{A}\rightarrow\mathcal{B}}\in\mathbb{R}^{H_{\mathrm{coarsc}}\times\mathbf{{W}}_{\mathrm{coarsc}}\times C} μgridABRHcoarsc×Wcoarsc×C and let

G θ ( φ c o a r s e A , φ c o a r s e B ) = D θ ( μ g r i d A → B ⊕ φ c o a r s e A ) , G_{\theta}(\varphi_{\mathrm{coarse}}^{A},\varphi_{\mathrm{coarse}}^{B})=D_{\theta}(\mu_{\mathrm{grid}}^{A\to B}\oplus\varphi_{\mathrm{coarse}}^{A}), Gθ(φcoarseA,φcoarseB)=Dθ(μgridABφcoarseA),

【翻译】嵌入解码器:虽然嵌入回归产生了变形的强大概率表示,但大多数密集方法在后续细化步骤中需要单模态的变形估计。从后验中解码坐标有多种方法。我们使用一种简单的方法,将预测均值重新塑形为网格形式 μ g r i d A → B ∈ R H c o a r s c × W c o a r s c × C \mu_{\mathrm{grid}}^{\mathcal{A}\rightarrow\mathcal{B}}\in\mathbb{R}^{H_{\mathrm{coarsc}}\times\mathbf{{W}}_{\mathrm{coarsc}}\times C} μgridABRHcoarsc×Wcoarsc×C,并让

【解析】嵌入解码器解决了从高维概率表示到实际几何变形的转换问题。高斯过程回归在嵌入空间中产生的是一个包含丰富不确定性信息的概率分布,这个分布虽然能够很好地表达匹配的多模态特性和置信度,但它并不能直接用于后续的密集匹配细化流程。大多数现有的密集匹配方法都设计为处理确定性的单模态变形场,它们期望每个像素位置都有一个明确的对应坐标,而不是一个概率分布。因此需要一个解码过程来桥接这两种表示方式。作者选择了一种相对简单直接的解码策略:首先将高斯过程的预测均值 μ A → B \mu^{\mathcal{A}\rightarrow\mathcal{B}} μAB重新组织成网格形式 μ g r i d A → B \mu_{\mathrm{grid}}^{\mathcal{A}\rightarrow\mathcal{B}} μgridAB,其维度为 H c o a r s e × W c o a r s e × C H_{\mathrm{coarse}}\times W_{\mathrm{coarse}}\times C Hcoarse×Wcoarse×C,分别对应粗糙分辨率下的高度、宽度和嵌入维度。然后通过CNN解码器 D θ D_{\theta} Dθ来处理这个网格化的嵌入。公式中的 ⊕ \oplus 表示特征拼接操作,将GP的输出与图像A的粗糙特征 φ c o a r s e A \varphi_{\mathrm{coarse}}^{A} φcoarseA组合在一起。这种设计的优势在于它既利用了GP提供的匹配信息,又保留了原始特征中的视觉细节,为解码器提供了更丰富的上下文信息来做出准确的坐标预测和置信度估计。

where D θ D_{\theta} Dθ is a CNN embedding decoder. The decoder predicts coordinates in the canonical grid [ − 1 , 1 ] × [ − 1 , 1 ] [-1,1]\times[-1,1] [1,1]×[1,1] , and additionally logits for the predicted validity of the matches, for each pixel. The architecture of the embedding decoder is inspired by the decoder proposed by Yu et al. [52]. We use global matchers on both stride 32 and 16 features of the backbone, and the stride 16 embedding decoder takes in context feature maps from the stride 32 decoder.

【翻译】其中 D θ D_{\theta} Dθ是一个CNN嵌入解码器。解码器在标准网格 [ − 1 , 1 ] × [ − 1 , 1 ] [-1,1]\times[-1,1] [1,1]×[1,1]中预测坐标,并且还预测每个像素匹配有效性的logits。嵌入解码器的架构受到Yu等人[52]提出的解码器启发。我们在主干网络的stride 32和stride 16特征上都使用全局匹配器,stride 16嵌入解码器接收来自stride 32解码器的上下文特征图。

【解析】CNN嵌入解码器 D θ D_{\theta} Dθ是整个全局匹配器的最终输出模块,它负责将高维的嵌入表示转换为具体可用的匹配结果。这个解码器同时承担两个关键任务:坐标预测和有效性评估。坐标预测是将GP在嵌入空间中学到的对应关系映射回实际的二维图像坐标系统,输出范围被标准化到 [ − 1 , 1 ] × [ − 1 , 1 ] [-1,1]\times[-1,1] [1,1]×[1,1]的标准网格中,这种标准化处理便于不同尺寸图像的统一处理和后续的插值操作。有效性预测通过输出logits来评估每个像素位置匹配的可靠程度,这些logits经过sigmoid激活后可以转换为置信度分数,帮助后续流程筛选高质量的匹配。多尺度处理策略:在stride 32(较粗糙)和stride 16(较精细)两个尺度上都部署全局匹配器,能够在不同的感受野范围内捕获匹配关系。stride 32处理更大范围的全局结构和长距离对应关系,而stride 16则关注更精细的局部细节。两个尺度之间的信息传递通过上下文特征图实现,stride 32解码器的输出为stride 16解码器提供全局上下文信息,让模型能够在保持全局一致性的同时获得更精确的局部匹配结果。

3.3. 使用 R θ R_{\theta} Rθ细化变形

For an overview of our warp refiners, see Figure 5.

【翻译】有关我们变形细化器的概述,请参见图5。

Warp Refinement: Once the embeddings have been decoded, we refine the warp using CNN refiners similarly to previous work [39, 47]. They take as input the feature maps and the previous warp and certainty. The warp and certainty are bilinearly upsampled to match the size of the feature maps. The refiners predict a residual offset for the estimated warp, and a logit offset for the certainty. This is repeated until reaching full resolution. The process is described recursively by

( W ^ l A → B , p ^ l A → B ) = R θ , l ( φ l A , φ l B , W ^ l + 1 A → B , p ^ l + 1 A → B ) . \begin{array}{r}{\big(\hat{W}_{l}^{\mathcal{A}\rightarrow\mathcal{B}},\hat{p}_{l}^{\mathcal{A}\rightarrow\mathcal{B}}\big)=R_{\theta,l}(\varphi_{l}^{\mathcal{A}},\varphi_{l}^{\mathcal{B}},\hat{W}_{l+1}^{\mathcal{A}\rightarrow\mathcal{B}},\hat{p}_{l+1}^{\mathcal{A}\rightarrow\mathcal{B}}).}\end{array} (W^lAB,p^lAB)=Rθ,l(φlA,φlB,W^l+1AB,p^l+1AB).

【翻译】变形细化:一旦嵌入被解码,我们使用CNN细化器来细化变形,类似于之前的工作[39, 47]。它们以特征图和之前的变形及确定性作为输入。变形和确定性被双线性上采样以匹配特征图的大小。细化器预测估计变形的残差偏移,以及确定性的logit偏移。这个过程重复进行直到达到全分辨率。该过程通过递归描述

【解析】变形细化是将粗糙的全局匹配结果逐步提升到像素级精度的关键步骤。全局匹配器虽然能够捕获大范围的对应关系,但受限于计算复杂度,通常只能在较低分辨率下工作。因此需要一个细化流程来恢复高分辨率的精确匹配。这个细化过程采用了多尺度的层次化策略,从粗糙分辨率开始,通过CNN细化器逐层提升分辨率和精度。每个细化器 R θ , l R_{\theta,l} Rθ,l都针对特定的尺度层级 l l l进行优化。细化器的输入包括四个关键组件:当前尺度的图像A特征图 φ l A \varphi_{l}^{\mathcal{A}} φlA、图像B特征图 φ l B \varphi_{l}^{\mathcal{B}} φlB、来自上一层的变形场 W ^ l + 1 A → B \hat{W}_{l+1}^{\mathcal{A}\rightarrow\mathcal{B}} W^l+1AB和置信度 p ^ l + 1 A → B \hat{p}_{l+1}^{\mathcal{A}\rightarrow\mathcal{B}} p^l+1AB。双线性上采样确保不同尺度间的空间对齐,让粗糙的预测能够作为细尺度预测的初始化。细化器采用残差学习的策略,不是直接预测绝对的变形值,而是预测相对于上一层结果的偏移量。这种设计有两个优势:首先,残差学习通常比直接预测更容易优化,因为网络只需要学习相对小的修正量;其次,它保证了细化过程的渐进性和稳定性。对于置信度,细化器预测logit偏移而不是直接的概率值,这样可以更好地处理置信度的数值范围和梯度传播。递归公式表明整个细化过程是一个从粗到细的迭代优化过程,每一层都基于前一层的结果进行改进,直到达到原图像的全分辨率。

在这里插入图片描述
Figure 5. Illustration of the proposed Warp Refiners. The Warp Refiners R θ R_{\theta} Rθ take in fine features ( φ f i n e A , φ f i n e B ) (\varphi_{\mathrm{fine}}^{A},\varphi_{\mathrm{fine}}^{B}) (φfineA,φfineB) , and the upsampled coarse warps and certainty estimates . They output a relative offset for the warp and certainty. We use grid samp 1 e \mathtt{1e} 1e on φ B \varphi^{B} φB to create the stacked feature maps, and local corr to construct a local correlation volume around the warp target in image B \boldsymbol{\mathcal{B}} B . Furthermore, we embed the warp (represented as displacement) and certainty linearly. The concatenation constitutes our input representation and is fed into the refiner blocks. For more details, see Section 3.3.

【翻译】图5. 提出的变形细化器的说明。变形细化器 R θ R_{\theta} Rθ接收精细特征 ( φ f i n e A , φ f i n e B ) (\varphi_{\mathrm{fine}}^{A},\varphi_{\mathrm{fine}}^{B}) (φfineA,φfineB)以及上采样的粗糙变形和确定性估计。它们输出变形和确定性的相对偏移。我们在 φ B \varphi^{B} φB上使用网格采样来创建堆叠的特征图,并使用局部相关性在图像 B \boldsymbol{\mathcal{B}} B中围绕变形目标构建局部相关体积。此外,我们线性嵌入变形(表示为位移)和确定性。拼接构成我们的输入表示并输入到细化器块中。更多细节请参见第3.3节。

【解析】细化器接收的精细特征 ( φ f i n e A , φ f i n e B ) (\varphi_{\mathrm{fine}}^{A},\varphi_{\mathrm{fine}}^{B}) (φfineA,φfineB)包含了更丰富的视觉细节和纹理信息,这些信息在粗糙阶段可能被忽略,但对于像素级精确匹配至关重要。上采样的粗糙变形和确定性估计为细化器提供了初始的空间对应关系和可信度评估,这就像给精密调整过程提供了一个合理的起始点。网格采样操作是细化器中的关键技术,它根据当前的变形估计从图像B的特征图 φ B \varphi^{B} φB中采样得到对应的特征,创建堆叠的特征图。这个过程实质上是在特征空间中实现了图像A到图像B的初步对齐,让后续的相关性计算更加精确。局部相关体积的构建是另一个重要环节,它不像全局匹配器那样在整个图像范围内搜索对应关系,而是在变形目标周围的有限区域内计算特征相关性。这种局部化的策略既降低了计算复杂度,又能够捕获精细的局部变化。线性嵌入将变形位移和确定性信息转换为神经网络可以有效处理的表示形式,确保这些几何信息能够与视觉特征有机结合。所有这些组件通过拼接操作整合成统一的输入表示,为细化器块提供了丰富而结构化的信息,使其能够做出精确的残差预测来改进初始的变形估计。

在这里插入图片描述
Figure 6. DKM warps are accurate and robust. Dense methods often struggle with large viewpoint changes. Our proposed global matcher + ^+ + refiner architecture is able to produce accurate warps and certainty even for extreme perspective. Top row, image A \mathcal{A} A and B \boldsymbol{\mathcal{B}} B . Bottom row, forward and reverse warp weighted by certainty.

【翻译】图6. DKM变形准确且鲁棒。密集方法通常在大视角变化时表现困难。我们提出的全局匹配器+细化器架构能够即使在极端透视下也产生准确的变形和确定性。顶行,图像 A \mathcal{A} A B \boldsymbol{\mathcal{B}} B。底行,按确定性加权的正向和反向变形。

Input Representation: We make multiple improvements to the input representations of the refiners. Previous work [47–49] uses the warp, the feature maps of A \mathcal{A} A , and local correlation in A \mathcal{A} A with warped feature maps from B \boldsymbol{\mathcal{B}} B , together with the warp. In contrast, we use all channels of the warped feature maps of B \boldsymbol{\mathcal{B}} B by concatenation, as well as local correlation in B \boldsymbol{\mathcal{B}} B instead of A \mathcal{A} A . We investigate the effect of this change of representation in Table 6 and find that it yields improvements in warp accuracy.

【翻译】输入表示:我们对细化器的输入表示进行了多项改进。之前的工作[47–49]使用变形、图像 A \mathcal{A} A的特征图,以及图像 A \mathcal{A} A中与来自图像 B \boldsymbol{\mathcal{B}} B的变形特征图的局部相关性,再加上变形。相反,我们通过拼接使用图像 B \boldsymbol{\mathcal{B}} B的变形特征图的所有通道,以及在图像 B \boldsymbol{\mathcal{B}} B而不是 A \mathcal{A} A中的局部相关性。我们在表6中研究了这种表示变化的效果,并发现它在变形准确性方面产生了改进。

【解析】输入表示的改进是细化器性能提升的关键因素之一。传统方法的输入设计存在信息利用不充分的问题:它们通常只使用部分变形特征图信息,并且在错误的图像域中计算局部相关性。作者的改进主要体现在两个方面:特征图使用策略和相关性计算域的选择。对于特征图使用,传统方法可能只选择性地使用变形后的特征图 B \boldsymbol{\mathcal{B}} B的某些通道,而新方法通过拼接操作充分利用所有通道的信息。这种全通道利用能够保留更丰富的视觉特征,为细化器提供更完整的上下文信息。更重要的改进是局部相关性计算域的转换,传统方法在图像 A \mathcal{A} A中计算局部相关性,但新方法选择在图像 B \boldsymbol{\mathcal{B}} B中进行。这个改变的合理性在于,当我们已经有了从 A \mathcal{A} A B \boldsymbol{\mathcal{B}} B的初始变形估计时,在目标图像 B \boldsymbol{\mathcal{B}} B的局部区域内搜索最佳匹配更加直观和有效。这样的设计让细化器能够直接在预测的对应位置周围进行精细搜索,而不是在源图像中进行可能偏离目标的搜索。

Refiner Architecture: Finally, we improve the architecture of the refiner blocks themselves. Previous work [47– 49] uses a DenseNet [19] architecture with 3 x 3 3\mathrm{x}3 3x3 nonseparable kernels. We instead propose to use larger 5x5 depthwise separable kernels, followed by 1x1 convolution. We found 8 refiner blocks per scale to give the best results.

【翻译】细化器架构:最后,我们改进了细化器块本身的架构。之前的工作[47–49]使用带有 3 × 3 3\times3 3×3非分离卷积核的DenseNet[19]架构。我们提出使用更大的5×5深度可分离卷积核,然后是1×1卷积。我们发现每个尺度使用8个细化器块能够获得最佳结果。

【解析】细化器架构的改进平衡考虑了计算效率和感受野。传统的DenseNet架构虽然能够有效地重用特征,但其密集连接模式在细化任务中可能引入过多的计算开销,而且 3 × 3 3\times3 3×3的标准卷积核对于捕获细化所需的空间上下文可能不够充分。新架构采用 5 × 5 5\times5 5×5深度可分离卷积核的设计具有多重优势:更大的核尺寸提供了更广的空间感受野,这对于理解局部区域的几何变化和纹理模式至关重要。深度可分离卷积将标准卷积分解为深度卷积和逐点卷积两个步骤,显著减少了参数数量和计算复杂度,同时保持了表达能力。后续的 1 × 1 1\times1 1×1卷积负责跨通道的特征融合和降维,确保特征表示的紧凑性。每个尺度使用8个细化器块的选择是通过实验验证得出的最优配置,这个数量既保证了足够的表达能力来处理复杂的几何变形,又避免了过度参数化导致的过拟合问题。

As we show in Table 6, this improvement significantly increases performance. We qualitatively show the high robustness and accuracy of DKM warps in Figure 6.

【翻译】如我们在表6中所示,这种改进显著提高了性能。我们在图6中定性展示了DKM变形的高鲁棒性和准确性。

3.4. 几何估计的确定性估计和采样

Certainty Estimation by Classifying Depth-consistent Matches: We leverage the rich 3D models and densified depth maps in the large scale MegaDepth [22] dataset. We find consistent matches first by warping A → B A\rightarrow B AB using the ground truth depth, and then applying a relative depth consistency constraint in image B \boldsymbol{\mathcal{B}} B . This equates to

p A → B = ∣ z A → B − z B ∣ ⋅ ∣ z B ∣ − 1 < α p^{\boldsymbol{A}\rightarrow\boldsymbol{B}}=|z^{\boldsymbol{A}\rightarrow\boldsymbol{B}}-z^{\boldsymbol{B}}|\cdot|z^{\boldsymbol{B}}|^{-1}<\alpha pAB=zABzBzB1<α

where z z z is the depth, z A → B z^{A\rightarrow B} zAB depth projected using the ground truth 3D model, and α = 0.05 \alpha=0.05 α=0.05 . This approach has similarities to the approach in LoFTR [41], but they indirectly apply the constraint by finding mutual nearest neighbours. We demonstrate the importance of a good certainty estimate in Table 7, and show a qualitative comparison of our certainty estimate compared to the previous best perfoming dense work PDC-Net + ^+ + [48] in Figure 7.

【翻译】通过分类深度一致性匹配来估计确定性:我们利用大规模MegaDepth[22]数据集中丰富的3D模型和密集化深度图。我们首先通过使用真实深度进行 A → B A\rightarrow B AB变形来找到一致的匹配,然后在图像 B \boldsymbol{\mathcal{B}} B中应用相对深度一致性约束。这等价于其中 z z z是深度, z A → B z^{A\rightarrow B} zAB是使用真实3D模型投影的深度, α = 0.05 \alpha=0.05 α=0.05。这种方法与LoFTR[41]中的方法有相似之处,但它们通过寻找互相最近邻来间接应用约束。我们在表7中证明了良好确定性估计的重要性,并在图7中展示了我们的确定性估计与之前表现最佳的密集方法PDC-Net + ^+ +[48]的定性比较。

【解析】确定性估计不仅要预测像素间的对应关系,还要评估每个预测的可靠程度。传统的方法往往缺乏真实的参考标准来训练确定性估计器,而这里巧妙地利用了MegaDepth数据集的三维几何信息作为监督信号。MegaDepth包含了真实场景的稠密3D重建和相应的深度图,这为构建高质量的确定性标签提供了可能。确定性估计的关键思想是:如果两个像素点在三维空间中确实对应同一个物理点,那么它们通过3D几何投影得到的深度应该是一致的。公式 p A → B = ∣ z A → B − z B ∣ ⋅ ∣ z B ∣ − 1 < α p^{\boldsymbol{A}\rightarrow\boldsymbol{B}}=|z^{\boldsymbol{A}\rightarrow\boldsymbol{B}}-z^{\boldsymbol{B}}|\cdot|z^{\boldsymbol{B}}|^{-1}<\alpha pAB=zABzBzB1<α实现了这个一致性检验: z A → B z^{\boldsymbol{A}\rightarrow\boldsymbol{B}} zAB表示图像A中某个像素通过真实3D模型投影到图像B后的深度值,而 z B z^{\boldsymbol{B}} zB是图像B中对应位置的实际深度值。两者的绝对差值除以实际深度值得到相对误差,当这个相对误差小于阈值 α = 0.05 \alpha=0.05 α=0.05时,认为这个匹配是可靠的。相对误差的使用比绝对误差更合理,因为它考虑了深度的尺度效应:距离相机较远的物体即使有较大的绝对深度误差,其相对误差可能仍然很小。这种标注策略比LoFTR的互相最近邻方法更直接,因为它直接利用了三维几何约束,而不是依赖特征空间的相似性启发式。

Sampling Balanced Matches: For estimation, match sampling is required. A simple approach is to sample using the estimated warp certainty as weight. This approach is written as,

{ x i A , x i B } i = 1 N ∼ p ^ A → B . \{x_{i}^{\mathcal{A}},x_{i}^{\mathcal{B}}\}_{i=1}^{N}\sim\hat{p}^{\mathcal{A}\rightarrow\mathcal{B}}. {xiA,xiB}i=1Np^AB.

【翻译】采样平衡匹配:对于估计,需要进行匹配采样。一种简单的方法是使用估计的变形确定性作为权重进行采样。这种方法写作其中 { x i A , x i B } i = 1 N \{x_{i}^{\mathcal{A}},x_{i}^{\mathcal{B}}\}_{i=1}^{N} {xiA,xiB}i=1N表示采样得到的N个匹配对, p ^ A → B \hat{p}^{\mathcal{A}\rightarrow\mathcal{B}} p^AB是估计的确定性分布。

【解析】匹配采样是几何估计算法中的重要环节,它决定了用于后续几何计算(如单应性矩阵或基础矩阵估计)的点对质量。简单的确定性加权采样策略遵循了"好的匹配应该被更频繁地选择"的直觉原则。公式 { x i A , x i B } i = 1 N ∼ p ^ A → B \{x_{i}^{\mathcal{A}},x_{i}^{\mathcal{B}}\}_{i=1}^{N}\sim\hat{p}^{\mathcal{A}\rightarrow\mathcal{B}} {xiA,xiB}i=1Np^AB表示从所有可能的匹配中,根据预测的确定性 p ^ A → B \hat{p}^{\mathcal{A}\rightarrow\mathcal{B}} p^AB作为概率分布进行采样。具体而言,确定性值高的像素对应关系会有更高的被选中概率,而确定性低的对应关系被选中的概率较低。这种加权采样比随机采样更有效,因为它能够自动过滤掉低质量的匹配,提高几何估计的鲁棒性。然而,这种简单的采样策略也存在潜在问题:它可能导致采样的匹配在空间上过于集中,特别是当某些图像区域(如纹理丰富的区域)普遍具有较高确定性时,大部分匹配可能都来自这些区域,而其他区域的几何信息被忽略。

Like previous semi-sparse [7, 41] and dense works [48] we threshold the estimated certainty. We use a threshold of 0.05, and sample matches from the thresholded distribution.

【翻译】与之前的半稀疏方法[7, 41]和密集方法[48]类似,我们对估计的确定性进行阈值处理。我们使用0.05的阈值,并从阈值处理后的分布中采样匹配。

【解析】确定性阈值处理步骤。模型为每个像素对预测一个确定性值,表示该匹配的可靠程度。通过设置阈值0.05,系统将确定性低于此值的匹配直接过滤掉,只保留确定性较高的匹配进行后续处理。这种硬阈值策略虽然简单,但能够有效排除明显不可靠的匹配,减少噪声对几何估计的干扰。阈值的选择需要在匹配数量和质量之间取得平衡:过低的阈值会保留过多低质量匹配,而过高的阈值可能会过度删除有用的匹配信息。

While certainty weighted sampling produces good matches, having diverse matches typically improves estimation [6, 8, 12, 18]. To achieve this, we propose a simple method for producing scene balanced matches. First, we sample a large set of matches using the estimated certainty. Secondly, we compute a kernel density estimate (KDE) in the 4-dimensional match space. Finally, we weight each match with the reciprocal of the KDE to produce a balanced set of samples. This produces a balanced distribution in the scene. We investigate the impact of the balanced sampling in Table 7, and find that it improves performance.

【翻译】虽然确定性加权采样能产生良好的匹配,但拥有多样化的匹配通常能改善估计效果[6, 8, 12, 18]。为了实现这一点,我们提出了一种生成场景平衡匹配的简单方法。首先,我们使用估计的确定性采样大量匹配。其次,我们在4维匹配空间中计算核密度估计(KDE)。最后,我们用KDE的倒数对每个匹配进行加权,以产生平衡的样本集。这在场景中产生了平衡的分布。我们在表7中研究了平衡采样的影响,发现它提高了性能。

【解析】场景平衡采样解决了单纯确定性加权采样的固有缺陷。虽然确定性加权能够选择高质量匹配,但这些匹配往往在空间分布上不均匀,容易集中在纹理丰富或视觉特征明显的区域。这种不平衡分布会导致几何估计偏向某些局部区域,忽略场景的整体几何结构。作者提出的三步平衡策略系统性地解决了这个问题。第一步的大量采样为后续平衡提供了充足的候选匹配。第二步的关键在于4维匹配空间中的核密度估计:每个匹配可以表示为4维向量 ( x A , y A , x B , y B ) (x_A, y_A, x_B, y_B) (xA,yA,xB,yB),其中 ( x A , y A ) (x_A, y_A) (xA,yA) ( x B , y B ) (x_B, y_B) (xB,yB)分别是两个图像中的对应点坐标。KDE计算每个匹配在这个4维空间中的局部密度,反映了该匹配周围的拥挤程度。第三步的倒数加权是平衡的核心:密度高的区域(拥挤区域)会被赋予较低权重,而密度低的区域(稀疏区域)会被赋予较高权重。这种反向加权机制自动平衡了匹配的空间分布,确保几何估计能够利用来自整个场景的信息,而不是过度依赖某些局部特征丰富的区域。

在这里插入图片描述
Figure 7. DKM provides superior uncertainty estimates. Our certainty estimate compared to PDC-Net+. Top row, image A \mathcal{A} A , image B \boldsymbol{\mathcal{B}} B . Middle row, results for PDC-Net+. Bottom row, results for DKM. DKM places high certainty on repeatable matches, while P D C − N e t + \mathrm{PDC-Net}+ PDCNet+ is often overconfident in untextured regions, even predicting high certainty for non-covisible pixel-pairs.

【翻译】图7. DKM提供了优越的不确定性估计。我们的确定性估计与PDC-Net+的比较。顶行,图像 A \mathcal{A} A,图像 B \boldsymbol{\mathcal{B}} B。中间行,PDC-Net+的结果。底行,DKM的结果。DKM在可重复匹配上放置高确定性,而PDC-Net+在无纹理区域经常过度自信,甚至对非共视像素对也预测高确定性。

3.5. 损失函数设计

Like previous work [36, 39, 49] we use separate losses for each stride l ∈ { 1 , . . . , L } l\in\{1,...,L\} l{1,...,L} , and use a combination of regression and certainty [29, 43, 53] losses to train our model. The combined loss is

L = ∑ l = 1 L L w a r p ( W ^ l A → B ¸ ) + λ L c o n f ( p ^ l A → B ) , \mathcal{L}=\sum_{l=1}^{L}\mathcal{L}_{\mathrm{warp}}(\hat{W}_{l}^{\c{A\to B}})+\lambda\mathcal{L}_{\mathrm{conf}}(\hat{p}_{l}^{\mathcal{A}\to B}), L=l=1LLwarp(W^lAB¸)+λLconf(p^lAB),

where λ = 0.01 \lambda=0.01 λ=0.01 is a balancing term, similarly to [29, 43]

【翻译】与之前的工作[36, 39, 49]类似,我们对每个步长 l ∈ { 1 , . . . , L } l\in\{1,...,L\} l{1,...,L}使用单独的损失,并使用回归和确定性损失[29, 43, 53]的组合来训练我们的模型。组合损失为其中 λ = 0.01 \lambda=0.01 λ=0.01是一个平衡项,与[29, 43]类似。

【解析】在DKM中,网络在多个尺度 l ∈ { 1 , . . . , L } l\in\{1,...,L\} l{1,...,L}上输出预测结果,每个尺度都需要相应的监督信号。总损失函数 L = ∑ l = 1 L L w a r p ( W ^ l A → B ¸ ) + λ L c o n f ( p ^ l A → B ) \mathcal{L}=\sum_{l=1}^{L}\mathcal{L}_{\mathrm{warp}}(\hat{W}_{l}^{\c{A\to B}})+\lambda\mathcal{L}_{\mathrm{conf}}(\hat{p}_{l}^{\mathcal{A}\to B}) L=l=1LLwarp(W^lAB¸)+λLconf(p^lAB)包含两个主要组成部分:变形损失 L w a r p \mathcal{L}_{\mathrm{warp}} Lwarp和确定性损失 L c o n f \mathcal{L}_{\mathrm{conf}} Lconf。变形损失专注于预测准确的像素对应关系,确保网络能够生成精确的几何变换。确定性损失则训练网络评估每个预测的可靠程度,这对于后续的几何估计和outlier过滤至关重要。

Specifically, for the warp loss we use the ℓ 2 \ell_{2} 2 distance between the predicted and ground truth warp, as in [41]. For the certainty loss we use the unweighted binary cross entropy between the predicted certainty and the ground truth consistent depth mask. Our losses at a given stride l l l are

L w a r p ( W ^ l A → B ) = ∑ g r i d p l ⊙ ∥ W l A → B − W ^ l A → B ∥ 2 , ( 1 × cos ⁡ φ l ) L c o n f ( p ^ l ) = ∑ g r i d p l log ⁡ p ^ l + ( 1 − p l ) log ⁡ ( 1 − p ^ l ) , \begin{array}{r}{\mathcal{L}_{\mathrm{warp}}({\hat{W}}_{l}^{\mathcal{A}\to\mathcal{B}})=\displaystyle\sum_{\mathrm{grid}}p_{l}\odot\left\lVert W_{l}^{\mathcal{A}\to\mathcal{B}}-{\hat{W}}_{l}^{\mathcal{A}\to\mathcal{B}}\right\rVert_{2},(1\times\cos\varphi_{l})}\\ {\mathcal{L}_{\mathrm{conf}}(\hat{p}_{l})=\displaystyle\sum_{\mathrm{grid}}p_{l}\log\hat{p}_{l}+(1-p_{l})\log(1-\hat{p}_{l}),}\end{array} Lwarp(W^lAB)=gridpl WlABW^lAB 2,(1×cosφl)Lconf(p^l)=gridpllogp^l+(1pl)log(1p^l),

where the summation is done over the image grid in A \mathcal{A} A . Like Zhou et al. [53] we set p p p in the fine stride loss to 0 whenever the estimated coarse stride warp is outside a threshold distance from the ground truth. We further found it beneficial to detach the gradients between scales.

【翻译】具体来说,对于变形损失,我们使用预测变形与真实变形之间的 ℓ 2 \ell_{2} 2距离,如[41]中所示。对于确定性损失,我们使用预测确定性与真实一致深度掩码之间的无权重二元交叉熵。给定步长 l l l下的损失为其中求和在图像 A \mathcal{A} A的网格上进行。与Zhou等人[53]类似,当估计的粗糙步长变形超出与真实值的阈值距离时,我们将精细步长损失中的 p p p设为0。我们进一步发现在尺度间分离梯度是有益的。

【解析】变形损失 L w a r p ( W ^ l A → B ) = ∑ g r i d p l ⊙ ∥ W l A → B − W ^ l A → B ∥ 2 \mathcal{L}_{\mathrm{warp}}({\hat{W}}_{l}^{\mathcal{A}\to\mathcal{B}})=\displaystyle\sum_{\mathrm{grid}}p_{l}\odot\left\lVert W_{l}^{\mathcal{A}\to\mathcal{B}}-{\hat{W}}_{l}^{\mathcal{A}\to\mathcal{B}}\right\rVert_{2} Lwarp(W^lAB)=gridpl WlABW^lAB 2使用L2范数衡量预测变形 W ^ l A → B {\hat{W}}_{l}^{\mathcal{A}\to\mathcal{B}} W^lAB与真实变形 W l A → B W_{l}^{\mathcal{A}\to\mathcal{B}} WlAB之间的差异,其中 p l p_{l} pl是真实的深度一致性掩码, ⊙ \odot 表示逐元素乘法。这种加权方式确保只有具有可靠真实标签的位置才参与损失计算,避免了在不可靠区域的错误监督。确定性损失 L c o n f ( p ^ l ) = ∑ g r i d p l log ⁡ p ^ l + ( 1 − p l ) log ⁡ ( 1 − p ^ l ) \mathcal{L}_{\mathrm{conf}}(\hat{p}_{l})=\displaystyle\sum_{\mathrm{grid}}p_{l}\log\hat{p}_{l}+(1-p_{l})\log(1-\hat{p}_{l}) Lconf(p^l)=gridpllogp^l+(1pl)log(1p^l)采用标准的二元交叉熵形式,其中 p ^ l \hat{p}_{l} p^l是预测的确定性值, p l p_{l} pl是基于深度一致性得到的真实标签。这个损失函数训练网络学习区分可靠和不可靠的匹配。多尺度训练中的一个关键技巧是条件性监督:当粗尺度预测严重偏离真实值时,将精细尺度的监督权重设为0,这防止了错误的粗尺度预测误导精细尺度的学习。梯度分离策略进一步确保不同尺度的特征学习相对独立,避免了尺度间的负面干扰,提高了训练的稳定性和最终性能。

Table 1. SotA comparison. Homography estimation on HPatches, measured in AUC (higher is better). The top and bottom portions contains sparse methods and dense methods respectively.
在这里插入图片描述

【翻译】表1. 最新技术对比。在HPatches上的单应性估计,用AUC衡量(越高越好)。上半部分和下半部分分别包含稀疏方法和密集方法。

4. State-of-the-Art Comparison

Similarly to previous approaches [7, 36, 41, 44], we train and evaluate our approach separately on outdoor and indoor geometry estimation. For evaluation we present the average of 5 benchmark runs. For DKM we sample a maximum of 5000 matches.

【翻译】与之前的方法[7, 36, 41, 44]类似,我们分别在室外和室内几何估计上训练和评估我们的方法。对于评估,我们呈现5次基准测试运行的平均值。对于DKM,我们最多采样5000个匹配。

4.1. Training Details

We use a batch size of 32 with a learning rate of 4 ⋅ 1 0 − 4 4\cdot10^{-4} 4104 for the decoder and refiners, and 2 ⋅ 1 0 − 5 2\cdot10^{-5} 2105 for the backbone. We use the AdamW [25] optimizer with a weight-decay factor of 1 0 − 2 10^{-2} 102 . We train for 250 000 steps, decaying the learning rate by a factor 0.2 at step 166 666 and 225 000. Training takes roughly 5 days on 4 A100fat GPUs, which is comparable to LoFTR that converges in 1 day on 64 1080ti GPUs.

【翻译】我们使用批大小为32,解码器和精炼器的学习率为 4 ⋅ 1 0 − 4 4\cdot10^{-4} 4104,主干网络的学习率为 2 ⋅ 1 0 − 5 2\cdot10^{-5} 2105。我们使用AdamW [25]优化器,权重衰减因子为 1 0 − 2 10^{-2} 102。我们训练250,000步,在第166,666步和225,000步将学习率衰减0.2倍。训练在4个A100fat GPU上大约需要5天,这与LoFTR在64个1080ti GPU上1天收敛的性能相当。

Outdoor Training: We train on the real world dataset MegaDepth [22], using the same training and test split as in previous work [7, 41]. We resize the images to a fixed resolution of 540 × 720 540\times720 540×720 .

【翻译】室外训练:我们在真实世界数据集MegaDepth [22]上进行训练,使用与之前工作[7, 41]相同的训练和测试划分。我们将图像调整为固定分辨率 540 × 720 540\times720 540×720

Indoor Training: For indoor two-view pose estimation we additionally train on the ScanNet [9] dataset in a similar fashion as previous work [36, 41] and use a resolution of 480 × 640 480\times640 480×640 .

【翻译】室内训练:对于室内双视图姿态估计,我们额外在ScanNet [9]数据集上进行训练,采用与之前工作[36, 41]类似的方式,使用分辨率 480 × 640 480\times640 480×640

4.2. Outdoor Geometry Estimation

HPatches Homography: HPatches [1] depicts planar scenes divided in sequences, with transformations restricted to homographies. We follow the evaluation protocol proposed LoFTR [41], resizing the shorter side of the images to 480. Table 1 clearly shows the superiority of DKM, showing gains of + 3.6 +3.6 +3.6 AUC@3px compared to the best previous method.

【翻译】HPatches单应性:HPatches [1]描述了分为序列的平面场景,变换限制为单应性。我们遵循LoFTR [41]提出的评估协议,将图像的较短边调整为480。表1清楚地显示了DKM的优越性,与之前最好的方法相比,在AUC@3px上获得了 + 3.6 +3.6 +3.6的提升。

MegaDepth-1500 Pose Estimation: We use the MegaDepth-1500 test set [41] which consists of 1500 pairs from scene 0015 (St. Peter’s Basilica) and 0022 (Brandenburger Tor). We follow the protocol in [7, 41] and use a RANSAC threshold of 0.5 with intrinsics equivalent to a longer side of 1200. Our results, presented in Table 2, show that our method sets a new state-of-the-art. Notably, we outperform the current best sparse method ASpanFormer [50] with an improvement of + 4.9 +4.9 +4.9 A U C @ 5 ∘ \mathrm{AUC@5^{\circ}} AUC@5 . Furthermore, we significantly outperform the best previous dense method PDC-Net+ [48] with an improvement of + 8.9 A U C @ 5 ∘ +8.9\mathrm{AUC@5^{\circ}} +8.9AUC@5 .

【翻译】MegaDepth-1500姿态估计:我们使用MegaDepth-1500测试集[41],该测试集包含来自场景0015(圣彼得大教堂)和0022(勃兰登堡门)的1500对图像。我们遵循[7, 41]中的协议,使用RANSAC阈值0.5,内参等效于长边为1200。我们在表2中呈现的结果显示,我们的方法设立了新的最先进水平。值得注意的是,我们超越了当前最好的稀疏方法ASpanFormer [50],在 A U C @ 5 ∘ \mathrm{AUC@5^{\circ}} AUC@5上提升了 + 4.9 +4.9 +4.9。此外,我们显著超越了之前最好的密集方法PDC-Net+ [48],在 A U C @ 5 ∘ \mathrm{AUC@5^{\circ}} AUC@5上提升了 + 8.9 +8.9 +8.9

Table 2. SotA comparison. Pose estimation results on the Megadepth-1500 benchmark, measured in AUC (higher is better). The top and bottom portions contains sparse methods and dense methods respectively.
在这里插入图片描述

【翻译】表2. 最新技术对比。在Megadepth-1500基准上的姿态估计结果,用AUC衡量(越高越好)。上半部分和下半部分分别包含稀疏方法和密集方法。

Additional Benchmarks: We create a novel benchmark based on 8 diverse MegaDepth scenes, where DKM shows major improvements. We further do comparisons to COTR/ECO-TR [20, 43] on the St. Paul’s Cathedral scene, with DKM showing large improvements. Details of these experiments can be found in the supplementary material.

【翻译】附加基准:我们基于8个多样化的MegaDepth场景创建了一个新的基准,其中DKM显示出重大改进。我们进一步在圣保罗大教堂场景上与COTR/ECO-TR [20, 43]进行比较,DKM显示出巨大的改进。这些实验的详细信息可在补充材料中找到。

Table 3. SotA comparison. Pose estimation results on the ScanNet-1500 benchmark, measured in AUC (higher is better). The top and bottom portions contains sparse methods and dense methods respectively.
在这里插入图片描述

【翻译】表3. 最新技术对比。在ScanNet-1500基准上的姿态估计结果,用AUC衡量(越高越好)。上半部分和下半部分分别包含稀疏方法和密集方法。

4.3. 室内几何估计

ScanNet-1500 Pose Estimation: ScanNet [9] is a large scale indoor dataset, composed of challenging sequences with low texture regions and large changes in perspective. We follow the evaluation in SuperGlue [36]. Results are presented in Table 3. Our model achieves a + 4.0 +4.0 +4.0 A U C @ 5 ∘ \mathrm{{AUC@5^{\circ}}} AUC@5 gain compared to the previous best sparse method. Compared to the previous best dense method our performance gains are even larger, with gains of + 9.3 A U C @ 5 ∘ +9.3\mathrm{AUC@5^{\circ}} +9.3AUC@5 .

【翻译】ScanNet-1500姿态估计:ScanNet [9]是一个大规模室内数据集,由具有挑战性的序列组成,包含低纹理区域和透视的大幅变化。我们遵循SuperGlue [36]中的评估方法。结果在表3中呈现。与之前最好的稀疏方法相比,我们的模型获得了 + 4.0 +4.0 +4.0 A U C @ 5 ∘ \mathrm{{AUC@5^{\circ}}} AUC@5的提升。与之前最好的密集方法相比,我们的性能提升甚至更大,获得了 + 9.3 A U C @ 5 ∘ +9.3\mathrm{AUC@5^{\circ}} +9.3AUC@5的提升。

Table 4. SotA comparison. Visual localization on the InLoc benchmark using HLoc [35]. Measured in rate ( % ) (\%) (%) of correctly localized queries (higher is better).
在这里插入图片描述

【翻译】表4. 最新技术对比。使用HLoc [35]在InLoc基准上的视觉定位结果。以正确定位查询的比率 ( % ) (\%) (%)衡量(越高越好)。

Visual Localization on InLoc [42]: We follow previous work and use HLoc [35]. Results are presented in Table 4. We find large improvements, particularly on DUC2 where we show a gain of + 8.4 % +8.4\% +8.4% correctly localized queries.

【翻译】在InLoc [42]上的视觉定位:我们遵循之前的工作并使用HLoc [35]。结果在表4中呈现。我们发现了巨大的改进,特别是在DUC2上,我们显示了 + 8.4 % +8.4\% +8.4%正确定位查询的提升。

5. Ablation Study

Next, we investigate design choices of our approach.

【翻译】接下来,我们研究我们方法的设计选择。

Global Matcher: Here we investigate the performance impact of replacing a strong baseline correlation volume regressor, similar to the one used in [49] with our proposed kernelized regression and embedding decoder. The results are shown in Table 5. Our proposed method yields an improvement of + 1.1 A U C @ 5 ∘ +1.1\mathrm{AUC@5^{\circ}} +1.1AUC@5 , highlighting the benefits of our proposed global matcher. As expected, the cosine coordinate embeddings outperform the linear embeddings.

【翻译】全局匹配器:在这里,我们研究了用我们提出的核化回归和嵌入解码器替换强基线相关体积回归器(类似于[49]中使用的)对性能的影响。结果如表5所示。我们提出的方法产生了 + 1.1 A U C @ 5 ∘ +1.1\mathrm{AUC@5^{\circ}} +1.1AUC@5的改进,突出了我们提出的全局匹配器的优势。正如预期的那样,余弦坐标嵌入优于线性嵌入。

Table 5. Ablation study. Impact of our proposed global matcher (GM), using either linear or cosine coordinate embeddings, compared to a strong baseline. Measured in AUC (higher is better).
在这里插入图片描述

【翻译】表5. 消融研究。我们提出的全局匹配器(GM)使用线性或余弦坐标嵌入与强基线相比的影响。用AUC衡量(越高越好)。

Warp Refiners: Here we ablate both the architecture, and the effect of the input representation used. For the architecture we exchange the depthwise convolution blocks for refiners used in previous dense matching work [49]. The results of this ablation are shown in Table 6. Our depthwise refiners significantly outperform the baseline, with a gain of + 3.2 +3.2 +3.2 A U C @ 5 ∘ \mathrm{{AUC@5^{\circ}}} AUC@5 . Furthermore, we find that our input representation yields an improvement of + 1.6 +1.6 +1.6 AUC@5◦, highlighting the importance of well chosen representations.

【翻译】变形精细器:在这里,我们消融了架构和所使用的输入表示的影响。对于架构,我们将深度卷积块替换为之前密集匹配工作[49]中使用的精细器。这种消融的结果如表6所示。我们的深度精细器显著优于基线,获得了 + 3.2 +3.2 +3.2 A U C @ 5 ∘ \mathrm{{AUC@5^{\circ}}} AUC@5的提升。此外,我们发现我们的输入表示产生了 + 1.6 +1.6 +1.6 AUC@5◦的改进,突出了精心选择表示的重要性。

Table 6. Ablation study. Impact of removing our proposed depthwise (DW) warp refiners, or stacked feature maps (FM) from DKM. Measured in AUC (higher is better).
在这里插入图片描述

【翻译】表6. 消融研究。从DKM中移除我们提出的深度(DW)变形精细器或堆叠特征图(FM)的影响。用AUC衡量(越高越好)。

Table 7. Ablation study. Impact of balanced match sampling for two-view pose estimation, measured in AUC (higher is better).
在这里插入图片描述

【翻译】表7. 消融研究。平衡匹配采样对双视图姿态估计的影响,用AUC衡量(越高越好)。

Table 8. Ablation study. Impact of changing training resolution for two-view pose estimation, measured in AUC (higher is better).
在这里插入图片描述

【翻译】表8. 消融研究。改变训练分辨率对双视图姿态估计的影响,用AUC衡量(越高越好)。

Table 9. Ablation study. Impact of bidirectional DKM for twoview pose estimation, measured in AUC (higher is better).
在这里插入图片描述

【翻译】表9. 消融研究。双向DKM对双视图姿态估计的影响,用AUC衡量(越高越好)。

Match Sampling: We compare a baseline not using the certainty estimate, with either using certainty sampling or our proposed balanced sampling using the reciprocal of the KDE estimate. We present results in Table 7, which shows the need for trustworthy certainty. We find that proposed balanced sampling improves the estimation stage, increasing performance with a gain of + 2.0 A U C @ 5 ∘ +2.0\mathrm{AUC@5^{\circ}} +2.0AUC@5 .

【翻译】匹配采样:我们比较了不使用确定性估计的基线,与使用确定性采样或我们提出的使用KDE估计倒数的平衡采样。我们在表7中呈现结果,这显示了可信确定性的必要性。我们发现提出的平衡采样改进了估计阶段,以 + 2.0 A U C @ 5 ∘ +2.0\mathrm{AUC@5^{\circ}} +2.0AUC@5的提升增加了性能。

Resolution: Tinchev et al. [45] notes the importance of increasing input resolution for estimation performance. To gauge the effect of resolution on estimation performance in the dense paradigm we trained DKM on a set of different resolutions. We present the results of our study in Table 8. We find that high resolution is important for accurate estimation. In particular, comparing 384 × 512 384\times512 384×512 to 540 × 720 540\times720 540×720 we find an increase in performance of + 1.3 A U C @ 5 ∘ +1.3\mathrm{AUC@5^{\circ}} +1.3AUC@5 .

【翻译】分辨率:Tinchev等人[45]指出了增加输入分辨率对估计性能的重要性。为了衡量分辨率在密集范式中对估计性能的影响,我们在一组不同分辨率上训练了DKM。我们在表8中呈现研究结果。我们发现高分辨率对准确估计很重要。特别是,比较 384 × 512 384\times512 384×512 540 × 720 540\times720 540×720,我们发现性能提升了 + 1.3 A U C @ 5 ∘ +1.3\mathrm{AUC@5^{\circ}} +1.3AUC@5

Bidirectionality: Previous dense work [43, 48] has investigated incorporating mutual nearest neighbours in dense matching. Here we propose to instead simply concatenate the reverse warp matches. Results are presented in Table 9. We find an improvement of + 1.0 A U C @ 5 ∘ +1.0\mathrm{AUC@5^{\circ}} +1.0AUC@5 .

【翻译】双向性:之前的密集工作[43, 48]已经研究了在密集匹配中融合互近邻。在这里,我们提出简单地连接反向变形匹配。结果在表9中呈现。我们发现了 + 1.0 A U C @ 5 ∘ +1.0\mathrm{AUC@5^{\circ}} +1.0AUC@5的改进。

在这里插入图片描述

Figure 8. Representative failure case for DKM. Our unimodal warp refinement can struggle near depth-discontinuities, and the proposed certainty estimate is occationally overly uncertain.

【翻译】图8. DKM的代表性失败案例。我们的单峰变形精细化在深度不连续处可能遇到困难,提出的确定性估计偶尔过于不确定。

6. Conclusion

We have presented DKM, a novel dense feature matching approach that achieves state-of-the-art two-view geometry estimation results. Three distinct contributions were proposed. We proposed a strong global matcher with a kernelized regressor and embedding decoder. Furthermore, we proposed warp refinement through large depth-wise kernels on stacked feature maps. Finally, we proposed a simple way of learning dense confidence maps by directly classifying consistent depth, and a balanced sampling approach for dense warps. Our extensive experiments clearly showed the superiority of our method, with gains of + 8.9 +8.9 +8.9 A U C @ 5 ∘ \mathrm{{AUC@5^{\circ}}} AUC@5 on the MegaDepth-1500 benchmark.

【翻译】我们提出了DKM,这是一种新颖的密集特征匹配方法,实现了最先进的双视图几何估计结果。提出了三个不同的贡献。我们提出了一个强大的全局匹配器,具有核化回归器和嵌入解码器。此外,我们提出了通过在堆叠特征图上使用大型深度卷积核进行变形精细化。最后,我们提出了一种通过直接分类一致深度来学习密集置信度图的简单方法,以及一种用于密集变形的平衡采样方法。我们的大量实验清楚地显示了我们方法的优越性,在MegaDepth-1500基准测试中获得了 + 8.9 +8.9 +8.9 A U C @ 5 ∘ \mathrm{{AUC@5^{\circ}}} AUC@5的提升。

Limitations: While our global matcher can gracefully handle multimodality, the proposed dense warp refinement is unimodal. This poses challenges where the warp is discontinuous, e.g., at depth boundaries. We also found DKM to be overly uncertain for small objects bordering the sky. This could be a limitation of learning to classify consistent depth, instead of predicting model uncertainty as in, e.g., PDC-Net. We illustrate these weaknesses in Figure 8.

【翻译】局限性:虽然我们的全局匹配器可以优雅地处理多模态,但提出的密集变形精细化是单模态的。这在变形不连续的地方带来了挑战,例如在深度边界处。我们还发现DKM对于靠近天空的小物体过于不确定。这可能是学习分类一致深度的局限性,而不是像PDC-Net等方法那样预测模型不确定性。我们在图8中说明了这些弱点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值