Image Matching from Handcrafted to Deep Features: A Survey 译文
paper: Image Matching from Handcrafted to Deep Features: A Survey |
SpringerLink
[IJCV2020, IF=13.369(2021)]本篇【图像匹配】大领域综述来自武汉大学、哈尔滨工业大学、上海交通大学,于2020.1投稿,2020.7被IJCV接收。论文双栏排版57页、引用文献500+,涵盖特征匹配、图匹配、点集配准等8个子领域,是一篇非常全面的大框架图像匹配综述。
且由于本人精力有限,译文大体基于机翻,但进行了初步的人工校正。如有不懂之处,可参照原文。
由于内容极多,本篇翻译分为七篇博文组成:
Image Matching from Handcrafted to Deep Features: A Survey 译文(第1、2章)
Image Matching from Handcrafted to Deep Features: A Survey 译文(第 3 章)
Image Matching from Handcrafted to Deep Features: A Survey 译文(第 4 章)本篇
Image Matching from Handcrafted to Deep Features: A Survey 译文(第 5 章)
Image Matching from Handcrafted to Deep Features: A Survey 译文(第6、7章)
原文目录如下:
文章目录
-
- Image Matching from Handcrafted to Deep Features: A Survey 译文
- 摘要
- 4 匹配方法(Matching Methods)
摘要
在各种视觉应用中,图像匹配(image matching)是一项基础而关键的任务,它可以从两幅或多幅图像中识别出相同或相似的结构/内容,然后将它们对应起来。在过去的几十年里,越来越多和多样化的方法被提出用于图像匹配,特别是近年来随着深度学习技术的发展。然而,它可能会留下几个未决问题,即对于不同的场景和任务要求,哪种方法是特定应用的合适选择,以及如何设计在准确性、鲁棒性和效率方面具有优异性能的更好的图像匹配方法。这促使我们对这些经典的最新技术进行全面系统的回顾和分析。在基于特征的图像匹配流水线之后,我们介绍了从人工方法到可训练方法的特征检测、描述和匹配技术,并从理论和实践上分析了这些方法的发展。其次,我们简要介绍了几种典型的基于图像匹配的应用,以全面了解图像匹配的意义。此外,我们还通过在代表性数据集上的大量实验,对这些经典和最新技术进行了全面和客观的比较。最后,我们总结了图像匹配技术的现状,并对未来的工作进行了深入的讨论和展望。本综述可作为(但不限于)图像匹配及相关领域的研究人员和工程师的参考。
4 匹配方法(Matching Methods)
匹配任务旨在使用特征检测和/或描述在两幅图像之间建立正确的图像像素或点对应关系。该任务对整个图像匹配Pipeline发挥了重要作用。针对不同的应用和场景,匹配任务的定义各不相同,各有所长。
4.1 匹配方法的概述(Overview of Matching Methods)
在过去几十年的图像匹配领域,现有的方法大致可以分为两类,即基于区域的和基于特征的(Zitova and Flusser,2003;Litjens et al,2017)。基于区域的方法通常是指密集匹配,也称为图像配准(image registration),通常不检测特征。在基于特征的方法中,当从图像对中提取特征点及其局部描述符时,可以将图像匹配任务转换为间接匹配和直接匹配,这对应于局部图像描述符的使用和不使用。
直接特征匹配是直接利用空间几何关系和优化方法,在给定的两个特征集之间建立对应关系,大致可分为图匹配和点集配准。相比之下,间接特征匹配方法通常将匹配任务分为两阶段问题。这种任务通常从描述符的相似度与度量空间的距离判断建立初步的对应关系开始。然后,通过使用额外的局部和/或全局几何约束,从假定的匹配集中去除错误匹配。稀疏特征对应的密集匹配通常需要转换模型估计的后处理步骤,接着是图像重采样和插值(扭曲)。
我们把基于学习的方法从基于区域和基于特征的方法分开,并在一个新的小节中介绍它们。从输入数据来看,图像学习和点数据学习是基于学习的匹配的两种主要形式。与传统方法相比,这些方法在某些场景下可以获得更好的性能。同时简要介绍三维场景下的匹配任务。
4.2 基于区域的匹配(Area-Based Matching)
基于区域的方法以图像配准为目标,直接利用整幅图像的像素强度建立密集的像素对应关系。在几何变换估计和公共区域对齐方面,需要一种相似度度量和优化方法,以最小化目标与扭曲运动图像之间的整体不相似度。因此,经常使用一些手动相似度度量,包括类相关、域转换和互信息(mutual information,MI)方法。优化方法和转换模型也需要执行最终的配准任务(Zitova和Flusser 2003)。
在图像配准领域,类相关方法被认为是基于区域的方法中的经典代表,它通过最大化两个滑动窗口的相似性来匹配两张图像(Zitova and Flusser 2003;L i e t a L。2015)。例如,小波特征的最大相关已被开发用于自动配准(Le Moigne et al 2002)。但是,这种方法存在严重的图像变形(只有在出现轻微旋转和缩放时才能成功应用),窗口包含光滑区域,没有任何突出的细节,计算量大等问题。
域变换方法倾向于在将原始图像转换为另一个域的基础上对两幅图像进行对齐,例如基于傅里叶位移定理的相位相关((Reddy and Chatterji 1996; Liu et al. 2005; Chen et al. 1994; Takita et al. 2003; Foroosh et al. 2002)和基于 Walsh变换的方法(Lazaridis和Petrou 2006;Pan et al 2008)。这种方法对相关的和频率相关的噪声和不均匀的、时变的光干扰具有鲁棒性。然而,这些方法在光谱含量差异较大且重叠面积较小的图像对上存在一定的局限性。
基于信息论,MI(如使用MI与b样条(Klein et al 2007)和条件MI (Loeckx et al 2009)的非刚性图像配准)是两张图像之间统计依赖性的度量,适用于整个图像(Maes et al 1997)。因此,MI特别适合于多模态的配准(Chen et al 2003a, b;Johnson et al, 2001)。最近,Cao等(2020)提出了一种结构一致性提升变换,以增强多光谱和多模态图像登记问题的结构相似性,从而避免光谱信息失真。然而,MI难以确定整个搜索空间的全局最大值,不可避免地降低了其鲁棒性。此外,优化方法(如连续优化、离散优化及其混合形式)和转换模型(如刚性、仿射、薄板样条(TPS)、弹性体和扩散模型)认为已经足够成熟。请参阅Zitova和Flusser (2003), Dawn等(2010),Sotiras等(2013)和Ferrante和Paragios(2017)的代表性文献和进一步的细节。
基于区域的方法可用于医学或遥感图像配准,许多基于特征的方法已不再可行,因为图像通常包含较少的纹理细节,并且由于成像传感器的不同而导致图像外观差异较大。然而,基于区域的方法可能会受到严重的几何变换和局部变形的影响。而深度学习已经证明了它的有效性,早期的深度学习通常被用作传统配准框架的直接扩展,后期的深度学习则使用强化学习范式来迭代估计转换,甚至以端到端的方式直接估计变变换域。基于学习策略的区域匹配将在基于学习的匹配部分进行综述。
4.3 图匹配方法(Graph Matching Methods)
给定从图像中提取的特征点,我们可以通过将每个特征点关联到一个节点并指定边来构造一个图。这种方法为研究图像数据的内在结构,特别是匹配问题提供了方便。根据这个定义,图匹配(GM)指的是在两个或多个图之间建立节点到节点的对应关系。由于其重要性和根本性的挑战,GM在过去几十年里一直是一个长期的研究领域,并且现在仍然引起了研究人员的极大兴趣。从问题设置的角度,GM可以分为两类,即精确匹配和不精确匹配。精确匹配方法认为GM是图或子图同构问题的一种特殊情况。它的目标是找到两个二进制(子)图的双射;因此,所有边都严格保留 (babai2018groups,cook2006mining,levi1973note)。事实上,这个要求对于像计算机视觉这样的现实任务来说太严格了。因此,研究人员经常采用节点和边的加权属性进行不精确匹配。该方法在实践中具有良好的灵活性和实用性。因此,在本次综述中,我们主要集中于对不精确匹配方法的回顾。
在某种程度上,GM拥有一个简单而通用的特征匹配问题的公式,它将几何线索编码为节点亲和度(一阶关系)和边亲和度(二阶关系),从而推导出两个图之间的真实对应关系。除了几何线索之外,特征点的高级信息也可以被合并到GM中(例如,描述符相似性作为节点亲和度)。此信息仅作为补充,并非必需。在一般和最近的形式中,GM可以被表述为二次分配问题( Quadratic Assign-
ment Problem。QAP) (Loiola et al 2007)。虽然文献中存在不同的形式,但研究的主体集中在Lawler’s QAP (Lawler 1963)。给定两个图G1 = (V1, E1)和G2 = (V2, E2),其中|V1| = n1, |V2| = n2,每个节点vi∈V1或v j∈V2代表一个特征点,每个边ei∈E1或e j∈E2定义在一对节点上。在不失一般性的前提下,假设n1≥n2,则GM的Lawler QAP公式可写成:
其中X表示转置矩阵,即Xi j = 1表示节点vi∈V1对应于节点v j∈V2,否则Xi j = 0,vec(X)表示X的列向量化,1n1和1n2分别表示所有的列向量,K表示亲和度矩阵,其对角线和非对角线条目编码两个图之间的一阶和二阶边缘亲和度。目前没有通用的方法可以用来构建亲和度矩阵;然而,一个简单的策略是使用特征描述符的相似性(如形状Context(Belongie et al.,2001))和边缘长度的差异来确定节点和边缘的亲和性。
Koopmans-Beckmann’s QAP是另一个流行的公式。该形式与Lawler’s QAP不同,其表达形式为:
其中A1和A2分别是两个图的加权邻接矩阵,Kp是节点亲和矩阵。在Zhou and De la Torre(2015)中,研究了Koopmans-Beckmann’s与Lawler’s QAP之间的关系,发现Koopmans-Beckmann’s QAP可以看作是Lawler’s QAP的一个特例。
GM问题可转化为寻找最优的一对一对应X,使整体亲和分数J(X)最大化。GM作为一般的组合QAP问题,是NP-hard问题。大多数方法都放松了严格的约束,并以负担得起的成本提供近似解。在这方面,文献中引入了许多松弛策略,从而导致了各种各样的GM求解器。下面,我们将通过GM的发展历程,简要回顾其中有影响的几篇文献。
4.3.1 光谱松弛(Spectral Relaxations)
第一组方法遵循光谱松弛策略。Leordeanu和Hebert(2005)提出通过约束 ∣ ∣ v e c ( X ) ∣ ∣ 2 2 = 1 ||vec(X)||_2^2=1 ∣∣vec(X)∣∣22=1。在这种情况下,求解X可以通过求解特征向量问题得到。X中的每个元素都被解释为与最佳簇的一个对应关系(真实对应关系)。离散化策略用于执行映射约束。这个想法后来被Cour等人(2007)改进了,他们明确地考虑了强制一对一映射约束以实现收紧松弛。这种方法也可以用特征向量问题的封闭形式来求解。Liu和Yan(2010)提出使用基于L1范数的光谱松弛技术来检测多种视觉模式,即约束 ∣ ∣ v e c ( X ) ∣ ∣ 1 = 1 ||vec(X)||_1=1 ∣∣vec(X)∣∣1=1。利用进化博弈论中的复制因子方程可以有效地求解。Jiang等人(2014)提出了一种非负矩阵分解技术,将约束扩展为 ∣ ∣ v e c ( X ) ∣ ∣ p = 1 ||vec(X)||_p=1 ∣∣vec(X)∣∣p=1, p∈[1,2]。同时,Egozi等人(2012)提出了一种截然不同的方法。在他们的工作中,他们提供了光谱匹配方案的概率解释,并导出了一种新的概率匹配方案,其中亲和矩阵也在迭代过程中更新。利用Koopmans-Beckmann的QAP公式,光谱方法(Umeyama 1988;Scott和Longuet-Higgins 1991;Shapiro和Brady 1992;Caelli and Kosinov 2004)松弛X到正交,即 X T X = I X^TX=I XTX=I。该表达式可以作为特征值问题的封闭形式求解。由于松散松弛,这些方法具有效率高的优点。然而,一般来说,它的准确性并不占优势。
4.3.2 凸松弛(Convex Relaxations)
许多研究已经转向研究原始问题的凸松弛,以获得解决非凸QAP问题的理论优势。强凸松弛可以通过在原始变量中添加表示二次单项式的辅助变量的提升方法获得。这样就可以在提升的变量上添加额外的凸约束。半定规划(Semi-definite programming,SDP)是组合问题的通用工具,已被应用于解决GM(Schellewald和Schnörr 2005;托尔 2003;赵等 1998;Kezurer et al 2015)。SDP 松弛是非常收紧(tight)的,允许在多项式时间内找到一个强近似。然而,高昂的计算成本阻碍了其可扩展性。其他一些线性规划松弛的提升方法也被开发出来(Almohamad and Duffuaa 1993;Adams和Johnson 1994)。LP松弛的对偶问题最近被广泛考虑来解决GM (Swoboda et al 2017;Chen and Koltun 2015;斯沃博达等,2017;Torresani et al 2012;Zhang等人2016),这与MAP推理算法有很强的联系。
4.3.3 凸到凹松弛(Convex-to-Concave Relaxations)
一个有用的策略是利用路径跟踪技术。该方法逐步实现了原始问题的凸到凹过程,最终在满足约束条件的情况下找到一个好的解。该方法的计算复杂度也比传统的提升方法低很多。
Zaslavskiy等人(2009)利用Koopmans-Beckmann’s QAP公式将该策略应用于GM问题,并将其推广到有向图(Liu et al 2012b)和部分匹配(Liu and Qiao 2014)。Zhou和De la Torre(2015)在Lawler的QAP基础上,提出了基于亲和矩阵因式分解的统一GM框架。该框架有效地降低了计算复杂度,揭示了Koopmans-Beckmann’s QAP和Lawler’s QAP之间的关系。(高级)双随机(doubly stochastic,DS)松弛方法通过识别更tighter的公式改进了这些方法(Fogel et al 2013;Dym等 2017;Bernard et al 2018),其中讨论了光谱、SDP和DS松弛的 tightness,并从理论上进行了验证。
4.3.4 连续松弛(Continuous Relaxations)
尽管没有全局最优性保证,但大量的GM方法都专注于设计准确或有效的算法来近似求解QAP。在大多数情况下,X被简单地松弛为连续的,作为DS矩阵。Gold和Rangarajan(1996)提出了一种梯度赋值算法,该算法在退火策略下对松弛问题进行梯度上升。Tian等人(2012)利用软约束机制重新审视并改进了该方法的收敛性。van Wyk和van Wyk(2004)提出通过连续投影到所需整数约束的凸集来加强一对一映射约束。Leordeanu等人(2009)提出了一种通过求解一系列线性分配问题在(准)离散域进行优化的有效算法。许多著名的优化技术,如ADMM (Lê-Huu和Paragios 2017),tabu搜索(Adamczewski等人2015)和乘法更新算法(Jiang等人2017a),也已经过测试。最近的研究也包括Jiang等(2017b)和Yu等人(2018),他们引入了新的方案来渐进地近似原始QAP,以及Maron和Lipman(2018),提出了一种新的(可能的)凹松弛技术。Yu等人(2020b)引入了行列式正则化技术以及基于梯度的优化,将这个问题松弛到连续域。
4.3.5 多图匹配(Multi-graph Matching)
与经典的两图匹配设置相比,联合匹配一批具有一致对应关系的图,即多图匹配,由于其方法上的优势和合并跨图信息的潜力,最近受到越来越多的关注。可以说,多图匹配的一个核心问题在于实现可行解的循环一致性。一般来说,这个概念是指两个图之间的双射对应关系必须与通过中间图派生的图相一致。更具体地说,对于任意一对图Ga和Gb,其节点对应矩阵Xab,且Gc是中间图,则循环一致性约束被强制为:XacXcb = Xab,其中Xac是Ga和Gc的匹配解,Xcb是Gc和Gb的匹配解。
现有的多图匹配方法大致可以分为三类。对于属于第一类的方法,多图匹配问题通过迭代过程计算多个两图匹配任务来解决(Yan et al 2013, 2014, 2015a, b;Jiang et al 2020b)。在每次迭代中,计算一个两图匹配解决方案以局部最大化亲和分数,这可以利用现成的成对匹配求解器,如Jiang等人(2020b),离线批处理模式和在线设置都被考虑来探索成对匹配的周期一致性概念。另一项工作将初始的(有噪声的)成对匹配结果作为输入,旨在恢复全局一致的配对匹配集(Kim et al . 2012;Pachauri等,2013;Huang and gu2013;Chen et al 2014;Zhou等2015;Wang et al 2018;Hu et al 2018)。在这些方法中,对所有图的匹配被联合和平等地考虑,以形成一个包含所有配对匹配的批量矩阵。由循环一致性等匹配问题引起的该矩阵的内在结构也被研究。最后一组利用聚类或低秩恢复技术来解决多图匹配,这为问题的特征空间提供了一个新的视角(Zeng et al 2012;Y an等 2015c, 2016a;Tron et al 2017)。最近,在优化框架中考虑了多图匹配问题,该优化框架具有理论上良好的凸松弛(Swoboda et al 2019),或使用投影幂迭代来寻找可行解(Bernard et al 2019)。
4.3.6 其他范例(Other Paradigms)
虽然QAP表述在GM中普遍存在,但表述方式并不唯一。许多方法从不同的角度或范式来处理GM问题,也构成了该领域的一个重要类别。
Cho等人(2010)提供了GM的随机游走观点,并设计了一种通过在关联图上模拟随机游走来获得解的技术。Lee et al(2010)和Suh et al(2012)引入蒙特卡洛(Monte Carlo)方法来提高匹配的鲁棒性。Cho和Lee(2012)进一步设计了一种渐进式GM方法,该方法将图的渐进与图的匹配相结合,以降低计算复杂性。Wang等人(2018a)提出使用图的函数表示,并通过最小化原始图和转换后的图之间的差异来进行匹配。随后,为了抑制异常值(outliers)的匹配,Wang et al(2020)在获得的最佳对应矩阵中对潜在异常值赋零值向量。亲和矩阵(affinity matrix)在GM问题中起着关键作用。然而,人工设计的K易受尺度和旋转差异的影响。为此,设计了无监督(Leordeanu et al 2012)和有监督(Caetano et al 2009)的方法来学习K。Zanfir和Sminchisescu(2018)最近用端到端深度学习方法解决了这个问题。Wang等人(2020)介绍了一个完全可训练的图匹配框架。在该框架中,他们使用了一个图网络块模块,同时考虑了节点/边亲和度的学习和组合优化的求解。
将GM扩展到高阶公式是一种提高鲁棒性的自然方法,主要通过探索几何线索。这导致了一个基于张量的目标(Lee et al 2011),也被称为超图匹配:
其中m是亲和性的阶数,H表示m阶张量,该张量编码图中超边之间的亲和性,⊗_k是张量积,x = vec(x)。关于超图匹配的代表性研究有Zass和Shashua (2008), Chertok和Keller (2010), Lee et al (2011), Chang和Kimia (2011), Duchenne et al(2011)和Y an et al (2015d)
4.4 点集配准方法(Point Set Registration Methods)
点集配准(PSR)旨在估计两个点集最优对齐的空间变换。在特征匹配中,PSR和GM采用了不同的公式。对于两个点集,GM方法通过最大化一元对应和成对对应的整体亲和分数来确定对齐。相比之下,PSR方法确定底层的全局转换。
给定两个点集 { x i } i = 1 n 1 \{x_i\}_{i=1}^{n_1} {
xi}i=1n1、 { y i } i = 1 n 2 \{y_i\}_{i=1}^{n_2} {
yi}i=1n2,一般常规目标可以表示为:
其中θ表示预定义的变换参数。正则化项g§避免了不重要的(trivial)解,比如P = 0。与通用模型相比,该模型只代表了一般原理,并不一定涵盖PSR的所有算法。例如,可以使用概率解释或基于密度的目标,在优化过程中对P的约束可能只是部分施加,这些都与上述公式不同。
PSR在数据上提出了更强的假设,即点集之间存在全局转换,这是它区别于GM的关键性质。尽管通用性受到限制,但由于全局转换模型所需的参数很少,因此该假设导致计算复杂度较低。为了提高模型的泛化能力,提出了由刚性模型到非刚性模型的复杂转换模型。还提出了五种不同的方案来提高对退化的鲁棒性,如噪声、异常值和缺失点。
4.4.1 ICP及其变体(ICP and Its Variants)
PSR是近几十年来计算机视觉的一个重要研究课题,迭代最接近点(iterative closest point, ICP)算法是一种流行的方法(Besl和McKay 1992)。ICP在两个点集中最接近点的对应关系的硬分配和封闭形式的刚性变换估计之间迭代交替,直到收敛。ICP算法因其简单、计算复杂度低而被广泛用作基准。然而,良好的初始化是必需的,因为ICP容易陷入局部最优。在PSR研究领域,有许多研究,如EM-ICP (Granger and Pennec 2002)、LM-ICP (Fitzgibbon 2003)和TriICP (Chetverikov et al 2005)被提出用于改善ICP。读者可以参考最近的一项综述(Pomerleau et al 2013),对ICP的变体进行了详细的讨论。鲁棒点匹配(robust point matching,RPM)算法(Gold et al 1998)被提出来克服ICP的局限性;采用软赋值和确定性退火策略,利用薄板样条(thin-plate spline,TPS)将刚性转换模型推广为非刚性转换模型[TPS-RPM (Chui and Rangarajan 2003)]。
4.4.2 基于EM的方法(EM-Based Methods)
RPM也是类EM的PSR方法的代表,形成了该领域的一个重要类别。类EM方法将PSR描述为加权平方损失函数或对数似然最大化高斯混合模型(Gaussian mixture model,GMM)的优化问题,并通过EM或类EM算法搜索局部最优。在E步中计算每个对应的后验概率,在M步中细化转换。
Sofka等人(2007)研究了配准过程中的不确定性建模,并在类EM框架中提出了协方差驱动对应方法。Myronenko和Song(2010)提出了著名的相干点漂移(CPD)方法,该方法在GMM的基础上建立了一个概率框架;这里,采用EM算法对参数进行极大似然估计。Horaud等人(2011)开发了一种基于期望条件最大化的概率方法,该方法允许对混合模型成分使用各向异性协方差,并改进了各向同性协方差的情况。Ma等人(2016b)和Zhang等人(2017a)利用了基于GMM的概率框架中局部特征和全局特征的统一。Lawin等人(2018)通过将场景的底层结构建模为潜在概率分布,提出了一种密度自适应PSR方法。
4.4.3 基于密度的方法(Density-Based Methods)
基于密度的方法将生成模型引入PSR问题,其中没有建立显式的点对应关系。每个点集都由一个密度函数表示,例如GMM。配准是通过两个密度函数之间的统计差异度量的最小化来实现的。Tsin和Kanade(2004)首次提出了这种方法,并使用核密度函数对点集进行建模,将差异度量定义为核相关。同时,Grunes et al(2004)用松弛狄拉克函数表示点集。然后,他们确定了最优的微分同构变换,使两个分布的距离最小化。Jian和Vemuri(2011)通过使用基于GMM的表示和最小化密度之间的L2误差扩展了这种方法。作者还提供了一个统一的基于密度的PSR框架。许多流行的方法,包括Myronenko和Song(2010)和Tsin和Kanade(2004),在理论上都可以视为特例。Campbell和Petersson(2015)提出使用支持向量参数化GMM进行自适应数据表示。这种方法可以提高基于密度的方法对噪声、异常值和遮挡的鲁棒性。最近,Liao等人(2020)利用模糊聚类表示扫描的点集,然后通过最小化模糊聚类中心之间的模糊加权和来配准两个点集。
4.4.4 基于优化的方法(Optimization-Based Methods)
针对局部最优问题,提出了一组基于优化的全局最优解方法。这些方法通常在有限的转换空间中搜索以节省时间,例如旋转、平移和缩放。随机优化技术,包括遗传算法(Silva et al 2005;Robertson和Fisher 2002),粒子群优化(Li等人2009),粒子滤波 (Sandhu等,2010)和模拟退火方法(Papazov和Burschka 2011;Blais和Levine 1995),被广泛使用,但不能保证收敛。
同时,Branch and bound (BnB)是一种成熟的优化技术,可以有效地在变换空间中搜索全局最优解,并形成了许多基于优化的方法的理论基础,包括Li and Hartley (2007), Parra Bustos et al (2014), Campbell and Petersson (2016), Yang et al(2016)和Liu et al (2018b)。除了这些方法之外,Maron等人(2016)引入了一种基于半定规划(SDP)松弛的方法,其中保证了等距形状匹配的全局解。Lian et al(2017)通过消除刚性变换变量,将PSR描述为凹QAP,并利用BnB实现全局最优解。Yao等人(2020)提出了一种基于全局平滑鲁棒估计的鲁棒非刚性PSR公式,用于数据拟合和正则化,该公式通过最小化算法优化,减少了求解简单最小二乘问题的迭代次数。Iglesias等人(2020)的另一种方法是研究缺少数据的PSR的全局最优性条件。该方法利用拉格朗日对偶性为原始问题生成候选解,从而使原始问题以封闭的形式获得相应的对偶变量。
4.4.5 其他方法(Miscellaneous Methods)
除了常用的基于TPS (Chui and Rangarajan 2003)或高斯径向基函数(Myronenko and Song 2010)的刚性模型或非刚性变换模型外,文献中还考虑了附加的复杂变形。这些模型包括简单明白式的式扩展,如Horaud等人(2011)和Gao和Tedrake(2019)。在非刚性ICP中引入了平滑局部仿射模型作为转换模型,并在ICP框架下发展起来(Amberg et al 2007), Li et al(2008)也采用了该模型。然而,该模型应该与稀疏手工选择的特征对应结合使用,因为它允许多个自由度。另一种不需要用户参与配准过程的线性蒙皮模型(linear skinning model)已被提出并应用于另一项工作(Chang and Zwicker 2009)。
另一种PSR方法将形状描述符引入配准过程。局部形状描述符被生成,如自旋图像(Johnson和Hebert 1999)、形状上下(Belongie等, 2001)、积分体积(Gelfand et al 2005)和点特征直方图(Rusu et al 2009)。通过描述符的相似度约束建立稀疏特征对应关系。随后,可以使用随机抽样一致性(random sampling consensus,RANSAC) (Fischler和Bolles 1981)或BnB搜索(Bazin et al 2012)估计潜在的刚性转换。Ma等人(2013b)在非刚性情况下提出了一种基于 L 2 E L_2E L2E估计的鲁棒算法。
根据不同的观测结果,已经出现了一些新的PSR方案。Golyanik et al(2016)将点集建模为以重力为吸引力的粒子,通过求解牛顿力学微分方程实现配准。Ma等人(2015a)和Wang等人(2016)提出使用上下文感知高斯场来解决PSR问题。Vongkulbhisal等人(2017, 2018)提出了判别优化方法。该方法从训练数据中学习搜索方向来指导优化,而不需定义代价函数。Danelljan等人(2016)和Park et al(2017)考虑了点集的颜色信息,而Evangelidis and Horaud(2018)和Giraldo et al(2017)则解决了多个点集的联合配准问题。
4.5 带误匹配剔除的描述符匹配(Descriptor Matching with Mismatch Removal)
描述符匹配跟随的误匹配剔除(也称为间接图像匹配)将匹配任务转换为一个两阶段问题。该方法通常首先通过局部图像描述符的相似度与度量空间的距离判断建立初步的对应关系。几种常见的策略,包括固定阈值(fixed threshold,FT),最近邻(nearest neighbor,NN)(也称为暴力匹配),互最近邻(mutual NN,MNN)和最近邻距离比(NN distance ratio,NNDR),可用于构建假定的匹配集。然后,通过使用额外的局部和/或全局几何约束,从假定的匹配集中剔除误匹配。我们将误匹配剔除方法简单地分为基于重采样的方法、基于非参数模型的方法和松弛方法。在接下来的章节中,我们将详细介绍这些方法,并提供全面的分析。
4.5.1 假定匹配集构建(Putative Match Set Construction)
假设我们已经从考虑的两张图像I_1和I_2中检测并提取了M和N个需要匹配的局部特征。描述符匹配阶段通过计算M × N项的成对距离矩阵,然后通过上述规则选择潜在的真实匹配。
FT策略考虑距离低于固定阈值的匹配。但是,这种策略可能比较敏感,可能会导致大量一对多匹配,而不是一对一的对应性质。这种情况导致特征匹配任务性能较差。NN策略可以有效地处理数据敏感性问题,召回更多潜在的真实匹配。这种策略已应用于各种描述符匹配方法中,但无法避免一对多的情况。在互最近邻描述符匹配中,I_1中的每个特征在I_2中寻找它的最近邻(反之亦然),MNN的特征对成为假定匹配集中的候选匹配。这种策略可以获得较高的正确匹配率,但可能会牺牲大量其他的真实匹配。NNDR认为第一最近邻和第二最近邻之间的距离差异是显著的。因此,使用带有预定义阈值的距离比可以在不牺牲大量真实匹配的情况下获得鲁棒和有前景的匹配性能。然而,NNDR依赖于这些描述符的稳定距离分布,即使该方法在类SIFT的描述符匹配中被广泛使用并表现良好。事实上,NNDR不再适用于其他类型的描述符,例如二进制或一些基于学习的描述符(Rublee et al 2011;Ono et al 2018)。
这些描述符匹配方法的最佳选择应取决于描述符的属性和特定的应用。例如,MNN比其他高inlier比率的更严格,但可能牺牲许多其他潜在的真实匹配。相比之下,NN和NNDR在特征匹配任务中更普遍,性能相对更好。Mikolajczyk和Schmid(2005)提出了一个关于这些候选匹配选择策略的简单测试。尽管有多种方法可以用于假定特征匹配构建,但仅使用局部外观信息和简单的基于相似度的假定匹配选择策略,将不可避免地导致大量不正确的匹配,特别是当图像发生严重的非刚性变形、极端的视角变化、低质量和/或重复的内容时。因此,在第二阶段迫切需要一种鲁棒、准确、高效的误匹配剔除方法,以保留尽可能多的真实匹配,同时通过使用额外的几何约束将误匹配保持到最小。
4.5.2 基于重采样的方法(Resampling-Based Methods)
重采样技术(可以说)是一种流行的范式,,以经典的RANSAC算法为代表(Fischler和Bolles 1981)。基本上,两幅图像被假定为由某种参数化的几何关系所耦合,如投影变换或极轴几何。然后,RANSAC算法遵循一种假设-验证(hypothesize-and-verify)的策略:从数据中反复取样一个最小的子集,例如投影变换的四个对应点和基本变换的七个对应点,估计一个模型作为假设,并通过一致的正常值(inlier)的数量验证质量。最后,与最佳模型一致的对应(匹配)被确认为正常(inliers)。
为了提高RANSAC的性能,提出了多种方法。在MLESAC (Torr和Zisserman 1998, 2000)中,模型质量通过最大似然过程验证,在某些假设下,它可以改善结果,并且对预定义阈值不太敏感。改进验证阶段的思想由于实现简单,在后续的许多研究中不仅得到了应用,而且得到了进一步的推广。由于提高效率的效果很吸引人,采样策略的改进也在不少研究中被考虑。从本质上讲,不同的先验信息被纳入,以增加选择全inlier样本子集的概率。具体来说, inliers被假定为在NAPSAC中是空间相干的(Nasuto and raddock 2002),或者在GroupSAC(Ni et al 2009)中存在一些分组。PROSAC (Chum和Matas 2005)利用先验预测的inlier概率,EVSAC (Fragoso等,2013)利用匹配的极值理论对可信度进行估计。另一项开创性的工作是局部优化RANSAC (LO-RANSAC) (Chum et al 2003),其关键观察结果是,采用最小子集可以放大潜在噪声,并产生与实际情况相差甚远的假设。通过引入局部优化过程解决了这个问题时,性能已达SOTA。在得到迄今为止最好的模型时,通过引入局部优化过程来解决这个问题。在原始论文中,局部优化由在内部 RANSAC 内具有缩小的正常值-异常值(inlier-outlier)阈值的迭代最小二乘拟合过程实现。这具有大于最小值的采样,并且仅应用于当前模型的inlier。Lebeda等人(2012)讨论了LO-RANSAC的计算成本问题,并实现了一些改进。在Barath和Matas(2018)中,局部优化步骤使用图割技术进行了增强。许多改进RANSAC的策略被整合到USAC中(Raguram et al 2012)。
最近,Barath等人(2019b)在他们的MAGSAC中应用了σ-一致性,通过在一定范围的噪声尺度上进行边缘化来消除对用户定义阈值的需求。此后,Barath等人(2019a)观察到附近的点更有可能源于相同的几何模型,他们通过从逐渐增长的邻域中抽取样本,从而提取局部结构进行全局采样和参数模型估计。在以上两种方法的基础上,Barath等(Barath et al 2020)引入了带有新评分函数的MAGSAC++ 。该方法避免了对inlier-outlier决策的要求,其中一个新的边际化程序被表述为M-估计,通过迭代重新加权的最小二乘程序来解决,Barath等人(2019a)的渐进式增长采样策略也被应用于类似RANSAC的鲁棒估计。
4.5.3 基于非参数化模型的方法(Non-parametric Model-Based Methods)
一组基于非参数模型的方法已经被提出。非参数模型代替了简单的参数模型,解决了匹配中更普遍的先验问题,例如运动一致性,并能处理退化的情况。这些方法的区别在于用不同的变形函数来模拟转换,用不同的方法来处理总体异常值。Pilet等人(2008年)提出使用三角二维网格对变形进行建模,使用定制的鲁棒估计器来消除异常值的不利影响。Gay-Bellile等人(2008年)使用Huber估计器,Ma等人(2015年)使用 L 2 E L_2E L2E估计器,尽管他们对变换的建模不同,但鲁棒估计器的思想也得到了利用。Li和Hu(2010)提出了一个相当不同的方法,其中支持向量回归技术被用来鲁棒地估计一个对应函数并否决误匹配。
开创性的工作向量域一致性(vector field consensus,VFC) (Ma等人2013a, 2014)引入了一个新的非刚性匹配框架。变形函数被限制在再现核Hilbert空间内,并结合Tikhonov正则化来加强平滑性约束。在贝叶斯模型中进行估计,这里,为了鲁棒性,显式地考虑了异常值。VFC算法及其变体(Ma et al 2015b, 2017a, 2019b)已被证明是有效的。
4.5.4 松弛方法(Relaxed Methods)
最近的趋势是研究松弛的匹配方法,其中几何约束变得不那么严格,以适应极其复杂的场景,如宽基线的图像对产生的运动不连续,或有独立运动的物体。某些GM方法(Leordeanu和Hebert 2005;Liu和Yan 2010)可以满足这样的要求,并使用二次模型,其中包含对应的成对几何关系,以找到潜在正确的匹配。然而,结果往往是粗糙的。
Lipman等人(2014)考虑了分段仿射变形;然后,他们将特征匹配表述为一个有约束的优化问题,该问题寻求与大多数匹配关系一致的变形,并施加有界的变形。Lin等人(2014,2017)提出了在一个特别设计的匹配域中,用非线性回归技术估计的似然函数来识别真匹配,其中运动一致性是强制的,同时也允许不连续。这个概念对应于强制一个局部运动一致性约束。Ma等人(2018a, 2019d)提出了一种局部保持匹配方法,其中用于匹配的全局变形模型放宽到关注每个匹配的局部性,以换取通用性和效率。结果表明,该准则能够快速、准确地过滤错误匹配。Bian等人(2017)中出现了类似的方法,其中引入了基于局部支持匹配的简单准则来剔除异常值。Jiang等人(2020a)将特征匹配作为一个具有异常值的空间聚类问题,自适应地将假定的匹配聚类为几个运动一致的聚类,以及一个异常值/误匹配聚类。Lee等人(2020)的另一种方法将特征匹配问题描述为马尔可夫随机场,使用局部描述子距离和相对几何相似性来增强鲁棒性和准确性。
4.6 学习的匹配(Learning for Matching)
在信息提取和表示或模型回归中,除了检测器或描述子外,基于学习的匹配方法通常被用来代替传统的方法。学习的匹配步骤大致可以分为基于图像的学习和基于点的学习。前者在传统方法的基础上,旨在应对三个典型的任务,即图像配准 (Wu et al 2015a),立体匹配 (Poursaeed et al 2018)和摄像机定位或变换估计camera localization or transformation estimation (Poursaeed et al 2018;Erlik Nowruzi等 2017;Yin and Shi 2018)。这种方法可以直接实现基于任务的学习,而不需要提前检测图像的显著结构(如兴趣点)。相比之下,基于点的学习更倾向于在提取的点集上进行;这种方法通常用于点数据处理,如分类、分割(Qi等人2017a, b)和配准(Simonovsky等 2016;Liao et al 2017)。研究人员还使用这些数据从假定的匹配集进行正确的匹配选择和几何变换模型估计(Moo Yi et al 2018;Ma等 2019年;Zhao等 2019;Ranftl and Koltun 2018;Poursaeed等 2018)。
4.6.1 图像学习(Learning from Images)
基于图像学习的匹配方法通常使用CNN进行图像级潜在信息提取和相似度度量,以及几何关系估计。因此,基于patch的学习(章节3.3:learning-based feature descriptors)经常被作为基于区域的图像配准和立体匹配的扩展。这是因为滑动窗口中的传统相似性度量可以很容易地用一种深度方式代替,即深度描述符。然而,研究人员在空间变换网络(STN) (Jaderberg et al 2015)和光流估计(FlowNet) (Dosovitskiy et al 2015)中使用深度学习取得的成功,引发了一波利用深度学习技术直接估计几何变换或非参数变形场的研究浪潮,甚至实现了端到端的可训练框架。
图像配准(image registration)。对于基于区域的图像配准,早期通常使用深度学习作为传统配准框架的直接扩展,后期使用强化学习范式迭代地估计变换,甚至直接估计变形场或位移场进行配准任务。最直观的方法是使用深度学习网络来估计目标图像对的相似度度量,以驱动迭代的优化过程。这样,传统的度量指标,如类相关方法和MI方法等,可以用更优秀的深度度量来代替。例如,Wu等人(2015a)通过使用卷积堆叠的自编码器(CAE)实现了可变形的图像配准,从而从观察到的图像patch数据中发现紧凑和高度鉴别的特征,用于相似度量学习。同样,为了获得更好的相似性度量,Simonovsky等人(2016)使用了由少数对齐的图像对训练而成的深度网络。此外,通过直接使用图像外观对变形模型进行patch-wise预测,设计了一种称为Quicksilver的快速可变形图像配准方法(Yang et al 2017b),其中深度编码器-解码器网络用于预测大变形微分同构模型。受深度卷积的启发,Revaud等人(2016)引入了一种基于层次相关架构的密集匹配算法。该方法可以处理复杂的非刚性变形和重复的纹理区域。Arar等人(2020)介绍了一种基于具有几何保留约束的图像到图像转换网络的无监督多模态图像配准技术。
与度量学习不同,训练体用于强化学习范式的图像配准,通常用于估计刚性转换模型或变形场。Liao等人(2017)首次将强化学习用于刚性图像配准,使用人工智能体和贪婪监督方法结合注意力驱动的分层策略来实现“策略学习”过程,并找到产生图像对齐的最佳运动动作序列。Krebs等人(2017)还训练了一种人工智能体,它通过从大量合成变形图像对中训练来探索统计变形模型的参数空间,以应对可变形配准问题和难以提取可靠的真实数据的可变形场。Miao等人(2018)提出了一种用于医学图像配准的多智能体强化学习范式,其中自注意力机制用于感受多个图像区域。然而,强化学习通常用于预测回归过程的迭代更新,在迭代过程中仍然消耗大量的计算量。
为了减少运行时间并避免显式地定义不同度量,one hot端到端配准受到越来越多的关注。Sokooti等人(2017)首次设计了深度回归网络,直接从一对输入图像中学习位移向量场。de Vos等人(2017)的另一种方法类似地训练了一个深度网络来回归和输出空间变换的参数,然后可以生成位移场来将运动图像扭曲到目标图像。然而,为了实现无监督优化,仍然需要图像对之间的相似度度量。最近,de Vos等人引入了深度学习框架(2019)用于无监督仿射和变形图像配准。经过训练的网络可以用来在one hot中配准未曾看到过的图像。将深度网络作为回归器的类似方法可以直接从图像对中学习参数转换模型,例如Fundamental (Poursaeed et al 2018), 单应性矩阵Homography (DeTone et al 2016)和非刚性变形(Rocco et al 2017)。
大量其他基于图像级学习的端到端配准方法的被提出。Chen等人(2019)提出了端到端可训练的深度网络,用于直接预测图像对齐的密集位移场。Wang和Zhang(2020)引入了DeepFLASH用于有效的变形医学图像配准,该配准在低维带宽限制空间中实现,从而极大地降低了计算和内存要求。为了同时增强变换模型的拓扑保持性和平滑性,Mok和Chung(2020)提出了一种高效的无监督对称图像配准方法,该方法最大限度地提高了异胚映射空间内图像之间的相似性,并同时估计正变换和逆变换。在Truong等人(2020)中,作者介绍了一种用于几何匹配、光流估计和语义对应的通用网络,通过研究全局和局部相关层的联合使用,可以实现高精度和鲁棒性。更多细节请参见专为配准的综述(Ferrante and Paragios 2017;Haskins et al 2020)。
立体匹配(stereo matching)。在过去的几年里,类似于配准,许多关于立体匹配的研究都集中在通过使用深度卷积技术和改进视差图来准确计算匹配成本(Zbontar and LeCun 2015;Luo等 2016;Zbontar and LeCun 2016;Shaked and Wolf 2017)。除了深度描述符,如DeepCompare (Zagoruyko and Komodakis 2015)和MatchNet (Han et al 2015)等,Zbontar和LeCun(2015)引入了深度Siamese网络来计算匹配成本,该网络被训练来预测图像patch之间的相似性。他们进一步提出了一系列用于成对匹配二元分类的CNN (Zbontar and LeCun 2016),并将其应用于视差估计。类似于将匹配成本的计算转换为多标签分类问题,Luo等(2016)提出了一种高效的用于快速立体匹配的Siamese网络。此外,Shaked和Wolf(2017)通过使用提出的常数高速网络计算匹配成本和使用反射置信度学习进行视差估计来提高性能。
匹配任务的端到端深度方式近年来受到越来越多的关注。例如,Mayer等人(2016)在他们的分布式网络中训练了一个端到端CNN以获得一个精细的视差图,Pang等人(2017)用一个称为级联残差学习(CRL)的两阶段CNN对齐进行了扩展。最近,Chang和Chen(2018)引入了空间金字塔池化模块和三维卷积策略。该方法可以利用全局上下文信息来增强立体匹配。受到CycleGAN (Zhu et al 2017)的启发,为了处理域间gap,Liu等人(2020)提出了一种端到端训练框架,将所有合成的立体图像转换为现实图像,同时保持极性约束。该方法通过域转换和立体匹配的联合优化来实现。Yang et al(2020)的另一种方法是学习视差的小波系数,而不是视差本身,可以从低频子模块中学习全局上下文信息,从其他子模块中学习细节。此外,指导策略(Zhang et al 2019a;Poggi等人2019)也用于立体匹配。
基于深度卷积技术的立体匹配在公共基准测试(The KITTI Vision Benchmark Suite (cvlibs.net))中一直占据主导地位。然而,CNN在立体匹配领域的应用受到输入图像对的限制,这些输入图像对一般是由双目摄像机捕获的,具有较窄的基线和极性校正。尽管如此,这些基于学习的立体匹配中的网络结构、基本思想以及一些技巧或策略可能对一般的图像匹配任务有很强的参考价值。
4.6.2 点学习(Learning from Points)
从点中学习在特征提取、表示和相似度度量方面不像在图像中那样流行。基于点的学习,尤其是特征匹配,是近年来才引入的。这是因为在点数据上使用CNN比在原始图像上更困难,这是由于稀疏点的无序结构和分散性质。此外,使用深度卷积技术在多点之间操作和提取空间关系,如相邻元素、相对位置、长度和角度信息是具有挑战性的。然而,使用深度学习技术来解决基于点的任务已经得到越来越多的研究。这些技术可以大致分为参数拟合(Brachmann et al 2017;Ranftl和Koltun 2018)和点分类和/或分割(Qi等 2017a, b;Moo Yi等 2018;Ma等 2019;Zhao,2019)。前者受到经典RANSAC算法的启发,旨在通过cnn的数据驱动优化策略来估计转换模型,如基本矩阵(Ranftl和Koltun 2018)和极面几何(Brachmann和Rother 2019)。然而,后者倾向于训练分类器从假定的匹配集中识别真实匹配。为了提高性能,通常将参数拟合和点分类联合训练。
基于学习的误匹配剔除方法是近年来发展起来的。Moo Yi等人(2018)首次尝试引入一种基于学习的技术,称为学习寻找良好对应( learning to find good correspondences,LFGC),其目的是在严格的几何变换约束下,将一组稀疏的假定匹配与图像本征一起训练出一个网络,并将测试对应标记为正常值或异常值(inliers or outliers),同时输出摄像机运动。然而,LFGC可能会牺牲许多真实的对应来估计运动参数,无法处理一般的匹配问题,如变形和非刚性图像匹配。为此,Ma等人(2019a)提出了一个学习两类分类器的通用框架,用于误匹配剔除,称为LMR,它使用少量图像和手工制作的几何表示进行训练。他们的方法在线性时间复杂度的情况下显示出良好的匹配性能。最近,Zhang等人(2019b)专注于基于顺序感知网络(OAN)的几何恢复,并在姿态估计方面取得了有前景的性能。Sarlin等人(2020)提出了SuperGlue,通过联合查找对应点和剔除误匹配点来匹配两组局部特征。该方法由图神经网络(Scarselli et al 2009)实现,用于可微传输问题的优化。类似的图神经网络Pipeline已被新兴的研究分支采用,即深度图匹配(Wang 等,2019;Yu等,2020a;Fey 等 2020),其中提出跨图卷积(Wang 等人 2019)、通道无关嵌入(Yu 等 2020a)和基于样条线的卷积(Fey 等人 2020),并用于监督图对应学习。
尽管将CNN应用于点数据很困难,但最新技术已经显示出在使用深度回归器和分类器的矩阵估计和点数据分类上的巨大潜力,特别是对于具有挑战性的数据或场景。此外,自然语言处理中的多层感知方法和图卷积技术可以为匹配任务中处理这些分散的、非结构化的点数据提供很好的参考。
4.7 3D实例匹配(Matching in 3-D Cases)
与二维匹配方法类似,三维匹配方法通常包括关键点检测和局部特征描述两个步骤,然后通过计算描述子之间的相似度来建立稀疏对应集。尽管大多数方法都使用局部特征描述符,这些描述符被设计为对噪声和变形具有鲁棒性,以在3-D实例之间建立对应关系,但各种传统和最近的工作都属于另一类。我们建议读者参考最近的综述(Biasotti et al 2016;V an Kaick et al 2011)在形状匹配领域的研究,因为对文献的详细回顾超出了本文的范围。
embedding方法旨在利用一些自然假设(例如,近似等距)将复杂匹配问题参数化,使其具有较少的可处理自由度。Elad Kimmel (2003)提出了一种传统的方法,通过将形状嵌入(embedding)中间欧式空间来匹配形状。该方法将测地线距离近似为欧式距离,将原来的非刚性配准问题简化为中间空间(intermediate space)的刚性配准问题。值得注意的是,另一项工作开发了同样使用embedding空间的共形映射方法(Lipman和Funkhouser 2009;Kim等 2011;Zeng et al 2010)。
一种更直接的方法是通过最小化结构失真,在形状上的点(子集)之间找到逐点匹配。这个方法是由Bronstein等人(2006)提出的,他引入了一种高度非凸和不可微的目标和广义多维尺度优化技术。一些研究人员也试图减轻过高的计算复杂度问题(Sahillioglu和Y emez 2011;Tevs等 2011),同时考虑二次分配形式(Rodola et al 2012, 2013;Chen and Koltun 2015;Wang等 2011)的图匹配。
基于函数映射框架的方法族首先由Ovsjanikov等人(2012)开发。这些方法不是在欧式空间中的点对点匹配,而是使用两个流形之间的函数映射来表示对应关系,可以用线性算子来表征。利用拉普拉斯-贝尔特拉米算子的特征基,可以将函数映射编码成紧凑形式。map上的大多数自然约束,如地标对应性和算子可交换性,在这个公式中变成线性,导致一个有效的解决方案。这种方法在许多后续工作中被采用和扩展(Aflalo et al . 2016;Kovnatsky et al 2015;Pokrass等 2013;Rodolà等 2017;Litany等 2017)。
三维实例配准中的点集学习也是一个研究热点。Y ew等人(2020)提出了用于刚性点云配准的RPM-Net,其中它通过学习融合特征来降低初始化的敏感性并提高收敛性能。Gojcic等人(2020)通过直接学习以全局一致的方式配准场景的所有视图,引入了一种端到端多视图点云配准框架。Pais等人(2020)介绍了一种用于3D点配准的学习架构,即3DRegNet。该方法可以从一组假定的匹配中识别出真实的点对应关系,并回归运动参数以将扫描图像对齐到一个共同的参考系中。Choy等人(2020)利用高维卷积网络检测高维空间中的线性子空间,然后将其应用于刚性运动和图像对应估计下的三维配准。
4.8 总结(Summary)
给定一对物体/场景相似且有/没有特征检测和/或描述的图像,匹配任务可扩展为图像配准、立体匹配、特征匹配、图匹配和点集配准等几种不同形式。这些不同的匹配定义通常是针对特定的应用引入的,并有各自的优点。
传统的图像配准和立体图像通过块相似度(patch-wise similarity)度度,结合优化策略,实现密集匹配,搜索整体最优解。然而,它们是在高重叠区域(轻微几何变形)和双目相机的图像对上进行的,这些可能需要较大的计算量和限定的手工度量指标。
由于网络设计和损失定义的进步,以及丰富的训练样本,深度学习的引入提高了配准精度和差异估计。然而,我们也发现,在这些匹配任务中使用深度学习通常是在发生轻微几何变形的图像对上执行的,例如医学图像配准和双目立体匹配。将其应用于更复杂的场景,如宽基线图像立体或具有严重几何变形的图像配准,仍然是一个开放式问题。
基于特征的图像匹配可以有效地解决视点大、基线宽和严重的非刚性图像匹配问题。在文献中提出的策略中,最流行的策略是基于描述符距离构建假定的匹配,然后接一个鲁棒估计器,如RANSAC。但是,假定匹配集中的大量误匹配会影响后续视觉任务的性能,也需要大量的时间进行模型估计。因此,误匹配剔除方法是必需的,并且是集成的,以保留尽可能多的真实匹配,同时使用额外的几何约束将误匹配保持到最小水平。其中,基于重采样的方法,如RANSAC,可以在估计潜在参数模型的同时去除异常值(outliers)。然而,它们理论上所需的运行时间随着离群(outlier)率的增加呈指数增长,并且它们不能处理经过更复杂的非刚性变换的图像对。基于非参数模型的方法可以利用高维非参数模型来处理非刚性图像匹配问题,但在更复杂的解空间中,目标函数的定义和最优解的求解仍然具有挑战性。与重采样和非参数模型方法中的全局约束不同,松弛w误匹配剔除方法通常是在潜在内值(inlier)的局部相关假设上进行的。因此,人们设计了更简单但更有效的规则来过滤异常值,同时在极短的时间内保持内值。然而,这类方法由于其参数敏感性而受到限制;此外,这些方法倾向于保留明显的异常值,从而影响后续姿态估计和图像配准的准确性。
另外,由于纹理较少图像、形状、语义图像以及直接从特定设备捕获的原始点的匹配要求,基于图像patch的描述符可能无法工作。因此,对于执行这些情况的匹配任务,图匹配和点配准方法更为合适。利用相邻点之间的图结构和整体对应矩阵进行优化,找到最优解。然而,这些纯基于点的方法受到计算量和离群值敏感性的限制。因此,设计合适的问题公式和约束条件,提出更有效的优化方法,仍然是图像匹配界有待解决的问题,需要进一步的研究关注。
与基于图像的学习类似,越来越多的研究将深度学习应用于基于特征的匹配领域。最新的技术在矩阵估计(如基本矩阵)和点数据分类(如误匹配剔除)方面显示出巨大的潜力,特别是在处理具有挑战性的数据或场景方面。然而,由于这些稀疏点的无序结构和分散性质,在点数据上使用卷积网络并不像在原始图像上那样容易。然而,最近的研究表明,使用图卷积策略和多层感知方法,并对这些点数据进行具体的归一化是可行的。除了刚性变换参数估计外,利用深度卷积技术对非刚性甚至严重变形的点数据进行匹配可能是一个更具挑战性和意义的问题。
文章评论