文章标题: D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual Odometry
摘要:
我们提出的 D3VO 单目视觉里程计框架从三个层面上利用了深度学习网络, 分别是: 利用深度学习的深度估计, 利用深度学习的位姿估计, 以及利用深度学习的不确定度估计. 首先我们提出了一个在双目视频上训练得到的自监督单目深度估计网络. 特别的, 它利用预测亮度变换参数, 将训练图像对对齐到相似的亮度条件上. 另外, 我们建模了输入图像像素的亮度不确定性, 从而进一步提高深度估计的准确率, 并为之后的直接法视觉里程计提供一个关于光照残差的可学习加权函数. 评估结果显示, 我们提出的网络超过了当前的 sota 自监督深度估计网络. D3VO 将预测深度, 位姿以及不确定度紧密结合到一个直接视觉里程计方法中, 来同时提升前端追踪以及后端非线性优化性能. 我们在 KITTI 以及 EuRoC MAV 数据集上评估了 D3VO 单目视觉里程计的性能. 结果显示, D3VO 大大超越了传统的 sota 视觉里程计方法. 同时, 它也在 KITTI 数据集上取得了可以和 sota 的 stereo/LiDAR 里程计可比较的结果, 以及在 EuRoC MAV 数据集上和 sota 的 VIO 可比较的结果.
一, 引入:
深度学习已经扫荡了计算机视觉领域中的很多领域, 不仅有高层次的任务, 如目标分类, 检测以及分割, 也包括低层次任务, 如光流估计, 兴趣点检测以及表述. 然而, 在 SLAM 或者是视觉 SLAM 领域, 这个领域主要从图像序列中估计相机的相对位姿, 该领域中, 传统的基于几何的方法仍然占据主导. 虽然基于单目的方法有着低硬件以及标定成本的优势, 但他却由于尺度漂移以及低鲁棒性, 在性能方面落后于 Stereo SLAM 以及 VIO. 最近有很多工作着力从结合深度神经网络方面来解决这些问题. 研究表明, 通过结合单目深度估计网络, 单目 VO 的性能得到了很大提升, 因为深度神经网络能够从大量数据中学习到度量尺度一致的深度信息先验.
然而, 这种方式, 仅有限的使用了深度神经网络. 最近, 关于自监督及无监督的单目深度估计网络的最新进展表明, 相邻的单目帧位姿可以随深度一起预测. 由于利用深度神经网络的位姿估计展现了很高的鲁棒性, 那么就提出了一个问题: 能否利用基于深度网络的位姿估计来提升传统的 VO? 另一方面, 因为 SLAM/VO 本质上是一个状态估计问题, 其中不确定度扮演着很重要的地位, 同时也有很多基于学习的方法开始估计不确定度. 那么还有一个问题是: 我们如何将这种不确定度的预测融入到基于优化的 VO 中呢?
在本文中, 我们提出的 D3VO 作为单目直接法视觉 VO, 从三个层面上利用了自监督单目深度估计网络: 深度, 位姿以及不确定度估计, 如图 1 所示.
图 1
为什么达到我们的目的, 我们首先提出了一个在双目视频上训练的自监督网络. 提出的自监督网络利用 DepthNet 部分从单帧图像中预测深度, 利用 PoseNet 部分从相邻帧图像中预测位姿. 利用修正的基线和预测的位姿, 通过最小化静态立体翘曲和时间翘曲引起的光度误差, 将两个网络联系在一起. 通过这种方式, 时间信息就被融入到了深度预测训练中, 从而提升估计精度. 为了解决训练图像对之间光照不一致的问题, 我们的网络实时预测了训练过程中对源图像和目标图像进行亮度匹配的亮度变换参数. 对 EuRoC MAV 数据集的评估表明, 所提出的亮度变换显著提高了深度估计的精度. 为了将 deep depth 集成到 VO 系统中, 我们首先用有着度量尺度的预测的深度来初始化每个新的 3D 点. 然后, 我们采用 (DVSO) 中提出的 virtual stereo term, 将预测的位姿纳入非线性优化中. DVSO 使用半监督的单目深度估计网络, 依赖于从 sota 的 Stereo VO 系统中提取的辅助深度, 而我们的网络只使用 Stereo 视频, 没有任何外部深度信息监督.
虽然光照变化被明确地建模, 但它并不是唯一可能违反亮度恒定假设的因素. 其他因素, 如非朗伯表面, 高频区域和移动的物体, 也会破坏这个假设. 受最近深度神经网络关于随机不确定性的研究的启发, 该网络将光度不确定性估计为以输入图像为条件的预测方差. 因此, 由可能违反亮度恒定假设的像素产生的误差被向下加权. 学习到的光度残差的权重也促使我们将其合并到直接的 VO 中 -- 因为自监督训练流程和 direct-VO 有着类似的光度目标, 我们建议使用学到的权重来取代在传统的 direct-VO 中使用的光度残差权重函数, 其通常是人工经验设定的, 或者只用来解释特定算法的内在不确定度的.
鲁棒性是 VO 算法设计中最重要的因素之一. 然而, 传统的单目视觉 VO 在面对弱纹理区域或快速运动时缺乏鲁棒性. 典型的解决方案是引入惯性测量单元 (IMU). 但这增加了校准工作, 更重要的是, 在恒定速度下, IMUs 不能在恒定速度下提供度量尺度. 为了提高单目 VO 的鲁棒性, 我们提出将来自深度网络的预估位姿合并到前端跟踪和后端非线性优化中. 对于前端跟踪, 我们用网络估计的位姿代替匀速运动模型的位姿. 此外, 估计的位姿, 除了直接图像对齐, 也被用作平方正则化. 在后端非线性优化中, 我们提出了一个与直接 VO 的光度能量项共同最小化的位姿能量项. 我们在 KITTI[25] 和 EuRoC 上评估了所提出的单目深度估计网络和 D3VO. 我们在单目深度估计和摄像机跟踪方面都达到了 sota 性能. 特别地, 通过结合 deep depth, deep uncertainty and deep pose,D3VO 在 KITTI 上取得了与最先进的 stereo/LiDAR 方法相媲美的结果, 并且在 EuRoC MAV 上也取得了与最先进的 VIO 方法相媲美的结果, 而这是一种单目方法.
二, 相关工作:
基于深度学习的单目深度估计
监督学习在单目深度估计任务上展现了强大的性能. Eigen et al. [14, 15] 提出使用多尺度的 CNNs, 来直接从单个输入图像回归像素级的深度图. Laina et al. [43]提出了一种鲁棒的损失函数来提升估计精度. Fu et al. [24]将单目深度估计网络重构为一个有序回归问题, 并取得了较好的性能. 最近的研究开始以一种自监督和无监督的方式来解决这个问题, 即使用光度误差来学习深度图 [27,28,49,73,81,82,82,86], 并采用可微插值[32]. 我们的自监督深度估计网络是以 MonoDepth2 [26] 为基础, 并通过引入预测亮度变换参数和光度不确定度对其进行了扩展.
基于深度学习的不确定度估计
深度学习的不确定性估计最近在 [35,36] 中进行了研究, 提出了两种不确定性. Klodt et al. [40]提出利用随机不确定度概念来估计光度以及深度的不确定度, 从而提升深度估计精度. 但是, 在表达光度不确定度是, 他们没有考虑不同图像间的光照变化, 这其实是可以被显式建模的. 我们的方法以亮度对齐图像为条件, 对光度不确定度进行预测, 从而实现更好的光度不确定度估计. 此外, 我们也试图更好地利用我们已知的不确定性, 并建议将其纳入传统的 VO 系统 [16] 中
基于深度学习的 VO/SLAM
端到端深度学习神经网络已经被开发出来, 可以直接预测图像之间的相对姿态 [70,75,85] 以监督学习模式, 或无监督学习 [46,73,82,86]. 除了位姿估计外, CodeSLAM[2] 还通过与相机姿态共同优化稠密几何的学习先验, 实现了稠密重建. 但在位姿估计精度方面, 所有端到端方法都不如传统的基于立体视觉和惯性的 VO 方法. 基于深度单目深度估计的成功, 一些研究将预测的深度 / 视差图集成到单目 VO 系统中 [68,78], 以提高性能并消除尺度漂移. CNN-SLAM[68] 将监督深度神经网络预测的深度融合到 LSD-SLAM[17]中, 利用贝叶斯滤波对深度图进行细化, 在室内环境中取得了优异的性能 [29,64]. 其他文献[10,67] 探讨了深度神经网络在基于特征的方法上的应用, 其中 [34] 采用生成式对抗网络 (GANs) 作为一种图像增强方法, 提高了 VO 在弱光下的鲁棒性. 与我们的工作最相关的是(DVSO).DVSO 提出了 virtual stereo term, 将深度估计从半监督网络输入到 direct-VO 管道中. 特别是, DVSO 的表现大幅优于其他单目 VO 系统, 甚至可以达到与最先进的立体视觉测程系统相当的性能[53,74].DVSO 仅仅利用了深度, 而我们提出的 D3VO 在多个层面上利用了深度神经网络的 power, 从而将更多的信息整合到直接的 VO 管道中
三, 方法:
首先, 我们介绍了一种新型的自监督神经网络, 它可以预测深度, 位姿以及不确定度. 该网络还估计仿射亮度转换参数, 以自监督的方式对齐训练图像的照度. 光度不确定度是根据每个像素可能的亮度值 [35,40] 的分布来预测的. 此后, 我们将介绍 D3VO 作为一个 direct-SLAM 框架, 将预测的属性合并到跟踪前端和 BA 后端.
3.1 自监督网络
所提出的单目深度估计网络的核心概念是自监督训练体制, 它同时利用 DepthNet 学习深度, 通过 PoseNet 利用视频序列学习运动[26, 86]. 这种自监督训练是通过最小化时间立体图像和静态立体图像之间的光度重投影误差来实现的:
Eq 1
其中 V 是 I_t 上面所有像素的集合, t^{'}是所有源帧的索引. 在我们的设置中 I_t 是左图像, 而 I_{t^{'}}包含了两个相邻的时间帧和它所对应的右帧. 也就是说 I_{t^{'}}\in\{I_{t-1},I_{t+1},I_{t^{s}}\} . 每像素最小损失是在 Monodepth2 中被提出来, 用来处理不同源图像之间的遮挡问题的.
I_{t^{'}{\rightarrow}t}是通过利用预测深度 D_t, 相机位姿 T_t^{t^{'}}, 相机内参 K 以及可微分双线性采样器, 来变换时间立体图像对合成得到的 [32]. 注意, I_{t^{s}{\rightarrow}t} 中的变换 T_t^{t^{s}} 是已知并恒定的. DepthNet 也利用左图 I_t 预测右图 I_t^{s} 的深度 D_t^{s} , 采用 [27] 提出的方法. D_t^{s}的训练要求合成 I_{t{\rightarrow}t^{s}}, 以及与 I_t^{s}比较. 为了简化, 我们之后将只细节描述关于左图的损失.
通常, 公式化的光度误差表示如下(基于关照一致性假设):
Eq 2
然而, 由于相机的照度变化和自动曝光的 L1 和 SSIM[76]都不是固定不变的, 因此也会违反这一原则. 因此, 我们建议使用预测亮度转换参数来明确地建模相机曝光变化.
亮度转换参数. 相机曝光调整引起的图像强度变化可以用 a,b 两个参数的仿射变换来表示:
Eq 3
虽然这个公式很简单, 但是实践证明它在 direct VO/SLAM 中非常有效[16, 18, 33, 74], 其建立在亮度恒定假设上. 受这些工作的启发, 我们提出预测这个变换的参数 a,b, 用来对齐 I_t 和 I_t^{'} 的亮度条件. 我们将 Eq 1 重写成以下形式:
Eq 4,5
其中 a_{t{\rightarrow}t^{'}} 和 b_{t{\rightarrow}t^{'}} 代表对齐 I_t 和 I_{t^{'}}亮度的变换参数. 这两个参数都可以以自监督的方式训练. 图 3 展示了在 EuRoC MAV[5]上的仿射变换例子.
图 3
光度不确定性仅仅建模仿射亮度变换是不足以涵盖所有违反亮度恒定假设的失败情况的. 其他情况, 如非朗伯曲面和运动物体, 是由相应物体的固有性质引起的, 这些性质对于分析建模来说不是微不足道的 [40]. 因为这些方面可以被看作观测噪声, 我们利用 Kendall 等人提出的深度神经网络的异方差随机不确定性概念. 关键想法是预测每个像素的后验概率分布, 用它关于真实标签 y 的均值和方差 p(y|\widetilde{y},\sigma) 参数化. 举个例子, 假设噪声是 Laplacian 的, 需要最小化的对数似然函数如下:
Eq 6
注意训练时不需要 \ sigma 的真实标签. 预测的不确定度, 使的网络可以依据输入数据调整残差的权重, 从而提升模型对噪声数据以及错误标签的鲁棒性.
这里, 我们设定 "ground_truth" y 是目标图像 (I_t) 上像素值, 对于 I_t 上越强烈违反亮度一致性假设的区域, 网络预测的 \ sigma 越大. 与 [40] 相类似, 我们通过将 Eq 4 转换成以下形式来达成目标:
Eq 7
这里,\Sigma_t 是 I_t 的不确定图. 图 4 展示了在 KITTI 以及 EuRoC 数据集上的预测不确定度图的结果. 下一节, 我们将展示学习得到的 \ Sigma_t 对于 D3VO 中加权光度残差有重要作用.
整个损失函数是自监督损失项和正则化损失项在多尺度图像上的和:
Eq 8 9 10
正则项是关于亮度转换参数以及 D_t 上边缘感知平滑损失 L_{smooth}[27].
总的来说, 我们提出的 DepthNet 使用单张输入图像 I_t 预测 D_t,D_t^{s}以及 \ Sigma_t.PoseNet 利用按通道拼接的输入 (I_t,I_{t^{'}}) 预测 T_t^{t^{'}},a_{t\rightarrow t^{'}} 以及 b_{t\rightarrow t^{'}}.DepthNet 以及 PoseNet 都是遵循 .NET-like 形式的卷积神经网络结构. 请参阅我们提供的补充材料来了解网络架构和实现细节.
3.2 D3VO
在之前的章节, 我们介绍了自监督深度估计网络用来预测深度图 D, 不确定度图 \ Sigma 以及相对位姿 T_t^{t^{'}}. 在本节中, 我们将描述 D3VO 是如何集成这些预测到一个窗口式稀疏光度 BA 范式的, 像 [16] 中提出的那样. 注意, 之后我们使用 \ widetilde{.}的形式来指示预测量.
光度能量 D3VO 的优化目标是最小化一个总的光度误差 E_{photo}, 定义如下:
Eq 11
其中 F 是所有关键帧的集合, P_i 是关键帧 i 中的点集合, obs(p)是关键帧集合, 在其中点 p 是可见的, E_{pj}是 p 投影到关键帧 j 时的加权光度能量项:
Eq 12
其中 N 是像素 p 的 8 领域, 如 [16] 中所定义的, a,b 是两盒非线性优化中的仿射亮度变换参数 [16].||\cdot||_{\gamma} 是 Huber 范数. [16]当图像梯度较大时, 残差被降权处理, 以补偿较小的独立几何噪声. 在实际场景中, 有许多噪声源, 比如反射[40], 这需要建模, 以提供准确和稳健的运动估计. 我们提出使用学到的不确定度 \ widetilde\Sigma 来制定权重函数:
Eq 13
这不仅依赖于局部图像梯度, 而且还依赖于更高水平的噪声模式. 如图 4 所示, 提出的网络能够预测反射区域的高度不确定性, 例如车辆的窗户, 像骑自行车的人一样移动的物体, 以及深度不连续处的物体边界.
重投影点 p^{'}由式 \Pi{(T_i^j \Pi^{-1}(p,d_p))} 确定, 其中 d_p 是点 p 在第 i 个关键帧坐标系下的深度 (Z 轴),\Pi(\cdot) 是关于相机内参的投影变换函数. 不同于传统的单目 direct-SLAM 随机初始化 d_p[16,17], 我们使用式 d_p=\widetilde{D_i}[p]初始化 d_p. 受 [78] 启发, 我们引入 virtual stereo termE_p^{+} 到 Eq 11 中:
Eq 14~17
virtual stereo term 优化了从 VO 估计的深度 d_p, 使其与所提出的深度网络预测的深度一致[78].
位姿能量与传统的 direct-VO 方法 19,23]使用恒定速度运动模型初始化每个新帧的前端跟踪不同, 我们利用连续帧之间的预测位姿来构建非线性因子图 [41,47]. 具体来说, 当最新的关键帧(也是前端跟踪的参考帧) 更新时, 我们创建一个新的因子图. 每一个新帧都参照具有直接图像对齐的参考关键帧进行跟踪 [66]. 此外, 从深度网络预测的相对位姿被用作当前帧和最后帧之间的一个因子. 优化完成后, 我们将最后一帧边缘化, 并将因子图用于后续帧的前端跟踪. 关于因子图的可视化, 请参考我们的支撑材料. 跟踪前端估计得来的姿态, 之后被用于初始化光度 BA 后端. 我们进一步介绍了关键帧相对位姿 T_{i-1}^{i} 的先验, 它使用预测姿势 \ widetilde{T_{i-1}^{i}}. 注意,\widetilde{T_{i-1}^{i}}是通过拼接所有在 i - 1 和 i 的关键帧的预测位姿计算出来的.
Eq 18
其中, Log 变换是李群到李代数的变换, 4x4 变换矩阵 T 到 6 维向量.\Sigma^{-1}_{\widetilde{\xi}_{i-1}^i}是通过在每个连续的帧对之间传播协方差矩阵得来的, 协方差矩阵被建模为一个常数对角矩阵.
总的能量函数被定义为:
Eq 19
在 Eq 19 中包含位姿先验项 E_{pose}可以看作是将预先集成的 IMU 位姿先验以高斯噪声模型集成到系统中的一个类比. 用高斯 - 牛顿法求 E_{total}的最小值. 综上所述, 我们通过将预测的位姿作为初始化引入跟踪前端和优化后端, 并将其作正则项添加到光度 BA 的能量函数中, 从而改进了直接 VO 方法.
四, 实验:
我们在 KITTI 和 EuRoc MAV 数据集上评估了提出的自监督单目深度估计网络以及 D3VO.
4.1 单目深度估计
KITTI 我们在 Eigen at el[15]的数据集上 (应该是 KITTI 的一个子集) 训练和评估了所提出自监督深度估计网络. 网络是在立体图像序列上训练的, 并采用了 Zhou et al. [86]提出的预处理方法, 给予了我们 39810 个 training quadruplets, 每个 quadruplet 包含 3 个 (左) 时间序列图像, 和一个 (右) 立体匹配图像, 其中 4424 个拿来做验证. 表 1 上半部分是与经过立体和单目设置训练的 sota 的单目方法 Monodepth2[26]的比较, 以及所提出的亮度变换预测 (ab) 和光度不确定度估计 (uncer) 的消融研究.
表 1
结果显示我们提出的深度估计网络在所有指标方面都超越了 Monodepth2. 消融研究揭示出, 与 Monodepth2 相比的显著改善主要来自 uncer, 可能是因为在 KITTI 中有许多物体具有非朗伯表面, 如窗户, 也有独立运动的物体, 如汽车和树叶, 这些都违反了亮度恒定假设. 表下半部分显示了与目前最先进的半监督方法的比较, 结果表明我们的方法可以在不使用任何深度监督的情况下获得具有竞争力的性能.
在图 4 中, 我们展示了从 Eigen 测试集 [15] 得到的一些定性结果. 从左至右分别显示原始图像, 深度图和不确定度图. 更多关于 Cityscapses 数据集 [8] 的定性结果和泛化能力, 请参考我们的支撑资料.
图 4
EuRoC MAV EuRoC MAV 数据集 [5] 是一个包含 11 个序列的数据集, 根据光照和摄像机运动分为简单, 中等和困难场景. 这个数据集是非常具有挑战性的, 因为强烈的运动和显着照明变化存在立体和时间序列图像之间. 因此, 我们认为它是一个很好的测试平台, 可以验证我们的深度预测亮度转换参数的有效性. 受 Gordon et al. 的启发,[28]他们最近通过投影提供的 Vicon 3D 扫描并过滤遮挡点, 为序列 V2_01 生成了 ground truth 深度图, 我们也使用这个序列进行深度评估. 我们的第一个实验被设置成与 [28] 一致, 我们用单目设置在 MH(中等难度?)序列训练所有的模型并在 V2_01 上进行测试. 结果展示在表 3 中.
表 2,3
第二个实验, 我们使用 5 个序列 MH 01,MH 02, MH 04, V1 01 和 V1 02 作为训练集来检查我们的方法在一个相对宽松的设置下的性能. 为了训练我们移出了静态帧, 得到 12,691 张图像, 其中 11,422 张用于训练, 1269 张用于验证. 我们用不同的对照训练我们的模型, 并以 Monodepth2[26]作为基线. 表 2 中的结果表明, 我们的所有变化都优于基线, 与在 KITTI 的情况相比, 所提出的 ab 可以显著地改进在该数据集的结果. 请参阅附录, 获得更多关于 ab 的实验情况. 事实上, 值得注意的是表 3 中的结果 (在一个场景 MH 上训练, 在另一个场景 V 上测试) 比在另一个场景中要差, 即表 2(同时在 MH 和 V 上训练), 结果表明在非常不同的场景下, 提高单目深度估计的泛化能力仍然是一个挑战.
4.2 单目 VO
我们评估单独训练的 D3VO 在 KITTI 和 EuRoC MAV 上的 VO 性能.
KITTI Odometry KITTI Benchmark 包含 11(0-10)个序列, 提供了 ground truth 姿态. 如 [78] 所总结的一样, 序列 00,03,04,05,07 属于本网络使用的 Eigen 分割训练集, 因此我们将其余序列作为 D3VO 姿态估计评估的测试集. 我们使用在 [25] 中提出的相对平移 (trel) 误差作为评估的主要指标. 表 4 显示了与其他最先进的单目 (M) 以及立体双目 (S)VO 方法在训练集上的比较. 我们参考[78] 比较方法的结果. 传统的单目方法在大尺度的户外场景如 KITTI 中, 由于尺度的漂移, 显示出很高的误差. D3VO 虽然也是一种单目方法, 但其平均性能最好. 表中还包括了深度 (Dd), 位姿(Dp) 和不确定度 (Du) 的融合研究. 可以注意到, 与表 1 的结果一致, 预测的不确定性对在 KITTI 的性能有很大的帮助. 我们还将测试序列 (11-20) 的结果提交给 KITTI 测程评估服务器(link). 在提交时, D3VO 的性能优于其他版本 DVSO 实现了最好的单目 VO 性能, 可与其他最先进的激光雷达和立体声方法相媲美.
我们进一步将 D3VO 与 sota 的 end-to-end 深度学习方法和其他最近的混合方法进行比较, 结果如表 5 所示.
表 5
注意, 这里我们只显示了 Seq.09 和 10 上的结果, 因为大多数端到端方法只提供了这两个序列上的结果. 我们参考 [28,78,83] 比较方法的结果. D3VO 实现了比所有端到端方法更好的性能. 一般而言, 将深度学习与传统方法相结合的混合方法比端到端方法的效果更好.
EuRoC MAV 如第 4.1 节所述, EuRoC MAV 由于其强烈的运动和显著的光照变化, 对于纯视觉的 VO 来说是非常具有挑战性的. VIO 方法 [44,56,71,72] 通过集成 IMU 测量来预先获得一个姿态或运动, 同时估计绝对尺度, 从而主导这个 benchmark. 我们比较了 D3VO 和其他 sota 的单目 VIO (M+I)以及立体 VIO (S+I)方法, 在 MH_03_medium,MH_05_difficult,V1_03_difficult,V2_02_medium,V2_03_difficult 序列上的结果. 所有其他序列都用于训练. 我们参考了 [9] 中所提到的 M+I 的方法结果. DSO 和 ORB-SLAM 的结果作为基线. 我们还展示了 PoseNet(end-to-end VO)的结果. 对于评估指标, 我们使用绝对轨迹误差 (ATE) 的均方根 (RMS), 在估计值与 ground truth 对齐之后. 结果如表 6 所示, 综合了深度, 位姿和不确定性的深度神经网络的框架, D3VO 显示了高准确性和鲁棒性, 并能够提供与其他的 sota 的 VIO 方法可比的结果, 且只使用一个摄像头. 我们还展示了融合预测深度(Dd), 位姿(Dp) 和不确定性 (Du) 的消融研究, 位姿预测的融合显著提高了 V1_03_difficult 和 V2_03_difficult 的性能, 当摄像机发生剧烈运动时.
图 5 显示了在 MH_03 和 V1_03 序列上, DSO[16],ORB-SLAM[52], 视觉惯性 DSO[72], 我们提出的 end-to-end VO 的预测位姿, D3VO 的轨迹定量比较结果. 5 中方法在 MH_05_difficult 上都表现不错. 然而在 V1_03_difficult 上, 即运动较强, 在时域和立体图像之间存在很多亮度不一致的情况下, 相较于 VI-DSO,D3VO 仍然可以提供可观的结果, 且只使用一个摄像头.
五, 结论:
我们将 D3VO 方法作为一种单目 VO 方法提出, 利用深度网络在三个层次上的预测能力, 综合单目深度, 光度不确定度和相对相机位姿的预测, 提高了几何 VO 方法的性能. 为此, 我们首先引入了一种新的自监督单目深度估计网络, 该网络利用预测亮度变换参数明确地处理训练集的光照变化. 该网络在 KITTI 和 EuRoC MAV 上取得了 sota 的性能. 之后, 将预测的深度, 不确定性和位姿引入直接 VO 管道的前端跟踪和后端非线性优化. 我们系统地评估了两个数据集上 D3VO 的 VO 性能. D3VO 在 KITTI 达到了最新的 sota 性能, 并在具有挑战性的 EuRoC MAV 上实现了 sota 的性能, 可与领先的单目惯性和立体惯性方法相媲美, 且只使用一个摄像头.
来源: https://www.qcloud.com/developer/article/1630229