Abstract
本文首次提出了第一个主动双目视觉系统的深度学习解决方案 ActiveStereoNet. 由于缺乏 ground truth, 本文采用了完全自监督的方法, 即使如此, 本方法也产生了 1/30 亚像素精度的深度数据. 它克服了过度平滑的问题, 保留了边缘, 并且能有效处理遮挡. 在本文中, 引入了一种对噪声, 无纹理区域和光照更加鲁棒的新的重建损失, 它使用基于窗口的自适应支持权重的成本聚合来进行优化. 这种成本聚合函数能够保留边缘并且使损失函数平滑, 是使模型达到惊人结果的关键. 最后, 本文展示了如何在没有 ground truth 下对无效的区域, 遮挡区域的预测进行 end-to-end 的训练. 这部分对减少模糊和改善预测数据的连续性至关重要.
Introduction
深度传感器 (Depth sensors) 为许多难题提供了额外的 3D 信息, 如非刚性重构 (non-rigid reconstruction), 动作识别和参数跟踪, 从而给计算机视觉带来了革新. 虽然深度传感器技术有许多类型, 但它们都有明显的局限性. 例如, 飞行时间系统(Time of flight systems) 容易遭受运动伪影和多路径的干扰, 结构光 (structured light ) 容易受到环境光照和多设备干扰. 在没有纹理的区域, 需要昂贵的全局优化技术, 特别是在传统的非学习方法中, passive stereo 很难实现.
主动双目立体视觉 (Active stereo) 提供了一种潜在的解决方案: 使用一对红外立体相机, 使用一个伪随机模式, 通过图案化的红外光源对场景进行纹理化(如图 1 所示). 通过合理选择传感波长, 相机对捕获主动照明和被动光线的组合, 提高了结构光的质量, 同时在室内和室外场景中提供了强大的解决方案. 虽然这项技术几十年前就提出了, 但直到最近才出现在商业产品中. 因此, 从主动双目立体图像中推断深度的先前工作相对较少, 并且尚未获得大规模的 ground truth 训练数据.
在主动双目立体成像系统中必须解决几个问题. 有些问题是所有的双目系统问题共有的, 例如, 必须避免匹配被遮挡的像素, 这会导致过度平滑, 边缘变厚和 / 或轮廓边缘附近出现飞行像素. 但是, 其他一些问题是主动双目系统特有的, 例如, 它必须处理非常高分辨率的图像来匹配投影仪产生的高频模式; 它必须避免由于这些高频模式的其他排列而产生的许多局部最小值; 而且它还必须补偿附近和远处表面投影图案之间的亮度差异. 此外, 它不能接受 ground truth 深度的大型主动双目数据集的监督, 因为没有可用的数据.
在这篇论文中, 我们第一个提出了针对主动立体视觉系统的端到端深度学习方案. 首先, 本文提出了一种基于局部对比度归一化 (local contrast normalization) 的新的重建损耗, 其从被动 IR 图像中去除低频分量并且局部地重新校准有源图像的强度以解决有源立体视觉系统中能量随距离的衰落的问题. 第二, 我们提出了一种基于窗口的损耗聚合, 其中每个像素具有自适应权重, 以增加其可辨识性并降低立体对成本函数中局部最小值的影响. 最后, 我们检测图像中的遮挡像素, 并从损失计算中忽略它们. 这些新特性为训练期间的提高了收敛速度, 并在测试时提高了预测的精度. 大量实验表明, 我们使用这些想法进行训练的网络优于以往有关主动立体匹配的研究.
Method
现在来介绍 ActiveStereoNet 的网络结构和主要训练过程. 算法的输入是一对矫正过的同步采集的 IR 图像, 输出是一对同原始分辨率的视差图像. 在本实验中采用 1280*720 的图像. 相机的焦距? 和两个相机间的基线? 假设已知. 因此, 深度的预测问题转化为了同一扫描线上的视差问题. 给定视差 ?, 则深度是 Z=bf/d. 因为缺乏 ground truth 数据, 本算的主要挑战是在没有直接监督的情况下, 训练一个对遮挡和光照变化鲁棒的端对端网络. 下面是算法细节:
Network Architecture
现在, 在大部分视觉任务中, 网络结构的选择和设计是最重要的, 需要花费大量的精力. 但是在本文中, 最重要的问题是训练一个给定的网络结构, 特别是, 因为是无监督的网络, 设计一个好的损失函数对总体的精度影响最大. 因此, 在本文中采用了谷歌另一篇论文 StereoNet 的网络结构, 这个结构在被动的双目视觉系统中有很好的表现. 而且, 该结构在高配 GPU 下能对全分辨图像做到 60HZ, 能达到实时性的要求.
---------------------
来源: http://www.bubuko.com/infodetail-2966846.html