基于单目图像的深度估计算法,大幅度提升基于单目图像深度估计的精度.doc
《基于单目图像的深度估计算法,大幅度提升基于单目图像深度估计的精度.doc》由会员分享,可在线阅读,更多相关《基于单目图像的深度估计算法,大幅度提升基于单目图像深度估计的精度.doc(5页珍藏版)》请在三一文库上搜索。
1、基于单目图像的深度估计算法,大幅度提升基于单目图像深度估计的精度基于视觉的自动驾驶系统需要基于单目摄像头获取的图像,判断当前车辆与周围车辆、行人和障碍物的距离,距离判断的精度对自动驾驶系统的安全性有着决定性的影响,商汤科技在CVPR 2018发表亮点报告(Spotlight)论文,提出基于单目图像的深度估计算法,大幅度提升基于单目图像深度估计的精度,进一步提升自动驾驶系统的安全性。该论文由商汤科技见习研究员罗越在研究院研究员任思捷指导下完成。本文为商汤科技CVPR 2018论文解读第5期。简介基于单目图像的深度估计算法具有方便部署、计算成本低等优点,受到了学术界和工业界日益增长的关注。现有的单
2、目深度估计方法通常利用单一视角的图像数据作为输入,直接预测图像中每个像素对应的深度值,这种解决方案导致现有方法通常需要大量的深度标注数据,而这类数据通常需要较高的采集成本。近年来的改进思路主要是在训练过程中引入隐式的几何约束,通过几何变换,使用一侧摄像机图像(以下称右图)监督基于另一侧摄像机图像(以下称左图)预测的深度图,从而减少对数据的依赖。但这类方法在测试过程中仍然缺乏显式的几何约束。为了解决上述问题,本文提出单视图双目匹配模型(Single View Stereo Matching, SVS),该模型把单目深度估计分解为两个子过程,视图合成过程和双目匹配过程,其算法框架如图1所示。图1:
3、单视图双目匹配模型的示意图通过这样的分解,使得提出的模型有如下两个优点:极大地减少深度标注数据的依赖;在测试阶段显式地引入几何约束。实验证明,本文提出的模型仅用少量的深度标注数据就可以在KITTI数据集上超过之前的所有单目深度估计方法,并首次仅靠单目图像数据就超过了双目匹配算法Block Matching的深度估计精度。SVS模型现有基于深度学习的单目深度估计方法,通常把CNN作为黑盒使用,学习图像块至深度值的直接映射,这类方法完全依赖高级语义信息作为预测深度的依据,尽管有些方法在损失函数上引入一些特殊的约束条件,学习这样的语义信息仍然是非常困难的。另一方面,即使这样的映射能够被成功训练,算法
4、通常也需要大量带深度值标签的真实数据,而这类数据的采集成本非常高且耗时,极大的限制了这类技术的适用场景。基于上述分析,本文方法提出了一种新颖的面向单目深度估计的算法框架,把单目深度估计分解为两个过程,即视图合成过程和双目匹配过程。模型的主要设计思路在于:把双目深度估计模型中有效的几何约束显式地结合到单目深度估计模型中,提高模型的可解释性;减少使用难以采集的真实深度数据,从而扩大模型的适用范围;整个模型以端到端的的方式训练,从而提升深度估计准确性。模型的视图合成过程由视图合成网络完成,输入一张左图,网络合成该图像对应的右图;而双目匹配过程由双目匹配网络完成,接收左图以及合成的右图,预测出左图每一
5、个像素的视差值,详细的网络结构(如图2所示)。图2:算法网络结构图上半部分网络对应视图合成网络下半部分网络对应双目匹配网络视图合成网络:一般情况下,左图中的像素均可以在右图中找到匹配的像素,因此可以首先把左图平移多个不同像素距离,得到多张不同的图片,再使用神经网络预测组合系数,把多张平移后的左图和预测的系数组合得到预测的右图。具体地,视图合成网络基于Deep3D 1 模型,图2 中的上半部分展示了视图合成网络的示意图。输入一张左图,首先主干网络对其提取不同尺度的特征,再经过上采样层把不同尺度的特征统一至同一个尺寸,然后经过累加操作融合成输出特征并预测出概率视差图,最后经过选择模块(select
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 图像 深度 估计 算法 大幅度 提升 精度
链接地址:https://www.31doc.com/p-3417132.html