三种不同的3D数据表示的基本深度学习方法.doc
《三种不同的3D数据表示的基本深度学习方法.doc》由会员分享,可在线阅读,更多相关《三种不同的3D数据表示的基本深度学习方法.doc(9页珍藏版)》请在三一文库上搜索。
1、三种不同的3D数据表示的基本深度学习方法导读:我们将专注于最近的深度学习技术,这些技术支持3D对象分类和语义分割。我们将首先回顾一些有关捕获和表示3D数据的常用方法的背景信息。然后,我们将描述三种不同的3D数据表示的基本深度学习方法。最后,我们将描述有前途的新研究方向,并总结我们对该领域前进方向的看法。假设你正在建造一辆需要了解周围环境的自动驾驶汽车。为了能够感知行人、骑自行车的人和周围的其他车辆以便安全行驶,你将如何设计你的汽车?你可以使用相机,但这似乎并不特别有效,因为相机拍出来的照片是2D的,而你只能将3D“挤压”为从相机捕获的2D图像,然后你尝试从2D图像信息(比如到你前面的行人或汽车
2、的距离)中恢复实际的3D环境信息。通过将3D环境压缩到2D图像,你将丢弃对你最重要的许多信息。尝试将这些信息重新组合在一起很困难,即使对于最先进的算法,也容易出错。相反,最好是能够使用3D数据扩充你的2D世界视图。你可以直接通过传感器找到这些物体,而不是尝试估算2D图像与行人或其他车辆的距离。但现在感知这一部分是比较困难的。你如何在3D数据中真正识别人?如骑自行车的人和汽车等物体。传统的深度学习技术,如卷积神经网络(CNN),可以使这些物体在2D图像中直接识别,需要适应3D工作。幸运的是,在过去的几年里,人们已经对3D中的感知问题进行了相当多的研究,我们在本文中的任务是简要概述这项工作。特别是
3、,我们将专注于最近的深度学习技术,这些技术支持3D对象分类和语义分割。我们将首先回顾一些有关捕获和表示3D数据的常用方法的背景信息。然后,我们将描述三种不同的3D数据表示的基本深度学习方法。最后,我们将描述有前途的新研究方向,并总结我们对该领域前进方向的看法。我们如何捕获和表示3D数据?很明显,我们需要能够直接在3D中运行的计算机视觉方法,但这提出了三个明显的挑战:感知,表示和理解3D数据。感知捕获3D数据的过程很复杂。虽然2D相机便宜且广泛,但3D感测通常需要专门的硬件设置。立体视觉利用多台摄像机,通过测量被感知物体位置的变化来计算深度信息(来源:爱丁堡大学)1、立体视觉将两个或以上摄像机相
4、对于彼此固定在特定位置,并使用此设置捕获场景的不同图像,匹配相应的像素,并计算每个像素在图像之间的位置差异以计算其在3D空间中的位置。这大致是人类感知世界的方式 - 我们的眼睛捕捉到现实世界中两个独立的“图像”,然后我们的大脑会看到物体的位置在我们的左眼和右眼之间的位置如何不同以确定其3D位置。立体视觉很有吸引力,因为它涉及的硬件很简单 - 只有两个或以上普通相机。然而,在精度或速度很重要的应用中,这种方法并不是很好。RGB-D相机输出包含颜色信息和每像素深度的四通道图像(来源:九州大学)2、RGB-D涉及使用除了彩色图像(“RGB”)之外还捕获深度信息(“D”)的特殊类型的相机。具体来说,它
5、捕获了从普通2D相机获得的相同类型的彩色图像,但是,对于某些像素子集,它还会告诉你相机前面的距离。在内部,大多数RGB-D传感器通过“结构光”进行工作,该结构光将红外图案投射到场景上并感知该图案如何扭曲到几何表面上,或者“飞行时间”,其观察投射的红外光多长时间需要返回相机。你可能听说过的一些RGB-d相机包括微软Kinect和iPhone X的面部识别传感器。RGB-D很棒,因为这些传感器相对较小且成本较低,却很快速且不受视觉匹配误差的影响。然而,由于遮挡(前景中的物体阻挡投影到其后面的物体上),RGB-D相机的深度输出通常会有许多孔,图案感应失败和范围问题(投影和感应都变得难以远离相机)。L
6、IDAR使用多个激光束(同心圆感应)直接感知环境的几何结构(来源:Giphy)3、LiDAR涉及在物体上发射快速激光脉冲并测量它们返回传感器所花费的时间。这类似于我们上面描述的RGB-D相机的“飞行时间”技术,但是LiDAR具有明显更长的距离,捕获更多的点,并且对来自其他光源的干扰更加具有鲁棒性。如今,大多数3D LiDAR传感器都是多线(最多64线)光束垂直对齐、可以快速旋转,以便在传感器周围的所有方向上看到。这些是大多数自动驾驶汽车中使用的传感器,因为它们的精度、范围和坚固性,但是LiDAR传感器的问题在于它们通常很大,很重且非常昂贵(64光束传感器)大多数自动驾驶汽车的使用成本为75,0
7、00美元)。其结果是,许多公司正在努力开发更便宜的“固态激光雷达”系统,可以在3D感知,而不必旋转。3D表示一旦捕获了3D数据,你需要以一种有意义的方式表示它,作为您正在构建的处理管道的输入。您应该知道四种主要表示形式:3D数据的不同表示。(a)点云(来源:Caltech),(b)体素网格(来源:IIT Kharagpur),(c)三角网格(来源:UW),(d)多视图表示(来源:斯坦福)a、点云只是3D空间中点的集合;每个点由(xyz)位置指定,可与一些其他属性(如rgb颜色)一起指定。它们是捕获LiDAR数据的原始形式,立体和RGB-D数据(由标记为每像素深度值的图像组成)通常在进一步处理之
8、前转换为点云。b、体素网格源自点云。“体素”就像3D中的像素;将体素网格视为量化的固定大小的点云。虽然点云可以在空间中的任何位置具有无限数量的点与浮点像素坐标,但是体素网格是3D网格,其中每个单元格或“体素”具有固定大小和离散坐标。c、多边形网格由一组多边形面组成,这些面具有接近几何表面的共享顶点。将点云视为来自底层连续几何表面的采样3D点的集合;多边形网格旨在以易于渲染的方式表示那些底层表面。虽然最初是为计算机图形创建的,但多边形网格也可用于3D视觉。有几种方法可以从点云中获得多边形网格,包括Kazhdan等人的泊松曲面重构。d、多视图表示是从不同的模拟视点(“虚拟相机”)捕获的渲染多边形网
9、格的2D图像的集合,以便以简单的方式传达3D几何。简单地从多个摄像机(如立体声)捕获图像和构建多视图表示之间的区别在于多视图需要实际构建完整的3D模型并从几个任意视点渲染它以完全传达底层几何。与上面用于存储和处理3D数据的其他三种表示不同,多视图表示通常仅用于将3D数据转换为用于处理或可视化的简单格式。理解既然已经将3D数据转换为易于理解的格式,那么你就需要构建一个计算机视觉管道来理解它。这里的问题是,根据数据的表示,扩展在2D图像(如CNN)上运行良好的传统深度学习技术可能很难处理,使得诸如对象检测或分段之类的传统任务具有挑战性。学习多视图输入使用3D数据的多视图表示是使2D深度学习技术适应
10、3D的最简单方法。这是将3D感知问题转换为2D感知问题的一种聪明方式,但仍然允许您推断对象的3D几何结构。使用这种想法的早期基于深度学习的工作是Su等人的多视图CNN一种简单而有效的架构,可以从3D对象的多个2D视图中学习特征描述符。与将单个2D图像用于对象分类任务相比,该方法实现了该方法,提高了性能。这是通过将单个图像输入到在ImageNet上预训练的VGG网络来实现的,以便提取显着特征,汇集这些产生的激活图,并将该信息传递到附加的卷积层以进行进一步的特征学习。多视图CNN架构但是,多视图图像表示具有许多限制。主要问题是你并没有真正学习3D -固定数量的2D视图仍然只是底层3D结构的不完美近
11、似。因此,由于从2D图像获得的有限特征信息,诸如语义分割之类的任务(尤其是在更复杂的对象和场景上)的任务变得具有挑战性。此外,这种可视化3D数据的形式对于计算受限的任务(如自动驾驶和虚拟现实)而言不可扩展 - 请记住,生成多视图表示需要渲染完整的3D模型并模拟多个任意视点。最终,多视图学习面临许多缺点,这些缺点促使研究直接从3D数据学习的方法。学习体积表示法使用体素网格进行学习可以解决多视图表示的主要缺点。体素网格弥合了2D和3D视觉之间的差距- 它们是最接近图像的3D表示,使得将2D深度学习概念(如卷积算子)与3D相匹配变得相对容易。Maturana和Scherer的VoxNet是第一个在给
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 不同 数据 表示 基本 深度 学习方法
链接地址:https://www.31doc.com/p-3365900.html