3D场景感知所需要的技术以及未来发展的方向.doc
《3D场景感知所需要的技术以及未来发展的方向.doc》由会员分享,可在线阅读,更多相关《3D场景感知所需要的技术以及未来发展的方向.doc(5页珍藏版)》请在三一文库上搜索。
1、3D场景感知所需要的技术以及未来发展的方向编者按:本文作者Mihir Garimella和Prathik Naidu是斯坦福大学大二的学生,他们在这篇文章中总结了对3D场景感知所需要的技术以及未来发展的方向。假设你要打造一台自动驾驶汽车,它需要了解周围情况。你会用什么方法让车子感知周围的行人、自行车和其他障碍物呢?也许你会想到用照相机,但是这可能不会很高效:你需要对3D环境进行拍摄,然后将其压缩成2D图像。之后,模型会重建你需要的3D图像信息(例如车辆距前方行人的距离)。将3D图像压缩的过程会丢掉很多重要信息,然而之后想再重新拼凑这些信息是很困难的,即使是最先进的算法也会出错。所以,理想情况下
2、你应该可以用3D数据对2D景观进行优化,可以直接用传感器对前方障碍进行定位,而不是用2D图像估计行人或其他交通工具与你的距离。但是这时又会有新的问题:我们怎么才能在3D数据中识别目标物体呢?例如行人、自行车、汽车等等。传统的CNN会直接在2D图像中辨认不同的物体,然后再在3D中调整。3D感知问题已经研究了很久,这篇文章就是对这一工作进行大致回顾。特别的,我们将重点关注最近能够实现3D物体的分类和语义分割的深度学习技术。我们会从捕捉、表示3D数据的常用方法讲起,之后会展示三种基本的用于表示3D数据的深度学习方法。最后,我们会思考未来研究的新方向。如何捕捉并表示3D数据?很明显,我们需要能直接在3
3、D数据上操作的计算机视觉方法,但是这里有三大难题:感知、表示、理解3D数据。感知捕捉3D数据的过程很复杂,虽然2D相机价格便宜、使用广泛,但是要进行3D感知还需要特殊的硬件设备。立体视觉利用多相机在不同方位进行拍摄来计算深度信息1. 在两个或两个以上的位置放置相机,捕捉不同场景下的目标图像,然后把对应的像素进行匹配,计算不同照片中每个像素的位置有何不同。这也是人类看世界的方法我们的眼睛捕捉两个不同的画面,然后大脑根据左右眼不同角度确定3D场景。立体视觉只需要几个普通相机,设备很简单,因此吸引了很多使用者。但是,这种方法在进行精准测量或计算速度时表现得就不那么好了,因为用视觉细节对图像之间相对的
4、点进行匹配,不仅需要大量计算力,还会造成很多错误。RGB-D相机可以输出一个有四个通道的图像,其中包含了颜色信息和像素深度2. RGB-D是一种特殊的相机,它不仅能捕捉深度信息(D)还能捕捉图像颜色(RGB)。而且它还能捕捉到和2D相机一样的彩色图像。大多数RGB-D传感器是通过“结构光”或“飞行时间”进行工作。你可能听过微软的Kinect或iPhone X的Face ID传感器中包含RGB-D相机,它们很强大,因为这些传感器体积小、成本低、速度快。但是,RGB-D相机经常会在深度输出上出现很多洞,因为前方背景的障碍物遮挡或者模式识别的故障等问题。LIDAR运用几束激光直接感知环境的几何结构3
5、.LIDAR是对目标物体发射高速激光脉冲,并计算它们返回传感器的时间,类似RGB-D相机的“飞行时间”技术,但是LIDAR的探测距离可以更长,能捕捉更多点,不容易受其他光源的干扰。目前大多数自动驾驶汽车使用的也是这类传感器,因为它们精确度高、范围广并且稳定。但是LIDAR通常体积很大、价格昂贵,许多公司正在开发更便宜的LIDAR系统。3D表示获取数据后,你需要用合适的方法表示出来。这里有四种主流的表示方法:从左至右:点云;voxel网格;多边形网格;多角度表示1.点云是在3D空间中点的集合,每个点都由一个坐标(xyz)表示,同时会有其他特征(例如RGB颜色)。它们都是捕捉到的LIDAR数据的原
6、始形式,通常在进行下一步处理之前,立体和RGB-D数据会转化成点云形式。2.Voxel网格由点云演化而来。Voxel就像3D中的像素,我们可以将voxel网格想象成量化的、固定尺寸的点云。尽管点云可以在空间中的任何位置具有无线数量的点与浮点像素坐标,但是voxel网格是3D网格,其中的每个体素(voxel)都有固定的尺寸和独立的坐标。3.多边形网格是一组有共同顶点的多变形表明组成的一个近似几何形状的表面。将点云想象成从连续集合表面采集的3D点的集合,多边网格的目的是用一种容易渲染的方法表示出这些表面。虽然最初是为了计算机图形而创建的,多边形网格也可以用于3D视觉。从点云中获取多边形网格的方法有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 场景 感知 需要 技术 以及 未来 发展 方向
链接地址:https://www.31doc.com/p-3244560.html