基于D-AlexNet和多特征映射的交通场景语义分割方法.doc
《基于D-AlexNet和多特征映射的交通场景语义分割方法.doc》由会员分享,可在线阅读,更多相关《基于D-AlexNet和多特征映射的交通场景语义分割方法.doc(7页珍藏版)》请在三一文库上搜索。
1、基于D-AlexNet和多特征映射的交通场景语义分割方法.介绍交通场景分割是智能车辆在检测障碍物、规划路径和自主导航中的基本任务。语义分割,也称为图像分析或图像理解1,旨在将图像划分为预定义的非重叠区域并将其转换为抽象语义信息。近年来,随着计算机硬件特别是图形处理单元(GPU)的快速发展,大规模标记数据的出现,深度卷积神经网络(CNNs)在图像分类和目标检测中的应用迅速发展,并已成为当前主流的图像分割方法。最近,大多数研究都致力于通过使网络更深更广来提高语义分割的准确性。然而,增加参数往往以牺牲计算机的内存为代价,并导致网络速度较慢。因此,如何在保证实时功能的前提下提高准确性是深度学习中最重要
2、的任务之一。深度传感器的出现使得可以获得深度信息,其包含比RGB图像更多的位置信息。将深度图应用于图像语义分割有两种方法:一种是将原始深度图像和RGB图像组合成四通道RGB-D图像作为CNN输入2 - 4;另一种是将包含更丰富深度信息和RGB图像的图像分别输入到两个CNN中5 - 7。具体地,借助于关于深度图像中提供的对象关系的丰富信息,两种方法都可以实现比仅使用RGB图像更好的性能。但是,将数据输入两个CNN会增加导致网络速度变慢的参数数量。因此,在本文中,为了提高精度,将视差、高度和角度图(DHA)与RGB图像融合成6通道RGB-DHA图并直接用作输入数据。本文着重于构建一个性能良好的快速
3、功能语义分割网络,特别是对于驾驶员更关心的道路目标。因此,提出了一种新的网络架构,然后添加深度图及其导出的高度和范数角度图来训练网络以获得更高的精度。主要工作如下:一个名为D-AlexNet网络的完全卷积神经网络是基于AlexNet 8开发的,它具有一个包含多个卷积层的简单结构,以提高网络的前向速度。D-AlexNet实现2.2x +参考加速,并将参数减少39倍以上。6通道RGB-DHA地图可以在语义分割中获得比仅使用RGB图像作为输入更好的结果,尤其是用于识别交通场景中的道路目标,例如行人和汽车。. 相关工作A.RGB语义分割完全卷积网络(FCN)9用卷积层替换传统神经网络的最后一个完全连接
4、层,这为FCN应用于语义分割奠定了基础。由L.C.Chen等人提出的Deeplab 10通过使用孔算法减小步幅和条件随机场来微调网络获得了更好的结果。 SegNet 11,12通过使用编码器 - 解码器结构从较高层恢复具有来自较低层的空间信息的特征图来实现像素级语义分割。在13,14中,使用多尺度特征集合来提高性能。 PSPNet 15通过聚合上下文信息来完成预测。在现有硬件上实时执行分段。一些方法已被用于加速网络。 SegNet 12通过减少网络中的层数来提高前向速度。 A. Chaurasia等。 16直接将编码器块链接到相应的解码器以减少处理时间。 Z. Hengshuang等17 提出
5、了基于压缩PSPNet的图像级联网络,该网络在适当的标签指导下包含多分辨率分支,以产生实时推断。B.具有深度信息的语义分割与单个RGB图像相比,深度图包含更多位置信息,这有利于语义分割。在18中,原始深度图像被简单地视为单通道图像,然后应用CNN来提取室内语义分割的特征。在5中,深度信息被用作三个通道:水平视差、地面高度和范数角。Qi等人 19提出了一个3D图形神经网络(3DGNN),它建立了k-最近邻图,并最终提升了预测。上述工作证明,使用更多特征信息作为训练网络的输入有助于提高语义分割的准确性。III.网络体系结构一般而言,使用更深层的网络结构将得到更好的语义分割,尽管它通常以牺牲具有许多
6、训练参数和更长的运行时间为代价,这不能满足智能驾驶的实时要求。为了直观地解决这个问题,我们认为减少网络参数和简化网络模型可以加速网络,而且,添加深度信息可以提高网络性能。由AlexNet 8和N. Hyeonwoo 20提出的基于VGG16网络的编码器 - 解码器网络架构的推动,我们提出的深度完全卷积神经网络架构如图1所示,包括11个卷积层、3个汇集层、3个上采样层和1个softmax层。在新的网络结构中,AlexNet通过以下方式进行修改,使其适用于像素级语义分段任务:为了使网络适应不同大小的图像,删除了AlexNet的完整连接层。然后,第一卷积层的步幅从4变为1,最大汇集层的内核大小从33
7、变为22。实验结果表明,卷积层中包结构的存在不能提高最终语义分割的准确性。因此,我们删除了第二、第四和第五卷积数据包并删除了两个LRN层。内部协变量的存在将增加深度网络训练的难度。 本文在每个卷积层和ReLU层之间添加了批量归一化层来解决这个问题。所有卷积层的卷积核被统一为33大小,卷积核输出的数量为96。参考Z.D.Matthew等人使用的上采样方法21,我们在汇集过程中记录每个汇集窗口的最大特征值位置,并将其置于上采样过程中的相应位置。解码器是编码器的镜像结构,除了其内核大小为11的第六个卷积层。解码器网络的输出是K个特征映射,然后将其馈送到softmax层以产生K通道类概率图,其中K是类
8、的数量。分割的结果是图像的每个像素对应于具有最大预测概率的类。.多特征地图与使用原始深度信息学习深度网络相比,DHA图像可以包含更丰富的图像特征信息。该过程包括以下步骤。A.水平视差图从Cityscapes数据集获得的左图像和右图像可用于生成具有立体匹配算法的视差图。根据匹配程度,立体视觉匹配算法可以分为三类:局部匹配算法、半全局匹配算法和全局匹配算法。全局匹配算法获得最高的匹配精度和最差的实时性能。局部匹配算法是最快的,但其匹配精度非常低。图1. D-AlexNet网络的结构半全局匹配算法可以更好地匹配精度和实时计算需求,因此本文选择此方法来获取视差图。M. Dongbo 22提出的边缘保持
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 AlexNet 特征 映射 交通 场景 语义 分割 方法
链接地址:https://www.31doc.com/p-3409753.html