一些用于图像分割的主要技术及其背后的简单思路.doc
《一些用于图像分割的主要技术及其背后的简单思路.doc》由会员分享,可在线阅读,更多相关《一些用于图像分割的主要技术及其背后的简单思路.doc(8页珍藏版)》请在三一文库上搜索。
1、一些用于图像分割的主要技术及其背后的简单思路在计算机视觉领域,图像分割指的是为图像中的每个像素分配一个标签的任务,它也可以被看作是dense prediction task,对图像中每个像素进行分类。和使用矩形候选框的目标检测不同,图像分割需要精确到像素级位置,因此它在医学分析、卫星图像物体检测、虹膜识别和自动驾驶汽车等任务中起着非常重要的作用。随着深度学习的不断发展,近年来图像分割技术也在速度和准确率上迎来了一次次突破。现在,我们能在几分之一秒内完成分割,同时保证极高的准确性。在这篇文章中,我们将介绍一些用于图像分割的主要技术及其背后的简单思路。我们将从最基础的语义分割(semantic s
2、egmentation)开始,慢慢进阶到更复杂的实例分割(instance segmentation)。目标检测、语义分割和实例分割语义分割语义图像分割是为图像中的每个像素分配语义类别标签的任务,它不分割对象实例。现在,处理这类任务的主流方法是FCN及其衍生,所以我们先从FCN看起。全卷积网络(FCN)FCN架构创建FCN的方法很简单,我们只需把CNN里的所有全连接层替换成宽高11的卷积层,这时卷积层的filter数量等于全连接层的神经元(输出)数量,所有层都是卷积层,故称全卷积网络。之所以要这么做,是因为每个像素的空间位置对于分割来说都很重要,而卷积层能分类全连接层无法处理的单个像素。作为处
3、理结果,神经网络较高层中的位置会对应于它们路径连接的图像中的位置,即它们的感受野。如上图所示,FCN的架构非常简单,主要由编码器CNN(以VGG为例)构成,只不过其中和分类网络对应的最后三层被改成了(4096,1,1)(4096,1,1)(N+1,1,1)的卷积层(N表示类别数量)。编码器后是一个解码器网络,它只包含一个反向的卷积层(也称为转置卷积transposed convolution或反卷积deconvolution)。它的输出与输入图像具有相同的空间维度,并具有N+1个通道,每个通道预测一个类别。反向的卷积操作仍以VGG为例,由于前面采样部分过大,有时候会导致后面进行反向卷积操作得到
4、的结果分辨率较低,会出现细节丢失等问题。为此,FCN的解决方法是叠加第三、四、五层池化层的特征,以生成更精准的边界分割。如下图所示:需要注意的一点是,在进行上采样之前,所有池化特征都会先通过(N+1,1,1)这个卷积层。FCN分割效果U-NETU-NET架构U-NET常被用于生物医学图像分割,它遵循了FCN的编码器-解码器结构,不使用任何全连接层。如上图所示,常规情况下,U-NET的编码器是一个包含10个卷积层的CNN,中间包含最大池化层(红色箭头)。它的解码器会对feature map进行多次上采样和卷积,目的是为了提取更高效、更抽象的特征。得到heatmap后,U-NET最后再用11的卷积
5、层做分类,也就是说解码器一共有13层,整个架构总共由23层可学习的卷积层组成。为什么要做上采样?答:池化层会丢失图像信息和降低图像分辨率且是不可逆的操作,对图像分割任务有一些影响。上采样可以补足一些图片的信息,但是信息补充的肯定不完全,所以还需要与左边的分辨率比较高的图片相连接起来(直接复制过来再裁剪到与上采样图片一样大小),这就相当于在高分辨率和更抽象特征当中做一个折衷,因为随着卷积次数增多,提取的特征也更加有效,更加抽象。jianyuchen23SEGNETSegNet架构SegNet的全称是“用于图像分割的深度卷积编码器-解码器架构”,事实上,大多数语义分割方法都遵循这种基本架构,它们的
6、编码器都是用VGG16,解码器都仿照U-NET多次上采样后再卷积。但是,SegNet有自己独到的特点:上采样是不可学习的解码器使用和编码器相同的卷积(filter大小和相应层的通道数量)SegNet中的上采样是一种反向最大池化操作。为了补足图像信息,U-NET会对编码阶段的特征做通道降维,再把它和特征反向卷积后得到上采样进行相加,这一过程需要学习。而SegNet采用的方法是记录下编码阶段的最大池化index,比如在某层移动22的最大池化窗口时最高值像素的位置,然后把这个index用于解码阶段的上采样。空白的像素值用0填充:SegNet上采样在这个稀疏feature map进行正常卷积后,我们就
7、能得到密集feature map。因此相比较FCN,SegNet的内存利用率更高,计算效率也更高。需要注意的是,一般来说,解码器每一层的输入通道数和feature map大小都与其对应的编码器相同,但第一层不是。编码器的第一层都3个输入通道(RGB),但解码器第一层有更多通道,这是为了给每个类别生成分割掩膜。用SegNet进行道路场景分割实例分割所谓实例分割,指的就是结合了语义分割和分类的任务。它在本质上更复杂,因为为了区分同一类的不同实例,我们往往需要为每个独立对象创建单独的、缩小的掩膜,然后再把它的大小调整为输入图像中对象的大小。下面是实例分割的一些常用方法。DEEPMASKDeepMas
8、k架构DeepMask是FAIR于2015年提出的一种实例分割方法,输入一张图片后,它能为子图像块(image patch)中的对象生成5656的分割掩膜,并以掩膜为中心进行分类。对于图像的子图像块,它有两个约束:子图像块中必须包含一个大致居中的对象这个对象必须被完整包含在子图像块中,且在给定的比例范围内由于DeepMask一次只能为子图像块分割一个对象,当它处理包含复杂、重复对象的图像时,它会在多个位置以多个比例密集应用。鉴于以上两个约束条件,这是可以理解的,也是必要的。整个模型由VGG-A构成,它保留了两个全连接层,但删去了最后一个最大池化层,共有8个卷积层和4个池化层。模型输出的下采样因
9、子为16,共有2个输出,一是子图像块对应物体的一个掩膜,二是这个子图像块包含一个物体的得分。DeepMask分割效果Multi-task Network Cascades(MNC)MNC架构,右上为简化原理图MNC不直接进行实例分割,它把这个任务分成了三个更小、更简单的子任务:区分实例。这个子任务的目标是为每个实例预测候选框和候选框是否包含对象的概率;估计掩膜。这个子任务的目标是预测对象的像素级掩膜;对对象进行分类。这个子任务的目标是为每个掩膜级实例预测类别标签。这三个子任务不是并行执行的,它们要按照顺序一个个完成,这也是MNC的全称“多任务网络级联”的原因。模型用移除了所有全连接层的VGG-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一些 用于 图像 分割 主要 技术 及其 背后 简单 思路
链接地址:https://www.31doc.com/p-3362024.html