CNN可视化理解的最新综述.doc
《CNN可视化理解的最新综述.doc》由会员分享,可在线阅读,更多相关《CNN可视化理解的最新综述.doc(13页珍藏版)》请在三一文库上搜索。
1、CNN可视化理解的最新综述深度学习一直被看做是一个难以解释的“黑匣子”。一方面在于其缺乏数学上的优雅,缺乏基础理论的支撑,另一方面在工程上缺乏解释性,其潜在的安全隐患一直为人们所诟病。因此,如何更好地对 CNN 进行可视化理解一直是学术界和工业界关注的重点。本文为 CNN 可视化理解的最新综述,将重点内容摘选如下。目前,学术界已经提出了很多和 CNN 可视化相关的工作,在早期的研究阶段,可视化主要集中在低层特征。 随着 CNN 的快速发展和实施,可视化已经扩展到解释 CNN 的整体工作机制。这些工作主要是从网络结构,算法实施和语义概念的角度来对其进行解释。这其中几种代表性的方法有:1、Erha
2、n 等人提出 Activation Maximization 来对传统的浅层网络进行解释。后来,Simonyan 等人通过将单个 CNN 神经元的最大激活可视化合成一个输入图像模式( input image pattern ),进一步改进了这种方法。后续出现了很多工作都是基于这种方法,再利用不同的正则项进行扩展,以提高合成图像模式的可解释性。2、Mahendran 等人提出了 Network Inversion 重建基于多个神经元激活的输入图像,以此说明每个 CNN 层学习到的综合特征图,揭示了 CNN 网络在网络层层面的内部特征。Network Inversion 根据特定层的特征图中的原始
3、图像重建输入图像,这可以揭示该图层所保存的图像信息。3、没有选择对输入图像进行重建以实现特征可视化,Zeiler 等人提出了基于反卷积神经网络的可视化方法(Deconvolutional Neural Network based Visualization,DeconvNet),该方法利用 DeconvNet 框架将特征图直接映射到图像维度,利用反卷积 CNN 结构(由反卷积层和反卷积层组成)在特定神经元激活的原始输入图像中查找图像模式。通过直接映射, DeconvNet 可以突出显示输入图像中的哪些模式激活特定神经元,从而直接链接神经元和输入数据的含义。4、周博磊等人提出了 Network
4、Dissection based Visualization,它从语义层面对 CNN 进行了解释。通过引用异构图像数据集Borden,Network Dissection 可以有效地将输入图像分割为多个具有各种语义定义的部分,可以匹配六种语义概念(例如场景,目标,部件,材质,纹理和颜色)。由于语义直接代表了特征的含义,神经元的可解释性可以显著提高。下面,我们将详细对这四种代表性的方法进行介绍。通过 Activation Maximization 进行可视化Activation Maximization(AM)的提出是为了可视化每层神经网络中的神经元的首选输入。首选输入可以指示神经元已经学习到的
5、特征。这些学到的特征将由一个可以引起神经元激活最大化的综合输入模式表示。为了合成这样的输入模式,CNN 输入的每个像素都将被迭代地改变以最大化神经元的激活。AM 背后的想法很直观,其基本的算法也早在 2009 年就已经被 Erhan 等人提了出来。他们将 Deep Belief Net 中隐藏神经元的首选输入模式和 MNIST 数字数据集中学习到的 Stacked Denoising Auto-Encoder 进行了可视化。后来,Simonyan 等人利用这种方法最大化了输出层 CNN 神经元的激活。Google也为他们的 Inception Network 合成了类似的可视化模式。 Yosi
6、nksi 等人进一步将 AM 用于大规模应用,可以将 CNN 各层的任意神经元可视化。 最近,很多优化工作都在这个想法的基础上开展,以提高可视化模式的可解释性和多样性。 通过所有这些工作,AM 已经显示出很好的解释神经元首选性的能力,并确定了 CNN 学到的层次特征。输入层网络可视化通过 AM 对 CaffeNet 的输入层网络进行可视化(a)图显示了四个不同神经元合成的不同模式的可视化结果;(b)图显示了通过 AM 和直接映射方法合成的可视化模式。正如我们所看到的,大多数由 AM 合成的可视化模式与相应的直接映射模式几乎相同。可视化的模式可以分为两组:1)彩色模式代表对应的神经元对待测图像中
7、的颜色分量非常敏感;2)黑白模式指代表该部分神经元对形状信息非常敏感。另外,通过与直接映射方法的比较,AM 可以准确地揭示每个神经元的首选输入。这一有趣的发现揭示了 CNN 试图模仿人类视觉皮层系统的机制,即底层视觉区域中的神经元对基本模式(如颜色,边缘和线条)更敏感。隐藏层网络可视化通过 AM 对 CaffeNet 的隐藏层网络进行可视化从图中我们可以看到,每行中从第二卷积层(CL 2)到第二全连接层(FL 2)的 6 个隐藏层的可视化。我们随机选取了每层中的几个神经元作为我们的 AM 测试目标。可以观察到:1)一些重要的模式是可见的,例如边缘(CL2-4),脸部(CL4-1),轮子(CL4
8、-2),瓶子(CL5-1),眼睛(CL5 -2)等,它们展示了神经元学习到的丰富特征。2)同时,即使应用了多种正则化方法,也并非所有的可视化模式都是可解释的。3)可视化模式的复杂性和变化从低层到高层逐渐增加,这表明神经元学习到了越来越多的不变特征。4)从 CL 5 到 FL,我们可以发现有一个较大的模式变化增量,这可能表明 FL 层对特征有更全面的评估能力。输出层网络可视化通过 AM 对 CaffeNet 的输出层网络进行可视化上图展示了 AM 和 DGNAM 对五种物品在 FL3 中合成的可视化模式。对第一行 AM 的效果,尽管我们可以猜出可视化模式代表的是哪一类,但在每个可视化图案中都有多
9、个重复和模糊的物体,例如第三列(AM-3)中的三个口红,并且图像远没有照片逼真。对于第二行所示的 DGN-AM,通过利用生成器网络,DGN-AM 从颜色和纹理方面大大提高了图像质量。这是因为全连接层包含了来自图像所有区域的信息,并且生成器网络对实际可视化提供了一个强偏置。通过输出层可视化,我们可以清楚地看到哪些目标组合可能会影响 CNN 分类的决策。例如,如果 CNN 将人手中持有的手机图像分类为手机,我们其实不清楚这个分类决策是不是受到了人手的影响。通过可视化,我们可以看到手机这一类别中有手机和人手。 可视化表明 CNN 已经学会了在一幅图像中检测到两个目标信息。小结作为最直观的可视化方法,
10、AM 方法显示出 CNN 可以学习在无需手工指定的情况下检测出重要的特征,例如脸部,轮子和瓶子。与此同时,CNN 试图模仿视觉皮层的层级组织,并进而成功地构建了层级特征提取机制。此外,这种可视化方法表明,单个神经元会以更局部的方式提取特征而不是分布式,并且每个神经元都对应于特定的模式。通过反卷积网络(Deconvolutional Network)进行可视化从给定的输入图像中找出激活卷积图层中特定神经元的选择性模式。Activation Maximization 从神经元的角度解释了 CNN,而基于 CNN 的 Deconvolutional Network(DeconvNet)则是从输入图像
11、的角度解释了 CNN。它从输入图像中找出激活卷积层中特定神经元的选择性模式。通过将低维神经元的特征图到图像维度来重构图案。该映射过程由 DeconvNet 结构实现,DeconvNet 结构通过反卷积层和反池化层,执行卷积层和池化层的反向计算。 基于 DeconvNet 的可视化并不是纯粹分析神经元首选特征,而是在图像层次上进行一个更为直接的特征分析。DeconvNet 结构的研究主要由 Zeiler 等人主导。他们首先提出了 DeconvNet 结构,旨在通过将高度多样化的低维特征图映射到高维来捕获重建自然图像的某些一般特征。后来他们利用 DeconvNet 结构分层次分解图像,从而可捕捉到
12、从低级边缘到高级目标部分所有尺度的图像信息。最终,他们通过解释 CNN 隐藏特征应用 DeconvNet 结构进行 CNN 可视化,这使它成为了一种可视化 CNN 的有效方法。Deconvolutional Network 的网络结构基于这些层形成的反向结构,DeconvNet 可以很好地对 CNN 进行可视化。 可视化过程可以描述如下:(1)当通过 CNN 处理特定输入图像时,该网络可以捕获所有神经元的特征图。(2)网络将选择出用于可视化的目标神经元的特征图,同时将其他所有神经元的特征图设置为零。(3)为了获得可视化模式,DeconvNet 会将目标神经元的特征图映射回图像维度。(4)为了将
13、所有神经元可视化,该过程会被重复应用于所有神经元并获得一组用于CNN 可视化的相应模式图像。这些可视化模式可以表明输入图像中的哪些像素或特征有助于神经元的激活,并且还可以用于检查 CNN 设计缺陷。通过 DeconvNet 对 CaffeNet 进行可视化上图是一个基于 DeconvNet 的可视化示例,包含了 CaffeNet 从 CL1 到 CL5 的 5 个卷积层。在每一层中,我们随机选择两个神经元的可视化模式与原始图像中相应的局部区域进行比较。从这些例子中,我们可以看出:每个单独的神经元都以更局部的方式提取特征,其每一层中的不同神经元负责不同的模式,例如嘴,眼睛和耳朵。 低层(CL1,
14、CL2)捕捉小边缘,角落和部件。 CL3 具有更复杂的不变性,可捕捉纹理等类似的网格模式。较高层(CL4,CL5)更具有类别性,可以显示出几乎整个目标。与 Activation Maximization 相比,基于 DeconvNet 的可视化可以提供更加明确和直接的模式。用于网络分析和优化的 DeconvNet 网络可视化AlexNet和ZFNet网络第一层(输入层)和第二层可视化除了用于解释分析的卷积层可视化之外,DeconvNet 还可用于检查 CNN 设计以进一步优化。上图(a)和(c)显示了 AlexNet 的第一层和第二层的可视化。 我们可以发现:1)在第一层有一些没有任何特定模式
15、的“死亡”神经元(用纯灰色表示),这意味着它们对于输入没有激活,这可能是高学习率的表现或者是权值初始化不是很好。2)第二层可视化显示了混叠的假象,用红色矩形突出显示,这可能是由于第一层卷积中使用的步长较大引起的。这些来自可视化的结果可以很好地应用于 CNN 优化。 因此,Zeiler 等人 提出了 ZFNet,它减少了第一层滤波器的尺寸,缩小了 AlexNet 的卷积步长,从而在前两个卷积层中保留了更多特征。图(b)和(d)展示了 ZFNet 引入的改进,它显示了 ZFNet 的第一层和第二层的可视化。我们可以看到第一层中的图案变得更加独特,而第二层中的图案没有混叠假象。 因此,可视化可以有效
16、应用于 CNN 分析和进一步优化。训练 ZFNet 期间的特征演变除了 CNN 网络优化之外,可解释性分析还可以帮助监视 CNN 训练过程以获得更好的训练效率。上图显示了在 ZFNet 训练期间的可视化模式。每一行分别代表卷积层中的不同神经元。每一列则是在不同训练时期随机选择的可视化模式子集。我们可以发现:1)在每一行中,颜色对比度会随着训练过程被人为地增强。2)较低层(CL1,CL2)会很快收敛,因为在几个时期出现了不同的模式。3)然而,在高层(CL4,CL5)中这些显著的模式需要经过相当长的一段的时期才会出现,这意味着这些层需要一直训练到完全收敛。另外,如果在训练过程中观察到噪音模式,则可
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CNN 可视化 理解 最新 综述
链接地址:https://www.31doc.com/p-3250605.html