一种通过引入硬注意力机制来引导学习视觉回答任务的研究.doc
《一种通过引入硬注意力机制来引导学习视觉回答任务的研究.doc》由会员分享,可在线阅读,更多相关《一种通过引入硬注意力机制来引导学习视觉回答任务的研究.doc(7页珍藏版)》请在三一文库上搜索。
1、一种通过引入硬注意力机制来引导学习视觉回答任务的研究【导读】软注意力机制已在计算机视觉领域取得了广泛的应用和成功。但是我们发现硬注意力机制在计算机视觉任务中的研究还相对空白。而硬注意力机制能够从输入信息中选择重要的特征,因此它被视为是一种比软注意力机制更高效的方法。本次,将为大家介绍一种通过引入硬注意力机制来引导学习视觉回答任务的研究。此外结合L2 正则化筛选特征向量,可以高效地促进筛选的过程并取得更好的整体表现,而无需专门的学习过程。摘要生物感知中的注意机制主要是用于为复杂处理过程选择感知信息子集,以对所有感官输入执行禁止操作。软注意力机制 (soft attention mechanism
2、) 通过选择性地忽略部分信息来对其余信息进行重加权聚合计算,已在计算机视觉领域取得了广泛的应用和成功。然而,我们对于硬注意力机制 (hard attention mechanism) 的探索却相对较少,在这里,我们引入一种新的硬注意力方法,它能够在最近发布的一些视觉问答数据库中取得有竞争力的表现,甚至在一些数据集中的性能超过了软注意力机制。虽然硬注意力机制通常被认为是一种不可微分的方法,我们发现特征量级与语义相关性是相关的,并能为我们提供有用的信号来筛选注意力机制选择标准。由于硬注意力机制能够从输入信息中选择重要的特征,因此它被视为是一种比软注意力机制更高效的方法,特别地对于最近研究中使用非局
3、部逐对操作 (non-local pairwise) 而言,其计算和内存成本的消耗是巨大的。简介视觉注意力有助于促进人类在复杂视觉推理多方面的能力。例如,对于需要在人群中识别出狗的任务,视觉系统能够自适应地分配更多的计算处理资源,对狗及其潜在的目标或场景进行视觉信息处理。当观察者正观察场景中的其他目标,而未发觉到一些引人注目的实体时,这种感知效果将变得非常显著。尽管注意力机制并不是计算机视觉领域中的一项变革性的技术,但由于许多计算机视觉任务,如检测,分割和分类,并没有涉及复杂的视觉推理过程,因此这种注意力机制对计算机视觉任务而言还是有帮助的。视觉问答任务是一项需要复杂推理过程的视觉任务,在近些
4、年得到广泛的关注并取得了长足的进步。成功的视觉问答框架必须要能够处理多个对象及其之间复杂的关系,同时还要能够集成丰富的目标背景知识。我们意识到计算机视觉中的软注意力机制主要是通过加权聚合部分重要信息来提高视觉处理的准确性,但对于计算机视觉中的硬注意力机制的研究相对空白。在这里,我们探索一种简单的硬注意力机制,来引导卷积神经网络的特征表征:特征学习通常需要为硬注意力的选择提供一种简单的访问信号。特别地,用 L2 正则化筛选这些特征向量已被验证是一种有助于硬注意力机制的方法,它能够高效地促进筛选的过程并取得更好的整体表现,而无需专门的学习过程。下图1展示了这种方法的结果。注意力信号直接源自于标准的
5、监督任务损失函数,而无需任何明确的监督信号来激活正则化,也无需其他潜在的措施。图1 基于给定的自然图像和文本问题输入,我们的视觉问答架构得到的输出结果图。这里,我们使用了一种硬注意机制,只对那些重要的视觉特征进行选择并处理。基于我们模型结构,正则化后视觉特征的相关性以及那些具有高度相关性并包含重要语义内容的特征向量的前提,生成我们的注意力图像。此外,通过对特征向量的 L2 正则化处理来选择重要性特征,我们的视觉问答框架进一步采用硬注意力机制进行增强。我们将最初的版本成为硬注意力网络 HAN (Hard Attention Network),用于通过顶层正则化项来选择固定数量的特征向量。第二个版
6、本我们称之为自适应的硬注意力网络 AdaHAN (Hard Hard Attention Network),这是基于输入来决定特征向量的可变数量的一种网络结构。我们在大量的数据集上评估我们的方法,实验结果表明我们的算法能够在多个视觉问答数据及上实现与软注意力机制相当的性能。此外,我们的方法还能产生可解释的硬注意力掩模,其中所选的图像特征区域通常包含一些相应的重要语义信息,如一些连贯的对象。相比于非局部成对模型,我们的方法也能取得相当出色的表现。方法下图2展示了我们提出的用于学习从图像和问题映射到答案的模型结构。我们用卷积神经网络 (CNN) 对图像进行编码(在这里采用的是预训练的 ResNet
7、-101 模型,或是从头开始训练小型的 CNN 模型),并用 LSTM 将问题编码为一个固定长度的矢量表征。通过将答案复制到 CNN 模型中每个空间位置并将其与视觉特征相连接,我们计算得到组合表征。经过几层组合处理后,我们在空间位置上引入注意力机制,这与先前研究中引入软注意力机制的过程是一致的。最后,我们将特征聚合,并使用池化和 (sum-pooling) 或关系模块 (relational modules),通过计算答案类别的标准逻辑回归损失来端到端地训练整个网络。图2 我们在模型中引入硬注意力机制来代替软注意力机制,并遵循标准视觉问答框架的其他结构。图像和问题都被编码成各自的矢量表征。随后
8、,空间视觉特征的编码被进一步表示,而问题嵌入相应地通过传播和连接 (或添加) 以形成多模式输入表征。我们的注意力机制能够有选择性地选择用于下一次聚合和处理多模式向量的应答模块。1.硬注意力机制我们引入了一种新的硬注意力机制,它在空间位置上产生二进制掩码,并确定用于下一步处理的特征选择。我们将我们的方法称为硬注意力网络 (HAN),其核心在于对每个空间位置使用 L2 正则化激活以生成该位置相关性。L2 范数和相关性之间的关系是 CNN 训练特征的一种新属性,这不需要额外的约束或目标。我们的结构也只是对这种现象进行引导而没有明确地训练该网络。因此,与软注意力机制相比,我们的方法不需要额外的参数学习
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 通过 引入 注意力 机制 引导 学习 视觉 回答 任务 研究
链接地址:https://www.31doc.com/p-3364882.html