一种基于少样本目标类别图像的图像翻译模型.doc
《一种基于少样本目标类别图像的图像翻译模型.doc》由会员分享,可在线阅读,更多相关《一种基于少样本目标类别图像的图像翻译模型.doc(6页珍藏版)》请在三一文库上搜索。
1、一种基于少样本目标类别图像的图像翻译模型【导读】在已有的图像翻译研究中,模型需要使用大量的多类别图像数据,在一定程度上限制了模型的具体应用。本文提出了一种基于少样本目标类别图像的图像翻译模型,该模型在翻译准确度、内容保留程度、图像真实度和分布匹配度四个指标上都超越了现有模型的效果。摘要无监督的图像翻译方法通过在不同的非结构化图像数据集上进行学习,将指定类别的图像转换为另一类别的图像。现有方法虽然取得了一定进展,但在模型训练期间需要大量的源类别和目标类别的图像,限制了这类方法的实际应用。本文通过将一个新的神经网络架构和对抗学习相结合,提出了一种少样本的无监督图像翻译算法。该模型能够使用少量样本图
2、像,针对新出现的图像类别进行图片生成。作者将该模型与几种现有方法进行了比较,结果表明,这种基于少样本的无监督图像翻译算法非常有效。该论文的代码已开源,相关项目地址如下:https:/nvlabs.github.io/FUNIT简介人类非常擅长通过学习、类比推理等方法,将现有的知识泛化推广到一些未见过的问题上。例如,即使对于没见过老虎的人来说,当看到一只站立的老虎,他也能根据对其他动物的观察经验,联想到老虎躺着的样子。近来无监督的图像翻译研究在不同图像类别间的翻译中取得了长足的进步,但现有方法依然很难依据先验知识和少量新类别的样本图像,对图像进行泛化。当前的图像翻译方法需要大量各类别的图像用于翻
3、译模型的训练。针对这些问题,本研究提出一种少样本无监督图像翻译框架(Few-shot UNsupervised Image-to-image Translation, FUNIT),旨在只利用少量的目标类图像,通过学习到的图像翻译模型,将源图像类别图像范围为到目标类别的图像。该模型的假设如下:人类基于少样本的生成能力来源于过去的视觉知识,且在之前看过的不同种类的物体越多,该泛化生成能力越强。基于此,本研究使用了一个包含多种类别图像的数据集训练FUNIT模型,用来模拟过去所学习的多类别视觉知识。模型的目标为,只利用目标类别的少量样本图像,实现从源类别到目标类别的图像翻译任务。研究假设,通过在训练
4、中学习从少量新类别图像中提取该图像类别的外观模式,模型能够学习一个通用的外观模式提取器,并将该模式应用于未见过的类别图像实现图像翻译。本文的实验数据证明,训练集类别数的增加对于少样本图像翻译模型的性能提升是有帮助的。本文模型结构基于对抗生成网络(Generative Adversarial Networks, GAN)。作者将 GAN 和新的网络架构耦合,获得了较好的实验效果。通过在不同数据集上的实验将模型与几种基线方法进行对比分析,作者对模型的效果进行了验证,发现在各种性能指标上FUNIT框架的表现都更好。方法本文所提出的FUNIT框架旨在基于少量的目标类别图像,将源类别图像映射为一些模型未
5、学习过的目标类别的图像。具体来说,在模型训练阶段,本文所使用的图像来自一组图像类别的数据集合(如各种动物类别的图像集),称之为源类别,用于训练多层级无监督的图像翻译模型FUNIT。这里,本文假设在不同类别间不存在处于同一姿态的动物的图像。在测试时,本文使用少量取自类别的图像样本,称之为目标类别,这一类别在模型训练时未使用。模型利用这些少量的目标类别图像样本,能够实现从源类别到目标类别的图像翻译本文提出的模型主要包括两部分:一个少样本图像翻译器 G 和一个多任务对抗判别器 D 。少样本图像翻译器 G少样本图像翻译器 G 由一个内容编码器Ex,一个类编码器Ey和一个解码器Fx构成。其中内容编码器由
6、多个 2D 卷积层和多个残差块(residual blocks)组成,用于将输入的内容图像x映射为内容潜在编码 zx ,其中 zx 是一个空间特征映射。类编码器包含多个2D卷积层并对卷积结果取均值。而解码器是由多个采用自适应实例正则化方法(AdaIN)的残差块和多个卷积层结构组成。对于每个样本,AdaIN方法对每个通道的样本激活值进行正则化,以获得其零均值和单元方差,之后通过一个仿射变换来缩放激活值。如下图1所示,该仿射变换具有空间不变性,因此仅可以用于得到全局的外观特征信息。内容编码器能够提取到不随类别改变的隐层表征信息,而类别编码器学习特定类别的隐层表征。文本通过AdaIN层将类编码馈送到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 样本 目标 类别 图像 翻译 模型
链接地址:https://www.31doc.com/p-3363944.html