AttnGAN可以生成任意图像,从普通的田园风光到抽象的场景.doc
《AttnGAN可以生成任意图像,从普通的田园风光到抽象的场景.doc》由会员分享,可在线阅读,更多相关《AttnGAN可以生成任意图像,从普通的田园风光到抽象的场景.doc(3页珍藏版)》请在三一文库上搜索。
1、AttnGAN可以生成任意图像,从普通的田园风光到抽象的场景机器学习发展至今,我们看到很多AI模型经过大量数据能画画、能作曲。但是现在一个“神奇”的网站可以通过你的文字生成意想不到的图像。事情还要从大半年前的一篇论文说起。在今年一月份发表的一篇论文中,微软研究院的实习生们训练了一个机器学习算法,称为AttnGAN。这是GAN的一种变体,可以根据写下的文字生成图像,图像质量是之前技术生成的图像质量的三倍。这项技术可以生成任意图像,从普通的田园风光到抽象的场景,每幅图都能将文字描述详细地表示出来。论文简介最近很多文本生成图像的方法都是基于生成对抗网络(GAN)的,常用方法是将完整的文本描述编写进整
2、个句子向量中作为图片生成的条件。虽然已经能生成质量不错的图像了,但是由于句子向量缺少在词语层面上的微调信息,GAN无法生成更高质量的图像。这一问题在生成复杂场景时更严重。为了解决这一问题,作者提出了注意力生成对抗网络(AttnGAN),用注意力驱动、多阶段的方法对文本生成图像的问题进行微调。AttnGAN的整体结构如图:模型有两个创新元素。首先是注意力生成网络,其中的注意力机制是通过观察与该区域最相关的文字,生成器画出图像的不同部分。更具体地说,除了将自然语言描述编码到全局句子向量中,句中的每个单词同样有对应的向量。在第一阶段,生成网络利用全局句子向量生成一个低分辨率的图像。接着,它会通过注意
3、力层用每个区域的图片向量查询词向量,从而形成一个词-语境向量。之后,它会将区域图像向量和对应的词-语境向量相结合,形成一个多模态的语境向量。这就能够在各个阶段生成细节更丰富的高分辨率图像。该结构中的另一个重要组成部分是深度注意力多模态相似模型(DAMSM)。由于有注意力机制,DAMSM可以计算生成图像和句子之间的相似性。所以,DAMSM对训练生成器提供了额外的调整损失函数。模型试验与此前的方法相同,这篇论文提出的方法也在CUB和COCO两个数据集上测试。最终训练的结果如下:每个场景的第一张图片都是AttnGAN的第一阶段(G0),仅仅描绘出了场景的原始轮廓,图像分辨率很低。基于词向量,接下来的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AttnGAN 可以 生成 任意 图像 普通 田园风光 抽象 场景
链接地址:https://www.31doc.com/p-3249912.html