基于语义布局的图像合成更逼真、效果更好.doc

上传人：白大夫

文档编号：3418218

上传时间：2019-08-23

格式：DOC

页数：4

大小：18.50KB

《基于语义布局的图像合成更逼真、效果更好.doc》由会员分享，可在线阅读，更多相关《基于语义布局的图像合成更逼真、效果更好.doc（4页珍藏版）》请在三一文库上搜索。

1、基于语义布局的图像合成更逼真、效果更好编者按：去年，英特尔实验室视觉组主管Vladlen Koltun和斯坦福大学博士陈启峰发表论文Photographic Image Synthesis with Cascaded Refinement Networks，用级联优化网络生成照片。这种合成的图片是神经网络“凭空”生成的，也就是说，世界上根本找不到这样的场景。他们的算法可以看做一个渲染引擎，输入一张语义布局，告诉算法哪里有道路、哪里有车、交通灯、行人、树木，算法就能按照图中的布局输出一张逼真的图像，“好比机器想象出来的画面”。在这篇论文中，英特尔实验室和香港中文大学的研究人员共同创造了一种半参数

2、的图像合成方法，让基于语义布局的图像合成更逼真、效果更好。以下是论智对原论文的编译。在古罗马作家普林尼的作品自然史中记述了这样一则故事：“公元前五世纪，古希腊画家宙克西斯（Zeuxis）以日常绘画和对光影的利用而闻名。他画了一个小男孩举起葡萄的作品，葡萄非常自然、逼真，竟吸引鸟儿前来啄食。然而宙克西斯并不满意，因为画上的男孩举起葡萄的动作还不够逼真，没有吓跑鸟儿。”技术高超的画家想做出以假乱真的画已经很困难了，机器可以实现这个任务吗？用深度神经网络进行现实图像合成为模拟现实图像开辟了新方法。在现代数字艺术中，能合成非常逼真的图像的深层网络成为一种新工具。通过赋予它们一种视觉想象的形式，证明了它

3、们在AI创造中的有用性。最近的图像合成发展大多得益于基于参数的模型驱动，即能代表所有图像外观权重所有数据的深层网络。这与人类写实画家的做法完全不同，他们并不是依靠记忆作画，而是用外部参考当做材料来源，再现目标物体的外观细节。这也和之前图像合成的方法不同，传统的图像合成方法基于非参数技术，可以在测试时使用大规模数据集。从非参数方法转变为参数方法，研究人员发现，端到端的训练有着高度表达的模型。但它在测试时放弃了非参数技术优势。在这篇论文中，我们提出了一种半参数的方法（semi-parametric approach），从语义布局中合成近乎真实的图像，这种方法被称作“半参数图像合成（semi-par

4、ametric image synthesis，SIMS）”。半参数合成方法结合了参数和非参数技术各自的优势，在所提出的方法中，非参数部分是指一组与照片相对的语义布局训练集中绘制的分段数据库。这些片段用于图像合成的原始材料，它们通过深度网络应用在画布上，之后，画布会输出一张图像。Chen和Koltun的研究成果与我们的SIMS方法的成果对比。第一行是输入的语义布局实验概览我们的目标是基于语义布局L0, 1hwc合成一张逼真的图像，其中hw是图片尺寸，c是语义类别的数量。下图是图像合成第一阶段的大致过程：我们的模型在一对对图片和其对应的语义布局上进行训练，图片集是用于生成不同语义类别的图像片段存

5、储库M，其中的每个片段Pi都来源于训练图像，并且属于一个语义类别。图中的a和b两部分就是一些片段。在测试时，我们会得到在训练时从未见过的语义标签映射L，这个标签映射会分解成互相连接的组成部分Li，对于每个连接部分，我们都会根据形状、位置和语境，从M中检索兼容的片段，即上图b的步骤。而检索步骤与Li被一个经过训练的空间变压器网络相连接，即图上的c和d。经过转换的片段在画布上进行合成，CRwh3，即上图中的f。由于片段无法与Li完美重合，也许会出现重叠的情况。最后e部分用来进行前后排序。之后，画布C和输入的语义布局L一同被输入合成网络f中，网络生成最终的图像被输出，过程如下图所示：这一过程补全了缺

6、失的区域、调整检索到的片段、混合边界、合成阴影，并且基于画布和目标布局调整图像外观。具体架构和训练过程可查看原论文。为了将我们的方法应用到较为粗略的语义布局中，我们训练了一个级联的精炼网络，用于将粗糙的布局输入转化成密集的像素级输出。实验过程数据集本次实验在三个数据集上进行：Cityscapes、NYU和ADE20K。Cityscapes数据集包含的是城市道路景观照，其中有3000张带有精细标记的图像，20000张粗略标记的、用于训练的图像。我们让模型在这两种图像上分别训练，最终在含有500张图像的验证数据集上进行测试。对于NYU数据集，我们在前1200张图像上进行训练，剩下的249张图像用于

7、测试。而ADE20K数据集是室外图片，我们中其中1万张图像进行训练，1000张图像进行测试。感知测试我们将提出的方法和pix2pix以及CRN进行了对比，下图是结果，表中的每一项都显示，我们的方法（SIMS）都比由pix2pix和CRN合成的图像更真实：语义分割准确度接下来，我们分析了合成图像的真实性。给定一个语义布局L，我们用一种可评估的方法合成一张图像I，该图像之后会被输入到一个预训练过的语义分割网络（这里我们用PSPNet）。这个网络会生成一个语义布局L，然后我们将L和L相比较。理论上来说，二者越接近，图像的真实程度就越高。比较L和L有两种方法：intersection over uni

8、on（IoU）和总体像素精度。最终的结果如下：我们的SIMS方法比pix2pix和CRN生成的图像更合理、更真实。图像数据接着，我们从低级图像数据方面分析图像的真实性。我们比较了合成图像的平均经典谱（power spectrum）以及对应的数据集中的真实图像。下图显示了三种方法合成图像的平均经典谱：可以看出，我们的方法生成的平均经典谱与真实图像的平均经典谱非常接近，而其他两种方法则与真实图像有差别。质量结果从以下两张图中可以看出这三种方法的差别。结语我们所提出的半参数图像合成方法（SIMS）可以从语义布局中生成图像，实验证明这种方法比完全参数化的技术生成的图像更真实。但是在这之后仍有一些尚未解决的问题。首先，我们的方法在部署时比完全基于参数的方法慢很多。另外还要开发更高效的数据机构和算法。其次，其他形式的输入也应该可用，例如语义实例分割或者文本描述。第三，我们所提出的方法并不是端到端训练的。最后，我们希望这项半参数技术能应用到视频合成上。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

2 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于语义布局图像合成逼真效果更好

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：基于语义布局的图像合成更逼真、效果更好.doc
链接地址：https://www.31doc.com/p-3418218.html