关于GAN模型我们还要可以深入了解、探讨哪些问题?.doc
《关于GAN模型我们还要可以深入了解、探讨哪些问题?.doc》由会员分享,可在线阅读,更多相关《关于GAN模型我们还要可以深入了解、探讨哪些问题?.doc(8页珍藏版)》请在三一文库上搜索。
1、关于GAN模型我们还要可以深入了解、探讨哪些问题?【导语】过去两年,生成对抗网络(GAN)取得了飞速、充分的发展,尤其是应用于图像合成技术的模型,快到几乎让人跟不上,每隔一段时间,我们肯能就能看到应用在不同任务中的新变体。虽然已经被广泛应用语研究与技术中,那是否就表示大家对 GAN 已经了解非常透彻了呢?是否还有不为大家了解的问题呢?接下来,我们就一起来看看,关于 GAN 模型我们还要可以深入了解、探讨哪些问题呢?在今天的文中,可以概括为以下 7 个问题:1、与其他生成模型相比,GAN 的利弊是什么?2、GAN 可以为哪种分布建模?3、除了图像合成,我们还能在哪些任务中应用 GAN?4、关于
2、GAN 训练的全局融合有哪些值得探讨?5、应该如何评估 GAN 及何时使用?6、GAN 训练如何按批量大小进行扩展?7、GAN 与对抗性样本之间是什么关系?对于应该如何评价 GAN,其实还存在很多分歧。鉴于目前 GAN 在图像合成任务中近乎饱和的应用状态,此时思考这些问题也许正是时候。基于早前其他领域的经验,通过领域的开放性问题来帮助确定目标,不失为一个好方法。因此,在后续的内容中,作者也会提及一些关于 GAN 的开放性研究问题,除了帮大家梳理一些思路外,也希望这些问题能有研究者可以进行深入研究,或研究人员根据自己的研究领域也探索一些开放性问题。首先进入第一个问题:1、与其他生成模型相比,GA
3、N 的利弊是什么?除了 GAN 之外,目前还有另外两种类型的生成模型比较流行:流(Flow)模型和自回归(Autoregressive)模型,不过不要过于字面化理解。其实,这些常用术语都是用于描述“模型空间”中的模糊聚类的,但有些模型无法轻易归属到这些聚类中。在任务中它们都被认为是“不再是最先进的模型”。通俗解释,流模型将一堆可逆变换应用于来自先验的样本,以便计算精确对数似然的观测值。自回归模型将观察到的分布分解为条件分布,并一次处理观察到的一个分量。(对于图像,它们可以一次处理一个像素)最近的研究表明,这些模型具有不同的性能特征和利弊。基于此,作者提出了一个有趣的开放性问题:如何准确地描述这
4、些利弊,它们是否是模型家族中的固有性质?具体讲的话要如何思考这个问题呢?大家可以先关注 GAN 和流模型之间计算成本的差异。 乍一看,流模型似乎会碾压 GAN。流模型允许精确的对数似然计算和精确推理,因此如果训练流模型和 GAN 利用相同的计算成本,那 GAN 好像就一点都不实用。因为训练 GAN 需要花费很多精力,所以在此时就要想:流模型是否会让 GAN 显得很 OUT 呢?在这种情况下还坚持使用对抗训练是否有更深层的考量与意义呢?为了估计训练 GAN 和流模型之间计算成本存在的较大差距,大家需要通过一些实验进行证明与思考。比如在作者的实验中,他们选择看一下这两个模型在人脸数据集上的训练情况
5、。GLOW 模型的训练过程,使用了 40 个 GPU 生成 256x256 像素的名人脸,需要持续 2 周,使用参数约为 2 亿个。相比之下,使用类似的面部数据集对渐进式 GAN 进行训练,使用了 8 个 GPU,持续 4 天,需要大约 4600 万个参数来生成 1024x1024 像素的图像。大致计算,流模型比使用的 GPU 天数是对抗训练模型的 17 倍、参数是其 4 倍,而生成的像素还减少了 16 倍,这么看来,真的太不 OK 了!得到上面的数据后,作者又不禁在思考,为什么流模型效率更低呢?经过分析,作者给出了两个可能的原因:首先,最大似然训练在计算上比对抗训练更难。特别是,如果训练集的
6、任何元素被生成模型指定为零概率,那么将会受到更加残酷的惩罚! 第二,GAN 生成器仅间接地为训练集元素分配零概率时会受到惩罚,并且这种惩罚并不那么严厉。 并且规范化流程可能会使某些功能的表达低效。上面是对流模型和 GAN 间利弊权衡的分析,自回归模型有如何呢?事实证明,自回归模型可以表示为不可并行化的流模型(因为它们都是可逆的)。自回归模型比流模型具有更高的时间和参数效率。 因此,结合 GAN 特征,可总结为:GAN 是平行、有效、不可逆的;流模型是可逆、平行、不高效的;而自回归模型是可逆、有效,但不是平行的。由此就引出了第一个开放性问题:与其他生成模型相比,GAN 的利弊是什么?平行性有效性
7、可逆性GAN是是否流模型是否是自回归模型否是是那是否可以制定某种可逆、并行、高效(参数/时间效率)的 CAP 定理类型声明?解决这个问题的一种方法是研究更多拥有多个模型族的混合体模型。虽然这点已被混合 GAN / 流模型考虑到了,但作者认为这种方法仍未得到充分发掘。作者也不能确定最大似然训练是否必然比 GAN 训练更难。在 GAN 训练损失下,没有明确禁止在训练数据点上放置零质量,但是如果发生器执行此操作,那么足够强大的鉴别器就能做得更好,而不仅仅是巧合。这看起来似乎 GAN 是在实践中学习低分布。最后,作者得出初步结论:基本上,流模型在每个参数上的表达能力都不如任意解码器函数。(在某些假设上
8、是可证明的。)2、GAN 可以为哪种分布建模?大多数 GAN 研究都广泛应用于图像合成。特别是在部分标准图像数据集上训练 GAN,如 MNIST,CIFAR-10,STL-10,CelebA和Imagenet。而大家也在讨论哪些数据集是最容易建模的?如果想得到这个答案,需要先在更大、更复杂的数据集上训练,经过更庞大、嘈杂的训练过程。如何通过一个简单的理论解释实验观察,理想情况可以查看数据集,执行一些计算而无需实际训练生成模型,然后得出“这个数据集更容易让 GAN 建模,而不是用 VAE”。在这方面基于作者已经取得的一些进展,进一步提出了第二个问题:给定一个分布,该如何判断 GAN 对该分布进行
9、建模的难易程度?同时,这个问题还涉及其他很多问题,对此作者给出两种策略:(1)合成数据集:研究合成数据集来探究哪些特征影响可学习性。例如,在创建合成三角形的数据集领域,我们觉得仍然探索不足。合成数据集可以结合其他特征,如连通性或平滑性,进行参数化,从而允许系统性的研究。这样的数据集也可用于研究其他类型的生成模型。(2)修改现有的理论结果:利用现有的理论结果并尝试根据数据集的不同属性修改假设。例如,获取有关应用给定单峰数据分布的 GAN 的结果,了解当数据分布变为多峰时会发生什么。3、除了图像合成,我们还能在哪些任务中应用 GAN?除了图像转换和领域适应性建模等应用,大多数成功应用 GAN 的都
10、是图像合成任务中,如果想在其他任务中应用 GAN,需要注意什么?(1)文本:GAN 应用在离散型的文本数据类型上时更困难。因为 GAN 依赖于生成器生成的内容将来自鉴别器的信号反向传播到生成器中。有两种方法可以解决这个难题。:第一种方法是让 GAN 仅对离散数据的连续表示起作用;第二种是使用实际的离散模型,并尝试使用梯度估计来训练 GAN。其他更复杂的处理方法也有,但就目前所知,它们都没有产生可以与基于可能性的语言模型相竞争(在混乱度方面)的结果。(2)结构化数据:其他非欧几里德结构化数据怎么处理(如图表)?对这类数据的研究称为几何深度学习。GAN 在这里取得的成功很有限,但其他深度学习技巧也
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 GAN 模型 我们 还要 可以 深入 了解 探讨 哪些 问题
链接地址:https://www.31doc.com/p-3387625.html