首个超大规模GAN模型！生成速度比Diffusion快20倍

5月25日蚀肉堂投稿

　　编辑：LRS【新智元导读】GAN模型也有变大的潜力！
　　AIGC爆火的背后，从技术的角度来看，是图像生成模型的架构发生了巨大的变化。
　　随着OpenAI发布DALLE2，自回归和扩散模型一夜之间成为大规模生成模型的新标准，而在此之前，生成对抗网络（GAN）一直都是主流选择，并衍生出StyleGAN等技术。
　　从GAN切换到扩散模型的架构转变也引出了一个问题：能否通过扩大GAN模型的规模，比如说在LAION这样的大型数据集中进一步提升性能吗？
　　最近，针对增加StyleGAN架构容量会导致不稳定的问题，来自浦项科技大学（韩国）、卡内基梅隆大学和Adobe研究院的研究人员提出了一种全新的生成对抗网络架构GigaGAN，打破了模型的规模限制，展示了GAN仍然可以胜任文本到图像合成模型。
　　论文链接：https：arxiv。orgabs2303。05511
　　项目链接：https：mingukkang。github。ioGigaGAN
　　GigaGAN有三大优势。
　　1。它在推理时速度更快，相比同量级参数的StableDiffusionv1。5，在512分辨率的生成速度从2。9秒缩短到0。13秒。
　　2。可以合成高分辨率的图像，例如，在3。66秒内合成1600万像素的图像。
　　3。支持各种潜空间编辑应用程序，如潜插值、样式混合和向量算术操作等。
　　GAN到极限了吗？
　　最近发布的一系列模型，如DALLE2、Imagen、Parti和StableDiffusion，开创了图像生成的新时代，在图像质量和模型灵活性方面达到了前所未有的水平。
　　现在占主导地位的范式扩散模型和自回归模型，都依赖于迭代推理这把双刃剑，因为迭代方法能够以简单的目标进行稳定的训练，但在推理过程中会产生更高的计算成本。
　　与此形成对比的是生成对抗网络（GAN），只需要一次forwardpass即可生成图像，因此本质上是更高效的。
　　虽然GAN模型主导了生成式建模的前一个时代，但由于训练过程中的不稳定性，对GAN进行扩展需要仔细调整网络结构和训练考虑，因此GANs虽然在为单个或多个对象类别建模方面表现出色，但扩展到复杂的数据集上（更不用说开放世界物体生成了），仍然具有挑战性。
　　所以目前超大型的模型、数据和计算资源都主要集中在扩散和自回归模型上。
　　在这项工作中，研究人员主要解决以下问题：
　　GAN能否继续扩大规模并有可能从这些资源中受益？或者说GAN已经到达极限了？是什么阻碍了GAN的进一步扩展？能否克服这些障碍？
　　稳定训练GAN
　　研究人员首先用StyleGAN2进行实验，观察到简单地扩展骨干网会导致不稳定的训练，在确定了几个关键问题后，提出了在增加模型容量的同时稳定训练的技术。
　　首先，通过保留一个滤波器库（abankoffilters），并采取一个特定样本的线性组合来有效地扩展生成器的容量。
　　改编了几个在扩散模型上下文中常用的技术，并确认它们可以为GANs带来了类似的性能提升，例如将自注意力机制（仅图像）和交叉注意力（图像文本）与卷积层交织在一起可以提高性能。
　　此外，研究人员重新引入了多尺度训练（multiscaletraining），找到了一个新的方案可以改善图像文本对齐和生成输出的低频细节。
　　多尺度训练可以让基于GAN的生成器更有效地使用低分辨率块中的参数，从而具有更好的图像文本对齐和图像质量。
　　生成器
　　GigaGAN的生成器由文本编码分支（textencodingbranch）、样式映射网络（stylemappingnetwork）、多尺度综合网络（multiscalesynthesisnetwork）组成，并辅以稳定注意力（stableattention）和自适应核选择（adaptivekernelselection）。
　　在文本编码分支中，首先使用一个预先训练好的CLIP模型和一个学习的注意层T来提取文本嵌入，然后将嵌入过程传递给样式映射网络M，生成与StyleGAN类似的样式向量w
　　合成网络采用样式编码作为modulation，以文本嵌入作为注意力来生成imagepyramid，在此基础上，引入样本自适应核选择算法，实现了基于输入文本条件的卷积核自适应选择。
　　判别器
　　与生成器类似，GigaGAN的判别器由两个分支组成，分别用于处理图像和文本条件。
　　文本分支处理类似于生成器的文本分支；图像分支接收一个imagepyramid作为输入并对每个图像尺度进行独立的预测。
　　公式中引入了多个额外的损失函数以促进快速收敛。
　　实验结果
　　对大规模文本图像合成任务进行系统的、受控的评估是困难的，因为大多数现有的模型并不公开可用，即使训练代码可用，从头开始训练一个新模型的成本也会过高。
　　研究人员选择在实验中与Imagen、LatentDiffusionModels（LDM）、StableDiffusion和Parti进行对比，同时承认在训练数据集、迭代次数、批量大小和模型大小方面存在相当大的差异。
　　对于定量评价指标，主要使用FrechetInceptionDistance（FID）来衡量输出分布的真实性，并使用CLIP分数来评价图像文本对齐。
　　文中进行了五个不同的实验：
　　1。通过逐步纳入每个技术组件来展示提出方法的有效性；
　　2。文本图像合成结果表明，GigaGAN表现出与稳定扩散（SDv1。5）相当的FID，同时生成的结果比扩散或自回归模型快数百倍；
　　3。将GigaGAN与基于蒸馏的扩散模型进行对比，显示GigaGAN可以比基于蒸馏的扩散模型更快地合成更高质量的图像；
　　4。验证了GigaGAN的上采样器在有条件和无条件的超分辨率任务中比其他上采样器的优势；
　　5。结果表明大规模GANs仍然享有GANs的连续和分解潜伏空间的操作，实现了新的图像编辑模式。
　　经过调参，研究人员在大规模的数据集，如LAION2Ben上实现了稳定和可扩展的十亿参数GAN（GigaGAN）的训练。
　　并且该方法采用了多阶段的方法，首先在6464下生成，然后上采样到512512，这两个网络是模块化的，而且足够强大，能够以即插即用的方式使用。
　　结果表明，尽管在训练时从未见过扩散模型的图像，但基于文本条件的GAN上采样网络可以作为基础扩散模型（如DALLE2）的高效、高质量的上采样器。
　　这些成果加在一起，使得GigaGAN远远超过了以前的GAN模型，比StyleGAN2大36倍，比StyleGANXL和XMCGAN大6倍。
　　虽然GiGAN的10亿参数量仍然低于最近发布的最大合成模型，如Imagen（3B）、DALLE2（5。5B）和Parti（20B），但目前还没有观察到关于模型大小的质量饱和度。
　　GigaGAN在COCO2014数据集上实现了9。09的zeroshotFID，低于DALLE2、Parti750M和StableDiffusion的FID
　　应用场景
　　提示插值（Promptinterpolation）
　　GigaGAN可以在提示之间平滑地插值，下图中的四个角是由同一潜码生成，但带有不同的文本提示。
　　解耦提示混合（Disentangledpromptmixing）
　　GigaGAN保留了一个分离的潜空间，使得能够将一个样本的粗样式与另一个样本的精细样式结合起来，并且GigaGAN可以通过文本提示直接控制样式。
　　粗到精风格交换（Coarsetofinesytleswapping）
　　基于GAN的模型架构保留了一个分离的潜在空间，使得能够将一个样本的粗样式与另一个样本的精样式混合在一起。
　　参考资料：
　　https：mingukkang。github。ioGigaGAN

投诉评论转载

首个超大规模GAN模型！生成速度比Diffusion快20倍编辑：LRS【新智元导读】GAN模型也有变大的潜力！AIGC爆火的背后，从技术的角度来看，是图像生成模型的架构发生了巨大的变化。随着OpenAI发布DALLE2，自……铁血与忠诚足坛皮家军历史最强阵容，每一个位置都出自豪门《最强百家姓大军》第13期，我们来看强大的皮家军（重制版）。这支球队由艺术大师皮尔洛、斑马王子皮耶罗、铁血队长皮克、传奇飞翼皮雷斯等一众传奇巨星组成，阵容极其强大。我心中的皮家……用什么来安抚我已经躁动的旅游DNA？暑假将近，小编出游的DNA终究是要动了！但苦于实际情况，也只能看看旅行用品，为疫情稳定后，将要到来的假日做个准备。旅行箱可以说是旅游的必备单品之一了美好的颜色能给人带来愉……ChatGPT加速数字永生的到来从远古的神仙传说到近代的科学医学，人类无不致力于寻求超越极限的方法。近些年带来了一种新观念数字永生。所谓的数字永生，就是通过使用AI等技术，把人类的思想、情感、记忆等信息……幻塔传送失败解决方法幻塔传送不了显示服务器未准备好，导致玩家们无法传送，那么幻塔为什么传送不了？小编为您带来幻塔传送失败原因介绍。幻塔为什么传送不了？亲爱的拓荒者：非常抱歉，当前部分服……距印度不足10公里？用地理解读，我国洞朗地区首个行政村在我国的边疆地带，一般都会安排军人在此驻守，保卫我国的领土安全。在我国的西藏地区，这种情况更是常见，其中洞朗地区，在2020年修建了一个行政村，它是我国第一个靠近边境地区的行政……中国游泳队前队长默默结婚晒娃，曾和曾春蕾相恋，退役去清华任教提起中国游泳队历任队长，很多人第一时间会想起奥运冠军孙杨。但在孙杨之前，短距离自由泳名将、世界冠军陈祚也曾担任过游泳队队长一职。日前，陈祚在个人社交平台上晒出自己在公园遛娃的照……外媒全球男性精子数量骤减已接近不育的门槛据法新社11月15日报道，一项新的大型研究称，继全球男性精子数量在过去40年间减少了一半后，这一数字目前仍在加速缩减。该研究结果呼吁人们采取行动以阻止这一下降趋势。报道称……雍正至死都不知道，龙凤胎的名字连起来读，就是甄嬛背叛他的证据万里碧空净，仙桥鹊驾成。天孙犹有约，人世那无情。雍正作为清宫剧的代表作品，《甄嬛传》的热度多年来持续居高不下，时隔多年，《甄嬛传》依旧有很高的点播率，可很多人并没有看懂甄……天冷这一盘湖南小炒肉就够了，分享正宗做法，香辣开胃好下饭秋日生活打卡季天气越来越冷的，这几天风很大，还下起了雨。为了抵御寒冷，我们有贴秋膘的习惯。现在的人，有条件去吃，但是也不要暴饮暴食，适当才好，荤素搭配，吃太多肉类对肠胃的……性感柳岩再现江湖，一袭抹胸连衣裙性感高级，S型身材曲线让人看除了一些近年来的经典喜剧电影外，柳岩最初靠着她独特的好身材一炮而红！她的体型穿上那种衣服展现出她无可比拟的性感女神魅力。最近一次，柳岩穿着高开衩裙的写真再一次惊艳了全网。……苹果手机如何快速修复耗电问题？用过苹果手机的朋友都知道，手机电量有时会很不稳定，消耗很快，满格电可能几个小时就没了，小编就曾经遇到过这种情况，去餐馆吃饭，结账的时候发现手机没电了，无法支付，场面比较尴尬，后……

<<<<<<－>>>>>>

继爱奇艺腾讯之后，优酷视频会员也要涨价了！你还充吗？锦鲤好养吗在家里的鱼缸能养活锦鲤吗如何挑选七叶胆熟悉的陌生人你相信梦吗？智能景区解决方案打造数字孪生智慧景区汉武帝在史记中看到了什么被气得吐血海平面上升会怎么样陆地变汪洋灾害增加海岸线后退食疗养肝护肝好重量级拳坛新星6回合击倒传奇老将，战绩改写为14战全胜14次为什么中国是电商干掉实体，日本却是实体干掉电商，问题出在哪？分手第12天，通策医疗挽回和仁科技，变脸背后信披有无瑕疵？

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找