您的位置: 游戏资讯 > 游戏问答

天水麻辣烫火爆出圈,新gom引擎与老gom的区别

来源:[db:H1] 浏览:0 2024-05-15 04:27:00

机器心脏报告

编辑:杜伟

优秀的研究永远不会被埋没并永远存在。

天水麻辣烫火爆出圈,新gom引擎与老gom的区别

发布近一周后,OpenAI的大规模视频生成模型Sora继续产生影响!其中,由Sora研发负责人之一Bill Peebles和纽约大学助理教授谢赛宁撰写的DiT(Diffusion Transformer)论文《Scalable Diffusion Models with Transformers》被认为是支撑Sora的重要技术基础之一。正在。该论文已被ICCV 2023录用。

论文地址:https://arxiv.org/pdf/2212.09748v2.pdfGitHub 地址:https://github.com/facebookresearch/DiT 这两天,DiT 论文和GitHub 项目再次火爆,成为人们关注的焦点。这篇论文登上了PapersWithCode 的Trending Research 榜单,拥有近2700 颗星,同时也登上了GitHub Trending 榜,星数每天都在增加数百颗,使总星数达到了3000 多颗。

来源:https://paperswithcode.com/

来源:https://github.com/facebookresearch/DiT 本文第一版更新于2022年12月,第二版更新于2023年3月。当时,扩散模型在图像生成方面取得了惊人的成果,并且几乎所有这些模型都使用卷积U-Net 作为骨干。因此,本文的目的是研究架构选择对扩散模型的影响,并为未来的生成模型研究提供经验基线。这项研究表明,U-Net 引起的偏差对于扩散模型的性能并不重要,并且可以在变压器等标准设计中轻松替换。具体来说,研究人员提出了一种基于Transformer 架构的新扩散模型DiT,用在潜在补丁上运行的Transformer 取代了常用的U-Net 主干网络,以训练潜在扩散模型。他们通过以Gflops 为单位测量的前向路径复杂度来分析扩散变压器(DiT) 的可扩展性。

研究人员尝试了四种模型深度和宽度不同的配置(DiT-S、DiT-B、DiT-L 和DiT-XL)。

他们发现,通过增加变压器的深度/宽度或增加输入令牌的数量,具有高Gflops 的DiT 的FID 总是较低。

除了良好的可扩展性之外,DiT-XL/2 模型在类条件ImageNet 512512 和256256 基准上的性能优于所有先前的扩散模型,后者在SOTA 数据上的FID 达到2.27。

SiT 的质量、速度和灵活性均有所提高此外,DiT 于今年1 月进行了升级。谢赛宁和他的团队推出了SiT(可扩展插值变压器),以在同一主干上提供更好的质量、速度和灵活性。 Shesenin 表示,SiT 超越了标准的普遍性,并通过插值探索了更广阔的设计空间。

论文标题为《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。

论文地址:https://arxiv.org/pdf/2401.08740.pdfGitHub地址:https://github.com/willisma/SiT 简而言之,SiT将灵活的插值框架集成到DiT中,使图像生成中动态传输的微妙探索成为可能。 SiT 在ImageNet 256 上实现了FID 2.06,将基于插值的模型推向了新的高度。

论文第一作者、纽约大学本科生马南野对论文进行了解读。本文认为随机插值为扩散和流动提供了统一的框架。但请注意,基于DDPM(去噪扩散概率模型)的DiT 与较新的基于插值的模型之间存在性能差异。因此,研究者想要探究性能提升的原因是什么?

他们通过设计空间中的一系列正交步骤逐渐从DiT 模型转向SiT 模型来解决这个问题。还仔细评估了每个远离普遍模型的性能影响。研究人员发现插值和采样器对性能影响最大。当将插值(即分布路径)从保留方差切换为线性以及采样器从确定性切换为随机时,他们观察到了显着的改进。

研究人员表明,对于随机采样,不需要将训练和采样之间的扩散系数联系起来,并且在推理时间方面有很多选择。确定性采样器和随机采样器在不同的计算预算下都具有优势。

最后,研究人员将SiT 描述为连续、速率可预测、线性可调度的SDE 采样模型。与扩散模型类似,SiT 可以提供性能改进并优于DiT。

有关DiT 和SiT 的更多信息,请参阅原始论文。