im电竞
安全系统零部件
名称:OpenAI安全系统负责人:从头构建生成扩散模
发布时间:2024-09-21 08:44:45 来源:IM电竞官网注册 作者:im电竞平台官网



说明:

  相较于文本或图像,收集大量高质量、高维度的视频数据难度更大,更不用说要获取文本与视频的配对数据了。

  阅读要求:在继续阅读本文之前,请确保你已经阅读了之前发布的关于图像生成的“什么是扩散模型?()”一文。(本文作者Lilian Weng是OpenAI的AI安全与对齐负责人。本文由OneFlow编译发布,转载请联系授权。原文:)

  首先,我们来回顾一下从头开始设计和训练扩散视频模型的方法,这里的“从头开始”指的是我们不依赖预训练的图像生成器。

  与文本到图像的扩散模型类似,U-Net和Transformer是两种常见的架构选择。Google基于U-Net架构发表了一系列关于扩散视频建模的论文,而OpenAI最近推出的Sora模型则利用了Transformer架构。

  视频扩散模型(VDM;Ho和Salimans等人,2022年)采用了标准的扩散模型配置,但对架构进行了适当调整,以便更好地适用于视频建模。它将2D U-Net扩展到3D数据(Cicek 等人. 2016),使得每个特征图都表示一个4D张量(帧×高度×宽度×通道)。这种3D U-Net在空间和时间上进行了分解,即每一层只在空间或时间维度上进行操作,而不是同时处理这两个维度:

  原先2D U-Net中的2D卷积层被扩展为仅在空间上进行的3D卷积,具体来说,原本的3x3卷积变成了1x3x3卷积。

  在每个空间注意力块之后,增加了一个时间注意力块。该模块对第一帧进行注意力操作,并将空间维度视为批处理维度。时间注意力块利用了相对位置嵌入来追踪帧的顺序,这对于模型捕捉良好的时间连贯性非常关键。

  Imagen Video(Ho等人,2022年)构建在一系列扩散模型的级联之上,以提升视频生成质量,并升级至输出1280x768分辨率、每秒24帧的视频。Imagen Video的架构由以下部分构成,共包含7个扩散模型。

  一个由空间和时间超分辨率扩散模型交错组成的级联,包括3个TSR(时间超分辨率)和3个SSR(空间超分辨率)组件。

  基础去噪模型使用共享参数的同时,对所有帧执行空间操作,然后时间层混合跨帧激活以更好地捕捉时间连贯性,这比帧自回归方法更有效。

  图4:Imagen Video扩散模型中一个空间-时间可分离块的架构。(图源:Ho等人,2022年)

  Imagen Video还应用了渐进蒸馏(progressive distillation)以加速采样,每次蒸馏迭代都能将所需的采样步数减半。他们的实验成功将所有7个视频扩散模型蒸馏为单个模型仅需8个采样步数,而不会在感知质量上产生明显损失。

  为实现更好的扩展效果,Sora(Brooks等人,2024年)利用了DiT(Diffusion Transformer)架构,该架构在视频和图像latent code的时空块(patch)上运行。视觉输入表示为一系列的时空块,由这些块充当Transformer的输入词元。

  另一种重要的扩散视频建模方法是通过插入时间层来“扩展(nflate)”预训练的图像到文本扩散模型,然后可以选择仅在视频数据上微调新层,或完全避免额外的训练。模型继承了文本-图像对的先验知识,因此可以帮助减轻对文本-视频对数据的要求。在视频数据上微调

  Make-A-Video(Singer等人,2022年)通过增加时间维度来扩展预训练的扩散图像模型,包括以下三个关键步骤:

  伪3D卷积层:每个空间2D卷积层(从预训练的图像模型初始化)后跟一个时间1D层(初始化为恒等函数)。理论上讲,2D卷积层先生成多帧图像,然后这些图像帧被重塑为视频片段。

  伪3D注意力层:在每个(预训练的)空间注意力层之后堆叠一个时间注意力层,并用它来近似全时空注意力层。

  Runway的Gen-1模型(Esser等人,2023年)旨在根据文本输入编辑给定的视频任务。它将视频的结构和内容设计分解为生成条件p(xs,c)。然而,将视频的结构与内容进行清晰的分解并不容易。

  Contentc指视频特征(appearance)和语义, 从文本中采样进行条件编辑。帧的CLIP嵌入是内容的良好表征,并且在很大程度上与结构特征呈正交分布。

  Structures描述了视频的几何与动态特征,包括对象的形状、位置、时间变化等,s从输入视频中采样得到,可以使用深度估计(depth estimation)或其他任务特定的辅助信息(如用于人类视频合成的姿势或面部特征点)。

  Gen-1中的架构变化相当标准,即在其残差块中每个2D空间卷积层后添加1D时间卷积层,在其注意力块中每个2D空间注意力块后添加1D时间注意力块。在训练期间,结构变量s与扩散潜变量z进行串联操作, 其中内容变量c由交叉注意力层提供。推理时,通过先验知识将CLIP嵌入转换为CLIP图像嵌入,从而将CLIP文本嵌入转换为CLIP图像嵌入。

  然而,LDM 的预训练自编码器存在一个问题,它只能处理图像而不能处理视频。简单地将其用于视频生成可能会导致闪烁的伪影等问题,缺乏良好的时间连贯性。因此,视频 LDM 在中添加了额外的时间层,并用基于 3D 卷积构建的patch-wise时间鉴别器对视频数据进行微调,而编码器保持不变,这样我们仍然可以重用预训练的 LDM。在时间微调过程中,冻结的编码器独立处理视频中的每一帧,并通过视频感知鉴别器在帧之间实现时间上的连贯重建。

  与Video LDM类似,稳定视频扩散(SVD;Blattmann等,2023年)的架构设计也基于LDM,但在每个空间卷积和注意力层之后插入了时间层,但SVD微调了整个模型。训练视频LDM有三个阶段:

  SVD特别强调数据集精选在模型性能中的关键作用。他们应用了一个剪切检测流程来获取每个视频更多的切割点,然后应用了三种不同的字幕模型:(1) CoCa用于中间帧,(2) V-BLIP用于视频字幕,以及(3) 基于前两个字幕的 LLM 字幕。然后他们能够继续改进视频数据集,通过移除动作较少的片段(通过在2fps计算的低光流分数进行筛选),存在过多文本的片段(应用OCR来识别包含大量文本的视频),或者普遍审美价值较低的片段(使用CLIP嵌入对每个片段的第一帧、中间和最后一帧进行标注并计算美学分数和文本-图像相似度)。实验表明,经过筛选的、更高质量的数据集会带来更好的模型质量,即使这个数据集要小得多。

  保持高质量的时间一致性是先生成远程关键帧,然后再通过时间超分辨率添加插值这一过程中的关键挑战。相比之下,Lumiere(Bar-Tal等,2024年)采用了空时 U-Net(STUNet)架构,通过一次传递生成整个视频的整个时间段,消除了对TSR(时间超分辨率)组件的依赖。STUNet在时间和空间维度上对视频进行下采样,因此昂贵的计算发生在紧凑的时间-空间潜空间中。

  如何保持高质量的时间一致性的关键挑战,Lumiere(Bar-Tal等,2024年)相反采用了一种称为空时 U-Net(STUNet)的架构,通过单次传递生成整个视频的整个时间持续周期,从而消除了对 TSR(时间超分辨率)组件的依赖。STUNet在时间和空间维度上对视频进行降采样,因此,在紧凑的时空潜空间中,出现了成本更高的计算。

  STUNet将预训练的文本到图像U-net进行扩展,以便能够在时间和空间维度上对视频进行下采样和上采样。基于卷积的block包括预训练的文本到图像层,然后是分解的时空卷积。在最粗糙的U-Net级别上的基于注意力的block包含预训练的文本到图像,然后是时间注意力。进一步的训练只发生在新添加的层上。

  如果我们简单地随机采样一系列潜在代码,然后构建解码对应图像的视频,那么对象和语义在时间上的一致性是没有保证的。Text2Video-Zero(Khachatryan 等人,2023年)通过以下两个关键机制来增强预训练的图像扩散模型,以实现零训练、无需训练的视频生成,确保时间上的一致性:

  使用第一帧上每帧的新跨帧注意力来对帧级自注意力进行重新编码,以保留前景对象的上下文、外观和身份。

  此外,Text2Video-Zero将预训练的SD模型中的自注意力层替换为一种新的跨帧注意力机制,参考第一帧。其动机是在生成的视频中保留关于前景对象的外观、形状和身份的信息。

  1.跨帧注意力(Cross-frame attention):在自注意力模块中增加完全的跨帧交互。它通过将所有时间步的潜变量帧映射到Q,K,V矩阵中,引入了所有帧之间的交互作用,与Text2Video-Zero不同,后者只配置所有帧,以关注第一帧。

  2.交错帧平滑器(Interleaved-frame smoother)是一种机制,用于在交替帧上进行帧插值,以减少闪烁效果。在每个时间步t,平滑器对偶数或奇数帧进行插值,以平滑它们对应的三帧片段。请注意,在平滑步之后,帧数会随时间减少。

  3.利用分层采样器(Hierarchical sampler)实现在内存限制下保持时间一致性的长视频。长视频被分割成多个短片段,每个片段都选择了一个关键帧。模型预生成这些关键帧,使用完全的跨帧注意力以保持长期连贯性,并且每个相应的短片段都是在关键帧的条件下依次合成的。


im电竞
im电竞官网注册_im电竞平台官网 版权所有  沪icp备12037774号-14