前言:VideoFactory提出了一种新颖的交换时空交叉注意机制来加强空间和时间之间的相互作用,并发布了目前最大的视频数据集,包含了130万个文本-视频对。这篇博客详细解读一下这篇论文的创新点,希望能对做扩散模型视频生成的读者有所帮助。
目录
贡献概述
作者提出了一种不同于之前伪3D模块的方法(Align your Latents、Make-A-Video、MagicVideo)和无参数法(Latent-Shift、Tune-a-video)的方法,在3D窗口中使用交换的交叉注意机制,取得了更好的效果。
作者自己概括的两个主要贡献点:
- 作者揭示了学习空间和时间特征对于视频生成的重要性,并引入了一种新颖的交换时空交叉注意机制来加强空间和
文章评论