Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models
本文提出了一种新颖的富语境条件扩散模型(Rich-contextual Conditional Diffusion Models, RCDMs),旨在增强故事可视化中的语义和时间一致性。文章首先指出现有方法在生成连贯故事时,往往忽视了上下文的一致性和相关性。接着,作者提出了一个两阶段的方法:第一阶段利用框架先验Transformer扩散模型预测未知片段的框架语义嵌入;第二阶段通过丰富的上下文条件建立强大的模型,包括已知片段的参考图像、未知片段的预测框架语义嵌入和所有字幕的文本嵌入,以实现图像和特征层面的联合注入。
在方法部分,作者详细介绍了RCDMs的工作原理。第一阶段的框架先验变换器扩散模型通过对比已知片段的字幕和框架之间的语义关联,预测未知片段的语义嵌入。第二阶段的框架上下文3D扩散模型则利用已知片段的参考图像、未知片段的预测语义嵌入以及所有字幕的文本嵌入,通过图像和特征层面的丰富上下文条件生成一致性故事。此外,与自回归模型相比,RCDMs能够通过单次前向推理生成一致性故事。
实验部分展示了RCDMs在两个数据集上的定性和定量结果,证明了所提方法在具有挑战性的场景中的优越性。通过与现有最先进方法的比较,RCDMs在多个指标上均表现出更好的性能,包括人物分类准确度(Char-Acc)、人物F1分数(Char-F1)和Fréchet inception distance(FID)得分。用户研究也表明,RCDMs在视觉质量、文本-图像相关性和风格/时间一致性方面得到了更高的评价。这表明,通过在图像和特征层面注入丰富上下文条件,RCDMs能够显著提升故事可视化的质量。
GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models
本文介绍了GlyphDraw2,一个用于自动生成复杂字形海报的系统,它结合了扩散模型和大型语言模型。海报在市场营销和广告中扮演着重要角色,而GlyphDraw2旨在通过精确的文本渲染和自动化布局生成高分辨率、多比例的海报图像。该系统通过三重交叉注意力机制,基于对齐学习,确保文本在丰富背景中的准确性和布局的自动化。
GlyphDraw2框架利用了SDXL架构,并通过大型语言模型微调来生成文本边界框的位置信息,从而实现布局策略的适应性和弹性。系统还采用了PP-OCR技术来编码文本笔画属性,并结合图像标题作为文本特征输入。此外,引入了两个额外的交叉注意力机制:一个类似于IP-Adapter的字形图像提示适配器和一个基于ControlNet的自适应融合模块,以增强文本生成的准确性。
通过广泛的实验验证了GlyphDraw2生成具有复杂背景和丰富上下文的海报图像的能力。实验包括定量和定性的结果分析,与现有的文本渲染和海报生成方法进行了比较。结果表明,GlyphDraw2在生成海报方面表现出色,无论是在文本渲染的准确性、布局的准确性、鲁棒性还是整体美学质量上都有显著提升。此外,还进行了消融研究,以评估系统不同组件的有效性,并讨论了系统的局限性和未来改进方向。
VFIMamba: Video Frame Interpolation with State Space Models
VFIMamba是一种新颖的视频帧插值(VFI)方法,通过利用选择性状态空间模型(S6)来高效动态地模拟帧间信息。与传统依赖卷积或注意力机制的方法相比,VFIMamba通过混合状态空间模型块(MSB)实现全局感知能力和线性复杂度的结合,特别适合处理高分辨率视频。
该方法首先通过轻量级卷积层提取输入帧的浅层特征,然后使用MSB进行多分辨率帧间建模。MSB通过交错排列相邻帧的标记并应用多方向S6建模,有效传递跨帧信息。此外,VFIMamba引入了一种新的课程学习策略,逐步培养模型处理不同运动幅度的帧间动态的能力,充分释放S6模型的潜力。
在多种基准数据集上的广泛测试表明,VFIMamba在不同分辨率的输入上均实现了最先进的性能,特别是在高分辨率和大运动场景中表现突出。例如,在X-TEST数据集上,对于4K帧,VFIMamba实现了0.80 dB的显著改进,对于2K帧则提高了0.96 dB。这些实验结果证明了VFIMamba在视频帧插值任务中的高效性和有效性。
文章评论