Compositional Video Generation via Inference-Time Guidance
AI总结 文本到视频扩散模型虽然能够生成逼真的视频,但在需要细致组合理解的提示任务上表现不佳,例如实体关系、属性、动作和运动方向等。本文提出了一种名为CVG的推理时引导方法,通过利用模型内部的交叉注意力图来捕捉提示概念在时空上的分布,并训练一个轻量级的组合分类器,利用其梯度在去噪早期阶段引导潜在变量轨迹,从而提升生成视频的组合忠实度。该方法无需修改模型结构或微调生成器,仅依靠冻结的视觉语言模型主干即可实现跨语义相关组合标签的迁移,实验表明其在组合性文本到视频任务上显著提升了生成结果的准确性与视觉质量。