EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation
AI总结 EntityBench 是一个用于评估多镜头视频生成中实体一致性能力的基准数据集,包含140个情节(共2,491个镜头),从真实叙事媒体中提取,涵盖不同难度级别的场景,并明确追踪角色、物体和地点在多镜头间的连续性。该基准引入了三部分评估体系,分别评估单镜头质量、提示对齐度和跨镜头一致性,并通过“保真度门”机制确保只有准确的实体表现在跨镜头评分中被计入。研究还提出了一种基于记忆增强的生成方法EntityMem,通过在生成前存储每个实体的视觉参考,显著提升了跨镜头实体一致性表现。