Benchmarking Single-Factor Physical Video-to-Audio Generation
单因素物理视频到音频生成的基准测试
发表机构 * UC Berkeley(伯克利大学) ; NVIDIA(英伟达) ; University of Washington(华盛顿大学)
AI总结 提出FlatSounds基准,通过控制反事实对和单视频模式测试评估视频到音频模型的物理推理能力,发现模型依赖文本描述而非视觉流,且物理准确性与时序对齐存在权衡。
Comments CVPR 2026