EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing
AI总结 本文研究弱监督音视频视频解析(AVVP)问题,旨在仅使用粗粒度标签识别和定位视频中的音频、视觉及音视频事件。现有方法多关注多模态融合,却忽视了对单模态语义的引导与保持,导致伪标签噪声大、解析性能不佳。为此,本文提出一种增强单模态表征的新框架,通过相似性标签迁移方法提升伪标签生成器对单模态事件的理解,并采用软约束方式同步优化单模态与多模态特征建模,从而提升事件定位性能。实验表明,该方法在伪标签生成和AVVP任务中均优于现有先进方法。