MixProLAP: Mixture-Induced Uncertainty Modeling for Probabilistic Language-Audio Pretraining
MixProLAP:混合诱导的不确定性建模用于概率性语言-音频预训练
专题命中 音视频多模态 :概率性音频-语言预训练,建模多模态对齐不确定性
AI总结 提出概率性音频-语言预训练框架MixProLAP,通过混合音频-文本对模拟重叠声音,建模多对多对应不确定性,并引入多级包含损失,在音频-文本检索中优于确定性基线。
Comments Accepted to Interspeech 2026