Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition
AI总结 该研究针对多语言语音识别模型在低资源语言上的微调问题,提出了Vividh-ASR基准,用于评估印地语和马拉雅拉姆语在不同复杂度场景下的识别性能。通过分析学习率时机和课程学习顺序,研究发现早期大参数更新和由易到难的课程学习策略能显著提升模型性能,特别是对自发语音的识别效果。基于这些发现,作者提出了逆向多阶段微调方法(R-MFT),使参数高效的244M Whisper模型在性能上达到甚至超越传统微调的769M模型。
Comments Submitted to Interspeech 2026