WARDEN: Endangered Indigenous Language Transcription and Translation with 6 Hours of Training Data
AI总结 本文介绍了WARDEN,一个用于转录和翻译濒危的澳大利亚原住民语言Wardaman到英语的早期语言模型系统。由于可用的标注音频数据仅有6小时,传统依赖大规模数据训练的方法不再适用,因此WARDEN采用分阶段设计,先进行语音到音素的转录,再进行音素到英语的翻译,并引入了两种增强性能的技术,包括利用音素相似的语言进行模型初始化和结合专家标注词典的大型语言模型推理。实验表明,WARDEN在极低数据条件下表现优于传统统一模型,为濒危语言处理提供了有力的基线。