Subtitle-Aligned Fine-Tuning of Whisper for Swiss German ASR: Benchmark Contamination, Convention Mismatch, and an Honest Baseline at 25.6% WER (13.8% cWER)
针对瑞士德语音识别的Whisper字幕对齐微调:基准污染、惯例不匹配以及25.6% WER(13.8% cWER)的诚实基线
发表机构 * Independent Researcher, Zurich, Switzerland(独立研究员,瑞士苏黎世) ; ETH Zürich(苏黎世联邦理工学院) ; University of Bern(伯尔尼大学) ; FHNW(西北应用科学与艺术大学) ; CeTIM Leiden/Munich(CeTIM 莱顿/慕尼黑)
AI总结 通过1,367小时广播语音与标准德语字幕的弱监督,系统微调Whisper large-v3用于瑞士德语音识,发现公开结果因基准污染被高估,并发布两个诚实评估的模型。
Comments 15 pages, 21 tables. Models available at https://huggingface.co/Flix-AI