Reliable Neural-Codec Text-to-Speech by ASR Self-Verification and Distillation: Near-Zero Catastrophic Failures Across Models and Codecs
通过ASR自验证与蒸馏实现可靠的神经编解码文本转语音:跨模型与编解码器的近零灾难性失败
发表机构 * Transformer Lab
AI总结 针对开放自回归神经编解码TTS模型的随机灾难性失败(静音、早停、重复或幻觉),提出基于ASR往返的格式鲁棒度量,通过最佳N自验证将失败率降至近零,并通过蒸馏将鲁棒性迁移至单次解码,在无测试代价下关闭约52-58%的失败。