A Semi-Supervised Framework for Speech Confidence Detection using Whisper
发表机构 * Department of Computer Science(计算机科学系)
AI总结 本文提出了一种半监督框架,用于利用Whisper模型进行语音自信度检测,旨在解决因标注数据有限和副语言标注主观性强而导致的挑战。该框架融合了Whisper编码器提取的深层语义嵌入,以及由eGeMAPS描述符和语音压力、不流畅性概率估计构成的可解释声学特征向量,并引入了一种不确定性感知的伪标签策略以减少对标注数据的依赖。实验表明,该方法在Macro-F1指标上达到0.751,优于多个自监督基线模型,并在小样本类别上提升了3%,验证了显式韵律和辅助特征对提升自信度检测性能的重要作用。
Comments 12 pages, 9 Figures, Submitted to IEEE Transactions on Audio, Speech and Language Processing