TARNet: A Temporal-Aware Multi-Scale Architecture for Closed-Set Speaker Identification
AI总结 本文提出了一种名为TARNet的轻量级时序感知多尺度网络,用于闭集说话人识别任务。该方法通过多阶段时序编码器在不同时间尺度上显式建模时序信息,并结合注意力统计池化模块融合多尺度特征,生成具有判别力的说话人嵌入。实验表明,TARNet在VoxCeleb1和LibriSpeech数据集上优于现有先进方法,且计算复杂度较低,适合实际应用。
Comments Accepted at IEEE International Conference on Multimedia and Expo (ICME) 2026. Code available at: https://github.com/YassinTERRAF/TARNet