SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning
发表机构 * Korea Advanced Institute of Science and Technology (KAIST)(韩国科学技术院) ; University of Seoul(首尔大学)
AI总结 随着物理人工智能、对话机器人和无屏可穿戴设备的发展,音频大语言模型需要具备针对说话人的理解能力,以支持用户认证、个性化和上下文感知交互。为此,本文提出 SpeakerLLM,一种专门针对说话人的音频大语言模型框架,能够统一处理单句说话人画像、录音条件理解、双句说话人对比以及基于证据的验证推理。其核心是采用分层说话人分词器,分别捕捉说话人身份和录音条件的多粒度信息,并通过结构化推理轨迹提升验证推理的准确性和可解释性。