UniAudio-Token: Empowering Semantic Speech Tokenizers with General Audio Perception
UniAudio-Token: 赋予语义语音分词器通用音频感知能力
发表机构 * State Key Laboratory of Multimedia Information Processing, School of Computer Science, Peking University(信息处理国家重点实验室,计算机学院,北京大学) ; Basic Model Technology Center, WeChat AI, Tencent Inc.(基础模型技术中心,微信AI,腾讯公司)
AI总结 提出UniAudio-Token框架,通过语义-声学基元(SAP)和语义-声学均衡(SAE)机制,在不牺牲语音能力的前提下为语义分词器注入通用音频感知,实现统一音频接口。
Comments 19 pages, 10 figures