DiFlow-TTS: Compact and Low-Latency Zero-Shot Text-to-Speech with Discrete Flow Matching
DiFlow-TTS: 基于离散流匹配的紧凑低延迟零样本文本转语音
AI总结 提出DiFlow-TTS框架,通过离散流匹配和分解离散流去噪器,在零样本TTS中实现高质量与低延迟的平衡。
Comments Accepted at Interspeech 2026 (Long Paper Track)
DiFlow-TTS: 基于离散流匹配的紧凑低延迟零样本文本转语音
AI总结 提出DiFlow-TTS框架,通过离散流匹配和分解离散流去噪器,在零样本TTS中实现高质量与低延迟的平衡。
Comments Accepted at Interspeech 2026 (Long Paper Track)
Phonikud:克服希伯来语文本转语音中的语音欠指定问题
发表机构 * Independent Researcher(独立研究者) ; Reichman University(雷赫曼大学) ; Tel Aviv University(特拉维夫大学) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出Phonikud框架,通过开源G2P系统、语料库、基准和评估模型,解决希伯来语TTS中重音等语音特征欠指定问题,实现更准确的音素预测。
Comments Accepted to Interspeech 2026. Project page: https://phonikud.github.io
语音感知大语言模型的说话人验证:评估与增强
发表机构 * Electrical and Computer Engineering Department, Johns Hopkins University, Baltimore, MD, USA(约翰霍普金斯大学电气与计算机工程系) ; Human Language Technology Center of Excellence, Johns Hopkins University, Baltimore, MD, USA(约翰霍普金斯大学人机语言技术中心卓越中心)
AI总结 提出模型无关的评分协议评估语音感知LLM的说话人区分能力(EER>20%),并通过注入冻结的ECAPA-TDNN说话人嵌入和LoRA微调,实现接近专用系统的性能(EER 1.03%)。
Comments 3 Tables, 1 Figure, Published in Interspeech 2026
语音基础模型是否像人类一样感知说话人相似性?
发表机构 * Keio University, Japan(庆应大学,日本) ; The University of Tokyo, Japan(东京大学,日本)
AI总结 本研究通过比较40多个语音基础模型的说话人嵌入与人类主观相似性评分,探究模型距离是否与人类感知一致,并识别影响模型与人类感知一致性的关键配置因素。
Comments Accepted by INTERSPEECH 2026. Camera-ready version
当相同的音乐知识以不同方式遗忘:路径依赖遗忘的干净探测
发表机构 * Institute of Information Engineering, CAS(中国科学院信息工程研究所) ; School of Cyber Security, UCAS(中国科学院大学网络空间安全学院) ; The University of Western Australia(西澳大利亚大学) ; Beihang University(北京航空航天大学)
AI总结 提出配对路径控制协议(PPCP),发现多模态模型中通过文本路径获取的知识比音频路径更易遗忘,且该效应不受架构深度影响,主要源于输入表示差异。
TurnGuide: 通过动态轮次级文本-语音交错增强有意义的全双工口语交互
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; Huawei Technologies(华为技术)
AI总结 提出TurnGuide方法,通过动态分割助手语音为对话轮次并交错生成轮次级文本和语音,解决全双工语音语言模型在连续双通道音频中集成离散文本令牌导致的时间对齐问题,显著提升语义连贯性和轮次交互性能。
Comments Interspeech 2026 Long Paper Track
我们能从事件中听到声音吗?从事件相机生成语音
发表机构 * Beijing Technology and Business University(北京技术与商业大学) ; Xidian University(西安电子科技大学) ; Tongji University(同济大学) ; University of Sydney(悉尼大学)
AI总结 提出EventSpeech框架,利用神经形态事件相机的高时间精度解决传统RGB语音生成中的时间粒度不匹配问题,实现情感丰富且抗运动模糊的语音生成。
太平洋土著语音识别的持续适应
发表机构 * The University of Melbourne(墨尔本大学) ; UNSW Sydney(新南威尔士大学悉尼分校)
AI总结 针对太平洋土著语言数据稀缺和灾难性遗忘问题,研究语音基础模型的适应策略,发现LoRA在顺序学习中会灾难性遗忘,需定制鲁棒适应方法。
Comments Accepted by Interspeech 2026
PolyBench:多声部音频中组合推理的基准测试
发表机构 * Harbin University of Science and Technology(哈尔滨理工大学) ; The University of Melbourne(墨尔本大学) ; KAIST(韩国成均馆大学) ; University of Surrey(萨里大学)
AI总结 针对多声部音频中组合推理评估缺失的问题,提出PolyBench基准,包含计数、分类、检测、并发和时长估计五个子集,评估发现现有大音频语言模型在多声部场景下性能持续下降。
Comments Accepted by INTERSPEECH 2026
环境声音深度伪造检测挑战赛:鲁棒性、评估与洞察的基准测试
发表机构 * School of Electrical Engineering, KAIST, Daejeon, Republic of Korea(韩国成均馆大学电气工程学院) ; University of Melbourne, Australia(墨尔本大学) ; Fortemedia Singapore, Singapore(新加坡Fortemedia公司) ; Xi’an University of Posts & Telecommunications, Xi’an, China(西安邮电大学) ; Xi'an Lianfeng Acoustic Technologies Co., Ltd., China(西安联丰声学技术有限公司)
AI总结 本文介绍了环境声音深度伪造检测挑战赛,探讨了鲁棒性评估、系统架构及未来研究方向,提出了环境声音深度伪造检测的关键挑战与机遇。
Comments Accepted by Interspeech 2026
LALM-as-a-Judge:用于多轮口语对话安全评估的大型音频语言模型基准测试
发表机构 * Computer Engineering, Technion--Israel Institute of Technology, Haifa, Israel(技术学院电子工程系,技术离子技术研究所,以色列海法) ; Language Technologies Institute, Carnegie Mellon University, Pittsburgh, PA, USA(语言技术研究所,卡内基梅隆大学,美国匹兹堡)
AI总结 针对口语对话中社会不安全内容评估仍以文本为中心、忽略韵律和转录失败的问题,提出包含24000个多轮口语对话的开放基准,评估6种大型音频语言模型在文本、音频和多模态设置下的敏感性、严重性顺序特异性和轮次位置偏差,发现音频提供非词汇证据,多模态增益非普遍且存在多种模式。
Comments Accepted to ICML 2026
FLiP:理解和解释多模态多语句子嵌入
发表机构 * Brno University of Technology(布拉格技术大学)
AI总结 提出因子化线性投影(FLiP)模型,从多语言、多模态句子嵌入中恢复词汇内容,揭示编码器的模态和语言偏差。
Comments Accepted to Interspeech 2026
发表机构 * Department of Biomedicine and Prevention University of Rome Tor Vergata(生物医学与预防系罗马大学托尔维加塔分校) ; A.A. Martinos Center for Biomedical Imaging Harvard Medical School/MGH, Boston (US)(A.A. Martinos生物医学成像中心哈佛医学院/马萨诸塞总医院,波士顿(美国))
Comments The first two authors contributed equally to this work
Comments Accepted at the 25th International Conference on Text, Speech and Dialogue (TSD 2022)