StuPASE: Towards Low-Hallucination Studio-Quality Generative Speech Enhancement
StuPASE:迈向低幻觉、工作室质量的生成式语音增强
专题命中 音视频多模态 :生成式语音增强,属于音频处理
AI总结 提出StuPASE,基于PASE框架,通过使用干目标微调和流匹配模块替代GAN,在保持低幻觉的同时实现工作室级语音质量,优于现有方法。
Comments Accepted to Interspeech 2026
AI 大模型
跨文本、图像、视频、音频等模态的大模型与学习方法。
StuPASE:迈向低幻觉、工作室质量的生成式语音增强
专题命中 音视频多模态 :生成式语音增强,属于音频处理
AI总结 提出StuPASE,基于PASE框架,通过使用干目标微调和流匹配模块替代GAN,在保持低幻觉的同时实现工作室级语音质量,优于现有方法。
Comments Accepted to Interspeech 2026
InstructTime++: 通过隐式特征增强的多模态语言建模进行时间序列分类
发表机构 * State Key Laboratory of Cognitive Intelligence, University of Science and Technology of China(中国科学技术大学认知智能国家重点实验室)
专题命中 图文多模态 :融合数值序列、文本特征和指令的多模态输入
AI总结 提出将时间序列分类转化为多模态生成任务,通过离散化模块和对齐投影层弥合模态差距,并利用隐式特征建模提升语言模型性能。
ChronoSurv:一种临床路径引导的多模态生存分析图框架
发表机构 * Université Paris-Saclay, CentraleSupélec, MICS, France(巴黎萨克雷大学,中央超算学院,MICS,法国) ; University of Lyon, INSA Lyon, CREATIS, France(里昂大学,里昂国家理工学院,CREATIS,法国)
专题命中 其他多模态 :处理多模态临床数据,但非大模型
AI总结 提出ChronoSurv,一种基于有向图的多模态生存分析框架,通过层次化拓扑和异质消息传递建模临床轨迹,在头颈癌数据集上取得最优判别性能与可靠校准。
Comments Accepted at MICCAI 2026. Submitted version due to embargo