Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow
基于整流流的混合扩散变压器用于指令引导音频编辑
发表机构 * Centre for Vision, Speech and Signal Processing (CVSSP), University of Surrey(萨里大学视觉、语音与信号处理中心) ; School of Artificial Intelligence, Beijing University of Posts and Telecommunications(北京邮电大学人工智能学院) ; Fisheries College, Ocean University of China(中国海洋大学水产学院) ; College of Information and Electrical Engineering, China Agricultural University(中国农业大学信息与电气工程学院)
AI总结 提出混合两阶段扩散变压器架构,通过粗到细策略平衡全局语义对齐与局部细节编辑,在重叠音频事件和复杂指令任务上提升性能与效率。