多模态大模型

2606.20418 2026-06-19 cs.SD 新提交专题 90

MixProLAP: Mixture-Induced Uncertainty Modeling for Probabilistic Language-Audio Pretraining

MixProLAP：混合诱导的不确定性建模用于概率性语言-音频预训练

Yu Nakagome, Jaesong Lee, Soo-Whan Chung

专题命中音视频多模态：概率性音频-语言预训练，建模多模态对齐不确定性

AI总结提出概率性音频-语言预训练框架MixProLAP，通过混合音频-文本对模拟重叠声音，建模多对多对应不确定性，并引入多级包含损失，在音频-文本检索中优于确定性基线。

Comments Accepted to Interspeech 2026

URL PDF HTML

2606.19940 2026-06-19 eess.AS 新提交专题 85

Analyzing Language and Geographical Variation in Speech Representations Across 60 Indic Languages

分析60种印度语言语音表征中的语言和地理变异

Pavan Kumar J, Agneedh Basu, Pranav Bhat, Sujith Pulikodan, Visruth Sanka, Nihar Desai, Prasanta Kumar Ghosh

专题命中音视频多模态：联合语言-地区监督微调语音表征，属于多模态学习

AI总结研究通过联合语言-地区监督微调Whisper-base和Wav2Vec2.0，发现该方法在保持语言分类能力的同时，提升了嵌入空间中地区区分度，并利用归一化条件互信息分析了嵌入结构。

URL PDF HTML

2606.19398 2026-06-19 cs.SD eess.AS eess.SP 新提交专题 85

S-JEPA : Soft Clustering Anchors for Self-Supervised Speech Representation Learning

S-JEPA：用于自监督语音表示学习的软聚类锚点

Georgios Ioannides, Adrian Kieback, Judah Goldfeder, Linsey Pang, Aman Chadha, Aaron Elkins, Yann LeCun, Ravid Shwartz-Ziv

专题命中音视频多模态：自监督语音表示学习，属于音频模态。

AI总结提出S-JEPA，通过KL散度匹配高斯混合模型的软后验概率训练编码器-预测器对，无需离线重聚类或教师蒸馏，在SUPERB协议下以低于90M参数取得最低WER，并建立新的帕累托前沿。

URL PDF HTML

2606.19381 2026-06-19 cs.SD cs.AI 新提交专题 85

Improving Code-Switching ASR with Code-Mixing Guided Synthetic Speech

利用语码混合引导的合成语音改进语码转换语音识别

Yue Heng Yeo, Haoyang Li, Yizhou Peng, Shreyas Gopal, Hexin Liu, Leibny Paola Garcia-Perera, Hardik B. Sailor, Jeremy H. M. Wong, Eng Siong Chng

专题命中音视频多模态：改进语码转换语音识别，结合文本和语音。

AI总结针对语码转换语音识别中高质量文本-语音对稀缺的问题，提出语码混合引导的偏好学习框架，通过语码混合指数优化合成语音的转换保真度，在SEAME语料库上微调Whisper Large，将混合错误率从12.1%/17.8%降至8.9%/14.2%。

Comments Accepted to Interspeech 2026

URL PDF HTML

2606.20266 2026-06-19 eess.AS 新提交专题 80

Transcript-Free Flow-Matching Text-to-Speech via Speech Feature Conditioning

基于语音特征调节的无转录流匹配文本转语音

SooHwan Eom, Hee Suk Yoon, Eunseop Yoon, Mark Hasegawa-Johnson, Chang D. Yoo

专题命中音视频多模态：流匹配TTS，使用自监督语音表示

AI总结提出RTFree-F5，用自监督语音表示替代参考转录本，通过轻量适配器映射到F5-TTS文本条件空间，消除对外部ASR依赖，在构音障碍语音上WER从24.6%降至10.4%。

Comments Accepted to Interspeech 2026

URL PDF HTML

2606.20457 2026-06-19 eess.AS cs.AI cs.LG 新提交专题 80

Repurposing a Speech Classifier for Guided Diffusion-Based Speech Generation

重新利用语音分类器进行基于引导扩散的语音生成

Rostislav Makarov, Timo Gerkmann

专题命中音视频多模态：语音分类器重用于扩散生成

AI总结提出将预训练的语音分类器作为扩散生成的主干，通过附加轻量子网络并仅训练该子网络，实现单主干模型的高质量条件语音生成，降低内存和计算成本。

Comments Accepted for publication in the Proceedings of Interspeech 2026

URL PDF HTML

2603.10791 2026-06-19 eess.IV 版本更新专题 80

Semantic Satellite Communications for Synchronized Audiovisual Reconstruction

面向同步视听重建的语义卫星通信

Fangyu Liu, Peiwen Jiang, Wenjin Wang, Xiao Li, Shi Jin

专题命中音视频多模态：提出多模态语义传输系统实现视听同步重建。

AI总结提出自适应多模态语义传输系统，通过双流生成架构和动态关键帧更新机制，在带宽受限的卫星场景下实现高质量同步视听重建，显著降低带宽消耗并提升鲁棒性。

URL PDF HTML

2606.20338 2026-06-19 eess.AS 新提交专题 70

Stuttering Classification and Segmentation with Attention-Based Multiple Instance Learning

基于注意力多实例学习的口吃分类与分割

Petar Sušac, Sebastian P. Bayerl, Hrvoje Džapo

专题命中音视频多模态：多实例学习用于语音分类与分割

AI总结提出基于微调wav2vec 2.0、WavLM和Whisper编码器的多实例神经网络，利用片段级数据实现帧级口吃分类与分割，帧级F1提升23%。

Comments Accepted at Interspeech 2026

URL PDF HTML

2606.20001 2026-06-19 eess.AS 新提交专题 70

Time-Unconditional Generative Speech Enhancement via Autonomous Rectified Flow

基于自主整流流的时间无条件生成式语音增强

Wen Zhang, Wenbin Jiang, Yang Zhang, Xiaofei Zhou

专题命中音视频多模态：生成式语音增强，整流流框架

AI总结提出自主整流流框架，通过线性插值路径证明目标向量场时间不变性，设计时间无条件网络仅从空间关系推断去噪方向，显著提升生成质量、鲁棒性和推理效率。

URL PDF HTML

2606.19974 2026-06-19 eess.AS 新提交专题 70

Interpreting Content and Speaker Characteristics in Factorised Self-Supervised Subspaces

解释因子化自监督子空间中的内容和说话人特征

Kyle Janse van Rensburg, Herman Kamper

专题命中音视频多模态：自监督语音特征分解与解释

AI总结通过SVD分解WavLM特征为内容矩阵和说话人变换，发现内容空间主要编码强度、共振峰和发声，而说话人空间与音高和性别强相关，并可用于语音合成中的精细控制。

Comments 7 pages, 4 figures

URL PDF HTML

2606.19453 2026-06-19 eess.AS 新提交专题 70

A Survey of Full-Duplex Spoken Dialogue Systems: Architectural Hierarchy, Interaction Ontology, and Decision State Machine

全双工口语对话系统综述：架构层次、交互本体与决策状态机

Jingyu Lu, Yuhan Wang, Jianming Luo, Yifu Chen, Tianle Liang, Shengpeng Ji, Ziyue Jiang, Xiaoda Yang, Yu Zhang, Xize Cheng, Chenyuhao Wen, Changhao Pan, Haoxiao Wang, Chen Ye, Jian Wu, Xiaoxi Jiang, Guanjun Jiang, Zhou Zhao

专题命中音视频多模态：全双工口语对话系统涉及语音与文本多模态交互

AI总结针对全双工术语歧义，提出L0-L3架构层次、T×I×R交互本体和IDLE/LISTEN/SPEAK/WAIT/DUAL决策状态机三个框架，揭示现有系统在训练与评估中的实现差距。

Comments 34 pages, 5 figures, 7 tables. Project page and interactive demo: https://github.com/DuplexLM/DuplexSurvey

URL PDF HTML

2606.20137 2026-06-19 eess.AS cs.CL cs.LG cs.SD 新提交专题 70

PASQA: Pitch-Accent-Focused Speech Quality Assessment Model Trained on Synthetic Speech with Accent Errors

PASQA：针对重音错误的合成语音训练的以音高重音为中心的语音质量评估模型

Masaya Kawamura, Yuma Shirahata, Kentaro Mitsui, Reo Shimizu

专题命中音视频多模态：语音质量评估，关注音高重音

AI总结提出PASQA模型，通过可控重音合成数据集和伪重音质量分数，结合自监督表示、摩拉条件融合等训练策略，有效评估音高重音正确性，优于传统MOS模型。

Comments Accepted to INTERSPEECH 2026

URL PDF HTML

2606.20106 2026-06-19 eess.AS cs.SD 新提交专题 70

Personalized Keyword Spotting for User-Defined Keywords Leveraging Text-Independent Speaker Verification

利用文本无关说话人验证的用户自定义关键词个性化唤醒

Ming-Hsiang Hu, Kuan-Tang Huang, Chien-Chun Wang, Hung-Shin Lee, Berlin Chen

专题命中音视频多模态：个性化关键词唤醒，说话人验证

AI总结提出ZP-KWS轻量框架，结合音素监督音频编码器和紧凑说话人编码器，通过乘法后融合实现零样本关键词检测与说话人验证，在多个数据集上将目标误拒率降低高达60%。

Comments Accepted to Interspeech 2026

URL PDF HTML

2606.19951 2026-06-19 eess.AS cs.CL cs.LG cs.SD 新提交专题 70

Investigating Human-Model Discrepancies in Speech Quality Assessment via Acoustic and Prosodic Perturbations

通过声学和韵律扰动研究语音质量评估中的人机差异

Masato Takagi, Masaya Kawamura, Reo Shimizu, Yuma Shirahata

专题命中音视频多模态：人机语音质量评估差异研究

AI总结通过声学退化、韵律错误和说话人特征扰动，发现MOS预测模型对声学退化敏感，但对韵律错误不敏感，且对基频有偏见，而对语速和基频变化不敏感。

Comments Accepted to INTERSPEECH 2026

URL PDF HTML

2606.19823 2026-06-19 eess.AS cs.LG 新提交专题 70

Low-Burden Data Augmentation for Dysarthric ASR via Zero-Shot Voice Cloning

低负担数据增强：通过零样本语音克隆改善构音障碍语音识别

Satwinder Singh, Qianli Wang, Zihan Zhong, Clarion Mendes, Hasegawa-Johnson, Waleed Abdulla, Seyed Reza Shahamiri

专题命中音视频多模态：零样本语音克隆增强构音障碍ASR

AI总结针对构音障碍语音数据稀缺和变异性大的问题，提出使用零样本语音克隆（Higgs Audio V2）生成合成数据，微调Whisper-medium模型，在TORGO数据集上达到与真实数据微调相近的词错误率，并显著降低数据收集成本。

Comments Accepted to Interspeech 2026, Sydney, Australia

URL PDF HTML

2606.19797 2026-06-19 eess.AS cs.AI cs.SD eess.SP 新提交专题 70

Improving End-to-End Speech Recognition for Dysarthric Speech through In-Domain Data Augmentation

通过域内数据增强改进构音障碍语音的端到端语音识别

Paban Sapkota, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Shrikanth Narayanan

专题命中音视频多模态：域内数据增强改善构音障碍ASR

AI总结针对构音障碍语音识别中数据稀缺和严重程度差异的问题，本文探索了四种数据增强方法（SRM、PM、FM、VTLP）对预训练Wav2Vec2模型进行微调，在不同严重程度上实现了显著的字错误率降低。

URL PDF HTML

2606.19793 2026-06-19 eess.AS cs.AI cs.LG cs.SD eess.SP 新提交专题 70

Systematic Study of Dysarthric Speech Recognition: Spectral Features and Acoustic Models

构音障碍语音识别的系统研究：频谱特征与声学模型

Paban Sapkota, Hemant Kumar Kathania, Mikko Kurimo, Sudarsana Reddy Kadiri, Shrikanth Narayanan

专题命中音视频多模态：构音障碍语音识别特征与模型研究

AI总结本文系统研究不同频谱特征与声学模型的组合，通过引入音高特征和优化训练帧重叠数，在F-TDNN模型上实现孤立词和句子识别相对提升4.65%和4.63%。

URL PDF HTML

2606.19791 2026-06-19 eess.AS cs.AI cs.SD 新提交专题 70

Cross-Dataset, Age, and Gender Generalization: A Comprehensive Analysis of Fine-Tuning Strategies for Low-Resource Children's ASR

跨数据集、年龄和性别泛化：低资源儿童语音识别的微调策略综合分析

Paban Sapkota, Hemant Kumar Kathania, Mikko Kurimo, Sudarsana Reddy Kadiri, Shrikanth Narayanan

专题命中音视频多模态：儿童语音识别微调策略泛化分析

AI总结针对低资源儿童语音识别，系统分析了不同微调策略在跨数据集、年龄和性别泛化上的表现，发现特定策略能显著提升泛化能力。

URL PDF HTML

2606.18249 2026-06-19 cs.CV 新提交专题 90

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

统一多模态自回归建模：共享上下文-视觉分词器是实现统一的关键

Wujian Peng, Lingchen Meng, Yuxuan Cai, Xianwei Zhuang, Yuhuan Yang, Rongyao Fang, Chenfei Wu, Junyang Lin, Zuxuan Wu, Shuai Bai

专题命中图文多模态：统一多模态自回归建模，桥接视觉理解与生成

AI总结提出UniAR框架，通过单一离散视觉分词器桥接视觉理解与生成，采用并行位预测和扩散解码，在图像生成和编辑上达到最优，同时保持多模态理解竞争力。

Comments ICML2026. Project page https://sharelab-sii.github.io/uniar-web

URL PDF HTML

2504.11171 2026-06-19 cs.CV cs.AI 版本更新专题 90

TerraMind: Large-Scale Generative Multimodality for Earth Observation

TerraMind：面向地球观测的大规模生成式多模态模型

Johannes Jakubik, Felix Yang, Benedikt Blumenstiel, Erik Scheurer, Rocco Sedona, Stefano Maurogiovanni, Jente Bosmans, Nikolaos Dionelis, Valerio Marsocci, Niklas Kopp, Rahul Ramachandran, Paolo Fraccaro, Thomas Brunschwiler, Gabriele Cavallaro, Juan Bernabe-Moreno, Nicolas Longépé

专题命中图文多模态：提出任意到任意多模态基础模型，覆盖九种地理空间模态。

AI总结提出首个任意到任意生成式多模态基础模型TerraMind，通过双尺度表示（token级和像素级）预训练，实现零样本/少样本应用，并引入“模态思考”能力，在PANGAEA等基准上达到领先性能。

Comments Accepted at ICCV'25

URL PDF HTML

2606.19534 2026-06-19 cs.CV cs.AI cs.CL 新提交专题 85

PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

PerceptionDLM：基于多模态扩散语言模型的并行区域感知

Yueyi Sun, Yuhao Wang, Jason Li, Ye Tian, Tao Zhang, Jacky Mai, Yihan Wang, Haochen Wang, Jinbin Bai, Ling Yang, Yunhai Tong

专题命中图文多模态：多模态扩散语言模型实现并行区域感知

AI总结提出PerceptionDLM，利用扩散语言模型的并行解码特性，通过高效提示和结构化注意力掩码实现多区域并行感知，显著提升推理效率，并构建ParaDLC-Bench基准进行评估。

Comments Code available at https://github.com/MSALab-PKU/PerceptionDLM

URL PDF HTML

2606.05833 2026-06-19 cs.CV cs.AI 版本更新专题 85

Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

从视频中学习几何表示以实现空间智能多模态大语言模型

Haibo Wang, Lifu Huang

专题命中图文多模态：提出GeoVR框架增强多模态大模型空间理解。

AI总结提出GeoVR框架，通过从2D视频序列中蒸馏3D几何知识（包括相机姿态、深度图、尺度因子和多尺度3D特征），重塑多模态大语言模型的内部表示以赋予其空间智能，在空间推理基准上达到最先进性能。

URL PDF HTML

2606.19706 2026-06-19 cs.CV cs.CL 新提交专题 80

NEST: Narrative Event Structures in Time for Long Video Understanding

NEST：面向长视频理解的时间叙事事件结构

Ali Asgarov, Kaushik Narasimhan, Najibul Haque Sarker, Hani Alomari, Chia-Wei Tang, Anushka Sivakumar, Zaber Ibn Abdul Hakim, Shaurya Mallampati, Chris Thomas

专题命中图文多模态：多模态叙事事件标注，涉及视觉、对话和音频。

AI总结提出NEST数据集（1005部全长电影），通过多模态叙事事件标注和关系链接，评估模型在长视频中理解事件结构、时间顺序和长程依赖的能力，实验表明事件检测等任务极具挑战性。

URL PDF HTML

2606.19413 2026-06-19 cs.LG 新提交专题 80

Does Text Actually Help? Uncovering and Resolving Text Collapse in Multimodal Time Series Forecasting

文本真的有用吗？揭示并解决多模态时间序列预测中的文本坍缩问题

Huu Hiep Nguyen, Minh Hoang Nguyen, Dung Nguyen, Hung Le

专题命中图文多模态：多模态时间序列预测中文本与数值的融合。

AI总结针对多模态时间序列预测中文本分支被忽视导致“文本坍缩”的问题，提出REST-TS方法，通过让文本分支专门预测数值主干无法解释的残差，强制其提取真实内容，实现最先进性能。

URL PDF HTML

2606.20527 2026-06-19 cs.CL cs.CV 新提交专题 70

StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

StylisticBias: 少数人类视觉线索驱动多模态大语言模型中的大部分社会偏见

Shaghayegh Kolli, Timo Cavelius, Nafiseh Nikeghbal, Samantha Dalal, Jana Diesner

专题命中图文多模态：研究多模态大语言模型中的视觉偏见

AI总结提出StylisticBias基准，通过控制单一视觉属性变化，发现年龄和体型主导身份层面偏见，而时尚风格等约15个属性解释近80%的偏见变化，偏见集中于少数视觉线索。

Comments Accepted to the non-archival workshops AI4Good and Culture x AI at ICML 2026

URL PDF HTML

2606.19882 2026-06-19 cs.CV cs.LG 新提交专题 70

Multimodal Concept Bottleneck Models

多模态概念瓶颈模型

Tongqing Shi, Ge Yan, Tuomas Oikarinen, Tsui-Wei Weng

专题命中图文多模态：结合图像和文本的多模态模型。

AI总结提出多模态概念瓶颈模型（MM-CBM），利用双概念瓶颈层对齐图像和文本嵌入，实现可解释的零样本分类和图像检索，在四个基准上平均准确率提升高达51.26%。

Comments Present at NeurIPS 2025 Mechanistic Interpretability Workshop

URL PDF HTML

2606.19727 2026-06-19 cs.CL cs.AI 新提交专题 70

NRITYAM: Language Models Meet Art and Heritage of Dance

NRITYAM：语言模型遇见舞蹈的艺术与遗产

Punit Kumar Singh, Niladri Ghosh, Advait Joshiınst, Shailee Choudhary, Michael Färber, Haiqin Yang

专题命中图文多模态：包含多模态模型评估，涉及视觉和语言。

AI总结提出NRITYAM基准，包含9,260个跨12语言的文化问答对，评估语言模型对全球舞蹈传统的文化理解能力，涵盖多种模型类型。

Comments 18 pages, 12 figures, in ECML_PKDD'26

URL PDF HTML

2506.06952 2026-06-19 cs.CV 版本更新专题 70

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

LaTtE-Flow: 基于层间时间步专家流的Transformer

Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang

专题命中图文多模态：统一多模态模型，融合理解与生成。

AI总结提出LaTtE-Flow，一种基于预训练视觉语言模型的高效统一架构，通过层间时间步专家流和条件残差注意力机制，实现图像理解与生成，生成速度提升约6倍。

Comments Unified multimodal model, Flow-matching

URL PDF HTML

2606.20280 2026-06-19 cs.IR cs.AI 新提交专题 85

ELVA: Exploring Ranking-Driven Universal Multimodal Retrieval

ELVA：探索排序驱动的通用多模态检索

Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang, Jingwen Fu, Zhen Liu, Bin Qin, Zhenbo Luo, Jian Luan, Jingmin Xin

专题命中跨模态检索：提出ELVA框架用于通用多模态检索

AI总结提出ELVA框架，通过基于规则的强化学习缓解对比学习中的粒度盲视问题，在通用多模态检索中实现排序优化，并在新基准MRBench上提升13.1%。

Comments Accepted by ECCV 2026

URL PDF HTML

2606.20523 2026-06-19 cs.CV cs.AI cs.DB 新提交专题 70

SARLO-80: Worldwide Slant SAR Language Optic Dataset 80cm

SARLO-80：全球斜距SAR语言光学数据集80cm

Solène Debuysère, Nicolas Trouvé, Nathan Letheule, Elise Colin, Georgia Channing

专题命中跨模态检索：支持跨模态检索与生成的多模态数据集

AI总结为解决高分辨率SAR与光学图像及文本对齐的数据稀缺问题，基于Umbra SLC数据构建了80cm斜距网格的SAR-光学-文本三元组数据集，支持跨模态检索与生成任务。

URL PDF HTML

1. 音视频多模态 18 篇

MixProLAP: Mixture-Induced Uncertainty Modeling for Probabilistic Language-Audio Pretraining

Analyzing Language and Geographical Variation in Speech Representations Across 60 Indic Languages

S-JEPA : Soft Clustering Anchors for Self-Supervised Speech Representation Learning

Improving Code-Switching ASR with Code-Mixing Guided Synthetic Speech

Transcript-Free Flow-Matching Text-to-Speech via Speech Feature Conditioning

Repurposing a Speech Classifier for Guided Diffusion-Based Speech Generation

Semantic Satellite Communications for Synchronized Audiovisual Reconstruction

Stuttering Classification and Segmentation with Attention-Based Multiple Instance Learning

Time-Unconditional Generative Speech Enhancement via Autonomous Rectified Flow

Interpreting Content and Speaker Characteristics in Factorised Self-Supervised Subspaces

A Survey of Full-Duplex Spoken Dialogue Systems: Architectural Hierarchy, Interaction Ontology, and Decision State Machine

PASQA: Pitch-Accent-Focused Speech Quality Assessment Model Trained on Synthetic Speech with Accent Errors

Personalized Keyword Spotting for User-Defined Keywords Leveraging Text-Independent Speaker Verification

Investigating Human-Model Discrepancies in Speech Quality Assessment via Acoustic and Prosodic Perturbations

Low-Burden Data Augmentation for Dysarthric ASR via Zero-Shot Voice Cloning

Improving End-to-End Speech Recognition for Dysarthric Speech through In-Domain Data Augmentation

Systematic Study of Dysarthric Speech Recognition: Spectral Features and Acoustic Models

Cross-Dataset, Age, and Gender Generalization: A Comprehensive Analysis of Fine-Tuning Strategies for Low-Resource Children's ASR

2. 图文多模态 10 篇

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

TerraMind: Large-Scale Generative Multimodality for Earth Observation

PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

NEST: Narrative Event Structures in Time for Long Video Understanding

Does Text Actually Help? Uncovering and Resolving Text Collapse in Multimodal Time Series Forecasting

StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

Multimodal Concept Bottleneck Models

NRITYAM: Language Models Meet Art and Heritage of Dance

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

3. 跨模态检索 2 篇

ELVA: Exploring Ranking-Driven Universal Multimodal Retrieval

SARLO-80: Worldwide Slant SAR Language Optic Dataset 80cm