AI 大模型

多模态大模型

跨文本、图像、视频、音频等模态的大模型与学习方法。

今日/当前日期收录 34 篇信号源：cs.CV, cs.CL, cs.AI, cs.MM, eess.AS

1. 图文多模态 3 篇

2305.14985 2026-06-19 cs.CV cs.CL 版本更新专题 70

IdealGPT: 通过大型语言模型迭代分解视觉与语言推理

Haoxuan You, Rui Sun, Zhecan Wang, Long Chen, Gengyu Wang, Hammad A. Ayyubi, Kai-Wei Chang, Shih-Fu Chang

专题命中图文多模态：结合LLM和VLM进行多步推理。

AI总结提出IdealGPT框架，利用大型语言模型迭代分解视觉语言推理任务，通过子问题生成、子答案获取和最终答案推理的循环过程，在零样本设置下显著提升多步推理性能。

Comments 13 pages, 5 figures

URL PDF HTML

2504.02885 2026-06-19 cs.CL 版本更新专题 70

Med-R2：面向医学报告生成的感知与反思驱动复杂推理

Hao Wang, Shuchang Ye, Jinghao Lin, Usman Naseem, Jinman Kim

专题命中图文多模态：利用图像文本对进行医学报告生成

AI总结提出Med-R2微调策略，通过引入感知驱动的长推理过程和放射学知识指导，并加入反思机制修正感知错误，提升LVLMs在医学报告生成中的病理特征感知和诊断准确性。

Comments 28 pages, 3 figures, 1 table

URL PDF HTML

2606.20559 2026-06-19 cs.CV cs.LG 新提交专题 60

UNIEGO：代理作为中介的统一自我中心视频表示学习

Wenhao Chi, Arkaprava Sinha, Dominick Reilly, Hieu Le, Srijan Das

专题命中图文多模态：融合多模态教师知识进行蒸馏学习。

AI总结提出分层多教师蒸馏框架UNIEGO，通过代理模型将异构教师知识转化为同质自我中心空间，并采用选择性代理蒸馏自适应筛选可靠监督，在三个自我中心视频理解任务上达到最优。

URL PDF HTML

2606.20478 2026-06-19 eess.AS 新提交专题 60

超越说话人独立性：跨语言声学到发音反演在芬兰语和俄语上的评估

Ruchi Pandey, Tomi Kinnunen

专题命中音视频多模态：跨语言声学-发音映射，涉及多模态特征

AI总结本研究系统评估了跨说话人和跨语言域偏移下的声学到发音反演（AAI）性能，利用新构建的芬兰语-俄语双语EMA语料库FROST-EMA，比较了不同发音目标、声学前端和反演后端，发现跨性别性能下降中等（约0.05-0.10），跨语言下降更大（约0.10-0.20）。

URL PDF HTML