arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

多模态大模型

跨文本、图像、视频、音频等模态的大模型与学习方法。

今日/当前日期收录 2 信号源:cs.CV, cs.CL, cs.AI, cs.MM, eess.AS
2606.20280 2026-06-19 cs.IR cs.AI 新提交 专题 85

ELVA: Exploring Ranking-Driven Universal Multimodal Retrieval

ELVA:探索排序驱动的通用多模态检索

Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang, Jingwen Fu, Zhen Liu, Bin Qin, Zhenbo Luo, Jian Luan, Jingmin Xin

专题命中 跨模态检索 :提出ELVA框架用于通用多模态检索

AI总结 提出ELVA框架,通过基于规则的强化学习缓解对比学习中的粒度盲视问题,在通用多模态检索中实现排序优化,并在新基准MRBench上提升13.1%。

Comments Accepted by ECCV 2026

2606.20523 2026-06-19 cs.CV cs.AI cs.DB 新提交 专题 70

SARLO-80: Worldwide Slant SAR Language Optic Dataset 80cm

SARLO-80:全球斜距SAR语言光学数据集80cm

Solène Debuysère, Nicolas Trouvé, Nathan Letheule, Elise Colin, Georgia Channing

专题命中 跨模态检索 :支持跨模态检索与生成的多模态数据集

AI总结 为解决高分辨率SAR与光学图像及文本对齐的数据稀缺问题,基于Umbra SLC数据构建了80cm斜距网格的SAR-光学-文本三元组数据集,支持跨模态检索与生成任务。