arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

视觉大模型 / VLM

视觉语言模型、视觉推理、视觉问答、图文理解和视觉 grounding。

今日/当前日期收录 37 信号源:cs.CV, cs.AI, cs.LG

1. 视觉推理 3 篇

2606.20274 2026-06-19 cs.AI 新提交 专题 70

Lagrange: An Open-Vocabulary, Energy-Based Sparse Framework for Generalized End-to-End Driving

Lagrange: 一种面向通用端到端驾驶的开放词汇、基于能量的稀疏框架

Shihao Ji, HongXi Li, Zihui Song, Mingyu Li

专题命中 视觉推理 :使用VLM进行开放词汇推理

AI总结 提出Lagrange框架,利用掩码潜在场和视觉语言模型实现开放词汇、稀疏计算,通过拉格朗日动作最小化确保运动学约束,在nuScenes和CODA基准上验证了鲁棒性和可解释性。

2509.10416 2026-06-19 cs.RO 版本更新 专题 70

TASC: Task-Aware Shared Control for Relational Telemanipulation

TASC:面向关系遥操作的任务感知共享控制

Ze Fu, Pinhao Song, Yutong Hu, Renaud Detry

专题命中 视觉推理 :利用视觉语言模型预测空间约束,辅助共享控制。

AI总结 提出TASC框架,通过视觉构建开放词汇交互图推断任务级用户意图,并基于空间约束提供共享控制辅助,提升关系遥操作效率与泛化能力。

Comments Accepted to IROS 2026

2305.14985 2026-06-19 cs.CV cs.CL 版本更新 专题 70

IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models

IdealGPT: 通过大型语言模型迭代分解视觉与语言推理

Haoxuan You, Rui Sun, Zhecan Wang, Long Chen, Gengyu Wang, Hammad A. Ayyubi, Kai-Wei Chang, Shih-Fu Chang

专题命中 视觉推理 :利用LLM迭代分解视觉语言推理任务。

AI总结 提出IdealGPT框架,利用大型语言模型迭代分解视觉语言推理任务,通过子问题生成、子答案获取和最终答案推理的循环过程,在零样本设置下显著提升多步推理性能。

Comments 13 pages, 5 figures

2. 视觉问答 3 篇

2606.19684 2026-06-19 cs.CV 新提交 专题 70

Exploring Multi-Modal Large Language Models and Two-Stage Fine-Tuning for Fashion Image Retrieval

探索多模态大语言模型与两阶段微调在时尚图像检索中的应用

Nguyen Cao Hoang, Hoang Bui Le, Nam Vo Hoang, Trung-Nghia Le

专题命中 视觉问答 :利用LLaVA生成属性感知三元组进行时尚图像检索

AI总结 提出融合多模态大语言模型(LLaVA)生成属性感知三元组,并采用两阶段微调策略增强对比学习,以解决时尚图像检索中标注数据稀缺和负采样简单的问题。

Comments SOICT 2025

2506.06952 2026-06-19 cs.CV 版本更新 专题 70

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

LaTtE-Flow: 基于层间时间步专家流的Transformer

Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang

专题命中 视觉问答 :统一图像理解与生成,基于预训练VLM。

AI总结 提出LaTtE-Flow,一种基于预训练视觉语言模型的高效统一架构,通过层间时间步专家流和条件残差注意力机制,实现图像理解与生成,生成速度提升约6倍。

Comments Unified multimodal model, Flow-matching

2504.02885 2026-06-19 cs.CL 版本更新 专题 70

Med-R2: Perception and Reflection-driven Complex Reasoning for Medical Report Generation

Med-R2:面向医学报告生成的感知与反思驱动复杂推理

Hao Wang, Shuchang Ye, Jinghao Lin, Usman Naseem, Jinman Kim

专题命中 视觉问答 :使用视觉语言模型进行医学报告生成

AI总结 提出Med-R2微调策略,通过引入感知驱动的长推理过程和放射学知识指导,并加入反思机制修正感知错误,提升LVLMs在医学报告生成中的病理特征感知和诊断准确性。

Comments 28 pages, 3 figures, 1 table

3. 视觉定位 1 篇

2606.19627 2026-06-19 cs.IR cs.AI cs.LG 新提交 专题 70

VCG: A Multimodal Retrieval Framework for E-Commerce Video Feeds under Extreme Cold-Start Conditions

VCG:极端冷启动条件下电商视频流的多模态检索框架

Katya Mirylenka, Egor Malykh, Mahdyar Ravanbakhsh, Michael Gygli, Marco-Andrea Buchmann, Andrew Dzhoha, Svitlana Borzenko, Francesca Catino, Mohamed Gaafar, Maarten Versteegh, Thomas Kober, Dario d'Andrea, Ellie Langhans

专题命中 视觉定位 :基于CLIP的多模态检索系统,用于电商视频冷启动。

AI总结 针对电商视频流中的极端冷启动和偏差问题,提出基于领域自适应视觉-语言模型(CLIP)的可扩展多模态检索系统VCG,实现零样本检索,在线测试显示深度视频完成率提升50%。