视觉大模型 / VLM

2606.20274 2026-06-19 cs.AI 新提交专题 70

Lagrange: An Open-Vocabulary, Energy-Based Sparse Framework for Generalized End-to-End Driving

Lagrange: 一种面向通用端到端驾驶的开放词汇、基于能量的稀疏框架

Shihao Ji, HongXi Li, Zihui Song, Mingyu Li

专题命中视觉推理：使用VLM进行开放词汇推理

AI总结提出Lagrange框架，利用掩码潜在场和视觉语言模型实现开放词汇、稀疏计算，通过拉格朗日动作最小化确保运动学约束，在nuScenes和CODA基准上验证了鲁棒性和可解释性。

URL PDF HTML

2509.10416 2026-06-19 cs.RO 版本更新专题 70

TASC: Task-Aware Shared Control for Relational Telemanipulation

TASC：面向关系遥操作的任务感知共享控制

Ze Fu, Pinhao Song, Yutong Hu, Renaud Detry

专题命中视觉推理：利用视觉语言模型预测空间约束，辅助共享控制。

AI总结提出TASC框架，通过视觉构建开放词汇交互图推断任务级用户意图，并基于空间约束提供共享控制辅助，提升关系遥操作效率与泛化能力。

Comments Accepted to IROS 2026

URL PDF HTML

2305.14985 2026-06-19 cs.CV cs.CL 版本更新专题 70

IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models

IdealGPT: 通过大型语言模型迭代分解视觉与语言推理

Haoxuan You, Rui Sun, Zhecan Wang, Long Chen, Gengyu Wang, Hammad A. Ayyubi, Kai-Wei Chang, Shih-Fu Chang

专题命中视觉推理：利用LLM迭代分解视觉语言推理任务。

AI总结提出IdealGPT框架，利用大型语言模型迭代分解视觉语言推理任务，通过子问题生成、子答案获取和最终答案推理的循环过程，在零样本设置下显著提升多步推理性能。

Comments 13 pages, 5 figures

URL PDF HTML

2606.19684 2026-06-19 cs.CV 新提交专题 70

Exploring Multi-Modal Large Language Models and Two-Stage Fine-Tuning for Fashion Image Retrieval

探索多模态大语言模型与两阶段微调在时尚图像检索中的应用

Nguyen Cao Hoang, Hoang Bui Le, Nam Vo Hoang, Trung-Nghia Le

专题命中视觉问答：利用LLaVA生成属性感知三元组进行时尚图像检索

AI总结提出融合多模态大语言模型（LLaVA）生成属性感知三元组，并采用两阶段微调策略增强对比学习，以解决时尚图像检索中标注数据稀缺和负采样简单的问题。

Comments SOICT 2025

URL PDF HTML

2506.06952 2026-06-19 cs.CV 版本更新专题 70

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

LaTtE-Flow: 基于层间时间步专家流的Transformer

Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang

专题命中视觉问答：统一图像理解与生成，基于预训练VLM。

AI总结提出LaTtE-Flow，一种基于预训练视觉语言模型的高效统一架构，通过层间时间步专家流和条件残差注意力机制，实现图像理解与生成，生成速度提升约6倍。

Comments Unified multimodal model, Flow-matching

URL PDF HTML

2504.02885 2026-06-19 cs.CL 版本更新专题 70

Med-R2: Perception and Reflection-driven Complex Reasoning for Medical Report Generation

Med-R2：面向医学报告生成的感知与反思驱动复杂推理

Hao Wang, Shuchang Ye, Jinghao Lin, Usman Naseem, Jinman Kim

专题命中视觉问答：使用视觉语言模型进行医学报告生成

AI总结提出Med-R2微调策略，通过引入感知驱动的长推理过程和放射学知识指导，并加入反思机制修正感知错误，提升LVLMs在医学报告生成中的病理特征感知和诊断准确性。

Comments 28 pages, 3 figures, 1 table

URL PDF HTML

2606.19627 2026-06-19 cs.IR cs.AI cs.LG 新提交专题 70

VCG: A Multimodal Retrieval Framework for E-Commerce Video Feeds under Extreme Cold-Start Conditions

VCG：极端冷启动条件下电商视频流的多模态检索框架

Katya Mirylenka, Egor Malykh, Mahdyar Ravanbakhsh, Michael Gygli, Marco-Andrea Buchmann, Andrew Dzhoha, Svitlana Borzenko, Francesca Catino, Mohamed Gaafar, Maarten Versteegh, Thomas Kober, Dario d'Andrea, Ellie Langhans

专题命中视觉定位：基于CLIP的多模态检索系统，用于电商视频冷启动。

AI总结针对电商视频流中的极端冷启动和偏差问题，提出基于领域自适应视觉-语言模型（CLIP）的可扩展多模态检索系统VCG，实现零样本检索，在线测试显示深度视频完成率提升50%。

URL PDF HTML

1. 视觉推理 3 篇

Lagrange: An Open-Vocabulary, Energy-Based Sparse Framework for Generalized End-to-End Driving

TASC: Task-Aware Shared Control for Relational Telemanipulation

IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models

2. 视觉问答 3 篇

Exploring Multi-Modal Large Language Models and Two-Stage Fine-Tuning for Fashion Image Retrieval

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

Med-R2: Perception and Reflection-driven Complex Reasoning for Medical Report Generation

3. 视觉定位 1 篇

VCG: A Multimodal Retrieval Framework for E-Commerce Video Feeds under Extreme Cold-Start Conditions