视觉大模型 / VLM - arXivDaily 专题

2604.04917 2026-06-19 cs.CV cs.AI cs.CL 版本更新专题 95

Vero: An Open RL Recipe for General Visual Reasoning

Vero: 通用视觉推理的开放RL配方

Gabriel Sarch, Linrong Cai, Qunzhong Wang, Haoyang Wu, Danqi Chen, Zhuang Liu

专题命中视觉推理：提出Vero系列VLM，在视觉推理基准上显著提升

AI总结提出Vero系列开放视觉语言模型，通过构建600K样本数据集Vero-600K和任务路由奖励，在30个基准测试中平均提升2.9-5.4点，Vero-Qwen3I-8B超越Qwen3-VL-8B-Thinking 3.8点。

Comments Project page: https://vero-reasoning.github.io/

URL PDF HTML

2606.20515 2026-06-19 cs.CV 新提交专题 90

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

S-Agent：空间工具使用激发空间智能推理

Yalun Dai, Hao Li, Shulin Tian, Runmao Yao, Yuhao Dong, Fangzhou Hong, Zhaoxi Chen, Fangfu Liu, Baoliang Tian, Dingwen Zhang, Tao Wang, Kim-Hui Yap, Ziwei Liu

专题命中视觉推理：利用VLM作为语义规划器进行空间推理

AI总结提出S-Agent空间工具使用智能体范式，通过时空证据积累和层次化工具集，将VLM作为语义规划器，实现连续多视图图像和视频的空间推理，在无训练下提升开源和闭源VLM性能，并基于S-300K轨迹微调得到紧凑空间智能体S-Agent-8B。

Comments Project Page : https://Ropedia.github.io/S-Agent

URL PDF HTML

2606.19776 2026-06-19 cs.CV 新提交专题 90

Occ-VLM: Occupancy Grounded Vision Language Model for Indoor Scene Understanding

Occ-VLM: 面向室内场景理解的占用接地视觉语言模型

Jianing Li, Zhou Fang, Yijiang Liu, Li Du

专题命中视觉推理：占用接地VLM用于室内3D场景理解。

AI总结提出Occ-VLM，仅用姿态RGB图像和单一2D视觉编码器，通过重建3D占用作为几何先验，实现统一的3D场景理解，在占用预测、3D VQA和密集描述任务上达到领先水平。

URL PDF HTML

2606.19552 2026-06-19 cs.CL 新提交专题 90

LaViSA: A Language and Vision Structural Ambiguity Benchmark

LaViSA：语言与视觉结构歧义基准

Lee Sangmyeong, Shun Inadumi, Koichiro Yoshino

专题命中视觉推理：评估VLM利用视觉场景解决结构歧义的能力

AI总结提出LaViSA基准，通过七类歧义句及对应图像评估视觉语言模型利用视觉场景解决结构歧义的能力，实验显示现有模型虽能部分利用视觉信息，但在特定歧义类型和细微语义区分上仍有局限。

URL PDF HTML

2606.05833 2026-06-19 cs.CV cs.AI 版本更新专题 90

Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

从视频中学习几何表示以实现空间智能多模态大语言模型

Haibo Wang, Lifu Huang

专题命中视觉推理：从视频学习几何表示提升MLLM空间智能。

AI总结提出GeoVR框架，通过从2D视频序列中蒸馏3D几何知识（包括相机姿态、深度图、尺度因子和多尺度3D特征），重塑多模态大语言模型的内部表示以赋予其空间智能，在空间推理基准上达到最先进性能。

URL PDF HTML

2606.20527 2026-06-19 cs.CL cs.CV 新提交专题 85

StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

StylisticBias: 少数人类视觉线索驱动多模态大语言模型中的大部分社会偏见

Shaghayegh Kolli, Timo Cavelius, Nafiseh Nikeghbal, Samantha Dalal, Jana Diesner

专题命中视觉推理：评估MLLM中视觉线索导致的社会偏见

AI总结提出StylisticBias基准，通过控制单一视觉属性变化，发现年龄和体型主导身份层面偏见，而时尚风格等约15个属性解释近80%的偏见变化，偏见集中于少数视觉线索。

Comments Accepted to the non-archival workshops AI4Good and Culture x AI at ICML 2026

URL PDF HTML

2606.20419 2026-06-19 cs.CV 新提交专题 85

Spectral Query-Key Product Weight Steering for Training-Free VLM Hallucination Mitigation

谱查询-键乘积权重引导用于免训练VLM幻觉缓解

Karn Tiwari, Varnith Chordia, Prathosh A P

专题命中视觉推理：免训练方法减少VLM对象幻觉，提升视觉推理

AI总结提出QK乘积引导，一种无数据、免训练、零推理成本的权重编辑方法，通过抑制中间层主导奇异模式减少对象幻觉，在三个GQA基VLM上平均降低CHAIR$_s$ 4.0%。

Comments Under Review

URL PDF HTML

2606.20364 2026-06-19 cs.LG 新提交专题 85

Judging to Improve: A De-biased VLM-as-3D-Judge Protocol for Single-Image 3D Generation

评判以改进：一种去偏的 VLM-as-3D-Judge 协议用于单图像 3D 生成

Ali Asaria, Tony Salomone, Deep Gandhi

专题命中视觉推理：VLM作为评判者优化3D生成

AI总结本文提出一种去偏的跨模型 VLM-as-3D-Judge 协议，将评判者从排序扩展到优化，通过训练与评估评判者分离、位置偏差校正及修复三种失效模式，实现轻量级适应下与强基线的匹配。

URL PDF HTML

2606.20244 2026-06-19 cs.CV cs.AI 新提交专题 85

SPOT-E: Test-Time Entropy Shaping with Visual Spotlights for Frozen VLMs

SPOT-E：基于视觉聚光灯的冻结VLM测试时熵整形

Bo Yin, Xiaobin Hu, Chengming Xu, Ruolin Shen, Mo Yang, Jiangning Zhang, Peng-Tao Jiang, Cheng Tan, Shuicheng YAN

专题命中视觉推理：测试时熵整形提升VLM证据定位

AI总结提出SPOT-E方法，通过测试时熵整形和视觉聚光灯，解决VLM在证据密集型任务中因忽视局部关键证据而表现不佳的问题，无需重新训练即可提升定位与鲁棒性。

URL PDF HTML

2606.20077 2026-06-19 cs.CV cs.AI 新提交专题 85

The Hidden Evolution of Disguised Visual Context inside the VLM

VLM内部伪装视觉上下文的隐藏演化

Wish Suharitdamrong, Tony Alex, Muhammad Awais, Sara Atito

专题命中视觉推理：VLM中视觉令牌演化分析

AI总结研究视觉语言模型中视觉令牌如何通过不同集成架构（上下文注入与逐层注入）转化为有意义表示，揭示其内部演化过程及对性能的影响。

URL PDF HTML

2606.20045 2026-06-19 cs.CV cs.AI 新提交专题 85

See-and-Reach: Precise Vision-Language Navigation for UAVs within the Field of View

See-and-Reach: 视场内的精确视觉语言导航用于无人机

Fanfu Xue, En Yu, Yantian Shen, Zhikun Hu, Hongjun Wang, Yang Yang, Xindi Wang, Jiande Sun

专题命中视觉推理：提出视觉语言导航框架用于无人机精确到达。

AI总结针对无人机视觉语言导航中目标可见后精确到达能力评估不足的问题，提出UAV-VLN-FOV任务和3DG-VLN框架，通过动态3D方向线索增强细粒度视觉定位与空间对齐，在基准和真实实验中显著提升成功率。

Comments 12 pages, 7 figures

URL PDF HTML

2606.19965 2026-06-19 cs.CV cs.AI 新提交专题 85

ROSE: Benchmarking the Perception-to-Action Gap in Multimodal Models

ROSE：多模态模型中感知到行动差距的基准测试

Yihao Wang, Zijian He, Jie Ren, Keze Wang

专题命中视觉推理：提出ROSE基准测试MLLM感知到行动差距

AI总结提出ROSE基准，通过固定视觉场景并变化区域约束与符号输出，测试多模态大模型在不同上下文中将相同视觉证据转化为所需行动的能力，发现模型性能下降高达44.5个百分点，揭示感知到行动的瓶颈。

Comments 29 pages, 11 figures

URL PDF HTML

2606.19944 2026-06-19 cs.CV 新提交专题 85

Timage: A Generative Text-in-Image Paradigm for Fine-Tuning Vision-Language Models

Timage: 一种用于微调视觉语言模型的文本嵌入图像生成范式

Yifeng Wu, Huimin Huang, Ruiluo Wu, Chunyi Lin, Guanhua Chen, Xian Wu, Wang Song, Ruize Han

专题命中视觉推理：提出文本嵌入图像范式提升VLM细粒度空间推理

AI总结提出Timage范式，通过约束薛定谔桥将查询文本作为排版覆盖层嵌入图像，以显式空间锚点引导模型关注，在不侵蚀骨干能力前提下提升细粒度空间推理性能。

Comments ECCV

URL PDF HTML

2606.19828 2026-06-19 cs.CV 新提交专题 85

3D-PLOT-LLM: Part-Level Object Tokens for 3D Large Language Models

3D-PLOT-LLM: 用于三维大语言模型的部件级对象标记

Jintang Xue, Xinyu Wang, Yixing Wu, Jingwen Chen, C. -C. Jay Kuo

专题命中视觉推理：3D多模态大模型，支持部件级对象标记和推理。

AI总结提出3D-PLOT-LLM，通过重组输入标记流使部件可直接通过LLM词汇寻址，无需分割解码器或边界框，在部件级基准上超越现有方法。

URL PDF HTML

2606.19584 2026-06-19 cs.CV 新提交专题 85

Language-Instructed Vision Embeddings for Controllable and Generalizable Perception

语言引导的视觉嵌入用于可控且可泛化的感知

Chengzhi Mao, Xudong Lin, Wen-Sheng Chu

专题命中视觉推理：语言引导视觉嵌入方法，提升视觉推理和泛化能力

AI总结提出语言引导视觉嵌入（LIVE）方法，利用语言动态引导视觉编码器生成任务中心嵌入，无需任务特定重训练，减少视觉幻觉并提升泛化能力。

Journal ref Published as a conference paper at ICLR 2026

URL PDF HTML

2606.18950 2026-06-19 cs.AI 新提交专题 85

RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models

RTSGameBench: 视觉语言模型战略推理的RTS基准

San Kim, Daechul Ahn, Reokyoung Kim, Hyeonbeom Choi, Seungyeon Jwa, Jonghyun Choi

专题命中视觉推理：评估VLM在RTS游戏中的战略推理

AI总结提出RTSGameBench，基于Beyond All Reason游戏，通过多样化对战、迷你游戏诊断和自进化生成框架，评估视觉语言模型在实时策略游戏中的战略推理能力。

Comments First two authors contributed equally

URL PDF HTML

2605.20448 2026-06-19 cs.CV cs.LG 版本更新专题 85

Do Vision-Language Models Understand 3D Scenes or Just Catalogue Objects?

视觉-语言模型是理解3D场景还是仅仅 catalogue 物体？

Animesh Maheshwari, Divyansh Sahu, Nishit Verma

专题命中视觉推理：VLM 3D场景理解能力评估

AI总结本文通过一个包含3034个样本的人工整理基准，探讨了视觉-语言模型对空间理解的深度有序遮挡、光学几何推断和体积重新安排规划能力，发现模型在重新安排可见布局时表现优异，但在遮挡和反射推断上表现较差。

URL PDF HTML

2603.12252 2026-06-19 cs.CV cs.CL 版本更新专题 85

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

EndoCoT：扩散模型中的内生思维链推理扩展

Xuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang

专题命中视觉推理：扩散模型中内生思维链，提升视觉推理

AI总结提出EndoCoT框架，通过迭代思维引导模块激活MLLM的推理潜力，并利用终端思维接地模块确保推理轨迹与文本监督对齐，使DiT逐步执行复杂任务，在多个基准上平均准确率达92.1%。

Comments 23 pages, 18 figures, The code and dataset are publicly available at https://internlm.github.io/EndoCoT/

URL PDF HTML

2606.20177 2026-06-19 cs.CV cs.AI 新提交专题 80

Evaluating and Enhancing Negation Comprehension in Remote Sensing MLLMs

评估与增强遥感多模态大语言模型的否定理解能力

Haochen Han, Jue Wang, Alex Jinpeng Wang, Fangming Liu

专题命中视觉推理：评估遥感MLLMs否定理解，属于视觉语言推理。

AI总结提出RS-Neg基准评估遥感MLLMs的否定理解，并设计NeFo方法通过测试时学习利用约5%未标注样本显著提升模型性能。

Comments ECCV 2026 Accepted

URL PDF HTML

2606.19927 2026-06-19 cs.CV 新提交专题 80

CARE: Competence-Aware Reward Shaping for Adaptive Reasoning Length in Video-MLLMs

CARE: 面向视频多模态大语言模型的自适应推理长度的能力感知奖励塑形

Chengwen Liu, Hao Peng, Jisheng Dang, Hong Peng, Bin Hu, Tat-Seng Chua

专题命中视觉推理：提出自适应推理长度优化框架用于视频MLLM

AI总结提出CARE框架，通过能力感知奖励塑形自适应优化推理长度，利用指数移动平均估计能力并分阶段调整奖励偏好，结合批次归一化和后验放大器提升效率与准确性。

URL PDF HTML

2606.19882 2026-06-19 cs.CV cs.LG 新提交专题 80

Multimodal Concept Bottleneck Models

多模态概念瓶颈模型

Tongqing Shi, Ge Yan, Tuomas Oikarinen, Tsui-Wei Weng

专题命中视觉推理：多模态概念瓶颈模型，可解释零样本分类。

AI总结提出多模态概念瓶颈模型（MM-CBM），利用双概念瓶颈层对齐图像和文本嵌入，实现可解释的零样本分类和图像检索，在四个基准上平均准确率提升高达51.26%。

Comments Present at NeurIPS 2025 Mechanistic Interpretability Workshop

URL PDF HTML

2605.10873 2026-06-19 cs.CV cs.AI 版本更新专题 80

CADBench: A Multimodal Benchmark for AI-Assisted CAD Program Generation

CADBench：一个用于AI辅助CAD程序生成的多模态基准

Anna C. Doris, Jacob Thomas Sony, Ghadi Nehme, Era Syla, Amin Heyrani Nobari, Faez Ahmed

专题命中视觉推理：评估视觉语言模型在CAD程序生成中的表现

AI总结本文提出CADBench，一个统一的多模态CAD程序生成基准，包含18000个样本和六类基准，评估11种视觉语言模型，揭示了CAD程序生成中的三种常见失败模式。

URL PDF HTML

2508.04424 2026-06-19 cs.CV 版本更新专题 80

Composed Object Retrieval: Object-level Retrieval via Composed Expressions

组合对象检索：通过组合表达式进行对象级检索

Tong Wang, Guanyu Yang, Nian Liu, Zongyan Han, Jinxing Zhou, Salman Khan, Fahad Shahbaz Khan

专题命中视觉推理：提出组合对象检索任务，需视觉-语言推理。

AI总结提出组合对象检索（COR）任务，通过组合参考对象、掩码和检索文本进行对象级检索，并构建COR125K基准和CORE模型，显著优于现有方法。

URL PDF HTML

2606.20458 2026-06-19 cs.RO 新提交专题 75

Slow Brain, Fast Planner: Latency-Resilient VLM-Augmented Urban Navigation

慢速大脑，快速规划器：延迟鲁棒的VLM增强城市导航

Zhenghao "Mark'' Peng, Honglin He, Quanyi Li, Yukai Ma, Bolei Zhou

专题命中视觉推理：使用VLM增强城市导航中的轨迹选择。

AI总结针对移动机器人在人行道导航中轨迹评分差距问题，提出一种无需训练的延迟鲁棒轨迹级融合层，利用VLM选择候选轨迹并与规划器输出融合，在挑战场景下降低ADE 30%。

URL PDF HTML

2606.19489 2026-06-19 cs.LG cs.AI 新提交专题 75

Concept Flow Models: Anchoring Concept-Based Reasoning with Hierarchical Bottlenecks

概念流模型：通过层次瓶颈锚定基于概念的推理

Ya Wang, Adrian Paschke

专题命中视觉推理：利用视觉语言模型生成概念嵌入，提升可解释性。

AI总结提出概念流模型（CFM），用层次化概念决策树替代扁平瓶颈，通过逐步缩小预测范围减少信息泄露，在保持预测性能的同时提升可解释性。

Journal ref Transaction on Machine Learning Research, 2/2026

URL PDF HTML

2606.20274 2026-06-19 cs.AI 新提交专题 70

Lagrange: An Open-Vocabulary, Energy-Based Sparse Framework for Generalized End-to-End Driving

Lagrange: 一种面向通用端到端驾驶的开放词汇、基于能量的稀疏框架

Shihao Ji, HongXi Li, Zihui Song, Mingyu Li

专题命中视觉推理：使用VLM进行开放词汇推理

AI总结提出Lagrange框架，利用掩码潜在场和视觉语言模型实现开放词汇、稀疏计算，通过拉格朗日动作最小化确保运动学约束，在nuScenes和CODA基准上验证了鲁棒性和可解释性。

URL PDF HTML

2509.10416 2026-06-19 cs.RO 版本更新专题 70

TASC: Task-Aware Shared Control for Relational Telemanipulation

TASC：面向关系遥操作的任务感知共享控制

Ze Fu, Pinhao Song, Yutong Hu, Renaud Detry

专题命中视觉推理：利用视觉语言模型预测空间约束，辅助共享控制。

AI总结提出TASC框架，通过视觉构建开放词汇交互图推断任务级用户意图，并基于空间约束提供共享控制辅助，提升关系遥操作效率与泛化能力。

Comments Accepted to IROS 2026

URL PDF HTML

2305.14985 2026-06-19 cs.CV cs.CL 版本更新专题 70

IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models

IdealGPT: 通过大型语言模型迭代分解视觉与语言推理

Haoxuan You, Rui Sun, Zhecan Wang, Long Chen, Gengyu Wang, Hammad A. Ayyubi, Kai-Wei Chang, Shih-Fu Chang

专题命中视觉推理：利用LLM迭代分解视觉语言推理任务。

AI总结提出IdealGPT框架，利用大型语言模型迭代分解视觉语言推理任务，通过子问题生成、子答案获取和最终答案推理的循环过程，在零样本设置下显著提升多步推理性能。

Comments 13 pages, 5 figures

URL PDF HTML