视觉大模型 / VLM - arXivDaily 专题

2606.19646 2026-06-19 cs.IR cs.CV 新提交专题 85

SAFE-Cascade: Cost-Adaptive Vision-Language Routing for Chart Question Answering

SAFE-Cascade: 面向图表问答的成本自适应视觉语言路由

Ayush Dwivedi, Qixin Wang, Ashvi Soni, Ruoteng Wang, Han Li, Animesh Mahapatra, Neeraj Agrawal, Xintao Wu

专题命中视觉问答：提出成本自适应路由系统，用于图表问答，涉及VLM调用决策。

AI总结提出SAFE-Cascade系统，通过OCR和轻量语言模型先给出答案，再由学习路由器决定是否调用VLM，在ChartQA上以73.1%的VLM调用率达到69.1%准确率，减少26.9%的VLM调用和9.3%的成本。

Comments Demo paper submitted at CIKM 2026. 4 pages, 2 figures

URL PDF HTML

2603.28387 2026-06-19 cs.AI cs.LG 版本更新专题 85

The Scaffold Effect: How Prompt Framing Drives Apparent Multimodal Gains in Clinical VLM Evaluation

脚手架效应：提示框架如何驱动临床VLM评估中的表面多模态增益

Doan Nam Long Vu, Simone Balloccu

专题命中视觉问答：揭示临床VLM评估中提示框架的脚手架效应

AI总结研究发现，在临床VLM评估中，提示中提及MRI可用性即可解释70-80%的性能提升，与图像数据是否存在无关，这种“脚手架效应”揭示了表面评估无法反映真实多模态推理能力。

URL PDF HTML

2606.20477 2026-06-19 cs.CV cs.CL cs.LG 新提交专题 80

Scalable Training of Spatially Grounded 2D Vision-Language Models for Radiology

面向放射学的空间定位2D视觉-语言模型的可扩展训练

Yusuf Salcan, Simon Ging, Robin Schirrmeister, Philipp Arnold, Elmar Kotter, Behzad Bozorgtabar, Thomas Brox

专题命中视觉问答：联合报告生成、VQA和空间定位

AI总结提出RefRad2D大规模双语数据集，通过LLM和自动分割生成空间定位数据，训练RadGrounder模型联合完成报告生成、VQA和空间定位，在外部基准上取得竞争性结果。

Comments Accepted for MICCAI 2026. First two authors: equal contribution. Last two authors: equal supervision

URL PDF HTML

2606.20561 2026-06-19 cs.CV 新提交专题 70

TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living

TimeProVe: 先提出后验证，实现日常活动中的高效长视频时间推理

Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan, Hieu Le, Srijan Das

专题命中视觉问答：使用VLM进行长视频问答验证

AI总结提出TimeProVe框架，先通过轻量模块生成基于动作的候选假设，再调用昂贵VLM验证，在长视频问答中降低75%VLM调用和93%推理成本，性能提升7.3%。

URL PDF HTML

2606.19684 2026-06-19 cs.CV 新提交专题 70

Exploring Multi-Modal Large Language Models and Two-Stage Fine-Tuning for Fashion Image Retrieval

探索多模态大语言模型与两阶段微调在时尚图像检索中的应用

Nguyen Cao Hoang, Hoang Bui Le, Nam Vo Hoang, Trung-Nghia Le

专题命中视觉问答：利用LLaVA生成属性感知三元组进行时尚图像检索

AI总结提出融合多模态大语言模型（LLaVA）生成属性感知三元组，并采用两阶段微调策略增强对比学习，以解决时尚图像检索中标注数据稀缺和负采样简单的问题。

Comments SOICT 2025

URL PDF HTML

2506.06952 2026-06-19 cs.CV 版本更新专题 70

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

LaTtE-Flow: 基于层间时间步专家流的Transformer

Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang

专题命中视觉问答：统一图像理解与生成，基于预训练VLM。

AI总结提出LaTtE-Flow，一种基于预训练视觉语言模型的高效统一架构，通过层间时间步专家流和条件残差注意力机制，实现图像理解与生成，生成速度提升约6倍。

Comments Unified multimodal model, Flow-matching

URL PDF HTML

2504.02885 2026-06-19 cs.CL 版本更新专题 70

Med-R2: Perception and Reflection-driven Complex Reasoning for Medical Report Generation

Med-R2：面向医学报告生成的感知与反思驱动复杂推理

Hao Wang, Shuchang Ye, Jinghao Lin, Usman Naseem, Jinman Kim

专题命中视觉问答：使用视觉语言模型进行医学报告生成

AI总结提出Med-R2微调策略，通过引入感知驱动的长推理过程和放射学知识指导，并加入反思机制修正感知错误，提升LVLMs在医学报告生成中的病理特征感知和诊断准确性。

Comments 28 pages, 3 figures, 1 table

URL PDF HTML