AI 大模型

视觉大模型 / VLM

视觉语言模型、视觉推理、视觉问答、图文理解和视觉 grounding。

今日/当前日期收录 2 篇信号源：cs.CV, cs.AI, cs.LG

2606.20161 2026-06-19 cs.CV 新提交专题 85

ARTEMIS: Agent-guided Reliability-aware Temporal Mask Evolution for Imperfectly Supervised Video Polyp Segmentation

ARTEMIS: 基于智能体引导的可靠性感知时间掩码演化用于不完美监督的视频息肉分割

Tong Wang, Siwen Wang, Yaolei Qi, Jinxing Zhou, Yuting He, Guanyu Yang, Yutong Xie

专题命中视觉定位：利用视觉语言智能体选择可靠时间锚点，结合SAM2进行视频息肉分割。

AI总结提出ARTEMIS框架，利用视觉语言智能体选择可靠时间锚点，结合SAM2传播和可靠性感知鲁棒学习，从不完美监督（点、涂鸦、少量密集标签）中学习高质量视频息肉分割掩码，在多个基准上达到最优性能。

URL PDF HTML

2606.19627 2026-06-19 cs.IR cs.AI cs.LG 新提交专题 70

VCG: A Multimodal Retrieval Framework for E-Commerce Video Feeds under Extreme Cold-Start Conditions

VCG：极端冷启动条件下电商视频流的多模态检索框架

Katya Mirylenka, Egor Malykh, Mahdyar Ravanbakhsh, Michael Gygli, Marco-Andrea Buchmann, Andrew Dzhoha, Svitlana Borzenko, Francesca Catino, Mohamed Gaafar, Maarten Versteegh, Thomas Kober, Dario d'Andrea, Ellie Langhans

专题命中视觉定位：基于CLIP的多模态检索系统，用于电商视频冷启动。

AI总结针对电商视频流中的极端冷启动和偏差问题，提出基于领域自适应视觉-语言模型（CLIP）的可扩展多模态检索系统VCG，实现零样本检索，在线测试显示深度视频完成率提升50%。

URL PDF HTML