视频大模型 - arXivDaily 专题

2606.19849 2026-06-19 cs.CV 新提交专题 90

ViCoStream: Streaming VideoLLMs Can Run Beyond 100 FPS with Stage-Wise Coordinated Inference

ViCoStream: 流式视频大模型通过阶段协调推理可运行超过100 FPS

Yang Tan, Junlong Tong, Linan Yue, Hao Wu, Pengfei Fang, Xiaoyu Shen

专题命中视频理解：提出流式视频大模型推理框架，提升视频吞吐和延迟。

AI总结提出ViCoStream框架，通过阶段协调的流水线（分块执行、CUDA流重叠、视觉令牌控制、有界视觉注意力、查询端检索）实现流式视频大模型的高吞吐低延迟推理，在单A100上达到134 FPS视频吞吐和<50 ms首令牌延迟，精度接近全历史基线。

Comments 19 pages, 7 figures, 13 tables

URL PDF HTML

2606.19706 2026-06-19 cs.CV cs.CL 新提交专题 90

NEST: Narrative Event Structures in Time for Long Video Understanding

NEST：面向长视频理解的时间叙事事件结构

Ali Asgarov, Kaushik Narasimhan, Najibul Haque Sarker, Hani Alomari, Chia-Wei Tang, Anushka Sivakumar, Zaber Ibn Abdul Hakim, Shaurya Mallampati, Chris Thomas

专题命中视频理解：提出长视频叙事事件结构数据集，评估视频理解。

AI总结提出NEST数据集（1005部全长电影），通过多模态叙事事件标注和关系链接，评估模型在长视频中理解事件结构、时间顺序和长程依赖的能力，实验表明事件检测等任务极具挑战性。

URL PDF HTML

2606.09547 2026-06-19 cs.CV cs.LG 新提交专题 90

Streaming Interventions: Can Video Large Language Models Correct Mistakes as They Occur?

流式干预：视频大语言模型能否在错误发生时即时纠正？

Apratim Bhattacharyya, Shweta Mahajan, Sanjay Haresh, Rajeev Yasarla, Reza Pourreza, Litian Liu, Risheek Garrepalli, Roland Memisevic

专题命中视频理解：评估视频LLM在烹饪场景中的实时干预能力

AI总结提出Ego-MC-Bench基准评估视频LLM在烹饪场景中的实时干预能力，并构建Ego-CoMist反事实合成数据集提升小模型性能。

Comments The project page is available at https://apratimbh.github.io/livecookv2/

URL PDF HTML

2606.20561 2026-06-19 cs.CV 新提交专题 85

TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living

TimeProVe: 先提出后验证，实现日常活动中的高效长视频时间推理

Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan, Hieu Le, Srijan Das

专题命中视频理解：长视频时间推理与问答，结合VLM

AI总结提出TimeProVe框架，先通过轻量模块生成基于动作的候选假设，再调用昂贵VLM验证，在长视频问答中降低75%VLM调用和93%推理成本，性能提升7.3%。

URL PDF HTML

2606.19682 2026-06-19 cs.CV 新提交专题 85

Vortex: Multi-Modal Fusion System for Intelligent Video Retrieval

Vortex: 面向智能视频检索的多模态融合系统

Duc-Tho Nguyen, Hieu-Hoc Tran-Minh, Khanh-Hoa Lam, Hoang-Nhut Ly, Huu-Phuc Huynh, Thanh-Tien Tran, Trung-Nghia Le

专题命中视频理解：多模态视频检索系统，融合CLIP和SigLIP2

AI总结提出Vortex系统，融合自适应关键帧提取、多模态元数据生成及混合检索策略（CLIP与SigLIP2的倒数秩融合），结合Rocchio反馈和多阶段时序搜索，在比赛中取得优异成绩。

Comments SOICT 2025

URL PDF HTML

2606.20559 2026-06-19 cs.CV cs.LG 新提交专题 70

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

UNIEGO：代理作为中介的统一自我中心视频表示学习

Wenhao Chi, Arkaprava Sinha, Dominick Reilly, Hieu Le, Srijan Das

专题命中视频理解：聚焦自我中心视频表示学习，提升视频理解。

AI总结提出分层多教师蒸馏框架UNIEGO，通过代理模型将异构教师知识转化为同质自我中心空间，并采用选择性代理蒸馏自适应筛选可靠监督，在三个自我中心视频理解任务上达到最优。

URL PDF HTML

2606.20545 2026-06-19 cs.CV 新提交专题 65

Current World Models Lack a Persistent State Core

当前世界模型缺乏持久状态核心

Jinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju

专题命中视频理解：评估世界模型在观测中断时的状态演化。

AI总结提出WRBench基准测试，发现现有世界模型在观测中断时无法维持世界状态演化，强调物理状态核稳定性应成为世界模型设计首要目标。

Comments 39 pages, 16 figures

URL PDF HTML