arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

视频大模型

视频理解、视频生成、视频语言模型和时序视觉推理。

今日/当前日期收录 7 信号源:cs.CV, eess.IV, cs.MM
2606.19849 2026-06-19 cs.CV 新提交 专题 90

ViCoStream: Streaming VideoLLMs Can Run Beyond 100 FPS with Stage-Wise Coordinated Inference

ViCoStream: 流式视频大模型通过阶段协调推理可运行超过100 FPS

Yang Tan, Junlong Tong, Linan Yue, Hao Wu, Pengfei Fang, Xiaoyu Shen

专题命中 视频理解 :提出流式视频大模型推理框架,提升视频吞吐和延迟。

AI总结 提出ViCoStream框架,通过阶段协调的流水线(分块执行、CUDA流重叠、视觉令牌控制、有界视觉注意力、查询端检索)实现流式视频大模型的高吞吐低延迟推理,在单A100上达到134 FPS视频吞吐和<50 ms首令牌延迟,精度接近全历史基线。

Comments 19 pages, 7 figures, 13 tables

2606.19706 2026-06-19 cs.CV cs.CL 新提交 专题 90

NEST: Narrative Event Structures in Time for Long Video Understanding

NEST:面向长视频理解的时间叙事事件结构

Ali Asgarov, Kaushik Narasimhan, Najibul Haque Sarker, Hani Alomari, Chia-Wei Tang, Anushka Sivakumar, Zaber Ibn Abdul Hakim, Shaurya Mallampati, Chris Thomas

专题命中 视频理解 :提出长视频叙事事件结构数据集,评估视频理解。

AI总结 提出NEST数据集(1005部全长电影),通过多模态叙事事件标注和关系链接,评估模型在长视频中理解事件结构、时间顺序和长程依赖的能力,实验表明事件检测等任务极具挑战性。

2606.09547 2026-06-19 cs.CV cs.LG 新提交 专题 90

Streaming Interventions: Can Video Large Language Models Correct Mistakes as They Occur?

流式干预:视频大语言模型能否在错误发生时即时纠正?

Apratim Bhattacharyya, Shweta Mahajan, Sanjay Haresh, Rajeev Yasarla, Reza Pourreza, Litian Liu, Risheek Garrepalli, Roland Memisevic

专题命中 视频理解 :评估视频LLM在烹饪场景中的实时干预能力

AI总结 提出Ego-MC-Bench基准评估视频LLM在烹饪场景中的实时干预能力,并构建Ego-CoMist反事实合成数据集提升小模型性能。

Comments The project page is available at https://apratimbh.github.io/livecookv2/

2606.20561 2026-06-19 cs.CV 新提交 专题 85

TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living

TimeProVe: 先提出后验证,实现日常活动中的高效长视频时间推理

Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan, Hieu Le, Srijan Das

专题命中 视频理解 :长视频时间推理与问答,结合VLM

AI总结 提出TimeProVe框架,先通过轻量模块生成基于动作的候选假设,再调用昂贵VLM验证,在长视频问答中降低75%VLM调用和93%推理成本,性能提升7.3%。

2606.19682 2026-06-19 cs.CV 新提交 专题 85

Vortex: Multi-Modal Fusion System for Intelligent Video Retrieval

Vortex: 面向智能视频检索的多模态融合系统

Duc-Tho Nguyen, Hieu-Hoc Tran-Minh, Khanh-Hoa Lam, Hoang-Nhut Ly, Huu-Phuc Huynh, Thanh-Tien Tran, Trung-Nghia Le

专题命中 视频理解 :多模态视频检索系统,融合CLIP和SigLIP2

AI总结 提出Vortex系统,融合自适应关键帧提取、多模态元数据生成及混合检索策略(CLIP与SigLIP2的倒数秩融合),结合Rocchio反馈和多阶段时序搜索,在比赛中取得优异成绩。

Comments SOICT 2025

2606.20559 2026-06-19 cs.CV cs.LG 新提交 专题 70

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

UNIEGO:代理作为中介的统一自我中心视频表示学习

Wenhao Chi, Arkaprava Sinha, Dominick Reilly, Hieu Le, Srijan Das

专题命中 视频理解 :聚焦自我中心视频表示学习,提升视频理解。

AI总结 提出分层多教师蒸馏框架UNIEGO,通过代理模型将异构教师知识转化为同质自我中心空间,并采用选择性代理蒸馏自适应筛选可靠监督,在三个自我中心视频理解任务上达到最优。

2606.20545 2026-06-19 cs.CV 新提交 专题 65

Current World Models Lack a Persistent State Core

当前世界模型缺乏持久状态核心

Jinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju

专题命中 视频理解 :评估世界模型在观测中断时的状态演化。

AI总结 提出WRBench基准测试,发现现有世界模型在观测中断时无法维持世界状态演化,强调物理状态核稳定性应成为世界模型设计首要目标。

Comments 39 pages, 16 figures