视频大模型

2606.18702 2026-06-18 cs.CV 新提交专题 95

UniTemp: Unlocking Video Generation in Any Temporal Order via Bidirectional Distillation

UniTemp: 通过双向蒸馏实现任意时间顺序的视频生成

Lin Zhang, Sicheng Mo, Zefan Cai, Jinhong Lin, Zihao Lin, Jiuxiang Gu, Krishna Kumar Singh, Yuheng Li, Yin Li

专题命中视频生成：任意时间顺序的视频生成方法

AI总结提出UniTemp框架，通过双向蒸馏训练单个自回归模型，支持任意时间方向（前向、后向、中间插值）的视频生成，解决因果3D VAE在后向生成中的不连续性，提升可控性。

URL PDF HTML

2606.18478 2026-06-18 cs.CV 新提交专题 95

Data-Forcing Distillation: Restoring Diversity and Fidelity in Few-Step Video Generation

数据强制蒸馏：恢复少步视频生成中的多样性和保真度

Siyi Chen, Shaowei Liu, Yixuan Jia, Zian Wang, Huan Ling, Qing Qu, Jun Gao

专题命中视频生成：少步视频生成中的蒸馏方法

AI总结针对分布匹配蒸馏（DMD）在少步视频生成中出现的模式坍塌和过饱和问题，提出数据强制蒸馏（DFD）框架，通过教师评分差异引导学生接近真实数据分布，仅需一行代码修改即可恢复多样性和保真度。

URL PDF HTML

2605.21028 2026-06-18 cs.CV cs.AI 版本更新专题 95

DySink: Dynamic Frame Sinks for Autoregressive Long Video Generation

DySink：动态帧 sinks 用于自回归长视频生成

Bo Ye, Xinyu Cui, Jian Zhao, Tong Wei, Min-Ling Zhang

专题命中视频生成：提出DySink框架用于自回归长视频生成，核心是视频生成。

AI总结本文提出 DySink，一种基于检索的框架，通过维护紧凑的记忆银行并选择视觉相关的历史帧作为动态帧 sinks，以提高自回归长视频生成的动态性和时间质量。

URL PDF HTML

2502.07531 2026-06-18 cs.CV cs.AI cs.LG cs.MM 版本更新专题 95

VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation

VidCRAFT3: 面向图像到视频生成的相机、物体与光照控制

Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu

专题命中视频生成：可控图像到视频生成，控制相机、物体和光照

AI总结提出VidCRAFT3框架，通过显式建模几何、运动与光照的跨因素交互，实现对相机运动、物体运动和光照方向的独立或联合控制，在控制精度和视觉一致性上达到最优。

Comments Accepted to TVCG 2026

URL PDF HTML

2606.18591 2026-06-18 cs.CV 新提交专题 90

Bridging Creative Intent and Visual Quality: Creator-Driven Recurrent Video Generation with Agentic Feedback Loops

桥接创意意图与视觉质量：基于创作者驱动的循环视频生成与代理反馈循环

Denis Savytski, Aiden Lei, Heding Liu, Warren Yang, Sihan Liang, Alexander Liu, Zhe Zhao

专题命中视频生成：CHIEF框架实现创作者驱动循环视频生成

AI总结提出CHIEF框架，通过人类-AI协作的迭代视频精炼，结合创作者驱动和代理主观反馈，提升长视频的叙事连贯性与创意方向。

Comments Accepted to the Workshop on Human-AI Co-Creativity at ICML 2026

URL PDF HTML

2606.13768 2026-06-18 cs.CV cs.AI 新提交专题 90

CineOrchestra: Unified Entity-Centric Conditioning for Cinematic Video Generation

CineOrchestra：面向电影视频生成的统一实体中心条件控制

Sharath Girish, Tsai-Shien Chen, Zhikang Dong, Mukesh Singhal, Hao Chen, Sergey Tulyakov, Aliaksandr Siarohin

专题命中视频生成：统一控制主体、事件、相机和镜头切换的视频生成

AI总结提出CineOrchestra，一种统一控制主体、事件、相机和镜头切换的视频扩散模型，通过实体中心条件原语和参数无关的旋转位置编码实现多轴联合控制，在密集描述跟随和镜头切换时序上超越六种专用方法。

Comments Project page: https://snap-research.github.io/CineOrchestra

URL PDF HTML

2606.06361 2026-06-18 cs.CV 版本更新专题 90

Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them

两步物理：在视觉细化之前锁定运动先验会擦除它们

Woojung Han, Seil Kang, Youngjun Jun, Min-Hung Chen, Fu-En Yang, Seong Jae Hwang

专题命中视频生成：图像到视频扩散模型的物理一致性改进

AI总结本文发现图像到视频扩散模型在两步生成中比多步生成具有更好的物理一致性，通过频谱分析将原因归结为去噪过程中的相位侵蚀，并提出无需训练的PhaseLock框架，通过从两步推理中提取运动先验并利用潜在增量引导强制到高保真生成中，有效缓解相位退化，提升物理一致性平均6.2点，同时保持视觉保真度且开销极小。

Comments ICML 2026

URL PDF HTML

2605.15824 2026-06-18 cs.CV 版本更新专题 90

FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization

FashionChameleon：迈向实时和交互式的人体服装视频定制

Quanjian Song, Yefeng Shen, Mengting Chen, Hao Sun, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Liujuan Cao

专题命中视频生成：提出实时交互式人体服装视频定制框架。

AI总结本文提出FashionChameleon框架，通过单件服装视频数据实现交互式多服装视频定制，保留动作一致性，实现实时生成23.8FPS，比现有方法快30-180倍。

Comments Project Page: https://quanjiansong.github.io/projects/FashionChameleon/

URL PDF HTML

2510.21615 2026-06-18 cs.CV 版本更新专题 90

Epipolar Geometry Improves Video Generation Models

极线几何改进视频生成模型

Orest Kupyn, Théo Uscidda, Marta Tintore Gazulla, Fabian Manhardt, Federico Tombari, Christian Rupprecht

专题命中视频生成：利用极线几何约束改进视频生成模型的几何一致性。

AI总结针对视频生成模型几何不一致和运动伪影问题，提出基于极线几何约束的偏好优化方法，在保持视觉质量的同时将极线误差降低31%，人类评分一致性从54%提升至72%。

URL PDF HTML

2606.19271 2026-06-18 cs.DC 新提交专题 85

TurboServe: Serving Streaming Video Generation Efficiently and Economically

TurboServe: 高效经济地服务流式视频生成

Youhe Jiang, Haoxu Wang, Haotong Bao, Kai Jiang, Jianfei Chen, Jun Zhu, Fangcheng Fu, Jintao Zhang

专题命中视频生成：流式视频生成服务系统TurboServe

AI总结针对流式视频生成的会话时长和用户需求异构性，提出TurboServe系统，通过在线调度联合优化会话放置与GPU配置，采用迁移感知放置和负载驱动自动缩放，降低延迟和成本。

URL PDF HTML

2606.02800 2026-06-18 cs.CV cs.AI cs.LG cs.MM cs.RO 版本更新专题 85

Cosmos 3: Omnimodal World Models for Physical AI

Cosmos 3：面向物理AI的全模态世界模型

NVIDIA, :, Aditi, Niket Agarwal, Arslan Ali, Jon Allen, Martin Antolini, Adeline Aubame, Alisson Azzolini, Junjie Bai, Maciej Bala, Yogesh Balaji, Josh Bapst, Aarti Basant, Mukesh Beladiya, Mohammad Qazim Bhat, Zaid Pervaiz Bhat, Dan Blick, Vanni Brighella, Han Cai, Tiffany Cai, Eric Cameracci, Jiaxin Cao, Yulong Cao, Mark Carlson, Carlos Casanova, Ting-Yun Chang, Yan Chang, Yu-Wei Chao, Prithvijit Chattopadhyay, Roshan Chaudhari, Chieh-Yun Chen, Junyu Chen, Ke Chen, Qizhi Chen, Wenkai Chen, Xiaotong Chen, Yu Chen, An-Chieh Cheng, Click Cheng, Xiu Chia, Jeana Choi, Chaeyeon Chung, Wenyan Cong, Yin Cui, Magdalena Dadela, Nalin Dadhich, Wenliang Dai, Joyjit Daw, Alperen Degirmenci, Rodrigo Vieira Del Monte, Robert Denomme, Sameer Dharur, Marco Di Lucca, Ke Ding, Wenhao Ding, Yifan Ding, Yuzhu Dong, Nicole Drumheller, Yilun Du, Aigul Dzhumamuratova, Aleksandr Efitorov, Hamid Eghbalzadeh, Naomi Eigbe, Imad El Hanafi, Hassan Eslami, Benedikt Falk, Jiaojiao Fan, Jim Fan, Amol Fasale, Sergiy Fefilatyev, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Vikram Fugro, Prashant Gaikwad, TJ Galda, Katelyn Gao, Yihuai Gao, Wenhang Ge, Sreyan Ghosh, Arushi Goel, Vivek Goel, Akash Gokul, Rama Govindaraju, Jinwei Gu, Miguel Guerrero, Elfie Guo, Aryaman Gupta, Siddharth Gururani, Hugo Hadfield, Song Han, Ankur Handa, Zekun Hao, Mohammad Harrim, Ali Hassani, Nathan Hayes-Roth, Yufan He, Chris Helvig, Cyrus Hogg, Madison Huang, Michael Huang, Sophia Huang, Yufan Huang, Jacob Huffman, DeLesley Hutchins, Suneel Indupuru, Boris Ivanovic, Arihant Jain, Joel Jang, Ryan Ji, Yanan Jian, Dongfu Jiang, Jingyi Jin, Atharva Joshi, Nikhilesh Joshi, Pranjali Joshi, Andy Ju, Jaehun Jung, Weiwei Kang, Scott Kassekert, Jan Kautz, Ashna Khetan, Julia Kiczka, Slawek Kierat, Gwanghyun Kim, Kuno Kim, Sunny Kim, Kezhi Kong, Xin Kong, Zhifeng Kong, Tomasz Kornuta, Egor Krivov, Hui Kuang, Saurav Kumar, Chia-Wen Kuo, George Kurian, Wojciech Kutak, JF Lafleche, Himangshu Lahkar, Omar Laymoun, Jayjun Lee, Sanggil Lee, Gabriele Leone, Boyi Li, Freya Li, Jiajun Li, Jinfeng Li, Ling Li, Pengcheng Li, Shangru Li, Tingle Li, Xiaolong Li, Xuan Li, Zhaoshuo Li, Zhiqi Li, Hao Liang, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Ming-Yu Liu, Sifei Liu, Zihan Liu, Hai Loc Lu, Xiangyu Lu, Alice Luo, Ruipu Luo, Wenjie Luo, Jiangran Lyu, Martin Ding Ma, Nic Ma, Qianli Ma, Dawid Majchrowski, Louis Marcoux, Miguel Martin, Qing Miao, Ashkan Mirzaei, Shreyas Misra, Kaichun Mo, Durra Mohsin, Hyejin Moon, Pawel Morkisz, Saeid Motiian, Kirill Motkov, Seungjun Nah, Yashraj Narang, Deepak Narayanan, Thabang Ngazimbi, Julian Ouyang, Shubham Pachori, David Page, Yatian Pang, Sehwi Park, Mahesh Patekar, Mostofa Patwary, Marco Pavone, Trung Pham, Wei Ping, Soha Pouya, Shrimai Prabhumoye, Varun Praveen, Delin Qu, Hesam Rabeti, Morteza Ramezanali, Marilyn Reeb, Xuanchi Ren, Kristen Rumley, Wojciech Rymer, Jun Saito, Yeongho Seol, John Shao, Piyush Shekdar, Tianwei Shen, Humphrey Shi, Min Shi, Stella Shi, Kevin Shih, Mohammad Shoeybi, Mateusz Sieniawski, Shuran Song, Alexander Sotelo, Amir Sotoodeh, Sunil Srinivasa, Vignesh Srinivasakumar, Bartosz Stefaniak, Rahul Heinrich Steiger, Shangkun Sun, Jiaxiang Tang, Shitao Tang, Yangyang Tang, Yue Tang, Tolou Tavakkoli, Kayley Ting, Krzysztof Tomala, Wei-Cheng Tseng, Jibin Varghese, Sergei Vasilev, Thomas Volk, Raju Wagwani, Roger Waleffe, Andrew Z. Wang, Boxiang Wang, Haoxiang Wang, Qiao Wang, Shihao Wang, Shijie Wang, Ting-Chun Wang, Yan Wang, Yu Wang, Rohit Watve, David Wehr, Fangyin Wei, Xinshuo Weng, Jay Zhangjie Wu, Kedi Wu, Hongchi Xia, Summer Xiao, Tianjun Xiao, Kevin Xie, Daguang Xu, Jiashu Xu, Mengyao Xu, Ruqing Xu, Xingqian Xu, Yao Xu, Dinghao Yang, Dong Yang, Hans Yang, Xiaodong Yang, Xuning Yang, Yichu Yang, Yurong You, Zhiding Yu, Hao Yuan, Simon Yuen, Xiaohui Zeng, Pengcuo Zeren, Cindy Zha, Haotian Zhang, Jenny Zhang, Jing Zhang, Liangkai Zhang, Paris Zhang, Shun Zhang, Xuanmeng Zhang, Zhizheng Zhang, Ann Zhao, Yilin Zhao, Yuliya Zhautouskaya, Charles Zhou, Fengzhe Zhou, Shilin Zhu, Yuke Zhu, Dima Zhylko, Artur Zolkowski

专题命中视频生成：视频生成能力，世界模拟器

AI总结提出基于统一混合Transformer架构的全模态世界模型Cosmos 3，联合处理语言、图像、视频、音频和动作序列，在理解和生成任务上达到新最优，为具身智能体提供可扩展的通用骨干。

URL PDF HTML

2606.17030 2026-06-18 cs.CV 新提交专题 80

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Qwen-RobotWorld技术报告：通过语言条件视频生成统一具身世界模型

Jie Zhang, Xiaoyue Chen, Anzhe Chen, Dayiheng Liu, Deqing Li, Gengze Zhou, Hale Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Chenxu Lv, Xiong-Hui Chen, Chenfei Wu

专题命中视频生成：视频世界模型，生成未来视觉轨迹

AI总结提出Qwen-RobotWorld，一种以自然语言为统一动作接口的语言条件视频世界模型，通过双流MMDiT、大规模具身世界知识语料和渐进式课程训练，在机器人操作、自动驾驶等任务中实现物理一致的未来视觉轨迹预测，在多个基准上取得最优结果。

URL PDF HTML

2606.13376 2026-06-18 cs.CV 新提交专题 80

MoVerse: Real-Time Video World Modeling with Panoramic Gaussian Scaffold

MoVerse: 基于全景高斯支架的实时视频世界建模

Yang Zhou, Ziheng Wang, Yuqin Lu, Haofeng Liu, Jun Liang, Shengfeng He, Jing Li

专题命中视频生成：实时视频世界建模与渲染

AI总结提出MoVerse，从单张窄视场图像实时构建可交互漫游的360度全景世界，通过拓扑感知扩散补全视场、全景几何残差预测生成3D高斯支架，并结合双向扩散教师蒸馏为因果自回归学生实现低延迟视频渲染。

Comments Project Page: https://orange-3dv-team.github.io/MoVerse/

URL PDF HTML

2606.19163 2026-06-18 cs.DC 新提交专题 60

Pulse: Training Acceleration for Large Diffusion Models with Automatic Pipeline Parallelism

Pulse: 面向大规模扩散模型的自动流水线并行训练加速

Boran Sun, Guoyong Jiang, Lin Zhang, Chen Chen, Yuechen Tao, Zhishu Che, Jieling Yu, Shan Chang, Huaxi Gu, Fangming Liu, Bo Li

专题命中视频生成：方法适用于视频生成模型训练加速

AI总结提出PULSE自动流水线并行策略，通过将跳跃连接层同设备放置、局部缓存激活值，消除跨流水线通信，结合动态规划分区器、ILP调度合成器和混合并行调优器，在通信受限硬件上实现最高2.3倍吞吐提升。

Comments Accepted by International Conference on Distributed Computing Systems(ICDCS'26)

URL PDF HTML

2606.19341 2026-06-18 cs.CV cs.CL cs.SD 新提交专题 90

Native Active Perception as Reasoning for Omni-Modal Understanding

原生主动感知作为全模态理解的推理

Zhenghao Xing, Ruiyang Xu, Yuxuan Wang, Jinzheng He, Ziyang Ma, Qize Yang, Yunfei Chu, Jin Xu, Junyang Lin, Chi-Wing Fu, Pheng-Ann Heng

专题命中视频理解：长视频理解，POMDP主动感知框架

AI总结提出OmniAgent，一种基于POMDP迭代观察-思考-行动循环的原生全模态智能体，通过主动感知将推理复杂度与视频时长解耦，在多个基准上达到开源模型最优性能。

Comments Accepted at ICML 2026. Code and models: https://github.com/harryhsing/omniagent

URL PDF HTML

2602.08355 2026-06-18 cs.CV 版本更新专题 90

E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs

E-VAds：面向多模态大语言模型的电商短视频理解基准

Xianjie Liu, Yiman Hu, Liang Wu, Ping Hu, Yixiong Zou, Jian Xu, Bo Zheng

专题命中视频理解：电商短视频理解基准，评估多模态大模型视频理解能力。

AI总结提出电商短视频理解基准E-VAds，通过多模态信息密度评估框架量化领域复杂性，并构建多智能体生成的问答数据集，最后开发基于强化学习的推理模型E-VAds-R1，在商业意图推理上实现109.2%的性能提升。

Comments Accepted by ICML2026

URL PDF HTML

2606.18943 2026-06-18 cs.CV 新提交专题 85

Physics-IQ Verified

物理智力验证

Tim Rädsch, Yuki M Asano, Hilde Kuehne, Stefan Bauer, Priyank Jaini, Robert Geirhos, Carsten T. Lüth

专题命中视频理解：评估视频生成模型对物理现实的理解

AI总结本文提出Physics-IQ Verified基准，通过改进提示和地面真实质量及引入样本级评分系统，提升视频生成模型对物理现实的理解评估，验证结果表明基准提升了57.6%的样本和34.8%的提示。

URL PDF HTML

2606.18586 2026-06-18 cs.CV cs.AI 新提交专题 85

APT: Atomic Physical Transitions for Causal Video-Language Understanding

APT: 用于因果视频语言理解的原子物理转变

Shang Wu, Haoran Lu, Songling Liu, Chenwei Xu, Lie Lu, Pranav Maneriker, Fan Du, Manling Li, Zhaoran Wang, Han Liu

专题命中视频理解：APT表示视频因果状态变化提升VLM理解

AI总结提出原子物理转变（APT）作为视频中因果状态变化的显式表示，并构建混合来源数据集，通过APT-Tune微调方法使VLM学习物理转变而不遗忘事件级知识。

URL PDF HTML

2606.18441 2026-06-18 cs.CV 新提交专题 85

Reasoning as Intersection: Consensus-Frame Alignment for Visual Focus in Video-MLLMs

推理即交集：视频多模态大语言模型中视觉焦点的一致性帧对齐

Chengwen Liu, Zhe Huang, Jisheng Dang, Hong Peng, Qi Tian, Tat-Seng Chua

专题命中视频理解：提出视频推理奖励框架，提升视频MLLM推理能力

AI总结提出无时间标注的过程级奖励框架CF-GRPO，通过视频内在线索构建一致性帧先验，并利用一致性帧奖励优化模型帧使用与先验的对齐，提升视频推理性能。

URL PDF HTML

2606.14702 2026-06-18 cs.CV 新提交专题 85

OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

OmniVideo-100K：通过结构化脚本和证据链进行音视频推理的数据集

Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, Ran He, Caifeng Shan

专题命中视频理解：视频问答与长时推理

AI总结提出OmniVideo-100K数据集，通过实体锚定视频脚本和线索引导的QA生成机制，解决音视频问答中跨段实体不一致和长时推理不足的问题，微调模型在多个基准上取得显著提升。

Comments Project page: https://github.com/MiG-NJU/OmniVideo-100K

URL PDF HTML

2606.15632 2026-06-18 cs.CV 新提交专题 80

Open-World Video Segmentation

开放世界视频分割

Qing Su, Kaiyang Li, Yuan Zhuang, Fei Miao, Shihao Ji

专题命中视频理解：长时视频分割与对象发现，视频理解

AI总结提出Savvy系统，结合分层掩码发现、延迟接纳和轨迹整合，实现零样本开放世界长时视频分割；并设计粒度感知评估套件OGA，采用n:1匹配协议，解决传统1:1匹配对开放世界方法的不公平惩罚问题。

URL PDF HTML

2601.13836 2026-06-18 cs.CL cs.CV cs.MM 版本更新专题 70

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

FutureOmni：从全模态上下文中评估多模态大语言模型的未来预测能力

Qian Chen, Jinlan Fu, Changsong Li, Min Zhang, See-Kiong Ng, Xipeng Qiu

专题命中视频理解：视频未来预测基准，涉及时序推理

AI总结提出FutureOmni基准，评估多模态大模型从音视频线索预测未来的能力，发现现有模型在语音密集场景下表现差，并设计OFF训练策略提升性能。

Comments Accepted by ICML 2026

URL PDF HTML

2606.18610 2026-06-18 cs.RO cs.CV 新提交专题 60

SC3-Eval: Evaluating Robot Foundation Models via Self-Consistent Video Generation

SC3-Eval: 通过自洽视频生成评估机器人基础模型

Wei-Cheng Tseng, Gashon Hussein, Yuzhu Dong, Allen Z. Ren, Lucy X. Shi, XuDong Wang, Sergey Levine, Zhaoshuo Li, Jinwei Gu, Florian Shkurti, Ming-Yu Liu, Quan Vuong

专题命中视频理解：利用视频基础模型模拟策略展开

AI总结提出SC3-Eval方法，利用前向-反向动力学一致性、跨视角一致性和测试时一致性，将预训练视频基础模型转化为准确的策略评估器，在7个真实世界策略上达到0.929的皮尔逊相关系数。

URL PDF HTML

1. 视频生成 14 篇

UniTemp: Unlocking Video Generation in Any Temporal Order via Bidirectional Distillation

Data-Forcing Distillation: Restoring Diversity and Fidelity in Few-Step Video Generation

DySink: Dynamic Frame Sinks for Autoregressive Long Video Generation

VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation

Bridging Creative Intent and Visual Quality: Creator-Driven Recurrent Video Generation with Agentic Feedback Loops

CineOrchestra: Unified Entity-Centric Conditioning for Cinematic Video Generation

Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them

FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization

Epipolar Geometry Improves Video Generation Models

TurboServe: Serving Streaming Video Generation Efficiently and Economically

Cosmos 3: Omnimodal World Models for Physical AI

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

MoVerse: Real-Time Video World Modeling with Panoramic Gaussian Scaffold

Pulse: Training Acceleration for Large Diffusion Models with Automatic Pipeline Parallelism

2. 视频理解 9 篇

Native Active Perception as Reasoning for Omni-Modal Understanding

E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs

Physics-IQ Verified

APT: Atomic Physical Transitions for Causal Video-Language Understanding

Reasoning as Intersection: Consensus-Frame Alignment for Visual Focus in Video-MLLMs

OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

Open-World Video Segmentation

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

SC3-Eval: Evaluating Robot Foundation Models via Self-Consistent Video Generation