AI 大模型
视频大模型
视频理解、视频生成、视频语言模型和时序视觉推理。
1. 视频生成 14 篇
Bridging Creative Intent and Visual Quality: Creator-Driven Recurrent Video Generation with Agentic Feedback Loops
桥接创意意图与视觉质量:基于创作者驱动的循环视频生成与代理反馈循环
专题命中 视频生成 :CHIEF框架实现创作者驱动循环视频生成
AI总结 提出CHIEF框架,通过人类-AI协作的迭代视频精炼,结合创作者驱动和代理主观反馈,提升长视频的叙事连贯性与创意方向。
Comments Accepted to the Workshop on Human-AI Co-Creativity at ICML 2026
CineOrchestra: Unified Entity-Centric Conditioning for Cinematic Video Generation
CineOrchestra:面向电影视频生成的统一实体中心条件控制
专题命中 视频生成 :统一控制主体、事件、相机和镜头切换的视频生成
AI总结 提出CineOrchestra,一种统一控制主体、事件、相机和镜头切换的视频扩散模型,通过实体中心条件原语和参数无关的旋转位置编码实现多轴联合控制,在密集描述跟随和镜头切换时序上超越六种专用方法。
Comments Project page: https://snap-research.github.io/CineOrchestra
Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them
两步物理:在视觉细化之前锁定运动先验会擦除它们
专题命中 视频生成 :图像到视频扩散模型的物理一致性改进
AI总结 本文发现图像到视频扩散模型在两步生成中比多步生成具有更好的物理一致性,通过频谱分析将原因归结为去噪过程中的相位侵蚀,并提出无需训练的PhaseLock框架,通过从两步推理中提取运动先验并利用潜在增量引导强制到高保真生成中,有效缓解相位退化,提升物理一致性平均6.2点,同时保持视觉保真度且开销极小。
Comments ICML 2026
FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization
FashionChameleon:迈向实时和交互式的人体服装视频定制
专题命中 视频生成 :提出实时交互式人体服装视频定制框架。
AI总结 本文提出FashionChameleon框架,通过单件服装视频数据实现交互式多服装视频定制,保留动作一致性,实现实时生成23.8FPS,比现有方法快30-180倍。
Comments Project Page: https://quanjiansong.github.io/projects/FashionChameleon/
Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation
Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界模型
专题命中 视频生成 :视频世界模型,生成未来视觉轨迹
AI总结 提出Qwen-RobotWorld,一种以自然语言为统一动作接口的语言条件视频世界模型,通过双流MMDiT、大规模具身世界知识语料和渐进式课程训练,在机器人操作、自动驾驶等任务中实现物理一致的未来视觉轨迹预测,在多个基准上取得最优结果。
MoVerse: Real-Time Video World Modeling with Panoramic Gaussian Scaffold
MoVerse: 基于全景高斯支架的实时视频世界建模
专题命中 视频生成 :实时视频世界建模与渲染
AI总结 提出MoVerse,从单张窄视场图像实时构建可交互漫游的360度全景世界,通过拓扑感知扩散补全视场、全景几何残差预测生成3D高斯支架,并结合双向扩散教师蒸馏为因果自回归学生实现低延迟视频渲染。
Comments Project Page: https://orange-3dv-team.github.io/MoVerse/
Pulse: Training Acceleration for Large Diffusion Models with Automatic Pipeline Parallelism
Pulse: 面向大规模扩散模型的自动流水线并行训练加速
专题命中 视频生成 :方法适用于视频生成模型训练加速
AI总结 提出PULSE自动流水线并行策略,通过将跳跃连接层同设备放置、局部缓存激活值,消除跨流水线通信,结合动态规划分区器、ILP调度合成器和混合并行调优器,在通信受限硬件上实现最高2.3倍吞吐提升。
Comments Accepted by International Conference on Distributed Computing Systems(ICDCS'26)
2. 视频理解 9 篇
Native Active Perception as Reasoning for Omni-Modal Understanding
原生主动感知作为全模态理解的推理
专题命中 视频理解 :长视频理解,POMDP主动感知框架
AI总结 提出OmniAgent,一种基于POMDP迭代观察-思考-行动循环的原生全模态智能体,通过主动感知将推理复杂度与视频时长解耦,在多个基准上达到开源模型最优性能。
Comments Accepted at ICML 2026. Code and models: https://github.com/harryhsing/omniagent
OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains
OmniVideo-100K:通过结构化脚本和证据链进行音视频推理的数据集
专题命中 视频理解 :视频问答与长时推理
AI总结 提出OmniVideo-100K数据集,通过实体锚定视频脚本和线索引导的QA生成机制,解决音视频问答中跨段实体不一致和长时推理不足的问题,微调模型在多个基准上取得显著提升。
Comments Project page: https://github.com/MiG-NJU/OmniVideo-100K