视频大模型 - arXivDaily 专题

2606.20083 2026-06-19 cs.CV 新提交专题 90

Holo-World: Unified Camera, Object and Weather Control for Video World Model

Holo-World: 视频世界模型的统一相机、物体和天气控制

Xiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun

专题命中视频生成：可控视频世界模型生成

AI总结提出Holo-World，一种从单张图像联合控制相机、物体运动和天气的统一视频世界模型，通过场景适配器和解耦CFG实现世界保持与天气迁移。

Comments Project Page: \url{https://xiangchenyin.github.io/Holo-World} Code: \url{https://github.com/XiangchenYin/Holo-World}

URL PDF HTML

2602.15819 2026-06-19 cs.CV 版本更新专题 90

VideoSketcher: Sequential Sketch Generation Using Video Model Priors

VideoSketcher：利用视频模型先验的序列草图生成

Hui Ren, Yuval Alaluf, Omer Bar Tal, Alexander Schwing, Antonio Torralba, Yael Vinker

专题命中视频生成：利用视频扩散模型生成序列草图，结合LLM规划

AI总结提出VideoSketcher方法，结合LLM的语义规划与视频扩散模型的时序渲染，通过两阶段微调从少量样本学习笔画顺序与风格，生成高质量序列草图。

URL PDF HTML

2606.20310 2026-06-19 cs.CV 新提交专题 85

Through the PRISM: Preference Representation in Intermediate States of Video Diffusion Models

通过PRISM：视频扩散模型中间状态中的偏好表示

Haoxuan Wu, Lai Man Po, Mengyang Liu, Kun Li, Hongzheng Yang, Wei Liu

专题命中视频生成：从视频扩散模型中间状态解码偏好

AI总结提出PRISM方法，利用冻结的视频扩散骨干网络和轻量级查询聚合头从噪声潜变量中解码偏好信号，实现高精度偏好预测和噪声鲁棒性，支持早期最佳采样以降低计算成本并提升视频质量。

URL PDF HTML

2606.20233 2026-06-19 cs.CV 新提交专题 85

Cinematic Compositing Using Character-Environment-Harmonized Video Generation Models

使用角色-环境协调视频生成模型的电影级合成

Tianyi Xiang, Mingming He, Li Ma, Jing Liao

专题命中视频生成：端到端视频扩散框架用于合成

AI总结提出端到端视频扩散框架，通过三掩码引导和RGB-D联合去噪建模角色与环境的双向物理与光照交互，实现高质量动态视频合成。

URL PDF HTML

2606.19958 2026-06-19 cs.CV 新提交专题 85

SketchKeyAnime: Reference-anchored Sparse Key-Sketch Animation Synthesis

SketchKeyAnime：基于参考锚点的稀疏关键草图动画合成

Meixi Li, Xianlin Zhang, Yue Zhang, Xueming Li

专题命中视频生成：提出SketchKeyAnime框架生成可控动画

AI总结提出SketchKeyAnime视频扩散框架，通过双分支条件机制和可学习门控的草图交叉注意力，从单张参考RGB图像和稀疏关键草图生成结构可控、外观一致且时间连贯的动画，在Sakuga-42M数据集上显著优于基线方法。

URL PDF HTML

2606.19676 2026-06-19 cs.CV cs.AI 新提交专题 85

TeleMorpher: Toward Robust Simultaneous Motion-Location Editing

TeleMorpher: 迈向鲁棒的同步运动-位置编辑

Haengbok Chung

专题命中视频生成：基于扩散模型的视频运动与位置同步编辑

AI总结提出TeleMorpher，一种基于扩散模型的一步式框架，通过运动先验、姿态扭曲和基线运动编辑器注入，实现视频中主角运动与位置的同步编辑，在定量和定性评估中表现优异。

URL PDF HTML

2606.19495 2026-06-19 cs.CV 新提交专题 85

LooseControlVideo: Directorial Video Control using Spatial Blocking

LooseControlVideo: 使用空间分块进行导演式视频控制

Shariq Farooq Bhat, Niloy J. Mitra, Kalyan Sunkavalli

专题命中视频生成：文本到视频生成中3D框控制多对象场景

AI总结提出LooseControlVideo框架，通过稀疏定向3D框作为“分块”代理，实现文本到视频生成中多对象场景的直观布局与轨迹控制，显著优于现有2D框和流方法。

Comments Project page at https://shariqfarooq123.github.io/LooseControlVideo/

URL PDF HTML

2605.31158 2026-06-19 cs.CV cs.LG 版本更新专题 85

Light Interaction: Training-Free Inference Acceleration for Interactive Video World Models

光交互：交互式视频世界模型的免训练推理加速

Jiacheng Lu, Haoyi Zhu, Sipei Yi, Enze Xie, Yu Li, Cheng Zhuo

专题命中视频生成：加速交互式视频世界模型推理。

AI总结针对交互式视频世界模型推理成本高的问题，提出免训练加速框架Light Interaction，通过自适应上下文管理、去噪缓存加速和3D块稀疏注意力实现最高2.59倍加速。

Comments 13 pages, 6 figures, 3 tables. Project page: https://2843721358l-del.github.io/Light-Interaction-Project/

URL PDF HTML

2606.20101 2026-06-19 cs.SD cs.AI cs.MM 新提交专题 80

Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow

基于整流流的混合扩散变压器用于指令引导音频编辑

Liting Gao, Yonggang Zhu, Yaru Chen, Dongyu Wang, Shubin Zhang, Zhenbo Li, Jean-Yves Guillemaut, Wenwu Wang

专题命中视频生成：音频编辑，非视频，但涉及扩散模型

AI总结提出混合两阶段扩散变压器架构，通过粗到细策略平衡全局语义对齐与局部细节编辑，在重叠音频事件和复杂指令任务上提升性能与效率。

URL PDF HTML