Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction
在预测之前想象:用于视频事件预测的交错潜在视觉推理
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Shanghai AI Laboratory(上海人工智能实验室) ; City University of Hong Kong(香港城市大学) ; Nanjing University(南京大学) ; Fudan University(复旦大学) ; Zhejiang University(浙江大学) ; University of Electronic Science and Technology of China(电子科技大学)
AI总结 提出Future-L1框架,通过交错潜在视觉推理在自回归解码中交替语言token和连续潜在视觉跨度,结合LA-DAPO强化学习优化,在视频事件预测任务上取得最先进结果。