ReTool-Video: Recursive Tool-Using Video Agents with Meta-Augmented Tool Grounding
发表机构 * Chongqing University(重庆大学) ; Tianjin University(天津大学) ; MAIS, Institute of Automation, Chinese Academy of Sciences(自动化研究所,中国科学院MAIS) ; Institute of High Performance Computing (IHPC), Agency for Science, Technology and Research (A*STAR), Singapore(新加坡科技研究局高性能计算研究所) ; Chongqing National Data AI Research Institute, AI Research Lab(重庆国家数据AI研究院,AI研究实验室)
AI总结 该论文提出了一种名为 ReTool-Video 的递归工具使用视频代理方法,旨在提升视频理解中复杂推理和跨模态分析的能力。为了解决现有视频代理在工具粒度和动作空间上的局限,研究构建了包含134个工具的 MetaAug-Video 工具库(MVTL),支持细粒度操作和多级信息访问,并设计了递归工具调用机制,将高层视频意图逐步分解为可执行的工具链。实验表明,该方法在多个基准测试中表现优异,显著提升了复杂视频理解的稳定性和效果。