GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents
GROW: 将GRPO与状态-动作建模对齐以适用于开放世界VLM智能体
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; East China Normal University(华东师范大学) ; Zhejiang Normal University(浙江师范大学) ; Shandong Normal University(山东省师范大学)
AI总结 本文提出GROW框架,通过将收集的轨迹分解为状态-动作样本,并在样本间计算优势,解决了标准GRPO在多轮RL中因需要完整轨迹导致上下文过长和噪声的问题,实验表明其在超过800个Minecraft任务中取得SOTA性能。