From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning
从受训者到训练者:用于多智能体推理的LLM设计的强化学习训练环境
发表机构 * LARK, HKUST (GZ)(香港科技大学(广州)LARK实验室) ; University of Cambridge(剑桥大学) ; HKUST(香港科技大学)
AI总结 提出LLM-as-Environment-Engineer框架,让策略模型自动分析失败轨迹并修改训练环境配置,在MAPF-FrozenLake测试平台上用Qwen3-4B实现最优性能。