CEO-Bench: Can Agents Play the Long Game?
CEO-Bench:智能体能否玩转长期博弈?
发表机构 * Princeton University(普林斯顿大学)
专题命中 规划决策 :模拟500天运营初创公司任务
AI总结 提出CEO-Bench,通过模拟500天运营初创公司的任务,评估语言模型智能体在长期、不确定、动态环境下的综合决策能力。
AI 大模型
智能体、工具调用、规划、工作流、多智能体和自主任务执行。
CEO-Bench:智能体能否玩转长期博弈?
发表机构 * Princeton University(普林斯顿大学)
专题命中 规划决策 :模拟500天运营初创公司任务
AI总结 提出CEO-Bench,通过模拟500天运营初创公司的任务,评估语言模型智能体在长期、不确定、动态环境下的综合决策能力。
PersonalPlan: 面向个性化编程学习的多智能体系统规划
专题命中 规划决策 :多智能体规划器用于个性化编程学习
AI总结 提出PersonalPlan,一种两阶段多智能体规划器,通过分层SFT和奖励自适应GRPO生成可执行、个性化且具有教学支架的计划,在MAP-PPL数据集上优于现有方法。
WorldLines: 对长时域有状态具身智能体进行基准测试与建模
发表机构 * HKUST(GZ)(香港科技大学(广州)) ; HKUST(香港科技大学) ; Knowin
专题命中 规划决策 :具身智能体长时记忆与任务规划。
AI总结 提出WorldLines基准,通过构建带时间跨度的家庭轨迹(含对话、动作、状态变化等)评估具身智能体的长时记忆与任务规划能力,并设计ObsMem记忆框架提升状态感知决策。
Comments 27 pages, 18 figures
通用型智能体必须记住什么?
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Georgia Institute of Technology(佐治亚理工学院)
专题命中 规划决策 :通用智能体记忆需求的形式化分析。
AI总结 本文形式化论证了通用型智能体为在多个环境和目标下近似最优行动,必须存储领域相关信息以区分观察瓶颈处的不兼容最优动作,并证明记忆可用于重构局部转移动态。
OmniPlan:一种用于及时且近乎最优的网络规划优化的自适应框架
发表机构 * Zhejiang University(浙江大学) ; Fuzhou University(福州市大学) ; Yangzhou University(扬州大学) ; The State Key Laboratory of Blockchain and Data Security(区块链与数据安全国家重点实验室) ; College of Computer Science and Technology(计算机科学与技术学院)
专题命中 规划决策 :自适应框架动态选择求解器进行规划
AI总结 提出OmniPlan自适应框架,利用大语言模型解析用户意图,通过混合专家架构动态选择MIP求解器、启发式算法或深度强化学习模型,实现网络规划优化的及时性与近乎最优性,在分布式机器学习推理卸载任务中延迟降低97.8%,资源消耗降低11.5%。
Comments Accepted by ACM KDD 2026
MapSatisfyBench: 通过行为隐含决策因素基准测试满意度感知的地图智能体
发表机构 * University of Chinese Academy of Sciences(中国科学院大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所)
专题命中 规划决策 :评估地图智能体的隐含需求满足能力
AI总结 提出MapSatisfyBench基准,通过恢复用户行为链中的隐含决策因素来评估地图智能体的满意度感知能力,实验表明现有智能体在显式任务完成上表现良好,但在满足隐含需求方面仍有局限。
MeEvo: 元认知进化与自然进化相结合用于自动启发式设计
发表机构 * School of Computer Science, University of Nottingham Ningbo China(诺丁汉大学宁波分校计算机科学学院) ; School of Computer Science, University of Nottingham(诺丁汉大学计算机科学学院)
专题命中 规划决策 :自动启发式设计框架,结合进化与元认知
AI总结 提出MeEvo框架,通过循环耦合自然进化(探索启发式代码)和元认知进化(反思历史生成改进启发式),解决现有方法知识继承弱、探索不足的问题,在五个优化问题上表现更优。
部分可观测环境下导航的生成模型预测规划
发表机构 * University of Manchester(曼彻斯特大学) ; Aalto University(阿尔托大学)
专题命中 规划决策 :生成模型预测规划用于导航
AI总结 提出BeliefDiffusion框架,结合扩散模型和模型预测控制,显式建模多模态信念分布并进行前瞻规划,在合成地图环境中显著优于无模型强化学习和生成方法。
测试集中式和多中心计算规划
专题命中 规划决策 :比较计算规划者与基于代理的市场,涉及规划决策
AI总结 本文提出一个可复现的合成基准,在模拟经济中比较计算规划者、基于代理的市场和混合元市场,发现规划者福利损失更低,但结果受设计选择影响,主要贡献是方法论而非意识形态。
无环境奖励的固定通道感知事件流在线奖惩学习
发表机构 * Zirong Li(李 Cirong)
专题命中 规划决策 :提出无环境奖励的在线奖惩学习框架。
AI总结 提出OHIRL框架,在无标量奖励下通过固定通道感知流进行在线奖惩学习,利用内部轨迹评估器推断感知维度的效价,在XOR任务和CartPole等控制任务中达到高准确率。
Comments 9 pages, 5 figures, 6 tables; 13-page technical supplement
LLMZero: 通过LLM智能体发现RL后训练的自适应训练策略
发表机构 * Amazon(亚马逊)
专题命中 规划决策 :利用LLM智能体进行树搜索发现训练策略
AI总结 提出LLMZero系统,利用LLM智能体通过树搜索发现多阶段RL后训练的自适应策略,揭示容量参数单调累积、正则化参数振荡的规律,在4个GRPO任务上相对基线提升9%-140%。
带奖励机的帕累托Q学习
发表机构 * Linköping University, Sweden(瑞典_linköping大学) ; Univ. Lille, CNRS, Centrale Lille, UMR 9189 CRIStAL, F-59000 Lille, France(法国里尔大学、CNRS、中央里尔学院、UMR 9189 CRIStAL、法国里尔) ; Univ. Toulouse, INRAE-MIAT, Toulouse, France(法国图卢兹大学、INRAE-MIAT、图卢兹)
专题命中 规划决策 :多目标强化学习算法,用于智能体决策
AI总结 提出PQLRM算法,结合帕累托Q学习和奖励机,在多目标强化学习中高效逼近帕累托前沿,并处理非马尔可夫奖励。
Comments Accepted at the ICAPS 2026 Workshop on Bridging the Gap Between AI Planning and (Reinforcement) Learning (PRL)
入乡随俗:从异构智能体学习通用行为
发表机构 * University of Washington(华盛顿大学) ; NVIDIA(英伟达)
专题命中 规划决策 :提取通用奖励训练通用智能体
AI总结 提出GRID方法,从追求不同目标的异构示范者中提取通用奖励,训练通用智能体以学习环境通用能力,避免模式平均偏差,提升下游任务微调效率。
带移动障碍物的移动目标旅行商问题的两阶段双层搜索
发表机构 * Texas A&M University(德克萨斯A&M大学) ; Carnegie Mellon University(卡内基梅隆大学)
专题命中 规划决策 :移动目标TSP的两阶段双层搜索算法
AI总结 针对带移动障碍物的移动目标旅行商问题,提出混合整数锥规划公式和两阶段双层搜索算法,显著优于基线方法。
关于加法福利主义规则的公平性
专题命中 规划决策 :公平分配规则研究,与多智能体系统相关
AI总结 本文研究了加法福利主义规则在公平分配中的公平性,证明了MNW规则是唯一能保证EF1的规则,同时探讨了不同实例类型下的规则特性。
Comments Appears in the 24th International Conference on Autonomous Agents and Multiagent Systems (AAMAS), 2025
Journal ref ACM Transactions on Economics and Computation, 14(2):5 (2026)
赌博,或许为了增长
专题命中 规划决策 :研究增长最优投资组合问题,涉及决策优化
AI总结 研究增长最优(凯利)投资组合问题中的收益变换,刻画了产生更保守投资组合的变换条件,并推导了理性疏忽代理人的风险厌恶比较。