CEO-Bench: Can Agents Play the Long Game?
CEO-Bench:智能体能否玩转长期博弈?
发表机构 * Princeton University(普林斯顿大学)
专题命中 规划决策 :模拟500天运营初创公司任务
AI总结 提出CEO-Bench,通过模拟500天运营初创公司的任务,评估语言模型智能体在长期、不确定、动态环境下的综合决策能力。
AI 大模型
智能体、工具调用、规划、工作流、多智能体和自主任务执行。
CEO-Bench:智能体能否玩转长期博弈?
发表机构 * Princeton University(普林斯顿大学)
专题命中 规划决策 :模拟500天运营初创公司任务
AI总结 提出CEO-Bench,通过模拟500天运营初创公司的任务,评估语言模型智能体在长期、不确定、动态环境下的综合决策能力。
PersonalPlan: 面向个性化编程学习的多智能体系统规划
专题命中 规划决策 :多智能体规划器用于个性化编程学习
AI总结 提出PersonalPlan,一种两阶段多智能体规划器,通过分层SFT和奖励自适应GRPO生成可执行、个性化且具有教学支架的计划,在MAP-PPL数据集上优于现有方法。
PatchWorld:可执行世界模型的免梯度优化
发表机构 * Hong Kong Baptist University(香港 Baptist 大学) ; Independent Researcher(独立研究员) ; HKUST(香港科技大学) ; Beijing Institute of Technology(北京理工大学) ; Southern University of Science and Technology(南方科技大学) ; Wayne State University(韦恩州立大学) ; University of Edinburgh(爱丁堡大学)
专题命中 规划决策 :可执行世界模型,用于智能体规划与预测
AI总结 提出 PatchWorld 框架,通过反例引导的代码修复将离线轨迹转化为可执行的 Python 世界模型,实现无需梯度优化的符号信念状态程序,在 AgentGym 环境中达到 76.4% 的宏观成功率。
Comments 40 pages
InfoPO:面向用户智能体的信息驱动策略优化
发表机构 * Peking University(北京大学) ; The Hong Kong University of Science(香港科学大学)
专题命中 规划决策 :信息驱动策略优化,面向用户智能体
AI总结 针对多轮交互中信用分配和优势信号不足的问题,提出信息增益奖励与自适应方差门控融合的InfoPO方法,在意图澄清、协作编码等任务上优于现有基线。
ActMem:弥合LLM代理中记忆检索与推理之间的差距
发表机构 * State Key Laboratory for Novel Software Technology, Nanjing University, China(南京大学新型软件技术国家重点实验室) ; Alibaba Group, Hangzhou, China(阿里巴巴集团,杭州,中国) ; National Institute of Healthcare Data Science, Nanjing University, China(南京大学健康数据科学国家研究院)
专题命中 规划决策 :记忆检索与推理结合,主动因果推理
AI总结 提出ActMem框架,通过将非结构化对话历史转化为结构化因果语义图,结合反事实推理和常识补全,实现主动因果推理,显著提升LLM代理在复杂记忆依赖任务中的表现。
大型语言模型代理中行为智能的结构化认知循环(扩展修订:从行为架构到认知问责)
发表机构 * JEI University(JEI大学)
专题命中 规划决策 :结构化认知循环实现LLM代理可问责行为
AI总结 提出结构化认知循环(SCL)架构,通过分离认知、记忆、控制和行动模块,实现LLM代理的可问责行为,在360个任务中成功率86.3%,优于基线方法。
Comments This revised version extends the original SCL framework from a behavioral architecture for reliable LLM agents into a broader architecture of epistemic accountability, integrating context-aware Human-in-the-Loop control, Pool-Gated Retrieval, and the Horizon-Warrant-Commitment structure
WorldLines: 对长时域有状态具身智能体进行基准测试与建模
发表机构 * HKUST(GZ)(香港科技大学(广州)) ; HKUST(香港科技大学) ; Knowin
专题命中 规划决策 :具身智能体长时记忆与任务规划。
AI总结 提出WorldLines基准,通过构建带时间跨度的家庭轨迹(含对话、动作、状态变化等)评估具身智能体的长时记忆与任务规划能力,并设计ObsMem记忆框架提升状态感知决策。
Comments 27 pages, 18 figures
通用型智能体必须记住什么?
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Georgia Institute of Technology(佐治亚理工学院)
专题命中 规划决策 :通用智能体记忆需求的形式化分析。
AI总结 本文形式化论证了通用型智能体为在多个环境和目标下近似最优行动,必须存储领域相关信息以区分观察瓶颈处的不兼容最优动作,并证明记忆可用于重构局部转移动态。
OmniPlan:一种用于及时且近乎最优的网络规划优化的自适应框架
发表机构 * Zhejiang University(浙江大学) ; Fuzhou University(福州市大学) ; Yangzhou University(扬州大学) ; The State Key Laboratory of Blockchain and Data Security(区块链与数据安全国家重点实验室) ; College of Computer Science and Technology(计算机科学与技术学院)
专题命中 规划决策 :自适应框架动态选择求解器进行规划
AI总结 提出OmniPlan自适应框架,利用大语言模型解析用户意图,通过混合专家架构动态选择MIP求解器、启发式算法或深度强化学习模型,实现网络规划优化的及时性与近乎最优性,在分布式机器学习推理卸载任务中延迟降低97.8%,资源消耗降低11.5%。
Comments Accepted by ACM KDD 2026
MapSatisfyBench: 通过行为隐含决策因素基准测试满意度感知的地图智能体
发表机构 * University of Chinese Academy of Sciences(中国科学院大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所)
专题命中 规划决策 :评估地图智能体的隐含需求满足能力
AI总结 提出MapSatisfyBench基准,通过恢复用户行为链中的隐含决策因素来评估地图智能体的满意度感知能力,实验表明现有智能体在显式任务完成上表现良好,但在满足隐含需求方面仍有局限。
MeEvo: 元认知进化与自然进化相结合用于自动启发式设计
发表机构 * School of Computer Science, University of Nottingham Ningbo China(诺丁汉大学宁波分校计算机科学学院) ; School of Computer Science, University of Nottingham(诺丁汉大学计算机科学学院)
专题命中 规划决策 :自动启发式设计框架,结合进化与元认知
AI总结 提出MeEvo框架,通过循环耦合自然进化(探索启发式代码)和元认知进化(反思历史生成改进启发式),解决现有方法知识继承弱、探索不足的问题,在五个优化问题上表现更优。
知识图谱下的短期到长期记忆转移:在部分可观测性下的短期到长期记忆转移
专题命中 规划决策 :强化学习中记忆转移,属于智能体决策。
AI总结 本文研究了在部分可观测性下知识图谱中的短期到长期记忆转移问题,提出了一种基于神经符号价值决策的方法,通过在长期插入前决定保留或丢弃观察到的三元组,从而提升记忆效率,并在RoomKG基准测试中优于符号和神经基线方法。
基于潜在世界模型的分层规划
发表机构 * FAIR at Meta(Meta旗下的FAIR) ; New York University(纽约大学) ; Mila - Québec AI Institute(魁北克AI研究院) ; Brown University(布朗大学)
专题命中 规划决策 :分层世界模型用于长时域规划,属智能体规划
AI总结 提出HWM架构,通过多时间尺度潜在世界模型和潜在匹配实现分层模型预测控制,解决长时域任务中单层规划失败和计算爆炸问题。
集中流动性做市商中的博弈论流动性提供
专题命中 规划决策 :博弈论模型分析流动性提供策略
AI总结 针对集中流动性做市商中流动性提供者的策略互动,建立博弈论模型,证明其可简化为具有唯一纳什均衡的线性复杂度博弈,均衡遵循水填充策略,并基于真实数据发现LP策略偏离均衡,调整后可提升日收益率。
部分可观测环境下导航的生成模型预测规划
发表机构 * University of Manchester(曼彻斯特大学) ; Aalto University(阿尔托大学)
专题命中 规划决策 :生成模型预测规划用于导航
AI总结 提出BeliefDiffusion框架,结合扩散模型和模型预测控制,显式建模多模态信念分布并进行前瞻规划,在合成地图环境中显著优于无模型强化学习和生成方法。
测试集中式和多中心计算规划
专题命中 规划决策 :比较计算规划者与基于代理的市场,涉及规划决策
AI总结 本文提出一个可复现的合成基准,在模拟经济中比较计算规划者、基于代理的市场和混合元市场,发现规划者福利损失更低,但结果受设计选择影响,主要贡献是方法论而非意识形态。
无环境奖励的固定通道感知事件流在线奖惩学习
发表机构 * Zirong Li(李 Cirong)
专题命中 规划决策 :提出无环境奖励的在线奖惩学习框架。
AI总结 提出OHIRL框架,在无标量奖励下通过固定通道感知流进行在线奖惩学习,利用内部轨迹评估器推断感知维度的效价,在XOR任务和CartPole等控制任务中达到高准确率。
Comments 9 pages, 5 figures, 6 tables; 13-page technical supplement
LLMZero: 通过LLM智能体发现RL后训练的自适应训练策略
发表机构 * Amazon(亚马逊)
专题命中 规划决策 :利用LLM智能体进行树搜索发现训练策略
AI总结 提出LLMZero系统,利用LLM智能体通过树搜索发现多阶段RL后训练的自适应策略,揭示容量参数单调累积、正则化参数振荡的规律,在4个GRPO任务上相对基线提升9%-140%。
三相不平衡配电系统恢复在负荷预测稀疏对抗攻击下的网络弹性
专题命中 规划决策 :攻击下的恢复规划,涉及决策
AI总结 本文量化对抗性攻击对负荷预测的影响,提出梯度稀疏攻击方法,并建立恢复感知验证框架,揭示系统级故障,为设计网络安全感知的恢复规划提供见解。
Comments 10 pages, 7 figures
博弈中的递归联合模拟
发表机构 * Foundations of Cooperative AI Lab (FOCAL), Computer Science Department(合作人工智能基础实验室(FOCAL),计算机科学系) ; Carnegie Mellon University(卡内基梅隆大学) ; AI Center(人工智能中心) ; Czech Technical University(捷克技术大学) ; Center for Theoretical Study(理论研究中心) ; Charles University(查理大学)
专题命中 规划决策 :研究AI智能体递归联合模拟实现合作
AI总结 研究AI智能体通过递归联合模拟实现合作,证明该过程等价于原博弈的无限重复版本,从而可直接应用民间定理等现有结论。
带奖励机的帕累托Q学习
发表机构 * Linköping University, Sweden(瑞典_linköping大学) ; Univ. Lille, CNRS, Centrale Lille, UMR 9189 CRIStAL, F-59000 Lille, France(法国里尔大学、CNRS、中央里尔学院、UMR 9189 CRIStAL、法国里尔) ; Univ. Toulouse, INRAE-MIAT, Toulouse, France(法国图卢兹大学、INRAE-MIAT、图卢兹)
专题命中 规划决策 :多目标强化学习算法,用于智能体决策
AI总结 提出PQLRM算法,结合帕累托Q学习和奖励机,在多目标强化学习中高效逼近帕累托前沿,并处理非马尔可夫奖励。
Comments Accepted at the ICAPS 2026 Workshop on Bridging the Gap Between AI Planning and (Reinforcement) Learning (PRL)
入乡随俗:从异构智能体学习通用行为
发表机构 * University of Washington(华盛顿大学) ; NVIDIA(英伟达)
专题命中 规划决策 :提取通用奖励训练通用智能体
AI总结 提出GRID方法,从追求不同目标的异构示范者中提取通用奖励,训练通用智能体以学习环境通用能力,避免模式平均偏差,提升下游任务微调效率。
鲁棒正则化策略迭代在转移不确定性下
发表机构 * College of Computer Science and Technology, Zhejiang University, Hangzhou, China(浙江大学计算机科学与技术学院) ; School of Artificial Intelligence, Optics and Electronics (iOPEN), Northwestern Polytechnical University, Xi'an, China(西北工业大学人工智能、光学与电子学院(iOPEN)) ; School of Software Technology, Zhejiang University, Hangzhou, China(浙江大学软件技术学院) ; School of Software Engineering, Xi'an Jiaotong University, Xi'an, China(西安交通大学软件工程学院) ; School of Systems Science and Engineering, Sun Yat-sen University, Guangzhou, China(中山大学系统科学与工程学院)
专题命中 规划决策 :离线强化学习用于智能体决策
AI总结 提出鲁棒正则化策略迭代(RRPI),通过将离线强化学习建模为鲁棒策略优化,使用KL正则化替代难解的双层目标,并基于鲁棒正则化贝尔曼算子实现高效策略迭代,理论保证收敛性,实验在D4RL基准上表现优异。
带移动障碍物的移动目标旅行商问题的两阶段双层搜索
发表机构 * Texas A&M University(德克萨斯A&M大学) ; Carnegie Mellon University(卡内基梅隆大学)
专题命中 规划决策 :移动目标TSP的两阶段双层搜索算法
AI总结 针对带移动障碍物的移动目标旅行商问题,提出混合整数锥规划公式和两阶段双层搜索算法,显著优于基线方法。
关于加法福利主义规则的公平性
专题命中 规划决策 :公平分配规则研究,与多智能体系统相关
AI总结 本文研究了加法福利主义规则在公平分配中的公平性,证明了MNW规则是唯一能保证EF1的规则,同时探讨了不同实例类型下的规则特性。
Comments Appears in the 24th International Conference on Autonomous Agents and Multiagent Systems (AAMAS), 2025
Journal ref ACM Transactions on Economics and Computation, 14(2):5 (2026)
赌博,或许为了增长
专题命中 规划决策 :研究增长最优投资组合问题,涉及决策优化
AI总结 研究增长最优(凯利)投资组合问题中的收益变换,刻画了产生更保守投资组合的变换条件,并推导了理性疏忽代理人的风险厌恶比较。