AI 大模型
AI Agent
智能体、工具调用、规划、工作流、多智能体和自主任务执行。
RetailBench: Benchmarking long horizon reasoning and coherent decision making of LLM agents in realistic retail environments
RetailBench: 在真实零售环境中评估LLM代理的长期推理与连贯决策能力
专题命中 规划决策 :评估LLM代理在零售环境中的长期决策
AI总结 提出RetailBench基准,模拟单店超市运营,评估LLM代理在长期决策中的表现,发现多数模型无法持续生存,与最优策略差距显著。
Comments This paper is my paper's second version [see arXiv:2603.16453v2]
VOiLA: Vectorized Online Planning with Learned Diffusion Model for POMDP Agents
VOiLA: 基于学习扩散模型的向量化在线规划用于POMDP智能体
专题命中 规划决策 :在线规划智能体,处理部分可观测环境。
AI总结 提出VOiLA框架,利用条件扩散模型学习POMDP模型,通过蒸馏加速采样并与向量化在线规划器集成,在三个基准任务和实物机器人上实现高效在线规划。
Comments Submitted to the 2026 International Symposium of Robotics Research (ISRR)
Uncertainty Decomposition for Clarification Seeking in LLM Agents
LLM代理中寻求澄清的不确定性分解
专题命中 规划决策 :提出不确定性分解方法使LLM代理主动寻求澄清
AI总结 提出一种基于提示的不确定性分解方法,将行动置信度与请求不确定性分离,使代理能在任务规范模糊时主动寻求澄清,在五个LLM骨干上平均澄清F1提升36%-73%。
Comments 26 pages, 8 figures. Source code: https://github.com/PE51K/udcs-in-llm-agents
A Multi-Agent system for Multi-Objective constrained optimization
多目标约束优化的多智能体系统
专题命中 规划决策 :多智能体强化学习优化约束
AI总结 提出MAMO,通过多智能体强化学习解耦任务执行与目标设计,自动学习奖励权重以平衡主目标优化与约束违反,提升动态环境下RL的自主性和鲁棒性。
Comments Presented at the 17th Workshop on Optimization and Learning in Multiagent Systems (OptLearnMAS, https://optlearnmas.github.io), co-located with the 25th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2026)